CN114519666A

CN114519666A - 直播图像矫正方法、装置、设备及存储介质

Info

Publication number: CN114519666A
Application number: CN202210150703.7A
Authority: CN
Inventors: 宫凯程; 陈增海
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-20
Anticipated expiration: 2042-02-18
Also published as: CN114519666B

Abstract

本申请涉及一种直播图像矫正方法、装置、设备及存储介质，属于网络直播技术领域。本申请利用若干含有活动自由度低的人体轮廓关键点的直播图像及若干与人体轮廓关键点对应的标准人体轮廓关键点，对预设的矫正信息提取模型进行训练，再基于矫正信息提取模型，获取待矫正的直播图像的矫正信息，利用矫正信息对待矫正的直播图像进行仿射变换处理，得到矫正后的直播图像，可以提高直播图像的矫正效率。

Description

直播图像矫正方法、装置、设备及存储介质

技术领域

本申请涉及网络直播技术领域，特别是涉及一种直播图像矫正方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，在直播间观看主播的直播视频组件成为人们的日常娱乐活动。直播平台作为主播和观众之间的媒介，主播通过摄像头等设备将直播视频数据上传至直播平台，然后由直播平台发送观众的客户端进行播放观看。

直播过程中，主播端可以对直播视频中的特定位置例如人脸或人体添加相应的特效，以提高观众的观看体验。具体地，需要先对直播视频画面进行人体轮廓检测，根据人体轮廓检测结果添加对应的特效，当直播视角异常或者直播人物移动时，可能导致截取的直播视频画面存在畸变，影响人体轮廓检测结果。

现有技术中对人体图像的矫正，通常是将其与标准人体姿态图像进行比对来得到矫正信息，但是，由于人体存在多种动作和姿态，直播过程中获取的直播图像难以与标准位姿完全一致，矫正效果较差。

发明内容

基于此，本申请的目的在于，提供一种直播图像矫正方法、装置、设备及存储介质，提出一种直播图像矫正方法，可以提高直播图像矫正效果。

根据本申请实施例的第一方面，提供一种直播图像矫正方法，所述直播图像矫正方法包括：

获取预设的标准人体轮廓关键点信息及若干直播图像；其中，所述标准人体轮廓关键点信息包括若干活动自由度低于预设阈值的标准人体轮廓关键点；每一所述直播图像包括与所述若干标准人体轮廓关键点对应的若干人体轮廓关键点；

基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型；其中，所述矫正信息提取模型用于获取直播图像的矫正信息；

获取待矫正的直播图像；其中，所述待矫正的直播图像包括若干人体轮廓关键点；

将所述待矫正的直播图像输入所述训练后的矫正信息提取模型，获取所述待矫正的直播图像的矫正信息；

根据所述矫正信息对所述待矫正的直播图像进行仿射变换处理，获取矫正后的直播图像；

根据本申请实施例的第二方面，提供一种直播图像矫正装置，所述装置包括：

关键点信息获取模块，用于获取预设的标准人体轮廓关键点信息及若干直播图像；其中，所述标准人体轮廓关键点信息包括若干活动自由度低于预设阈值的标准人体轮廓关键点；每一所述直播图像包括与所述若干标准人体轮廓关键点对应的若干人体轮廓关键点；

训练模块，用于基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型；其中，所述矫正信息提取模型用于获取直播图像的矫正信息；

待矫正图像获取模块，用于获取待矫正的直播图像；其中，所述待矫正的直播图像包括若干人体轮廓关键点；

矫正信息获取模块，用于将所述待矫正的直播图像输入所述训练后的矫正信息提取模型，获取所述待矫正的直播图像的矫正信息；

矫正模块，用于根据所述矫正信息对所述待矫正的直播图像进行仿射变换处理，获取矫正后的直播图像。

关键点信息获取模块根据本申请实施例的第三方面，提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行任意一项所述的直播图像矫正方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现任意一项所述的直播图像矫正方法。

本申请中，利用若干含有活动自由度低的人体轮廓关键点的直播图像及若干与人体轮廓关键点对应的标准人体轮廓关键点，对预设的矫正信息提取模型进行训练，再基于矫正信息提取模型，获取待矫正的直播图像的矫正信息，利用矫正信息对待矫正的直播图像进行仿射变换处理，得到矫正后的直播图像，本申请中避开手臂、腿部等活动范围较大的部位，选取活动自由度低的人体轮廓关键点进行模型训练和图像矫正，可以实现不同动作的直播图像的人体姿态矫正，并且，本申请降低了直播图像的矫正过程中的数据处理量，提升直播图像的矫正效率，可以用于实时矫正直播图像的人体姿态。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

为了更好地理解和实施，下面结合附图详细说明本申请。

附图说明

图1为本申请一个实施例提供的一种直播图像矫正方法的应用环境的示意图；

图2为本申请一个实施例提供的直播界面示意图；

图3为本申请一个实施例提供的一种直播图像矫正方法的流程图；

图4为本申请一个实施例提供的人体轮廓采样点的示例图；

图5为本申请一个实施例提供的待矫正的直播图像的示例图；

图6为本申请另一个实施例提供的一种直播图像矫正方法的示例图；

图7为本申请一个实施例提供的截取人体所在区域的图像的示例图；

图8为本申请一个实施例提供的步骤S220的示例图；

图9为本申请另一个实施例提供的截取人体所在区域的图像的示例图

图10为本申请一个实施例提供的待矫正的直播图像的矫正过程示例图；

图11为本申请一个实施例提供的一种矫正信息提取模型的示意图；

图12为本申请一个实施例提供的一种直播图像矫正装置的结构示意图；

图13为本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其为本申请一个实施例提供的一种直播图像矫正方法的应用场景示意图，该应用场景包括本申请实施例提供的服务器端10、主播端20和观众端30。主播端20与观众端30通过服务器端10进行交互。

其中，主播端20是指发送网络直播视频的一端，通常来说是网络直播中主播所采用的观众端。

观众端30是指接收和观看网络直播视频的一端，通常来说是网络直播中观看视频的观众所采用的观众端。

主播端20和观众端30所指向的硬件，本质上是指计算机设备，具体地，如图1所示，其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播端20和观众端30均可以通过公知的网络接入方式接入互联网，与服务器端10建立数据通信链路。

服务器端10作为一个业务服务器，其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等，以此构成逻辑上相关联的服务机群，来为相关的终端设备，例如图1中所示的主播端20和观众端30提供服务。

主播端20和观众端30可以加入同一个直播间(即直播频道)，上述的直播间是指依靠互联网技术实现的一种聊天室，通常具备音视频播控功能。主播用户通过主播端20在直播间内进行直播，观众端30的观众可以进入直播间观看直播。

在直播间内，主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动，一般是主播用户以音视频流的形式为观众表演节目，并且在互动过程中还可产生经济交易行为。

当然，本申请实施例的直播图像矫正方法也可推广到其他相关场景中，例如：短视频以及其他任何需要对图像的人体姿态进行实时矫正的场景。

本申请实施例中，直播图像矫正方法在服务器端10执行，主播端20可以将直播画面实时传输给服务器端10，以使服务器端10对直播画面中的人体进行矫正，获取矫正后的直播画面并返回主播端20和观众端30，使得主播端20和观众端30可以展示经过矫正的直播图像。

可以理解的是，本实施例的直播图像矫正方法还可以是在主播端20或观众端30等终端上执行，还可以由主播端20或观众端30等终端和服务器共同执行。以上举例不应理解为对本申请的限制。

现有技术中主播端在直播时，可以对直播间显示的人脸或人体添加相应的特效(例如瘦脸或美颜)，以提升观众观看直播的体验，具体地，需要先对直播视频画面进行人体轮廓检测，根据人体轮廓检测结果添加对应的特效，当直播视角异常或者直播人物移动时，可能导致截取的直播视频画面存在畸变，影响人体轮廓检测结果。

现有技术中对人脸或人体图像的矫正，通常是将其与标准人脸姿态图像或人体姿态图像进行比对来得到矫正信息，但是，相对于人脸或其他接近刚体的对象，如图2所示，人体由于手臂、腿等部位具有较高的活动自由度，其在图像中呈现的姿态复杂且多变，且相对于人脸图像，人体图像中涉及的人体轮廓点更多，人体图像的姿态矫正技术难度更高、涉及的数据计算量更大、矫正效率较低。

针对上述问题，下面将结合附图，对本申请实施例提供的一种直播图像矫正方法进行详细介绍。

请参阅图3，本申请实施例提供一种直播图像矫正方法，包括如下步骤：

S110：获取预设的标准人体轮廓关键点信息及若干直播图像；其中，所述标准人体轮廓关键点信息包括若干活动自由度低于预设阈值的标准人体轮廓关键点；每一所述直播图像包括与所述若干标准人体轮廓关键点对应的若干人体轮廓关键点；

直播图像可以为直播间的实时直播界面或播放的直播画面等直播场景采集到的图像，其中，直播图像可以包括待识别的人体对象，在本申请实施例中，直播图像的人体对象具体为主播，若干直播图像可以从直播图像数据库中获取各类包含有人体轮廓的直播图像。

其中，每一所述直播图像包括若干人体轮廓关键点，人体轮廓关键点为活动自由度低于预设阈值的人体轮廓采样点。

优选地，直播图像包括所有与标准人体轮廓关键点对应的人体轮廓关键点，以提高矫正信息提取模型的训练精度。

需要说明的是，若直播图像中缺失部分人体轮廓关键点，可以采用机器模拟或者人为预测的方式对缺失的人体轮廓关键点进行标注。

人体轮廓采样点为直播图像中人体的身体轮廓的特征点，其中，人体轮廓采样点可以根据直播图像所包含的人体的部位，通过人工标注的方式得到。在一个优选的实施例中，人体轮廓采样点可以为如图4所示的围绕人体，涉及人体各部位的64个采样点。

人体轮廓关键点用于确定关键部位的人体轮廓特征点，其中，人体轮廓关键点可以根据人体的日常活动情况进行确定，例如，人体轮廓关键点可以选取在人体关节、躯干等不经常活动的位置。具体地，在本实施例中，人体轮廓关键点为图3中的标识为0、12、18、29、40、46、58的人体轮廓采样点。

标准人体轮廓关键点信息用于确定直播图像的标准人体位姿，人体位姿可以包括人体的位置和姿态，人体位置可以包括居中，靠左对齐或靠右对齐等，人体姿态可以包括人体的尺寸大小及人体是否摆正等，标准人体位姿可以是人体位置居中、尺寸大小满足预设尺寸以及人体摆正的直播图像。

标准人体轮廓关键点信息可以包括若干活动自由度低于预设阈值的标准人体轮廓关键点，标准人体轮廓关键点信息可以包括各个标准人体轮廓关键点的位置信息，标准人体轮廓关键点的位置信息可以为根据用户实际需求设置，其中，标准人体轮廓关键点与直播图像的人体轮廓关键点对应，标准人体轮廓关键点用于确定矫正后的直播图像上的人体轮廓关键点的位置。

S120：基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型；

矫正信息提取模型可用于获取直播图像的人体位姿与标准位姿之间的偏差信息，从而可以根据该偏差信息对直播图像进行矫正，实现直播图像的矫正。

具体地，矫正信息提取模型用于根据直播图像的人体轮廓关键点信息与标准人体轮廓关键点信息，拟合直播图像上各点与标准点之间的几何变换关系。在将待矫正直播图像输入矫正信息提取模型时，可以获取待矫正直播图像的矫正信息以对待矫正直播图像进行矫正。

在本申请实施例中，矫正信息提取模型基于卷积神经网络模型构建。卷积神经网络模型(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，卷积神经网络模型包括若干个卷积层(convolutional layer)、池化层(pooling layer)、全连接层(fullyconnected layer)等，卷积神经网络在图像识别及图像处理上具有良好的应用。

其中，所述若干个卷积层用于对所述直播图像进行卷积处理，下采样至第一预设分辨率并输出特征图至池化层；

所述池化层用于对所述若干个卷积层输出的特征图进行池化处理，下采样至第二预设分辨率并输出至全连接层；

所述全连接层用于根据所述池化层输出的第二预设分辨率的特征图进行全连接处理，得到直播图像的矫正信息。

其中，第一预设分辨率和第二预设分辨率可以根据直播图像的尺寸及图像处理需求进行设置，第一预设分辨率大于第二预设分辨率。

矫正信息提取模型用于获取直播图像的矫正信息；矫正信息可用于调整直播图像的旋转角度、水平位移和缩放尺度，使得直播图像中的目标对象(例如本申请实施例中的主播)满足目标位姿，目标位姿可以根据用户的实际需求进行设置，例如，可以是使人体居中，便于后续过程对直播图像进行轮廓检测或人体分割等图像处理，提高图像处理效率。

矫正信息提取模型训练过程中，可以根据人体轮廓关键点和标准人体轮廓关键点的位置的偏差值来计算损失值，当损失值小于预设损失阈值，则确定矫正信息提取模型完成训练。

可选的，可以在直播图像中构建坐标系，该坐标系可以以直播图像的中心点作为原点，以直播图像的两条相邻边作为XY轴，获取人体轮廓关键点的位置信息，根据人体轮廓关键点和标准人体轮廓关键点的位置信息计算损失值。

训练过程中，可以将训练样本的图像尺寸调整为预设的图像尺寸，例如，128x192像素，预设的图像尺寸可以根据矫正信息提取模型的结构及用户需求进行设置。

其中，训练样本的x_i的人体轮廓关键点标注为y_i，标准人体轮廓关键点记为y_t，将矫正信息提取模型输出的仿射变换矩阵M作用于人体轮廓关键点y_i得到y_im，计算y_im与y_t的差作为损失函数，具体地，基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型的步骤包括：

将所述若干直播图像输入所述预设的矫正信息提取模型，获取所述若干直播图像的矫正信息；

根据所述矫正信息对所述若干直播图像进行仿射变换处理，获取矫正后的直播图像的人体轮廓关键点的预测位置信息；

按照以下方式获取矫正信息提取模型的损失值：

loss＝(y_im-y_t)²

其中，loss表示损失值，y_im表示矫正后的直播图像的人体轮廓关键点的预测位置信息，y_t表示标准人体轮廓关键点的位置信息；

调整所述矫正信息提取模型的模型参数，直至所述矫正信息提取模型的损失值小于预设损失阈值。

模型参数可以包括矫正信息提取模型各层的权重及偏重等参数。

预设损失阈值可以根据用户的训练需求进行设置，在此不做限制。

在将上述训练样本输入矫正信息提取模型之后，可以基于随机梯度下降算法、自适应学习率等优化器算法，获取模型的损失值，若损失值大于预设损失阈值，调整模型参数，直至矫正信息提取模型的损失值小于预设损失阈值。

在一个实施例中，基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型的步骤包括：

基于随机梯度下降算法，以所述若干直播图像及所述预设的标准人体轮廓关键点信息训练预设的矫正信息提取模型，调整所述矫正信息提取模型的模型参数。

随机梯度下降算法(SGD)是通过沿着目标函数参数的梯度(一阶导数)相反方向来不断更新模型参数来到达目标函数的极小值点(收敛)，每次训练时，从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次，直至损失值小于预设损失阈值，训练速度快，训练效率高。

在本申请实施例中，利用随机梯度下降算法训练矫正信息提取模型，提高矫正信息提取模型的训练效率。

S130：获取待矫正的直播图像；

如图5所示，在直播过程中，当主播用户可能由于拍摄视角，或者移动等原因导致拍摄的人体图像中人体的位姿无法正对图像采集装置(例如，相机、摄像头等)，产生偏移或者倾斜，在该情况下，可以利用本申请实施例的直播图像矫正方法对该直播图像进行实时矫正，无需再重新拍摄或采集直播图像。

其中，所述待矫正的直播图像包括至少一个人体轮廓关键点。

S140：将所述待矫正的直播图像输入所述训练后的矫正信息提取模型，获取所述待矫正的直播图像的矫正信息；

矫正信息用于对矫正直播图像，具体地，矫正信息可以包括待矫正的直播图像的旋转的角度参数、平移的位置参数及缩放的尺度参数等信息，或者，矫正信息也可以包括待矫正的直播图像的仿射变换矩阵。

S150：根据所述矫正信息对所述待矫正的直播图像进行仿射变换处理，获取矫正后的直播图像。

可选的，当矫正信息包括待矫正的直播图像的仿射变换矩阵，利用所述仿射变换矩阵对所述直播图像进行仿射变换处理的步骤包括：

根据仿射变换矩阵对待矫正的直播图像进行矫正。

其中，仿射变换矩阵可以包括角度参数、位置参数及尺度参数，利用所述矫正信息对所述直播图像进行仿射变换处理的步骤包括：

基于所述角度参数对所述直播图像进行旋转处理，基于所述位置参数对第一直播图像进行平移处理，基于所述尺度参数对第二直播图像进行缩放处理，得到矫正后的直播图像。

其中，角度参数用于确定待矫正的直播图像的矫正角度，位置参数用于确定待矫正的直播图像的平移位置，尺度参数用于确定待矫正的直播图像的缩放比例，在利用上述角度参数、位置参数及尺度参数对待矫正的直播图像进行处理后，即可得到满足目标位姿的直播图像。

需要说明的是，上述旋转处理、平移处理以及缩放处理的处理顺序仅作为示例，不作具体限定。用户可以根据实际需求调整上述旋转处理、平移处理以及缩放处理的处理顺序，例如，可以先进行缩放处理，再进行旋转处理，最后进行平移处理等，在此不一一列举。

可选的，对于矫正后的直播图像的输出形式不做限定，例如可以以图片、视频、短视频等形式输出矫正后的直播图像。

请参阅图5-8，其为一个实施例中对待矫正直播图像进行矫正的示例图，以下以图5为例对本申请的方案进行说明：

如图5所示，其为截取直播间画面得到的待矫正直播图像，将待矫正直播图像输入训练后的矫正信息提取模型，得到待矫正直播图像的仿射变换矩阵，基于该仿射变换矩阵对待矫正直播图像进行仿射变换处理，得到矫正后的直播图像。

但是，由图5可见，该待矫正直播图像中除了主播外还包括直播间控件及直播间背景等与人体无关的内容，若将其直接输入矫正信息提取模型中，上述与人体无关的内容影响矫正信息提取模型的提取的准确性及效率。

因此，如图6所示，在一个优选的实施例中，在待矫正直播图像输入训练后的矫正信息提取模型的步骤之前，还包括以下步骤：

S210：检测所述待矫正的直播图像的人体所在区域，获取人体所在区域的区域信息；

S220：根据所述人体所在区域的区域信息，截取所述直播图像中人体所在区域的图像，将所述人体所在区域的图像输入所述训练后的矫正信息提取模型。

具体地，步骤S210中可以采用opencv人体识别技术、百度人体检测技术等人体检测算法检测直播图像中的人体，获取人体所在区域的区域信息。

区域信息可用于在直播图像中标识人体所在区域，例如，如图7所示，在直播图像中将人体所在区域以包围框401的方式进行标识，其中，包围框401为包围人体的最小方框。

步骤S220中，根据人体所在区域的区域信息，对直播图像进行图像处理，截取人体所在区域的图像作为矫正信息提取模型的输入图像，可以降低直播图像中背景或其他非人体部分对矫正信息提取模型提取结果的干扰，得到准确的矫正信息。

如图8所示，具体地，截取所述直播图像中人体所在区域的图像的步骤具体包括：

S221：根据所述区域信息，获取人体所在区域的中心点的位置信息；

S222：按照所述中心点的位置信息及预设的图像尺寸，获取所述直播图像中待截取图像的位置信息；

S223：根据待截取图像的位置信息，截取所述直播图像中人体所在区域的图像。

其中，截取图像的图像尺寸可以与矫正信息提取模型的训练样本一致，例如，预设的图像尺寸可以为128x192像素。

或者，为了保证人体可以全部被包含在截取图像中，可以根据人体所在区域的区域信息，确定人体所在区域的宽度和高度，将预设的图像尺寸的长度设置为人体所在区域的宽度和高度中的最大值的第一预设倍数，例如1.3倍，将预设的图像尺寸的宽度设置为长度的第二预设倍数，例如2/3。

如图9所示，根据上述步骤S221-S223确定直播图像中的待截取区域402，其中，待截取区域402指示人体所在区域，从直播图像中截取人体所在区域的图像。

如图10所示，经过步骤S210-S220后得到人体所在区域的图像a，将人体所在区域的图像a作为待矫正的直播图像并输入训练后的矫正信息提取模型，得到人体所在区域的图像a的仿射变换矩阵，截取后的人体所在区域的图像a减少了背景或其他非人体部分的干扰，可以有效提高矫正信息提取效率；基于该仿射变换矩阵对人体所在区域的图像a进行仿射变换处理，可以快速得到矫正后的直播图像b。

如图11所示，其为本申请一个实施例的矫正信息提取模型的示意图，其中，矫正信息提取模型可以包括多个第一卷积层、多个第二卷积层、池化层和全连接层。第一卷积层和第二卷积层按照如图11所示交叉排列，其中，矫正信息提取模型包括依次连接的第一卷积层、第二卷积层、第二卷积层、第一卷积层、第二卷积层、第一卷积层、第一卷积层、第二卷积层、第一卷积层、第一卷积层、池化层和全连接层。

其中，第一卷积层和第二卷积层为步长(stride)不同的卷积层，第一卷积层和地热卷积层的步长可以根据输入的直播图像进行具体设置，例如，当直播图像的大小为宽度为128像素，高度为192像素时，第一卷积层为3x3的卷积层，步长可以为1，第二卷积层为3x3的卷积层，步长可以为2；

池化层可以为全局平均池化层(Global Average Pooling)或其他满足本申请上述功能的池化层。

本申请实施例中，将128x192像素的人体所在区域的图像a输入如图11所示的矫正信息提取模型中，经过如图11所示的多个第一卷积层、多个第二卷积层、池化层和全连接层的处理，得到2x3的仿射变换矩阵，利用该仿射变换矩阵对待矫正的直播图像进行矫正，得到矫正后的直播图像。

矫正后的直播图像可以随人体分割功能集成到人体特效产品(例如，配置有直播客户端、视频播放客户端或者是视频图像处理(例如瘦身、长腿等)客户端的电子设备)中，或者随动作识别功能集成到动作识别的应用产品(例如，直播平台可以捕捉主播用户的动作，用于添加动作特效等)中。

需要说明的是，本申请中的矫正信息提取模型仅为一个示例性的实施例，用户可以根据输入直播图像的尺寸及对输出的仿射变换矩阵的阵列数适应性地调整矫正信息提取模型的结构及层数，在此不作限定。

本申请实施例中，利用若干含有活动自由度低的人体轮廓关键点的直播图像及若干与人体轮廓关键点对应的标准人体轮廓关键点，对预设的矫正信息提取模型进行训练，再基于矫正信息提取模型，获取待矫正的直播图像的矫正信息，利用矫正信息对待矫正的直播图像进行仿射变换处理，得到矫正后的直播图像，本申请中避开手臂、腿部等活动范围较大的部位，选取活动自由度低的人体轮廓关键点进行模型训练和图像矫正，可以实现不同动作的直播图像的人体姿态矫正，并且，本申请降低了直播图像的矫正过程中的数据处理量，提升直播图像的矫正效率，可以用于实时矫正直播图像的人体姿态。

如图12所示，本申请实施例还提供一种直播图像矫正装置，可以用于执行本申请实施例的直播图像矫正方法。对于本实施例中未披露的细节，请参照本申请的方法实施例。

请参阅图12，图12是本申请实施例公开的一种直播图像矫正装置的结构示意图。所述的直播图像矫正装置包括：

关键点信息获取模块310，用于获取预设的标准人体轮廓关键点信息及若干直播图像；其中，所述标准人体轮廓关键点信息包括若干活动自由度低于预设阈值的标准人体轮廓关键点；每一所述直播图像包括与所述若干标准人体轮廓关键点对应的若干人体轮廓关键点；

训练模块320，用于基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型；其中，所述矫正信息提取模型用于获取直播图像的矫正信息；

待矫正图像获取模块330，用于获取待矫正的直播图像；其中，所述待矫正的直播图像包括若干人体轮廓关键点；

矫正信息获取模块340，用于将所述待矫正的直播图像输入所述训练后的矫正信息提取模型，获取所述待矫正的直播图像的矫正信息；

矫正模块350，用于根据所述矫正信息对所述待矫正的直播图像进行仿射变换处理，获取矫正后的直播图像。

关键点信息获取模块本实施例提供一种电子设备，可以用于执行本申请实施例的直播图像矫正方法的全部或部分步骤。对于本实施例中未披露的细节，请参照本申请的方法实施例。

请参阅图13，图13为本申请实施例提供的电子设备的结构示意图。所述电子设备400可以但不限于是各种服务器、个人计算机、笔记本电脑、智能手机、平板电脑等设备的一个或多个的组合。

在本申请较佳实施例中，所述电子设备500包括存储器501、至少一个处理器502、至少一条通信总线503及收发器504。

本领域技术人员应该了解，图13示出的电子设备的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备500还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备500是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备500还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备500仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器501中存储有计算机程序，所述计算机程序被所述至少一个处理器502执行时实现如所述实施例一的直播图像矫正方法中的全部或者部分步骤。所述存储器501包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器502是所述电子设备500的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备500的各个部件，通过运行或执行存储在所述存储器501内的程序或者模块，以及调用存储在所述存储器501内的数据，以执行电子设备500的各种功能和处理数据。例如，所述至少一个处理器502执行所述存储器中存储的计算机程序时实现本申请实施例中所述的直播图像矫正方法的全部或者部分步骤；或者实现直播图像矫正装置的全部或者部分功能。所述至少一个处理器502可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(CentralProcessing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线503被设置为实现所述存储器501以及所述至少一个处理器502等之间的连接通信。

所述电子设备500还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

本实施例提供一种计算机可读存储介质，其上储存有计算机程序，所述指令适于由处理器加载并执行本申请实施例一的直播图像矫正方法，具体执行过程可以参见实施例一的具体说明，在此不进行赘述。

对于设备实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种直播图像矫正方法，其特征在于，所述方法包括：

基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型，其中，所述矫正信息提取模型用于获取直播图像的矫正信息；

根据所述矫正信息对所述待矫正的直播图像进行仿射变换处理，获取矫正后的直播图像。

2.根据权利要求1所述的直播图像矫正方法，其特征在于，在将所述待矫正的直播图像输入所述训练后的矫正信息提取模型步骤之前，还包括：

检测所述待矫正的直播图像的人体所在区域，获取人体所在区域的区域信息；

根据所述人体所在区域的区域信息，截取所述直播图像中人体所在区域的图像，将所述人体所在区域的图像输入所述训练后的矫正信息提取模型。

3.根据权利要求2所述的直播图像矫正方法，其特征在于，截取所述直播图像中人体所在区域的图像的步骤包括：

根据所述区域信息，获取人体所在区域的中心点的位置信息；

按照所述中心点的位置信息及预设的图像尺寸，获取所述直播图像中待截取图像的位置信息；

根据待截取图像的位置信息，截取所述直播图像中人体所在区域的图像。

4.根据权利要求1所述的直播图像矫正方法，其特征在于，所述矫正信息包括角度参数、位置参数及尺度参数，利用所述矫正信息对所述直播图像进行仿射变换处理的步骤包括：基于所述角度参数对所述直播图像进行旋转处理，基于所述位置参数对对所述直播图像进行平移处理，基于所述尺度参数对对所述直播图像进行缩放处理，得到矫正后的直播图像。

5.根据权利要求1所述的直播图像矫正方法，其特征在于，基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型的步骤包括：

按照以下方式获取矫正信息提取模型的损失值：

loss＝(y_im-y_t)²

6.根据权利要求1-5任一项所述的直播图像矫正方法，其特征在于，所述矫正信息提取模型包括：若干个卷积层、池化层和全连接层；

所述若干个卷积层用于对所述直播图像进行卷积处理，下采样至第一预设分辨率并输出特征图至池化层；

7.根据权利要求5所述的直播图像矫正方法，其特征在于，基于所述若干直播图像及所述预设的标准人体轮廓关键点信息，训练预设的矫正信息提取模型的步骤包括：

8.一种直播图像矫正装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1至7中任意一项所述的直播图像矫正方法。

10.一种计算机可读存储介质，其上储存有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的直播图像矫正方法。