CN109151540A

CN109151540A - 视频图像的交互处理方法及装置

Info

Publication number: CN109151540A
Application number: CN201710506077.XA
Authority: CN
Inventors: 李亮; 陈少杰; 张文明
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Shenzhen Ziyue Culture Co.,Ltd.
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2019-01-04
Anticipated expiration: 2037-06-28
Also published as: CN109151540B

Abstract

本发明实施例提供了一种视频图像的交互处理方法及装置，该方法包括：在视频直播过程中，获取实时采集的视频图像中的人脸定位信息和人脸姿态信息；根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度；根据加载位置和偏转角度将目标三维模型加载到视频图像中人脸对应的显示区域；当视频图像中人脸的面部表情发生变化时，根据面部表情的变化控制目标三维模型生成相应的显示状态。本发明实施例提供的视频图像的交互处理方法及装置，通过在实时采集的视频图像中增加三维模型的特效显示，并根据人脸信息控制三维模型的显示状态，实现模型与人脸的交互效果，有效地提高了直播过程的趣味性，提升用户交互体验。

Description

视频图像的交互处理方法及装置

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种视频图像的交互处理方法及装置。

背景技术

随着计算机和互联网技术的不断发展，视频技术越来越多的应用在人们的日常生活和工作中，如视频聊天、视频游戏、视频直播以及网络视频教学等。人们对视频技术的要求也日益增高，越来越多的人希望视频图像能够满足他们多样的个性化需求，因此，视频特效技术应运而生，它可以使视频内容变得更加丰富，效果更加逼真。例如，当人们用电脑摄像头进行视频交流时，视频特效技术可以呈现出诸如特效字体显示、特效动画等多样的视频画面，以满足人们不同的个性化需要。

通常，视频特效技术都是在二维平面上来完成的，通过对视频中信息的定位和跟踪，直接在二维图像空间上，对二维图像进行滤波来实现如马赛克、人脸模糊、人脸替换等特效。在这些视频特效中，各种视频背景图案的变换实质上是二维图像的重叠，也就是实现一些比较简单的特效效果。目前，三维视频特效的产品还很少。一些单纯的三维特效虽然可以实现一定的特效效果，但这种单纯的三维特效是按照设定的程序运行，缺乏趣味性，用户交互体验差。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频图像的交互处理方法及装置。

本发明的一个方面，提供了一种视频图像的交互处理方法，包括:

在视频直播过程中，获取实时采集的视频图像中的人脸定位信息和人脸姿态信息；

根据所述人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度；

根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域；

当所述视频图像中人脸的面部表情发生变化时，根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态。

其中，所述目标三维模型为动物的头部三维模型；

所述根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态，包括：

根据所述面部表情的变化控制所述头部三维模型生成相应的面部表情。

其中，所述根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度，包括：

根据所述人脸定位信息确定所述目标三维模型加载到所述视频图像中的位置平移矩阵；

根据所述位置平移矩阵以及所述人脸姿态信息确定所述目标三维模型加载到所述视频图像中的旋转矩阵；

根据所述旋转矩阵以及所述目标三维模型对应的投影矩阵和视图矩阵，确定所述目标三维模型的加载位置。

其中，在所述确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后，还包括：

根据所述视频图像中人脸对应的显示区域的缩放比例，控制所述目标三维模型以相同缩放比例进行显示。

其中，所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域，包括：

基于所述加载位置和偏转角度，采用图形程序接口或多媒体编程接口将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。

其中，在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后，还包括：

获取所述视频图像中实时更新的人脸信息，调整所述目标三维模型在所述视频图像中的加载位置和偏转角度；

根据调整后的加载位置和偏转角度，更新所述目标三维模型在所述视频图像中的显示状态。

其中，在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之前，还包括：

根据用户触发的模型选取操作，从预设三维模型库中选取对应的三维模型，并将该三维模型作为所述目标三维模型。

本发明的另一个方面，提供了一种视频图像的交互处理装置，包括：

获取模块，用于在视频直播过程中，获取实时采集的视频图像中的人脸定位信息和人脸姿态信息；

计算模块，用于根据所述人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度；

显示模块，用于根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域；

交互模块，用于当所述视频图像中人脸的面部表情发生变化时，根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态。

此外，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述方法的步骤。

此外，本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

本发明实施例提供的视频图像的交互处理方法及装置，在视频直播过程中，通过在实时采集的视频图像中增加三维模型的特效显示，并根据人脸信息控制三维模型的显示状态，实现模型与人脸的交互效果，进而实现了用户与三维视频特效之间的实时交互，使视频内容变得更加丰富，提高了直播过程的趣味性，有效地提升了用户交互体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例的一种视频图像的交互处理方法的流程图；

图2为本发明实施例的一种视频图像的交互处理方法中步骤S12的细分流程图；

图3为本发明实施例的一种视频图像的交互处理装置的结构示意图；

图4为本发明实施例的计算机设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

图1示意性示出了本发明一个实施例的视频图像的交互处理方法的流程图。参照图1，本发明实施例的视频图像的交互处理方法具体包括以下步骤：

步骤S11、在视频直播过程中，获取实时采集的视频图像中的人脸定位信息和人脸姿态信息。

直播过程中，直播视频图像可以通过多种方法获得实时采集的视频图像，较为通用的是使用终端设备的摄像头采集视频图像。直播视频图像中至少包括有主播的人脸定位信息和人脸姿态信息。

在获得到视频图像之后，首先需要在每帧视频图像中定位人脸的关键点位置，如眼睛、鼻子、下巴、脸颊、眉毛等关键部位在图像中的位置，进而识别出人脸定位信息和人脸姿态信息。

步骤S12、根据所述人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度。

在实际应用中，预先可以设置有多款三维模型供用户选择，如各种动物的头部三维模型以及各种动漫卡通的头部三维模型。在根据加载位置和偏转角度将目标三维模型加载到视频图像中人脸对应的显示区域之前，用户可以从预设置的多款三维模型中选取指定的目标三维模型，以供后续根据用户触发的模型选取操作，从预设三维模型库中选取对应的三维模型，并将该三维模型作为所述目标三维模型。

步骤S13、根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。

本实施例中，具体可以基于目标三维模型在所述视频图像中的加载位置和偏转角度，采用图形程序接口或多媒体编程接口将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。

在实际应用中，在得到目标三维模型在所述视频图像中的加载位置和偏转角度之后，需要将准备好的3D模型即目标三维模型加载到对应的显示区域中，为满足视频实现性地需求，本发明实施例中通过将目标三维模型的加载在GPU中实现，也就是需要将目标三维模型通过OpenGL(OpenGL ES)或者DirectX加载到GPU中，通过GPU实现图形渲染所必需的计算操作。

其中，GPU与CPU类似，GPU是专为执行复杂的数学和几何计算而设计的，这些计算是图形渲染所必需的。本实施例通过GPU将CPU从图形处理的任务中解放出来，使CPU可以执行其他更多的系统任务，进而大大提高计算机的整体性能。

OpenGL：一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口。它用于三维图形(二维图像亦可)，是一个功能强大，调用方便的底层图形库。

OpenGL ES：是OpenGL三维图形API的子集，针对手机、PDA和游戏主机等嵌入式设备而设计。

DirectX：微软创建的多媒体编程接口。主要使用在Windows平台，可用于三维图形(二维图像亦可)，是一个功能强大，调用方便的底层图形库。

步骤S14、当所述视频图像中人脸的面部表情发生变化时，根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态。

本实施例中，目标三维模型可以为动物的头部三维模型。进一步地，步骤S14中的根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态，具体为：根据所述面部表情的变化控制所述头部三维模型生成相应的面部表情。

本发明实施例提供的视频图像的交互处理方法，在视频直播过程中，通过在实时采集的视频图像中增加三维模型的特效显示，并根据人脸信息控制三维模型的显示状态，实现模型与人脸的交互效果，进而实现了用户与三维视频特效之间的实时交互，使视频内容变得更加丰富，提高了直播过程的趣味性，有效地提升了用户交互体验。

在本发明实施例中，步骤S12中的根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度，如图2所示，具体实现流程如下所示：

步骤S121、根据所述人脸定位信息确定所述目标三维模型加载到所述视频图像中的位置平移矩阵。

在实际应用过程中，首先对视频图像进行2D的视频渲染，具体的，通过OpenGL(OpenGL ES)或者DirectX的接口，无需设置矩阵，就可将2D的视频图像渲染在屏幕窗口上。然后进行3D模型平移的操作。

在三维坐标系中，设某点坐标(x,y,z)，在X轴方向平移sx，y轴方向平移sy，z轴方向平移sz。[x,y,z]为平移前坐标，[X,Y,Z]为平移后坐标。则

X＝x+sx；Y＝y+sy；Z＝z+sz；

用矩阵表示：

假设M为4*4的单位矩阵，即

本实施例中，假设3D模型需显示在人脸的鼻子位置，鼻子在图像中的坐标为nose_s(x,y)，那么可以计算出3D模型需要在X轴和Y轴上的平移坐标nose_d(x,y)。

其中，nose_d.x＝nose_s.x*k_x，nose_d.y＝nose_s.y*k_y(三维模型的平移并不是从2D图像中鼻子位置开始平移，而是从三维坐标系的元点开始平移，平移的终点和2D的图像鼻子位置有关)；其中k_x和k_y需根据2D图像的渲染参数以及3D模型的渲染参数计算得出(就是opengl里面的渲染参数，2D顶点坐标位置，3D的顶点坐标位置，以及3D模型的观察位置，都有关系，可以看做是经验值)，那么3D模型平根据鼻子位置平移后的矩阵为：

步骤S122、根据所述位置平移矩阵以及所述人脸姿态信息确定所述目标三维模型加载到所述视频图像中的旋转矩阵。

在三维空间中，设某点坐标(x,y,z)，该点在XY平面与原点的连线和X轴夹角为b，该点与原点连线长度为R，a为绕Z轴旋转的角度，(X,Y,Z)为其绕Z轴渲染后的坐标，那么：

x＝R*cos(b)；y＝R*sin(b)；

X＝R*cos(a+b)＝R*cos(a)*cos(b)-R*sin(a)*sin(b)＝x*cos(a)-y*sin(a)；

Y＝R*sin(a+b)＝R*sin(a)*cos(b)+R*cos(a)*sin(b)＝x*sin(a)+y*cos(a)；

用矩阵表示：

同理绕X轴旋转后的计算公式为：

同理绕Y轴旋转后的计算公式为：

本实施例中，假设人脸在X,Y,Z轴三个方向的偏转角度分别为pitch，yaw，roll，那么绕X轴旋转后的矩阵为：

那么绕Y轴旋转后的矩阵为：

那么绕Z轴旋转后的矩阵为：

进一步地，在所述确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后，还包括根据所述视频图像中人脸对应的显示区域的缩放比例，控制所述目标三维模型以相同缩放比例进行显示的步骤。

在三维空间中，设某点坐标(x,y,z)，在x轴方向扩大sx倍，y轴方向扩大sy倍，z轴方向扩大sz倍。[x,y,z]为变换前坐标，[X,Y,Z]为变换后坐标。则

X＝sx*x；Y＝sy*y；Z＝sz*z；

用矩阵表示：

本实施例中，假设人脸的宽度在屏幕中的大小为L_s，那么可计算出三维模型的缩放比例L_d，其中L_d＝L_s*k；k需根据2D图像的渲染参数以及3D模型的渲染参数计算得出，然后作用与X轴和Y轴。

步骤S123、根据所述旋转矩阵以及所述目标三维模型对应的投影矩阵和视图矩阵，确定所述目标三维模型的加载位置。

在OpenGL(OpenGL ES)或者DirectX中要显示3D的模型，需设置投影矩阵和视图矩阵，假设投影矩阵为M_p，视图矩阵为M_v；那么

M₆＝M_v*M₅；M₇＝M_p*M₆；

设3D模型的某点原始坐标为(x,y.z)，那么其最终在三维空间中的显示位置[X,Y,Z]为：

[X,Y,Z,1]＝M₇*[x,y,z,1]；

通过以上步骤使3D的模型与2D的视频流画面产生交互，进而实现了3D模型与人脸的交互效果。

本发明实施例中，当所述视频图像中人脸的面部表情发生变化时，根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态，具体实现方式如下：

当所述视频图像中人脸的面部表情发生变化时，获取视频图像中发生变化的面部器官的关键点位置坐标。其中，关键点位置坐标可以包括面部器官上部区域中点的位置坐标以及下部区域中点的位置坐标。例如：人的上嘴唇正中点那个点坐标为S_up(x,y)，下嘴唇正中间那个点坐标为S_down(x,y)。

根据所述人脸的关键点位置坐标以及预设调整参数获取所述目标三维模型中与面部器官对应的模型组件的关键点模型坐标；其中，预设调整参数可根据2D图像的渲染参数以及3D模型的渲染参数计算得出。例如：模型组件的关键点模型坐标可以为嘴巴上嘴唇正中间点坐标为D_up(x,y,z)，下嘴唇正中间点坐标为D_down(x,y,z)，左边嘴角点坐标为D_left(x,y,z)，右边嘴角坐标为D_right(x,y,z)，嘴巴区域在Z轴上离嘴唇最远的点(嘴巴里面的某点)坐标D_in(x,y,z)。其中，D_left(x,y,z)，D_right(x,y,z)以及D_in(x,y,z)坐标值基本保持不变，不会随着人脸的面部表情发生变化。

确定所述关键点模型坐标所在平面的中心点D_center的坐标值D_center(x,y,z)；

在所述目标三维模型的坐标轴的XY平面内根据与面部器官对应的模型组件的各个x坐标值与中心点的x坐标值D_center.x的距离大小以及所述的关键点模型坐标，对各个x坐标值对应的y坐标值进行相应的线性插值；以及

在所述目标三维模型的坐标轴的YZ平面内根据与面部器官对应的模型组件的各个z坐标与中心点的z坐标值D_center.z的距离大小以及所述的关键点模型坐标，对各个z坐标值对应的y坐标值进行相应的线性插值。

本实施例中，人脸的面部表情变化主要包括嘴巴、眼睛等面部器官的张开、闭合以及眉毛的上、下抖动等。在实现这些面部表情时，由于人的面部表情(嘴巴、眼睛、鼻子等)变化只在坐标系Y轴上有坐标值的变化，X轴的坐标值和Z轴的坐标值并没有明显变化，所以3D模型动画只需要处理相应的表情区域模型坐标的Y坐标值。以嘴巴的改变为例，假设人的上嘴唇正中点那个点坐标为S_up(x,y)，下嘴唇正中间那个点坐标为S_down(x,y)，3D模型(例如动物的头部)中嘴巴模型的的嘴巴上嘴唇正中间点坐标为D_up(x,y,z)，下嘴唇正中间点坐标为D_down(x,y,z)，左边嘴角点坐标为D_left(x,y,z)，右边嘴角坐标为D_right(x,y,z)，嘴巴区域在Z轴上离嘴唇最远的点(嘴巴里面的某点)坐标D_in(x,y,z)。当人的上嘴唇正中点对应坐标点的y坐标值S_up.y和人的下嘴唇正中点对应坐标点的y坐标值S_down.y发生改变时，嘴巴模型中的上嘴唇正中点对应坐标点的y坐标值D_up.y和模型中的下嘴唇正中点对应坐标点的y坐标值D_down.y也需要发生相应的改变，左边嘴角的坐标点D_left和右边嘴巴的坐标点D_right以及嘴巴变化的支点的坐标点D_in坐标值保持不变，嘴巴区域其他点的Y轴坐标，需根据以上数据线性插值获得，最终产生3D模型嘴巴的动画的效果。插值算法具体如下：

假设嘴巴模型上的某个点D_x的坐标为D_x(x,y,z)，D_x在X轴和Z轴的坐标值不变，那么其在Y轴上的坐标值计算如下，假设嘴巴模型在以下坐标点D_left、D_right、D_up、D_down所在的平面的中心点为D_center，D_x属于上嘴唇区域的某点，且在D_left、D_right、D_up、D_down所在的平面内。那么

D_center.x＝(D_left.x+D_right.x)/2；

D_center.y＝(D_left.y+D_right.y)/2；

D_center.z＝(D_left.z+D_right.z)/2；

D_x在D_left、D_right、D_up、D_down所在的平面的Y轴坐标D_x.y为：

D_x.y＝-|D_up.y-D_center.y|*|D_center.x-D_x.x|/(D_center.x-D_left.x)+|D_up.y-D_center.y|；

若D_x属于下嘴唇区域的某点，则只需把上述公式中的D_up.y替换为D_down.y，以上是在坐标轴XY平面内根据x坐标值与D_center.x的距离大小而对Y值进行的线性插值。

其中，D_up.y＝S_up.y*k1,D_down.y＝S_down.y*k1，k1需根据2D图像的渲染参数以及3D模型的渲染参数计算得出。

其中，D_x.x为坐标点D_x在D_left、D_right、D_up、D_down所在的平面的x轴坐标值。

在本发明的一个可选实施例中，在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后，还包括以下步骤：获取所述视频图像中实时更新的人脸信息，调整所述目标三维模型在所述视频图像中的加载位置和偏转角度；根据调整后的加载位置和偏转角度，更新所述目标三维模型在所述视频图像中的显示状态。

本发明实施例能够根据实时采集的视频图像中人脸在屏幕中位置和人脸的姿势，也就是人脸在空间中三个维度的偏转方向，以及人脸和屏幕之间的距离更新所述目标三维模型在所述视频图像中的显示状态，使3D模型显示在人脸所在的位置区域并保证和人脸在空间中三个维度上偏转相同的角度，根据人脸和屏幕的距离来控制模型的大小，使模型始终与人脸保持相同的比例，进一步实现3D模型与人脸的交互效果。

在本发明的一个可选实施例中，所述方法还包括：在视频直播过程中，获取实时采集的视频图像中的人脸器官定位信息。

根据所述人脸器官定位信息对所述目标三维模型中与人脸器官对应的模型组件的显示位置进行调整。

本实施例中，所述目标三维模型可以为动物或卡通的头部三维模型，模型中包括与人脸器官对应的模型组件，如眼睛、鼻子、耳朵和嘴等。当模型加载到视频图像中人脸对应的显示区域之后，根据人脸器官定位信息对目标三维模型中与人脸器官对应的眼睛、鼻子、耳朵和嘴等模型组件的显示位置进行调整，使得目标三维模型更加适用于当前视频图像中人脸。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图3示意性示出了本发明一个实施例的视频图像的交互处理装置的结构示意图。参照图3，本发明实施例的视频图像的交互处理装置具体包括获取模块301、计算模块302、显示模块303以及交互模块304，其中，获取模块301，用于在视频直播过程中，获取实时采集的视频图像中的人脸定位信息和人脸姿态信息；计算模块302，用于根据所述人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度；显示模块303，用于根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域；交互模块304，用于当所述视频图像中人脸的面部表情发生变化时，根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态。

在本发明的一个可选实施例中，所述目标三维模型为动物的头部三维模型。相应的，所述交互模块304，具体用于根据所述面部表情的变化控制所述头部三维模型生成相应的面部表情。

可理解的，所述三维模型不仅可以为动物的头部三维模型，还可以为动漫人物的头部三维模型，对此，本发明不做具体限定。

本实施例中，计算模块302，具体用于根据所述人脸定位信息确定所述目标三维模型加载到所述视频图像中的位置平移矩阵；根据所述位置平移矩阵以及所述人脸姿态信息确定所述目标三维模型加载到所述视频图像中的旋转矩阵；根据所述旋转矩阵以及所述目标三维模型对应的投影矩阵和视图矩阵，确定所述目标三维模型的加载位置。

进一步地，本实施例提供的视频图像的交互处理还包括附图中未示出的控制模块，该控制模块，用于在所述计算模块302确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后，根据所述视频图像中人脸对应的显示区域的缩放比例，控制所述目标三维模型以相同缩放比例进行显示。

本实施例中，显示模块303，具体用于基于所述加载位置和偏转角度，采用图形程序接口或多媒体编程接口将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。

本实施例中的控制模块，具体还用于在所述显示模块303根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后，获取所述视频图像中实时更新的人脸信息，调整所述目标三维模型在所述视频图像中的加载位置和偏转角度。

相应的，显示模块303还用于根据调整后的加载位置和偏转角度，更新所述目标三维模型在所述视频图像中的显示状态。

进一步地，本实施例提供的视频图像的交互处理还包括附图中未示出的选取模块，该选取模块用于在所述显示模块303根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之前，根据用户触发的模型选取操作，从预设三维模型库中选取对应的三维模型，并将该三维模型作为所述目标三维模型。

在本发明的另一实施例中，获取模块301，还用于在视频直播过程中，获取实时采集的视频图像中的人脸器官定位信息。

本实施例提供的视频图像的交互处理还包括调整模块，所述调整模块，用于根据所述人脸器官定位信息对所述目标三维模型中与人脸器官对应的模型组件的显示位置进行调整。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述方法的步骤。

本实施例中，所述视频图像的交互处理装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

图4为本发明实施例提供的计算机设备的示意图。本发明实施例提供的计算机设备，包括存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序，所述处理器402执行所述计算机程序时实现上述各个视频图像的交互处理方法实施例中的步骤，例如图1所示的步骤S11、在视频直播过程中，获取实时采集的视频图像中的人脸定位信息和人脸姿态信息；步骤S12、根据所述人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度；步骤S13、根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域；步骤S14、当所述视频图像中人脸的面部表情发生变化时，根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态。或者，所述处理器402执行所述计算机程序时实现上述各视频图像的交互处理装置实施例中各模块/单元的功能，例如图3所示的获取模块301、计算模块302、显示模块303以及交互模块304。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述视频图像的交互处理装置中的执行过程。例如，所述计算机程序可以被分割成获取模块301、计算模块302、显示模块303以及交互模块304，各模块具体功能如下：获取模块301，用于在视频直播过程中，获取实时采集的视频图像中的人脸定位信息和人脸姿态信息；计算模块302，用于根据所述人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度；显示模块303，用于根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域；交互模块304，用于当所述视频图像中人脸的面部表情发生变化时，根据所述面部表情的变化控制所述目标三维模型生成相应的显示状态。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图4仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频图像的交互处理方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，所述目标三维模型为动物的头部三维模型；

3.根据权利要求1或2所述的方法，其特征在于，所述根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度，包括：

4.根据权利要求3所述的方法，其特征在于，在所述确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后，还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域，包括：

6.根据权利要求1或2所述的方法，其特征在于，在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后，还包括：

7.根据权利要求1所述的方法，其特征在于，在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之前，还包括：

8.一种视频图像的交互处理装置，其特征在于，包括:

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述方法的步骤。