CN109145688A - 视频图像的处理方法及装置 - Google Patents

视频图像的处理方法及装置 Download PDF

Info

Publication number
CN109145688A
CN109145688A CN201710506049.8A CN201710506049A CN109145688A CN 109145688 A CN109145688 A CN 109145688A CN 201710506049 A CN201710506049 A CN 201710506049A CN 109145688 A CN109145688 A CN 109145688A
Authority
CN
China
Prior art keywords
face
video image
dimensional
target
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710506049.8A
Other languages
English (en)
Inventor
李亮
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201710506049.8A priority Critical patent/CN109145688A/zh
Publication of CN109145688A publication Critical patent/CN109145688A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

本发明实施例提供了一种视频图像的处理方法及装置,其中,该方法包括:识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。本发明实施例提供的视频图像的处理方法及装置,通过在实时采集的视频图像中增加三维模型的特效显示,并根据人脸信息控制三维模型的显示,实现模型与人脸的交互效果,有效地提高了直播过程的趣味性,提升用户体验。

Description

视频图像的处理方法及装置
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种视频图像的处理方法及装置。
背景技术
随着计算机和互联网技术的不断发展,视频技术越来越多的应用在人们的日常生活和工作中,如视频聊天、视频游戏、视频直播以及网络视频教学等。人们对视频技术的要求也日益增高,越来越多的人希望视频图像能够满足他们多样的个性化需求,因此,视频特效技术应运而生,它可以使视频内容变得更加丰富,效果更加逼真。例如,当人们用电脑摄像头进行视频交流时,视频特效技术可以呈现出诸如特效字体显示、特效动画等多样的视频画面,以满足人们不同的个性化需要。
通常,视频特效技术都是在二维平面上来完成的,通过对视频中信息的定位和跟踪,直接在二维图像空间上,对二维图像进行滤波来实现如马赛克、人脸模糊、人脸替换等特效。在这些视频特效中,各种视频背景图案的变换实质上是二维图像的重叠,也就是实现一些比较简单的特效效果。目前,三维视频特效的产品还很少。一些单纯的三维特效虽然可以实现一定的特效效果,但这种单纯的三维特效是按照设定的程序运行,缺乏趣味性,用户体验差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频图像的处理方法及装置。
本发明的一个方面,提供了一种视频图像的处理方法,包括:
识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;
根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;
根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
其中,所述根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度,包括:
根据所述人脸定位信息确定所述目标三维模型加载到所述视频图像中的位置平移矩阵;
根据所述位置平移矩阵以及所述人脸姿态信息确定所述目标三维模型加载到所述视频图像中的旋转矩阵;
根据所述旋转矩阵以及所述目标三维模型对应的投影矩阵和视图矩阵,确定所述目标三维模型的加载位置。
其中,在所述确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后,还包括:
根据所述视频图像中人脸对应的显示区域的缩放比例,控制所述目标三维模型以相同缩放比例进行显示。
其中,所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域,包括:
基于所述加载位置和偏转角度,采用图形程序接口或多媒体编程接口将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
其中,在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后,还包括:
获取所述视频图像中实时更新的人脸信息,调整所述目标三维模型在所述视频图像中的加载位置和偏转角度;
根据调整后的加载位置和偏转角度,更新所述目标三维模型在所述视频图像中的显示状态。
其中,在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之前,还包括:
根据用户触发的模型选取操作,从预设三维模型库中选取对应的三维模型,并将该三维模型作为所述目标三维模型。
其中,所述人脸信息还包括人脸器官定位信息;
所述方法还包括:
根据所述人脸器官定位信息对所述目标三维模型中与人脸器官对应的模型组件的显示位置进行调整。
本发明的另一个方面,提供了一种视频图像的处理装置,包括:
识别模块,用于识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;
计算模块,用于根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;
显示模块,用于根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
此外,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。
此外,本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法的步骤。
本发明实施例提供的视频图像的处理方法及装置,通过在实时采集的视频图像中增加三维模型的特效显示,并根据人脸信息控制三维模型的显示,实现模型与人脸的交互效果,进而实现了用户与三维视频特效之间的实时交互,使视频内容变得更加丰富,提高了直播过程的趣味性,有效地提升了用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例的一种视频图像的处理方法的流程图;
图2为本发明实施例的一种视频图像的处理方法中步骤S12的细分流程图;
图3为本发明实施例的一种视频图像的处理装置的结构示意图;
图4为本发明实施例的计算机设备的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
图1示意性示出了本发明一个实施例的视频图像的处理方法的流程图。参照图1,本发明实施例的视频图像的处理方法具体包括以下步骤:
步骤S11、识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息。
直播过程中,直播视频图像可以通过多种方法获得实时采集的视频图像,较为通用的是使用终端设备的摄像头采集视频图像。直播视频图像中至少包括有主播的人脸信息。
在获得到视频图像之后,首先需要在每帧视频图像中定位人脸的关键点位置,如眼睛、鼻子、下巴、脸颊、眉毛等关键部位在图像中的位置,进而识别出人脸定位信息和人脸姿态信息。
步骤S12、根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度。
在实际应用中,预先可以设置有多款三维模型供用户选择,如各种动物的头部三维模型以及各种动漫卡通的头部三维模型。在根据加载位置和偏转角度将目标三维模型加载到视频图像中人脸对应的显示区域之前,用户可以从预设置的多款三维模型中选取指定的目标三维模型,以供后续根据用户触发的模型选取操作,从预设三维模型库中选取对应的三维模型,并将该三维模型作为所述目标三维模型。
步骤S13、根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
本实施例中,具体可以基于目标三维模型在所述视频图像中的加载位置和偏转角度,采用图形程序接口或多媒体编程接口将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
在实际应用中,在得到目标三维模型在所述视频图像中的加载位置和偏转角度之后,需要将准备好的3D模型即目标三维模型加载到对应的显示区域中,为满足视频实现性地需求,本发明实施例中通过将目标三维模型的加载在GPU中实现,也就是需要将目标三维模型通过OpenGL(OpenGL ES)或者DirectX加载到GPU中,通过GPU实现图形渲染所必需的计算操作。
其中,GPU与CPU类似,GPU是专为执行复杂的数学和几何计算而设计的,这些计算是图形渲染所必需的。本实施例通过GPU将CPU从图形处理的任务中解放出来,使CPU可以执行其他更多的系统任务,进而大大提高计算机的整体性能。
OpenGL:一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口。它用于三维图形(二维图像亦可),是一个功能强大,调用方便的底层图形库。
OpenGL ES:是OpenGL三维图形API的子集,针对手机、PDA和游戏主机等嵌入式设备而设计。
DirectX:微软创建的多媒体编程接口。主要使用在Windows平台,可用于三维图形(二维图像亦可),是一个功能强大,调用方便的底层图形库。
本发明实施例提供的视频图像的处理方法,通过在实时采集的视频图像中增加三维模型的特效显示,并根据人脸信息控制三维模型的显示,实现模型与人脸的交互效果,进而实现了用户与三维视频特效之间的实时交互,使视频内容变得更加丰富,提高了直播过程的趣味性,有效地提升了用户体验。
在本发明实施例中,步骤S12中的根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度,如图2所示,具体实现流程如下所示:
步骤S121、根据所述人脸定位信息确定所述目标三维模型加载到所述视频图像中的位置平移矩阵。
在实际应用过程中,首先对视频图像进行2D的视频渲染,具体的,通过OpenGL(OpenGL ES)或者DirectX的接口,无需设置矩阵,就可将2D的视频图像渲染在屏幕窗口上。然后进行3D模型平移的操作。
在三维坐标系中,设某点坐标(x,y,z),在X轴方向平移sx,y轴方向平移sy,z轴方向平移sz。[x,y,z]为平移前坐标,[X,Y,Z]为平移后坐标。则
X=x+sx;Y=y+sy;Z=z+sz;
用矩阵表示:
假设M为4*4的单位矩阵,即
本实施例中,假设3D模型需显示在人脸的鼻子位置,鼻子在图像中的坐标为nose_s(x,y),那么可以计算出3D模型需要在X轴和Y轴上的平移坐标nose_d(x,y)。
其中,nose_d.x=nose_s.x*k_x,nose_d.y=nose_s.y*k_y(三维模型的平移并不是从2D图像中鼻子位置开始平移,而是从三维坐标系的元点开始平移,平移的终点和2D的图像鼻子位置有关);其中k_x和k_y需根据2D图像的渲染参数以及3D模型的渲染参数计算得出(就是opengl里面的渲染参数,2D顶点坐标位置,3D的顶点坐标位置,以及3D模型的观察位置,都有关系,可以看做是经验值),那么3D模型平根据鼻子位置平移后的矩阵为:
步骤S122、根据所述位置平移矩阵以及所述人脸姿态信息确定所述目标三维模型加载到所述视频图像中的旋转矩阵。
在三维空间中,设某点坐标(x,y,z),该点在XY平面与原点的连线和X轴夹角为b,该点与原点连线长度为R,a为绕Z轴旋转的角度,(X,Y,Z)为其绕Z轴渲染后的坐标,那么:
x=R*cos(b);y=R*sin(b);
X=R*cos(a+b)=R*cos(a)*cos(b)-R*sin(a)*sin(b)=x*cos(a)-y*sin(a);
Y=R*sin(a+b)=R*sin(a)*cos(b)+R*cos(a)*sin(b)=x*sin(a)+y*cos(a);
用矩阵表示:
同理绕X轴旋转后的计算公式为:
同理绕Y轴旋转后的计算公式为:
本实施例中,假设人脸在X,Y,Z轴三个方向的偏转角度分别为pitch,yaw,roll,那么绕X轴旋转后的矩阵为:
那么绕Y轴旋转后的矩阵为:
那么绕Z轴旋转后的矩阵为:
进一步地,在所述确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后,还包括根据所述视频图像中人脸对应的显示区域的缩放比例,控制所述目标三维模型以相同缩放比例进行显示的步骤。
在三维空间中,设某点坐标(x,y,z),在x轴方向扩大sx倍,y轴方向扩大sy倍,z轴方向扩大sz倍。[x,y,z]为变换前坐标,[X,Y,Z]为变换后坐标。则
X=sx*x;Y=sy*y;Z=sz*z;
用矩阵表示:
本实施例中,假设人脸的宽度在屏幕中的大小为L_s,那么可计算出三维模型的缩放比例L_d,其中L_d=L_s*k;k需根据2D图像的渲染参数以及3D模型的渲染参数计算得出,然后作用与X轴和Y轴。
步骤S123、根据所述旋转矩阵以及所述目标三维模型对应的投影矩阵和视图矩阵,确定所述目标三维模型的加载位置。
在OpenGL(OpenGL ES)或者DirectX中要显示3D的模型,需设置投影矩阵和视图矩阵,假设投影矩阵为M_p,视图矩阵为M_v;那么
M6=M_v*M5;M7=M_p*M6
设3D模型的某点原始坐标为(x,y.z),那么其最终在三维空间中的显示位置[X,Y,Z]为:
[X,Y,Z,1]=M7*[x,y,z,1];
通过以上步骤使3D的模型与2D的视频流画面产生交互,进而实现了3D模型与人脸的交互效果。
在本发明的一个可选实施例中,在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后,还包括以下步骤:获取所述视频图像中实时更新的人脸信息,调整所述目标三维模型在所述视频图像中的加载位置和偏转角度;根据调整后的加载位置和偏转角度,更新所述目标三维模型在所述视频图像中的显示状态。
本发明实施例能够根据实时采集的视频图像中人脸在屏幕中位置和人脸的姿势,也就是人脸在空间中三个维度的偏转方向,以及人脸和屏幕之间的距离更新所述目标三维模型在所述视频图像中的显示状态,使3D模型显示在人脸所在的位置区域并保证和人脸在空间中三个维度上偏转相同的角度,根据人脸和屏幕的距离来控制模型的大小,使模型始终与人脸保持相同的比例,进一步实现3D模型与人脸的交互效果。
在本发明的一个可选实施例中,所述人脸信息还包括人脸器官定位信息。
相应的,所述方法还包括以下步骤,根据所述人脸器官定位信息对所述目标三维模型中与人脸器官对应的模型组件的显示位置进行调整。
本实施例中,所述目标三维模型可以为动物或卡通的头部三维模型,模型中包括与人脸器官对应的模型组件,如眼睛、鼻子、耳朵和嘴等。当模型加载到视频图像中人脸对应的显示区域之后,根据人脸器官定位信息对目标三维模型中与人脸器官对应的眼睛、鼻子、耳朵和嘴等模型组件的显示位置进行调整,使得目标三维模型更加适用于当前视频图像中人脸。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图3示意性示出了本发明一个实施例的视频图像的处理装置的结构示意图。参照图3,本发明实施例的视频图像的处理装置具体包括识别模块301、计算模块302以及显示模块303,其中,识别模块301,用于识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;计算模块302,用于根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;显示模块303,用于根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
本实施例中,计算模块302,具体用于根据所述人脸定位信息确定所述目标三维模型加载到所述视频图像中的位置平移矩阵;根据所述位置平移矩阵以及所述人脸姿态信息确定所述目标三维模型加载到所述视频图像中的旋转矩阵;根据所述旋转矩阵以及所述目标三维模型对应的投影矩阵和视图矩阵,确定所述目标三维模型的加载位置。
进一步地,本实施例提供的视频图像的处理还包括附图中未示出的控制模块,该控制模块,用于在所述计算模块302确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后,根据所述视频图像中人脸对应的显示区域的缩放比例,控制所述目标三维模型以相同缩放比例进行显示。
本实施例中,显示模块303,具体用于基于所述加载位置和偏转角度,采用图形程序接口或多媒体编程接口将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
本实施例中的控制模块,具体还用于在所述显示模块303根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后,获取所述视频图像中实时更新的人脸信息,调整所述目标三维模型在所述视频图像中的加载位置和偏转角度。
相应的,显示模块303还用于根据调整后的加载位置和偏转角度,更新所述目标三维模型在所述视频图像中的显示状态。
进一步地,本实施例提供的视频图像的处理还包括附图中未示出的选取模块,该选取模块用于在所述显示模块303根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之前,根据用户触发的模型选取操作,从预设三维模型库中选取对应的三维模型,并将该三维模型作为所述目标三维模型。
在本发明的另一实施例中,所述人脸信息还包括人脸器官定位信息。
本实施例提供的视频图像的处理还包括调整模块,所述调整模块,用于根据所述人脸器官定位信息对所述目标三维模型中与人脸器官对应的模型组件的显示位置进行调整。
本实施例中,所述目标三维模型可以为动物或卡通的头部三维模型,模型中包括与人脸器官对应的模型组件,如眼睛、鼻子、耳朵和嘴等。当模型加载到视频图像中人脸对应的显示区域之后,根据人脸器官定位信息对目标三维模型中与人脸器官对应的眼睛、鼻子、耳朵和嘴等模型组件的显示位置进行调整,使得目标三维模型更加适用于当前视频图像中人脸。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本发明实施例提供的视频图像的处理方法及装置,通过在实时采集的视频图像中增加三维模型的特效显示,并根据人脸信息控制三维模型的显示,实现模型与人脸的交互效果,进而实现了用户与三维视频特效之间的实时交互,使视频内容变得更加丰富,提高了直播过程的趣味性,有效地提升了用户体验。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。
本实施例中,所述视频图像的处理装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
图4为本发明实施例提供的计算机设备的示意图。本发明实施例提供的计算机设备,包括存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序,所述处理器402执行所述计算机程序时实现上述各个视频图像的处理方法实施例中的步骤,例如图1所示的步骤S11、识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;步骤S12、根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;步骤S13、根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。或者,所述处理器402执行所述计算机程序时实现上述各视频图像的处理装置实施例中各模块/单元的功能,例如图3所示的识别模块301、计算模块302以及显示模块303。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述视频图像的处理装置中的执行过程。例如,所述计算机程序可以被分割成识别模块301、计算模块302以及显示模块303,各模块具体功能如下:识别模块301,用于识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;计算模块302,用于根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;显示模块303,用于根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图4仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种视频图像的处理方法,其特征在于,包括:
识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;
根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;
根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
2.根据权利要求1所述的方法,其特征在于,所述根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度,包括:
根据所述人脸定位信息确定所述目标三维模型加载到所述视频图像中的位置平移矩阵;
根据所述位置平移矩阵以及所述人脸姿态信息确定所述目标三维模型加载到所述视频图像中的旋转矩阵;
根据所述旋转矩阵以及所述目标三维模型对应的投影矩阵和视图矩阵,确定所述目标三维模型的加载位置。
3.根据权利要求2所述的方法,其特征在于,在所述确定所述目标三维模型加载到所述视频图像中的旋转矩阵之后,还包括:
根据所述视频图像中人脸对应的显示区域的缩放比例,控制所述目标三维模型以相同缩放比例进行显示。
4.根据权利要求1所述的方法,其特征在于,所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域,包括:
基于所述加载位置和偏转角度,采用图形程序接口或多媒体编程接口将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之后,还包括:
获取所述视频图像中实时更新的人脸信息,调整所述目标三维模型在所述视频图像中的加载位置和偏转角度;
根据调整后的加载位置和偏转角度,更新所述目标三维模型在所述视频图像中的显示状态。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域之前,还包括:
根据用户触发的模型选取操作,从预设三维模型库中选取对应的三维模型,并将该三维模型作为所述目标三维模型。
7.根据权利要求1所述的方法,其特征在于,所述人脸信息还包括人脸器官定位信息;
所述方法还包括:
根据所述人脸器官定位信息对所述目标三维模型中与人脸器官对应的模型组件的显示位置进行调整。
8.一种视频图像的处理装置,其特征在于,包括:
识别模块,用于识别实时采集的视频图像中的人脸信息,所述人脸信息包括人脸定位信息和人脸姿态信息;
计算模块,用于根据人脸定位信息和人脸姿态信息确定目标三维模型在所述视频图像中的加载位置和偏转角度;
显示模块,用于根据所述加载位置和偏转角度将所述目标三维模型加载到所述视频图像中人脸对应的显示区域。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述方法的步骤。
CN201710506049.8A 2017-06-28 2017-06-28 视频图像的处理方法及装置 Pending CN109145688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710506049.8A CN109145688A (zh) 2017-06-28 2017-06-28 视频图像的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710506049.8A CN109145688A (zh) 2017-06-28 2017-06-28 视频图像的处理方法及装置

Publications (1)

Publication Number Publication Date
CN109145688A true CN109145688A (zh) 2019-01-04

Family

ID=64805499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710506049.8A Pending CN109145688A (zh) 2017-06-28 2017-06-28 视频图像的处理方法及装置

Country Status (1)

Country Link
CN (1) CN109145688A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933454A (zh) * 2019-12-06 2020-03-27 广州酷狗计算机科技有限公司 处理直播萌脸礼物的方法、装置、设备及存储介质
CN113628322A (zh) * 2021-07-26 2021-11-09 阿里巴巴(中国)有限公司 图像处理、ar显示与直播方法、设备及存储介质
CN115243108A (zh) * 2022-07-25 2022-10-25 深圳市腾客科技有限公司 一种可编程的多媒体文件系统
WO2023211364A3 (zh) * 2022-04-24 2023-12-28 脸萌有限公司 图像处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354795A (zh) * 2008-08-28 2009-01-28 北京中星微电子有限公司 基于视频的三维人脸动画驱动方法和系统
CN101452582A (zh) * 2008-12-18 2009-06-10 北京中星微电子有限公司 一种实现三维视频特效的方法和装置
CN103679792A (zh) * 2013-12-24 2014-03-26 Tcl集团股份有限公司 一种三维模型的渲染方法和系统
US20160071329A1 (en) * 2014-09-04 2016-03-10 You Kick Ass Customized Video Creation System
CN106373182A (zh) * 2016-08-18 2017-02-01 苏州丽多数字科技有限公司 一种增强现实人脸互动娱乐方法
CN106710003A (zh) * 2017-01-09 2017-05-24 成都品果科技有限公司 一种基于OpenGL ES的三维拍照方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354795A (zh) * 2008-08-28 2009-01-28 北京中星微电子有限公司 基于视频的三维人脸动画驱动方法和系统
CN101452582A (zh) * 2008-12-18 2009-06-10 北京中星微电子有限公司 一种实现三维视频特效的方法和装置
CN103679792A (zh) * 2013-12-24 2014-03-26 Tcl集团股份有限公司 一种三维模型的渲染方法和系统
US20160071329A1 (en) * 2014-09-04 2016-03-10 You Kick Ass Customized Video Creation System
CN106373182A (zh) * 2016-08-18 2017-02-01 苏州丽多数字科技有限公司 一种增强现实人脸互动娱乐方法
CN106710003A (zh) * 2017-01-09 2017-05-24 成都品果科技有限公司 一种基于OpenGL ES的三维拍照方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933454A (zh) * 2019-12-06 2020-03-27 广州酷狗计算机科技有限公司 处理直播萌脸礼物的方法、装置、设备及存储介质
CN110933454B (zh) * 2019-12-06 2021-11-02 广州酷狗计算机科技有限公司 处理直播萌脸礼物的方法、装置、设备及存储介质
CN113628322A (zh) * 2021-07-26 2021-11-09 阿里巴巴(中国)有限公司 图像处理、ar显示与直播方法、设备及存储介质
CN113628322B (zh) * 2021-07-26 2023-12-05 阿里巴巴(中国)有限公司 图像处理、ar显示与直播方法、设备及存储介质
WO2023211364A3 (zh) * 2022-04-24 2023-12-28 脸萌有限公司 图像处理方法、装置、电子设备及存储介质
CN115243108A (zh) * 2022-07-25 2022-10-25 深圳市腾客科技有限公司 一种可编程的多媒体文件系统
CN115243108B (zh) * 2022-07-25 2023-04-11 深圳市腾客科技有限公司 一种解码播放方法

Similar Documents

Publication Publication Date Title
EP3923248A1 (en) Image processing method and apparatus, electronic device and computer-readable storage medium
CN109151540A (zh) 视频图像的交互处理方法及装置
CN106575445B (zh) 毛皮虚拟化身动画
US10403001B2 (en) Producing three-dimensional representation based on images of an object
CN109887003A (zh) 一种用于进行三维跟踪初始化的方法与设备
CN109242961A (zh) 一种脸部建模方法、装置、电子设备和计算机可读介质
CN109145688A (zh) 视频图像的处理方法及装置
CN111369428B (zh) 虚拟头像生成方法和装置
WO2016114930A2 (en) Systems and methods for augmented reality art creation
KR20080090671A (ko) 3d 객체 모델에 텍스쳐를 매핑하는 방법 및 장치
CN112138386A (zh) 一种体积渲染方法、装置、存储介质及计算机设备
CN115063518A (zh) 轨迹渲染方法、装置、电子设备及存储介质
CN115601484A (zh) 虚拟人物面部驱动方法、装置、终端设备和可读存储介质
CN111142967A (zh) 一种增强现实显示的方法、装置、电子设备和存储介质
CN113822965A (zh) 图像渲染处理方法、装置和设备及计算机存储介质
WO2019042028A1 (zh) 全视向的球体光场渲染方法
CN109816791B (zh) 用于生成信息的方法和装置
CN111047674A (zh) 一种动画渲染方法及装置
CN116030221A (zh) 增强现实画面的处理方法、装置、电子设备及存储介质
CN111652807B (zh) 眼部的调整、直播方法、装置、电子设备和存储介质
CN114820980A (zh) 三维重建方法、装置、电子设备和可读存储介质
CN115953520B (zh) 一种虚拟场景的记录回放方法、装置、电子设备及介质
CN112835453B (zh) 模拟人眼聚焦时界面效果的方法、设备和存储介质
US11783516B2 (en) Method for controlling digital feather generations through a user interface in a computer modeling system
WO2024077791A1 (zh) 视频生成方法、装置、设备与计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104