CN115359159A - 虚拟视频通信方法、装置、设备、存储介质和程序产品 - Google Patents
虚拟视频通信方法、装置、设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN115359159A CN115359159A CN202210775505.XA CN202210775505A CN115359159A CN 115359159 A CN115359159 A CN 115359159A CN 202210775505 A CN202210775505 A CN 202210775505A CN 115359159 A CN115359159 A CN 115359159A
- Authority
- CN
- China
- Prior art keywords
- face
- information
- key point
- dimensional animation
- animation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000004927 fusion Effects 0.000 claims abstract description 95
- 230000000007 visual effect Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003032 molecular docking Methods 0.000 claims description 14
- 238000013135 deep learning Methods 0.000 claims description 5
- 210000001508 eye Anatomy 0.000 description 25
- 238000010586 diagram Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种虚拟视频通信方法、装置、设备、存储介质和程序产品,涉及计算机视觉和视频通信技术领域,所述方法包括:基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;基于多视角的人脸关键点的世界坐标和多视角的人脸关键点信息,确定人脸融合信息,人脸融合信息用于实时驱动三维动画模型,其中,人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;将三维动画模型进行实时视频串流,实时视频串流用于实现虚拟视频通信。本发明可通过融合多视角人脸信息的三维动画模型进行虚拟视频通信,提高三维动画模型的鲁棒性和稳定性。
Description
技术领域
本发明涉及计算机视觉和视频通信技术领域,尤其涉及一种虚拟视频通信方法、装置、设备、存储介质和程序产品。
背景技术
随着可视化需求越来越高,视频通信以其实时传递语音、数据、视频为一体的通信信息成为通信领域发展的热点,并在视频会议、远程视频医疗、远程视频教育等领域得到广泛的应用。其中,实时驱动三维动画模型替代真实人脸图像进行虚拟视频通信的技术也随之具有广泛应用前景与市场潜力。
现有技术中,三维动画模型的驱动一般通过下述两种方式驱动:
(1)、通过输入一段真实人脸的视频,经过算法处理,输出一段动态的三维动画模型视频,此种方法虽然驱动效果良好,但无法满足虚拟视频通信的实时性要求,只能在提前录好视频的前提下获得可驱动的三维动画模型,应用场景受到极大限制;
(2)、通过单目摄像机获取人脸信息,实时驱动三维动画模型,但通过单目摄像机获取的人脸点位信息有限,无法准确分析并获取三维立体空间旋转角度、方位等信息,且驱动过程中存在漏点、掉帧等不稳定、不准确的问题,无法满足市场需求。
发明内容
本发明提供一种虚拟视频通信方法、装置、设备、存储介质和程序产品,用以解决现有技术中点位信息有限且实时性差的缺陷,通过融合多视角人脸信息的三维动画模型进行虚拟视频通信,提高三维动画模型的鲁棒性和稳定性。
本发明提供一种虚拟视频通信方法,包括:
基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
将所述三维动画模型进行实时视频串流,所述实时视频串流用于实现虚拟视频通信。
根据本发明提供的虚拟视频通信方法,所述基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息,包括:
基于每个视角的人脸关键点的世界坐标,利用solvePNP算法,确定人脸相对于每个视角的旋转向量;
将所述人脸相对于每个视角的旋转向量进行融合,确定所述人脸旋转角度融合信息;
将每个视角的人脸关键点信息进行融合,确定所述人脸关键点融合信息。
根据本发明提供的虚拟视频通信方法,所述基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息,还包括:
确定预先构建的三维动画模型的面部关键点信息;
将所述人脸融合信息导入所述三维动画模型,并将所述三维动画模型的面部关键点信息与所述人脸融合信息进行关键点对接,所述关键点对接用于基于当前场景图像实时驱动三维动画模型。
根据本发明提供的虚拟视频通信方法,所述基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息,包括:
基于获取的当前场景图像,利用深度学习算法,确定所述当前场景图像中的人脸ROI;
基于所述人脸ROI,利用人脸关键点算法,基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息。
根据本发明提供的虚拟视频通信方法,所述人脸关键点信息包括人脸关键点和人脸关键点的图像坐标。
本发明还提供一种虚拟视频通信装置,包括:
第一确定模块,用于基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
第二确定模块,用于基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
实时视频串流模块,用于将所述三维动画模型进行实时视频串流,所述实时视频串流用于实现虚拟视频通信。
根据本发明提供的虚拟视频通信装置,还包括:
关键点对接模块,用于确定预先构建的三维动画模型的面部关键点信息;将所述人脸融合信息导入所述三维动画模型,并将所述三维动画模型的面部关键点信息与所述人脸融合信息进行关键点对接,所述关键点对接用于基于当前场景图像实时驱动三维动画模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚拟视频通信方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述虚拟视频通信方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述虚拟视频通信方法。
本发明提供的虚拟视频通信方法、装置、设备、存储介质和程序产品,通过融合多视角的人脸关键点信息,获取人脸融合信息,且包括人脸关键点融合信息和人脸旋转角度融合信息,提高对人脸三维立体空间信息进行分析的准确度;此外,通过人脸融合信息实时驱动三维动画模型,大幅度增加驱动三维动画模型的点位信息,提高三维动画模型的准确度及驱动三维动画模型的鲁棒性和稳定性;同时,将三维动画模型进行实时视频串流后实现虚拟视频通信,进一步扩大应用范围,更好的满足市场需求,增加用户体验感。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的虚拟视频通信方法的流程示意图之一;
图2是本发明提供的虚拟视频通信方法的旋转向量确定的参数含义示意图;
图3是本发明提供的虚拟视频通信方法的流程示意图之二;
图4是本发明提供的虚拟视频通信方法的实时视频串流结果示意图之一;
图5是本发明提供的虚拟视频通信方法的实时视频串流结果示意图之二;
图6是本发明提供的虚拟视频通信装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的虚拟视频通信方法。
图1是本发明提供的虚拟视频通信方法的流程示意图之一,如图1所示,该方法包括:
步骤110、基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息。
具体地,由于通过单目摄像机获取的人脸点位信息有限,导致无法准确分析并获取三维立体空间旋转角度、方位等信息,进一步导致驱动过程中存在漏点、掉帧等不稳定、不准确的问题,无法满足市场需求,而通过提前录好的视频驱动三维动画模型,则无法满足实时性要求。
为了获取丰富的人脸点位信息,本发明中,基于当前场景,从多个视角获取当前场景图像,并基于多视角的当前场景图像,进一步确定对应视角下的人脸关键点信息,可满足三维立体空间旋转角度、方位等信息的准确分析,且人脸点位信息的丰富,可避免驱动过程中漏点、掉帧,且使替代真实人脸的三维动画模型的面部关键点信息更加准确。
上述多视角的当前场景图像的采集设备可以包括多视角下的摄像机、摄像头、携带有摄像头的设备,如智能手机、平板电脑、笔记本电脑、台式电脑、一体机等,上述采集设备的数量为至少两个,且相邻采集设备间设有夹角,即,至少两个采集设备分别从不同视角对当前场景下的人物进行人脸视频图像采集,以获得丰富的人脸点位信息。此外,采集设备还可以包括多视角安置的RGB相机。
可选地,多视角的人脸关键点信息的确定方法,包括:
基于获取的当前场景图像,利用深度学习算法,确定当前场景图像中的人脸ROI;
基于人脸ROI,利用人脸关键点算法,基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息。
具体地,为了实现三维动画模型代替真实人脸视频图像进行虚拟视频通信,OpenCV从上述采集设备中获取采集的人脸视频图像,并从采集的多视角的当前场景图像(人脸视频图像)中选取人脸ROI,包括人脸的位置和大小等,选取人脸ROI的方法可以包括:利用TensorFlow深度学习框架的人脸检测器算法进行选取,提高鲁棒性和选取效率。进一步地,从选取的人脸ROI中确定人脸关键点信息,确定方法可以利用OpenCV中的人脸关键点提取算法进行求解。
上述人脸ROI(Region of Interest)为人脸感兴趣区,在处理人脸视频图像时,从待处理的人脸视频图像中选取出需要处理的人脸区域,人脸区域的形状包括但不限于:矩形、圆形、椭圆形、多边形、不规则多边形。
可选地,人脸关键点信息包括人脸关键点和人脸关键点的图像坐标。
上述人脸关键点为人脸视频图像中面部的关键区域位置,包括但不限于:眉毛、眼睛、鼻子、嘴巴、脸部等。人脸关键点的图像坐标是对采集后的每个视角的当前场景图像建立二维坐标系后获取的坐标,实际上,针对每个视角的当前场景图像建立的二维坐标系与以采集设备为中心点建立的三维坐标系是同一坐标系。
步骤120、基于多视角的人脸关键点的世界坐标和多视角的人脸关键点信息,确定人脸融合信息,人脸融合信息用于实时驱动三维动画模型,其中,人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息。
上述人脸关键点的世界坐标为:在真实人脸上建立的三维坐标系,由于人类面部存在起伏,因此,建立三维坐标系更能准确描述人脸关键点的位置。
为了提高真实人脸视频图像驱动三维动画图像的准确度,本发明中,通过多视角的人脸关键点的世界坐标和多视角的人脸关键点信息,确定融合后的人脸关键点融合信息和人脸旋转角度融合信息,提供更多的关于真实人脸的三维空间旋转角度、方位等信息,提高分析准确度。
可选地,人脸融合信息的确定方法包括:
基于每个视角的人脸关键点的世界坐标,利用solvePNP算法,确定人脸相对于每个视角的旋转向量;
将人脸相对于每个视角的旋转向量进行融合,确定人脸旋转角度融合信息;
将每个视角的人脸关键点信息进行融合,确定人脸关键点融合信息。
示例地,图2是本发明提供的虚拟视频通信方法的旋转向量确定的参数含义示意图,如图2所示,以多视角的RGB相机采集当前场景图像(人脸视频图像),且选择左眼左角、右眼右角和左嘴角作为人脸关键点为例,利用solvePNP算法,人脸相对于每个视角的旋转向量的确定方法包括:
首先,设定正常情况下人脸的比例,即设定正常情况下,在真实人脸坐标系中,左眼左角的世界坐标为(X1,Y1,Z1)、右眼右角的世界坐标为(X2,Y2,Z2)、左嘴角的世界坐标为(X3,Y3,Z3),并基于棋盘格算法,标定计算出对应视角下RGB相机的内参和畸变系数,并将上述左眼左角的世界坐标为(X1,Y1,Z1)、右眼右角的世界坐标为(X2,Y2,Z2)、左嘴角的世界坐标为(X3,Y3,Z3)和对应视角下RGB相机的内参和畸变系数,输入solvePNP模型,通过solvePNP模型内的人脸坐标系至相机坐标系的投影关系式,计算上述三个人脸关键点映射至相机坐标系内的相机坐标,人脸坐标系至相机坐标系的投影关系式如式(1)所示:
其中,图2是本发明提供的虚拟视频通信方法的旋转向量确定的参数含义示意图,如图2所示,P表示对应视角的RGB相机光心,A、B、C三点分别表示左眼左角的世界坐标(X1,Y1,Z1)、右眼右角的世界坐标(X2,Y2,Z2)、左嘴角的世界坐标(X3,Y3,Z3),a′、b′、c′分别表示BC、AC、AB的模长,BC的模长表示右眼右角至左嘴角的距离,AC的模长表示左眼左角至左嘴角的距离,AB的模长表示左眼左角至右眼右角的距离,x、y、z分别表示PA、PB、PC的模长,α、β、γ分别表示PC与PB的夹角、PC与PA的夹角和PA与PB的夹角。
通过solvePNP模型内的人脸坐标系至相机坐标系的投影关系式,计算三个人脸关键点映射至相机坐标系内的相机坐标分别为:相机坐标系下的左眼左角的相机坐标为(X′1,Y′1,Z′1),相机坐标系下的右眼右角的相机坐标为(X′2,Y′2,Z′2),相机坐标系下的左嘴角的相机坐标为(X′3,Y′3,Z′3)。
其次,当所采集的人物面部移动或摇晃时,基于上述方法,计算出面部移动或摇晃后人脸所处位置的三个人脸关键点对应的相机坐标下的相机坐标,依次为:移位后相机坐标系下的左眼左角的相机坐标为(X″1,Y″1,Z″1),移位后相机坐标系下的右眼右角的相机坐标为(X″2,Y″2,Z″2),移位后相机坐标系下的左嘴角的相机坐标为(X″3,Y″3,Z″3)。
接着,根据已知人脸关键点对应的相机坐标系下的相机坐标,如式(2)所示,计算对应相机视角下的旋转向量和平移向量。
p″=Rip′+t (2),
其中,p′表示初始位置相机坐标系下的左眼左角的相机坐标为(X′1,Y′1,Z′1)、右眼右角的相机坐标为(X′2,Y′2,Z′2)和左嘴角的相机坐标为(X′3,Y′3,Z′3)的集合,p″表示移位后相机坐标系下的左眼左角的相机坐标为(X″1,Y″1,Z″1)、右眼右角的相机坐标为(X″2,Y″2,Z″2)和左嘴角的相机坐标为(X″3,Y″3,Z″3)的集合,Ri表示相机的旋转向量,i表示不同视角,t表示相机的平移向量。
上述相机坐标系与人脸关键点的图像坐标所在坐标系为同一坐标系,均为以相机光心作为中心点构建的坐标系,只是人脸关键点的图像坐标所在坐标系的z轴长度为相机焦距长度,即人脸关键点的图像坐标中的z轴坐标为相机焦距长度。
可选地,依次计算出人脸相对于每个视角的旋转向量,并进行加权融合,确定人脸旋转角度融合信息,旋转向量的融合公式如式(3)所示:
其中,R表示人脸旋转角度融合信息,Ri表示对应视角下的旋转向量,wi表示对应视角下的权重,N表示采集视角数量或者在每个视角安置一台采集设备的情况下的采集设备的数量,i表示不同视角。
可选地,对获取的人脸关键点信息中的人脸关键点的图像坐标进行加权融合,确定人脸关键点融合信息,融合公式如式(4)-式(6)所示:
其中,Leye表示左眼左角融合信息,Leyei表示单个视角下的左眼左角的图像坐标,Reye表示右眼右角融合信息,Reyei表示单个视角下的右眼右角的图像坐标,Lmouth表示左嘴角融合信息,Lmouthi表示单个视角下的左嘴角的图像坐标。
可选地,图3是本发明提供的虚拟视频通信方法的流程示意图之二,如图3所示,该方法还包括:
确定预先构建的三维动画模型的面部关键点信息;
将人脸融合信息导入三维动画模型,并将三维动画模型的面部关键点信息与人脸融合信息进行关键点对接,关键点对接用于基于当前场景图像实时驱动三维动画模型。
为使三维动画模型更符合人脸的面部比例,并通过当前场景图像(人脸视频图像)实时驱动三维动画模型,可根据自己喜好,预先设计对应的三维动画模型,并确定三维动画模型的面部关键点信息,将上述确定的人脸融合信息与三维动画模型的面部关键点信息进行关键点对接,实时驱动三维动画模型,进一步实现三维动画模型替代真实人脸进行后续操作。
上述人脸关键点的选取不限于左眼左角、右眼右角和左嘴角,可在人脸ROI进行任意选取,根据选取的人脸关键,进一步确定人脸融合信息,包括但不限于图2所示的头部角度信息、五官位置信息和面部起伏信息,此外,本发明对人脸关键点的选取数量不作限制。
步骤130、将三维动画模型进行实时视频串流,实时视频串流用于实现虚拟视频通信。
可选地,实时视频串流是指将一连串视频影像通过编码器进行压缩及格式转换后,将压缩影像,通过互联网实时传输至用户的接收器。本发明中,可以通过OBS视频串流软件将实时驱动的三维动画模型应用至视频通信平台,如腾讯会议、微信视频通话等平台。
示例地,图4是本发明提供的虚拟视频通信方法的实时视频串流结果示意图之一,如图4所示,将实时驱动的三维动画模型应用于腾讯会议平台中,在腾讯会议平台下,人脸视频实时驱动的三维动画模型可以实现正常的会议交流,具有较高的稳定性和鲁棒性,其中,多视角的RGB相机联合优化人脸关键点很好地解决了漏点、掉帧等问题。
示例地,图5是本发明提供的虚拟视频通信方法的实时视频串流结果示意图之二,如图5所示,将实时驱动的三维动画模型应用于微信视频通话中,三维动画模型代替人脸,可进行正常的虚拟视频通信,同时可以生动的展现人脸表情细节。
本发明提供的虚拟视频通信方法,通过融合多视角的人脸关键点信息,获取人脸融合信息,且包括人脸关键点融合信息和人脸旋转角度融合信息,提高对人脸三维立体空间信息进行分析的准确度;此外,通过人脸融合信息实时驱动三维动画模型,大幅度增加驱动三维动画模型的点位信息,提高三维动画模型的准确度及驱动三维动画模型的鲁棒性和稳定性;同时,将三维动画模型进行实时视频串流后实现虚拟视频通信,进一步扩大应用范围,更好的满足市场需求,增加用户体验感。
下面对本发明提供的虚拟视频通信装置进行描述,下文描述的虚拟视频通信装置与上文描述的虚拟视频通信方法可相互对应参照。
本发明还提供一种虚拟视频通信装置,图6是本发明提供的虚拟视频通信装置的结构示意图,如图6所示,该虚拟视频通信装置200包括第一确定模块201、第二确定模块202和视频串流模块203,其中:
第一确定模块201,用于基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
第二确定模块202,用于基于多视角的人脸关键点信息,确定人脸融合信息,人脸融合信息用于实时驱动三维动画模型,其中,人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
实时视频串流模块203,用于将三维动画模型进行实时视频串流,实时视频串流用于实现虚拟视频通信。
可选地,虚拟视频通信装置还包括:关键点对接模块,用于确定预先构建的三维动画模型的面部关键点信息;将人脸融合信息导入三维动画模型,并将三维动画模型的面部关键点信息与人脸融合信息进行关键点对接,关键点对接用于基于当前场景图像实时驱动三维动画模型。
本发明提供的虚拟视频通信装置,通过融合多视角的人脸关键点信息,获取人脸融合信息,且包括人脸关键点融合信息和人脸旋转角度融合信息,提高对人脸三维立体空间信息进行分析的准确度;此外,通过人脸融合信息实时驱动三维动画模型,大幅度增加驱动三维动画模型的点位信息,提高三维动画模型的准确度及驱动三维动画模型的鲁棒性和稳定性;同时,将三维动画模型进行实时视频串流后实现虚拟视频通信,进一步扩大应用范围,更好的满足市场需求,增加用户体验感。
可选地,第一确定模块201,具体用于:
基于获取的当前场景图像,利用深度学习算法,确定当前场景图像中的人脸ROI;
基于人脸ROI,利用人脸关键点算法,基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息。
可选地,第一确定模块201,具体用于:
人脸关键点信息包括人脸关键点和人脸关键点的图像坐标。
可选地,第二确定模块202,具体用于:
基于每个视角的人脸关键点的世界坐标,利用solvePNP算法,确定人脸相对于每个视角的旋转向量;
将人脸相对于每个视角的旋转向量进行融合,确定人脸旋转角度融合信息;
将每个视角的人脸关键点信息进行融合,确定人脸关键点融合信息。
可选地,关键点对接模块,具体用于:
确定预先构建的三维动画模型的面部关键点信息;
将人脸融合信息导入三维动画模型,并将三维动画模型的面部关键点信息与人脸融合信息进行关键点对接,关键点对接用于基于当前场景图像实时驱动三维动画模型。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备300可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行虚拟视频通信方法,该方法包括:
基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
基于多视角的人脸关键点的世界坐标和多视角的人脸关键点信息,确定人脸融合信息,人脸融合信息用于实时驱动三维动画模型,其中,人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
将三维动画模型进行实时视频串流,实时视频串流用于实现虚拟视频通信。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的虚拟视频通信方法,该方法包括:
基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
基于多视角的人脸关键点的世界坐标和多视角的人脸关键点信息,确定人脸融合信息,人脸融合信息用于实时驱动三维动画模型,其中,人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
将三维动画模型进行实时视频串流,实时视频串流用于实现虚拟视频通信。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的虚拟视频通信方法,该方法包括:
基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
基于多视角的人脸关键点的世界坐标和多视角的人脸关键点信息,确定人脸融合信息,人脸融合信息用于实时驱动三维动画模型,其中,人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
将三维动画模型进行实时视频串流,实时视频串流用于实现虚拟视频通信。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种虚拟视频通信方法,其特征在于,包括:
基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
将所述三维动画模型进行实时视频串流,所述实时视频串流用于实现虚拟视频通信。
2.根据权利要求1所述的虚拟视频通信方法,其特征在于,所述基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息,包括:
基于每个视角的人脸关键点的世界坐标,利用solvePNP算法,确定人脸相对于每个视角的旋转向量;
将所述人脸相对于每个视角的旋转向量进行融合,确定所述人脸旋转角度融合信息;
将每个视角的人脸关键点信息进行融合,确定所述人脸关键点融合信息。
3.根据权利要求2所述的虚拟视频通信方法,其特征在于,所述基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息,还包括:
确定预先构建的三维动画模型的面部关键点信息;
将所述人脸融合信息导入所述三维动画模型,并将所述三维动画模型的面部关键点信息与所述人脸融合信息进行关键点对接,所述关键点对接用于基于当前场景图像实时驱动三维动画模型。
4.根据权利要求1所述的虚拟视频通信方法,其特征在于,所述基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息,包括:
基于获取的当前场景图像,利用深度学习算法,确定所述当前场景图像中的人脸ROI;
基于所述人脸ROI,利用人脸关键点算法,基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息。
5.根据权利要求1至4中任一项所述的虚拟视频通信方法,其特征在于,所述人脸关键点信息包括人脸关键点和人脸关键点的图像坐标。
6.一种虚拟视频通信装置,其特征在于,包括:
第一确定模块,用于基于获取的多视角的当前场景图像,确定对应的多视角的人脸关键点信息;
第二确定模块,用于基于多视角的人脸关键点的世界坐标和所述多视角的人脸关键点信息,确定人脸融合信息,所述人脸融合信息用于实时驱动三维动画模型,其中,所述人脸融合信息包括:人脸关键点融合信息和人脸旋转角度融合信息;
实时视频串流模块,用于将所述三维动画模型进行实时视频串流,所述实时视频串流用于实现虚拟视频通信。
7.根据权利要求6所述的虚拟视频通信装置,其特征在于,还包括:
关键点对接模块,用于确定预先构建的三维动画模型的面部关键点信息;将所述人脸融合信息导入所述三维动画模型,并将所述三维动画模型的面部关键点信息与所述人脸融合信息进行关键点对接,所述关键点对接用于基于当前场景图像实时驱动三维动画模型。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述虚拟视频通信方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述虚拟视频通信方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述虚拟视频通信方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210775505.XA CN115359159A (zh) | 2022-07-01 | 2022-07-01 | 虚拟视频通信方法、装置、设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210775505.XA CN115359159A (zh) | 2022-07-01 | 2022-07-01 | 虚拟视频通信方法、装置、设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115359159A true CN115359159A (zh) | 2022-11-18 |
Family
ID=84030202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210775505.XA Pending CN115359159A (zh) | 2022-07-01 | 2022-07-01 | 虚拟视频通信方法、装置、设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359159A (zh) |
-
2022
- 2022-07-01 CN CN202210775505.XA patent/CN115359159A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11632537B2 (en) | Method and apparatus for obtaining binocular panoramic image, and storage medium | |
US20220284679A1 (en) | Method and apparatus for constructing three-dimensional face mesh, device, and storage medium | |
US9030486B2 (en) | System and method for low bandwidth image transmission | |
CN114219878B (zh) | 虚拟角色的动画生成方法及装置、存储介质、终端 | |
CN108363995B (zh) | 用于生成数据的方法和装置 | |
US9460555B2 (en) | System and method for three-dimensional visualization of geographical data | |
CN101180653A (zh) | 用于三维呈现的方法和设备 | |
WO2024022065A1 (zh) | 虚拟表情生成方法、装置、电子设备和存储介质 | |
CN105787884A (zh) | 一种图像处理方法及电子设备 | |
KR20130016318A (ko) | 비디오 시퀀스에 기록되는 실제 엔티티에 대한 실시간 크로핑 방법 | |
CN105763829A (zh) | 一种图像处理方法及电子设备 | |
CN111008927B (zh) | 一种人脸替换方法、存储介质及终端设备 | |
CN104599317A (zh) | 一种实现3d扫描建模功能的移动终端及方法 | |
CN109788270B (zh) | 3d-360度全景图像生成方法及装置 | |
CN108702482A (zh) | 信息处理设备、信息处理系统、信息处理方法和程序 | |
CN113628322A (zh) | 图像处理、ar显示与直播方法、设备及存储介质 | |
CN107203961B (zh) | 一种表情迁移的方法及电子设备 | |
CN111028318A (zh) | 一种虚拟人脸合成方法、系统、装置和存储介质 | |
CN111814652A (zh) | 虚拟人像渲染方法、装置以及存储介质 | |
CN115359159A (zh) | 虚拟视频通信方法、装置、设备、存储介质和程序产品 | |
CN114170379A (zh) | 一种三维模型重建方法、装置及设备 | |
CN113068003A (zh) | 数据显示方法、装置、智能眼镜、电子设备和存储介质 | |
CN116129091B (zh) | 生成虚拟形象视频的方法及装置、电子设备和存储介质 | |
US20240303918A1 (en) | Generating representation of user based on depth map | |
EP4401039A1 (en) | Image processing method and apparatus, and related device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |