CN110135215B - 一种基于Avatar表情移植的虚拟社交方法 - Google Patents
一种基于Avatar表情移植的虚拟社交方法 Download PDFInfo
- Publication number
- CN110135215B CN110135215B CN201810104085.6A CN201810104085A CN110135215B CN 110135215 B CN110135215 B CN 110135215B CN 201810104085 A CN201810104085 A CN 201810104085A CN 110135215 B CN110135215 B CN 110135215B
- Authority
- CN
- China
- Prior art keywords
- expression
- model
- animation
- network
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 181
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000002054 transplantation Methods 0.000 title claims abstract description 17
- 230000005540 biological transmission Effects 0.000 claims abstract description 48
- 230000008921 facial expression Effects 0.000 claims abstract description 27
- 230000008451 emotion Effects 0.000 claims abstract description 16
- 238000004891 communication Methods 0.000 claims abstract description 15
- 230000004886 head movement Effects 0.000 claims abstract description 13
- 238000006073 displacement reaction Methods 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000008713 feedback mechanism Effects 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000001943 fluorescence-activated cell sorting Methods 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 230000036544 posture Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- 230000000087 stabilizing effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 2
- 238000005267 amalgamation Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000004397 blinking Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种基于Avatar表情移植的虚拟社交方法。本方法的具体操作步骤是:一利用SDM(监督下降方法)从实时输入的视频流中提取人脸特征点;二、面部语义特征作为CPR(级联姿态回归)训练的DDE(位移动态表情)模型的输入,输出的表情系数和头部运动参数移植给Avatar(虚拟化身);三、对DDE模型输出的表情系数进行表情编码分组与情感分类;四、通过网络传输策略实现表情动画音频同步。本发明能实时捕捉用户面部表情并在Avatar上进行表情重演,并搭建网络通讯技术的虚拟社交。
Description
技术领域
本发明涉及计算机视觉、计算机图形学、人脸动画、网络通信技术领域,具体是一种基于Avatar表情移植的虚拟社交方法,能实时捕捉用户面部表情并在Avatar上进行表情重演,并搭建网络通信技术的虚拟社交。
背景技术
目前市场上的虚拟社交类系统如雨后春笋般涌现,其中商业思路也各有不同,主要分为工具性、UGC型和全体验型三种。工具型中以移动虚拟社交网络平台VTime最具代表性,通过VR头盔接入,头部运动来实现人机界面的交互控制以及虚拟世界的导航,语音进行沟通,但其提供的虚拟角色形象较为固定,支持的场景也相对简单;UGC型虚拟社交系统,提供高度开放的虚拟共享世界,并支持用户与朋友进行实时的交互式创建,其中基于3D摄影机的 High Fidelity,能捕捉人的表情和头部动作,如眨眼和嘴唇等动作,并同步到虚拟角色身上,提供更灵活的场景编辑和更丰富的交互体验,但这类应用依赖于辅助外设,如3D摄影机等;全方位体验型,主要以Altspace和Facebook Space为代表,其中Altspace VR能让你在虚拟空间中和朋友会面、并在线聊天的社交应用,用户的头部运动和眨眼等动作也会被同步到虚拟角色身上,而Facebook Space中,用户能上传自拍或者合拍的照片来打造适合自己的虚拟形象以及后续发型、五官编辑等工作,并根据语音识别普配出大概的发音嘴型,同时用户可借助手柄来实现简单动作的交互控制。
现有虚拟社交系统中,大部分只捕捉用户眨眼、口型以及头部运动等参数,缺乏对面部表情的捕捉,而面对面视频聊天中的非语言线索在沟通情绪、调节转折,实现和维持谈话关系方面发挥着至关重要的作用,其中面部表情是表达天生情感线索的最普遍标志,可以帮助我们更好地了解我们的对话者。由于表情捕捉、网络传输等技术限制,构建带有表情捕捉功能的虚拟社交系统带来很大挑战。基于此,本专利构建了一个基于Avatar表情移植的虚拟社交系统。
发明内容
本发明的目的在于:克服背景技术的不足,提供一种基于Avatar表情移植的虚拟社交方法,能实时捕捉用户面部表情并在Avatar上进行表情重演,并搭建网络通信技术的虚拟社交。为达到以上目的,本发明采用的构思为:利用SDM从实时输入的视频流中提取人脸特征点; 2D面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给 Avatar;对DDE模型输入的表情系数进行表情编码分组与情感分类;通过网络传输策略实现表情动画音频数据同步。
根据上述发明构思,本发明采用下述技术步骤:
一种基于Avatar表情移植的虚拟社交方法,其特征在于具体操作步骤如下:
步骤一、利用SDM从实时输入的视频流中提取人脸特征点;
利用最小化非线性最小二乘函数的监督下降法SDM来实时提取人脸特征点,即在训练期间学习不同采样点的NLS函数的平均值最小化的下降方向。在测试阶段,通过OpenCV人脸检测选择出人脸感兴趣区域并初始化平均2D形状模型,因此人脸对齐问题的求解就变成寻找梯度方向步长,于是使用学习下降的方向将NLS最小化,从而实现实时的2D人脸特征点提取。
步骤二、面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给Avatar
基于DDE模型的CPR回归算法中,通过为3D形状模型的投影添加2D位移向量来弥补动态表情模型DEM未校准匹配特定用户带来的精度误差,实现直接从视频流中回归头部姿势和表情的面部运动参数。首先利用FACS建立包含中性面以及其他n个表情融合网格模型,即B={b0,b1,…,bn},然后由融合表情模型的线性组合来表示DEM。并组织了50位不同年龄段的用户,通过Kinect构造用户3D表情库来重建标准blendshape网格模型,其中单个用户的表情混合模型由B=C×uT参数化重建,u为用户身份向量,C为三级核心张量。而2D形状模型{Sk}的特征点可通过3D网格模型相应顶点的投影加上位移向量dk表示。然后利用CPR回归算法完成DDE模型的未知量(Q,u;e,R,t,D)到2D形状模型{Sk}的函数映射,即 CPR(I,Q,u;Pin)=Pout,其中形状向量P=(e,R,t,D)。
在运行阶段,通过FaceWarehouse的平均身份向量来初始化u值,坐标系下降和二分查找的方法求解矩阵Q。对于形状向量P,当新用户进入时,第一帧图像通过2D的CPR方法提取73个特征点,生成2D形状向量Sk,与训练的3D形状向量的投影{S′k}重心对齐后,计算相应特征点的均方根距离,找到K组最近的形状向量然后通过来计算以及的平均形状向量并利用拟合误差项、正规化项、时间一致项加权组合以及BFGS优化器来稳定表情重演的动画效果,以及DEM多帧图像联合优化相机投影矩阵Q和身份向量u,而后续图像的2D形状向量通过前一帧计算的3D形状向量投影得到。
步骤三、对DDE模型输出的表情系数进行表情编码分组与情感分类
在传输分组尺寸一定时,传输占用信道的时间与节点的传输速度成反比,因此网络传输速度降低时,通过实时自适应调整传输数据分组的尺寸,能极大地减少数据包占用信道的时间,显著提高网络性能。系统中通过调整表情系数的数量来设计三种不同尺寸的数据分组,但表情系数数量的降低,表情动画的移植也相应的会受到影响。为了测试不同表情系数对融合动画影响的程度,我们分别组织了50位动画专业的大学生参与系统测试和用户体验反馈。并根据1971年Ekman和Friesen研究6种基本表情(高兴、悲伤、惊讶、恐惧和厌恶)所建立的人脸表情图像库,建立自己的面部表情动作单元与表情间的映射关系。
步骤四、通过网络传输策略实现表情动画音频数据同步
同步是多媒体通信的主要特征,是多媒体系统服务质量(QoS)研究中的重要内容,媒体间同步即要保持表情动画和音频之间的时间关系,但由于发送端在数据采集编码和数据解码等处理算法不同引起时间差,以及网络传输延迟等引起的失步。因此本发明中在发送端别对每次捕捉的表情系数和采样的语音数据打上相对时间戳,包括绝对时间和局部时间标志。在接收端,考虑到人对声音更为敏感,系统中选择音频作为主流,表情动画作为从流,主流连续播放,从流的播放由主流的播放状态决定,进而实现同步。
针对多点网络传输中的同步问题,由于不同客户端的时间戳可能按不同的速率推进,直接比较各自的时间戳很难实现多客户端间的同步,因此系统中将客户端的时间戳和服务端的参考时钟关联,组成时间戳对,所有组播网内的客户端共享参考时钟。
针对复杂网络环境下网速的降低,导致网络传输延迟和数据分组丢失严重的问题,本文中利用QoS反馈机制来实时检测网络服务质量的变化,
当网络状况较好时,通过减少循环队列的长度,提高表情动画的实时性;
当网络状况较差时,通过增加循环队列的长度,用延迟换取表情动画和音频的流畅性;
该方法有效地降低网络抖动对表情动画和音频播放质量的影响,从而在实时性和流畅性之间保持平衡。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点,可实时捕捉用户面部表情,并移植到虚拟角色身上的网络社交平台。包括输入模块、表情重现模块、及时网络通信模块、可视化模块,所述输入模块,通过网络摄像头和麦克风实时捕捉用户脸部轮廓模型和语音信息,并借助鼠标键盘实现与虚拟场景和虚拟角色的交互控制;所述表情重现模块,通过SDM从视频流中实时提取人脸轮廓特征,并计算和CPR训练的3D形状模型投影的2D特征的均方根距离,找到10组最接近的形状模型后求取平均值,实现人脸表情形状模型的捕捉;利用FACS对用户表情融合模型进行分解和编码,通过编码后表情捕捉的系数对用户情感进行分类,实现高兴、悲伤、惊讶三种情感的识别;表情捕捉完成后,移植给有相应形状融合变形动画的虚拟角色脸上,实现平顺、高精度的表情动画融合效果。所述即时网络通信模块,通过TCP协议搭建客户端和服务端面向连接的高可靠性网络传输,以及 UDP多播讨论组建立等操作,并利用网络通信策略,降低网络抖动对表情动画和音频播放质量的影响,实现表情-语音同步;所述可视化模块,对虚拟场景、表情系数驱动的人脸融合变形动画以及鼠标键盘交互控制的肢体动画等实时三维信息可视化,并通过人机交互界面实现用户好友列表管理以及场景、角色模型的编辑和切换等工作。本发明同时提供了一种基于 SDM人脸特征点提取和CPR训练DDE模型的人脸表情捕捉方法,该方法有效地解决了面部表情捕捉中需要校准特定用户和容错性低等问题。
附图说明
图1为本发明的程序框图。
图2为基于Avatar表情移植的虚拟社交系统的系统架构图。
图3为表情捕捉系统在运行阶段形状向量P的求解过程。
图4为表情系数对面部表情动画融合影响程度的评估结果。
图5为建立的面部表情动作单元与表情间的映射关系。
图6为表情动画音频数据同步的算法流程图。
具体实施方式
下面结合附图以及具体实施方式进一步说明本发明。:
实施例一:
参见图1~图4,基于Avatar表情移植的虚拟社交方法,其特征在于,具体步骤如下:
步骤一、利用SDM从实时输入的视频流中提取人脸特征点:
利用最小化非线性最小二乘函数的监督下降法SDM来实时提取人脸特征点,即在训练期间学习不同采样点的NLS函数的平均值最小化的下降方向;在测试阶段,通过OpenCV人脸检测选择出人脸感兴趣区域并初始化平均2D形状模型,因此人脸对齐问题的求解就变成寻找梯度方向步长,于是使用学习下降的方向将NLS最小化,从而实现实时的2D人脸特征点提取;
步骤二、面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给Avatar:
基于DDE模型的CPR回归算法中,通过为3D形状模型的投影添加2D位移向量来弥补动态表情模型DEM未校准匹配特定用户带来的精度误差,实现直接从视频流中回归头部姿势和表情的面部运动参数;首先利用FACS建立包含中性面以及其他n个表情融合网格模型,即B={b0,b1,…,bn},然后由融合表情模型的线性组合来表示DEM。并组织了50位不同年龄段的用户,通过Kinect构造用户3D表情库来重建标准blendshape网格模型,其中单个用户的表情混合模型由B=C×uT参数化重建,u为用户身份向量,C为三级核心张量;而2D形状模型{Sk}的特征点可通过3D网格模型相应顶点的投影加上位移向量dk表示。然后利用CPR回归算法完成DDE模型的未知量(Q,u;e,R,t,D)到2D形状模型{Sk}的函数映射,即 CPR(I,Q,u;Pin)=Pout,其中形状向量P=(e,R,t,D);
在运行阶段,通过FaceWarehouse的平均身份向量来初始化u值,坐标系下降和二分查找的方法求解矩阵Q;而形状向量P的求解过程如图2所示,当新用户进入时,第一帧图像通过2D的CPR方法提取73个特征点,生成2D形状向量Sk,与训练的3D形状向量的投影{S′k}重心对齐后,计算相应特征点的均方根距离,找到K组最近的形状向量然后通过来计算以及的平均形状向量并利用拟合误差项、正规化项、时间一致项加权组合以及BFGS优化器来稳定表情重演的动画效果,以及DEM多帧图像联合优化相机投影矩阵Q和身份向量u,而后续图像的2D形状向量通过前一帧计算的3D形状向量投影得到;
步骤三、对DDE模型输出的表情系数进行表情编码分组与情感分类:
在传输分组尺寸一定时,传输占用信道的时间与节点的传输速度成反比,因此网络传输速度降低时,通过实时自适应调整传输数据分组的尺寸,能极大地减少数据包占用信道的时间,显著提高网络性能;系统中通过调整表情系数的数量来设计三种不同尺寸的数据分组,但表情系数数量的降低,表情动画的移植也相应的会受到影响。为了测试不同表情系数对融合动画影响的程度,我们分别组织了50位动画专业的大学生参与系统测试和用户体验反馈。并根据1971年Ekman和Friesen研究6种基本表情(高兴、悲伤、惊讶、恐惧和厌恶)所建立的人脸表情图像库,建立面部表情动作单元与表情间的映射关系;
步骤四、通过网络传输策略实现表情动画音频数据同步:
同步是多媒体通信的主要特征,是多媒体系统服务质量QoS研究中的重要内容,媒体间同步即要保持表情动画和音频之间的时间关系,但由于发送端在数据采集编码和数据解码等处理算法不同引起时间差,以及网络传输延迟引起的失步;因此在发送端分别对每次捕捉的表情系数和采样的语音数据打上相对时间戳,包括绝对时间和局部时间标志。在接收端,考虑到人对声音更为敏感,系统中选择音频作为主流,表情动画作为从流,主流连续播放,从流的播放由主流的播放状态决定,进而实现同步;
针对多点网络传输中的同步问题,由于不同客户端的时间戳可能按不同的速率推进,直接比较各自的时间戳很难实现多客户端间的同步,因此系统中将客户端的时间戳和服务端的参考时钟关联,组成时间戳对,所有组播网内的客户端共享参考时钟;
针对复杂网络环境下网速的降低,导致网络传输延迟和数据分组丢失严重的问题,利用 QoS反馈机制来实时检测网络服务质量的变化,
1)当网络状况较好时,通过减少循环队列的长度,提高表情动画的实时性;
2)当网络状况较差时,通过增加循环队列的长度,用延迟换取表情动画和音频的流畅性;
该方法有效地降低网络抖动对表情动画和音频播放质量的影响,从而在实时性和流畅性之间保持平衡。
实施例二:
本实施例与实施例一基本相同,特别之处在于:
1.所述步骤一利用SDM从实时输入的视频流中提取人脸特征点的方法,从公共图像集中学习得到一系列下降的方向和该方向上的尺度,使得目标函数以非常快的速度收敛到最小值,从而回避了求解Jacobian矩阵和Hessian矩阵的问题。
2.基于Avatar表情移植的虚拟社交方法,其特征在于:所述步骤二中利用CPR训练的DDE模型,获取表情系数和头部运动参数的方法:Blendshape表情模型通过基础姿势的线性组合来实现表情动画的重演,不同人的给定面部表情对应于相似的一组基本权重,可以很方便地将表演者的面部表情传递给Avatar。
3.基于Avatar表情移植的虚拟社交方法,其特征在于:所述步骤三中对表情系数进行表情编码分组与情感分类的方法:通过测试不同表情基础权重对Avatar表情融合动画的影响程度,对表情系数进行分组,通过控制网络传输的分组长度,来提高系统对复杂网络条件的适应能力。通过建立面部表情动作单元与表情间的映射关系,实现高兴、悲伤、惊讶三种表情的识别,为虚拟社交提供智能化的提示功能。
4.基于Avatar表情移植的虚拟社交方法,其特征在于:所述步骤四中利用网络传输策略实现表情动画音频数据同步的方法:利用时间戳对和QoS反馈机制的多点网络通信技术,降低网络抖动对表情动画和音频播放质量的影响,实现表情-语音同步。
实施例三:
基于Avatar表情移植的虚拟社交方法,参见图1,主要步骤有:利用SDM从实时输入的视频流中提取人脸特征点;2D面部语义特征作为CPR训练的DDE模型的输入,输出的表情系数和头部运动参数移植给Avatar;对DDE模型输出的表情系数进行表情编码分组与情感分类;通过网络传输策略实现表情动画音频数据同步,如图2所示。
1、利用SDM从实时输入的视频流中提取人脸特征点:
利用最小化非线性最小二乘函数的监督下降法SDM来实时提取人脸特征点,即在训练期间学习不同采样点的NLS函数的平均值最小化的下降方向,在测试阶段通过先初始化平均2D 形状模型,然后使用学习下降的方向将NLS最小化,从而实现实时的2D人脸特征点提取。
对于给定测试图像d∈Rm×1(即把图像从左向右、从上至下展开成m个像素的一维向量), d(x)∈Rp×1表示图像中第P个标记点的索引,h(d(x))∈R(128*p)×1表示非线性特征提取函数,如SIFT特征,其中128表示每个特征点有128维度。在测试阶段,通过OpenCV人脸检测选择出人脸感兴趣区域,并初始化一组平均人脸标记点,因此人脸对齐问题的求解就变成寻找梯度方向步长Δx,使得目标函数(1)误差最小:
其中,H和J分别表示Hessian矩阵Jacobian矩阵,但矩阵H和J的计算开销太大,因此可以直接计算他们的乘积,即上述公式可转变为:
其中为下降方向,为偏移项,由此便转化为从训练集中学习Rk-1和 bk-1的一元线性回归问题。通过脸部图像{di}以及相应的手动标记特征点利用公式(4)可以学习一个新的线性回归,即用当前(及之前)的迭代误差之和最小化,该问题同样是最优化问题。
2、面部语义特征作为CPR训练的DDE模型的输入,输出表情系数和头部运动参数移植给 Avatar:
基于DDE模型的CPR回归算法中,通过为3D形状模型的投影添加2D位移向量来弥补动态表情模型DEM未校准匹配特定用户带来的精度误差,实现直接从视频流中回归头部姿势和表情的面部运动参数。首先利用FACS建立包含中性面以及其他n个表情融合网格模型,即 B={b0,b1,…,bn},然后由融合表情模型的线性组合来表示DEM,如公式(1)所示,其中e为表情系数,R为头部旋转四元数,t位移向量。
F=R(BeT)+t=R(C×uTeT)+t (5)
并组织了50位不同年龄段的用户,通过Kinect构造用户3D表情库来重建标准blendshape 网格模型,其中单个用户的表情混合模型由B=C×uT参数化重建,u为用户身份向量,C为三级核心张量。而2D形状模型{Sk}的特征点可通过3D网格模型相应顶点的投影加上位移向量dk表示,如公式(2)所示,其中πQ为投影算子,由相机投影矩阵Q参数化表示。
然后利用CPR回归算法完成DDE模型的未知量(Q,u;e,R,t,D)到2D形状模型{Sk}的函数映射,即 CPR(I,Q,u;Pin)=Pout,其中形状向量P=(e,R,t,D)。
在运行阶段,通过FaceWarehouse的平均身份向量来初始化u值,坐标系下降和二分查找的方法求解矩阵Q。而形状向量P的求解过程如图2所示,当新用户进入时,第一帧图像通过2D的CPR方法提取73个特征点,生成2D形状向量Sk,与训练的3D形状向量的投影{S′k}重心对齐后,计算相应特征点的均方根距离,找到K组最近的形状向量然后通过来计算以及的平均形状向量并利用拟合误差项、正规化项、时间一致项加权组合以及BFGS优化器来稳定表情重演的动画效果,以及DEM多帧图像联合优化相机投影矩阵Q和身份向量u,而后续图像的2D形状向量通过前一帧计算的3D形状向量投影得到。
3、对DDE模型输出的表情系数进行表情编码分组与情感分类:
在传输分组尺寸一定时,传输占用信道的时间与节点的传输速度成反比,因此网络传输速度降低时,通过实时自适应调整传输数据分组的尺寸,能极大地减少数据包占用信道的时间,显著提高网络性能。系统中通过调整表情系数的数量来设计三种不同尺寸的数据分组,但表情系数数量的降低,表情动画的移植也相应的会受到影响。为了测试不同表情系数对融合动画影响的程度,我们分别组织了50位动画专业的大学生参与系统测试和用户体验反馈。用户先体验51位系数表情重演的动画效果后,关闭其中某个系数(若系数有左右之分则都关闭),并要求用户演练该系数控制的相应脸部动作,再评价该系数对体验的影响,并统计每个表情系数评估的平均分数,结果如图4所示,快中慢三种网速模式下分别传输7、26、51位系数,由红绿蓝三角形标识(其中,1:非常大,2:大,3:适中,4:不太大,5小)。
并根据1971年Ekman和Friesen研究6种基本表情(高兴、悲伤、惊讶、恐惧和厌恶)所建立的人脸表情图像库,建立自己的面部表情动作单元与表情间的映射关系,如图5所示,然后通过阈值判断对用户情感进行分类后驱动同种类不同动画的播放,为虚拟社交系统实现更为丰富多样的视频化效果。
4、通过网络传输策略实现表情动画音频数据同步:
同步是多媒体通信的主要特征,是多媒体系统服务质量(QoS)研究中的重要内容,媒体间同步即要保持表情动画和音频之间的时间关系,但由于发送端在数据采集编码和数据解码等处理算法不同引起时间差,以及网络传输延迟等引起的失步。
如图6所示,发送端分别对每次捕捉的表情系数和采样的语音数据打上相对时间戳,包括绝对时间和局部时间标志。根据表情捕捉的帧率和音频采样的速率来动态地控制时间戳的递增速率,同一时间采集的数据打上同样的时间戳,并在同一线程中交替发送数据包;
在接收端,当数据分组到达时,先利用LitJson进行反序列化,针对音频数据还需Zlib 进行解码,然后分别存入各自的动态循环队列中。考虑到人对声音更为敏感,系统中选择音频作为主流,表情动画作为从流,主流连续播放,从流的播放由主流的播放状态决定,进而实现同步。当循环队列都填充满后,定时从动态循环队列中提取音频数据分组,在实例化的虚拟化身嘴部播放,并记录当前播放数据的时间戳。在表情动画播放方面,采用事件驱动的方式来对Avatar应用表情系数。当接收到新的表情数据分组时,存入表情动态循环队列,并提取数据分组的时间戳和记录的音频时间戳比较:
1)若处于同步区域中间,则播放当前表情动画数据;
2)若滞后于同步区域,则丢弃数据;
3)若超前该同步区域,则等待下次;
针对多点网络传输中的同步问题,由于不同客户端的时间戳可能按不同的速率推进,直接比较各自的时间戳很难实现多客户端间的同步,因此系统中将客户端的时间戳和服务端的参考时钟关联,组成时间戳对,所有组播网内的客户端共享参考时钟。
针对复杂网络环境下网速的降低,导致网络传输延迟和数据分组丢失严重的问题,本文中利用QoS反馈机制来实时检测网络服务质量的变化,其中反馈信息包括了估算分组丢失和分组延迟抖动等信息。数据分组中的序列号除了用于对数据包排序外,还用于统计分组丢失的情况,而抖动延迟则通过时间戳进行计算。
当丢包率和抖动达到阈值时反馈给发送端,调整网络传输中分组的长度,在音频方面,调整音频采样时间来控制数据分组在MTU(最大传输单元)内,从而无需采用分片封包模式,在表情系数方面,自适应调整表情模式,减少需要传输的表情系数,为音频传输减少带宽负担。同时接收端会调整动态循环队列的长度:
1)当网络状况较好时,通过减少循环队列的长度,提高表情动画的实时性;
2)当网络状况较差时,通过增加循环队列的长度,用延迟换取表情动画和音频的流畅性;
该方法有效地降低网络抖动对表情动画和音频播放质量的影响,从而在实时性和流畅性之间保持平衡。
Claims (5)
1.一种基于Avatar表情移植的虚拟社交方法,其特征在于,具体步骤如下:
步骤一、利用监督下降法SDM从实时输入的视频流中提取人脸特征点:
利用最小化非线性最小二乘函数的监督下降法SDM来实时提取人脸特征点,即在训练期间学习不同采样点的非线性最小二乘法函数的平均值最小化的下降方向;在测试阶段,通过OpenCV人脸检测选择出人脸感兴趣区域并初始化平均2D形状模型,因此人脸对齐问题的求解就变成寻找梯度方向步长,于是使用学习下降的方向将非线性最小二乘函数NLS最小化,从而实现实时的2D人脸特征点提取;
步骤二、面部语义特征作为CPR训练的动态数据交换机制DDE(DynamicData Exchange)模型的输入,输出的表情系数和头部运动参数移植给Avatar:
基于DDE模型的CPR回归算法中,通过为3D形状模型的投影添加2D位移向量来弥补动态表情模型DEM未校准匹配特定用户带来的精度误差,实现直接从视频流中回归头部姿势和表情的面部运动参数;首先利用面部动作编码系统FACS建立包含中性面以及其他n个表情融合的表情模型,即B={b0,b1,…,bn},然后由融合表情模型的线性组合来表示动态表情模型DEM;并组织了50位不同年龄段的用户,通过Kinect构造用户3D表情库来重建标准Blendshape表情模型,其中单个用户的表情混合模型由B=C×uT参数化重建,u为用户身份向量,C为三级核心张量;而2D形状模型{Sk}的特征点可通过3D网格模型相应顶点的投影加上位移向量dk表示;然后利用CPR回归算法完成DDE模型的未知量(Q,u;e,R,t,D)到2D形状模型{Sk}的函数映射,即CPR(I,Q,u;Pin)=Pout,其中形状向量P=(e,R,t,D);e为表情系数,R为头部旋转四元数,t为位移向量;
在运行阶段,通过FaceWarehouse的平均身份向量来初始化u值,坐标系下降和二分查找的方法求解矩阵Q;而形状向量P的求解过程为:当新用户进入时,第一帧图像通过2D的CPR方法提取73个特征点,生成2D形状向量Sk,与训练的3D形状向量的投影{S′k}重心对齐后,计算相应特征点的均方根距离,找到K组最近的形状向量然后通过来计算以及的平均形状向量并利用拟合误差项、正规化项、时间一致项加权组合以及BFGS优化器来稳定表情重演的动画效果,以及DEM多帧图像联合优化相机投影矩阵Q和身份向量u,而后续图像的2D形状向量通过前一帧计算的3D形状向量投影得到;
步骤三、对DDE模型输出的表情系数进行表情编码分组与情感分类:
在传输分组尺寸一定时,传输占用信道的时间与节点的传输速度成反比,因此网络传输速度降低时,通过实时自适应调整传输数据分组的尺寸,能极大地减少数据包占用信道的时间,显著提高网络性能;系统中通过调整表情系数的数量来设计三种不同尺寸的数据分组,但表情系数数量的降低,表情动画的移植也相应的会受到影响;为了测试不同表情系数对融合动画影响的程度,组织了50位动画专业的大学生参与系统测试和用户体验反馈;并根据1971年Ekman和Friesen研究5种基本表情:高兴、悲伤、惊讶、恐惧、厌恶,所建立的人脸表情图像库,建立面部表情动作单元与表情间的映射关系;
步骤四、通过网络传输策略实现表情动画音频数据同步:
同步是多媒体通信的主要特征,是多媒体系统服务质量QoS研究中的重要内容,媒体间同步即要保持表情动画和音频之间的时间关系,但由于发送端在数据采集编码和数据解码处理算法不同引起时间差,以及网络传输延迟引起的失步;因此在发送端,分别对每次捕捉的表情系数和采样的语音数据打上相对时间戳,包括绝对时间和局部时间标志;在接收端,考虑到人对声音更为敏感,系统中选择音频作为主流,表情动画作为从流,主流连续播放,从流的播放由主流的播放状态决定,进而实现同步;
针对多点网络传输中的同步问题,由于不同客户端的时间戳可能按不同的速率推进,直接比较各自的时间戳很难实现多客户端间的同步,因此系统中将客户端的时间戳和服务端的参考时钟关联,组成时间戳对,所有组播网内的客户端共享参考时钟;
针对复杂网络环境下网速的降低,导致网络传输延迟和数据分组丢失严重的问题,利用QoS反馈机制来实时检测网络服务质量的变化,
1)当网络状况较好时,通过减少循环队列的长度,提高表情动画的实时性;
2)当网络状况较差时,通过增加循环队列的长度,用延迟换取表情动画和音频的流畅性;
该方法有效地降低网络抖动对表情动画和音频播放质量的影响,从而在实时性和流畅性之间保持平衡。
2.根据权利要求1所述基于Avatar表情移植的虚拟社交方法,其特征在于:所述步骤一利用SDM从实时输入的视频流中提取人脸特征点的方法,从公共图像集中学习得到一系列下降的方向和该方向上的尺度,使得目标函数以非常快的速度收敛到最小值,从而回避了求解Jacobian矩阵和Hessian矩阵的问题。
3.根据权利要求1所述基于Avatar表情移植的虚拟社交方法,其特征在于:所述步骤二中利用CPR训练的DDE模型,获取表情系数和头部运动参数的方法:Blendshape表情模型通过基础姿势的线性组合来实现表情动画的重演,不同人的给定面部表情对应于相似的一组基本权重,可以很方便地将表演者的面部表情传递给Avatar。
4.根据权利要求1所述基于Avatar表情移植的虚拟社交方法,其特征在于:所述步骤三中对表情系数进行表情编码分组与情感分类的方法:通过测试不同表情基础权重对Avatar表情融合动画的影响程度,对表情系数进行分组,通过控制网络传输的分组长度,来提高系统对复杂网络条件的适应能力;通过建立面部表情动作单元与表情间的映射关系,实现高兴、悲伤、惊讶三种表情的识别,为虚拟社交提供智能化的提示功能。
5.根据权利要求1所述基于Avatar表情移植的虚拟社交方法,其特征在于:所述步骤四中通过网络传输策略实现表情动画音频数据同步的方法:利用时间戳对和QoS反馈机制的多点网络通信技术,降低网络抖动对表情动画和音频播放质量的影响,实现表情-语音同步。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810104085.6A CN110135215B (zh) | 2018-02-02 | 2018-02-02 | 一种基于Avatar表情移植的虚拟社交方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810104085.6A CN110135215B (zh) | 2018-02-02 | 2018-02-02 | 一种基于Avatar表情移植的虚拟社交方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135215A CN110135215A (zh) | 2019-08-16 |
CN110135215B true CN110135215B (zh) | 2021-11-05 |
Family
ID=67567060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810104085.6A Active CN110135215B (zh) | 2018-02-02 | 2018-02-02 | 一种基于Avatar表情移植的虚拟社交方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135215B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796111B (zh) | 2019-11-05 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111063339A (zh) * | 2019-11-11 | 2020-04-24 | 珠海格力电器股份有限公司 | 智能交互方法、装置、设备及计算机可读介质 |
CN111105487B (zh) * | 2019-12-19 | 2020-12-22 | 华中师范大学 | 一种虚拟教师系统中的面部合成方法及装置 |
CN112686978B (zh) * | 2021-01-07 | 2021-09-03 | 网易(杭州)网络有限公司 | 表情资源的加载方法、装置和电子设备 |
CN113658306A (zh) * | 2021-07-20 | 2021-11-16 | 广州虎牙科技有限公司 | 表情转换模型的训练的相关方法以及相关装置、设备 |
CN113744374B (zh) * | 2021-09-03 | 2023-09-22 | 浙江大学 | 一种基于表情驱动的3d虚拟形象生成方法 |
CN113760101B (zh) * | 2021-09-23 | 2023-04-18 | 北京字跳网络技术有限公司 | 一种虚拟角色控制方法、装置、计算机设备以及存储介质 |
US20230368794A1 (en) * | 2022-05-13 | 2023-11-16 | Sony Interactive Entertainment Inc. | Vocal recording and re-creation |
CN115330912B (zh) * | 2022-10-12 | 2023-03-24 | 中国科学技术大学 | 基于音频和图像驱动的用于生成人脸说话视频的训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016011654A1 (en) * | 2014-07-25 | 2016-01-28 | Intel Corporation | Avatar facial expression animations with head rotation |
CN106157372A (zh) * | 2016-07-25 | 2016-11-23 | 深圳市唯特视科技有限公司 | 一种基于视频图像的3d人脸网格重构方法 |
CN106823374A (zh) * | 2017-01-17 | 2017-06-13 | 河海大学 | 基于Android系统的Talking Avatar手游软件的构建方法 |
CN107203961A (zh) * | 2016-03-17 | 2017-09-26 | 掌赢信息科技(上海)有限公司 | 一种表情迁移的方法及电子设备 |
-
2018
- 2018-02-02 CN CN201810104085.6A patent/CN110135215B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016011654A1 (en) * | 2014-07-25 | 2016-01-28 | Intel Corporation | Avatar facial expression animations with head rotation |
CN107203961A (zh) * | 2016-03-17 | 2017-09-26 | 掌赢信息科技(上海)有限公司 | 一种表情迁移的方法及电子设备 |
CN106157372A (zh) * | 2016-07-25 | 2016-11-23 | 深圳市唯特视科技有限公司 | 一种基于视频图像的3d人脸网格重构方法 |
CN106823374A (zh) * | 2017-01-17 | 2017-06-13 | 河海大学 | 基于Android系统的Talking Avatar手游软件的构建方法 |
Non-Patent Citations (3)
Title |
---|
Displaced dynamic expression regression for real-time facial tracking and animation;Chen Cao 等;《ACM Transactions on Graphics》;20140731;第1-10页 * |
Robust real-time performance-driven 3D face Tracking;Pham H.X.等;《Proceedings of International Conference on Pattern Recognition》;20161231;第1851-1856页 * |
基于单目视频相机的实时人脸跟踪与动画方法研究;曹晨;《中国博士学位论文全文数据库》;20180115;第I138-83页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110135215A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135215B (zh) | 一种基于Avatar表情移植的虚拟社交方法 | |
WO2022142818A1 (zh) | 一种基于全息终端的5g强互动远程专递教学系统的工作方法 | |
US9626788B2 (en) | Systems and methods for creating animations using human faces | |
Ma et al. | Styletalk: One-shot talking head generation with controllable speaking styles | |
CN111402399B (zh) | 人脸驱动和直播方法、装置、电子设备及存储介质 | |
US9936165B2 (en) | System and method for avatar creation and synchronization | |
US20240312212A1 (en) | Real-time video dimensional transformations of video for presentation in mixed reality-based virtual spaces | |
CN110213521A (zh) | 一种虚拟即时通信方法 | |
CN105190700A (zh) | 基于化身的视频编码 | |
Zhang et al. | Dinet: Deformation inpainting network for realistic face visually dubbing on high resolution video | |
US11908068B2 (en) | Augmented reality methods and systems | |
CN107945255A (zh) | 一种虚拟人物表情驱动方法及系统 | |
CN108810561A (zh) | 一种基于人工智能的三维偶像直播方法及装置 | |
JP2024507849A (ja) | ニューラルネットワークを使用したビデオからのロバストな顔面アニメーション | |
CN110992455A (zh) | 一种实时表情捕捉方法和系统 | |
CN111476903A (zh) | 虚拟交互实现控制方法、装置、计算机设备及存储介质 | |
Huang et al. | Facial tracking and animation for digital social system | |
WO2022110752A1 (zh) | 图像处理方法、服务器和虚拟现实设备 | |
CN114445529A (zh) | 一种基于动作及语音特征的人脸图像动画方法和系统 | |
CN114373146A (zh) | 基于骨骼信息和时空特征的参会动作识别方法 | |
Li et al. | FAIVconf: Face enhancement for AI-based video conference with low bit-rate | |
Kabir et al. | Real-time video chatting in low bandwidth by Facial Action Coding System | |
Wang et al. | Hierarchical facial expression animation by motion capture data | |
CN114363557B (zh) | 一种面向语义保真的虚拟会议方法及三维虚拟会议系统 | |
CN116091668B (zh) | 一种基于情绪特征指导的说话头视频生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |