CN116091668A - 一种基于情绪特征指导的说话头视频生成方法 - Google Patents
一种基于情绪特征指导的说话头视频生成方法 Download PDFInfo
- Publication number
- CN116091668A CN116091668A CN202310374538.8A CN202310374538A CN116091668A CN 116091668 A CN116091668 A CN 116091668A CN 202310374538 A CN202310374538 A CN 202310374538A CN 116091668 A CN116091668 A CN 116091668A
- Authority
- CN
- China
- Prior art keywords
- emotion
- video
- mesh
- expression sequence
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000014509 gene expression Effects 0.000 claims abstract description 64
- 230000002996 emotional effect Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013139 quantization Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000007935 neutral effect Effects 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000005477 standard model Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000003472 neutralizing effect Effects 0.000 abstract description 2
- 239000007787 solid Substances 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 235000019988 mead Nutrition 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Graphics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种基于情绪特征指导的说话头视频生成方法,引入了情绪特征指导,训练得到的模型能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达,可以很好地解决目前说话头中性化固态表达的问题。同时,本发明通过基于二维数据的三维重建技术,从现有的情绪丰富的二维数据集得到近似数据,能够解决缺乏数据的问题。本发明侧重在生成人物形象视频的同时提高其表达的情绪化能力。通过在保证传播内容的同时,赋予视频中的人物与传播内容向匹配的情绪张力,使得视频人物表达更具情感特征,提高虚拟形象真实性,从而提高用户体验。
Description
技术领域
本发明涉及计算机图像处理和机器学习技术领域,更具体地,涉及一种基于情绪特征指导的说话头视频生成方法。
背景技术
随着互联网软硬件技术发展逐步成熟,在“元字宙”概念成为热点的同时,虚拟数字人产业也进入“爆发期”。虚拟数字人,是指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音生成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。虚拟数字人按其人格特征可区分为虚拟IP与虚拟世界第二分身两种不同的应用领域。其中,虚拟世界第二分身是指满足个人对虚拟身份的需求,为社交、娱乐、商业等设计脱离于现实世界的第二分身形象。
可随着互联网产业的发展,现有视频影像生成技术的缺点也逐渐暴露出来。以虚拟新闻主播为例,目前市面上大多数的虚拟形象大多长时间保持着中性的表情或神态进行输出表达,然而驱动的视频内容却是有单独语境的,这容易给观众带来视觉与听觉上的割裂感,难以实现面向用户的情感共鸣。同时,大多数虚拟形象的面部微表情动作是无法自主调控的,如果用户对虚拟形象有不同情感倾向表达的需求,则其固化且笨重的神态表达显而易见是无法匹配理想类人效果的。
目前在说话头3D模型生成方面的不足:1)现有的语音驱动生成方法生成的3D表情序列基本都呈现中性的情绪,缺乏丰富的情绪化的逼真表达;2)现有的语音驱动方法基本上是不可直观控制情绪的,原因是语音信号中指导嘴型和情绪的特征有耦合,而这部分控制很难把握;3)对语音信号驱动生成的效果往往取决于数据的语料、情绪覆盖范围,而当前也缺少语料、情绪覆盖范围足够大,同时语料能与情绪对齐组合的数据集。
现有技术公开一种说话头的小样本合成,从预先准备好的子视频中提取多个人物图像,经过一定处理后生成人物视频。该方案是从根据不同子视频,从而生成一段新人物视频,但生成的视频形象仍输出的是中性表达。
发明内容
本发明提供一种基于情绪特征指导的说话头视频生成方法,引入了情绪特征指导,训练得到的模型能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达,可以很好地解决目前说话头中性化固态表达的问题。
为解决上述技术问题,本发明的技术方案如下:
一种基于情绪特征指导的说话头视频生成方法,包括以下步骤:
S1:获取包括人物头部说话表情的视频和对应的音频,以及中性感情mesh头部模板;
S2:对所述视频中每一帧的人脸进行3D重建,所得重建结果保存为顶点矩阵,所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列;
S3:对于每一帧,利用所述音频生成第一编码结果,利用所述中性感情mesh头部模板生成第二编码结果,利用所述第一编码结果、第二编码结果和表情序列生成第三编码结果;
S4:对于每一帧,利用特征融合器融合所述第一编码结果、第二编码结果和第三编码结果,所有帧的融合结果形成带有情绪化的表情序列;
S5:将所述带有情绪化的表情序列经过3D渲染后,输出最终的视频。
优选地,步骤S2中对所述视频中每一帧的人脸进行3D重建,具体为:
使用state of the art的spectre模型对每一帧的人脸进行重建,得到mesh中间数据,每一帧的人脸参数定义为,其中,β是shape系数,θ是pose系数,α是反射率系数,l是光照系数,ψ是exp系数,不考虑纹理和颜色的情况下,有:
公式(1)表示顶点经过关节旋转变化的计算,所述顶点指的是每个mesh中的顶点,所述的mesh是由5023个顶点,并按照预设的规则进行排列组成的3D模型,公式(2)至(5)表示为模板mesh增加exp、pose、shape的偏移量,所述模板mesh是Flame模型定义的标准模型,所有参数都为0,所有变化都是在模板mesh的基础上通过系数变换来实现的;
为最终得到的mesh,函数W()表示求mesh的顶点经过关节旋转变化的计算,W是blendWeights矩阵,表示关节变换,表示对模板mesh加上由shape、pose和exp系数决定的偏移量,表示模板mesh,、、分别表示在Flame模型定义的不同个体中shape、pose和exp上的线性变换,其中、、分别为对应的标准正交变换矩阵、表示pose激活的顶点偏移量,为shape系数的模长,为shape系数的第n维元素,为矩阵S的第n个向量,为关节数量,为|θ|到9k维度的映射,转换成旋转矩阵,为exp系数的模长,为exp向量的第n维元素,为矩阵的第n个向量。
优选地,步骤S3中利用语音信号编码器对所述音频生成第一编码结果,所述第一编码结果为音频特征audio feature。
优选地,步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果,所述第二编码结果为个人风格信息Qurey。
优选地,步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果,具体为:
利用第一编码结果和第二编码结果进行初步特征融合,并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的codebook得到编码向量Zd,所述编码向量Zd为第三编码结果。
优选地,所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft),F1,F2,F3.....Ft代表每一帧的3D模型,以及同等时序长度的音频特征、编码器输出潜在表征,并在codebook中寻找相近的编码向量,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,对H和H’计算MSE作为重建损失,引入stop gradient的计算技巧,sg符号内的内容在计算loss时会正常包含在内,但在更新时此项不会提供梯度信息,也不会被更新,将解码器处的梯度复制到编码器计算,通过调整的大小可以调整codebook的优化速度,此部分作为编码损失,经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识,以下为此部分架构的总体损失函数:
优选地,步骤S4具体为:
将编码向量Zd与融合得到的潜在表征进一步特征融合,得到的结果表示为Value,同时也作为key,key与Value、Qurey共同接入自回归的mesh解码器,mesh解码器使用了TransformerDecoder的结构,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的带有情绪化的表情序列。
优选地,步骤S5中,将所述带有情绪化的表情序列经过平化处理和3D渲染后,输出最终的视频。
与现有技术相比,本发明技术方案的有益效果是:
1)本发明引入了情绪特征指导,训练得到的神经网络能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达;
2)本发明能够利用先验知识指导,解除情绪于语音信号的部分耦合,使情绪特征的控制更倾向于视频序列信号输入,即能够通过视频序列信号控制模型生成说话头的情绪表达,解决情绪特征难以控制的问题;
3)本发明通过基于二维数据的三维重建技术,从现有的情绪丰富的二维数据集得到近似数据,能够解决缺乏数据的问题。
附图说明
图1为本发明的方法流程示意图。
图2为实施例提供的数据处理方法示意图。
图3为实施例提供的提取先验知识流程示意图。
图4为实施例提供的生成带有情绪化表达的说话头模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种基于情绪特征指导的说话头视频生成方法,如图1所示,包括以下步骤:
S1:获取包括人物头部说话表情的视频和对应的音频,以及中性感情mesh头部模板;
S2:对所述视频中每一帧的人脸进行3D重建,所得重建结果保存为顶点矩阵,所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列;
S3:对于每一帧,利用所述音频生成第一编码结果,利用所述中性感情mesh头部模板生成第二编码结果,利用所述第一编码结果、第二编码结果和表情序列生成第三编码结果;
S4:对于每一帧,利用特征融合器融合所述第一编码结果、第二编码结果和第三编码结果,所有帧的融合结果形成带有情绪化的表情序列;
S5:将所述带有情绪化的表情序列经过3D渲染后,输出最终的视频。
实施例2
本实施例在实施例1的基础上,继续公开以下内容:
步骤S2中对所述视频中每一帧的人脸进行3D重建,具体为:
使用state of the art的spectre模型对每一帧的人脸进行重建,得到mesh中间数据,每一帧的人脸参数定义为,其中,β是shape系数,θ是pose系数,α是反射率系数,l是光照系数,ψ是exp系数,不考虑纹理和颜色的情况下,有:
公式(1)表示顶点经过关节旋转变化的计算,所述顶点指的是每个mesh中的顶点,所述的mesh是由5023个顶点,并按照预设的规则进行排列组成的3D模型,公式(2)至(5)表示为模板mesh增加exp、pose、shape的偏移量,所述模板mesh是Flame模型定义的标准模型,所有参数都为0,所有变化都是在模板mesh的基础上通过系数变换来实现的;
为最终得到的mesh,函数W()表示求mesh的顶点经过关节旋转变化的计算,W是blendWeights矩阵,表示关节变换,表示对模板mesh加上由shape、pose和exp系数决定的偏移量,表示模板mesh,、、分别表示在Flame模型定义的不同个体中shape、pose和exp上的线性变换,其中、、分别为对应的标准正交变换矩阵、表示pose激活的顶点偏移量,为shape系数的模长,为shape系数的第n维元素,为矩阵S的第n个向量,为关节数量,为|θ|到9k维度的映射,转换成旋转矩阵,为exp系数的模长,为exp向量的第n维元素,为矩阵的第n个向量。
实施例3
本实施例在实施例1和实施例2的基础上,继续公开以下内容:
步骤S3中利用语音信号编码器对所述音频生成第一编码结果,所述第一编码结果为音频特征audio feature。
步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果,所述第二编码结果为个人风格信息Qurey。
步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果,具体为:
利用第一编码结果和第二编码结果进行初步特征融合,并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的codebook得到编码向量Zd,所述编码向量Zd为第三编码结果。
所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft),F1,F2,F3.....Ft代表每一帧的3D模型,以及同等时序长度的音频特征、编码器输出潜在表征,并在codebook中寻找相近的编码向量,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,对H和H’计算MSE作为重建损失,引入stopgradient的计算技巧,sg符号内的内容在计算loss时会正常包含在内,但在更新时此项不会提供梯度信息,也不会被更新,将解码器处的梯度复制到编码器计算,通过调整的大小可以调整codebook的优化速度,此部分作为编码损失,经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识,以下为此部分架构的总体损失函数:
本实施例中,矢量量化正则变分自编码器为预先训练好,其训练数据的预处理方法如图2所示,采集是从现有的情绪丰富的二维数据集如MEAD等获取,将训练数据进行3D模型重建后,训练后的矢量量化正则变分自编码器只需要用到codebook结构。矢量量化正则变分自编码器架构分为编码器、解码器以及codebook结构,编码器将输入编码成潜在表征,根据潜在表征中的每个点位比对特征向量与codebook中的k个编码向量的相似程度,并且以最接近的编码向量取代特征向量,得到的编码表征与潜在表征维度相同,将编码表征作为解码器输入,解码器通过编码表征重建编码器的输入,经过训练之后,所维护的codebook结构将能学习到丰富的重建先验知识。本实施例中编码器的输入具体为对一个视频(图像序列)进行人脸重建后得到的表情序列H以及同等时序长度的音频特征,此处的音频特征由比较先进的预训练的音频特征提取工具得到,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,对H和H’计算MSE作为重建损失,将解码器处的梯度复制到编码器,调整编码向量趋向近似潜在表征和潜在表征趋向近似编码向量这两部分的权重,做线性组合作为编码损失,经过两种损失训练得到的codebook结构将能从情绪特征丰富的二维数据集中提取出丰富的先验知识。
步骤S4具体为:
将编码向量Zd与融合得到的潜在表征进一步特征融合,得到的结果表示为Value,同时也作为key,key与Value、Qurey共同接入自回归的mesh解码器,mesh解码器使用了TransformerDecoder的结构,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的带有情绪化的表情序列。
步骤S5中,将所述带有情绪化的表情序列经过平化处理和3D渲染后,输出最终的视频。
如图3和图4,本实施例的总体网络架构分为语音信号编码器、mesh编码器、mesh解码器、矢量量化正则变分自编码器、特征融合器。其中矢量量化正则变分自编码器只需要用到codebook结构。经过上述的训练过程已经得到学习了丰富的情绪特征的矢量量化正则变分自编码器,语音信号输入后需要先进行音频标准化,对不符合要求的采样率,进行重采样,本实施例中预设的采样率为16000HZ,对双声道的语音信号,进行求平均转变为单声道的操作。语音信号分块,为了与动画帧对齐,一个帧一个块,并且能够使每个块有一定的长度,需要对不足长度的首尾两端进行填充0的操作。这样生成的人脸可以保证音画一致。经过上述编码器对中性模板、语音信号分别得到Qurey、Key、Value,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的表情序列O',设计两个部分作为损失,一是与Ground truth序列做MSE类似于重建损失,二是通过对数据对分别编码所得到的特征向量衡量差异,两个部分进行线性组合即为整个网络的损失。
上述训练过程直接使用表情序列等中间结果进行,是为了提高训练速度,将所有数据预处理工作放到最前面。实际部署应用推理的过程相比于训练过程,仅需要准备第二段所述的三种素材输入即可生成3D说话头动画序列,相比于训练,推理部署还多了渲染器、基于spectre的人脸重建模型,矢量量化正则变分自编码器只需要用到编码器的输入依旧是表情序列,但来源是基于spectre的人脸重建模型,用户输入的视频将会经过人脸重建模型处理得到表情序列并作为矢量量化正则变分自编码器的输入。模型生成3D说话头序列后,为了看起来更自然和平滑,还要经过一个简单的3D渲染器,最终输出MP4格式的视频。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于情绪特征指导的说话头视频生成方法,其特征在于,包括以下步骤:
S1:获取包括人物头部说话表情的视频和对应的音频,以及中性感情mesh头部模板;
S2:对所述视频中每一帧的人脸进行3D重建,所得重建结果保存为顶点矩阵,所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列;
S3:对于每一帧,利用所述音频生成第一编码结果,利用所述中性感情mesh头部模板生成第二编码结果,利用所述第一编码结果、第二编码结果和表情序列生成第三编码结果;
S4:对于每一帧,利用特征融合器融合所述第一编码结果、第二编码结果和第三编码结果,所有帧的融合结果形成带有情绪化的表情序列;
S5:将所述带有情绪化的表情序列经过3D渲染后,输出最终的视频。
2.根据权利要求1所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S2中对所述视频中每一帧的人脸进行3D重建,具体为:
使用state of the art的spectre模型对每一帧的人脸进行重建,得到mesh中间数据,每一帧的人脸参数定义为,其中,β是shape系数,θ是pose系数,α是反射率系数,l是光照系数,ψ是exp系数,不考虑纹理和颜色的情况下,有:
公式(1)表示顶点经过关节旋转变化的计算,所述顶点指的是每个mesh中的顶点,所述的mesh是由5023个顶点,并按照预设的规则进行排列组成的3D模型,公式(2)至(5)表示为模板mesh增加exp、pose、shape的偏移量,所述模板mesh是Flame模型定义的标准模型,所有参数都为0,所有变化都是在模板mesh的基础上通过系数变换来实现的;
5.根据权利要求4所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S3中利用语音信号编码器对所述音频生成第一编码结果,所述第一编码结果为音频特征audio feature。
6.根据权利要求5所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果,所述第二编码结果为个人风格信息Qurey。
7.根据权利要求6所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果,具体为:
利用第一编码结果和第二编码结果进行初步特征融合,并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的codebook得到编码向量Zd,所述编码向量Zd为第三编码结果。
8.根据权利要求7所述的基于情绪特征指导的说话头视频生成方法,其特征在于,所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft),F1,F2,F3.....Ft代表每一帧的3D模型,以及同等时序长度的音频特征、编码器输出潜在表征,并在codebook中寻找相近的编码向量,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,对H和H’计算MSE作为重建损失,引入stop gradient的计算技巧,sg符号内的内容在计算loss时会正常包含在内,但在更新时此项不会提供梯度信息,也不会被更新,将解码器处的梯度复制到编码器计算,通过调整的大小可以调整codebook的优化速度,此部分作为编码损失,经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识,以下为此部分架构的总体损失函数:
9.根据权利要求8所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S4具体为:
将编码向量Zd与融合得到的潜在表征进一步特征融合,得到的结果表示为Value,同时也作为key,key与Value、Qurey共同接入自回归的mesh解码器,mesh解码器使用了TransformerDecoder的结构,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的带有情绪化的表情序列。
10.根据权利要求9所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S5中,将所述带有情绪化的表情序列经过平化处理和3D渲染后,输出最终的视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310374538.8A CN116091668B (zh) | 2023-04-10 | 2023-04-10 | 一种基于情绪特征指导的说话头视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310374538.8A CN116091668B (zh) | 2023-04-10 | 2023-04-10 | 一种基于情绪特征指导的说话头视频生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116091668A true CN116091668A (zh) | 2023-05-09 |
CN116091668B CN116091668B (zh) | 2023-07-21 |
Family
ID=86210589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310374538.8A Active CN116091668B (zh) | 2023-04-10 | 2023-04-10 | 一种基于情绪特征指导的说话头视频生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091668B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666831A (zh) * | 2020-05-18 | 2020-09-15 | 武汉理工大学 | 一种基于解耦表示学习的说话人脸视频生成方法 |
CN112581569A (zh) * | 2020-12-11 | 2021-03-30 | 中国科学院软件研究所 | 自适应情感表达的说话人面部动画生成方法及电子装置 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN114245215A (zh) * | 2021-11-24 | 2022-03-25 | 清华大学 | 说话视频的生成方法、装置、电子设备、介质及产品 |
CN115330911A (zh) * | 2022-08-09 | 2022-11-11 | 北京通用人工智能研究院 | 一种利用音频驱动拟态表情的方法与系统 |
-
2023
- 2023-04-10 CN CN202310374538.8A patent/CN116091668B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666831A (zh) * | 2020-05-18 | 2020-09-15 | 武汉理工大学 | 一种基于解耦表示学习的说话人脸视频生成方法 |
CN112581569A (zh) * | 2020-12-11 | 2021-03-30 | 中国科学院软件研究所 | 自适应情感表达的说话人面部动画生成方法及电子装置 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN114245215A (zh) * | 2021-11-24 | 2022-03-25 | 清华大学 | 说话视频的生成方法、装置、电子设备、介质及产品 |
CN115330911A (zh) * | 2022-08-09 | 2022-11-11 | 北京通用人工智能研究院 | 一种利用音频驱动拟态表情的方法与系统 |
Non-Patent Citations (2)
Title |
---|
TIANYE LI 等: "Learning a model of facial shape and expression from 4D scans", ACM TRANSACTIONS ON GRAPHICS, vol. 36, no. 6, pages 4 - 5 * |
罗琰钦;陈雷霆;何明耘;李晓瑜;: "真实感人脸语音同步动画系统", 计算机应用研究, no. 04, pages 1563 - 1565 * |
Also Published As
Publication number | Publication date |
---|---|
CN116091668B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abrantes et al. | MPEG-4 facial animation technology: Survey, implementation, and results | |
CN113378697A (zh) | 一种基于卷积神经网络的说话人脸视频生成方法及装置 | |
GB2601162A (en) | Methods and systems for video translation | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
CN113051420B (zh) | 一种基于文本生成视频机器人视觉人机交互方法及系统 | |
CN114245215B (zh) | 说话视频的生成方法、装置、电子设备、介质及产品 | |
CN115588224A (zh) | 一种人脸关键点的预测方法、虚拟数字人生成方法及装置 | |
EP1481372A1 (en) | Method and system for generating caricaturized talking heads | |
CN112767519A (zh) | 结合风格迁移的可控表情生成方法 | |
CN112837210A (zh) | 一种基于特征图分块的多形变风格人脸漫画自动生成方法 | |
Hong et al. | iFACE: a 3D synthetic talking face | |
Gachery et al. | Designing MPEG-4 facial animation tables for web applications | |
KR101902553B1 (ko) | 스토리텔링 콘텐츠 툴 제공 단말기 및 스토리텔링 콘텐츠 제공 방법 | |
CN116091668B (zh) | 一种基于情绪特征指导的说话头视频生成方法 | |
CN117456587A (zh) | 一种基于多模态信息控制的说话人脸视频生成方法及装置 | |
Tang et al. | Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar | |
Capin et al. | Very low bit rate coding of virtual human animation in MPEG-4 | |
Nakatsuka et al. | Audio-oriented video interpolation using key pose | |
CN116168432A (zh) | 一种面部表情及头部动作迁移方法及系统 | |
Perng et al. | Image talk: a real time synthetic talking head using one single image with chinese text-to-speech capability | |
JPH11328440A (ja) | アニメーションシステム | |
JP2001231037A (ja) | 画像処理システム、画像処理装置、及び記憶媒体 | |
Morishima et al. | Speech-to-image media conversion based on VQ and neural network | |
Chauhan et al. | Image Multidiffusion Algorithms for AI Generative Art | |
CN114782590B (zh) | 一种多物体内容联合图像生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |