CN116091668B

CN116091668B - 一种基于情绪特征指导的说话头视频生成方法

Info

Publication number: CN116091668B
Application number: CN202310374538.8A
Authority: CN
Inventors: 陈添水; 柯梓铭; 何志铜; 付晨博; 黄衍聪; 范耀洲; 杨志景
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-21
Anticipated expiration: 2043-04-10
Also published as: CN116091668A

Abstract

本发明公开一种基于情绪特征指导的说话头视频生成方法，引入了情绪特征指导，训练得到的模型能够具有表达情绪的能力，生成的说话头能够具有丰富的情绪化的逼真表达，可以很好地解决目前说话头中性化固态表达的问题。同时，本发明通过基于二维数据的三维重建技术，从现有的情绪丰富的二维数据集得到近似数据，能够解决缺乏数据的问题。本发明侧重在生成人物形象视频的同时提高其表达的情绪化能力。通过在保证传播内容的同时，赋予视频中的人物与传播内容向匹配的情绪张力，使得视频人物表达更具情感特征，提高虚拟形象真实性，从而提高用户体验。

Description

一种基于情绪特征指导的说话头视频生成方法

技术领域

本发明涉及计算机图像处理和机器学习技术领域，更具体地，涉及一种基于情绪特征指导的说话头视频生成方法。

背景技术

随着互联网软硬件技术发展逐步成熟，在“元字宙”概念成为热点的同时，虚拟数字人产业也进入“爆发期”。虚拟数字人，是指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音生成等计算机手段创造及使用，并具有多重人类特征（外貌特征、人类表演能力、人类交互能力等）的综合产物。虚拟数字人按其人格特征可区分为虚拟IP与虚拟世界第二分身两种不同的应用领域。其中，虚拟世界第二分身是指满足个人对虚拟身份的需求，为社交、娱乐、商业等设计脱离于现实世界的第二分身形象。

可随着互联网产业的发展，现有视频影像生成技术的缺点也逐渐暴露出来。以虚拟新闻主播为例，目前市面上大多数的虚拟形象大多长时间保持着中性的表情或神态进行输出表达，然而驱动的视频内容却是有单独语境的，这容易给观众带来视觉与听觉上的割裂感，难以实现面向用户的情感共鸣。同时，大多数虚拟形象的面部微表情动作是无法自主调控的，如果用户对虚拟形象有不同情感倾向表达的需求，则其固化且笨重的神态表达显而易见是无法匹配理想类人效果的。

目前在说话头3D模型生成方面的不足：1）现有的语音驱动生成方法生成的3D表情序列基本都呈现中性的情绪，缺乏丰富的情绪化的逼真表达；2）现有的语音驱动方法基本上是不可直观控制情绪的，原因是语音信号中指导嘴型和情绪的特征有耦合，而这部分控制很难把握；3）对语音信号驱动生成的效果往往取决于数据的语料、情绪覆盖范围，而当前也缺少语料、情绪覆盖范围足够大，同时语料能与情绪对齐组合的数据集。

现有技术公开一种说话头的小样本合成，从预先准备好的子视频中提取多个人物图像，经过一定处理后生成人物视频。该方案是从根据不同子视频，从而生成一段新人物视频，但生成的视频形象仍输出的是中性表达。

发明内容

本发明提供一种基于情绪特征指导的说话头视频生成方法，引入了情绪特征指导，训练得到的模型能够具有表达情绪的能力，生成的说话头能够具有丰富的情绪化的逼真表达，可以很好地解决目前说话头中性化固态表达的问题。

为解决上述技术问题，本发明的技术方案如下：

一种基于情绪特征指导的说话头视频生成方法，包括以下步骤：

S1：获取包括人物头部说话表情的视频和对应的音频，以及中性感情mesh头部模板；

S2：对所述视频中每一帧的人脸进行3D重建，所得重建结果保存为顶点矩阵，所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列；

S3：对于每一帧，利用所述音频生成第一编码结果，利用所述中性感情mesh头部模板生成第二编码结果，利用所述第一编码结果、第二编码结果和表情序列生成第三编码结果；

S4：对于每一帧，利用特征融合器融合所述第一编码结果、第二编码结果和第三编码结果，所有帧的融合结果形成带有情绪化的表情序列；

S5：将所述带有情绪化的表情序列经过3D渲染后，输出最终的视频。

优选地，步骤S2中对所述视频中每一帧的人脸进行3D重建，具体为：

使用state of the art的spectre模型对每一帧的人脸进行重建，得到mesh中间数据，每一帧的人脸参数定义为，其中，β是shape系数，θ是pose系数，α是反射率系数，l是光照系数，ψ是exp系数，不考虑纹理和颜色的情况下，有：

公式（1）表示顶点经过关节旋转变化的计算，所述顶点指的是每个mesh中的顶点，所述的mesh是由5023个顶点，并按照预设的规则进行排列组成的3D模型，公式（2）至（5）表示为模板mesh增加exp、pose、shape的偏移量，所述模板mesh是Flame模型定义的标准模型，所有参数都为0，所有变化都是在模板mesh的基础上通过系数变换来实现的；

为最终得到的mesh，函数W（）表示求mesh的顶点经过关节旋转变化的计算，W是blendWeights矩阵，/>表示关节变换，/>表示对模板mesh加上由shape、pose和exp系数决定的偏移量，/>表示模板mesh，/>、/>、/>分别表示在Flame模型定义的不同个体中shape、pose和exp上的线性变换，其中/>、/>、/>分别为对应的标准正交变换矩阵、/>表示pose激活的顶点偏移量，/>为shape系数的模长，/>为shape系数的第n维元素，/>为矩阵S的第n个向量，/>为关节数量，/>为|θ|到9k维度的映射，转换成旋转矩阵，/>为exp系数的模长，/>为exp向量的第n维元素，/>为矩阵/>的第n个向量。

优选地，步骤S2中所得重建结果保存为V3的顶点矩阵F，其中，V为顶点数量。

优选地，步骤S2中所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列，所述表情序列H为一个形状为tV/>3的张量，t为序列长度。

优选地，步骤S3中利用语音信号编码器对所述音频生成第一编码结果，所述第一编码结果为音频特征audio feature。

优选地，步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果，所述第二编码结果为个人风格信息Qurey。

优选地，步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果，具体为：

利用第一编码结果和第二编码结果进行初步特征融合，并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的codebook得到编码向量Zd，所述编码向量Zd为第三编码结果。

优选地，所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft)，F1,F2,F3.....Ft代表每一帧的3D模型，以及同等时序长度的音频特征、编码器输出潜在表征，并在codebook中寻找相近的编码向量，解码器将根据编码向量重建出表情序列H’，训练设计两个损失，对H和H’计算MSE作为重建损失，引入stop gradient的计算技巧，sg符号内的内容在计算loss时会正常包含在内，但在更新时此项不会提供梯度信息，也不会被更新，将解码器处的梯度复制到编码器计算，通过调整的大小可以调整codebook的优化速度，此部分作为编码损失，经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识，以下为此部分架构的总体损失函数：

式中，L为总体损失函数，Z _q（F）表示通过潜在表征输出的编码向量，表示F通过编码器输出的潜在表征。

优选地，步骤S4具体为：

将编码向量Zd与融合得到的潜在表征进一步特征融合，得到的结果表示为Value，同时也作为key，key与Value、Qurey共同接入自回归的mesh解码器，mesh解码器使用了TransformerDecoder的结构，输入Qurey、Key、Value，能够生成一帧表情序列，并更新Qurey，依次循环直到得到对应长度的带有情绪化的表情序列。

优选地，步骤S5中，将所述带有情绪化的表情序列经过平化处理和3D渲染后，输出最终的视频。

与现有技术相比，本发明技术方案的有益效果是：

1）本发明引入了情绪特征指导，训练得到的神经网络能够具有表达情绪的能力，生成的说话头能够具有丰富的情绪化的逼真表达；

2）本发明能够利用先验知识指导，解除情绪于语音信号的部分耦合，使情绪特征的控制更倾向于视频序列信号输入，即能够通过视频序列信号控制模型生成说话头的情绪表达，解决情绪特征难以控制的问题；

3）本发明通过基于二维数据的三维重建技术，从现有的情绪丰富的二维数据集得到近似数据，能够解决缺乏数据的问题。

附图说明

图1为本发明的方法流程示意图。

图2为实施例提供的数据处理方法示意图。

图3为实施例提供的提取先验知识流程示意图。

图4为实施例提供的生成带有情绪化表达的说话头模型示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种基于情绪特征指导的说话头视频生成方法，如图1所示，包括以下步骤：

实施例2

本实施例在实施例1的基础上，继续公开以下内容：

步骤S2中对所述视频中每一帧的人脸进行3D重建，具体为：

步骤S2中所得重建结果保存为V3的顶点矩阵F，其中，V为顶点数量。

步骤S2中所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列，所述表情序列H为一个形状为tV/>3的张量，t为序列长度。

实施例3

本实施例在实施例1和实施例2的基础上，继续公开以下内容：

步骤S3中利用语音信号编码器对所述音频生成第一编码结果，所述第一编码结果为音频特征audio feature。

步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果，所述第二编码结果为个人风格信息Qurey。

步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果，具体为：

所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft)，F1,F2,F3.....Ft代表每一帧的3D模型，以及同等时序长度的音频特征、编码器输出潜在表征，并在codebook中寻找相近的编码向量，解码器将根据编码向量重建出表情序列H’，训练设计两个损失，对H和H’计算MSE作为重建损失，引入stopgradient的计算技巧，sg符号内的内容在计算loss时会正常包含在内，但在更新时此项不会提供梯度信息，也不会被更新，将解码器处的梯度复制到编码器计算，通过调整的大小可以调整codebook的优化速度，此部分作为编码损失，经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识，以下为此部分架构的总体损失函数：

本实施例中，矢量量化正则变分自编码器为预先训练好，其训练数据的预处理方法如图2所示，采集是从现有的情绪丰富的二维数据集如MEAD等获取，将训练数据进行3D模型重建后，训练后的矢量量化正则变分自编码器只需要用到codebook结构。矢量量化正则变分自编码器架构分为编码器、解码器以及codebook结构，编码器将输入编码成潜在表征，根据潜在表征中的每个点位比对特征向量与codebook中的k个编码向量的相似程度，并且以最接近的编码向量取代特征向量，得到的编码表征与潜在表征维度相同，将编码表征作为解码器输入，解码器通过编码表征重建编码器的输入，经过训练之后，所维护的codebook结构将能学习到丰富的重建先验知识。本实施例中编码器的输入具体为对一个视频（图像序列）进行人脸重建后得到的表情序列H以及同等时序长度的音频特征，此处的音频特征由比较先进的预训练的音频特征提取工具得到，解码器将根据编码向量重建出表情序列H’，训练设计两个损失，对H和H’计算MSE作为重建损失，将解码器处的梯度复制到编码器，调整编码向量趋向近似潜在表征和潜在表征趋向近似编码向量这两部分的权重，做线性组合作为编码损失，经过两种损失训练得到的codebook结构将能从情绪特征丰富的二维数据集中提取出丰富的先验知识。

步骤S4具体为：

步骤S5中，将所述带有情绪化的表情序列经过平化处理和3D渲染后，输出最终的视频。

如图3和图4，本实施例的总体网络架构分为语音信号编码器、mesh编码器、mesh解码器、矢量量化正则变分自编码器、特征融合器。其中矢量量化正则变分自编码器只需要用到codebook结构。经过上述的训练过程已经得到学习了丰富的情绪特征的矢量量化正则变分自编码器，语音信号输入后需要先进行音频标准化，对不符合要求的采样率，进行重采样，本实施例中预设的采样率为16000HZ，对双声道的语音信号，进行求平均转变为单声道的操作。语音信号分块，为了与动画帧对齐，一个帧一个块，并且能够使每个块有一定的长度，需要对不足长度的首尾两端进行填充0的操作。这样生成的人脸可以保证音画一致。经过上述编码器对中性模板、语音信号分别得到Qurey、Key、Value，输入Qurey、Key、Value，能够生成一帧表情序列，并更新Qurey，依次循环直到得到对应长度的表情序列O'，设计两个部分作为损失，一是与Ground truth序列做MSE类似于重建损失，二是通过对数据对分别编码所得到的特征向量衡量差异，两个部分进行线性组合即为整个网络的损失。

上述训练过程直接使用表情序列等中间结果进行，是为了提高训练速度，将所有数据预处理工作放到最前面。实际部署应用推理的过程相比于训练过程，仅需要准备第二段所述的三种素材输入即可生成3D说话头动画序列，相比于训练，推理部署还多了渲染器、基于spectre的人脸重建模型，矢量量化正则变分自编码器只需要用到编码器的输入依旧是表情序列，但来源是基于spectre的人脸重建模型，用户输入的视频将会经过人脸重建模型处理得到表情序列并作为矢量量化正则变分自编码器的输入。模型生成3D说话头序列后，为了看起来更自然和平滑，还要经过一个简单的3D渲染器，最终输出MP4格式的视频。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于情绪特征指导的说话头视频生成方法，其特征在于，包括以下步骤：

S1：获取包括人物头部说话表情的视频和对应的音频，以及中性感情三角网格mesh头部模板；

S5：将所述带有情绪化的表情序列经过3D渲染后，输出最终的视频；

利用第一编码结果和第二编码结果进行初步特征融合，并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的编码本codebook得到编码向量Zd，所述编码向量Zd为第三编码结果；

所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft)，F1,F2,F3.....Ft代表每一帧的3D模型，以及同等时序长度的音频特征、融合得到的潜在表征，并在codebook中寻找相近的编码向量，解码器将根据编码向量重建出表情序列H’，训练设计两个损失，第一个损失为重建损失，对H和H’计算均方误差作为重建损失；第二个损失为编码损失，在编码损失中引入梯度截断stop gradient的计算技巧，stop gradient内的内容在计算损失时会正常包含在内，但在更新时此项不会提供梯度信息，也不会被更新，将解码器处的梯度复制到编码器计算，通过调整的大小可以调整codebook的优化速度；经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识；

步骤S4具体为：

将编码向量Zd与融合得到的潜在表征进一步特征融合，得到的结果表示为Value，同时也作为key，key与Value、Qurey共同接入自回归的mesh解码器，mesh解码器使用了TransformerDecoder的结构，输入Qurey、Key、Value，能够生成一帧表情序列，并更新Qurey，依次循环直到得到对应长度的带有情绪化的表情序列；

步骤S2中所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列，所述表情序列H为一个形状为tV/>3的张量，t为序列长度；

2.根据权利要求1所述的基于情绪特征指导的说话头视频生成方法，其特征在于，步骤S2中对所述视频中每一帧的人脸进行3D重建，具体为：

使用spectre模型对每一帧的人脸进行重建，得到mesh中间数据，每一帧的人脸参数定义为，其中，β是形状系数，θ是姿态系数，α是反射率系数，l是光照系数，/>是表情系数，不考虑纹理和颜色的情况下，有：

公式（1）表示顶点经过关节旋转变化的计算，所述顶点指的是每个mesh中的顶点，所述的mesh是由5023个顶点，并按照预设的规则进行排列组成的3D模型，公式（2）至（5）表示为模板mesh增加表情、姿态、形状的偏移量，所述模板mesh是Flame模型定义的标准模型，所有参数都为0，所有变化都是在模板mesh的基础上通过系数变换来实现的；

为最终得到的mesh，函数W（）表示求mesh的顶点经过关节旋转变化的计算，W是混合权重矩阵，/>表示关节变换，/>表示对模板mesh加上由表情、姿态和形状系数决定的偏移量，/>表示模板mesh，/>、/>、/>分别表示在Flame模型定义的不同个体中表情、姿态和形状上的线性变换，其中/>、/>、/>分别为表情、姿态和形状的标准正交变换矩阵、/>表示姿态激活的顶点偏移量，/>为形状系数的模长，/>为形状系数的第n维元素，/>为矩阵S的第n个向量，/>为关节数量，/>为|θ|到9/>维度的映射，转换成旋转矩阵，/>为表情系数的模长，/>为表情向量的第n维元素，/>为矩阵/>的第n个向量，|θ|为姿态系数的模长。

3.根据权利要求2所述的基于情绪特征指导的说话头视频生成方法，其特征在于，步骤S2中所得重建结果保存为V 3的顶点矩阵F，其中，V为顶点数量。

4.根据权利要求3所述的基于情绪特征指导的说话头视频生成方法，其特征在于，步骤S3中利用语音信号编码器对所述音频生成第一编码结果，所述第一编码结果为音频特征audio feature。

5.根据权利要求4所述的基于情绪特征指导的说话头视频生成方法，其特征在于，步骤S5中，将所述带有情绪化的表情序列经过平化处理和3D渲染后，输出最终的视频。