CN113628309B

CN113628309B - 一种真人语音口型动画生成方法及系统、电子设备、存储介质

Info

Publication number: CN113628309B
Application number: CN202110942998.7A
Authority: CN
Inventors: 沈江洋; 李冬平; 米楠
Original assignee: Faceunity Technology Co ltd
Current assignee: Faceunity Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-09-22
Anticipated expiration: 2041-08-17
Also published as: CN113628309A

Abstract

本发明公开了一种真人语音口型动画生成方法及系统、电子设备、存储介质，属于语音图像技术领域，包括对演讲视频做人脸跟踪和配准，提取人脸三维姿态信息和表情系数；根据表情系数和演讲视频的音素文本，提取到两组口型特征点序列；根据两组口型特征点序列，获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数；根据迁移函数以及任意音频，获得任意音频迁移后的口型特征点序列；根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列。本发明能够只用2分钟演讲视频，生成高质量的真人口型动画视频。

Description

一种真人语音口型动画生成方法及系统、电子设备、存储介质

技术领域

本发明属于语音图像技术领域，特别涉及一种真人语音口型动画生成方法及系统、电子设备、存储介质。

背景技术

目前大多数方法都依赖深度神经网络，对数据量的需求很大。为了生成针对单人的高质量口型动画，往往要求针对单人采集大量的数据，如文章Synthesizing obama:learning lip sync from audio，使用了Obama长达17小时的高质量演讲视频训练神经网络模型，而文章A deep learning approach for generalized speech animation，则使用了8小时的精录制视频训练神经网络模型。这类方法的优点是生成结果的质量较高，但缺点是对每个单人，都需要重新采集大量视频，其扩展性较差。

发明内容

针对上述的问题，本发明提供一种真人语音口型动画生成方法及系统、电子设备、存储介质，其方法包括：

对演讲视频做人脸跟踪和配准，提取人脸表情系数；

根据所述表情系数和所述演讲视频的音素文本，提取到两组口型特征点序列；

根据所述两组口型特征点序列，获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数；

根据所述迁移函数以及任意音频，获得所述任意音频迁移后的口型特征点序列；

根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列。

优选的是，对演讲视频做人脸跟踪和配准，提取人脸三维姿态信息和表情系数包括：

对演讲视频做人脸跟踪和配准，每帧人脸都拟合一个人脸三维模型；

根据所述人脸三维模型，提取人脸三维姿态信息和表情系数。

优选的是，根据所述表情系数和所述演讲视频的音素文本，提取到两组口型特征点序列包括：

所述表情系数和所述演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中，分别提取到所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列。

优选的是，根据所述两组口型特征点序列，获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数包括：

所述演讲视频的音素文本的口型特征点序列记为：

所述表情系数的口型特征点序列记为：

其中，为所述表情系数的口型特征点序列中某一帧口型特征点；/>为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点；R^18×3为口型特征点构成的矩阵；N^(tgt)、N^(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目；

根据直方图匹配原理和离散近似估计法，获得每一帧口型特征点的变换函数；

所有的所述口型特征点的变换函数记为迁移函数。

优选的是，根据所述迁移函数以及任意音频，获得所述任意音频迁移后的口型特征点序列包括：

T(M)＝{T(M_k)|1≤k≤N；M_k∈R^18×3；T(M_k)∈R^18×3}；

其中，T为迁移函数；M为任意音频的口型特征点序列；T(M)为迁移后的口型特征点序列；k为自然数；M_k、T(M_k)分别为M、T(M)中的第k帧口型特征点。

优选的是，根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列包括：

对于所述迁移后的口型特征点序列中每一帧的口型特征点计算与所述表情系数的口型特征点序列的欧式距离；

筛选出欧式距离小于阈值的所述表情系数的口型特征点序列，并执行维特比算法，求得最短路径的口型特征点序列；

将所述最短路径的口型特征点序列对应的人脸图像进行排列，得到真人语音口型动画序列。

优选的是，本发明实施例提供的一种真人语音口型动画生成的系统，包括：

第一提取模块，用于对演讲视频做人脸跟踪和配准，提取人脸表情系数；

第二提取模块，用于根据所述表情系数和所述演讲视频的音素文本，提取到两组口型特征点序列；

函数构建模块，用于根据所述两组口型特征点序列，获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数；

计算模块，用于根据所述迁移函数以及任意音频，获得所述任意音频迁移后的口型特征点序列；

生成模块，用于根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列。

本发明实施例提供的一种电子设备，包括至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有程序，当所述程序被所述处理单元执行时，使得所述处理单元执行上述所述的方法。

本发明实施例提供的一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行上述所述的方法。

与现有技术相比，本发明的有益效果为：

本发明能够只用2分钟演讲视频，生成高质量的真人口型动画视频。

附图说明

图1是本发明实施例提供的真人语音口型动画生成方法流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照图1，一种真人语音口型动画生成方法及系统、电子设备、存储介质，其方法包括：

对演讲视频做人脸跟踪和配准，提取人脸表情系数；

具体地，对演讲视频做人脸跟踪和配准，每帧人脸都拟合一个人脸三维模型；

根据人脸三维模型，提取人脸三维姿态信息和表情系数。

在本实施例中的演讲视频为简短的演讲视频，2分钟左右，且在人脸三维模型处于正视图中，提取人脸三维姿态信息和表情系数；生成的真人口型动画也是正视图。

根据表情系数和演讲视频的音素文本，提取到两组口型特征点序列；

具体地，表情系数和演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中，分别提取到表情系数的口型特征点序列和演讲视频的音素文本的口型特征点序列。

根据两组口型特征点序列，获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数；

具体地，演讲视频的音素文本的口型特征点序列记为：

表情系数的口型特征点序列记为：

其中，为表情系数的口型特征点序列中某一帧口型特征点；/>为演讲视频的音素文本的口型特征点序列中某一帧口型特征点；R^18×3为口型特征点构成的矩阵；N^(tgt)、N^(src)分别为表情系数的口型特征点序列和演讲视频的音素文本的口型特征点序列的口型数目；

所有的口型特征点的变换函数记为迁移函数。

在本实施例中，一个口型由18个三维特征点构成，因此共由54个变量构成。我们对54个变量中的每一个变量，都构建一个单元非线性映射函数，从而完成口型特征点的迁移映射。为了保证口型运动的拓扑一致性，单元映射函数必须满足单调性和连续性。同时，该函数能近似的将口型从M^(src)概率空间变换到M^(tgt)概率空间。我们采用直方图匹配来构建这样一个单元映射函数，详细介绍如下。假设x～X是一个定义在[a,b]上的单元连续概率分布，其概率密度函数为f_X(x)。y～Y是一个定义在[c,d]上的单元连续概率分布，其概率密度函数为f_Y(y)。直方图匹配的目标是，构建的单元单调不减的变换函数t，能将单元变量x从X概率分布变换到Y概率分布，即满足

t(x)～Y

其中，～表示t(x)服从Y概率分布。

首先，根据直方图匹配原理，利用变上限积分函数，构建下面两个单元变换函数t₁和t₂

易证明，两个变换函数得到的结果都服从[0,1]之间的均匀分布

t₁(x),t₂(y)～U(0,1)

其中，～表示t₁(x),t₂(y)服从U(0,1)概率分布，U(0,1)表示[0,1]之间的均匀分布。

再令t₁(X)＝t₂(Y)，可以得到一个从X到Y的变换函数

其中，是所求的X到Y的变换函数，/>表示函数t₂的反函数。

而且，变换函数满足单调连续性，且易证明

其中，～表示服从Y概率分布。

至此，对于口型特征点M^(tgt)、M^(src)中的54个变量，我们可以分别利用离散近似估计，计算得到54个变换函数。为简化表示，简记构建好的54个变换函数为T，从而完成口型特征点的迁移。

对于来自任意的音频输入得到的口型特征点序列M，都能通过口型迁移，获得与M^(tgt)口型集合空间较为一致的口型特征点序列T(M)，如：

T(M)＝{T(M_k)|1≤k≤N；M_k∈R^18×3；T(M_k)∈R^18×3}；

根据迁移函数以及任意音频，获得任意音频迁移后的口型特征点序列；

根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列。

具体地，对于迁移后的口型特征点序列中每一帧的口型特征点计算与表情系数的口型特征点序列的欧式距离；

筛选出欧式距离小于阈值的表情系数的口型特征点序列，并执行维特比算法，求得最短路径的口型特征点序列；

将最短路径的口型特征点序列对应的人脸图像进行排列，得到真人语音口型动画序列。

进一步地，假设最短路径的口型特征点序列为J，记为：

J＝{j_k|1≤k≤N,1≤j_k≤N^(tgt)}；

其中，j_k为其中的第k帧待求解口型序号；N为J的数目，与输入音频长度相匹配；N^(tgt)表示原始视频帧数。

联合优化的目标函数如下：

其中，ε^shape表示口型的形状一致性损失项，ε^temporal表示口型的时序一致性损失项，ε是一个加权常数项；ε^shape、ε^temporal的公式会在下面详细展开。

首先，是形状一致性损失项ε^shape，计算式如下

其中，ε^shape表示口型的形状一致性损失项，e表示自然常数，ρ是一个固定加权常数，||...||表示欧式距离；k表示是生成序列的第k帧，j_k表示生成序列的第k帧是来自原始视频的第j_k帧；表示原始视频帧中的第j_k帧的口型特征点；该损失项约束了最终选择的第j_k帧原始帧的口型形状，与第k帧输入的驱动口型T(M_k)之间的形状一致性。

然后，是时序一致性损失项，计算式如下

其中，ε^temporal表示口型的时序一致性损失项，k-1、k分别表示是生成序列的第k-1、k帧，而j_k-1、j_k分别表示生成序列的第k-1、k帧是来自原始视频的第j_k-1、j_k帧。此外，C(j_k-1,j_k)是一个时序连续性度量，表示原始视频的第j_k-1、j_k帧的时序连续性，该度量的计算式定义如下

C(m,n)＝0.5+0.25×(cos(v_m,v_n-1)+cos(v_m+1,v_n))

其中，C(m,n)表示原始视频的第m、n帧的时序连续性，v_i表示原始视频的第i帧的口型提取的图像PCA特征向量，cos表示向量余弦距离。当m、n两帧连续时，C(m,n)的值为1，当两帧不连续时，C(m,n)的值由m、n两帧的图像相似度决定，相似度越大则值越大。

综上，求解口型序列优化函数，即可得到最短路径的口型特征点序列为J，再据此从原始帧中取帧重排列，即能得到与输入音频相匹配的真人口型动画序列。对于求解口型序列优化函数，采用了维特比算法(viterbi search)。具体的，对于每一帧的待求帧，我们利用先口型特征点的欧式距离，从原始视频帧中搜索最接近的80帧作为备选帧，然后执行维特比算法，求得满足最短路径的口型序列，作为最终结果。

本发明实施例提供的一种真人语音口型动画生成的系统，包括：

第二提取模块，用于根据表情系数和演讲视频的音素文本，提取到两组口型特征点序列；

函数构建模块，用于根据两组口型特征点序列，获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数；

计算模块，用于根据迁移函数以及任意音频，获得任意音频迁移后的口型特征点序列；

生成模块，用于根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列。

本发明实施例提供的一种电子设备，包括至少一个处理单元以及至少一个存储单元，其中，存储单元存储有程序，当程序被处理单元执行时，使得处理单元执行上述的方法。

本发明实施例提供的一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当程序在电子设备上运行时，使得电子设备执行上述的方法。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种真人语音口型动画生成方法，其特征在于，包括：

对演讲视频做人脸跟踪和配准，提取人脸表情系数；

根据所述两组口型特征点序列，获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数,其中,所述演讲视频的音素文本的口型特征点序列记为：所述表情系数的口型特征点序列记为：/> 为所述表情系数的口型特征点序列中某一帧口型特征点；/>为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点；R^18×3为口型特征点构成的矩阵；N^(tgt)、N^(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目；

根据所述迁移函数以及任意音频，获得所述任意音频迁移后的口型特征点序列,T(M)＝{T(M_k)|1≤k≤N；M_k∈R^18×3；T(M_k)∈R^18×3}；其中，T为迁移函数；M为任意音频的口型特征点序列；T(M)为迁移后的口型特征点序列；k为自然数；M_k、T(M_k)分别为M、T(M)中的第k帧口型特征点；

根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列；

其中,生成真人语音口型动画序列包括:

2.如权利要求1所述的真人语音口型动画生成方法，其特征在于，对演讲视频做人脸跟踪和配准，提取表情系数包括：

3.如权利要求2所述的真人语音口型动画生成方法，其特征在于，根据所述表情系数和所述演讲视频的音素文本，提取到两组口型特征点序列包括：

4.一种真人语音口型动画生成的系统，其特征在于，包括：

函数构建模块，用于根据所述两组口型特征点序列，获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数,其中,所述演讲视频的音素文本的口型特征点序列记为：所述表情系数的口型特征点序列记为：为所述表情系数的口型特征点序列中某一帧口型特征点；/>为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点；R¹⁸ ^×3为口型特征点构成的矩阵；N^(tgt)、N^(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目；

计算模块，用于根据所述迁移函数以及任意音频，获得所述任意音频迁移后的口型特征点序列,T(M)＝{T(M_k)|1≤k≤N；M_k∈R^18×3；T(M_k)∈R^18×3}；其中，T为迁移函数；M为任意音频的口型特征点序列；T(M)为迁移后的口型特征点序列；k为自然数；M_k、T(M_k)分别为M、T(M)中的第k帧口型特征点；

生成模块，用于根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像，并生成真人语音口型动画序列,

其中,生成真人语音口型动画序列包括:

5.一种电子设备，其特征在于，包括至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～3任一权利要求所述的方法。

6.一种存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行权利要求1～3任一权利要求所述的方法。