CN110942502A

CN110942502A - 语音唇形拟合方法、系统及存储介质

Info

Publication number: CN110942502A
Application number: CN201911195998.4A
Authority: CN
Inventors: 黄以华; 张睿
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-31
Anticipated expiration: 2039-11-29
Also published as: CN110942502B

Abstract

本发明涉及一种语音唇形拟合方法，包括以下内容：采集目标人物视频数据集的图像数据和语音数据；提取所述图像数据中目标人物的唇形特征向量；提取所述语音数据中目标人物的语音特征向量；以语音特征向量为输入，唇形特征向量为输出，训练多尺度融合卷积神经网络；向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量，多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出，基于所述唇形特征向量对唇形进行拟合。

Description

语音唇形拟合方法、系统及存储介质

技术领域

本发明涉及语音信号技术领域，更具体地，涉及一种语音唇形拟合方法、系统及存储介质。

背景技术

根据语音生成相应唇形的语音唇形拟合技术，是虚拟主播、虚拟形象机器人、动画角色嘴型设计等应用的基础技术之一。准确、流畅地根据语音拟合出唇形，是该项技术难点所在。

目前，基于语音拟合唇形在技术上主要通过以下两种方案实现：

1)根据音素理论和基本唇形理论，利用贝叶斯估计、隐马尔可夫模型、BP神经网络等进行唇形分类后，通过插值估计产生唇形序列的方法。

2)利用LSTM、RNN等循环神经网络进行序列到序列映射的唇形估计方法。

然而，以上两种方案在实际使用时，存在着以下问题：1)类技术方案理论较多、步骤繁琐、模型计算量大、唇形拟合准确率低；2)类技术方案并行度低、运算速度慢、唇形特征点标签采集精确度低、方案整体效率低。

发明内容

本发明为解决现有技术提供的语音唇形拟合方法存在的拟合准确率低的技术缺陷，提供了一种语音唇形拟合方法。

为实现以上发明目的，采用的技术方案是：

语音唇形拟合方法，包括以下内容：

采集目标人物视频数据集的图像数据和语音数据；

提取所述图像数据中目标人物的唇形特征向量；

提取所述语音数据中目标人物的语音特征向量；

以语音特征向量为输入，唇形特征向量为输出，训练多尺度融合卷积神经网络；

向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量，多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出，基于所述唇形特征向量对唇形进行拟合。

优选地，所述目标人物视频数据集的图像数据和语音数据同步及同帧率进行采集。

优选地，所述目标人物视频数据集通过三维结构光深度相机采集。

优选地，所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。

优选地，所述提取语音数据中目标人物的语音特征向量的具体过程如下：

对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取；

获取一个经过语音识别训练的深度神经网络，并去除掉最后的CTC分类损失层；

将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络，深度神经网络输出语音数据经过二次提取后的特征向量，即为所需语音特征向量。

优选地，所述训练多尺度融合卷积神经网络的具体过程如下：

A、设采集的语音数据长度共为a帧，帧序号为从1到a，则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组，将提取的语音特征向量构造成大小为m×n的二维矩阵形式；

B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式；

C、构造多尺度融合卷积神经网络；

D、将所述唇形特征向量展平成一维向量作为所述多尺度融合卷积神经网络训练的标签向量；

E、向所述多尺度融合卷积神经网络输入提取的语音特征向量；

F、根据多尺度融合卷积神经网络的输出计算损失函数，并基于所述损失函数根据反向传播和梯度下降原理调整多尺度融合卷积神经网络的各层权重；

G、重复步骤E、F直至损失函数值符合要求。

优选地，所述多尺度融合卷积神经网络包括

层二维卷积层、加权融合层和全连接层；

层二维卷积层首尾连接，加权融合层的输入端与

层二维卷积层的输出端连接，加权融合层的输出端与全连接层的输入端连接；

其中每一层的二维卷积层的输出特征图大小和输入特征图大小相同；

语音特征向量通过首端的二维卷积层输入，二维卷积层的输出特征图分为两路传输，一路传到下一层二维卷积层，另一路直接传输到加权融合层缓存；当尾端的二维卷积层的输出特征图生成并传输到加权融合层缓存时，将加权融合层中缓存的输出特征图按各自层的权重大小加和输出；将加权融合层的输出展平成一维向量，输入全连接层；全连接层输出的一维向量即为唇形特征的预测向量，基于所述唇形特征的预测向量拟合唇形。

优选地，所述训练的损失函数计算如下：

其中，loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值，p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量，g(i)表示第i个语音特征向量对应的真实唇形特征向量值。

同时，本发明还提供了一种应用以上方法的语音唇形拟合系统，其具体的方案如下：

包括数据采集模块、唇形特征向量提取模块、语音特征向量提取模块、多尺度融合卷积神经网络训练模块和语音唇形拟合模块；

其中数据采集模块用于采集目标人物视频数据集的图像数据和语音数据；

唇形特征向量提取模块用于提取所述图像数据中目标人物的唇形特征向量；

语音特征向量提取模块用于提取所述语音数据中目标人物的语音特征向量；

多尺度融合卷积神经网络训练模块用于以语音特征向量为输入，唇形特征向量为输出，训练多尺度融合卷积神经网络；

语音唇形拟合模块用于向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量，多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出，基于所述唇形特征向量对唇形进行拟合。

另外，本发明还提供了一种存储介质，其内部存储有程序，所述程序运行时执行以上的语音唇形拟合方法。

与现有技术相比，本发明的有益效果是：

(1)采用三维结构光深度相机提取人脸与唇形相关的BlendShape系数，能准确地产生和语音相对应的准确唇形系数向量作为多尺度融合卷积神经网络训练的标签向量，也有利于生成由BlendShape系数控制的唇形动画；

(2)对语音数据进行特征二次提取，既有梅尔频率倒谱系数的梅尔频域特征特性，又有语音识别在音素、字词方面的语义特征，更利于语音特征准确地拟合唇形；

(3)将语音特征向量和唇形特征向量用滑动帧序分组，在保证连贯性的情况下，大幅增加训练样本，降低采集训练数据的时间成本；使用多尺度融合卷积神经网络运算，相比循环神经网络，提高并行度，增加了运算效率；使用多个尺度特征图的加权融合，可同时兼顾语音特征向量在时间和特征维度上的关联性，进一步提升唇形拟合的准确度、连贯性和泛化能力；训练的损失函数使用相对误差的形式，更利于观测网络的拟合量化效果。

附图说明

图1为实施例1的基于多尺度融合卷积神经网络语音唇形拟合方法的流程图。

图2为实施例1的多尺度融合卷积神经网络的网络结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，为本实施例的基于多尺度融合卷积神经网络语音唇形拟合方法的流程图。

本实施例的基于多尺度融合卷积神经网络的语音唇形拟合方法，包括以下步骤：

S1：采集目标人物视频数据集的图像数据和语音数据。本步骤中需要以同时、同帧率采集目标人物视频数据集的图像数据和语音数据，并且所述目标人物视频数据集的图像数据需要使用三维结构光深度相机采集。在本实施例中，利用MacOS和ARKit编写人脸追踪程序，在IphoneX设备上运行，利用其前置摄像头，进行所述视频图像数据采集，帧率为60帧每秒。

S2：提取所述图像数据中目标人物的唇形特征向量。本步骤中，目标人物的唇形特征向量，是由S1步骤采集的目标人物图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。在本实施例中，所述系数向量，由步骤S1中ARKit编写的人脸追踪程序，自动提取并保存在设备文件中，待采集完毕，再上传到电脑上处理；BlendShape系数是在0.0-1.0之间的浮点数。

S3：提取所述语音数据中目标人物的语音特征向量。其具体步骤如下：

S3.1：对S1步骤采集的目标人物语音数据逐帧进行梅尔频率倒谱系数的特征向量提取；在本实施例中，梅尔频率倒谱系数的维度选为26维；

S3.2：获取一个经过语音识别训练的深度神经网络，并去除掉最后的CTC分类损失层；在本实施例中，获取DeepSpeech神经网络框架；

S3.3：将S3.1中提取的梅尔频率倒谱系数特征向量逐帧输入S3.2所述网络中，输出语音数据经过二次提取后的29维特征向量，即为所需语音特征向量。

S4：以语音特征向量为输入，唇形特征向量为输出，训练多尺度融合卷积神经网络，实现语音特征到唇形特征的映射拟合。其具体步骤如下：

S4.1：设S1步骤所采集的目标人物语音数据长度共a帧，帧序号为从1到a，则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组，将所述语音特征向量构造成大小为m×29的二维矩阵形式；在本实施例中m＝30；

S4.2：由于S1步骤所采集的目标人物图像数据和语音数据是同等时长、同等帧率的，因此将所述唇形特征向量构造成大小为30×30的二维矩阵形式；

S4.3：构造多尺度融合卷积神经网络，如图2所示；所述网络由7层二维卷积层、加权融合层和全连接层依次连接构成；其中二维卷积层大小均为3×3；每一层二维卷积层的输出特征图大小和输入特征图相同，并分成两路传输，一路传到下一层卷积层，另一路直接传到加权融合层缓存；当最后一层二维卷积层的输出特征图生成并传到加权融合层缓存时，将加权融合层中缓存的输出特征图按各自层的权重大小[f1:f7]加和输出，其中所述各自层的权重大小为可训练参数；将加权融合层的输出展平成一维向量，输入全连接层；全连接层输出的一维向量即为唇形特征的预测向量；

S4.4：将S4.2所述的唇形特征向量展平成一维向量，作为所述多尺度融合卷积神经网络训练的标签向量；其中训练的损失函数为：

其中，loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值，p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量，g(i)表示第i个语音特征向量对应的真实唇形特征向量值；根据误差的反向传播和梯度下降原理，训练调整所述多尺度融合卷积神经网络中二维卷积层、加权融合层、全连接层的权重，至所有语音特征向量拟合得到的损失函数值最小。在本实施例中，录制了约437分钟的训练数据集；训练时为了缓解过拟合，在全连接层前后分别加入Dropout层，Dropout比例设为0.5；计算梯度下降时的批量数为1；初始学习率为0.1，之后一旦出现连续八次损失函数不下降，则减少20％学习率；训练结束后，损失函数值低至0.1，拟合精确度高。

S5：以唇形特征生成唇形画面。本步骤中，需要将步骤S4拟合得到的唇形特征向量，逐帧合成对应的唇形，可得到流畅的唇形画面。在本实施例中，将唇形特征向量编译为FBX文件，导入到Unity3D引擎中，可看到唇形画面。测试一些未在步骤S4训练的音频片段，依旧能观测到拟合出的唇形非常准确，模型泛化性能良好。

实施例2

本实施例提供了一种应用实施例1语音唇形拟合方法的系统，其具体的方案如下：

实施例3

本实施例提供了一种存储介质，所述存储介质内存储有程序，所述程序运行时执行实施例1的语音唇形拟合方法的方法步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。