CN112580669A

CN112580669A - 一种对语音信息的训练方法及装置

Info

Publication number: CN112580669A
Application number: CN202011577644.9A
Authority: CN
Inventors: 张旭; 殷昊; 陈云琳; 江明奇; 杨喜鹏
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Go Out And Ask Wuhan Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-30
Anticipated expiration: 2040-12-28
Also published as: CN112580669B

Abstract

本发明公开了一种对语音信息的训练方法及装置，本发明实施例首先获取语音信息数据；并针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；之后对多个所述时序特征信息进行模型训练，得到面部关键点模型。由此，通过对语音信息进行语义特征提取的学习，以及时序特征提取的学习，从而提升面部关键点模型的性能，使得面部关键点模型能够准确合成面部关键点序列，进而提高说话人视频的合成效果，从而解决现有技术中模型输出说话人画面出现的抖动问题。

Description

一种对语音信息的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对语音信息的训练方法及装置。

背景技术

现有的说话人视频通常是基于语音信息生成的说话人视频，也就是将语音信息输入训练好的模型中生成说话人视频。对于合成的说话人视频，通常要求在视觉上说话内容要与说话姿态保持一致，目前主流的方法主要关注说话时面部姿态，对身体姿态和人物表情姿态等方向工作做的比较少。

近年来，随着深度神经网络的成功应用，语音数据驱动的语音视频合成方法被提出。现有的方法利用三维人脸模型对语音信息进行处理，得到三维人脸图像，再将三维人脸图像经过三维人脸模型转换成面部关键点二维图像，最后将二维图像输入视频合成模型，从而生成与语音信息对应的说话人视频。由于训练三维人脸模型时仅使用几层循环神经网络作为编解码，因此网络特征学习能力比较弱。而且整个过程还使用三维人脸模型作为中间状态进行转换，从而导致生成的面部关键点二维图像误差较大。由此可知，上述方法不仅整体制作流程复杂，训练周期长，成本较高；而且不合理的网络结构还会导致语音信息转换的嘴形、姿态匹配效果不理想，从而使得最后合成的说话人视频存在模糊抖动的问题。

发明内容

本发明实施例提供一种对语音信息的训练方法及装置，能够使得生成的说话人视频更加自然逼真，提高了说话人视频的合成效果。

根据本发明实施例第一方面，提供一种对语音信息的训练方法，该方法包括：获取语音信息数据；针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；对多个所述时序特征信息进行模型训练，得到面部关键点模型。

在可选的实施例中，所述对多个所述时序特征信息进行模型训练，得到面部关键点模型，包括：针对任一所述时序特征信息：对所述时序特征信息进行解码处理，得到合成面部关键序列；获取与所述合成面部关键点序列对应的真实面部关键点序列，并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本；利用损失函数对多个所述对比样本进行模型训练，得到面部关键点模型。

在可选的实施例中，所述对所述语义特征信息进行时序特征提取，得到时序特征信息，包括：对所述语义特征信息施加权重，得到具有权重的语义特征信息；对具有权重的语义特征信息进行时序特征提取，得到时序特征信息。

在可选的实施例中，所述对语音信息进行处理，得到梅尔频谱图序列，包括：对所述语音信息进行标准化处理，得到准语音信息；利用快速傅里叶变换将所述准语音信息进行处理，得到梅尔频谱图序列。

在可选的实施例中，所述获取语音信息数据包括：获取多个原始语音信息；针对每个所述原始语音信息进行数据扩充处理，得到多个扩充的语音信息；将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。

在可选的实施例中，所述的训练方法还包括：获取待处理语音信息；利用所述面部关键点模型对所述待处理语音信息进行处理，得到面部关键点序列；对所述面部关键点序列进行图像处理，生成与所述待处理语音信息对应的面部图像；对所述面部图像和所述待处理语音信息进行拼接处理，生成说话人视频。

根据本发明实施例第二方面，还提供一种对语音信息训练的装置，该装置包括：获取模块，用于获取语音信息数据；提取梅尔频谱模块，用于针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；模型训练模块，用于对多个所述时序特征信息进行模型训练，得到面部关键点模型。

在可选的实施例中，所述模型训练模块包括：样本单元，用于针对任一所述时序特征信息：对所述时序特征信息进行解码处理，得到合成面部关键序列；获取与所述合成面部关键点序列对应的真实面部关键点序列，并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本；模型训练单元，用于利用损失函数对多个所述对比样本进行模型训练，得到面部关键点模型。

在可选的实施例中，所述模型训练模块包括：权重单元，用于对所述语义特征信息施加权重，得到具有权重的语义特征信息；时序单元，用于对具有权重的语义特征信息进行时序特征提取，得到时序特征信息。

在可选的实施例中，所述的训练装置还包括：所述获取模块，还用于获取待处理语音信息；面部关键点模块，用于利用所述面部关键点模型对所述待处理语音信息进行处理，得到面部关键点序列；图像处理模块，用于对所述面部关键点序列进行图像处理，生成与所述待处理语音信息对应的面部图像；拼接模块，用于对所述面部图像和所述待处理语音信息进行拼接处理，生成说话人视频。

根据本发明实施例第三方面，还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行如第一方面所述对语音信息的训练方法。

本发明实施例对语音信息的训练方法及装置，首先获取语音信息数据；并针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；之后对多个所述时序特征信息进行模型训练，得到面部关键点模型。由此能够对语音信息对应的语义内容以及语义内容的时序特征提取进行学习，从而提升面部关键点模型的性能，使得面部关键点模型能够准确合成面部关键点序列，进而提高说话人视频的合成效果，从而解决现有技术中模型输出说话人画面出现的抖动问题。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明一实施例对语音信息的训练方法的流程示意图；

图2示出了本发明另一实施例对语音信息的训练方法的流程示意图；

图3示出了本发明再一实施例对语音信息的训练方法的流程示意图；

图4示出了本发明一实施例对语音信息的训练装置的结构示意图；

图5示出了本发明再一实施例中面部关键点序列的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

如图1所示，本发明一实施例对语音信息的训练方法的流程示意图。

一种对语音信息的训练方法，该方法至少包括如下操作流程：S101，获取语音信息数据；S102，针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；S103，对多个所述时序特征信息进行模型训练，得到面部关键点模型。

在S101中，获取多个原始语音信息；针对每个所述原始语音信息进行数据扩充处理，得到多个扩充的语音信息；将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。在这里，语音信息是指音频信息。由于一个原始语音信息对应多个扩充语音信息，那么多个原始语音信息对应多个扩充语音信息。由此，通过对同一段语音信息中的特征进行随机采样的策略，进行数据扩充处理，从未实现在不增加语音信息录制时长的情况下有效增加语音信息的数据，从而能够实现对面部关键点模型进行高效训练。

在S102中，对所述语音信息进行标准化处理，得到准语音信息；利用快速傅里叶变换将所述准语音信息进行处理，得到梅尔频谱图序列。例如，将不同采样率的语音信息通过16KHz单通道音频转换成相同采样率。之后再对语音信息进行音量规范化处理，得到准语音信息。也就是说，标准化处理后的语音信息具有相同采样率和相同音量大小。利用残差网络算法对所述语音信息进行语义特征提取，生成语义特征信息。利用GRU算法对语义特征信息进行时序特征提取，生成时序特征信息。

在S103中，针对任一所述时序特征信息，利用全连接网络层和激活网络层对所述时序特征信息进行解码处理，生成面部关键点序列，基于生成的面部关键点序列调节上述网络参数，从而得到面部关键点模型。

本发明实施例通过对语音信息数据先进行语义内容特征提取的学习，然后再进行时序特征提取的学习，从而能够提升面部关键点模型的性能，使得面部关键点模型能够准确合成面部关键点序列，进而提高说话人视频的合成效果，从而解决现有技术中模型输出说话人画面出现的抖动问题。

应理解，在本发明的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图2所示，本发明另一实施例对语音信息的训练方法的流程示意图。本实施例是在前述实施例的基础上进一步优化得到的。一种对语音信息的训练方法，该方法至少包括如下操作流程：S201，获取语音信息数据；S202，针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息施加权重，得到具有权重的语义特征信息；对具有权重的语义特征信息进行时序特征提取，得到时序特征信息；S203，针对任一所述时序特征信息：对所述时序特征信息进行解码处理，得到合成面部关键序列；获取与所述合成面部关键点序列对应的真实面部关键点序列，并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本；S204，利用损失函数对多个所述对比样本进行模型训练，得到面部关键点模型。

其中，S201的具体实现过程与图1所示实施例中S101的具体实现过程相类似，这里不再赘述。

在S202中，对语义特征信息中表示指定部位的数据施加对应的特征权重，从而对语音信息中重要的内容施加更高的关注度，进而使得面部关键点模型针对指定部位的合成效果更加接近真实图像。

在S203中，解码处理是将时序样本数据从一种形式转化成另一种形式。例如将时序特征信息转换成面部关键点序列。

在S204中，先使用L2范数损失函数对合成面部关键点序列与真实面部关键点序列进行平方差后计算梯度从而进行跌迭代优化。之后将优化后的面部关键点序列使用一阶差分损失函数进行平滑约束。由此通过L2范数损失函数对对比样本进行处理，从而能够确保语音信息有效转化为面部关键点序列；通过使用一阶差分损失函数对输出的面部关键点序列进行平滑约束，从而使得输出面部关键点序列能够保持连续性，进而解决了现有技术中模型输出说话人画面出现的抖动问题。

如图3所示，本发明再一实施例对语音信息的训练方法的流程示意图。本实施例是在图2实施例的基础上进一步优化得到的。该训练方法主要是基于前述实施例2生成的面部关键点模型和关键点合成图像模型等一系列模型合成说话人视频，具体包括如下操作流程：S301，获取待处理语音信息；S302，利用所述面部关键点模型对所述待处理语音信息进行处理，得到面部关键点序列；S303，对所述面部关键点序列进行图像处理，生成与所述待处理语音信息对应的面部图像；S304，对所述面部图像和所述待处理语音信息进行拼接处理，生成说话人视频。

在S304中，例如按照时间段，将面部图像和语音信息进行合成处理，生成说话人视频。

如图5所示，示出了图3所述面部关键点序列的结构示意图。

评判本发明实施例的方法指标为用户平均意见分(Mean Opinion Score，缩写MOS),通过对比已有方法和本实施例的方法生成的说话人视频进行用户评分，可以发现本实施例的方法在数据量更少的情况下，合成的说话人视频更加逼真，说话内容与嘴形更加匹配，MOS也高于现有技术说话人视频合成系统。

如图4所示，本发明一实施例对语音信息的训练装置的结构示意图。一种对语音信息的训练装置，该训练装置400包括：获取模块401，用于获取语音信息数据；提取梅尔频谱模块402，用于针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；模型训练模块403，用于对多个所述时序特征信息进行模型训练，得到面部关键点模型。

在可选的实施例中，所述提取梅尔频谱模块包括：标准化单元，用于对所述语音信息进行标准化处理，得到准语音信息；处理单元，用于利用快速傅里叶变换将所述准语音信息进行处理，得到梅尔频谱图序列。

在可选的实施例中，所述获取模块包括：获取单元，用于获取多个原始语音信息；扩充处理单元，用于针对每个所述原始语音信息进行数据扩充处理，得到多个扩充的语音信息；确定单元，用于将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。

这里需要指出的是：以上对语音信息的训练装置实施例的描述，与前述图1所示的方法实施例的描述是类似的，具有同前述图1所示的方法实施例相似的有益效果，因此不做赘述。对于本发明对语音信息的训练装置中未披露的技术细节，请参照本发明前述图1所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于运算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个运算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该运算机软件产品存储在一个存储介质中，包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对语音信息的训练方法，其特征在于，包括：

获取语音信息数据；

针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；

对多个所述时序特征信息进行模型训练，得到面部关键点模型。

2.根据权利要求1所述的训练方法，其特征在于，所述对多个所述时序特征信息进行模型训练，得到面部关键点模型，包括：

针对任一所述时序特征信息：对所述时序特征信息进行解码处理，得到合成面部关键序列；获取与所述合成面部关键点序列对应的真实面部关键点序列，并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本；

利用损失函数对多个所述对比样本进行模型训练，得到面部关键点模型。

3.根据权利要求1所述的训练方法，其特征在于，所述对所述语义特征信息进行时序特征提取，得到时序特征信息，包括：

对所述语义特征信息施加权重，得到具有权重的语义特征信息；

对具有权重的语义特征信息进行时序特征提取，得到时序特征信息。

4.根据权利要求1所述的训练方法，其特征在于，所述对语音信息进行处理，得到梅尔频谱图序列，包括：

对所述语音信息进行标准化处理，得到准语音信息；

利用快速傅里叶变换将所述准语音信息进行处理，得到梅尔频谱图序列。

5.根据权利要求1所述的训练方法，其特征在于，所述获取语音信息数据包括：

获取多个原始语音信息；

针对每个所述原始语音信息进行数据扩充处理，得到多个扩充的语音信息；

将多个所述原始语音信息和多个所述扩充的语音信息确定为语音信息数据。

6.根据权利要求1所述的训练方法，其特征在于，还包括：

获取待处理语音信息；

利用所述面部关键点模型对所述待处理语音信息进行处理，得到面部关键点序列；

对所述面部关键点序列进行图像处理，生成与所述待处理语音信息对应的面部图像；

对所述面部图像和所述待处理语音信息进行拼接处理，生成说话人视频。

7.一种对语音信息的训练装置，其特征在于，包括：

获取模块，用于获取语音信息数据；

提取梅尔频谱模块，用于针对所述语音信息数据中的任一语音信息：对所述语音信息进行处理，得到梅尔频谱图序列；对所述梅尔频谱图序列进行语义特征提取，得到语义特征信息；对所述语义特征信息进行时序特征提取，得到时序特征信息；

模型训练模块，用于对多个所述时序特征信息进行模型训练，得到面部关键点模型。

8.根据权利要求7所述的训练装置，其特征在于，所述模型训练模块包括：

样本单元，用于针对任一所述时序特征信息：对所述时序特征信息进行解码处理，得到合成面部关键序列；获取与所述合成面部关键点序列对应的真实面部关键点序列，并将所述真实面部关键点序列和所述合成面部关键点序列共同作为对比样本；

模型训练单元，用于利用损失函数对多个所述对比样本进行模型训练，得到面部关键点模型。

9.根据权利要求7所述的训练装置，其特征在于，所述模型训练模块包括：

权重单元，用于对所述语义特征信息施加权重，得到具有权重的语义特征信息；

时序单元，用于对具有权重的语义特征信息进行时序特征提取，得到时序特征信息。

10.根据权利要求7所述的训练装置，其特征在于，还包括：

所述获取模块，还用于获取待处理语音信息；

面部关键点模块，用于利用所述面部关键点模型对所述待处理语音信息进行处理，得到面部关键点序列；

图像处理模块，用于对所述面部关键点序列进行图像处理，生成与所述待处理语音信息对应的面部图像；

拼接模块，用于对所述面部图像和所述待处理语音信息进行拼接处理，生成说话人视频。