CN116386590B

CN116386590B - 一种多模态的表现性语音合成方法及装置

Info

Publication number: CN116386590B
Application number: CN202310613237.6A
Authority: CN
Inventors: 刘艳; 魏丽芳; 钱馨园; 张传飞; 赖志豪; 刘琦; 张天昊; 陈松路; 殷绪成
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-15
Anticipated expiration: 2043-05-29
Also published as: CN116386590A

Abstract

本发明公开了一种多模态的表现性语音合成方法及装置，属于语音合成技术领域，方法包括：将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码；将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入；将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入；文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征；将帧级别的语音特征与去噪掩码相乘，获得去噪后的帧级别的语音特征；将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接；将拼接得到的特征序列输入至解码器，通过解码器合成干净的语谱图。

Description

一种多模态的表现性语音合成方法及装置

技术领域

本发明属于语音合成技术领域，具体涉及一种多模态的表现性语音合成方法及装置。

背景技术

语音合成（Text-to-Speech，TTS）旨在根据给定的文本信息合成自然的、可理解的音频。语音合成技术在语音助手、车载导航、视频配音、虚拟主持人等方面有着广泛的应用。

为了合成表现性丰富的干净语音，语音合成模型需要学习独立控制说话人特性、语音风格和背景噪声等信息。这需要模型具有对语音的各种表现性因子解耦并独立控制的能力。由于语音中的噪声信号难以标注，缺乏标签信息，因此很难对噪声信号进行精确的建模。

首先，现有技术中往往忽略了语音中的噪声信息，直接对其他表现性因子（例如说话人特性，说话风格，情感等因子）进行建模研究。但实际生活中，大多数的场景中都是包含噪声的，例如在嘈杂环境下召开的视频会议。这些表现性建模方法难以直接应用在实际生活中。

此外，现有技术往往直接将语谱图作为输入，为合成语音提供风格信息，存在着信息泄露的问题，当信息泄露严重时，TTS模型会完全根据编码的语谱图特征生成语音，使文本编码器失去作用，导致TTS模型训练失败。

发明内容

为了解决现有技术忽略语音中的噪声信息，导致语音合成质量差，难以在实际生活中应用，并且，往往直接将语谱图作为输入，为合成语音提供风格信息，存在着信息泄露的技术问题，本发明提供一种多模态的表现性语音合成方法及装置。

第一方面

本发明提供一种多模态的表现性语音合成方法，包括：

S101：将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码M_denoise；

S102：将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入E_style；

S103：将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入E_text；

S104：文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征E_expand；

S105：将帧级别的语音特征E_expand与去噪掩码M_denoise相乘，获得去噪后的帧级别的语音特征E_clean；

S106：将去噪后的帧级别的语音特征E_clean与风格嵌入E_style在通道维度上进行拼接；

S107：将拼接得到的特征序列输入至解码器，通过解码器合成干净的语谱图Mel_clean。

第二方面

本发明提供一种多模态的表现性语音合成装置，包括：

第一获得模块，用于将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码M_denoise；

提供模块，用于将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入E_style；

第二获得模块，用于将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入E_text；

第三获得模块，用于文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征E_expand；

第四获得模块，用于将帧级别的语音特征E_expand与去噪掩码M_denoise相乘，获得去噪后的帧级别的语音特征E_clean；

拼接模块，用于将去噪后的帧级别的语音特征E_clean与风格嵌入E_style在通道维度上进行拼接；

合成模块，用于将拼接得到的特征序列输入至解码器，通过解码器合成干净的语谱图Mel_clean。

与现有技术相比，本发明至少具有以下有益技术效果：

（1）在本发明中，重视噪声对于语音合成的影响，将噪声也看作一个风格因子，利用视频模态与语音模态的高度相关性，利用视频模态生成去噪掩码，之后通过去噪掩码对语音模态的语音特征进行去噪，大大提升了语音合成的质量，更有利于在实际生活中应用。

（2）在本发明中，避免直接将语谱图作为输入，采用视频模态作为输入，提供多尺度的风格信息，从而避免了信息泄露，提升信息安全性。

（3）在本发明中，可以在合成过程，选择不成对的文本控制合成语音的内容，选择不成对的视频控制合成语音的风格，增强了语音合成的控制性，通过提供了多尺度的风格信息，增强了语音合成的表现性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种多模态的表现性语音合成方法的流程示意图；

图2是本发明提供的一种多模态的表现性语音合成方法的逻辑示意图；

图3是本发明提供的一种去噪掩码的生成方法的流程示意图；

图4是本发明提供的一种多模态的表现性语音合成装置的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例一

参考图1，图1示出了本发明提供的一种多模态的表现性语音合成方法的流程示意图。

参考图2，图2示出了本发明提供的一种多模态的表现性语音合成方法的逻辑示意图。

参考图3，图3示出了本发明提供的一种去噪掩码的生成方法的流程示意图。

本发明提供的一种多模态的表现性语音合成方法，包括：

S101：将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码M_denoise。

如图3所示，降噪掩码模块主要由视频流和语音流两个特征提取模块、多模态融合模块和掩码生成模块组成。

在一种可能的实施方式中，S101具体包括子步骤S1011至S1015：

S1011：将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器。

S1012：提取出噪声语谱图中的语音特征。

具体地，语音特征提取模块将噪声语谱图编码成帧级别的语音特征。

S1013：提取出第一无声视频序列中的视频特征。

其中，语音特征与视频特征的长度相同。

具体地，视频特征提取模块可以将输入的无声视频序列进行编码并4倍上采样，输出与语音特征相同长度的视频特征。

S1014：将语音特征和视频特征进行多模态融合，获得融合特征序列。

需要说明的是，在多模态融合中可以将语音特征和视频特征这两种不同类型的数据结合起来，以获得更全面、更丰富的信息表示，从而在不同模态之间建立相关性，从而提供更好的表示能力和更准确的结果。

可选地，可以采用深度神经网络对特征进行融合，还可以使用一些特征级别的融合策略，例如拼接（concatenation）、求和（sum）、加权求和（weighted sum）等。

S1015：将融合特征序列通过激活函数进行处理，获得数值范围在0至1之间的去噪掩码M_denoise。

其中，激活函数可以对输入数据进行非线性的转换。

其中，激活函数为sigmoid激活函数。

在一种可能的实施方式中，激活函数也可以选用ReLU激活函数、Tanh激活函数等。

S102：将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入E_style。

其中，第二无声视频序列可以与第一无声视频序列来源不同，以进行说话人的风格迁移，增强合成音频的表现性和提高语音合成的可控性。

其中，风格嵌入E_style包括全局风格嵌入E_global和局部韵律嵌入E_local。

可以理解的是，全局风格嵌入Eglobal是循环神经网络GRU在最后一个时刻的输出特征，局部韵律嵌入Elocal是GRU每个时刻的输出拼接得到的特征，Eglobal和Elocal合称为多尺度风格嵌入Estyle。

需要说明的是，通过提供了多尺度的风格信息，可以增强了语音合成的表现性。

其中，多尺度风格编码器可以采用神经网络模型，主要包括一个3维卷积层、ResNet-18和两层Bi-GRU。3维卷积层用于处理三维数据（例如视频或体积数据）的卷积层。它采用卷积运算对输入数据进行特征提取。3维卷积层通常用于捕捉时空信息，例如视频中的运动模式或体积数据中的结构特征。ResNet-18是一个经典的深度残差网络，用于提取图像中的特征。ResNet-18由多个卷积层和残差块组成，其中每个残差块包含跳跃连接，可以帮助解决梯度消失和模型退化的问题。通过使用ResNet-18，多尺度风格编码器可以从输入图像中提取高层次、抽象的特征。双向门控循环单元（Bi-GRU）是一种循环神经网络（RNN）的变体，用于处理序列数据。Bi-GRU由两个方向相反的门控循环单元组成，分别从前向和后向来对序列数据进行建模。这种双向建模能够捕捉序列数据中的上下文信息。在多尺度风格编码器中，Bi-GRU被用于处理从3维卷积层和ResNet-18提取的特征，以更好地捕捉图像中的时空关系。

在一种可能的实施方式中，S102具体包括子步骤S1021至S1024：

S1021：将第二无声视频序列输入至多尺度风格编码器。

S1022：提取每个时刻的第二无声视频序列的风格特征。

具体地，提取到的风格信息通过一个GRU，将最后一个时刻的隐状态输出作为全局风格特征。

S1023：将每个时刻的风格特征在时间维度上进行拼接，得到局部韵律特征和全局风格特征。

其中，全局风格特征为最后一个时刻的风格特征。

S1024：根据局部韵律特征和全局风格特征生成多尺度的风格嵌入E_style。

S103：将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入E_text。

S104：文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征E_expand。

S105：将帧级别的语音特征E_expand与去噪掩码M_denoise相乘，获得去噪后的帧级别的语音特征E_clean。

需要说明的是，将去噪掩码M_denoise与主干网络生成的语音特征E_expand相乘就可以实现语音去噪。这是因为去噪掩码的数值较小的地方，会使相应位置上的语音特征减小，从而抑制噪声成分；而去噪掩码的数值较大的地方，会使相应位置上的语音特征保持原始的强度。经过去噪之后将拥有更好的语音合成的效果。

S106：将去噪后的帧级别的语音特征E_clean与风格嵌入E_style在通道维度上进行拼接。

与现有技术相比，本发明至少具有以下有益技术效果：

在一种可能的实施方式中，在S101之前，多模态的表现性语音合成方法还包括：

S108：获取视频图像，将视频图像中的图片裁剪缩放为预设大小。

可选地，预设大小为96×96的大小。将视频图像中的图片裁剪缩放为预设大小可以便于后续的处理。

S109：从干净数据集中选取语音信号，从噪声数据集中选取噪声信号，将语音信号与噪声信号进行混合，获得噪声语音。

在一种可能的实施方式中，S109具体为：从干净数据集中选取语音信号，从噪声数据集中选取噪声信号，随机选取5-25dB之间的信噪比，将语音信号与噪声信号进行混合，获得噪声语音。

在一种可能的实施方式中，干净数据集为GRID数据集。GRID是由33位说话者的句子按照固定语法组成的数据集。该数据集包含了成对的语音，视频和文本信息。噪声数据集为Nonspeech100数据集。Nonspeech100是包含20种噪声类别的100个噪声语音的噪声数据集。

S110：将语音信号和噪声语音分别进行短时傅里叶变换得到干净的语谱图和噪声语谱图。

其中，短时傅里叶变换将输入的噪声语音信号分解为一系列窗口化的短时片段，每个片段都进行傅里叶变换，得到相应的频谱信息。这些频谱信息可以表示为语谱图，其中每个点表示相应时间和频率的信号强度。

实施例二

参照图4，图4示出了本发明实施例提供的一种多模态的表现性语音合成装置的结构示意图。

本发明提供一种多模态的表现性语音合成装置40，包括：

第一获得模块401，用于将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码M_denoise；

提供模块402，用于将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入E_style；

第二获得模块403，用于将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入E_text；

第三获得模块404，用于文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征E_expand；

第四获得模块405，用于将帧级别的语音特征E_expand与去噪掩码M_denoise相乘，获得去噪后的帧级别的语音特征E_clean；

拼接模块406，用于将去噪后的帧级别的语音特征E_clean与风格嵌入E_style在通道维度上进行拼接；

合成模块407，用于将拼接得到的特征序列输入至解码器，通过解码器合成干净的语谱图Mel_clean。

在一种可能的实施方式中，第一获得模块401具体用于：

将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器；

提取出噪声语谱图中的语音特征；

提取出第一无声视频序列中的视频特征，其中，语音特征与视频特征的长度相同；

将语音特征和视频特征进行多模态融合，获得融合特征序列；

将融合特征序列通过激活函数进行处理，获得数值范围在0至1之间的去噪掩码M_denoise。

在一种可能的实施方式中，激活函数为sigmoid激活函数。

在一种可能的实施方式中，风格嵌入E_style包括全局风格嵌入E_global和局部韵律嵌入E_local。

在一种可能的实施方式中，提供模块402具体用于：

将第二无声视频序列输入至多尺度风格编码器；

提取每个时刻的第二无声视频序列的风格特征；

将每个时刻的风格特征在时间维度上进行拼接，得到局部韵律特征和全局风格特征，其中，全局风格特征为最后一个时刻的风格特征；

根据局部韵律特征和全局风格特征生成多尺度的风格嵌入E_style。

在一种可能的实施方式中，多模态的表现性语音合成装置40还包括：

第五获取模块，用于获取视频图像，将视频图像中的图片裁剪缩放为预设大小；

混合模块，用于从干净数据集中选取语音信号，从噪声数据集中选取噪声信号，将语音信号与噪声信号进行混合，获得噪声语音；

变换模块，用于将语音信号和噪声语音分别进行短时傅里叶变换得到干净的语谱图和噪声语谱图。

在一种可能的实施方式中，混合模块具体用于：从干净数据集中选取语音信号，从噪声数据集中选取噪声信号，随机选取5-25dB之间的信噪比，将语音信号与噪声信号进行混合，获得噪声语音。

在一种可能的实施方式中，干净数据集为GRID数据集，噪声数据集为Nonspeech100数据集。

本发明提供的多模态的表现性语音合成装置40能够实现上述方法实施例中实现的各个过程，为避免重复，这里不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

本发明不局限于以上实施例的具体技术方案，除上述实施例外，本发明还可以有其他实施方案。凡采用等同替换形成的技术方案，均为本发明要求的保护范围。

Claims

1.一种多模态的表现性语音合成方法，其特征在于，包括：

S101：将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过所述噪声掩码编码器获得去噪掩码M_denoise；

所述S101具体包括：

S1011：将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器；

S1012：提取出所述噪声语谱图中的语音特征；

S1013：提取出所述第一无声视频序列中的视频特征，其中，所述语音特征与所述视频特征的长度相同；

S1014：将所述语音特征和所述视频特征进行多模态融合，获得融合特征序列；

S1015：将所述融合特征序列通过激活函数进行处理，获得数值范围在0至1之间的所述去噪掩码M_denoise；

S102：将第二无声视频序列输入至多尺度风格编码器，通过所述多尺度风格编码器提供多尺度的风格嵌入E_style；

所述S102具体包括：

S1021：将第二无声视频序列输入至多尺度风格编码器；

S1022：提取每个时刻的第二无声视频序列的风格特征；

S1023：将每个时刻的风格特征在时间维度上进行拼接，得到局部韵律特征和全局风格特征，其中，所述全局风格特征为最后一个时刻的风格特征；

S1024：根据所述局部韵律特征和所述全局风格特征生成多尺度的风格嵌入E_style；

S103：将文本信息输入至文本编码器，通过所述文本编码器获得文本信息嵌入E_text；

S104：所述文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征E_expand；

S105：将所述帧级别的语音特征E_expand与所述去噪掩码M_denoise相乘，获得去噪后的帧级别的语音特征E_clean；

S106：将所述去噪后的帧级别的语音特征E_clean与所述风格嵌入E_style在通道维度上进行拼接；

S107：将拼接得到的特征序列输入至解码器，通过所述解码器合成干净的语谱图Mel_clean。

2.根据权利要求1所述的多模态的表现性语音合成方法，其特征在于，所述激活函数为sigmoid激活函数。

3.根据权利要求1所述的多模态的表现性语音合成方法，其特征在于，所述风格嵌入E_style包括全局风格嵌入E_global和局部韵律嵌入E_local。

4.根据权利要求1所述的多模态的表现性语音合成方法，其特征在于，在所述S101之前还包括：

S108：获取视频图像，将视频图像中的图片裁剪缩放为预设大小；

S109：从干净数据集中选取语音信号，从噪声数据集中选取噪声信号，将所述语音信号与所述噪声信号进行混合，获得噪声语音；

S110：将所述语音信号和所述噪声语音分别进行短时傅里叶变换得到干净的语谱图和噪声语谱图。

5.根据权利要求4所述的多模态的表现性语音合成方法，其特征在于，所述S109具体为：

从干净数据集中选取语音信号，从噪声数据集中选取噪声信号，随机选取5-25dB之间的信噪比，将所述语音信号与所述噪声信号进行混合，获得噪声语音。

6.根据权利要求4所述的多模态的表现性语音合成方法，其特征在于，所述干净数据集为GRID数据集，所述噪声数据集为Nonspeech100数据集。

7.一种多模态的表现性语音合成装置，其特征在于，包括：

第一获得模块，用于将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过所述噪声掩码编码器获得去噪掩码M_denoise；

所述第一获得模块具体用于：

将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器；

提取出所述噪声语谱图中的语音特征；

提取出所述第一无声视频序列中的视频特征，其中，所述语音特征与所述视频特征的长度相同；

将所述语音特征和所述视频特征进行多模态融合，获得融合特征序列；

将所述融合特征序列通过激活函数进行处理，获得数值范围在0至1之间的所述去噪掩码M_denoise；

提供模块，用于将第二无声视频序列输入至多尺度风格编码器，通过所述多尺度风格编码器提供多尺度的风格嵌入E_style；

所述提供模块具体用于：

将第二无声视频序列输入至多尺度风格编码器；

提取每个时刻的第二无声视频序列的风格特征；

将每个时刻的风格特征在时间维度上进行拼接，得到局部韵律特征和全局风格特征，其中，所述全局风格特征为最后一个时刻的风格特征；

根据所述局部韵律特征和所述全局风格特征生成多尺度的风格嵌入E_style；

第二获得模块，用于将文本信息输入至文本编码器，通过所述文本编码器获得文本信息嵌入E_text；

第三获得模块，用于所述文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征E_expand；

第四获得模块，用于将所述帧级别的语音特征E_expand与所述去噪掩码M_denoise相乘，获得去噪后的帧级别的语音特征E_clean；

拼接模块，用于将所述去噪后的帧级别的语音特征E_clean与所述风格嵌入E_style在通道维度上进行拼接；

合成模块，用于将拼接得到的特征序列输入至解码器，通过所述解码器合成干净的语谱图Mel_{clean 。}