CN109616127A

CN109616127A - 一种音频数据融合方法

Info

Publication number: CN109616127A
Application number: CN201811356310.1A
Authority: CN
Inventors: 张敏
Original assignee: Jianhu Yunfei Data Technology Co Ltd
Current assignee: Jianhu Yunfei Data Technology Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-04-12

Abstract

本发明公开了一种音频数据融合方法，本发明首先获取待处理的音频数据，对音频数据进行编码，便可得到表征发音的第一编码数据。获取用于语音特征转换的嵌入向量，由于嵌入向量是对应相同参考音频数据的参考融合音频数据和参考语音数据之间的残差生成，因而所得到的嵌入向量为不包含语义特征的风格特征向量。根据嵌入向量对第一编码数据进行解码，避免了语义特征对第一编码数据处理的影响，因此所获得的目标融合音频数据的质量高。

Description

一种音频数据融合方法

技术领域

本申请涉及音频合成技术领域，尤其涉及一种音频数据融合方法。

背景技术

语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。和语音识别相比，语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进，大规模应用指日可待。

语音合成，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音。

现有技术中，语音合成得到的音频质量拟人效果较差。

发明内容

本实施例提供的一种音频数据融合方法，主要包括如下步骤：

获取待处理的音频数据；

对所述音频数据编码，得到第一编码数据；

获取参考音频数据和相应的参考语音数据；

对所述参考音频数据编码，得到第二编码数据；

解码所述第二编码数据，得到参考融合音频数据；

确定所述参考语音数据和所述参考融合音频数据间的残差；

获取所述残差模型中前向门循环单元层针对所述残差进行前向运算时在最后一个时间步输出的第一向量；

获取所述残差模型中后向门循环单元层针对所述残差进行后向运算时在第一个时间步输出的第二向量；

将所述第一向量和所述第二向量做差，获得用于语音特征转换的嵌入向量；所述嵌入向量，根据对应相同参考音频数据的参考融合音频数据和参考语音数据之间的残差生成；

根据所述嵌入向量对所述第一编码数据进行解码，获得经过语音特征转换的目标融合音频数据。

本发明提供的音频数据融合方法，首先获取待处理的音频数据，对音频数据进行编码，便可得到表征发音的第一编码数据。获取用于语音特征转换的嵌入向量，由于嵌入向量是对应相同参考音频数据的参考融合音频数据和参考语音数据之间的残差生成，因而所得到的嵌入向量为不包含语义特征的风格特征向量。根据嵌入向量对第一编码数据进行解码，避免了语义特征对第一编码数据处理的影响，因此所获得的目标融合音频数据的质量高，从而提高了合成语音的质量。

具体实施方式

本发明实施例提供的一种音频数据融合方法具体包括如下步骤：首先获取待处理的音频数据。音频数据可以是文本或文本的特征或特征项。文本的特征可以是文本中的字、发音、字或词的韵律和重音等特征。特征项可以是字、词或短语等。特征项需要具备以下特性：能够确实标识文本内容，具有将目标文本与其他文本相区分的能力，特征项分离容易实现。

接收用户发出的语音交互信号，从预设的语言学库中查找与语音交互信号对应的音频数据。例如，用户在与终端进行语音交互过程中，若终端接收到用户发出“西施与貂蝉谁更漂亮”的语音交互信号时，终端从预设的语言学库中查找与该语音交互信号对应的“西施与貂蝉都一样漂亮”的音频数据。

其次对音频数据编码，得到第一编码数据，通过第一编码器对音频数据编码，得到第一编码数据。例如，终端获取一段文本，通过第一编码器对文本进行编码，获得分布式的表示，该分布式表示即为第一编码数据。其中，该分布式表示可以是特征向量。一个特征向量与文本中的一个字或词相对应。

将表征音频数据的向量输入第一编码器，将第一编码器最后一个单元状态作为输出，得到第一编码数据。

之后获取用于语音特征转换的嵌入向量；嵌入向量是根据对应相同参考音频数据的参考融合音频数据和参考语音数据之间的残差生成。嵌入向量可以是具有参考对象说话风格特征的向量，而参考对象可以是说话具有特殊风格的人。风格特征包括但不限于：与时长和韵律起伏相关性高的韵律时长特征、基频特征和能量特征。韵律时长特征包括一个字或词的时长、停顿和重音等特征。终端将该嵌入向量与对应的第一编码数据进行融合并处理，将得到具有参考对象说话风格的融合音频数据。当融合音频数据经过处理后通过扬声器播放出来，播放出来的合成语音将不再是机械化的语音，而是具有人的说话风格。

当用户在与终端进行语音交互之前，终端获取参考音频数据和具有风格特征的参考语音数据，其中，参考语音数据的来源可以是与终端进行语音交互的用户，也可以是指定的参考用户。终端对参考音频数据进行语音合成，得到不具有风格特征的参考融合音频数据。终端将参考融合音频数据与参考语音数据进行作差处理，得到表征风格特征的残差。终端对残差进行处理得到表征风格特征的嵌入向量。终端将得到的嵌入向量保存于风格特征向量库中。其中，风格特征向量库可以保存多个参考对象对应的嵌入向量。该残差实质上是残差序列。

终端对残差进行处理得到表征风格特征的嵌入向量的步骤，具体可以包括：通过残差模型处理残差的多个全连接层，将全连接层输出的结果分别输入前向门循环单元层和后向门循环单元层，将前向门循环单元层最后一个时间步的输出与后向门循环单元层第一个时间步的输出相加，得到用于语音特征转换的、能表征风格特征的嵌入向量。

若用户在与终端进行语音交互时想要听到张曼玉的说话风格，那么在与终端进行语音交互之前，终端获取张曼玉的语音数据作为参考语音数据，并获取对应的音频数据(例如说话的文字内容，文字内容如“西施与貂蝉谁更漂亮”)，其中，获取的参考语音数据具有张曼玉的说话风格。终端对音频数据进行语音合成，得到不具有张曼玉说话风格的参考融合音频数据。终端将具有张曼玉说话风格的参考语音数据与不具有说话风格的参考融合音频数据作差，得到表征风格特征的残差。终端对得到的残差进行处理，获得能够表征张曼玉说话风格的嵌入向量。

终端将得到的用于语音特征转换的、能表征风格特征的嵌入向量，保存于嵌入向量库中。当终端接收到指定的风格特征指令时，展示与嵌入向量对应的风格选择界面。

终端接收指定的风格特征指令，从风格特征向量库中获取与风格特征指令对应的嵌入向量。例如，用户想要听到某个电影或体育明星的声音，那么，用户在终端的风格选择界面中的各参考对象中选择目标的电影或体育明星，此时终端接收到对于该电影或体育明星的风格特征指令，根据风格特征指令选择表征该电影或体育明星说话风格的嵌入向量。

之后根据嵌入向量对第一编码数据进行解码，获得经过语音特征转换的目标融合音频数据。通过第一解码器，按照嵌入向量对第一编码数据进行解码，获得经过语音特征转换的、具有参考对象说话风格的目标融合音频数据。或者，终端将嵌入向量与第一编码数据进行组合，对组合后的结果进行解码，获得经过语音特征转换的、具有参考对象说话风格的目标融合音频数据。

当接收到用户发出的语音交互信号时，终端获取与语音交互信号对应的音频数据，该音频数据例如是“西施与貂蝉谁更漂亮”。终端将获取的音频数据输入第一编码器，通过第一编码器的编码处理，得到第一编码数据。上述实施例中，获取待处理的音频数据，对音频数据进行编码，便可得到表征发音的第一编码数据。获取用于语音特征转换的嵌入向量，由于嵌入向量是对应相同参考音频数据的参考融合音频数据和参考语音数据之间的残差生成，因而所得到的嵌入向量为不包含语义特征的风格特征向量。根据嵌入向量对第一编码数据进行解码，避免了语义特征对第一编码数据处理的影响，因此所获得的目标融合音频数据的质量高，从而提高了合成语音的质量。

获取参考音频数据和相应的参考语音数据。参考语音数据可以是采自于参考对象的语音数据。参考音频数据与参考语音数据相对应。参考对象可以是与终端进行语音交互的用户，也可以是指定的参考用户。对应的，参考语音数据可以是参考对象发出的语音信号，而参考音频数据可以是语音信号中所要表达的文字内容。

若用户在与终端进行语音交互时想要听到用户本人的说话风格，那么在与终端进行语音交互之前，获取用户本人的语音数据作为参考语音数据，并获取对应的音频数据，其中，获取的参考语音数据具有用户本人的说话风格。终端对音频数据进行语音合成，得到不具有用户本人说话风格的参考融合音频数据。终端将具有用户本人说话风格的参考语音数据与不具有说话风格的参考融合音频数据作差，得到表征风格特征的残差。终端对得到的残差进行处理，获得能够表征用户本人说话风格的嵌入向量。

在一个实施例中，终端采集参考对象的语音，将采集的语音进行分帧、加窗和傅里叶变换，得到具有参考对象说话风格特征的、且为频域的语音数据。

对参考音频数据编码，得到第二编码数据。终端通过第一编码器对参考音频数据编码，得到第一编码数据。例如，终端获取一段文本，通过第一编码器对参考文本进行编码，获得分布式的表示，该分布式表示即为第二编码数据。其中，该分布式表示可以是特征向量。一个特征向量与文本中的一个字或词相对应。

解码第二编码数据，得到参考融合音频数据。在一个实施例中，终端通过第二解码器对参考音频数据进行解码，得到不具有风格特征的参考融合音频数据。

获得参考音频数据后，将获得的参考音频数据输入第二编码器中，通过第二编码器对参考音频数据进行处理，得到表示参考音频数据的上下文的表示C，其中，上下文的表示C可以是概括了输入序列X＝{x(1),x(2)...x(n)}的向量。终端将上下文的表示C输入第二解码器，以固定长度的向量作为条件，产生输出序列Y＝{y(1),y(2)...y(n)}，进而得到参考融合音频数据。需要说明的是，上述方法步骤只是用于理解如何得到参考融合音频数据，不作为本发明实施例的限定。

根据参考语音数据和参考融合音频数据间的残差，确定用于语音特征转换的嵌入向量。对参考语音数据和参考融合音频数据进行作差，得到表征风格特征的残差。终端对所得的具有风格特征的残差进行处理，得到用于语音特征转换的、且用于表征风格特征的嵌入向量。

根据参考语音数据和参考融合音频数据间的残差，确定用于语音特征转换的嵌入向量，从而得到用于对音频数据进行语音合成时进行风格控制的嵌入向量，以使合成的目标融合音频数据具有特定的风格特征，提高合成语音的质量。

确定参考语音数据和参考融合音频数据间的残差。终端对参考语音数据和参考融合音频数据进行作差，得到表征风格特征的残差。

通过残差模型处理残差。残差模型可以由RNN所构建。残差模型可以包括4层：从下至上分别为两个全连接层、一个前向门循环单元层和一个后向GRU层。

通过残差模型处理残差中的全连接层，并依次通过全连接层、前向门循环单元层和后向门循环单元层进行处理。根据残差模型中前向运算的结果和后向运算的结果，生成用于语音特征转换的嵌入向量。该嵌入向量可以称为自适应嵌入向量。嵌入向量所具有的风格特征与参考语音数据相关。例如，假设参考语音数据是通过采集张曼玉的语音所得，则该嵌入向量所具有的风格特征与张曼玉的说话风格特征一致。

在一个实施例中，终端通过残差模型中前向门循环单元层对残差进行前向运算，得到前向运算的结果。终端通过残差模型中后向门循环单元层对残差进行后向运算，得到后向运算的结果。

获取残差模型中前向门循环单元层进行前向运算时在最后一个时间步输出的第一向量；获取残差模型中后向门循环单元层进行后向运算时在第一个时间步输出的第二向量；将第一向量和第二向量做差，获得用于语音特征转换的嵌入向量。

假设所得到的残差为R＝{r(1),r(2),...,r(t)}，将所得到的残差R＝{r(1),r(2),...,r(t)}依次输入Dense层和GRU层。最后，将前向GRU层最后一个时间步的隐层状态与后向GRU层第一个时间步的隐层状态相加，得到用于表征风格特征的嵌入向量e。

通过残差模型处理参考语音数据和参考融合音频数据之间的残差，获得用于语音特征转换的嵌入向量，使得嵌入向量具有与参考语音数据相同的风格特征，具有自适应的效果。此外，得到用于对音频数据进行语音合成时进行风格控制的嵌入向量，以使合成的目标融合音频数据具有特定的风格特征，提高合成语音的质量。

第一编码数据通过第一编码器进行编码得到；目标融合音频数据通过第一解码器进行解码得到；该方法还包括：获取训练音频数据和相应的训练语音数据。音频数据可以是文本或文本的特征或特征项。训练音频数据指的是在训练阶段所采用的音频数据，用于对第一编码器和第一解码器进行训练。

在训练过程中，终端获取训练音频数据和具有风格特征的训练语音数据。在训练过程中，开发人员输入用于训练的训练音频数据和具有风格特征的训练语音数据。

通过第一编码器对训练音频数据编码，得到第一训练第一编码数据。在一个实施例中，终端通过第一编码器对训练音频数据编码，得到第一训练第一编码数据。

获取用于语音特征转换的训练嵌入向量；训练嵌入向量，根据对应相同训练音频数据的训练融合音频数据和训练语音数据之间的残差生成。

训练嵌入向量指的是用于训练第一编码器和第一解码器的向量。终端将该训练嵌入向量与对应的第一训练第一编码数据进行融合和处理，将得到具有参考对象说话风格的训练融合音频数据。当训练融合音频数据经过处理后通过扬声器播放出来，播放出来的合成语音将不再是机械化的语音，而是具有人的说话风格。

当用户在与终端进行语音交互之前，终端获取训练音频数据和具有风格特征的训练语音数据，其中，训练语音数据的来源可以由开发人员选取，可以是由开发人员自己的语言所得，也可以是由其它具有特定说话风格的语音所得。终端对训练音频数据进行语音合成，得到不具有风格特征的训练融合音频数据。终端将训练融合音频数据与训练语音数据进行作差处理，得到表征风格特征的残差。终端对残差进行处理得到表征风格特征的训练嵌入向量。终端将得到的训练嵌入向量保存于风格特征向量库中。

对残差进行处理得到表征风格特征的训练嵌入向量的步骤，具体可以包括：通过残差模型处理残差的多个全连接层，将全连接层输出的结果分别输入前向门循环单元层和后向门循环单元层，将前向门循环单元层最后一个时间步的输出与后向门循环单元层第一个时间步的输出相加，得到用于语音特征转换的、能表征风格特征的训练嵌入向量。

接收指定的风格特征指令，从风格特征向量库中获取与风格特征指令对应的训练嵌入向量。

通过第一解码器，根据训练嵌入向量对第一训练第一编码数据进行解码，获得经过语音特征转换的预测目标融合音频数据。通过第一解码器，按照训练嵌入向量对第一训练第一编码数据进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标融合音频数据。或者，终端将训练嵌入向量与第一训练第一编码数据进行组合，对组合后的结果进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标融合音频数据。

根据预测目标融合音频数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。根据预测目标融合音频数据和训练语音数据间的差异，调整第一编码器和第一解码器中的参数，并继续训练，直至预测目标融合音频数据对应的语音风格与训练语音数据对应的语音风格一致，则停止训练。

通过第一编码器和第一解码器处理训练音频数据、训练语音数据和训练嵌入向量，得到预测目标融合音频数据，根据预测目标融合音频数据和训练语音数据间的差异调整第一编码器和第一解码器，使预测目标融合音频数据不断逼近训练语音数据，从而得到训练好的第一编码器和第一解码器。由于训练过程中采用了由训练融合音频数据和训练语音数据之间的残差生成的训练嵌入向量，该训练嵌入向量只包含语音特征，无需考虑语义特征对对训练模型的影响，从而降低了第一编码器和第一解码器的复杂度，提高了训练结果的准确性。

第一编码数据通过第一编码器进行编码得到；目标融合音频数据通过第一解码器进行解码得到；第二编码数据通过第二编码器进行编码得到；参考融合音频数据通过第二解码器进行解码得到；嵌入向量通过残差模型得到。

获取训练音频数据和相应的训练语音数据。

其中，训练音频数据指的是在训练阶段所采用的音频数据，用于对第一编码器和第一解码器进行训练。

在训练过程中，终端获取训练音频数据和具有风格特征的训练语音数据。例如，在训练过程中，开发人员输入用于训练的训练音频数据和具有风格特征的训练语音数据。

通过第二编码器将训练音频数据编码，得到第二训练第一编码数据。通过第二编码器对训练音频数据编码，得到第二训练第一编码数据。例如，终端获取一段文本，通过第一编码器对文本进行编码，获得分布式的表示，该分布式表示即为第一编码数据。其中，该分布式表示可以是特征向量。一个特征向量与文本中的一个字或词相对应。

通过第二解码器对第二训练第一编码数据解码，得到训练融合音频数据。通过残差模型，并根据训练融合音频数据和训练语音数据之间的残差生成训练嵌入向量。

在通过残差模型，对训练融合音频数据和训练语音数据进行作差，得到表征风格特征的残差。终端对所得的具有风格特征的残差进行处理，得到用于语音特征转换的、且用于表征风格特征的训练嵌入向量。

通过第一解码器，根据训练嵌入向量对第一训练第一编码数据进行解码，获得经过语音特征转换的预测目标融合音频数据。

第一训练第一编码数据由第一编码器编码训练音频数据所得。

在一个实施例中，终端通过第二解码器，按照训练嵌入向量对第一训练第一编码数据进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标融合音频数据。或者，终端将训练嵌入向量与第一训练第一编码数据进行组合，对组合后的结果进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标融合音频数据。

根据预测目标融合音频数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

根据预测目标融合音频数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器中的参数，并继续训练，直至预测目标融合音频数据对应的语音风格与训练语音数据对应的语音风格一致，则停止训练。

获取训练音频数据和具有风格特征的训练语音数据，通过第二编码器将训练音频数据编码得到第二训练第一编码数据，通过第二解码器对第二训练第一编码数据进行解码得到训练融合音频数据。终端通过残差模型对训练融合音频数据与训练语音数据之间的残差进行处理，获得用于表征风格特征的训练嵌入向量。通过第一编码器对训练音频数据编码得到第一训练第一编码数据后，通过第一解码器，根据训练嵌入向量对第一训练第一编码数据进行解码，获得经过语音特征转换的预测目标融合音频数据。根据预测目标融合音频数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

由于训练过程中采用了由训练融合音频数据和训练语音数据之间的残差生成的训练嵌入向量，提高了训练结果的准确性。

将用于获取用于表征风格特征的嵌入向量的第二编码器、第二解码器、残差模型，与用于合成语音的第一编码器和第一解码器结合在一起，降低了语音合成系统对数据的需求，提高建立语音合成系统的准确性。

将第一编码数据和嵌入向量拼接，得到拼接向量；对拼接向量进行解码，得到经过语音特征转换的目标融合音频数据。嵌入向量包括：韵律时长特征、基频特征和能量特征；将第一编码数据和嵌入向量拼接，得到拼接向量的步骤，具体可以包括：根据时长特征确定与目标语音数据中韵律对应的目标时长；将音素序列与目标时长、基频特征和能量特征进行组合，获得组合特征。

将第一编码数据和嵌入向量拼接，对拼接后所得的向量进行解码，得到经过语音特征转换的目标融合音频数据。由于拼接后的向量没语义特征，避免了语义特征对第一编码数据的处理，从而提高了合成语音的质量。

确定与目标融合音频数据对应的语音幅度谱；将语音幅度谱转换为时域的语音波形信号；根据语音波形生成语音。将具有语音特征的目标融合音频数据转换为语音信号，从而获得具有风格的语音，从而可以提高合成语音的质量。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims