CN111599368A

CN111599368A - 一种基于直方图匹配的自适应实例规一化语音转换方法

Info

Publication number: CN111599368A
Application number: CN202010417945.9A
Authority: CN
Inventors: 简志华; 朱雅楠; 于佳祺; 金易帆; 孙闽红; 钟华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-08-28
Anticipated expiration: 2040-05-18
Also published as: CN111599368B

Abstract

本发明公开了一种基于直方图匹配的自适应实例规一化语音转换方法，包括：S11.将源语音和目标语音分别输入至编码器中进行编码处理，分别得到语音内容信息和说话人信息；S12.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理；S13.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码，得到解码后的转换语音；S14.将解码后的转换语音输入直方图匹配算法中进行处理，得到最终转换后的语音。本发明将语音的内容信息与说话人信息分开处理，并用直方图进行匹配优化，从而达到训练一个模型完成一对多的语音转换的目的。

Description

一种基于直方图匹配的自适应实例规一化语音转换方法

技术领域

本发明涉及语言转化技术领域，尤其涉及一种基于直方图匹配的自适应实例规一化语音转换方法。

背景技术

语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息，同时保持语音内容不变，简单地说就是将一个说话人(称之为源)的声音，通过某种手段进行变换，使其听起来仿佛是另一个说话人(称之为目标)说的话。语音转换属于交叉性的学科分支，其内容既涉及到语音学、语义学及心理声学等领域的知识，又涵盖语音信号处理领域的各个方面，如语音的分析与合成、说话人识别、语音编码和增强等。现阶段，语音转换技术在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。目前，语音转换可以大致分为两类，一类是受监督的，另一类是无监督的。受监督的语音转换已经取得了较好的成果，但是需要源语音与目标语音之间相应语音帧对齐，如果源语音与目标语音之间有巨大差异，就无法达到较好的转换效果，这也限制了其应用推广。

如公开号为CN102737628A的专利公开了一种基于LPC及RBF神经网络的声音转换的方法，包括以下步骤：A、对语音进行预处理；B、对浊音帧进行基频检测；C、对基频检测后的浊音帧进行转换；D、对转换后的基频进行浊音帧参量的提取；E、对提取到的浊音帧参量进行计算，求得一帧浊音帧，然后对该一帧浊音帧进行合成，得到转换后的浊音帧。上述申请提出了一种高质量、计算量适中的语音转换技术方案，但其不足之处在于：该申请案的一种基于LPC及RBF神经网络的声音转换的方法，将待转换语音分解成清音和浊音，又将浊音分成基频、能量、LPC及LSF系数进行语音转换，增加了能量的测量，增大了测量难度和误差，易造成转换后的语音质量不理想的问题。

针对上述技术问题，本发明提出一种基于直方图匹配的自适应实例规一化语音转换方法来解决上述问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于直方图匹配的自适应实例规一化语音转换方法。

为了实现以上目的，本发明采用以下技术方案：

一种基于直方图匹配的自适应实例规一化语音转换方法，包括：

S1.将源语音和目标语音分别输入至编码器中进行编码处理，分别得到语音内容信息和说话人信息；

S2.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理；

S3.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码，得到解码后的转换语音；

S4.将解码后的转换语音输入直方图匹配算法中进行处理，得到最终转换后的语音。

进一步的，所述步骤S1中编码器包括内容编码器和说话人编码器。

进一步的，所述步骤S1具体为将源语音输入至内容编码器中进行编码处理，得到语音内容信息；将目标语音输入至说话人编码器中进行编码处理，得到说话人信息。

进一步的，所述步骤S2中进行均值和方差的对齐处理是对输入的语音内容信息进行均值和方差的对齐处理，以匹配说话人信息的均值和方差。

进一步的，所述步骤S2中对输入的语音内容信息进行均值和方差的对齐处理，表示为：

其中，μ(c)表示语音内容信息的均值；σ(c)表示语音内容信息的方差；M表示卷积层输出的特征映射；W表示维度。

进一步的，所述步骤S2中将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理，表示为：

其中，AdaIN(c，s)表示语音内容信息和说话人信息输入自适应实例规一化AdaIN进行处理的结果；σ(c)表示语音内容信息的方差；μ(c)表示语音内容信息的均值；σ(s)表示说话人信息的方差；μ(s)表示说话人信息的均值。

进一步的，所述步骤S3中得到解码后的转换语音后还包括分别计算语音内容信息的损失和说话人信息的损失。

进一步的，所述步骤S2之前还包括：

将说话人信息通过残差深度神经网络DNN进行处理。

进一步的，所述步骤S4中进行处理是通过计算目标语音与直方图匹配算法之间的欧氏距离，得到直方图损失。

进一步的，所述步骤S4中进行处理后还包括将语音内容信息的损失、说话人信息的损失、直方图损失进行转换，得到最终转换后的语音。

与现有技术相比，本发明具有以下优点：

(1)通过AdaIN层的应用，可以将语音的内容信息与身份信息分开进行处理，并且可以实现无监督的语音转换，从而解决了需要大量并行数据的弊端，使语音转换的应用范围更加广泛与灵活。

(2)本算法在训练过程中不需要说话人标签，使得数据收集十分容易，并且即使不提供说话人标签，说话人编码器也可以自动学习有意义的说话人嵌入，从而可以实现只训练一个模型即可完成一对多的语音转换。

(3)通过直方图进行匹配，很大程度上提高了转换系统与转换语音的性能，因为直方图包含更多与语音相关的有效统计信息，故以此为驱动转换得到的语音在自然度与流畅性方面质量更好。

附图说明

图1是实施例一提供的一种基于直方图匹配的自适应实例规一化语音转换方法流程图；

图2是实施例一提供的一种基于直方图匹配的自适应实例规一化语音转换方法框架结构图；

图3是实施例一提供的内容编码器结构图。

图4是实施例一提供的说话人编码器结构图；

图5是实施例一提供的解码器结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明将语音的内容信息与说话人信息分开处理，并用直方图进行匹配优化，从而达到训练一个模型完成一对多的语音转换的目的。将源语音和目标语音作为输入，进行编码处理之后由AdaIN层进行均值和方差的对齐。在此过程中，可能会丢失与语音相关的其他统计信息，因此用直方图匹配损失函数来捕获更多的信息。通过直方图匹配的AdaIN层可以更加有效地匹配内容信息与身份信息。

实施例一

本实施例提供一种基于直方图匹配的自适应实例规一化语音转换方法，如图1-2所示，包括步骤：

S11.将源语音和目标语音分别输入至编码器中进行编码处理，分别得到语音内容信息和说话人信息；

S12.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理；

S13.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码，得到解码后的转换语音；

S14.将解码后的转换语音输入直方图匹配算法中进行处理，得到最终转换后的语音。

在步骤S11中，将源语音和目标语音分别输入至编码器中进行编码处理，分别得到语音内容信息和说话人信息。其中，编码器包括内容编码器和说话人编码器。

在内容编码器中使用Conv 1d层来处理所有的频率信息，并通过ConvBank层来捕获长期信息。具体为将源语音X输入至内容编码器中，在内容编码器输出端得到语音内容信息C。其中内容编码器的结构如图3所示。

在说话人编码器中同样使用Conv 1d层来处理频率信息，并通过ConvBank层来捕获长期信息，并且由于平均池化信息的应用使得说话人编码器只学习全局信息。具体为将目标语音Y输入至说话人编码器中，在说话人编码器输出端得到说话人信息S。其中说话人编码器的结构如图4所示。

在步骤S12中，将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理。

在本实施例中，在步骤S12之前还包括将说话人信息S输入至自适应实例规一化AdaIN中之前要先经过一个残差深度神经网络(Deep Neural Network,DNN)进行处理，再将经过DNN处理后的说话人信息S输入至自适应实例规一化AdaIN中。

AdaIN接收输入的语音内容信息C和说话人信息S，并通过AdaIN对输入的语音内容信息C进行均值和方差的对齐处理，以匹配说话人信息S的均值和方差。AdaIN具有学习训练映射参数的能力，即它能够根据说话人输入自适应地计算参数。

为了应用AdaIN，需要对输入的语音内容信息进行均值和方差的对齐处理，表示为：

由此得到AdaIN的定义，即将语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理，表示为：

在步骤S13中，将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码，得到解码后的转换语音。

解码器在编码器的基础上增加PixelShuffle 1d层进行采样。解码器的输入分别为经过AdaIN处理的说话人信息S和语音内容信息C。其中解码器的结构如图5所示。

在本实施例中，得到解码后的转换语音后还包括分别计算语音内容信息的损失和说话人信息的损失。

在步骤S14中，将解码后的转换语音输入直方图匹配算法中进行处理，得到最终转换后的语音。

本发实施例中的语音转换由直方图进行匹配，从而构成自适应系统。但是由于AdaIN层只考虑了均值与方差，但是影响语音的参数有很多，而直方图包含了很多其他相关参数，故用其进行匹配可以很大程度上优化语音转换系统。鉴于AdaIN层与直方图的使用，则需计算相关的重建损失与直方图损失。当损失达到最小时，完成语音的转换，从而达到转换语音最优化的目的。

其中直方图损失是通过计算目标语音与直方图匹配算法之间的欧氏距离，最后得到直方图损失。

当计算得到语音内容信息的损失、说话人信息的损失、直方图损失后，将语音内容信息的损失、说话人信息的损失、直方图损失进行转换，得到最终转换后的语音。

本实施例语音转换方法步骤S11-S14的具体过程如下：

(1)分别对内容编码器和说话人编码器进行设置。

在内容编码器中使用Conv 1d层来处理所有的频率信息，并通过ConvBank层来捕获长期信息。输入源语音X可以在编码器输出端得到内容的表示C。

在说话人编码器中同样使用Conv 1d层来处理频率信息，ConvBank层来捕获长期信息，并且由于平均池信息的应用使得说话人编码器只学习全局信息。输入目标语音Y，即可在输出端得到说话人信息S。

(2)编码器f分别对输入的语音进行处理，经过训练的内容编码器将源说话人的语音内容信息C进行编码得到输出序列f(c)，经过训练的说话人编码器将说话人信息S进行编码得到输出序列f(s)；

(3)在特征空间对语音内容信息C与说话人信息S进行编码后，利用得到的输出序列f(c)和f(s)，在AdaIN层将语音内容信息特征映射与说话人信息特征映射的均值和方差对齐，从而得到目标语音特征映射t，即：

t＝AdaIN(f(c),f(s))

(4)对解码器g进行相应设置，解码器在编码器的基础上增加PixelShuffle1d层进行上采样，并进行随机初始化。将经过AdaIN处理的说话人表示S和内容表示C作为解码器输入，可将t映射回语音空间，生成转换后的语音T，即：

T(c,s)＝g(t)

(5)计算出重建的语音内容信息损失与说话人信息损失，从而训练解码器。计算目标语音的特征与输出语音的特征之间的欧氏距离得到语音内容信息损失与说话人信息损失。

语音内容信息损失是目标语音的特征与输出语音内容信息的特征之间的欧氏距离。本实施例使用AdaIN层输出t作为内容目标，即：

L_c＝||f(g(t)-t)||

因为AdaIN层只转换了均值和方差，所以说话人信息损失也只包含均值和方差，即：

其中，l取决于说话人编码器中的ReLU层。

(6)利用直方图进行统计信息匹配时，首先需要根据值从输出特征值中找出

与

从而确定直方图间隔Delta，即：

为了更好地进行直方图匹配，必须首先对输入说话人语音S和输出T_ij进行归一化。然后，本实施例将它们匹配以获得重新映射的输出H(T_ij)，并对每个特征重复此过程。然后计算原始输出T_ij与重新映射的一个H(T_ij)之间的欧式距离，以获得直方图匹配损失函数，即：

其中，T_ij是卷积层i的输出，j和H(T_ij)是直方图重新映射的输出。

(7)总体的AdaIN损失为：

L＝L_s+L_c+L_h

整个方法中的损失函数是由语音内容信息损失L_C、说话人信息损失L_S以及直方图损失L_h构成，从而可以找到转化的最优匹配进行转换，达到生成高质量转换语音的目的。

与现有技术相比，本发明具有以下优点：

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，包括：

2.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S1中编码器包括内容编码器和说话人编码器。

3.根据权利要求2所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S1具体为将源语音输入至内容编码器中进行编码处理，得到语音内容信息；将目标语音输入至说话人编码器中进行编码处理，得到说话人信息。

4.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S2中进行均值和方差的对齐处理是对输入的语音内容信息进行均值和方差的对齐处理，以匹配说话人信息的均值和方差。

5.根据权利要求4所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S2中对输入的语音内容信息进行均值和方差的对齐处理，表示为：

6.根据权利要求5所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S2中将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理，表示为：

7.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S3中得到解码后的转换语音后还包括分别计算语音内容信息的损失和说话人信息的损失。

8.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S2之前还包括：

将说话人信息通过残差深度神经网络DNN进行处理。

9.根据权利要求7所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S4中进行处理是通过计算目标语音与直方图匹配算法之间的欧氏距离，得到直方图损失。

10.根据权利要求9所述的一种基于直方图匹配的自适应实例规一化语音转换方法，其特征在于，所述步骤S4中进行处理后还包括将语音内容信息的损失、说话人信息的损失、直方图损失进行转换，得到最终转换后的语音。