CN110189766B

CN110189766B - 一种基于神经网络的语音风格转移方法

Info

Publication number: CN110189766B
Application number: CN201910513258.4A
Authority: CN
Inventors: 龙强; 孙紫仪
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2021-04-06
Anticipated expiration: 2039-06-14
Also published as: CN110189766A

Abstract

本发明公开了一种基于神经网络的语音风格转移方法，类比已有的图像风格转移模型，对语音信号数据进行2维声谱图提取，并将图像的神经风格转移原理应用到内容语音、风格语音、初始生成语音的2维声谱图上，最终，得到了简洁、实用的基于卷积神经网络的语音风格转移模型，并通过该模型提取对应的特征生成了具有内容语音内容和风格语音风格的目标生成语音，实现过程简单且风格转移效果好。

Description

一种基于神经网络的语音风格转移方法

技术领域

本发明属于语音信号处理技术领域，具体涉及一种基于神经网络的语音风格转移方法。

背景技术

语音转换是语音信号处理领域的重要分支之一，语音转换(Voice Conversion，VC)是指改变源说话人(Source Speaker)的语音风格特征，使其转换为带有目标说话人(Target Speaker)风格特征的语音，而保持源说话人的语义信息不变。语音风格转移可以实际应用到通信、医疗、娱乐等领域中。

在现有的相关语音风格转移方法中，Abe等人提出基于矢量量化(VectorQuantization，VQ)和码本映射的语音风格转移方法。将原始、风格语音的谱包络特性参数通过矢量量化划分为一系列码本，通过建立其两者的映射关系，从而实现语音的风格转移。该方法简单易行，但转换后的语音音质较差，存在不连续、停断等现象。Savic等人基于Abe的研究方法提出将码本映射改进成神经网络，使得转换后的语音质量有了较大提高。这是首次把人工神经网络模型应用在语音风格转移研究上并且取得了一定突破。随后，基于神经网络的语音风格转移研究成为主流研究方向。Kim等人基于隐马尔可夫模型(HiddenMarkov Model，HMM)实现了对说话人语音信号的动态特性转换。但是该隐马尔可夫模型中的混合激励模型中的参数利用了经验值估测的方法，会使生成的参数不够精确，最终导致语音信号的相似度以及自然度降低。Stylianou首次提出基于高斯混合模型(GMM，GaussianMixture Model)实现语音信号频谱包络特性参数的转换模型，该方法虽然可以有效避免传统矢量量化法带来的语音信号不连续、停断等现象，但是由于其凭借平均统计原理，从而会使转换后语音信号的共振峰产生过度平滑的疑难。

由以上参考文献可知，基于神经网络的语音风格转移研究在性能和稳定性方面都有较大提高，但是在神经网络的训练阶段，训练数据制作与获取的较大难度给语音风格转移研究带来了一定的阻碍。因此，本发明将借鉴图像相对完善的风格转移研究，从而对语音的风格转移研究进行相应的探索与研究。

发明内容

针对现有技术中的上述不足，本发明提供的基于神经网络的语音风格转移方法解决了现有的语音风格转移方法中涉及的语音风格转移模型需要大量的训练数据，训练数据不容易获取，且语音风格转移效果不理想的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于神经网络的语音风格转移方法，包括以下步骤：

S1、构建语音风格转移神经网络模型；

S2、分别获取内容语音信号和风格语音信号，并随机生成初始生成语音信号；

S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图，并分别输入到训练好的语音风格转移神经网络模型中；

S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整，并确定内容损失函数；

根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整，并确定风格损失函数；

S5、根据内容损失函数和风格损失函数确定总损失函数；

S6、最小化总损失函数，并通过梯度下降法迭代得到目标生成语音的声谱图；

S7、根据目标生成语音的声谱图生成风格化的语音信号，实现语音风格转移。

进一步地，所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层；

所述第一卷积层包括96个大小为11×11×3的滤波器，步长为4，padding为0，通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射；

所述第一池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第一池化层运算后得到大小为27×27×96的特征映射；

所述第二卷积层包括256个大小为5×5×96的滤波器，步长为1，通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射；

所述第二池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第二池化层运算后得到大小为13×13×256的特征映射；

所述第三卷积层包括384个大小为3×3×256的滤波器，步长为1，通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射；

所述第四卷积层包括384个大小为3×3×384的滤波器，步长为1，通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射；

所述第五卷积层包括256个大小为3×3×384的滤波器，步长为1，通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射；

所述第三池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第三池化层运算后得到大小为6×6×256的特征映射；

所述第一全连接层将9216个神经元与4096个神经元相连；

所述第二全连接层将4096个神经元与4096个神经元相连；

所述第三全连接层将4096个神经元与损失函数softmax相连。

进一步地，所述步骤S3中，对语音信号生成对应的声谱图的方法具体为：

A1、对语音信号进行分帧操作；

A2、对每帧语音信号进行短时快速傅里叶变换，得到每帧语音信号对应的频谱曲线；

A3、将频谱曲线旋转90度后，并将曲线中的振幅幅度映射到范围为0～255的灰度级上，得到对应的声谱图。

进一步地，所述步骤S4中，确定内容损失函数的方法具体为：

B1、通过语音风格转移神经网络模型提取内容语音信号声谱图

在高层特征映射的特征，并将其作为初始生成语音信号声谱图

的内容特征，对初始生成语音信号的声谱图的内容特征进行调整；

B2、将内容语音信号声谱图

和初始生成语音信号声谱图

在高层l层对应激活值的平方误差和作为内容损失函数

其中，内容损失函数

为：

式中，

为内容语音信号声谱图在高层l层特征映射中的激活值；

为生成语音信号声谱图在高层l层特征映射中的激活值；

||·||为求解向量范数的运算符；

n_H为声谱图特征映射的高度；

n_W为声谱图特征映射的宽度；

n_C为声谱图特征映射的通道数；

为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值；

为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值；

其中，i＝1,2,...,n_H,j＝1,2,...,n_W,k＝1,2,...,n_C。

进一步地，所述步骤S4中确定风格损失函数的方法具体为：

C1、通过语音风格转移神经网络模型提取风格语音信号声谱图

在多层低层特征映射的特征，并将其作为初始生成语音信号声谱图

的风格特征，对初始生成语音信号的声谱图的风格特征进行调整；

C2、分别确定风格语音信号声谱图

的风格矩阵

和目标生成语音信号声谱图的风格矩阵

其中，风格语音信号声谱图

的风格矩阵

在位置(k,k')处的元素值具体为：

式中，

为声谱图中l层特征映射的高度；

为声谱图中l层特征映射的宽度；

和

分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值；

目标生成语音信号声谱图

的风格矩阵

在位置(k,k')处的元素值具体为：

式中，

和

分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值；

C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数E_l为：

式中，

为l层特征映射的通道数；

C4、根据第l层特征映射的风格损失函数E_l，确定所有低层特征映射风格损失函数的加权和，即为风格损失函数；

其中，风格损失函数为

式中，l为低层特征映射的层数。

进一步地，所述步骤S5中的总损失函数

为：

式中，α为内容损失函数的权重；

β为风格损失函数的权重。

进一步地，所述步骤S3中，所述内容语音信号包括至少三个不同说话人的相同内容的语音信号，且均生成对应的声谱图输入到语音风格转移神经网络模型中；

风格语音信号包括至少一个说话人的不同内容的语音信号，且均生成对应的声谱图输入到语音风格转移神经网络模型中。

本发明的有益效果为：

(1)类比已有的图像风格转移模型，对语音信号数据进行2维声谱图提取，并将图像的神经风格转移原理应用到内容语音、风格语音、生成语音的2维声谱图上，最终，得到了简洁、实用的基于卷积神经网络的语音风格转移模型。

(2)为了强化内容语音中的内容信息、风格语音中的风格信息，采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入；与此同时，利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧，从而抹去内容语音中3个不同说话人的风格特性，保留内容信息；抹去风格语音中同一个说话人语音中的内容信息，保留该说话人的风格特性；使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。

附图说明

图1为本发明中基于神经网络的语音风格转移方法实现流程图。

图2为本发明中语音风格转移神经网络模型结构图。

图3为本发明中语音信号转换成对应声谱图的过程示意图。

图4为本发明中声谱图第l层特征映射示意图。

图5为本发明中声谱图风格矩阵计算过程示意图。

图6为本发明提供的实施例子中3段内容语音与3段风格语音的匹配示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于神经网络的语音风格转移方法，其特征在于，包括以下步骤：

S1、构建语音风格转移神经网络模型；

S5、根据内容损失函数和风格损失函数确定总损失函数；

上述步骤S1中的语音风格转移神经网络模型结构如图2所示，包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层；

第一卷积层包括96个大小为11×11×3的滤波器，步长为4，padding为0，通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射；

第一池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第一池化层运算后得到大小为27×27×96的特征映射；

第二卷积层包括256个大小为5×5×96的滤波器，步长为1，通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射；为了得到与上一层宽、高相同的特征映射而加入padding，这样的卷积称为Same Convolution；

第二池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第二池化层运算后得到大小为13×13×256的特征映射；

第三卷积层包括384个大小为3×3×256的滤波器，步长为1，通过第三卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射；

第四卷积层包括384个大小为3×3×384的滤波器，步长为1，通过第四卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射；

第五卷积层包括256个大小为3×3×384的滤波器，步长为1，通过第五卷积层的Same Convolution卷积运算后得到大小为13×13×256的特征映射

第三池化层为Max pooling，下采样区域大小为3×3，步长为2，padding为0，通过第三池化层运算后得到大小为6×6×256的特征映射；

第一全连接层将9216个神经元与4096个神经元相连；

第二全连接层将4096个神经元与4096个神经元相连；

第三全连接层将4096个神经元与损失函数softmax相连。

上述卷积神经网络模型的本质是对图像特征进行逐层提取，当经过卷积层、池化层、全连接层等网络层的一层层提取之后，图像的特征信息变得越来越抽象和高级，即卷积神经网络中低层的滤波器倾向于提取图片的边缘、边角、颜色或纹理等低级语义特征信息，高层的滤波器则倾向于提取图片的内容、物体类别以及布局等高级语义特征信息。

上述步骤S3中，对语音信号生成对应的声谱图的方法具体为：

A1、对语音信号进行分帧操作；

如图3所示展示了由语音信号到声谱图的转换过程。

上述步骤S4中，确定内容损失函数的方法具体为：

如图4所示展示了声谱图第l层的特征映射示意图。

B2、将内容语音信号声谱图

和初始生成语音信号声谱图

在高层l层对应激活值的平方误差和作为内容损失函数

其中，内容损失函数

为：

式中，

为内容语音信号声谱图在高层l层特征映射中的激活值；

为生成语音信号声谱图在高层l层特征映射中的激活值；

||·||为求解向量范数的运算符；

n_H为声谱图特征映射的高度；

n_W为声谱图特征映射的宽度；

n_C为声谱图特征映射的通道数；

其中，i＝1,2,...,n_H,j＝1,2,...,n_W,k＝1,2,...,n_C。

内容损失函数衡量了内容语音信号声谱图和生成语音信号声谱图在估计、布局等内容特征上的相似程度。

上述步骤S4中确定风格损失函数的方法具体为：

中在多层低层特征映射的特征，并将其作为初始生成语音信号声谱图

C2、分别确定风格语音信号声谱图

的风格矩阵

和目标生成语音信号声谱图的风格矩阵

其中，风格语音信号声谱图

的风格矩阵

在位置(k,k')处的元素值具体为：

式中，

为声谱图中l层特征映射的高度；

为声谱图中l层特征映射的宽度；

和

目标生成语音信号声谱图

的风格矩阵

在位置(k,k')处的元素值具体为：

式中，

和

如图5展示了声谱图的风格矩阵计算过程示意。

式中，

为l层特征映射的通道数；

其中，风格损失函数为

式中，l为特征层的层数。

上述步骤S5中的总损失函数

为：

式中，α为内容损失函数的权重；

β为风格损失函数的权重。

上述步骤S3中，为了强化目标生成语音信号有关内容的特征信息和有关风格的特征信息，内容语音信号包括至少三个不同说话人的相同内容的语音信号，且均生成对应的声谱图输入到语音风格转移神经网络模型中；从而抹去说话人的风格特性，保留内容特征信息；

风格语音信号包括至少一个说话人的不同内容的语音信号，且均生成对应的声谱图输入到语音风格转移神经网络模型中；从而抹去说话人语音的内容特征信息，保留该说话人的风格特性。

在本发明的一个实施例中，提供了通过本发明方法实现语音风格转移的实例：

将若干内容语音(其语音内容相同、语音风格不同)与不同的风格语音(其语音风格相同、语音内容不同)进行不同的组合配对作为模型的输入，从而对实验结果进行对比分析。因此，本实施例对三段原始内容语音材料与三段原始风格语音材料进行两两匹配，可以得到9种组合方式，具体组合方式可见图6所示：

然后，将上述9种组合方式依次输入到本发明中的语音风格转移模型中，可以得到9种组合方式中内容语音、风格语音的声谱图，以及由模型运行得到的生成语音的.wav音频文件和其声谱图。

在同一内容语音的条件下，将其与不同的风格语音进行配对，作为模型的输入，可以探索内容语音与哪一个风格语音作为模型的输入，得到的生成语音更具有优势性。

上述实验的9种组合方式，在经过基于卷积神经网络的语音风格转移模型实验之后，得到了9段生成语音以及相应的2维声谱图。从生成语音的音频文件进行分析，可以主观地听出：9段生成语音中的语音内容均与对应的内容语音输入相同，也就是：“Einstein'stheory of relativity is E equals M C squared”；在内容语音输入相同，风格语音输入不同的条件下，得到的生成语音具有细微差别，比如，语音时长不一样，音色有细微更改；在风格语音输入相同，内容语音输入不同的条件下，得到的生成语音，其语音内容与内容语音输入相同，其语音风格模仿了风格语音一定的风格。从生成语音的2维声谱图进行分析，可以客观地观察出：每张生成语音的2维声谱图在结构上与对应内容语音的2维声谱图是基本一致的，但是在图像纹理上，或者说在沿频率轴的间隙大小上，生成语音的2维声谱图更接近于对应风格语音的2维声谱图。

本发明的有益效果为：

(2)为了强化内容语音中的内容信息、风格语音中的风格信息，采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入；与此同时，利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧，从而抹去内容语音中3个不同说话人的风格特性，保留内容信息；抹去风格语音中同一个说话人语音的内容信息，保留该说话人的风格特性；使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。