CN110189766A - 一种基于神经网络的语音风格转移方法 - Google Patents

一种基于神经网络的语音风格转移方法 Download PDF

Info

Publication number
CN110189766A
CN110189766A CN201910513258.4A CN201910513258A CN110189766A CN 110189766 A CN110189766 A CN 110189766A CN 201910513258 A CN201910513258 A CN 201910513258A CN 110189766 A CN110189766 A CN 110189766A
Authority
CN
China
Prior art keywords
style
sonograph
voice signal
voice
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910513258.4A
Other languages
English (en)
Other versions
CN110189766B (zh
Inventor
龙强
孙紫仪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN201910513258.4A priority Critical patent/CN110189766B/zh
Publication of CN110189766A publication Critical patent/CN110189766A/zh
Application granted granted Critical
Publication of CN110189766B publication Critical patent/CN110189766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

本发明公开了一种基于神经网络的语音风格转移方法,类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、初始生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型,并通过该模型提取对应的特征生成了具有内容语音内容和风格语音风格的目标生成语音,实现过程简单且风格转移效果好。

Description

一种基于神经网络的语音风格转移方法
技术领域
本发明属于语音信号处理技术领域,具体涉及一种基于神经网络的语音风格转移方法。
背景技术
语音转换是语音信号处理领域的重要分支之一,语音转换(Voice Conversion,VC)是指改变源说话人(Source Speaker)的语音风格特征,使其转换为带有目标说话人(Target Speaker)风格特征的语音,而保持源说话人的语义信息不变。语音风格转移可以实际应用到通信、医疗、娱乐等领域中。
在现有的相关语音风格转移方法中,Abe等人提出基于矢量量化(VectorQuantization,VQ)和码本映射的语音风格转移方法。将原始、风格语音的谱包络特性参数通过矢量量化划分为一系列码本,通过建立其两者的映射关系,从而实现语音的风格转移。该方法简单易行,但转换后的语音音质较差,存在不连续、停断等现象。Savic等人基于Abe的研究方法提出将码本映射改进成神经网络,使得转换后的语音质量有了较大提高。这是首次把人工神经网络模型应用在语音风格转移研究上并且取得了一定突破。随后,基于神经网络的语音风格转移研究成为主流研究方向。Kim等人基于隐马尔可夫模型(HiddenMarkov Model,HMM)实现了对说话人语音信号的动态特性转换。但是该隐马尔可夫模型中的混合激励模型中的参数利用了经验值估测的方法,会使生成的参数不够精确,最终导致语音信号的相似度以及自然度降低。Stylianou首次提出基于高斯混合模型(GMM,GaussianMixture Model)实现语音信号频谱包络特性参数的转换模型,该方法虽然可以有效避免传统矢量量化法带来的语音信号不连续、停断等现象,但是由于其凭借平均统计原理,从而会使转换后语音信号的共振峰产生过度平滑的疑难。
由以上参考文献可知,基于神经网络的语音风格转移研究在性能和稳定性方面都有较大提高,但是在神经网络的训练阶段,训练数据制作与获取的较大难度给语音风格转移研究带来了一定的阻碍。因此,本发明将借鉴图像相对完善的风格转移研究,从而对语音的风格转移研究进行相应的探索与研究。
发明内容
针对现有技术中的上述不足,本发明提供的基于神经网络的语音风格转移方法解决了现有的语音风格转移方法中涉及的语音风格转移模型需要大量的训练数据,训练数据不容易获取,且语音风格转移效果不理想的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于神经网络的语音风格转移方法,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
进一步地,所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
所述第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
所述第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
所述第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;
所述第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
所述第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射;
所述第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
所述第一全连接层将9216个神经元与4096个神经元相连;
所述第二全连接层将4096个神经元与4096个神经元相连;
所述第三全连接层将4096个神经元与损失函数softmax相连。
进一步地,所述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
进一步地,所述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图在高层特征映射的特征,并将其作为初始生成语音信号声谱图的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
B2、将内容语音信号声谱图和初始生成语音信号声谱图在高层l层对应激活值的平方误差和作为内容损失函数
其中,内容损失函数为:
式中,为内容语音信号声谱图在高层l层特征映射中的激活值;
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC
进一步地,所述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图的风格矩阵和目标生成语音信号声谱图的风格矩阵
其中,风格语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,为声谱图中l层特征映射的高度;
为声谱图中l层特征映射的宽度;
分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
式中,为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
式中,l为低层特征映射的层数。
进一步地,所述步骤S5中的总损失函数为:
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
进一步地,所述步骤S3中,所述内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中。
本发明的有益效果为:
(1)类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型。
(2)为了强化内容语音中的内容信息、风格语音中的风格信息,采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入;与此同时,利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧,从而抹去内容语音中3个不同说话人的风格特性,保留内容信息;抹去风格语音中同一个说话人语音中的内容信息,保留该说话人的风格特性;使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。
附图说明
图1为本发明中基于神经网络的语音风格转移方法实现流程图。
图2为本发明中语音风格转移神经网络模型结构图。
图3为本发明中语音信号转换成对应声谱图的过程示意图。
图4为本发明中声谱图第l层特征映射示意图。
图5为本发明中声谱图风格矩阵计算过程示意图。
图6为本发明提供的实施例子中3段内容语音与3段风格语音的匹配示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
上述步骤S1中的语音风格转移神经网络模型结构如图2所示,包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;为了得到与上一层宽、高相同的特征映射而加入padding,这样的卷积称为Same Convolution;
第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射;
第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射;
第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的Same Convolution卷积运算后得到大小为13×13×256的特征映射
第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
第一全连接层将9216个神经元与4096个神经元相连;
第二全连接层将4096个神经元与4096个神经元相连;
第三全连接层将4096个神经元与损失函数softmax相连。
上述卷积神经网络模型的本质是对图像特征进行逐层提取,当经过卷积层、池化层、全连接层等网络层的一层层提取之后,图像的特征信息变得越来越抽象和高级,即卷积神经网络中低层的滤波器倾向于提取图片的边缘、边角、颜色或纹理等低级语义特征信息,高层的滤波器则倾向于提取图片的内容、物体类别以及布局等高级语义特征信息。
上述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
如图3所示展示了由语音信号到声谱图的转换过程。
上述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图在高层特征映射的特征,并将其作为初始生成语音信号声谱图的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
如图4所示展示了声谱图第l层的特征映射示意图。
B2、将内容语音信号声谱图和初始生成语音信号声谱图在高层l层对应激活值的平方误差和作为内容损失函数
其中,内容损失函数为:
式中,为内容语音信号声谱图在高层l层特征映射中的激活值;
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC
内容损失函数衡量了内容语音信号声谱图和生成语音信号声谱图在估计、布局等内容特征上的相似程度。
上述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图中在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图的风格矩阵和目标生成语音信号声谱图的风格矩阵
其中,风格语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,为声谱图中l层特征映射的高度;
为声谱图中l层特征映射的宽度;
分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
如图5展示了声谱图的风格矩阵计算过程示意。
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
式中,为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
式中,l为特征层的层数。
上述步骤S5中的总损失函数为:
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
上述步骤S3中,为了强化目标生成语音信号有关内容的特征信息和有关风格的特征信息,内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;从而抹去说话人的风格特性,保留内容特征信息;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;从而抹去说话人语音的内容特征信息,保留该说话人的风格特性。
在本发明的一个实施例中,提供了通过本发明方法实现语音风格转移的实例:
将若干内容语音(其语音内容相同、语音风格不同)与不同的风格语音(其语音风格相同、语音内容不同)进行不同的组合配对作为模型的输入,从而对实验结果进行对比分析。因此,本实施例对三段原始内容语音材料与三段原始风格语音材料进行两两匹配,可以得到9种组合方式,具体组合方式可见图6所示:
然后,将上述9种组合方式依次输入到本发明中的语音风格转移模型中,可以得到9种组合方式中内容语音、风格语音的声谱图,以及由模型运行得到的生成语音的.wav音频文件和其声谱图。
在同一内容语音的条件下,将其与不同的风格语音进行配对,作为模型的输入,可以探索内容语音与哪一个风格语音作为模型的输入,得到的生成语音更具有优势性。
上述实验的9种组合方式,在经过基于卷积神经网络的语音风格转移模型实验之后,得到了9段生成语音以及相应的2维声谱图。从生成语音的音频文件进行分析,可以主观地听出:9段生成语音中的语音内容均与对应的内容语音输入相同,也就是:“Einstein'stheory of relativity is E equals M C squared”;在内容语音输入相同,风格语音输入不同的条件下,得到的生成语音具有细微差别,比如,语音时长不一样,音色有细微更改;在风格语音输入相同,内容语音输入不同的条件下,得到的生成语音,其语音内容与内容语音输入相同,其语音风格模仿了风格语音一定的风格。从生成语音的2维声谱图进行分析,可以客观地观察出:每张生成语音的2维声谱图在结构上与对应内容语音的2维声谱图是基本一致的,但是在图像纹理上,或者说在沿频率轴的间隙大小上,生成语音的2维声谱图更接近于对应风格语音的2维声谱图。
本发明的有益效果为:
(1)类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型。
(2)为了强化内容语音中的内容信息、风格语音中的风格信息,采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入;与此同时,利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧,从而抹去内容语音中3个不同说话人的风格特性,保留内容信息;抹去风格语音中同一个说话人语音的内容信息,保留该说话人的风格特性;使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。

Claims (7)

1.一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
2.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
所述第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
所述第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
所述第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;
所述第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
所述第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射;
所述第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
所述第一全连接层将9216个神经元与4096个神经元相连;
所述第二全连接层将4096个神经元与4096个神经元相连;
所述第三全连接层将4096个神经元与损失函数softmax相连。
3.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
4.根据权利要求2所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图在高层特征映射的特征,并将其作为初始生成语音信号声谱图的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
B2、将内容语音信号声谱图和初始生成语音信号声谱图在高层l层对应激活值的平方误差和作为内容损失函数
其中,内容损失函数为:
式中,为内容语音信号声谱图在高层l层特征映射中的激活值;
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC
5.根据权利要求4所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图的风格矩阵和目标生成语音信号声谱图的风格矩阵
其中,风格语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,为声谱图中l层特征映射的高度;
为声谱图中l层特征映射的宽度;
分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图的风格矩阵在位置(k,k')处的元素值具体为:
式中,分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
式中,为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
式中,l为低层特征映射的层数。
6.根据权利要求5所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S5中的总损失函数为:
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
7.根据权利要求6所述基于神经网络的语音风格转移方法,其特征在于,所述步骤S3中,所述内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中。
CN201910513258.4A 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法 Active CN110189766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910513258.4A CN110189766B (zh) 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910513258.4A CN110189766B (zh) 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法

Publications (2)

Publication Number Publication Date
CN110189766A true CN110189766A (zh) 2019-08-30
CN110189766B CN110189766B (zh) 2021-04-06

Family

ID=67721746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910513258.4A Active CN110189766B (zh) 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法

Country Status (1)

Country Link
CN (1) CN110189766B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276119A (zh) * 2020-01-17 2020-06-12 平安科技(深圳)有限公司 语音生成方法、系统和计算机设备
CN111312267A (zh) * 2020-02-20 2020-06-19 广州市百果园信息技术有限公司 一种语音风格的转换方法、装置、设备和存储介质
CN111341294A (zh) * 2020-02-28 2020-06-26 电子科技大学 将文本转换为指定风格语音的方法
CN112037766A (zh) * 2020-09-09 2020-12-04 广州华多网络科技有限公司 一种语音音色转换方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
US20170148433A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Deployed end-to-end speech recognition
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
US20170148433A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Deployed end-to-end speech recognition
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨曼: "基于GMM和BP网络的语音转换系统设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276119A (zh) * 2020-01-17 2020-06-12 平安科技(深圳)有限公司 语音生成方法、系统和计算机设备
CN111276119B (zh) * 2020-01-17 2023-08-22 平安科技(深圳)有限公司 语音生成方法、系统和计算机设备
CN111312267A (zh) * 2020-02-20 2020-06-19 广州市百果园信息技术有限公司 一种语音风格的转换方法、装置、设备和存储介质
CN111312267B (zh) * 2020-02-20 2023-08-11 广州市百果园信息技术有限公司 一种语音风格的转换方法、装置、设备和存储介质
CN111341294A (zh) * 2020-02-28 2020-06-26 电子科技大学 将文本转换为指定风格语音的方法
CN111341294B (zh) * 2020-02-28 2023-04-18 电子科技大学 将文本转换为指定风格语音的方法
CN112037766A (zh) * 2020-09-09 2020-12-04 广州华多网络科技有限公司 一种语音音色转换方法及相关设备

Also Published As

Publication number Publication date
CN110189766B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN110189766A (zh) 一种基于神经网络的语音风格转移方法
CN104157290B (zh) 一种基于深度学习的说话人识别方法
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN109524020A (zh) 一种语音增强处理方法
CN109036465A (zh) 语音情感识别方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN109065072A (zh) 一种基于深度神经网络的语音质量客观评价方法
CN105957537A (zh) 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
CN106205623A (zh) 一种声音转换方法及装置
CN110047501B (zh) 基于beta-VAE的多对多语音转换方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN107967920A (zh) 一种改进的自编码神经网络语音增强算法
CN109767760A (zh) 基于振幅和相位信息的多目标学习的远场语音识别方法
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN108198566A (zh) 信息处理方法及装置、电子设备及存储介质
Zöhrer et al. Representation learning for single-channel source separation and bandwidth extension
CN110047504A (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN103413548B (zh) 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN103886859B (zh) 基于一对多码书映射的语音转换方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Liu et al. A novel unified framework for speech enhancement and bandwidth extension based on jointly trained neural networks
Zhou et al. Multimodal voice conversion under adverse environment using a deep convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant