CN110189766B - 一种基于神经网络的语音风格转移方法 - Google Patents

一种基于神经网络的语音风格转移方法 Download PDF

Info

Publication number
CN110189766B
CN110189766B CN201910513258.4A CN201910513258A CN110189766B CN 110189766 B CN110189766 B CN 110189766B CN 201910513258 A CN201910513258 A CN 201910513258A CN 110189766 B CN110189766 B CN 110189766B
Authority
CN
China
Prior art keywords
style
spectrogram
layer
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910513258.4A
Other languages
English (en)
Other versions
CN110189766A (zh
Inventor
龙强
孙紫仪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN201910513258.4A priority Critical patent/CN110189766B/zh
Publication of CN110189766A publication Critical patent/CN110189766A/zh
Application granted granted Critical
Publication of CN110189766B publication Critical patent/CN110189766B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种基于神经网络的语音风格转移方法,类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、初始生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型,并通过该模型提取对应的特征生成了具有内容语音内容和风格语音风格的目标生成语音,实现过程简单且风格转移效果好。

Description

一种基于神经网络的语音风格转移方法
技术领域
本发明属于语音信号处理技术领域,具体涉及一种基于神经网络的语音风格转移方法。
背景技术
语音转换是语音信号处理领域的重要分支之一,语音转换(Voice Conversion,VC)是指改变源说话人(Source Speaker)的语音风格特征,使其转换为带有目标说话人(Target Speaker)风格特征的语音,而保持源说话人的语义信息不变。语音风格转移可以实际应用到通信、医疗、娱乐等领域中。
在现有的相关语音风格转移方法中,Abe等人提出基于矢量量化(VectorQuantization,VQ)和码本映射的语音风格转移方法。将原始、风格语音的谱包络特性参数通过矢量量化划分为一系列码本,通过建立其两者的映射关系,从而实现语音的风格转移。该方法简单易行,但转换后的语音音质较差,存在不连续、停断等现象。Savic等人基于Abe的研究方法提出将码本映射改进成神经网络,使得转换后的语音质量有了较大提高。这是首次把人工神经网络模型应用在语音风格转移研究上并且取得了一定突破。随后,基于神经网络的语音风格转移研究成为主流研究方向。Kim等人基于隐马尔可夫模型(HiddenMarkov Model,HMM)实现了对说话人语音信号的动态特性转换。但是该隐马尔可夫模型中的混合激励模型中的参数利用了经验值估测的方法,会使生成的参数不够精确,最终导致语音信号的相似度以及自然度降低。Stylianou首次提出基于高斯混合模型(GMM,GaussianMixture Model)实现语音信号频谱包络特性参数的转换模型,该方法虽然可以有效避免传统矢量量化法带来的语音信号不连续、停断等现象,但是由于其凭借平均统计原理,从而会使转换后语音信号的共振峰产生过度平滑的疑难。
由以上参考文献可知,基于神经网络的语音风格转移研究在性能和稳定性方面都有较大提高,但是在神经网络的训练阶段,训练数据制作与获取的较大难度给语音风格转移研究带来了一定的阻碍。因此,本发明将借鉴图像相对完善的风格转移研究,从而对语音的风格转移研究进行相应的探索与研究。
发明内容
针对现有技术中的上述不足,本发明提供的基于神经网络的语音风格转移方法解决了现有的语音风格转移方法中涉及的语音风格转移模型需要大量的训练数据,训练数据不容易获取,且语音风格转移效果不理想的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于神经网络的语音风格转移方法,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
进一步地,所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
所述第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
所述第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
所述第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;
所述第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
所述第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射;
所述第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
所述第一全连接层将9216个神经元与4096个神经元相连;
所述第二全连接层将4096个神经元与4096个神经元相连;
所述第三全连接层将4096个神经元与损失函数softmax相连。
进一步地,所述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
进一步地,所述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图
Figure BDA0002094168360000041
在高层特征映射的特征,并将其作为初始生成语音信号声谱图
Figure BDA0002094168360000042
的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
B2、将内容语音信号声谱图
Figure BDA0002094168360000043
和初始生成语音信号声谱图
Figure BDA0002094168360000044
在高层l层对应激活值的平方误差和作为内容损失函数
Figure BDA0002094168360000045
其中,内容损失函数
Figure BDA0002094168360000046
为:
Figure BDA0002094168360000047
式中,
Figure BDA0002094168360000048
为内容语音信号声谱图在高层l层特征映射中的激活值;
Figure BDA0002094168360000049
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
Figure BDA0002094168360000051
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
Figure BDA0002094168360000052
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC
进一步地,所述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图
Figure BDA0002094168360000053
在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图
Figure BDA0002094168360000054
的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图
Figure BDA0002094168360000055
的风格矩阵
Figure BDA0002094168360000056
和目标生成语音信号声谱图的风格矩阵
Figure BDA0002094168360000057
其中,风格语音信号声谱图
Figure BDA0002094168360000058
的风格矩阵
Figure BDA0002094168360000059
在位置(k,k')处的元素值具体为:
Figure BDA00020941683600000510
式中,
Figure BDA00020941683600000511
为声谱图中l层特征映射的高度;
Figure BDA00020941683600000512
为声谱图中l层特征映射的宽度;
Figure BDA00020941683600000513
Figure BDA00020941683600000514
分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图
Figure BDA00020941683600000515
的风格矩阵
Figure BDA00020941683600000516
在位置(k,k')处的元素值具体为:
Figure BDA00020941683600000517
式中,
Figure BDA00020941683600000518
Figure BDA00020941683600000519
分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
Figure BDA0002094168360000061
式中,
Figure BDA0002094168360000062
为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
Figure BDA0002094168360000063
Figure BDA0002094168360000064
式中,l为低层特征映射的层数。
进一步地,所述步骤S5中的总损失函数
Figure BDA0002094168360000065
为:
Figure BDA0002094168360000066
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
进一步地,所述步骤S3中,所述内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中。
本发明的有益效果为:
(1)类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型。
(2)为了强化内容语音中的内容信息、风格语音中的风格信息,采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入;与此同时,利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧,从而抹去内容语音中3个不同说话人的风格特性,保留内容信息;抹去风格语音中同一个说话人语音中的内容信息,保留该说话人的风格特性;使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。
附图说明
图1为本发明中基于神经网络的语音风格转移方法实现流程图。
图2为本发明中语音风格转移神经网络模型结构图。
图3为本发明中语音信号转换成对应声谱图的过程示意图。
图4为本发明中声谱图第l层特征映射示意图。
图5为本发明中声谱图风格矩阵计算过程示意图。
图6为本发明提供的实施例子中3段内容语音与3段风格语音的匹配示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。
上述步骤S1中的语音风格转移神经网络模型结构如图2所示,包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;为了得到与上一层宽、高相同的特征映射而加入padding,这样的卷积称为Same Convolution;
第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射;
第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的Same Convolution卷积运算后得到大小为13×13×384的特征映射;
第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的Same Convolution卷积运算后得到大小为13×13×256的特征映射
第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
第一全连接层将9216个神经元与4096个神经元相连;
第二全连接层将4096个神经元与4096个神经元相连;
第三全连接层将4096个神经元与损失函数softmax相连。
上述卷积神经网络模型的本质是对图像特征进行逐层提取,当经过卷积层、池化层、全连接层等网络层的一层层提取之后,图像的特征信息变得越来越抽象和高级,即卷积神经网络中低层的滤波器倾向于提取图片的边缘、边角、颜色或纹理等低级语义特征信息,高层的滤波器则倾向于提取图片的内容、物体类别以及布局等高级语义特征信息。
上述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
如图3所示展示了由语音信号到声谱图的转换过程。
上述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图
Figure BDA0002094168360000101
在高层特征映射的特征,并将其作为初始生成语音信号声谱图
Figure BDA0002094168360000102
的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
如图4所示展示了声谱图第l层的特征映射示意图。
B2、将内容语音信号声谱图
Figure BDA0002094168360000103
和初始生成语音信号声谱图
Figure BDA0002094168360000104
在高层l层对应激活值的平方误差和作为内容损失函数
Figure BDA0002094168360000105
其中,内容损失函数
Figure BDA0002094168360000106
为:
Figure BDA0002094168360000107
式中,
Figure BDA0002094168360000108
为内容语音信号声谱图在高层l层特征映射中的激活值;
Figure BDA0002094168360000109
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
Figure BDA00020941683600001010
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
Figure BDA0002094168360000111
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC
内容损失函数衡量了内容语音信号声谱图和生成语音信号声谱图在估计、布局等内容特征上的相似程度。
上述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图
Figure BDA0002094168360000112
中在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图
Figure BDA0002094168360000113
的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图
Figure BDA0002094168360000114
的风格矩阵
Figure BDA0002094168360000115
和目标生成语音信号声谱图的风格矩阵
Figure BDA0002094168360000116
其中,风格语音信号声谱图
Figure BDA0002094168360000117
的风格矩阵
Figure BDA0002094168360000118
在位置(k,k')处的元素值具体为:
Figure BDA0002094168360000119
式中,
Figure BDA00020941683600001110
为声谱图中l层特征映射的高度;
Figure BDA00020941683600001111
为声谱图中l层特征映射的宽度;
Figure BDA00020941683600001112
Figure BDA00020941683600001113
分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图
Figure BDA00020941683600001114
的风格矩阵
Figure BDA00020941683600001115
在位置(k,k')处的元素值具体为:
Figure BDA00020941683600001116
式中,
Figure BDA00020941683600001117
Figure BDA00020941683600001118
分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
如图5展示了声谱图的风格矩阵计算过程示意。
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
Figure BDA0002094168360000121
式中,
Figure BDA0002094168360000122
为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
Figure BDA0002094168360000123
Figure BDA0002094168360000124
式中,l为特征层的层数。
上述步骤S5中的总损失函数
Figure BDA0002094168360000125
为:
Figure BDA0002094168360000126
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
上述步骤S3中,为了强化目标生成语音信号有关内容的特征信息和有关风格的特征信息,内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;从而抹去说话人的风格特性,保留内容特征信息;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;从而抹去说话人语音的内容特征信息,保留该说话人的风格特性。
在本发明的一个实施例中,提供了通过本发明方法实现语音风格转移的实例:
将若干内容语音(其语音内容相同、语音风格不同)与不同的风格语音(其语音风格相同、语音内容不同)进行不同的组合配对作为模型的输入,从而对实验结果进行对比分析。因此,本实施例对三段原始内容语音材料与三段原始风格语音材料进行两两匹配,可以得到9种组合方式,具体组合方式可见图6所示:
然后,将上述9种组合方式依次输入到本发明中的语音风格转移模型中,可以得到9种组合方式中内容语音、风格语音的声谱图,以及由模型运行得到的生成语音的.wav音频文件和其声谱图。
在同一内容语音的条件下,将其与不同的风格语音进行配对,作为模型的输入,可以探索内容语音与哪一个风格语音作为模型的输入,得到的生成语音更具有优势性。
上述实验的9种组合方式,在经过基于卷积神经网络的语音风格转移模型实验之后,得到了9段生成语音以及相应的2维声谱图。从生成语音的音频文件进行分析,可以主观地听出:9段生成语音中的语音内容均与对应的内容语音输入相同,也就是:“Einstein'stheory of relativity is E equals M C squared”;在内容语音输入相同,风格语音输入不同的条件下,得到的生成语音具有细微差别,比如,语音时长不一样,音色有细微更改;在风格语音输入相同,内容语音输入不同的条件下,得到的生成语音,其语音内容与内容语音输入相同,其语音风格模仿了风格语音一定的风格。从生成语音的2维声谱图进行分析,可以客观地观察出:每张生成语音的2维声谱图在结构上与对应内容语音的2维声谱图是基本一致的,但是在图像纹理上,或者说在沿频率轴的间隙大小上,生成语音的2维声谱图更接近于对应风格语音的2维声谱图。
本发明的有益效果为:
(1)类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型。
(2)为了强化内容语音中的内容信息、风格语音中的风格信息,采取“利用至少3个不同说话人、相同内容的语音信号的2维声谱图构成语音风格转移模型中内容语音的输入;与此同时,利用同一个说话人说不同内容的语音信号的2维声谱图构成语音风格转移模型中风格语音的输入”的技巧,从而抹去内容语音中3个不同说话人的风格特性,保留内容信息;抹去风格语音中同一个说话人语音的内容信息,保留该说话人的风格特性;使通过语音风格转移模型生成的目标生成语音信号的2维声谱图更加准确。

Claims (5)

1.一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:
S1、构建语音风格转移神经网络模型;
S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;
S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;
S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;
根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;
S5、根据内容损失函数和风格损失函数确定总损失函数;
S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;
S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移;
所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;
所述第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;
所述第一池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;
所述第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;
所述第二池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;
所述第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射;
所述第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射;
所述第三池化层为Max pooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;
所述第一全连接层将9216个神经元与4096个神经元相连;
所述第二全连接层将4096个神经元与4096个神经元相连;
所述第三全连接层将4096个神经元与损失函数softmax相连;
所述步骤S4中,确定内容损失函数的方法具体为:
B1、通过语音风格转移神经网络模型提取内容语音信号声谱图
Figure FDA0002865474810000021
在高层特征映射的特征,并将其作为初始生成语音信号声谱图
Figure FDA0002865474810000022
的内容特征,对初始生成语音信号的声谱图的内容特征进行调整;
B2、将内容语音信号声谱图
Figure FDA0002865474810000023
和初始生成语音信号声谱图
Figure FDA0002865474810000024
在高层l层对应激活值的平方误差和作为内容损失函数
Figure FDA0002865474810000025
其中,内容损失函数
Figure FDA0002865474810000026
为:
Figure FDA0002865474810000027
式中,
Figure FDA0002865474810000031
为内容语音信号声谱图在高层l层特征映射中的激活值;
Figure FDA0002865474810000032
为生成语音信号声谱图在高层l层特征映射中的激活值;
||·||为求解向量范数的运算符;
nH为声谱图特征映射的高度;
nW为声谱图特征映射的宽度;
nC为声谱图特征映射的通道数;
Figure FDA0002865474810000033
为内容语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
Figure FDA0002865474810000034
为生成语音信号声谱图在高层l层特征映射中位于坐标点(i,j,k)处的激活值;
其中,i=1,2,...,nH,j=1,2,...,nW,k=1,2,...,nC
2.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S3中,对语音信号生成对应的声谱图的方法具体为:
A1、对语音信号进行分帧操作;
A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲线;
A3、将频谱曲线旋转90度后,并将曲线中的振幅幅度映射到范围为0~255的灰度级上,得到对应的声谱图。
3.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S4中确定风格损失函数的方法具体为:
C1、通过语音风格转移神经网络模型提取风格语音信号声谱图
Figure FDA0002865474810000035
在多层低层特征映射的特征,并将其作为初始生成语音信号声谱图
Figure FDA0002865474810000036
的风格特征,对初始生成语音信号的声谱图的风格特征进行调整;
C2、分别确定风格语音信号声谱图
Figure FDA0002865474810000041
的风格矩阵
Figure FDA0002865474810000042
和目标生成语音信号声谱图的风格矩阵
Figure FDA0002865474810000043
其中,风格语音信号声谱图
Figure FDA0002865474810000044
的风格矩阵
Figure FDA0002865474810000045
在位置(k,k')处的元素值具体为:
Figure FDA0002865474810000046
式中,
Figure FDA0002865474810000047
为声谱图中l层特征映射的高度;
Figure FDA0002865474810000048
为声谱图中l层特征映射的宽度;
Figure FDA0002865474810000049
Figure FDA00028654748100000410
分别为风格语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
目标生成语音信号声谱图
Figure FDA00028654748100000411
的风格矩阵
Figure FDA00028654748100000412
在位置(k,k')处的元素值具体为:
Figure FDA00028654748100000413
式中,
Figure FDA00028654748100000414
Figure FDA00028654748100000415
分别为生成语音信号声谱图的风格矩阵确定过程中位置(i,j,k)和位置(i,j,k')处的激活值;
C3、根据两个风格矩阵确定初始生成语音信号声谱图中在第l层的风格损失函数El为:
Figure FDA00028654748100000416
式中,
Figure FDA00028654748100000417
为l层特征映射的通道数;
C4、根据第l层特征映射的风格损失函数El,确定所有低层特征映射风格损失函数的加权和,即为风格损失函数;
其中,风格损失函数为
Figure FDA0002865474810000051
Figure FDA0002865474810000052
式中,l为低层特征映射的层数。
4.根据权利要求3所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S5中的总损失函数
Figure FDA0002865474810000053
为:
Figure FDA0002865474810000054
式中,α为内容损失函数的权重;
β为风格损失函数的权重。
5.根据权利要求4所述基于神经网络的语音风格转移方法,其特征在于,所述步骤S3中,所述内容语音信号包括至少三个不同说话人的相同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中;
风格语音信号包括至少一个说话人的不同内容的语音信号,且均生成对应的声谱图输入到语音风格转移神经网络模型中。
CN201910513258.4A 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法 Expired - Fee Related CN110189766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910513258.4A CN110189766B (zh) 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910513258.4A CN110189766B (zh) 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法

Publications (2)

Publication Number Publication Date
CN110189766A CN110189766A (zh) 2019-08-30
CN110189766B true CN110189766B (zh) 2021-04-06

Family

ID=67721746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910513258.4A Expired - Fee Related CN110189766B (zh) 2019-06-14 2019-06-14 一种基于神经网络的语音风格转移方法

Country Status (1)

Country Link
CN (1) CN110189766B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276119B (zh) * 2020-01-17 2023-08-22 平安科技(深圳)有限公司 语音生成方法、系统和计算机设备
CN111312267B (zh) * 2020-02-20 2023-08-11 广州市百果园信息技术有限公司 一种语音风格的转换方法、装置、设备和存储介质
CN111341294B (zh) * 2020-02-28 2023-04-18 电子科技大学 将文本转换为指定风格语音的方法
CN112037766B (zh) * 2020-09-09 2022-03-04 广州方硅信息技术有限公司 一种语音音色转换方法及相关设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
CN106847294B (zh) * 2017-01-17 2018-11-30 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN107680580B (zh) * 2017-09-28 2020-08-18 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置

Also Published As

Publication number Publication date
CN110189766A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110189766B (zh) 一种基于神经网络的语音风格转移方法
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
JP2956548B2 (ja) 音声帯域拡大装置
CN111653289B (zh) 一种回放语音检测方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN109524020A (zh) 一种语音增强处理方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
Su et al. Bandwidth extension is all you need
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN113823308B (zh) 一种使用单个带噪语音样本进行语音去噪的方法
CA3195582A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN110047501A (zh) 基于beta-VAE的多对多语音转换方法
Haws et al. Cyclegan bandwidth extension acoustic modeling for automatic speech recognition
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
Gao et al. Mixed-bandwidth cross-channel speech recognition via joint optimization of DNN-based bandwidth expansion and acoustic modeling
Goyani et al. Performance analysis of lip synchronization using LPC, MFCC and PLP speech parameters
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Guo et al. Phonetic posteriorgrams based many-to-many singing voice conversion via adversarial training
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN113066475B (zh) 一种基于生成式对抗网络的语音合成方法
Yang et al. RS-CAE-based AR-Wiener filtering and harmonic recovery for speech enhancement
CN114283829A (zh) 一种基于动态门控卷积循环网络的语音增强方法
Gao et al. An experimental study on joint modeling of mixed-bandwidth data via deep neural networks for robust speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210406