CN113808570B - 基于激活指导和内卷积的跨语种语音转换方法 - Google Patents
基于激活指导和内卷积的跨语种语音转换方法 Download PDFInfo
- Publication number
- CN113808570B CN113808570B CN202111056323.9A CN202111056323A CN113808570B CN 113808570 B CN113808570 B CN 113808570B CN 202111056323 A CN202111056323 A CN 202111056323A CN 113808570 B CN113808570 B CN 113808570B
- Authority
- CN
- China
- Prior art keywords
- convolution
- conversion
- encoder
- layer
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000004913 activation Effects 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000010606 normalization Methods 0.000 claims description 52
- 238000001228 spectrum Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 30
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001831 conversion spectrum Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于激活指导和内卷积的跨语种语音转换方法,包括训练阶段和转换阶段。本发明中提出的语音转换模型由编码器和解码器组成,首先在编解码器中采用内卷积代替传统卷积,极大地减少模型的参数量和计算量,有效地提升算法的运行效率;进一步利用编码器中的激活指导提取源说话人语句中的内容信息,同时采用U型连接将目标说话人的个性信息从编码器传递到解码器,并在解码器中与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种转换。
Description
技术领域
本发明涉及语音转换技术领域,具体涉及一种基于激活指导和内卷积的跨语种语音转换方法。
背景技术
语音转换是语音信号处理领域的重要研究分支,语音转换任务是在给定待转换的源说话人语音和目标说话人语音的前提下,生成具有源说话人语音内容和目标说话人个性特征的语音。传统的语音转换专注于解决同语种转换问题,即要求源和目标说话人语音语种相同,而跨语种语音转换打破了这一限制,源和目标说话人说的语种、文本均不相同。从另一个角度,无论是传统的同语种语音转换还是跨语种语音转换,如果待转换语音中对应的说话人不参与转换模型的训练,那么这类问题属于开集情形下任意说话人的语音转换范畴。
1985年,Childers等人首次提出了语音转换问题,之后经过多年的研究,已经涌现了很多经典的转换方法。在平行语料条件下,Stylianou等人提出了基于GMM(GaussianMixture Model,高斯混合模型)的语音转换方法。由于采集大量平行语料往往较为困难且耗时耗力,尤其在跨语种语音转换等领域中,采集到平行的训练语料根本无法实现;此外,平行语料条件下的转换方法,在训练阶段,通常需要对齐操作,这一行为会引入额外的噪声,影响转换模型的效果。因此,无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下的语音转换研究都具有更大的应用价值和现实意义。
2004年开始,国内外学者对非平行语料条件下的语音转换方法进行了尝试和探究,比如:聚类频谱匹配算法、说话人参数自适应、基于单元选择的时间帧匹配方法、最近邻迭代对准方法。但是这些方法大多难以达到基于GMM在平行语料条件下的转换性能。随着深度神经网络的飞速发展,非平行语料条件下的语音转换方法取得了新的突破,主要包括基于Cycle-GAN(Cycle-ConsistentAdversarial Networks,循环一致对抗网络)的方法、基于C-VAE(Conditional VariationalAuto-Encoder,条件变分自编码器)的方法、基于STARGAN(Star Generative Adversarial Network,星型生成对抗网络)模型等。这些转换方法能够直接规避对平行语料的依赖,实现非平行文本下的转换,但是目前这些已有的语音转换研究的方法主要是在相同的语种上进行转换研究,跨语种条件下的语音转换研究仍存在很大的挑战。
在跨语种语音转换的研究中,由于源、目标说话人所说的语种、文本均不同,不同语种下的音素、音调和重音都会存在差异,因此跨语种语音转换的研究难度较高。最初实现跨语种语音转换的方法对训练语料的要求很高,它要求同一个说话人提供两套不同语种的语料,即依赖于双语说话人的平行数据集。然而,语音数据的获取本就困难,要获取双语说话人的平行文本数据集的成本更高,并不现实。2018年,表征学习被用于解决跨语种语音转换问题。Mohammadi等人提出FHVAE(Factorized Hierarchical VariationalAutoencoder,因式分层变分自编码器),该方法虽然不再受限于双语说话人的平行数据集,但是由于变分自编码器(VariationalAutoencoder,VAE)过平滑效应导致转换后的语音中存在明显的噪音。后续,PPG(Phonetic PosteriorGram,语音概率后验图)被应用于跨语种语音转换,但该方法受限于涉及的语音识别系统的性能。
上述提到的各种语音转换方法大多数只能实现闭集情形下的语音转换,即待转换语音对应的目标说话人个数有限,且同时参与模型的训练;在这种条件下,转换语音的质量往往比较好。但在实际的场景应用中,对于目标说话人而言,只有少数语料或一句语料参与训练,甚至没有参与训练,这类可以划分为开集情形下的语音转换,即任意说话人语音转换问题,对于开集情形下如何提高任意说话人的跨语种语音转换的质量,目前解决这类问题的方法较少。
发明内容
本发明所要解决的技术问题:本发明提供一种基于激活指导和内卷积的跨语种语音转换方法,该方法采用的激活指导可以有效地提取语音中的内容表征,解决了FHVAE中的过平滑问题,显著提高转换语音的质量;进一步采用内卷积代替传统卷积,极大地减少模型的参数量和运算量,有效地提升算法的运行效率;最终实现了高质量的开集情形下任意说话人的跨语种语音转换。
本发明为解决以上技术问题而采用以下技术方案
本发明首先提出一种基于激活指导和内卷积的跨语种语音转换方法,包括训练阶段和转换阶段;
所述训练阶段包括以下步骤:
步骤1、获取大量的训练语料,训练语料由不同语言的多名说话人的语句组成;
步骤2、将获取的训练语料通过预处理和特征提取后,得到固定帧长的梅尔频谱特征片段,表征为声学特征向量X;
步骤3、将所述声学特征输入到转换网络中进行训练,所述转换网络由编码器和解码器两部分组成;
其中,所述编码器用于对说话人的语音进行解纠缠,从中获得语句的内容信息和说话人信息,所述编码器和解码器采用U型连接,用于将说话人信息从所述编码器传递到所述解码器中,所述解码器用于将获得的说话人信息和内容信息重构,得到重构后的梅尔频谱,表征为声学特征向量X';
步骤4、对转换网络进行训练过程中,使所述转换网络的重构损失函数尽量小,设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络;
所述转换阶段包括以下步骤:
步骤5、选取不同语种的语音作为待转换语料,分别提取待转换语音的源梅尔频谱特征X1和目标梅尔频谱特征X2作为声学特征向量;
步骤6、将所述声学特征X1,X2输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征X1→2;
步骤7、采用Griffin-Lim声码器,将获得的转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述编码器包括2个一维卷积层、卷积模块、实例归一化层以及作为输出层的激活函数层,所述卷积模块由1个通道数为256的一维卷积层、批次归一化层、激活指导层以及内卷积层组成,所述卷积模块和实例归一化层交替放置。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述实例归一化层的公式为:
其中,x为实例归一化层的输入,μnc(x)和σnc(x)分别表示给定n和c,沿着c方向计算x的均值和标准差,n表示批次,c表示通道数,L表示帧长,ε表示一个很小的值,防止标准差为0。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述激活指导层的公式为:
其中,x为激活指导层的输入,α为超参数。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述解码器包括2个一维卷积层、卷积模块、自适应实例归一化层、门控循环单元层以及全连接层,所述卷积模块由1个通道数为256的一维卷积层、批次归一化层、激活函数层以及内卷积层组成,所述卷积模块和自适应实例归一化层交替放置。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述自适应实例归一化层的公式为:
AdaIN(σ(x),μ(x),y)=σ(x)IN(y)+μ(x)
其中,y表示自适应实例归一化层的输入,μ(x)和σ(x)表示编码器提取的说话人信息,IN(y)表示对y做实例归一化。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述内卷积是指:在通道维度采用共享的卷积核,在空间维度采用空间特异的卷积核进行灵活建模,即通过输入的特征图生成对应的内卷积核,确保内卷积核与输入特征图在空间维度上能够自动对齐,所述内卷积核的生成函数表示为:
Hl=φ(Xl)
其中Xl表示输入特征图中第l个特征点,φ表示核生成函数,Hl表示内卷积核。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述转换网络的目标函数表示为:
其中,θE为内容编码器E对应的参数,θD为解码器D对应的参数,Lrec为模型的重构损失函数,λrec为超参数,表示重构损失函数的权重。
进一步的,本发明所提出的基于激活指导和内卷积的跨语种语音转换方法,
所述重构损失函数表示为:
其中,θE为编码器E对应的参数,θD为解码器D对应的参数,X为输入的梅尔频谱特征片段,D(E(X))为解码器重构频谱,EX~p(X)[·]为重构频谱与输入频谱的损失期望。
本发明还提出一种计算机存储介质,其上存储有计算机程序,所述计算机程序在被计算机处理器执行时实现上述所述的基于激活指导和内卷积的跨语种语音转换方法。
本发明中,模型通过学习对语音的解纠缠能力,可以解耦语句中的说话人信息和内容信息,从而实现任意说话人的跨语种语音转换。不同语种的源和目标语音送入到编码器中,得到源语音的内容表征Z和目标语音的说话人信息μ(x)、σ(x)。在编码器部分,其关键点在于:首先利用实例归一化层提取说话人信息,由于该提取方式不受限于说话人标签,因此适用于任意说话人;然后通过归一化处理和激活指导,可以提取不同语种的语音内容信息,以此达到分离出不同语种语音中的说话人信息和内容信息。在解码器部分,编码器提取到的内容信息作为解码器的输入,进一步,通过编码器和解码器之间的U型连接,将说话人信息从编码器传递到解码器的自适应实例归一化层,然后利用自适应实例归一化层将不同语种的内容信息和说话人信息融合,这样可以进一步加强目标说话人个性信息,使得转换语音听起来更像目标说话人。
本发明采用以上技术手段与现有技术相比,具有以下有益效果:
1、本发明中,模型通过学习对语音的解纠缠能力来实现跨语种语音转换,在编码器中,实例归一化层提供一种通用型的说话人信息提取方式,可以提取任意说话人信息。并且通过归一化处理和激活指导,可以提取不同语种的语音内容信息;在解码器中,自适应实例归一化层能够将不同语种的内容信息和说话人信息融合,加强生成的转换语句在个性特征上更像目标说话人,提高了跨语种语音转换的准确度和通用性,且该应用在电影配音,语言翻译,医疗辅助系统等丰富人机交互方面有广阔的市场前景。
2、本发明在训练阶段对于说话人信息的建模是通过编码器中的实例归一化层实现的,其提取与学习直接参与了模型的训练,与之前方法的预先提取或者采用额外的编码器提取说话人信息存在本质的不同,能够有效提升转换语音的个性相似度,并且减少模型参数。
3、本发明将内卷积加入到模型的编码器和解码器中,其通过输入的特征图生成对应的内卷积核,确保内卷积核与输入特征图在空间维度上能够自动对齐,实现卷积核的灵活建模,从而很好地适应语音时长的不定性;此外内卷积核在通道维度具有共享性,在空间维度具有空间特异性,这一设计与传统的卷积正好相反,能够极大地减少模型的参数量和运算量,从而有效提升算法的运行效率。
4、由于本发明对应模型在训练阶段训练了大量的说话人语料,在转换阶段,可以转换未参与训练的说话人语音,解决了无法采集到目标说话人大量训练数据的问题,能够实现任意说话人直接进行语音转换的任务,将语音转换应用的适用范围从闭集拓展为开集。因此,本发明是具有高合成音质和个性相似度的跨语种任意说话人语音转换方法。
附图说明
图1是本发明实施例所述的模型的原理示意图。
图2是本发明实施例所述的模型中编码器的网络结构图。
图3是本发明实施例所述的模型中解码器的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地阐述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出基于激活指导和内卷积的跨语种语音转换方法,包括训练阶段和转换阶段。训练阶段用于得到语音转换所需的转换网络及其参数,而转换阶段用于实现源说话人语音的个性信息转换为目标说话人语音的个性信息,同时保持源说话人语音的语义内容不变。
如图1所示,训练阶段包括以下步骤:
步骤1、获取训练语料,训练语料来自于AISHELL-3中文语料库和CSTRVCTK英文语料库;从获取的中英文语料库中,选取AISHELL-3中文语料库中40名说话人,每位说话人约有200个语句,每句时长2~10s不等;选取CSTR VCTK英文语料库中40名说话人,每位说话人约有200个语句,每句时长2~8s不等;将选取出来的中文和英文两种语言的语句共同组成训练语料进行模型的训练,这可以使得转换网络充分学习到不同语种各自的发音特色和语义信息,进而提升转换语音的质量。
步骤2、获取声学特征,将获取的训练语料通过预处理和特征提取后,得到固定帧长的梅尔频谱特征片段,表征为声学特征向量X。
步骤3、将步骤2得到的声学特征X输入到转换网络中进行训练,本实例中的网络以Auto Encoder(AE)模型为基础,通过实例归一化以及激活指导,将输入语句中的内容信息和说话人信息进行解耦,分别得到内容信息和说话人信息,接着通过编码器和解码器之间的U型连接,将说话人信息从编码器传递到解码器,然后利用自适应实例归一化将两种表征融合后解码,从而实现跨语种语音转换。
该网络主要包括编码器和解码器两部分:
(1)在编码器中,利用实例归一化层,首先提取语句中的说话人信息,然后通过归一化处理后,可以达到保留语句内容信息的同时删除说话人信息,由此分离语句中的说话人信息和内容信息,达到解纠缠效果,其结构如图2所示。编码器包括2个一维卷积层Conv1d、卷积模块、实例归一化层、激活指导层,其中图中的ConvBlock表示卷积模块,卷积模块由图中所示的一维卷积层Conv1、批次归一化层BN、激活层LReLU以及内卷积层InoConv组成,其中InoConv可以大量地减少模型参数量和运算量;卷积模块的输出连接实例归一化层,图中表示为IN,用于提取说话人信息的同时,滤除声学特征中的说话人信息;并且,图中A表示卷积模块和实例归一化层作为整体,依次放置6组;最后激活指导层表示为图中的AcGuide,用于进一步滤除声学特征中说话人信息,得到声学特征中的语义表征。
实例归一化层的公式为:
其中,x为实例归一化层的输入,μnc(x)和σnc(x)分别表示给定n和c,沿着c方向计算x的均值和标准差,用以表征说话人信息,n表示批次,c表示通道数,L表示帧长。本实例中,n为[1,64]之间的正整数,c为[1,512]之间的正整数,L为128,ε表示一个很小的值,防止标准差为0。
此外,在编码器中,利用激活指导函数作为瓶颈,进一步滤除说话人信息,得到声学特征中的语义表征。
激活指导函数表示为:
其中,x为激活指导层的输入,α为超参数。本实例中α设为0.1
(2)在解码器中,自适应实例归一化将语义表征和说话人信息融合,以加强生成的重构梅尔频谱中的说话人信息,进而获得与输入频谱高度相似的重构频谱,其结构如图3所示。解码器包括2个一维卷积层Conv1d、卷积模块、自适应实例归一化层、门控循环单元层以及全连接层。其中图中的ConvBlock表示卷积模块,卷积模块由图中所示的一维卷积层Conv1、批次归一化层BN、激活层LReLU以及内卷积层InoConv组成,其中InoConv可以大量地减少模型参数量和计算量;卷积模块的输出连接实例归一化层,图中表示为AdaIN,用于向内容表征中融合说话人信息,使得转换语句在相似度上更像目标说话人,图中B表示卷积模块和自适应实例归一化层作为一个整体,依次放置6组。而图中所示的GRU表示门控循环单元层,用于捕获帧序列之间的语义关联性,并经全连接层Linear输出转换频谱特征,从而优化转换得到的梅尔频谱特征。
自适应实例归一化公式为:
AdaIN(σ(x),μ(x),y)=σ(x)IN(y)+μ(x)
其中,y表示自适应实例归一化层的输入,μ(x)和σ(x)表示编码器提取的说话人信息,IN(y)表示对y做实例归一化。
整个转换网络的目标函数表示为:
其中,θE为内容编码器E对应的参数,θD为解码器D对应的参数,Lrec为模型的重构损失函数,λrec超参数是重构损失函数的权重,本实例中,设λrec为10。
上述的重构损失函数表示为:
其中,θE为编码器E对应的参数,θD为解码器D对应的参数,X为输入的梅尔频谱特征片段,D(E(X))为解码器重构频谱,EX~p(X)[·]为重构频谱与输入频谱的损失期望。
步骤3-1、将步骤2中提取的声学特征X输入到编码器中,经过编码器网络,生成内容表征Z和说话人信息μ(x)和σ(x);
步骤3-2、将上述得到的内容表征Z和说话人信息μ(x)和σ(x)一同输入到模型的解码器中,经过解码器网络,重构频谱特征X',在训练过程中,上述的重构损失函数越小,即表明重构的频谱与真实频谱越相似。
步骤4、重复步骤3-1至步骤3-2,直至达到设置的迭代次数,从而得到训练好的网络。由于神经网络具体设置不同以及实验设备性能不同,设置的迭代次数也各不相同。本实验中设置迭代次数为150000次。
转换阶段包括以下步骤:
步骤5、选取不同语种的语音作为待转换语料,分别提取待转换语音的源梅尔频谱特征X1和目标梅尔频谱特征X2作为声学特征向量;
步骤6、将所述声学特征向量输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
步骤6-1、将步骤5中提取到的声学特征X1和X2输入到训练好的编码器中,分别生成源说话人的内容表征Z和目标说话人信息μ(x)、σ(x)。
步骤6-2、将上述模型输出的源说话人的内容表征Z以及目标说话人信息μ(x)、σ(x)输入到解码器中,重构出转换语句的梅尔频谱特征。
步骤7、采用Griffin-Lim声码器,将步骤6-2中获得的转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。其中,Griffin-Lim声码器是一种已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形的方法。
本发明中,模型通过学习对语音的解纠缠能力,可以解耦语句中的说话人信息和内容信息,从而实现任意说话人的跨语种语音转换。不同语种的源和目标语音送入到编码器中,得到源语音的内容表征和目标语音的说话人信息。在编码器部分,其关键点在于:利用实例归一化层,首先提取说话人信息,由于该提取方式不受限于说话人标签,因此适用于任意说话人;然后通过归一化处理和激活指导,可以提取源语音的内容信息,由此达到分离出不同语种语音中的说话人信息和内容信息。在解码器部分,编码器提取到的内容信息作为解码器的输入,进一步,通过编码器和解码器之间的U型连接,将说话人信息从编码器传递到解码器的自适应实例归一化层,然后利用自适应实例归一化层将不同语种的内容信息和说话人信息融合,这样可以进一步加强目标说话人个性信息,使得转换语音听起来更像目标说话人。
本发明提出的算法得到的转换语音细腻真实,能够完整地表达源说话人语种的语义,具有很好的合成质量,同时在个性相似度方面也有较好的效果,很好地实现了跨语种语音转换任务。同时,本发明提出的方法还可以转换不在训练集内的说话人的语音,大大提高了语音转换在应用中的通用性;本发明提出的内卷积方法可以极大地减少模型的参数量和运算量,使得算法的运行效率有了明显的提升。
对于方法实施例而言,由于其基本相似于系统实施例,所以描述的比较简单,相关之处参见系统实施例的部分说明即可。
本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实例不限制于任何特定的硬件和软件结合。
相应的,本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述基于激活指导和内卷积的跨语种语音转换方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种基于激活指导和内卷积的跨语种语音转换方法,其特征在于,包括训练阶段和转换阶段;
所述训练阶段包括以下步骤:
步骤1、获取大量的训练语料,训练语料由不同语言的多名说话人的语句组成;
步骤2、将获取的训练语料通过预处理和特征提取后,得到固定帧长的梅尔频谱特征片段,表征为声学特征X;
步骤3、将所述声学特征输入到转换网络中进行训练,所述转换网络由编码器和解码器两部分组成;
其中,所述编码器用于对说话人的语音进行解耦,从中获得语句的内容信息和说话人信息,所述编码器和解码器采用U型连接,用于将说话人信息从编码器传递到解码器中,所述解码器用于将获得的说话人信息和内容信息重构,得到重构后的梅尔频谱,表征为声学特征X';
步骤4、对转换网络进行训练过程中,使所述转换网络的重构损失函数尽量小,设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络;
所述转换阶段包括以下步骤:
步骤5、选取不同语种的语音作为待转换语料,分别提取待转换语音的源梅尔频谱特征X1和目标梅尔频谱特征X2作为声学特征向量;
步骤6、将所述声学特征X1,X2输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征X1→2;
步骤7、采用Griffin-Lim声码器,将获得的转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。
2.根据权利要求1所述的基于激活指导和内卷积的跨语种语音转换方法,其特征在于,所述编码器包括2个一维卷积层、卷积模块、实例归一化层以及激活指导层,所述卷积模块由1个通道数为256的一维标准卷积层、批次归一化层、激活指导层以及内卷积层组成,所述卷积模块和实例归一化层交替放置。
5.根据权利要求1所述的基于激活指导和内卷积的跨语种语音转换方法,其特征在于,所述解码器包括2个一维卷积层、卷积模块、自适应实例归一化层、门控循环单元层以及全连接层,所述卷积模块由1个通道数为256的一维卷积层、批次归一化层、激活函数层以及内卷积层组成,所述卷积模块和自适应实例归一化层交替放置。
6.根据权利要求5所述的基于激活指导和内卷积的跨语种语音转换方法,其特征在于,所述自适应实例归一化层的公式为:
AdaIN(σ(x),μ(x),y)=σ(x)IN(y)+μ(x)
其中,y表示自适应实例归一化层的输入,μ(x)和σ(x)表示所述编码器提取的说话人信息,IN(y)表示对y做实例归一化。
7.根据权利要求1或2或5所述的基于激活指导和内卷积的跨语种语音转换方法,其特征在于,所述内卷积是指:在通道维度采用共享的卷积核,在空间维度采用空间特异的卷积核进行灵活建模,即通过输入的特征图生成对应的内卷积核,确保内卷积核与输入特征图在空间维度上能够自动对齐,所述内卷积核的生成函数表示为:
Hl=φ(Xl)
其中Xl表示输入特征图中第l个特征点,φ表示核生成函数,Hl表示内卷积核。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056323.9A CN113808570B (zh) | 2021-09-09 | 2021-09-09 | 基于激活指导和内卷积的跨语种语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056323.9A CN113808570B (zh) | 2021-09-09 | 2021-09-09 | 基于激活指导和内卷积的跨语种语音转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808570A CN113808570A (zh) | 2021-12-17 |
CN113808570B true CN113808570B (zh) | 2023-07-14 |
Family
ID=78940481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111056323.9A Active CN113808570B (zh) | 2021-09-09 | 2021-09-09 | 基于激活指导和内卷积的跨语种语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808570B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11854562B2 (en) * | 2019-05-14 | 2023-12-26 | International Business Machines Corporation | High-quality non-parallel many-to-many voice conversion |
-
2021
- 2021-09-09 CN CN202111056323.9A patent/CN113808570B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
Non-Patent Citations (2)
Title |
---|
Many-to-Many Voice Conversion based on Bottleneck Features with Variational Autoencoder for Non-parallel Training Data;Yanping Li等;《2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)》;全文 * |
非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换;李燕萍;曹盼;石杨;张燕;钱博;;复旦学报(自然科学版)(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113808570A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111785261B (zh) | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 | |
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
Huang et al. | Generspeech: Towards style transfer for generalizable out-of-domain text-to-speech | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
Nachmani et al. | Unsupervised singing voice conversion | |
WO2022048405A1 (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN111462768B (zh) | 基于共享训练的多尺度StarGAN的语音转换方法 | |
Luo et al. | Emotional voice conversion using dual supervised adversarial networks with continuous wavelet transform f0 features | |
CN111429894A (zh) | 基于SE-ResNet STARGAN的多对多说话人转换方法 | |
CN111429893A (zh) | 基于Transitive STARGAN的多对多说话人转换方法 | |
KR20200084443A (ko) | 음성 변조 시스템 및 방법 | |
Ye et al. | Syntaspeech: Syntax-aware generative adversarial text-to-speech | |
An et al. | Speech Emotion Recognition algorithm based on deep learning algorithm fusion of temporal and spatial features | |
Shin et al. | Text-driven emotional style control and cross-speaker style transfer in neural tts | |
Lu et al. | Multi-speaker emotional speech synthesis with fine-grained prosody modeling | |
Malik et al. | A preliminary study on augmenting speech emotion recognition using a diffusion model | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
Kang et al. | Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion | |
Mei et al. | A particular character speech synthesis system based on deep learning | |
CN113808570B (zh) | 基于激活指导和内卷积的跨语种语音转换方法 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
Zhang et al. | Learning deep and wide contextual representations using BERT for statistical parametric speech synthesis | |
Le et al. | Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning. | |
Reddy et al. | Improved HMM-based mixed-language (Telugu–Hindi) polyglot speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |