CN113921025A - 一种基于自动编码器框架的语音转换方法 - Google Patents
一种基于自动编码器框架的语音转换方法 Download PDFInfo
- Publication number
- CN113921025A CN113921025A CN202111262860.9A CN202111262860A CN113921025A CN 113921025 A CN113921025 A CN 113921025A CN 202111262860 A CN202111262860 A CN 202111262860A CN 113921025 A CN113921025 A CN 113921025A
- Authority
- CN
- China
- Prior art keywords
- encoder
- voice
- audio
- tone
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000001228 spectrum Methods 0.000 claims abstract description 27
- 230000033764 rhythmic process Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 238000000926 separation method Methods 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明属于语音转换技术领域,具体涉及一种基于自动编码器框架的语音转换方法,本发明所搭建的系统框架仅包括一个编码器,使得训练过程中没有丢失原始输入的Mel频谱信息,实现完美重构;通过两个约束模型通编码器和解码器结合训练,确保了内容、音色和韵律三个语音特征的可提取性;并且采用鉴别器进一步的确保了内容、音色和韵律三个语音特征的可提取性;本发明针对不同内容的音频进行语音转换时,不涉及配对数据的训练,模型训练过程仅仅重构自身,故实现了高效的语音转换;并保证了完全实现所有语音特征的分离,以及针对语音风格进行转换。
Description
技术领域
本发明属于语音转换技术领域,具体涉及一种基于自动编码器框架的语音转换方法。
背景技术
随着智能语音技术的迅猛发展,音频变声技术已经成为目前新兴的一项热门技术,其旨在将某一源语音转换成具有特征语音风格且语音内容不发生变化的目标语音;例如,某一变声应用将用户录制的某一段音频采用某一特点目标的变声特效进行变声播放。
目前,语音转换系统中,针对非配对数据的方法非常少,仅有AutoVC、One-shotVC、Prosody Transfer和SpeechFLow四种实现了非配对数据下的语音转换,且其中仅有Prosody Transfer和SpeechFLow能够实现对韵律的转换。但是以上两种方法仍然包含两大缺点:一是对于内容不同音频的韵律转换效果较差;二是模型的训练时间较长。
经过检索发现,公开号为CN111312267A的发明专利申请,公开了一种语音风格的转换方法、装置、设备和储存介质;其对语音分离的流程为:获取源风格语音、目标风格语音和初始转换语音;根据初始转换语音和源风格语音之间的语音内容损失以及初始转换语音和目标风格语音之间的语音风格损失,对初始转换语音进行损失优化,得到新的初始转换语音继续进行损失优化,直至新的初始转换语音满足预设的损失优化条件,则将新的初始转换语音作为源风格语音在目标风格下的风格转换语音。上述专利申请中的技术方案的优点在于,实现了源风格语音在目标风格下的准确转换,无需针对目标风格进行语音风格转换的预先训练,保证未经过预先训练的目标语音下的语音风格转换,提高语音风格转换的全面性和准确性。
而上述技术方案,是针对说话人音色进行语音转换,并不能针对语音风格进行转换,其次是不能保证完全实现所有语音特征的分离。
发明内容
本发明公开了一种基于自动编码器框架的语音转换方法,拟解决背景技术中提到的不能针对语音风格进行转换,且不能保证完全实现所有语音特征分离的技术问题。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于自动编码器框架的语音转换方法,包括以下步骤:
步骤1:基于开源的音频处理库,提取音频的Mel频谱特征作为数据集;
步骤2:搭建由编码器、解码器、鉴别器和分别针对音色和韵律的两个约束模型组成的系统框架;
步骤3:将步骤1中的数据集输入步骤2搭建的系统中,进行约束模型的训练,直至损失函数收敛,提取源说话人和目标说话人对应的语音特征;
步骤4:基于步骤3中提取的语音特征,并替换源韵律编码为目标编码,完成语音转换任务。
本发明所搭建的系统框架仅包括一个编码器,使得训练过程中没有丢失原始输入的Mel频谱信息,实现完美重构;通过两个约束模型通编码器和解码器结合训练,确保了内容、音色和韵律三个语音特征的可提取性;并且采用鉴别器进一步的确保了内容、音色和韵律三个语音特征的可提取性,实现了语音特征的完全分离;本发明针对不同内容的音频进行语音转换时,不涉及配对数据的训练,模型训练过程仅仅重构自身,故实现了高效的语音转换。
优选的,所述编码器、解码器、约束模型和鉴别器均是基于Informer:AAAI2021best paper的标准搭建而成。Informer为固定模型名称,AAAI2021 best paper为2021年美国人工智能协会会议(AAAI)最佳论文。
优选的,步骤2中系统框架的网络结构有2层或3层ProSparse Attention模块堆叠组成。ProSparse Attention为稀疏化概率的注意力机制。
通过利用ProSparse Attention模块,使得模型训练时间大大降低;进一步的提高了语音转换的效率。
优选的,所述步骤3包括以下步骤:
步骤3.1:编码器输出一个长度为160*1的向量;
步骤3.2:按照90、35、35的长度将步骤3.1中的向量切分为三段,分别代表内容、音色和韵律的编码;
步骤3.3:将音色的编码和韵律的编码输入到对应的约束模型中,基于真实的音色向量和韵律向量进行监督训练;
步骤3.4:将步骤3.2确定的内容、音色和韵律的编码均输入到鉴别器中进行训练,直到三个编码的分布被鉴别器判定为三个不同的类别。
本发明将Mel频谱输入到系统中进行训练。在训练过程中,编码器的中间输出是一个长度为160*1的向量,会被切分为三段(90、35、35),分别代表内容、音色和韵律的编码,然后分别将音色的编码和韵律的编码输入到对应的约束模型中,基于真实的音色向量和韵律向量进行监督训练,使得从大向量中切分出的该部分分量和真实的语音特征足够接近。
具体的,步骤3中所述的损失函数分别为:第一个是编码器和解码器的重构损失,编码器接受真实的Mel频谱作为输入,编码器和解码器的训练目标是重构相应的Mel频谱;第二个是音色约束的损失函数;第三个是韵律约束的损失函数;第四个是针对分类任务的鉴别器的损失函数。
优选的,所述步骤4包括以下步骤:
步骤4.1:记一条源音频为A0,通过librosa库处理后,该音频对应的Mel频谱为记X0;
步骤4.2:记一条目标音频为A1,通过librosa库处理后,该音频对应的Mel频谱记为X1;
步骤4.3:将X0输入到系统的编码器部分,输出长度为160*1的向量V0;将X1输入到模型的编码器部分,输出长度为160*1的向量V1;
步骤4.4:按照90、35和35的长度将V0和V1分别切分为V0c,V0t,V0p和V1c,V1t,V1p,分别代表源音频和目标音频的内容、音色和韵律的编码;
步骤4.5:组合目标韵律编码、源内容编码和源音色编码,将其输入到系统的解码器部分,输出转换后的Mel频谱。
优选的,步骤1中每条所述的音频对应的Mel频谱为480*80维的矩阵。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明所搭建的系统框架仅包括一个编码器,使得训练过程中没有丢失原始输入的Mel频谱信息,实现完美重构;通过两个约束模型通编码器和解码器结合训练,确保了内容、音色和韵律三个语音特征的可提取性;并且采用鉴别器进一步的确保了内容、音色和韵律三个语音特征的可提取性;本发明针对不同内容的音频进行语音转换时,不涉及配对数据的训练,模型训练过程仅仅重构自身,故实现了高效的语音转换;并实现所有语音特征的分离,以及针对语音风格进行转换。
2.本发明不需要预先设定任何条件,即可实现对语音转换系统的训练,在实际应用中可以直接调用训练好的模型进行语音转换。
3.通过利用ProSparse Attention模块,使得模型训练时间大大降低;进一步的提高了语音转换的效率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的系统框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1对本发明的实施例作详细描述;
一种基于自动编码器框架的语音转换方法,包括以下步骤:
步骤1:基于开源的音频处理库,提取音频的Mel频谱特征作为数据集;每条所述的音频对应的Mel频谱为480*80维的矩阵。
步骤2:搭建由编码器、解码器、鉴别器和分别针对音色和韵律的两个约束模型组成的系统框架;所述编码器、解码器、约束模型和鉴别器均是基于Informer:AAAI2021 bestpaper的标准搭建而成。系统框架的网络结构有2层或3层ProSparse Attention模块堆叠组成。
通过利用ProSparse Attention模块,使得模型训练时间大大降低;进一步的提高了语音转换的效率。
步骤3:将步骤1中的数据集输入步骤2搭建的系统中,进行约束模型的训练,直至损失函数收敛,提取源说话人和目标说话人对应的语音特征;
所述步骤3包括以下步骤:
步骤3.1:编码器输出一个长度为160*1的向量;
步骤3.2:按照90、35、35的长度将步骤3.1中的向量切分为三段,分别代表内容、音色和韵律的编码;
步骤3.3:将音色的编码和韵律的编码输入到对应的约束模型中,基于真实的音色向量和韵律向量进行监督训练;
步骤3.4:将步骤3.2确定的内容、音色和韵律的编码同时输入到鉴别器中进行训练,直到三个编码的分布被鉴别器判定为三个不同的类别。
步骤3中所述的损失函数分别为:第一个是编码器和解码器的重构损失,编码器接受真实的Mel频谱作为输入,编码器和解码器的训练目标是重构相应的Mel频谱;第二个是音色约束的损失函数;第三个是韵律约束的损失函数;第四个是针对分类任务的鉴别器的损失函数。
步骤4:基于步骤3中训练好的模型提取语音特征,并替换源韵律编码为目标编码,完成语音转换任务。
所述步骤4包括以下步骤:
步骤4.1:记一条源音频为A0,通过librosa库处理后,该音频对应的Mel频谱记为X0;
步骤4.2:记一条目标音频为A1,通过librosa库处理后,该音频对应的Mel频谱记为X1;
步骤4.3:将X0输入到系统的编码器部分,输出长度为160*1的向量V0;将X1输入到模型的编码器部分,输出长度为160*1的向量V1;
步骤4.4:按照90、35和35的长度将V0和V1分别切分为V0c,V0t,V0p和V1c,V1t,V1p,分别代表源音频和目标音频的内容、音色和韵律的编码;
步骤4.5:组合目标韵律编码、源内容编码和源音色编码,将其输入到系统的解码器部分,输出转换后的Mel频谱。
本发明所搭建的系统框架仅包括一个编码器,使得训练过程中没有丢失原始输入的Mel频谱信息,实现完美重构;通过两个约束模型通编码器和解码器结合训练,确保了内容、音色和韵律三个语音特征的可提取性;并且采用鉴别器进一步的确保了内容、音色和韵律三个语音特征的可提取性;本发明针对不同内容的音频进行语音转换时,不涉及配对数据的训练,模型训练过程仅仅重构自身,故实现了高效的语音转换。
本发明将Mel频谱输入到系统中进行训练。在训练过程中,编码器输出的是一个长度为160*1的向量,会被切分为三段(90、35、35),分别代表内容、音色和韵律的编码,然后分别将音色的编码和韵律的编码输入到对应的约束模型中,基于真实的音色向量和韵律向量进行监督训练,使得从大向量中切分出的该部分分量和真实的语音特征足够接近。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (7)
1.一种基于自动编码器框架的语音转换方法,其特征在于,包括以下步骤:
步骤1:基于开源的音频处理库,提取音频的Mel频谱特征作为数据集;
步骤2:搭建由编码器、解码器、鉴别器和分别针对音色和韵律的两个约束模型组成的系统框架;
步骤3:将步骤1中的数据集输入步骤2搭建的系统中,进行约束模型的训练,直至损失函数收敛,提取源说话人和目标说话人对应的语音特征;
步骤4:基于步骤3提取的语音特征,替换源韵律编码为目标编码,完成语音转换任务。
2.根据权利要求1所述的一种基于自动编码器框架的语音转换方法,其特征在于,所述编码器、解码器、约束模型和鉴别器均是基于Informer:AAAI2021 best paper的标准搭建而成。
3.根据权利要求2所述的一种基于自动编码器框架的语音转换方法,其特征在于,步骤2中系统框架的网络结构有2层或3层ProSparse Attention模块堆叠组成。
4.根据权利要求1所述的一种基于自动编码器框架的语音转换方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1:编码器输出一个长度为160*1的向量;
步骤3.2:按照90、35、35的长度将步骤3.1中的向量切分为三段,分别代表内容、音色和韵律的编码;
步骤3.3:将音色的编码和韵律的编码输入到对应的约束模型中,基于真实的音色向量和韵律向量进行监督训练;
步骤3.4:将步骤3.2确定的内容、音色和韵律的编码均输入到鉴别器中进行训练,直到三个编码的分布被鉴别器判定为三个不同的类别。
5.根据权利要求1所述的一种基于自动编码器框架的语音转换方法,其特征在于,步骤3中所述的损失函数分别为:第一个是编码器和解码器的重构损失,编码器接受真实的Mel频谱作为输入,编码器和解码器的训练目标是重构相应的Mel频谱;第二个是音色约束的损失函数;第三个是韵律约束的损失函数;第四个是针对分类任务的鉴别器的损失函数。
6.根据权利要求1所述的一种基于自动编码器框架的语音转换方法,其特征在于,所述步骤4包括以下步骤:
步骤4.1:记一条源音频为A0,通过librosa库处理后,该音频对应的Mel频谱记为X0;
步骤4.2:记一条目标音频为A1,通过librosa库处理后,该音频对应的Mel频谱记为X1;
步骤4.3:将X0输入到系统的编码器部分,输出长度为160*1的向量V0;将X1输入到约束模型的编码器部分,输出长度为160*1的向量V1;
步骤4.4:按照90、35和35的长度将V0和V1分别切分为V0c,V0t,V0p和V1c,V1t,V1p,分别代表源音频和目标音频的内容、音色和韵律的编码;
步骤4.5:组合目标韵律编码、源内容编码和源音色编码,将其输入到系统的解码器部分,输出转换后的Mel频谱。
7.根据权利要求1所述的一种基于自动编码器框架的语音转换方法,其特征在于,步骤1中每条所述的音频对应的Mel频谱为480*80维的矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262860.9A CN113921025A (zh) | 2021-10-28 | 2021-10-28 | 一种基于自动编码器框架的语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262860.9A CN113921025A (zh) | 2021-10-28 | 2021-10-28 | 一种基于自动编码器框架的语音转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113921025A true CN113921025A (zh) | 2022-01-11 |
Family
ID=79243342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111262860.9A Pending CN113921025A (zh) | 2021-10-28 | 2021-10-28 | 一种基于自动编码器框架的语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113921025A (zh) |
-
2021
- 2021-10-28 CN CN202111262860.9A patent/CN113921025A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112863483B (zh) | 支持多说话人风格、语言切换且韵律可控的语音合成装置 | |
CN112037754B (zh) | 一种语音合成训练数据的生成方法及相关设备 | |
CN107545903B (zh) | 一种基于深度学习的语音转换方法 | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
JP4246790B2 (ja) | 音声合成装置 | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
CN110335587A (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
CN113012678B (zh) | 一种免标注的特定说话人语音合成方法及装置 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
Zhou et al. | Limited data emotional voice conversion leveraging text-to-speech: Two-stage sequence-to-sequence training | |
CN109102796A (zh) | 一种语音合成方法及装置 | |
CN109671423A (zh) | 训练数据有限情形下的非平行文本语音转换方法 | |
CN114267329A (zh) | 基于概率生成和非自回归模型的多说话人语音合成方法 | |
CN117496944B (zh) | 一种多情感多说话人语音合成方法和系统 | |
CN114842825A (zh) | 情感迁移语音合成方法及系统 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
Zhang et al. | AccentSpeech: Learning accent from crowd-sourced data for target speaker TTS with accents | |
CN117095669A (zh) | 基于变分自动编码的情感语音合成方法、系统、设备及介质 | |
CN113921025A (zh) | 一种基于自动编码器框架的语音转换方法 | |
CN110047463A (zh) | 一种语音合成方法、装置和电子设备 | |
CN115376533A (zh) | 一种用于个性化语音生成的语音转换方法 | |
CN117894294B (zh) | 拟人化的副语言语音合成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |