CN112712789A - 跨语言音频转换方法、装置、计算机设备和存储介质 - Google Patents
跨语言音频转换方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112712789A CN112712789A CN202011516681.9A CN202011516681A CN112712789A CN 112712789 A CN112712789 A CN 112712789A CN 202011516681 A CN202011516681 A CN 202011516681A CN 112712789 A CN112712789 A CN 112712789A
- Authority
- CN
- China
- Prior art keywords
- audio
- training
- target
- text
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 224
- 238000001228 spectrum Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000003786 synthesis reaction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例公开了一种跨语言音频转换方法、装置、计算机设备和存储介质。该方法包括:获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;将所述待转换文本转换为合成音频;对所述合成音频进行预处理得到合成音频特征;将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;将所述目标音频特征转换为模拟所述目标语音的目标文本语音。本发明实施例实现了跨语言的合成目标用户语音。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种跨语言音频转换方法、装置、计算机设备和存储介质。
背景技术
机器学习与深度学习依靠海量数据和计算机强大的处理能力,在图像、语音、文本等领域取得了重大突破。由于同类型框架在不同领域都能取得很好的效果,曾被用于解决文本和图像问题的神经网络算法模型都被应用于语音领域。
现有的应用于语音领域的神经网络算法模型可以根据目标说话人的声音捕捉其特征,从而稳定合成目标说话人的其他语音,并且在音色相似度和语言自然度方面都接近真人的水平,但是合成的语音只能是与目标说话人的语言相同的语音,无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音,如果目标说话人只会说中文,则只能合成出中文的语音,无法合成其他国家语言的语音。
发明内容
基于此,有必要针对上述问题,提出了一种跨语言音频转换方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供一种跨语言音频转换方法,所述方法包括:
获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;
将所述待转换文本转换为合成音频;
对所述合成音频进行预处理得到合成音频特征;
将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;
将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
第二方面,本发明实施例提供一种跨语言音频转换装置,所述装置包括:
文本获取模块,用于获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;
文本转换模块,用于将所述待转换文本转换为合成音频;
特征获取模块,用于对所述合成音频进行预处理得到合成音频特征;
特征转换模块,用于将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;
语音模拟模块,用于将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
第三方面,本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;
将所述待转换文本转换为合成音频;
对所述合成音频进行预处理得到合成音频特征;
将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;
将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
第四方面,本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;
将所述待转换文本转换为合成音频;
对所述合成音频进行预处理得到合成音频特征;
将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;
将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
本发明实施例通过获取包括至少一种语言的待转换文本,并转化为合成音频以作为目标文本语音的原始音频,获取目标用户的目标语音作为目标文本语音的用户语音特征,将两者输入至用预先训练好的音频转换模型得到模拟用户发出的目标语音的目标文本语音,解决了无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音的问题,获得了跨语言的合成目标用户语音的有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中跨语言音频转换方法的应用环境图;
图2为一个实施例中跨语言音频转换方法的流程图;
图3为一个实施例中跨语言音频转换方法中步骤S130的流程图;
图4为一个实施例中跨语言音频转换方法中步骤S210的流程图;
图5为一个实施例中跨语言音频转换方法中步骤S210的流程图;
图6为一个实施例中音频转换模型训练方法的流程图;
图7为一个实施例中音频转换模型训练方法中步骤S550的流程图;
图8为一个实施例中跨语言音频转换装置的结构框图;
图9为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中跨语言音频转换方法的应用环境图。参照图1,该跨语言音频转换方法应用于跨语言音频转换系统。该跨语言音频转换系统包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取待转换文本和目标用户的目标语音并上传到服务器120,所述待转换文本包括至少一种语言,服务器120用于接收待转换文本和目标用户的目标语音;将所述待转换文本转换为合成音频;对所述合成音频进行预处理得到合成音频特征;将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
在另一个实施例中,上述跨语言音频转换方法也可以直接应用于终端110,终端110用于获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;将所述待转换文本转换为合成音频;对所述合成音频进行预处理得到合成音频特征;将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
如图2所示,在一个实施例中,提供了一种跨语言音频转换方法。该方法既可以应用于终端,也可以应用于服务器,本实施例以应用于终端举例说明。该跨语言音频转换方法具体包括如下步骤:
S110、获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言。
本实施例中,在执行跨语言音频转换方法时,用户可以在移动设备,例如手机上执行,首先用户需要输入待转换文本和目标用户的目标语音,其中待转换文本是用户最后希望获得的语音内容,目标用户的目标语音是用户最后希望获得的语音声音的声音特征。此外,待转换文本包括至少一种语言,即待转换文本可以是中文,也可以是英文,还可以是英文加中文等等。示例性的,用户想要获取只会说中文的甲,说出“Yes”的目标文本语音,只需要待转换文本输入文本“Yes”和甲的目标语音,该目标语音可以为甲说的任意一段中文语音。
S120、将所述待转换文本转换为合成音频。
S130、对所述合成音频进行预处理得到合成音频特征。
本实施例中,在获得待转换文本和目标用户的目标语音后,首先需要对待转换文本进行处理,将待转换文本转换为合成音频,具体的,采用TTS(TextToSpeech,从文本到语音)技术将待转换文本转换为合成音频,然后对合成音频进行预处理得到合成音频特征,其中,合成音频特征为合成梅尔倒频谱,需要将得到的合成音频转换为合成梅尔倒频谱,以方便输入神经网络模型中。
需要说明的是,若直接让用户朗读待转换文本的音频作为后续音频转换模型的输入音频,因用户自身的原因可能对输入音频产生的干扰,例如咳嗽、吐字不清等,本发明实施例通过将待转换文本转换为清晰准确的合成音频,排除了因用户自身的原因产生的干扰,而获取的目标语音只用于提取目标用户的语音特征。
S140、将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征。
S150、将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
本实施例中,在得到合成音频特征后,即合成梅尔倒频谱,也需要将目标语音同样转换为梅尔倒频谱,然后一起输入至预先训练好的音频转换模型中,该音频转换模型将会输出目标音频特征,其中,目标音频特征为目标梅尔倒频谱,音频转换模型为神经网络模型,预先经过大量训练用户的语音和训练文本的训练。最后得到的目标梅尔倒频谱还需要经过其他的预设神经网络模型转换为目标文本语音,目标文本语音为模拟所述目标语音的声音特征发出的待转换文本内容的语音,其中其他的预设神经网络模型可以为WaveNet神经网络模型,也可以为WaveRNN神经网络模型等等。
本发明实施例通过获取包括至少一种语言的待转换文本,并转化为合成音频以作为目标文本语音的原始音频,获取目标用户的目标语音作为目标文本语音的用户语音特征,将两者输入至用预先训练好的音频转换模型得到模拟用户发出的目标语音的目标文本语音,解决了无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音的问题,获得了跨语言的合成目标用户语音的有益效果。
在一个实施例中,如图3所示,步骤S130具体包括:
S210、对所述合成音频进行短时傅里叶变换得到幅度谱。
S220、对所述幅度谱进行滤波得到梅尔频谱。
S230、对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱,作为合成音频特征。
本实施例中,在将合成音频进行预处理得到合成音频特征时,具体的,首先需要对合成音频进行短时傅里叶变换,合成音频经过短时傅里叶变换得到幅度谱和相位谱,将合成音频的波形从时域转换到频域,方便语音特征的提取,只取其中的幅度谱进行滤波就可以得到梅尔频谱,其中进行滤波时采用的滤波器可以为Filter Bank(滤波器组),FilterBank基于人对高频声音更敏感的原则,在低频处滤波器更密集,门限值大,而高频处滤波器更稀疏,门限值小,滤波结果更适符合人声。为了获得更接近人类发声机制的特征,更接近人类非线性的听觉系统,最后还需要对梅尔频谱进行倒谱分析,得到梅尔倒频谱(MFC,Mel-Frequency Spectrum),将该合成梅尔倒频谱作为合成音频特征。需要说明的是,对目标语音需要进行与合成音频相同的处理,本发明实施例在此不再赘述。
本发明实施例通过将合成音频转换为梅尔倒频谱,不仅更接近人类发声机制的特征和非线性的听觉系统,还有利于神经网络模型的训练和输入输出。
在一个实施例中,如图4所示,步骤S210具体包括:
S310、减去所述合成音频中的首尾空白部分得到修正合成音频。
S320、对所述修正合成音频进行短时傅里叶变换得到幅度谱。
本实施例中,因合成音频中首尾部分会存在空白部分,为了让音频转换模型更好的对齐学习和转换,在对合成音频进行短时傅里叶变换得到幅度谱时,在此之前还需要减去合成音频中的首尾空白部分得到修正合成音频,然后对修正合成音频进行短时傅里叶变换得到幅度谱。
在一个实施例中,如图5所示,步骤S210具体还可以包括:
S410、对所述合成音频进行预加重、分帧和加窗得到修正合成音频。
S420、对所述修正合成音频进行短时傅里叶变换得到幅度谱。
本实施例中,为了更好的适应短时傅里叶变换,在对合成音频进行短时傅里叶变换之前,还需要对合成音频进行预加重、分帧和加窗得到修正合成音频,经过预加重,可以使合成音频添加高频信息,并过滤掉一部分噪音,经过分帧和加窗,可以使合成音频更平稳和连续,最后对修正合成音频进行短时傅里叶变换得到幅度谱。其中,本发明实施例中的步骤S410和S420可以在步骤S310之后共同执行。
如图6所示,在一个实施例中,提供了一种音频转换模型训练方法。该方法既可以应用于终端,也可以应用于服务器,本实施例以应用于终端举例说明。该音频转换模型训练具体包括如下步骤:
S510、获取训练文本和训练用户的训练语音,所述训练文本包括至少一种语言。
S520、将所述训练文本转换为训练合成音频。
S530、对所述训练合成音频进行预处理得到训练合成音频特征。
S540、基于所述训练语音生成训练目标语音特征。
S550、基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
本实施例中,在训练该音频转换模型时,首先需要获取训练文本和训练用户的训练语音,其中,训练文本和训练用户的训练语音一一对应,训练文本包括至少一种语言,若在使用该音频转换模型的过程中想要实现跨语言的语音转换,则训练文本包括至少两种语言,且实际使用时的待转换文本对应的语言也被包括在训练文本中。若训练文本只有一种语言,在使用该音频转换模型时得到的目标文本语音会是使用目标语音的语言中,最接近待转换文本的语言。例如,训练文本只包括英文,相应的训练语音也只包括英文,若待转换文本为中文,目标语音为英文,那么最后得到的目标文本语音是使用最接近该待转换文本的中文发音的英文语音。
示例性的,训练文本中包括“YES”,那么训练语音中也包括训练用户发出“YES”的训练语音,训练文本中包括“YES先生”,那么练语音中也包括训练用户发出“YES先生”的训练语音,此外在训练时可获取多个训练用户的训练语音。作为优选的,训练用户包括步骤S110中的目标用户,使得该音频转换模型在训练时使用了目标用户作为训练数据集,如此在使用该音频转换模型获得基于目标用户的目标文本语音时,准确率大大提高,即使训练用户不包括步骤S110中的目标用户,在该音频转换模型的训练数据集数量足够大的时候,音频转换模型也会根据与目标用户声音特征最接近的训练用户作为输出结果,其相似度也得到了保证。
进一步的,得到训练文本和训练语音后,需要将训练文本转换为训练合成音频,对训练合成音频进行预处理得到训练合成音频特征,还需要基于训练语音生成训练目标语音特征,其中训练合成音频特征为训练合成梅尔倒频谱,训练目标语音特征包括训练目标梅尔倒频谱,其具体的转换和预处理方法与步骤S120和S130相同,本发明实施例对此不再赘述,其中,训练文本和训练语音是一一对应的,即训练合成音频和训练语音的说话内容是相同的,但是语音特征不同。最后就可以基于训练合成音频特征和训练目标语音特征训练音频转换模型,将训练合成音频特征作为输入,将训练目标语音特征作为输出训练该音频转换模型。
在一个实施例中,如图7所示,步骤S550具体还可以包括:
S610、将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量。
S620、将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的。
S630、将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱。
S640、计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失。
S650、根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重,直至所述音频转换模型收敛。
本实施例中,音频转换模型包括第一编码器、第二编码器和解码器。具体基于训练合成音频特征和训练目标语音特征训练音频转换模型时,首先将得到的训练合成音频特征,即训练合成梅尔倒频谱输入至第一编码器,第一编码器会输出第一向量,第一向量的向量长度取批处理(Btach)中输入序列长度的最大数值,其余不够长的序列在后面补0。然后将部分训练目标梅尔倒频谱输入至第二编码器,第二编码器会输出第二向量,其中部分训练目标梅尔倒频谱为训练目标语音特征,即训练目标梅尔倒频谱中随机截取得到的。具体的,将训练语音转换为梅尔倒频谱后,随机选取该训练用户的梅尔倒频谱的预设个数的截取片段,将这些截取片段拼接后作为目标语音特征部分训练目标梅尔倒频谱,需要说明的是,进行随机截取时的目标可以是与训练合成音频特征对应的训练目标语音特征,即训练合成音频特征与训练目标语音特征对应的说话内容是相同的,也可以是不对应的,本发明实施例对此不作限制。进一步的,在音频转换模型中得到第一向量和第二向量后,将第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱,并计算训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失,根据该训练损失进行反向传播以更新所述音频转换模型的训练权重,直至所述音频转换模型收敛。
具体的,第一编码器包括2层CNN模型、5层Bi-LSTM模型,以及Linear Projection(线性投影)层和batch normalization(批标准化)层,第二编码器包括3层LSTM模型、1层Linear模型,以及池化层和标准化层,解码器包括Pre-Net(去雨网络)、Attention模型、LSTM模型、Linear模型、Post-Net、池化层和输出层。
进一步的,为了说明采用合成音频作为音频转换模型的输入可以排除因用户自身的原因产生的干扰,在训练该音频转换模型的过程中,假设输入的训练合成音频特征的特征序列为x=(x1,x2,…,xn),这里的n代表训练合成梅尔倒频谱的时间序列上的第n帧,音频转换模型预测的训练预测特征的特征序列为y=(y1,y2,…,ym),同样,这里的m也代表训练预测梅尔倒频谱的时间序列上的第m帧。我们希望音频转换模型预测的特征序列能尽量接近训练目标语音特征的目标特征序列这里我们假设输入特征序列的每一帧中都包含两个隐含变量,一个隐含变量是输入音频的语音内容c=(c1,c2,…,cn),另一个隐含变量是输入音频的语音特征s=(s1,s2,…,si),而在目标序列中同样包含目标用户的目标语音特征其中i表示输入音频,t表示目标用户,i∈{1,2,…,j},t∈{1,2,…,k},其中的j表示整个训练数据集中输入音频的数量,k表示整个训练数据集中目标用户的数量。
音频转换模型中的第一编码器的作用是将输入音频的语音特征si从输入序列中剔除,只保留说话内容c,则输入序列可以表示为如下形式:
由于我们使用了TTS合成语音转真人语音的方法,来达到分离用户的语音特征和语音内容的目的,因为在输入音频的语音特征只有一个,即该合成音频的语音特征,我们设其为s0,可认为s0是一个常量。根据贝叶斯定理,公式(1)可变为:
对于预测序列y,用同样的方法可以表示为:
其中,是第二编码器的输出,而c是第一编码器的输出,二者组合在一起作为解码器的输入,最后由解码器输出预测的序列y。由于c和是来自于两个序列,可以认为这两者相互独立。因此结合公式(2)和(3),可以得到:
如图8所示,在一个实施例中,提供了一种跨语言音频转换装置,该实施例提供的跨语言音频转换装置可执行本发明任意实施例所提供的跨语言音频转换方法,具备执行方法相应的功能模块和有益效果。该跨语言音频转换装置包括文本获取模块100、文本转换模块200、特征获取模块300、特征转换模块400、语音模拟模块500。
具体的,文本获取模块100用于获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;文本转换模块200用于将所述待转换文本转换为合成音频;特征获取模块300用于对所述合成音频进行预处理得到合成音频特征;特征转换模块400用于将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;语音模拟模块500用于将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
在一个实施例中,上述装置还包括模型训练模块600,该模型训练模块600用于获取训练文本和训练用户的训练语音,所述训练文本包括至少一种语言;将所述训练文本转换为训练合成音频;对所述训练合成音频进行预处理得到训练合成音频特征;基于所述训练语音生成训练目标语音特征;基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
在一个实施例中,所述训练合成音频特征为训练合成梅尔倒频谱,所述训练目标语音特征为训练目标梅尔倒频谱,所述音频转换模型包括第一编码器、第二编码器和解码器,模型训练模块600具体用于将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱;计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失;根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重,直至所述音频转换模型收敛。
在一个实施例中,所述合成音频特征为合成梅尔倒频谱,所述目标音频特征为目标梅尔倒频谱。
在一个实施例中,特征获取模块300具体用于对所述合成音频进行短时傅里叶变换得到幅度谱;对所述幅度谱进行滤波得到梅尔频谱;对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱,作为合成音频特征。
在一个实施例中,特征获取模块300具体还用于减去所述合成音频中的首尾空白部分得到修正合成音频;对所述修正合成音频进行短时傅里叶变换得到幅度谱。
在一个实施例中,特征获取模块300具体还用于对所述合成音频进行预加重、分帧和加窗得到修正合成音频;对所述修正合成音频进行短时傅里叶变换得到幅度谱。
图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图9所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现跨语言音频转换方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行跨语言音频转换方法。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;将所述待转换文本转换为合成音频;对所述合成音频进行预处理得到合成音频特征;将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
在一个实施例中,所述音频转换模型的训练包括:
获取训练文本和训练用户的训练语音,所述训练文本包括至少一种语言;将所述训练文本转换为训练合成音频;对所述训练合成音频进行预处理得到训练合成音频特征;基于所述训练语音生成训练目标语音特征;基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
在一个实施例中,所述训练合成音频特征为训练合成梅尔倒频谱,所述训练目标语音特征为训练目标梅尔倒频谱,所述音频转换模型包括第一编码器、第二编码器和解码器,所述基于所述训练合成音频特征和训练目标语音特征训练音频转换模型包括:
将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱;计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失;根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重,直至所述音频转换模型收敛。
在一个实施例中,所述合成音频特征为合成梅尔倒频谱,所述目标音频特征为目标梅尔倒频谱。
在一个实施例中,所述对所述合成音频进行预处理得到合成音频特征包括:
对所述合成音频进行短时傅里叶变换得到幅度谱;对所述幅度谱进行滤波得到梅尔频谱;对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱,作为合成音频特征。
在一个实施例中,所述对所述合成音频进行短时傅里叶变换得到幅度谱包括:
减去所述合成音频中的首尾空白部分得到修正合成音频;对所述修正合成音频进行短时傅里叶变换得到幅度谱。
在一个实施例中,所述对所述合成音频进行短时傅里叶变换得到幅度谱包括:
对所述合成音频进行预加重、分帧和加窗得到修正合成音频;对所述修正合成音频进行短时傅里叶变换得到幅度谱。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;将所述待转换文本转换为合成音频;对所述合成音频进行预处理得到合成音频特征;将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
在一个实施例中,所述音频转换模型的训练包括:
获取训练文本和训练用户的训练语音,所述训练文本包括至少一种语言;将所述训练文本转换为训练合成音频;对所述训练合成音频进行预处理得到训练合成音频特征;基于所述训练语音生成训练目标语音特征;基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
在一个实施例中,所述训练合成音频特征为训练合成梅尔倒频谱,所述训练目标语音特征为训练目标梅尔倒频谱,所述音频转换模型包括第一编码器、第二编码器和解码器,所述基于所述训练合成音频特征和训练目标语音特征训练音频转换模型包括:
将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱;计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失;根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重,直至所述音频转换模型收敛。
在一个实施例中,所述合成音频特征为合成梅尔倒频谱,所述目标音频特征为目标梅尔倒频谱。
在一个实施例中,所述对所述合成音频进行预处理得到合成音频特征包括:
对所述合成音频进行短时傅里叶变换得到幅度谱;对所述幅度谱进行滤波得到梅尔频谱;对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱,作为合成音频特征。
在一个实施例中,所述对所述合成音频进行短时傅里叶变换得到幅度谱包括:
减去所述合成音频中的首尾空白部分得到修正合成音频;对所述修正合成音频进行短时傅里叶变换得到幅度谱。
在一个实施例中,所述对所述合成音频进行短时傅里叶变换得到幅度谱包括:
对所述合成音频进行预加重、分帧和加窗得到修正合成音频;对所述修正合成音频进行短时傅里叶变换得到幅度谱。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。请输入具体实施内容部分。
Claims (10)
1.一种跨语言音频转换方法,其特征在于,所述方法包括:
获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;
将所述待转换文本转换为合成音频;
对所述合成音频进行预处理得到合成音频特征;
将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;
将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
2.根据权利要求1所述的方法,其特征在于,所述音频转换模型的训练包括:
获取训练文本和训练用户的训练语音,所述训练文本包括至少一种语言;
将所述训练文本转换为训练合成音频;
对所述训练合成音频进行预处理得到训练合成音频特征;
基于所述训练语音生成训练目标语音特征;
基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
3.根据权利要求2所述的方法,其特征在于,所述训练合成音频特征为训练合成梅尔倒频谱,所述训练目标语音特征为训练目标梅尔倒频谱,所述音频转换模型包括第一编码器、第二编码器和解码器,所述基于所述训练合成音频特征和训练目标语音特征训练音频转换模型包括:
将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量;
将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的;
将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱;
计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失;
根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重,直至所述音频转换模型收敛。
4.根据权利要求1所述的方法,其特征在于,所述合成音频特征为合成梅尔倒频谱,所述目标音频特征为目标梅尔倒频谱。
5.根据权利要求4所述的方法,其特征在于,所述对所述合成音频进行预处理得到合成音频特征包括:
对所述合成音频进行短时傅里叶变换得到幅度谱;
对所述幅度谱进行滤波得到梅尔频谱;
对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱,作为合成音频特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述合成音频进行短时傅里叶变换得到幅度谱包括:
减去所述合成音频中的首尾空白部分得到修正合成音频;
对所述修正合成音频进行短时傅里叶变换得到幅度谱。
7.根据权利要求5所述的方法,其特征在于,所述对所述合成音频进行短时傅里叶变换得到幅度谱包括:
对所述合成音频进行预加重、分帧和加窗得到修正合成音频;
对所述修正合成音频进行短时傅里叶变换得到幅度谱。
8.一种跨语言音频转换装置,其特征在于,所述装置包括:
文本获取模块,用于获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;
文本转换模块,用于将所述待转换文本转换为合成音频;
特征获取模块,用于对所述合成音频进行预处理得到合成音频特征;
特征转换模块,用于将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;
语音模拟模块,用于将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011516681.9A CN112712789B (zh) | 2020-12-21 | 2020-12-21 | 跨语言音频转换方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011516681.9A CN112712789B (zh) | 2020-12-21 | 2020-12-21 | 跨语言音频转换方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712789A true CN112712789A (zh) | 2021-04-27 |
CN112712789B CN112712789B (zh) | 2024-05-03 |
Family
ID=75544777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011516681.9A Active CN112712789B (zh) | 2020-12-21 | 2020-12-21 | 跨语言音频转换方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712789B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327579A (zh) * | 2021-08-03 | 2021-08-31 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN113539239A (zh) * | 2021-07-12 | 2021-10-22 | 网易(杭州)网络有限公司 | 语音转换方法、装置、存储介质及电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其系统 |
JP2018084604A (ja) * | 2016-11-21 | 2018-05-31 | 日本電信電話株式会社 | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム |
WO2019139431A1 (ko) * | 2018-01-11 | 2019-07-18 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 |
WO2019245916A1 (en) * | 2018-06-19 | 2019-12-26 | Georgetown University | Method and system for parametric speech synthesis |
WO2020027619A1 (ko) * | 2018-08-02 | 2020-02-06 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
CN111247585A (zh) * | 2019-12-27 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
CN111247581A (zh) * | 2019-12-23 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种多语言文本合成语音方法、装置、设备及存储介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
WO2020147404A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
-
2020
- 2020-12-21 CN CN202011516681.9A patent/CN112712789B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其系统 |
JP2018084604A (ja) * | 2016-11-21 | 2018-05-31 | 日本電信電話株式会社 | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム |
WO2019139431A1 (ko) * | 2018-01-11 | 2019-07-18 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 |
WO2019245916A1 (en) * | 2018-06-19 | 2019-12-26 | Georgetown University | Method and system for parametric speech synthesis |
WO2020027619A1 (ko) * | 2018-08-02 | 2020-02-06 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
WO2020147404A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
CN111247581A (zh) * | 2019-12-23 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种多语言文本合成语音方法、装置、设备及存储介质 |
CN111247585A (zh) * | 2019-12-27 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
Non-Patent Citations (1)
Title |
---|
苏乙拉其其格: "《基于深度学习的蒙古语语音转换系统》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 09, 15 September 2019 (2019-09-15), pages 1 - 56 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539239A (zh) * | 2021-07-12 | 2021-10-22 | 网易(杭州)网络有限公司 | 语音转换方法、装置、存储介质及电子设备 |
CN113539239B (zh) * | 2021-07-12 | 2024-05-28 | 网易(杭州)网络有限公司 | 语音转换方法、装置、存储介质及电子设备 |
CN113327579A (zh) * | 2021-08-03 | 2021-08-31 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112712789B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020215666A1 (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
WO2021225829A1 (en) | Speech recognition using unspoken text and speech synthesis | |
CN111899719A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN108231062B (zh) | 一种语音翻译方法及装置 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
CN116034424A (zh) | 两级语音韵律迁移 | |
CN112786007A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN110930975B (zh) | 用于输出信息的方法和装置 | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN112530400A (zh) | 基于深度学习的文本生成语音的方法、系统、装置及介质 | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
CN112712789B (zh) | 跨语言音频转换方法、装置、计算机设备和存储介质 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
CN114255740A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
US20240169973A1 (en) | Method and device for speech synthesis based on multi-speaker training data sets | |
CN114387945A (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
CN113506586A (zh) | 用户情绪识别的方法和系统 | |
CN112767912A (zh) | 跨语言语音转换方法、装置、计算机设备和存储介质 | |
CN113948062B (zh) | 数据转换方法及计算机存储介质 | |
CN113314097B (zh) | 语音合成方法、语音合成模型处理方法、装置和电子设备 | |
CN113539239B (zh) | 语音转换方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |