CN113066511B - 一种语音转换方法、装置、电子设备和存储介质 - Google Patents
一种语音转换方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113066511B CN113066511B CN202110284443.8A CN202110284443A CN113066511B CN 113066511 B CN113066511 B CN 113066511B CN 202110284443 A CN202110284443 A CN 202110284443A CN 113066511 B CN113066511 B CN 113066511B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- level
- fundamental frequency
- frame
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 37
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims abstract description 37
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 17
- 230000008451 emotion Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 9
- 238000012512 characterization method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种语音转换方法、装置、电子设备和存储介质,该方法包括:通过获取源说话人语音数据;基于语音数据确定源说话人对应的语音文本和每个音素的时长;从语音文本中获取第一音素表征;从语音数据中确定第一音素级别的基频信息和第一音素级别的能量信息;将第一音素表征、每个音素的时长、第一音素级别的基频信息和第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数;将第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音。本申请实施例中使用源说话人对应的数据进行处理,可以保留源说话人的发音内容,在转换时加入了源说话人的时长、基频和能量信息,可以体现源说话人的情感。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种语音转换方法、装置、电子设备和存储介质。
背景技术
目前,有源说话人和目标说话人一定量的数据,训练转换模型;对输入的语音进行识别,得到文本,然后使用特定说话人的合成模型合成,得到转换后的语音。需要源说话人的训练数据,并且需要事先训练好转换模型;由于是使用特定说话人的合成模型合成得到转换语音,没有考虑源说话人的韵律信息,转换后的语音不能很好的体现源说话人的情感。
发明内容
本发明提供一种语音转换方法、装置、电子设备和存储介质,能够解决上述不能很好的体现源说话人的情感的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种语音转换方法,应用于将源说话人语音转换为目标说话人语音,包括:
获取源说话人语音数据;
基于语音数据确定源说话人对应的语音文本和每个音素的时长;
从语音文本中获取第一音素表征;
从语音数据中获取第一帧级别的基频信息和第一帧级别的能量信息;基于所述第一帧级别的基频信息和第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息;
将第一音素表征、每个音素的时长、第一音素级别的基频信息和第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数;
将第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音。
在一些实施例中,目标端到端合成模型的训练步骤如下:
获取多个文本和多个语音对;
基于多个文本确定多个文本对应的第二音素表征和多个文本对应的每个音素的时长;
从多个语音中获取第二帧级别的基频信息和第二帧级别的能量信息;
基于第二帧级别的基频信息和第二帧级别的能量信息确定第二音素级别的基频信息和第二音素级别的能量信息;
从多个语音中提取第二频谱参数;
将第二音素表征、多个文本对应的每个音素的时长、第二音素级别的基频信息和能量信息作为输入,第二频谱参数作为输出,训练得到基础端到端合成模型;
将目标说话人对应的第三音素表征、第三音素时长、第三音素级别的基频信息和第三音素级别的能量信息作为输入,从目标说话人语音中提取的第三频谱参数作为输出,对基础端到端合成模型进行重训练,得到目标端到端合成模型。
在一些实施例中,所述目标神经网络声码器模型的训练步骤如下:
以第二频谱参数作为输入,多个语音作为输出,训练得到基础神经网络声码器;
使用第三频谱参数作为输入,目标说话人语音作为输出,对基础神经网络声码器进行重训练,得到目标神经网络声码器。
在一些实施例中,基于所述第一帧级别的基频信息和所述第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息,包括:
获取每个音素中第一帧基频值、中间一帧基频值、最后一帧基频值和该音素中所有帧基频均值,组合成向量得到第一音素级别的基频信息;
获取每个音素中第一帧能量值、中间一帧能量值、最后一帧能量值和该音素中所有帧能量均值,组合成向量得到第一音素级别的基频信息。
在一些实施例中,所述方法还包括:对第一帧级别的基频信息进行调域调整。
第二方面,本发明实施例还提供了一种语音转换装置,应用于将源说话人语音转换为目标说话人语音,包括:
第一获取模块:用于获取源说话人语音数据;
第一确定模块:用于基于语音数据确定源说话人对应的语音文本和每个音素的时长;
第二获取模块:用于从语音文本中获取第一音素表征;语音数据中获取第一帧级别的基频信息和第一帧级别的能量信息;
第二确定模块:用于基于第一帧级别的基频信息和所述第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息;
生成模块:用于将所述第一音素表征、所述每个音素的时长、所述第一音素级别的基频信息和所述第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数;
第三确定模块:用于将第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音。
在一些实施例中,上述装置中的生成模块还用于:
获取多个文本和多个语音对;
基于多个文本确定多个文本对应的第二音素表征和多个文本对应的每个音素的时长;
从所述多个语音中获取第二帧级别的基频信息和第二帧级别的能量信息;
基于所述第二帧级别的基频信息和所述第二帧级别的能量信息确定第二音素级别的基频信息和所述第二音素级别的能量信息;
从所述多个语音中提取第二频谱参数;
将第二音素表征、多个文本对应的每个音素的时长、第二音素级别的基频信息和能量信息作为输入,第二频谱参数作为输出,训练得到基础端到端合成模型;
将目标说话人对应的第三音素表征、第三音素时长、第三音素级别的基频信息和第三音素级别的能量信息作为输入,从目标说话人语音中提取的第三频谱参数作为输出,对所述基础端到端合成模型进行重训练,得到目标端到端合成模型。
在一些实施例中,上述装置中的述第三确定模块还用于:
以第二频谱参数作为输入,多个语音作为输出,训练得到基础神经网络声码器;
使用第三频谱参数作为输入,目标说话人语音作为输出,对基础神经网络声码器进行重训练,得到所述目标神经网络声码器。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述语音转换方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述语音转换方法。
本发明的有益效果是:通过获取源说话人语音数据;基于语音数据确定源说话人对应的语音文本和每个音素的时长;从语音文本中获取第一音素表征;从语音数据中获取第一帧级别的基频信息和第一帧级别的能量信息;基于第一帧级别的基频信息和第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息;将第一音素表征、每个音素的时长、所述第一音素级别的基频信息和第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数;将第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音。本申请实施例中使用源说话人对应的数据进行处理,可以保留源说话人的发音内容,在转换时加入了源说话人的时长、基频和能量信息,可以体现源说话人的情感。
附图说明
图1为本发明实施例提供的一种语音转换方法图之一;
图2为本发明实施例提供的一种语音转换方法图之二;
图3为本发明实施例提供的一种语音转换方法图之三;
图4为本发明实施例提供的一种语音转换装置图;
图5为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种语音转换方法图之一。
第一方面,本发明实施例提供了一种语音转换方法,应用于将源说话人语音转换为目标说话人语音,包括如下几个步骤:
S101:获取源说话人语音数据。
S102:基于语音数据确定源说话人对应的语音文本和每个音素的时长。
具体的,本申请实施例的上述步骤中S101和S102中对获取到的源说话人语音数据进行语音识别,得到源说话人的语音文本text和源说话人的每个音素的时长phonedur_s。
S103:从语音文本中获取第一音素表征。
具体的,本申请实施例S103中从源说话人的语音文本text中获取第一音素表征phonerep_s。
S104:从语音数据中获取第一帧级别的基频信息和第一帧级别的能量信息;基于第一帧级别的基频信息和第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息。
具体的,本申请实施例S104步骤中从源说话人的语音数据中提取出源说话人的帧级别的基频信息f0_s和源说话人的帧级别的能量信息en_s,基于源说话人的帧级别的基频信息确定源说话人的音素级别的基频信息,基于源说话人的帧级别的能量信息确定源说话人的音素级别的能量信息。
S105:将第一音素表征、每个音素的时长、第一音素级别的基频信息和第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数。
具体的,本申请实施例中将源说话人的音素表征phonerep_s、源说话人的音素时长phonedur_s、源说话人的音素级别的基频信息和源说话人的音素级别的能量信息作为输入,输入目标端到端合成模型,生成第一频谱参数。
S106:将第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音。
具体的,本申请实施例中将生成的第一频谱参数输入目标神经网络声码器模型,确定目标说话人语音,在合成时加入了源说话人的时长、基频和能量信息,可以体现源说话人的情感。
图2为本发明实施例提供的一种语音转换方法图之二。
在一些实施例中,上述方法中目标端到端合成模型的训练步骤包括如下几个步骤:
S201:获取多个文本和多个语音对。
应理解,上述步骤S201中获取大规模合成音库数据,该数据包括文本和语音对,使用该数据训练基础合成模型。
S202:基于多个文本确定多个文本对应的第二音素表征和多个文本对应的每个音素的时长。
具体的,本申请实施例中,获取多个文本对应的音素表征,记为phonerep_b,通过force alignment得到多个文本对应的音素时长,记为phonedur_b。
S203:从多个语音中获取第二帧级别的基频信息和第二帧级别的能量信息;基于第二帧级别的基频信息和第二帧级别的能量信息确定第二音素级别的基频信息和所述第二音素级别的能量信息。
具体的,本申请实施例中,从语音数据中提取出帧级别的基频信息f0_b和能量信息en_b,然后基于帧级别的基频信息f0_b和能量信息en_b确定音素级别的基频信息和音素级别的能量信息,具体为:获取每个音素中第一帧基频值f0_b_s、中间一帧基频值f0_b_m、最后一帧基频值f0_b_e和该音素中所有帧基频均值f0_b_a,组合成向量[f0_b_s f0_b_mf0_b_ef0_b_a],获取每个音素中第一帧能量值en_b_s、中间一帧能量值en_b_m、最后一帧能量值en_b_e和该音素中所有帧能量均值en_b_a,组合成向量[en_b_s en_b_m en_b_een_b_a]。
S204:从多个语音中提取第二频谱参数。
S205:将第二音素表征、所述多个文本对应的每个音素的时长、第二音素级别的基频信息和能量信息作为输入,第二频谱参数作为输出,训练得到基础端到端合成模型。
具体的,本申请实施例中,将音素表征phonerep_b、音素时长phonedur_b、音素级别的基频信息[f0_b_s f0_b_m f0_b_e f0_b_a]和音素级别的能量信息[en_b_s en_b_men_b_e en_b_a]作为输入,从多个语音中提取的第二频谱参数作为输出,训练得到基础端到端合成模型e2e_base。
S206:将目标说话人对应的第三音素表征、第三音素时长、第三音素级别的基频信息和第三音素级别的能量信息作为输入,从目标说话人语音中提取的第三频谱参数作为输出,对基础端到端合成模型进行重训练,得到目标端到端合成模型。
具体的,本申请实施例中,将目标说话人对应的音素表征phonerep_t、音素时长phonedur_t、音素级别的基频信息[f0_t_s f0_t_m f0_t_e f0_t_a]和音素级别的能量信息[en_t_s en_t_m en_t_e en_t_a]作为输入,从目标说话人语音中提取的频谱参数作为输出,对基础端到端合成模型e2e_base进行重训练,得到目标端到端合成模型。另外,为了转换阶段进行基频的调域调整,这里计算得到基频的均值和标准差st。
图3为本发明实施例提供的一种语音转换方法图之三。
在一些实施例中,结合图3,所述目标神经网络声码器模型的训练步骤如下两个步骤:
S301:以第二频谱参数作为输入,多个语音作为输出,训练得到基础神经网络声码器。
具体的,本申请实施例中,以第二频谱参数作为输入,多个语音作为输出,训练神经网络声码器,这里使用谷歌提出的WaveNet模型,训练得到的神经网络声码器模型记为nnvocoder_base。
S302:使用第三频谱参数作为输入,目标说话人语音作为输出,对基础神经网络声码器进行重训练,得到目标神经网络声码器。
具体的,本申请实施例中,使用目标说话人的频谱参数作为输入,目标说话人语音作为输出,对基础神经网络声码器模型nnvocoder_base进行重训练,得到目标神经网络声码器模型nnvocoder_target。
在一些实施例中,基于所述第一帧级别的基频信息和所述第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息,包括:
获取每个音素中第一帧基频值、中间一帧基频值、最后一帧基频值和该音素中所有帧基频均值,组合成向量得到第一音素级别的基频信息。
获取每个音素中第一帧能量值、中间一帧能量值、最后一帧能量值和该音素中所有帧能量均值,组合成向量得到第一音素级别的基频信息。
具体的,本申请实施例中,获取每个音素中第一帧基频值f0_b_s、中间一帧基频值f0_b_m、最后一帧基频值f0_b_e和该音素中所有帧基频均值f0_b_a,组合成向量[f0_b_sf0_b_m f0_b_e f0_b_a],获取每个音素中第一帧能量值en_b_s、中间一帧能量值en_b_m、最后一帧能量值en_b_e和该音素中所有帧能量均值en_b_a,组合成向量[en_b_s en_b_men_b_e en_b_a]。
应理解,基于第二帧级别的基频信息和第二帧级别的能量信息确定第二音素级别的基频信息和所述第二音素级别的能量信息也是通过上述方法确定的。
在一些实施例中,所述方法还包括:对第一帧级别的基频信息进行调域调整。
具体的,本申请实施例中,从源说话人的语音中提取出帧级别的基频信息f0_s和帧级别的能量信息en_s,计算得到帧级别的基频信息的均值和标准差ss,对基频信息f0_s进行调域调整:根据f0_s'获取音素级别的基频信息[f0_s_sf0_s_m f0_s_e f0_s_a]。
图4为本发明实施例提供的一种语音转换装置图。
第二方面,结合图4,本发明实施例还提供了一种语音转换装置,应用于将源说话人语音转换为目标说话人语音,包括:
第一获取模块401:用于获取源说话人语音数据。
第一确定模块402:用于基于所述语音数据确定源说话人对应的语音文本和每个音素的时长。
具体的,本申请实施例的第一获取模块401用于获取源说话人语音数据;第一确定模块402对获取到的源说话人语音数据进行语音识别,得到源说话人的语音文本text和源说话人的每个音素的时长phonedur_s。
第二获取模块403:用于从所述语音文本中获取第一音素表征;所述语音数据中获取第一帧级别的基频信息和第一帧级别的能量信息。
具体的,本申请实施例第二获取模块403从源说话人的语音文本text中获取第一音素表征phonerep_s。
第二确定模块404:用于基于第一帧级别的基频信息和第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息。
具体的,本申请实施例第二确定模块404从源说话人的语音数据中提取出源说话人的帧级别的基频信息f0_s和源说话人的帧级别的能量信息en_s,基于源说话人的帧级别的基频信息确定源说话人的音素级别的基频信息,基于源说话人的帧级别的能量信息确定源说话人的音素级别的能量信息。
生成模块405:用于将第一音素表征、每个音素的时长、第一音素级别的基频信息和所述第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数。
具体的,本申请实施例中将源说话人的音素表征phonerep_s、源说话人的音素时长phonedur_s、源说话人的音素级别的基频信息和源说话人的音素级别的能量信息作为输入,输入目标端到端合成模型,生成模块405生成第一频谱参数。
第三确定模块406:用于将第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音。
具体的,本申请实施例中将生成的第一频谱参数输入目标神经网络声码器模型中,确定目标说话人语音,在合成时加入了源说话人的时长、基频和能量信息,可以体现源说话人的情感。
在一些实施例中,上述装置中的生成模块405还用于:
获取多个文本和多个语音对。
基于多个文本确定多个文本对应的第二音素表征和多个文本对应的每个音素的时长。
从多个语音中获取第二帧级别的基频信息和第二帧级别的能量信息。
基于第二帧级别的基频信息和第二帧级别的能量信息确定第二音素级别的基频信息和第二音素级别的能量信息。
从所述多个语音中提取第二频谱参数。
将所述第二音素表征、所述多个文本对应的每个音素的时长、第二音素级别的基频信息和能量信息作为输入,第二频谱参数作为输出,训练得到所述基础端到端合成模型。
将目标说话人对应的第三音素表征、第三音素时长、第三音素级别的基频信息和第三音素级别的能量信息作为输入,从目标说话人语音中提取的第三频谱参数作为输出,对所述基础端到端合成模型进行重训练,得到目标端到端合成模型。
在一些实施例中,上述装置中的述第三确定模块406还用于:
以第二频谱参数作为输入,多个语音作为输出,训练得到基础神经网络声码器。
使用第三频谱参数作为输入,目标说话人语音作为输出,对所述基础神经网络声码器进行重训练,得到目标神经网络声码器。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述语音转换方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述语音转换方法。
图5是本公开实施例提供的一种电子设备的示意性框图。
如图5所示,电子设备包括:至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503,用于与外部设备之间的信息传输。可理解,总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5中将各种总线都标为总线系统504。
可以理解,本实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的语音转换方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器501通过调用存储器502存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器501用于执行本申请实施例提供的语音转换方法各实施例的步骤。
本申请实施例提供的语音转换方法中任一方法可以应用于处理器501中,或者由处理器501实现。处理器501可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的语音转换方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种语音转换方法,应用于将源说话人语音转换为目标说话人语音,其特征在于,包括:
获取源说话人语音数据;
基于所述语音数据确定源说话人对应的语音文本和每个音素的时长;
从所述语音文本中获取第一音素表征;
从所述语音文本中获取第一帧级别的基频信息和第一帧级别的能量信息;基于所述第一帧级别的基频信息和所述第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息;
将所述第一音素表征、所述每个音素的时长、所述第一音素级别的基频信息和所述第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数;
将所述第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音;
其中,所述目标端到端合成模型的训练步骤如下:获取多个文本和多个语音;基于所述多个文本确定所述多个文本对应的第二音素表征和所述多个文本对应的每个音素的时长;从所述多个语音中获取第二帧级别的基频信息和第二帧级别的能量信息;基于所述第二帧级别的基频信息和所述第二帧级别的能量信息确定第二音素级别的基频信息和第二音素级别的能量信息;
从所述多个语音中提取第二频谱参数;将所述第二音素表征、所述多个文本对应的每个音素的时长、所述第二音素级别的基频信息和所述第二音素级别的能量信息作为输入,所述第二频谱参数作为输出,训练得到基础端到端合成模型;将目标说话人对应的第三音素表征、第三音素时长、第三音素级别的基频信息和第三音素级别的能量信息作为输入,从目标说话人语音中提取的第三频谱参数作为输出,对所述基础端到端合成模型进行重训练,得到所述目标端到端合成模型。
2.根据权利要求1所述的语音转换方法,其特征在于,所述目标神经网络声码器模型的训练步骤如下:
以所述第二频谱参数作为输入,所述多个语音作为输出,训练得到基础神经网络声码器;
使用所述第三频谱参数作为输入,所述目标说话人语音作为输出,对所述基础神经网络声码器进行重训练,得到所述目标神经网络声码器。
3.根据权利要求1所述的语音转换方法,其特征在于,所述基于所述第一帧级别的基频信息和所述第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息,包括:
获取每个音素中第一帧基频值、中间一帧基频值、最后一帧基频值和该音素中所有帧基频均值,组合成向量得到第一音素级别的基频信息;
获取每个音素中第一帧能量值、中间一帧能量值、最后一帧能量值和该音素中所有帧能量均值,组合成向量得到第一音素级别的基频信息。
4.根据权利要求1所述的语音转换方法,其特征在于,所述方法还包括:对所述第一帧级别的基频信息进行调域调整。
5.一种语音转换装置,应用于将源说话人语音转换为目标说话人语音,其特征在于,包括:
第一获取模块:用于获取源说话人语音数据;
第一确定模块:用于基于所述语音数据确定源说话人对应的语音文本和每个音素的时长;
第二获取模块:用于从所述语音文本中获取第一音素表征;所述语音数据中获取第一帧级别的基频信息和第一帧级别的能量信息;
第二确定模块:用于基于所述第一帧级别的基频信息和所述第一帧级别的能量信息确定第一音素级别的基频信息和第一音素级别的能量信息;
生成模块:用于将所述第一音素表征、所述每个音素的时长、所述第一音素级别的基频信息和所述第一音素级别的能量信息输入至目标端到端合成模型中,生成第一频谱参数;
第三确定模块:用于将所述第一频谱参数输入至目标神经网络声码器模型中确定目标说话人语音;
其中,生成模块还用于:获取多个文本和多个语音;基于所述多个文本确定所述多个文本对应的第二音素表征和所述多个文本对应的每个音素的时长;从所述多个语音中获取第二帧级别的基频信息和第二帧级别的能量信息;基于所述第二帧级别的基频信息和所述第二帧级别的能量信息确定第二音素级别的基频信息和所述第二音素级别的能量信息;
从所述多个语音中提取第二频谱参数;将所述第二音素表征、所述多个文本对应的每个音素的时长、所述第二音素级别的基频信息和能量信息作为输入,所述第二频谱参数作为输出,训练得到基础端到端合成模型;将目标说话人对应的第三音素表征、第三音素时长、第三音素级别的基频信息和第三音素级别的能量信息作为输入,从目标说话人语音中提取的第三频谱参数作为输出,对所述基础端到端合成模型进行重训练,得到目标端到端合成模型。
6.根据权利要求5所述的语音转换装置,其特征在于,所述第三确定模块还用于:
以所述第二频谱参数作为输入,所述多个语音作为输出,训练得到基础神经网络声码器;
使用所述第三频谱参数作为输入,所述目标说话人语音作为输出,对所述基础神经网络声码器进行重训练,得到所述目标神经网络声码器。
7.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至4任一项所述语音转换方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至4任一项所述语音转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110284443.8A CN113066511B (zh) | 2021-03-16 | 2021-03-16 | 一种语音转换方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110284443.8A CN113066511B (zh) | 2021-03-16 | 2021-03-16 | 一种语音转换方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113066511A CN113066511A (zh) | 2021-07-02 |
CN113066511B true CN113066511B (zh) | 2023-01-24 |
Family
ID=76560892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110284443.8A Active CN113066511B (zh) | 2021-03-16 | 2021-03-16 | 一种语音转换方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066511B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571039B (zh) * | 2021-08-09 | 2022-04-08 | 北京百度网讯科技有限公司 | 语音转换方法、系统、电子设备及可读存储介质 |
CN114023342B (zh) * | 2021-09-23 | 2022-11-11 | 北京百度网讯科技有限公司 | 一种语音转换方法、装置、存储介质及电子设备 |
CN114639371B (zh) * | 2022-03-16 | 2023-08-01 | 马上消费金融股份有限公司 | 一种语音的转换方法、装置及设备 |
CN115294963A (zh) * | 2022-04-12 | 2022-11-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音合成模型产品 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216535A1 (en) * | 2008-02-22 | 2009-08-27 | Avraham Entlis | Engine For Speech Recognition |
US8594993B2 (en) * | 2011-04-04 | 2013-11-26 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN112289304B (zh) * | 2019-07-24 | 2024-05-31 | 中国科学院声学研究所 | 一种基于变分自编码器的多说话人语音合成方法 |
CN111599338B (zh) * | 2020-04-09 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种稳定可控的端到端语音合成方法及装置 |
CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
-
2021
- 2021-03-16 CN CN202110284443.8A patent/CN113066511B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113066511A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113066511B (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
CN112133282B (zh) | 轻量级多说话人语音合成系统及电子设备 | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
WO2021128256A1 (zh) | 语音转换方法、装置、设备及存储介质 | |
JP6638944B2 (ja) | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム | |
CN109215629B (zh) | 语音处理方法、装置及终端 | |
CN111226275A (zh) | 基于韵律特征预测的语音合成方法、装置、终端及介质 | |
CN113053357A (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
CN111627420A (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
JP2023542760A (ja) | オーディオデータ処理方法、装置、機器、記憶媒体及びプログラム | |
CN117392972A (zh) | 基于对比学习的语音合成模型训练方法、装置及合成方法 | |
CN102231275B (zh) | 一种基于加权混合激励的嵌入式语音合成方法 | |
JP7360814B2 (ja) | 音声処理装置及び音声処理プログラム | |
EP3113180B1 (en) | Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal | |
WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
CN113421571A (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
JPWO2007037359A1 (ja) | 音声符号化装置および音声符号化方法 | |
CN112164387A (zh) | 音频合成方法、装置及电子设备和计算机可读存储介质 | |
CN113160849B (zh) | 歌声合成方法、装置及电子设备和计算机可读存储介质 | |
CN117636842B (zh) | 基于韵律情感迁移的语音合成系统及方法 | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
CN116825081B (zh) | 基于小样本学习的语音合成方法、装置及存储介质 | |
CN111108558B (zh) | 语音转换方法、装置、计算机设备及计算机可读存储介质 | |
JP2023171108A (ja) | 音声変換装置、音声変換方法、及びプログラム | |
Burileanu et al. | Recent advances in Romanian language text-to-speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |