CN116229935A - 语音合成方法、装置、电子设备及计算机可读介质 - Google Patents
语音合成方法、装置、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN116229935A CN116229935A CN202310171969.4A CN202310171969A CN116229935A CN 116229935 A CN116229935 A CN 116229935A CN 202310171969 A CN202310171969 A CN 202310171969A CN 116229935 A CN116229935 A CN 116229935A
- Authority
- CN
- China
- Prior art keywords
- voice
- language
- synthesized
- speech
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 117
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 109
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 109
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000006243 chemical reaction Methods 0.000 claims abstract description 33
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- NVGOPFQZYCNLDU-UHFFFAOYSA-N norflurazon Chemical compound O=C1C(Cl)=C(NC)C=NN1C1=CC=CC(C(F)(F)F)=C1 NVGOPFQZYCNLDU-UHFFFAOYSA-N 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Abstract
本申请公开了一种语音合成方法、装置、电子设备及计算机可读介质,涉及语音合成技术领域,方法包括:基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值;基于预先获取的基础语种训练语音,对所述第二合成语音进行语音转换,获取第三合成语音;基于所述第一合成语音和所述第三合成语音,获取目标合成语音。因此,进一步提升了不同语种合成语音的相似度,进而,使包括双语甚至多语的目标合成语音具有高度的音色一致性,提升听觉效果。
Description
技术领域
本申请涉及语音合成技术领域,更具体地,涉及一种语音合成方法、装置、电子设备及计算机可读介质。
背景技术
语音合成是人机交互的一个重要环节,大多数语音合成系统都是针对单个语言开发。但是,在现实生活中,尤其是商务场合,双语甚至多语交流经常出现,针对单个语言开发的语音合成系统应用在双语甚至多语交流的场合下,容易出现不同语言的合成语音差异性比较大的问题。
发明内容
本申请提出了一种语音合成方法、装置、电子设备及计算机可读介质,以改善上述缺陷。
第一方面,本申请实施例提供了一种语音合成方法,所述方法包括:基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音;基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值;基于预先获取的基础语种训练语音,对所述第二合成语音进行语音转换,获取第三合成语音,所述第三合成语音与所述基础语种训练语音的相似度高于所述第二合成语音与所述基础语种训练语音的相似度;基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
第二方面,本申请实施例还提供了一种声纹识别装置,所述装置包括:合成语音获取单元、语音转换单元和语音合成单元。合成语音获取单元,用于基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音,根据预先获取的目标语种语音合成模型,获取第二合成语音;语音转换单元,用于基于预先获取的基础语种训练语音,对所述第二合成语音的音色进行语音转换,获取第三合成语音;语音合成单元,用于基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如上述方法。
第四方面,本申请实施例还提供了一种计算机可读介质,所述计算机可读介质存储有处理器可执行的程序代码,所述程序代码被所述处理器执行时使所述处理器执行上述方法。
本申请提供的语音合成方法、装置、电子设备及计算机可读介质,所述方法包括:基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音,基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值;然后,基于预先获取的基础语种训练语音,对所述第二合成语音的音色进行语音转换,获取第三合成语音;然后,基于所述第一合成语音和所述第三合成语音,获取目标合成语音。因此,当输入文本为目标语种时,本方法基于预先获取的目标语种合成模型对输入文本进行语音合成,获得第二合成语音,当输入文本为基础语种时,基于预先获取的基础语种合成模型对输入文本进行语音合成,获得第一合成语音,由于所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值,所述第二合成语音即与所述第一合成语音在声学特征层面具有较高的相似度,然后,对第二合成语音基于预先获取的基础语种训练语音进行音色上的语音转换,获得第三合成语音,再基于所述第一合成语音和所述第三合成语音,获取目标合成语音,进一步提升不同语种合成语音的相似度,进而,使包括双语甚至多语的合成语音具有高度的音色一致性,提升多语种的语音合成听觉效果。
本申请实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的语音合成方法的方法流程图。
图2示出了本申请另一实施例提供的语音合成方法的方法流程图。
图3示出了本申请实施例中提供的获取目标语种训练语音的方法流程图。
图4示出了本申请实施例中提供的获取目标语种训练语音的方法流程图。
图5示出了本申请再一实施例提供的语音合成方法的方法流程图。
图6示出了本申请又一实施例提供的语音合成方法的方法流程图。
图7示出了本申请一实施例提供的语音合成装置的模块框图。
图8示出了本申请一实施例提供的电子设备的示意图。
图9示出了本申请实施例的存储介质的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
语音合成,又称文语转换(Text to Speech)技术,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,能够通过计算机在任意时刻将任意文本转换成具有高自然度的语音,解决的主要问题是如何将文字信息转化为可听的声音信息。
语音合成的理论基础是语音生成的数学模型,早期的语音合成主要使用基于共振峰模型的参数合成技术,具体地,共振峰是指声道传输频率响应上的极点,语音的共振峰频率的分布特性决定着该语音的音色,因此,基于音色各异语音的不同共振峰模式,以共振峰频率及带宽作为参数,进一步处理后得到合成合成语音。随着技术发展,目前语音合成主要使用波形拼接方法,与基于共振峰模型的参数合成技术不同,波形拼接合成基于对录制的合成基元的波形进行拼接,提升了合成语音的自然度,进一步地,波形合成技术包括线性预测编码技术(l i near pred ict i ve cod i ng,LPC),基音同步叠加技术(PitchSynchronous Over l ap Add,PSOLA)等。
然而,发明人在应用中发现,多数语音合成系统都是针对单个语言开发,但是在现实生活中,尤其是商务场合经常会使用双语甚至多语进行交流,在这种情况下,发明人希望通过语音合成系统获得的含有不同语种语音的合成语音能够拥有近似的音色,从而使听者不感到突兀。对现有的语音合成系统而言,语音合成模型是基于录音人员的大量语音数据通过深度学习训练获取的,但是在双语甚至多语的场合下,很难找到精通多种语言的录音人员,也就是说,很难基于一位录音人员获取多语种语音合成模型。
在现有技术中,双语语音合成通常有一种录音人员较为擅长的语言,比如中文,对于该语言能够拥有大量的来自录音人员的语音数据,进一步地,若通过擅于其他语言的录音者获取其他语种的语音,也可以通过语言转换(voi ce convers ion)对获取的其他语种语音进行音色转换,来获得和中文录音人员说话风格相似的英文语音。然而语音转换技术的结果会受到被转换语音的音色影响,当两种语言的录音人员音色差异性比较大时,语音转换的结果通常也不尽人意。
因此,为了克服上述缺陷,本申请实施例提供了一种语音合成方法、装置、电子设备及计算机可读介质,当输入文本为目标语种时,基于预先获取的目标语种合成模型对输入文本进行语音合成,获得第二合成语音,当输入文本为基础语种时,基于预先获取的基础语种合成模型对输入文本进行语音合成,获得第一合成语音,由于所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值,所述第二合成语音即与所述第一合成语音在声学特征层面具有较高的相似度,然后,对第二合成语音基于预先获取的基础语种训练语音进行音色上的语音转换,获得第三合成语音,再基于所述第一合成语音和所述第三合成语音,获取目标合成语音,进一步提升不同语种合成语音的相似度,进而,使包括双语甚至多语的合成语音具有高度的音色一致性,提升多语种的语音合成听觉效果。
请参阅图1,图1示出了本申请实施例提供的一种语音合成方法,具体地,该方法包括:S101至S104。
S101:基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音。
作为一种实施方式,所述输入文本可以为包括基本语种和目标语种在内的文本,例如,所述基本语种可以为中文,目标语种可以为英文,所述基于输入文本为基于输入文本中的基本语种文本。作为一种实施方式,所述基础语种语音合成模型是使用以基础语种类型为母语的训练录音者的语音数据,而预先建立获取的模型,具体地,所述模型可以为高斯混合模型(Gauss i an M i xture Mode l,GMM)或隐马尔科夫模型(H i dden MarkovMode l,HMM)等。作为一种实施方式,所述获取第一合成语音的方法可以为,基于合成模型中的语音参数生成合成语音,其中,所述语音参数包括基谱参数和谱参数。
S102:基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值。
作为一种实施方式,所述目标语种可以为多种不同于基础语种的语言种类,也就是说,所述输入文本也可以为包括含基础语种及多种语种在内的多语文本,所述基于输入文本为基于输入文本中的目标语种文本。作为一种实施方式,所述目标语种语音合成模型是使用以目标语种类型为母语的训练录音者的语音数据,而预先建立获取的模型,进一步地,所述目标语种语音合成模型的训练语音即为以目标语种类型为母语的训练录音者的语音数据,所述基础语种语音合成模型的训练语音即为以基础语种类型为母语的训练录音者的语音数据,进一步地,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值,可以指,上述两种语音数据的相似度高于预设值,进一步地,可以指上述两种语音数据的声学特征的比对相似度高于预设值,其中,所述预设值可由模型训练者根据需求预先设置。作为一种实施方式,所述获取第二合成语音的方法可以参考上述实施例。
S103:基于预先获取的基础语种训练语音,对所述第二合成语音进行语音转换,获取第三合成语音,所述第三合成语音与所述基础语种训练语音的相似度高于所述第二合成语音与所述基础语种训练语音的相似度。
具体地,所述基础语种训练语音为以基础语种类型为母语的训练录音者的语音数据,所述相似度包括了语音数据的音色、说话风格、发音风格、停顿等语音特征的相似度,进一步地,所述第三合成语音与所述基础语种训练语音的相似度高于所述第二合成语音与所述基础语种训练语音的相似度可以指,所述第三合成语音与所述基础语种训练语音在上述声学特征上的对比相似度高于所述第二合成语音与所述基础语种训练语音在上述声学特征上的对比相似度。
作为一种实施方式,所述获取第三合成语音的方法可以为,基于预先获取的基础语种训练语音,对所述第二合成语音进行音色调整、改变说话风格、改变发音风格、改变停顿方式等,使所述第二合成语音转换成更接近所述基础语种训练语音的第三合成语音。可以理解的是,由此得到的第三合成语音,在音色、说话风格、发音风格、停顿等语音特征上都更接近所述基础语种训练语音。
S104:基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
作为一种实施方式,所述获取目标合成语音的方式可以为,基于输入文本中基础语种文本和目标语种文本的排列顺序,将所述第一合成语音和所述第三合成语音按文本顺序组合获取目标合成语音,具体地,可以根据识别不同语种文本的字符串来计算获取不同语种语音的拼接单元并计算最佳拼接点,并根据最佳拼接点对所述第一合成语音及所述第三合成语音进行合成。
因此,本申请实施例提供的语音合成方法,基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音,基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值;然后,基于预先获取的基础语种训练语音,对所述第二合成语音的音色进行语音转换,获取第三合成语音;然后,基于所述第一合成语音和所述第三合成语音,获取目标合成语音。因此,当输入文本为目标语种时,本方法基于预先获取的目标语种合成模型对输入文本进行语音合成,获得第二合成语音,当输入文本为基础语种时,基于预先获取的基础语种合成模型对输入文本进行语音合成,获得第一合成语音,由于所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值,所述第二合成语音即与所述第一合成语音在声学特征层面具有较高的相似度,然后,对第二合成语音基于预先获取的基础语种训练语音进行音色上的语音转换,获得第三合成语音,再基于所述第一合成语音和所述第三合成语音,获取目标合成语音,进一步提升不同语种合成语音的相似度,进而,使包括双语甚至多语的合成语音具有高度的音色一致性,提升多语种的语音合成听觉效果。
请参阅图2,图2示出了本申请实施例提供的一种语音合成方法,具体地,该方法包括:S201至S208。
S201:获取基础语种训练语音与多个目标语种语音。
作为一种实施方式,所述基础语种训练语音采集自以基础语种类型为母语的录音者,所述多个目标语种语音采集自以目标语种类型为母语的多个录音者。
S202:基于所述基础语种训练语音,获取所述基础语种语音合成模型。
作为一种实施方式,可以基于所述基础语种训练语音,获取对应的基频参数及谱参数,建立基频参数模型及谱参数模型,然后,结合所述基频参数模型和所述谱参数模型,得到所述基础语种语音合成模型。
S203:基于所述基础语种训练语音,在多个所述目标语种语音中选择目标语种训练语音,所述目标语种训练语音为与所述基础语种训练语音的相似度高于预设值的目标语种语音。
作为一种实施方式,所述目标语种训练语音的获取,可以为从所述多个目标语种语音中,选择出与所述基础语种训练语音的相似度高于预设值的目标语种语音,作为目标语种训练语音,具体地,所述相似度可以指目标语种训练语音与基础语种训练语音的声学特征的比对相似度,所述预设值可由模型训练者根据需求预先设置。
S204:基于所述目标语种训练语音,获取所述目标语种语音合成模型。
S205:基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音。
S206:基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值。
S207:基于预先获取的基础语种训练语音,对所述第二合成语音进行语音转换,获取第三合成语音,所述第三合成语音与所述基础语种训练语音的相似度高于所述第二合成语音与所述基础语种训练语音的相似度。
S208:基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
其中,步骤S204至S208的实施方式可以参考前述实施例,在此不再赘述。
作为一种实施方式,请参阅图3,图3示出了本申请实施例提供的一种步骤S203中选择获取目标语种训练语音的方法,具体地,该方法可以包括:S301至S302。
S301:将多个所述目标语种语音与所述基础语种训练语音进行逐一对比,获取每个所述目标语种语音与所述基础语种训练语音的相似度。
S302:选择所述相似度高于预设值的所述目标语种语音,作为目标语种训练语音。
作为一种实施方式,请参阅图4,图4示出了本申请实施例提供的一种步骤S203中选择获取目标语种训练语音的方法,具体地,该方法可以包括:S401至S406。
S401:提取每个所述目标语种语音的声纹特征,作为比对声纹特征;
S402:提取所述基础语种训练语音的声纹特征,作为基础声纹特征。
S403:对多个所述比对声纹特征与所述基础声纹特征进行声纹比对,获取声纹比对得分;
S404:基于所述声纹比对得分,获取每个所述目标语种语音与所述基础语种训练语音的相似度。
作为一种实施方式,可以将比对声纹特征投入预先得到的声纹特征模型中进行打分判决,获取判决得分,其中,所述声纹特征模型可以为随机模型,所述随机模型用一个概率密度函数来模拟用户,训练过程就是将用户提供的多段语音输入到该概率密度函数中来预测函数的参数,从而得到该用户的个性化声纹特征模型,进一步地,所述随机模型可以是高斯混合模型(Gauss i an M i xture Mode l,GMM)或隐马尔科夫模型(H i dden MarkovMode l,HMM)等,进一步地,所述声纹特征模型使用基础声纹特征来模拟基础语种录音者,可以理解的是,由此获取的目标语种训练语音,在音色上更接近所述基础语种训练语音。
S405:选择所述相似度高于预设值的所述目标语种语音,作为目标语种训练语音。
其中,步骤S405的实施方式可以参考前述实施例,在此不再赘述。
请参阅图5,图5示出了示出了本申请实施例提供的一种语音合成方法,具体地,该方法包括:S501至S506。
S501:基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音。
S502:基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值。
S503:基于预先获取的基础语种训练语音,获取语音转换模型;
S504:将所述第二合成语音输入所述语音转换模型,获取第三转换语音。
作为一种实施方式,所述语音转换模型基于所述基础语种训练语音的音频数据通过预训练获取,训练方法可以采用相关技术中的方法,本实施例对此不做限制。
作为一种实施方式,所述语音转换模型包括预训练文本编码器,所述预训练文本编码器可以由音频数据生成文本编码向量,提取音频数据中的文本信息,当所述第二合成语音输入所述语音转换模型后,由所述预训练文本编码器生成目标语种文本编码向量,再通过所述语音转换模型利用转换的目标语种文本编码向量进一步生成转换的第三合成语音。
S505:基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
请参阅图6,图6示出了本申请实施例提供的一种语音合成方法,具体地,该方法包括:S601至S604。
S601:判断所述输入文本的语种类型。
作为一种实施方式,所述判断所述输入文本的语种类型的方法可以为,对所述待处理文本中的每一字符进行语种识别,具体地,可以采用基于统一码(Un icode)的文本语种识别方法进行语种识别。根据不同语言的统一码的编码范围,通过判断统一码所在区间来确定某个字符所处类型。
具体地,例如:以下为汉字、数字、大小写字母以及常用标点的统一码编码范围:
基本汉字:[0x4e00,0x9fa5](或十进制[19968,40869]);
数字:[0x 0030,0x0039](或十进制[48,57]);
小写字母:[0x0061,0x007a](或十进制[97,122]);
大写字母:[0x0041,0x005a](或十进制[65,90]);
常用标点:2000-206F。
S602:若所述输入文本为基础语种文本,将所述基础语种文本输入所述基础语种语音合成模型,获取第一合成语音。
S603:若所述输入文本为目标语种文本,将所述目标语种文本输入所述目标语种语音合成模型,获取第二合成语音。
S604:基于预先获取的基础语种训练语音,对所述第二合成语音进行语音转换,获取第三合成语音,所述第三合成语音与所述基础语种训练语音的相似度高于所述第二合成语音与所述基础语种训练语音的相似度。
S605:基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
其中,步骤S602及步骤S605的实施方式可以参考前述实施例,在此不再赘述。
请参阅图7,其示出了本申请实施例提供的一种语音合成装置700的结构框,该装置可以包括合成语音获取单元701、语音转换单元702、语音合成单元703。
合成语音获取单元701,用于基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音,根据预先获取的目标语种语音合成模型,获取第二合成语音;
语音转换单元702,用于基于预先获取的基础语种训练语音,对所述第二合成语音的音色进行语音转换,获取第三合成语音;
语音合成单元703,用于基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参考图8,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本申请中的电子设备800可以包括一个或多个如下部件:处理器810、存储器820以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器820中并被配置为由一个或多个处理器810执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器810可以包括一个或者多个处理核。处理器810利用各种接口和线路连接整个可穿戴设备800内的各个部分,通过运行或执行存储在存储器820内的指令、程序、代码集或指令集,以及调用存储在存储器820内的数据,执行可穿戴设备800的各种功能和处理数据。可选地,处理器810可以采用数字信号处理(D i gi ta l S i gna l Process i ng,DSP)、现场可编程门阵列(F i e l d-Programmab l e Gate Array,FPGA)、可编程逻辑阵列(Programmab l e Logi c Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(Centra l Process i ng Un it,CPU)、图像处理器(Graph i cs Process ing Un i t,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器810中,单独通过一块通信芯片进行实现。存储器820可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-On l y Memory)。存储器820可用于存储指令、程序、代码、代码集或指令集。存储器820可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端800在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图9,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质900中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质900包括非易失性计算机可读介质(non-trans i tory computer-readab l e storage med i um)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语音合成方法,其特征在于,所述方法包括:
基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音;
基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音,其中,所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值;
基于预先获取的基础语种训练语音,对所述第二合成语音进行语音转换,获取第三合成语音,所述第三合成语音与所述基础语种训练语音的相似度高于所述第二合成语音与所述基础语种训练语音的相似度;
基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
2.根据权利要求1所述的方法,其特征在于,在所述基于输入文本,根据预先获取的目标语种语音合成模型,获取第二合成语音之前,所述方法还包括:
获取基础语种训练语音与多个目标语种语音;
基于所述基础语种训练语音,在多个所述目标语种语音中选择目标语种训练语音,所述目标语种训练语音为与所述基础语种训练语音的相似度高于预设值的目标语种语音;
基于所述目标语种训练语音,获取所述目标语种语音合成模型。
3.根据权利要求2所述的方法,其特征在于,基于所述基础语种训练语音,在多个所述目标语种语音中选择目标语种训练语音,包括:
将多个所述目标语种语音与所述基础语种训练语音进行逐一对比,获取每个所述目标语种语音与所述基础语种训练语音的相似度;
选择所述相似度高于预设值的所述目标语种语音,作为目标语种训练语音。
4.根据权利要求3所述的方法,其特征在于,所述将多个所述目标语种语音与所述基础语种训练语音进行逐一对比,获取每个所述目标语种语音与所述基础语种训练语音的相似度,包括:
提取每个所述目标语种语音的声纹特征,作为比对声纹特征;
提取所述基础语种训练语音的声纹特征,作为基础声纹特征;
对多个所述比对声纹特征与所述基础声纹特征进行声纹比对,获取声纹比对得分;
基于所述声纹比对得分,获取每个所述目标语种语音与所述基础语种训练语音的相似度。
5.根据权利要求1所述的方法,其特征在于,在基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音之前,所述方法还包括:
获取基础语种训练语音;
基于所述基础语种训练语音,获取所述基础语种语音合成模型。
6.根据权利要求1所述的方法,其特征在于,在所述基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音,根据预先获取的目标语种语音合成模型,获取第二合成语音,包括:
判断所述输入文本的语种类型;
若所述输入文本为基础语种文本,将所述基础语种文本输入预先获取的基础语种语音合成模型,获取第一合成语音;
若所述输入文本为目标语种文本,将所述目标语种文本输入预先获取的目标语种语音合成模型,获取第二合成语音。
7.根据权利要求1所述的方法,其特征在于,所述基于预先获取的基础语种训练语音,对所述第二合成语音的音色进行语音转换,获取第三合成语音,包括:
基于预先获取的基础语种训练语音,获取语音转换模型;
将所述第二合成语音输入所述语音转换模型,获取第三语音。
8.一种语音合成装置,其特征在于,所述装置包括:
合成语音获取单元,用于基于输入文本,根据预先获取的基础语种语音合成模型,获取第一合成语音,根据预先获取的目标语种语音合成模型,获取第二合成语音;
语音转换单元,用于基于预先获取的基础语种训练语音,对所述第二合成语音的音色进行语音转换,获取第三合成语音;
语音合成单元,用于基于所述第一合成语音和所述第三合成语音,获取目标合成语音。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读介质,其特征在于,所述计算机可读介质存储有处理器可执行的程序代码,所述程序代码被所述处理器执行时使所述处理器执行权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310171969.4A CN116229935A (zh) | 2023-02-21 | 2023-02-21 | 语音合成方法、装置、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310171969.4A CN116229935A (zh) | 2023-02-21 | 2023-02-21 | 语音合成方法、装置、电子设备及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229935A true CN116229935A (zh) | 2023-06-06 |
Family
ID=86588809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310171969.4A Pending CN116229935A (zh) | 2023-02-21 | 2023-02-21 | 语音合成方法、装置、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229935A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844523A (zh) * | 2023-08-31 | 2023-10-03 | 深圳市声扬科技有限公司 | 语音数据生成方法、装置、电子设备及可读存储介质 |
-
2023
- 2023-02-21 CN CN202310171969.4A patent/CN116229935A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844523A (zh) * | 2023-08-31 | 2023-10-03 | 深圳市声扬科技有限公司 | 语音数据生成方法、装置、电子设备及可读存储介质 |
CN116844523B (zh) * | 2023-08-31 | 2023-11-10 | 深圳市声扬科技有限公司 | 语音数据生成方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410621B2 (en) | Training method for multiple personalized acoustic models, and voice synthesis method and device | |
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
CN110797006B (zh) | 端到端的语音合成方法、装置及存储介质 | |
JP2022531414A (ja) | 数字列のエンドツーエンド自動音声認識 | |
CN110570876B (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
JP2006084715A (ja) | 素片セット作成方法および装置 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN113808571B (zh) | 语音合成方法、装置、电子设备以及存储介质 | |
CN112365878A (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN113380222A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN116229935A (zh) | 语音合成方法、装置、电子设备及计算机可读介质 | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声系统 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
JPWO2016103652A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN116129859A (zh) | 韵律标注方法、声学模型训练方法、语音合成方法及装置 | |
CN115101042A (zh) | 一种文本处理方法、装置及设备 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN114566140A (zh) | 语音合成模型训练方法、语音合成方法、设备及产品 | |
CN113744713A (zh) | 一种语音合成方法及语音合成模型的训练方法 | |
CN113409761B (zh) | 语音合成方法、装置、电子设备以及计算机可读存储介质 | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
CN115392189B (zh) | 多语种混合语料的生成方法及装置、训练方法及装置 | |
US11250837B2 (en) | Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |