CN112102810A - 一种语音合成方法、系统及相关设备 - Google Patents
一种语音合成方法、系统及相关设备 Download PDFInfo
- Publication number
- CN112102810A CN112102810A CN202011001059.4A CN202011001059A CN112102810A CN 112102810 A CN112102810 A CN 112102810A CN 202011001059 A CN202011001059 A CN 202011001059A CN 112102810 A CN112102810 A CN 112102810A
- Authority
- CN
- China
- Prior art keywords
- tone
- target
- word
- marking
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 24
- 230000005236 sound signal Effects 0.000 claims abstract description 102
- 238000013507 mapping Methods 0.000 claims abstract description 53
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 39
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 14
- 230000004048 modification Effects 0.000 claims description 24
- 238000012986 modification Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 239000011295 pitch Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种语音合成方法、系统及相关设备,用于提高用户体验,提高语音合成的准确率。本发明实施例方法包括:获取带有音调标注的模板文本对应的第一录音文件;在所述第一录音文件中提取所述模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;对目标文本中的各个目标分词进行音调标记,并根据所述映射关系提取带有音调标记的各个目标分词的音频信号;按照各个目标分词的排列顺序将提取到的音频信号合成所述目标文本对应的音频文件。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、系统及相关设备。
背景技术
TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。
现有方案中,通过提取各个字或者词语的字形匹配相应的文本的标准拼音,根据文本拼音转换为机器语音文件。现有方案中,基于文本拼音进行机器语音合成,没有可选的音色,用户体验不好。而且语音转换过程中单个字可能有多个不同的语音声调,如果单个字选择的声调不合适,会导致合成的语音表达出错误的语义。
为解决上述任一问题,使得文本输出的语音的音色让人感觉自然,语义表达正确,提出一种语音合成方法。
发明内容
本发明实施例提供了一种语音合成方法、系统及相关设备,用于提高用户体验,提高语音合成的准确率。
本发明实施例第一方面提供了一种语音合成方法,可包括:
获取带有音调标注的模板文本对应的第一录音文件;
在所述第一录音文件中提取所述模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
对目标文本中的各个目标分词进行音调标记,并根据所述映射关系提取带有音调标记的各个目标分词的音频信号;
按照各个目标分词的排列顺序将提取到的音频信号合成所述目标文本对应的音频文件。
可选的,作为一种可能的实施方式,本发明实施例中,对目标文本中的各个目标分词进行音调标记可以包括:
若识别到预设词库中的语气词,而且所述语气词位于句首或单独出现,则将所述语气词的音调标记为轻声之外的预设音调,所述预设音调与所述语气词的位置关联;或者,
若识别到预设词库中的语气词,而且所述语气词位于句尾,则将所述语气词的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成方法还可以包括:
若识别到预设词库中的变调词汇,则根据所述变调词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成方法还可以包括:
若识别到预设词库中包含多音字的词汇,则根据所述包含多音字的词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成方法还可以包括:
若识别到“儿”字组成预设儿化音词库中词语,则将所述“儿”字的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中,根据所述映射关系提取带有音调标记的各个目标分词的音频信号,包括:
获取用户选择的目标录音师对应的身份标识;
根据所述身份标识确定所述目标录音师对应的映射关系中提取带有音调标记的各个目标分词的音频信号。
本发明实施例第二方面提供了一种语音合成系统,可包括:
获取模块,获取带有音调标注的模板文本对应的第一录音文件;
处理模块,用于在所述第一录音文件中提取所述模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
第一标记模块,对目标文本中的各个目标分词进行音调标记;
提取模块,根据所述映射关系提取带有音调标记的各个目标分词的音频信号;
合成模块,用于按照各个目标分词的排列顺序将提取到的音频信号合成所述目标文本对应的音频文件。
可选的,作为一种可能的实施方式,本发明实施例中的第一标记模块可以包括:
第一标记单元,若识别到预设词库中的语气词,而且所述语气词位于句首或单独出现,则将所述语气词的音调标记为轻声之外的预设音调,所述预设音调与所述语气词的位置关联;
第二标记单元,若识别到预设词库中的语气词,而且所述语气词位于句尾,则将所述语气词的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成系统还可以包括:
第二标记模块,若识别到预设词库中的变调词汇,则根据所述变调词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成系统还可以包括:
第三标记模块,若识别到预设词库中包含多音字的词汇,则根据所述包含多音字的词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成系统还可以包括:
第四标记模块,若识别到“儿”字组成预设儿化音词库中词语,则将所述“儿”字的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中的提取模块还可以包括:
获取单元,用于获取用户选择的目标录音师对应的身份标识;
提取单元,根据所述身份标识确定所述目标录音师对应的映射关系中提取带有音调标记的各个目标分词的音频信号。
本发明实施例第三方面提供了一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,语音合成系统可以获取带有音调标注的模板文本对应的第一录音文件,并在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系。当需要进行目标文本的语音合成时,可以对目标文本中的各个目标分词进行音调标记,并根据映射关系提取带有音调标记的各个目标分词的音频信号,然后按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。相对于现有技术,本发明实施例可以根据录音师的音频信号合成语音,使得文字发音带有录音师的音色与音调,听感自然,提高了用户体验。而且,对每个分词带有音调标记,可以区分多声调的词汇,避免语音合成错误,提高了语音合成的准确率。
附图说明
图1为本发明实施例中一种语音合成方法的一个实施例示意图;
图2为本发明实施例中一种语音合成方法的另一个实施例示意图;
图3为本发明实施例中一种语音合成方法的另一个实施例示意图;
图4为本发明实施例中一种语音合成方法的另一个实施例示意图;
图5为本发明实施例中一种语音合成方法的另一个实施例示意图;
图6为本发明实施例中一种语音合成方法的另一个实施例示意图;
图7为本发明实施例中一种语音合成系统的一个实施例示意图;
图8为本发明实施例中一种计算机装置的一个实施例示意图。
具体实施方式
本发明实施例提供了一种语音合成方法、系统及相关设备,用于提高用户体验,提高语音合成的准确率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中一种语音合成方法的一个实施例可包括:
S101、获取带有音调标注的模板文本对应的第一录音文件;
现有方案,通过提取各个字或者词语的字形匹配相应的文本的标准拼音,根据文本拼音转换为机器语音文件。然而实际应用中,每个录音师发音习惯不同,可能会导致音色和音调与标准汉字发音不同,普通话发音前字可能变调,机器语音则无法体现出录音师的音色和音调。例如,申请人注意到,有些录音师会出现三声变调:两个三声连在一起时,普通话发音前字可能变调。如汉语拼音为可(k e3)以(ii i3),听感为(k e2 ii i3),其中“可”字读音听感为二声,出现变调现象。
为了使得从文本转换得到的语音给人以自然的听感,本发明实施例中,可以让多个录音师按照带有音调标注的模板文本进行发音,从而获取带有音调标注的模板文本对应的第一录音文件,进而可以保存各个录音师对各个分词的音频信号,根据用户的喜好进行语音的合成。
S102、在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
在获取到每个录音师对应的第一录音文件之后,语音合成系统可以在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系。需要说明的是,每个录音师的第一录音文件应当独立设置各自的音频信号与对应的带有音调标注的分词的映射关系,不可混用。
S103、对目标文本中的各个目标分词进行音调标记,并根据映射关系提取带有音调标记的各个目标分词的音频信号;
当用户需要将模板文本之外的目标文本转换成语音时,可以根据喜好选择对应的录音师。然后,语音合成系统可以根据预设的规则对对目标文本中的各个目标分词进行音调标记,并根据该录音师所属的音频信号与对应的带有音调标注的分词的映射关系,提取带有音调标记的各个目标分词的音频信号。
S104、按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
在提取带有音调标记的各个目标分词的音频信号之后,语音合成系统可以按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
本发明实施例中,语音合成系统可以获取带有音调标注的模板文本对应的第一录音文件,并在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系。当需要进行目标文本的语音合成时,可以对目标文本中的各个目标分词进行音调标记,并根据映射关系提取带有音调标记的各个目标分词的音频信号,然后按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。相对于现有技术,本发明实施例可以根据录音师的音频信号合成语音,使得文字发音带有录音师的音色与音调,听感自然,提高了用户体验。而且,对每个分词带有音调标记,可以区分多声调的词汇,避免语音合成错误,提高了语音合成的准确率。
在上述图1所示的实施例中,为了避免多音字的音频信号混淆,对模板文本以及目标文本进行了音调标注。实际应用中,对模板文本以及目标文本的儿化音、语气词的音调标注也影响语音合成的准确率,下面将对音调标注进行详细描述,请参阅图2,先对语气词标注进行说明,本发明实施例中的一种语音合成方法的另一个实施例可包括:
S201、获取带有音调标注的模板文本对应的第一录音文件;
S202、在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;本实施例中的步骤S201、S202中描述的内容与上述图1所示的实施例中的步骤S101、S102中描述的内容类似,此处不做赘述。
S203、若识别到预设词库中的语气词,而且语气词位于句首或单独出现,则将语气词的音调标记为轻声之外的预设音调,预设音调与语气词的位置关联,若识别到预设词库中的语气词,而且语气词位于句尾,则将语气词的音调标记为轻声;在进行标准的音调标记之后,可以根据实际应用中的经验对预设场景下的音调标记进行修改。
可选的,在上述图1所示的实施例的基础上,对目标文本中的各个目标分词进行音调标记,可以包括:若识别到预设词库中的语气词,而且语气词位于句首或单独出现,则将语气词的音调标记为轻声之外的预设音调,预设音调与语气词的位置关联。
例如,语气词“哦”、“啊”等位于句首时可以标记为一声单独出现是可以标记为三声。
可选的,在上述图1所示的实施例的基础上,对目标文本中的各个目标分词进行音调标记,可以包括:若识别到预设词库中的语气词,而且语气词位于句尾,则将语气词的音调标记为轻声。
例如,语气词“哦”、“啊”等位于句尾时,可以标记为轻声。实际应用中,可以在预设词库中,根据实际需求添加语气词,具体此处不做限定。
S204、根据映射关系提取带有音调标记的各个目标分词的音频信号;
S205、按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
在提取带有音调标记的各个目标分词的音频信号之后,语音合成系统可以按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
本实施例中,语音合成系统可以获取带有音调标注的模板文本对应的第一录音文件,并在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系。当需要进行目标文本的语音合成时,可以对目标文本中的各个目标分词进行音调标记,并根据映射关系提取带有音调标记的各个目标分词的音频信号,然后按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。相对于现有技术,本发明实施例可以根据录音师的音频信号合成语音,使得文字发音带有录音师的音色与音调,听感自然,提高了用户体验。而且,在进行标准的音调标记之后,可以根据实际应用中的经验对预设场景下的音调标记进行修改,使得合成的语音听感更加自然流畅,提高了用户体验。
请参阅图3,为了进一步提高用户体验,需要对变调词汇标注进行说明,本发明实施例中的一种语音合成方法的另一个实施例可包括:
S301、获取带有音调标注的模板文本对应的第一录音文件;
S302、在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
S303、若识别到预设词库中的语气词,而且语气词位于句首或单独出现,则将语气词的音调标记为轻声之外的预设音调,预设音调与语气词的位置关联,若识别到预设词库中的语气词,而且语气词位于句尾,则将语气词的音调标记为轻声;
本实施例中的步骤S301至S303中描述的内容与上述图2所示的实施例中的步骤S201至S203中描述的内容类似,此处不做赘述。
S304、若识别到预设词库中的变调词汇,则根据变调词汇的预存音调进行音调标记;
可选的,在上述图1或图2所示的实施例的基础上,对目标文本中的各个目标分词进行音调标记,还可以包括:若识别到预设词库中的变调词汇,则根据变调词汇的预存音调进行音调标记。
示例性的,汉语拼音中,“永(y ong3)远(y uan3)的永(y ong3)”,听感为(y ong2y uan3 d e5 y ong3),第一个“永”标记为二声。
示例性的,不、一变调:如:“不(b u2)是不(b u4)可以”中第二个“不”和“是”搭配为二声,和“可以”搭配标记为四声;“一(ii i4)帆一(ii i4)桨一(ii i4)渔舟”,一(ii i2)个渔翁一(ii i2)钓钩,其中“一”和“帆”、“桨”、“渔舟”等搭配标记为四声,“一”和“个”等搭配时标记为二声。实际应用中,可以在预设词库中,根据实际需求添加变调词汇,具体此处不做限定。
S305、根据映射关系提取带有音调标记的各个目标分词的音频信号;
S306、按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
为了进一步提高用户体验,请参阅图4,需要对变调词汇标注进行说明,本发明实施例中的一种语音合成方法的另一个实施例可包括:
S401、获取带有音调标注的模板文本对应的第一录音文件;
S402、在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
S403、若识别到预设词库中的语气词,而且语气词位于句首或单独出现,则将语气词的音调标记为轻声之外的预设音调,预设音调与语气词的位置关联,若识别到预设词库中的语气词,而且语气词位于句尾,则将语气词的音调标记为轻声;
S404、若识别到预设词库中的变调词汇,则根据变调词汇的预存音调进行音调标记;
本实施例中的步骤S401至S404中描述的内容与上述图3所示的实施例中的步骤S301至S304中描述的内容类似,此处不做赘述。
S405、若识别到预设词库中包含多音字的词汇,则根据包含多音字的词汇的预存音调进行音调标记;
可选的,在上述实施例的基础上,对目标文本中的各个目标分词进行音调标记,可以包括:若识别到预设词库中包含多音字的词汇,则根据包含多音字的词汇的预存音调进行音调标记。
示例性的,多音字“还”,可以设置多音字的词汇“还款”、“还有”等,当匹配到“还款”标记为“huan 2”二声,当匹配到“还有”标记为“hai 2”二声。实际应用中,可以在预设词库中,根据实际需求添加包含多音字的词汇,具体此处不做限定。
S405、根据映射关系提取带有音调标记的各个目标分词的音频信号;
S406、按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
为了进一步提高用户体验,请参阅图5,本发明实施例中的一种语音合成方法的另一个实施例可包括:
S501、获取带有音调标注的模板文本对应的第一录音文件;
S502、在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
S503、若识别到预设词库中的语气词,而且语气词位于句首或单独出现,则将语气词的音调标记为轻声之外的预设音调,预设音调与语气词的位置关联,若识别到预设词库中的语气词,而且语气词位于句尾,则将语气词的音调标记为轻声;
S504、若识别到预设词库中的变调词汇,则根据变调词汇的预存音调进行音调标记;
S505、若识别到预设词库中包含多音字的词汇,则根据包含多音字的词汇的预存音调进行音调标记;
本实施例中的步骤S501至S505中描述的内容与上述图4所示的实施例中的步骤S401至S405中描述的内容类似,此处不做赘述。
S506、若识别到“儿”字组成预设儿化音词库中词语,则将“儿”字的音调标记为轻声;
可选的,在上述实施例的基础上,对目标文本中的各个目标分词进行音调标记,可以包括:若识别到“儿”字组成预设儿化音词库中词语,则将“儿”字的音调标记为轻声。
例如,当“儿”出现在“儿子、女儿”等有实际意义的音节词上,根据汉语拼音标记为第二声。当儿出现在儿化音后,通常情况应标记为轻声。
S507、根据映射关系提取带有音调标记的各个目标分词的音频信号;
S508、按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
在上述实施例的基础上,实际应用中,为了进一步提高用户体验,还可以预先设置多个录音师的音频信号与带有音调标注的分词的映射关系,以便于用户可以合成带有自己喜欢的录音师风格的语音。请参阅图6,本发明实施例中的一种语音合成方法的另一个实施例可包括:
S601、获取带有音调标注的模板文本对应的第一录音文件;
S602、在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
S603、对目标文本中的各个目标分词进行音调标记;
本实施例中的步骤S603中描述的内容与上述图2至图5所示的实施例中的描述的内容类似,此处不做赘述。
S604、获取用户选择的目标录音师对应的身份标识;
为了进一步提高用户体验,还可以预先设置多个录音师的音频信号与带有音调标注的分词的映射关系,系统可以获取用户选择的目标录音师对应的身份标识,以便于合成带有该录音师风格的语音。
S605、根据身份标识确定目标录音师对应的映射关系,并提取带有音调标记的各个目标分词的音频信号;
在确定目标录音师之后,可以获取目标录音师对应的映射关系,并根据该映射关系提取带有音调标记的各个目标分词的音频信号。
S606、按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
在提取带有音调标记的各个目标分词的音频信号之后,语音合成系统可以按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
本实施例中,语音合成系统可以获取带有音调标注的模板文本对应的第一录音文件,并在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系。当需要进行目标文本的语音合成时,可以对目标文本中的各个目标分词进行音调标记,并根据映射关系提取带有音调标记的各个目标分词的音频信号,然后按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。相对于现有技术,本发明实施例可以根据录音师的音频信号合成语音,使得文字发音带有录音师的音色与音调,听感自然,提高了用户体验。而且,可以预先设置多个录音师的音频信号与带有音调标注的分词的映射关系,用户可以根据喜好选择合成带有自己喜欢的录音师风格的语音,提供了用户体验。
请参阅图7,本发明实施例还提供了一种语音合成系统,可包括:
获取模块701,获取带有音调标注的模板文本对应的第一录音文件;
处理模块702,用于在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
第一标记模块703,对目标文本中的各个目标分词进行音调标记;
提取模块704,根据映射关系提取带有音调标记的各个目标分词的音频信号;
合成模块705,用于按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
可选的,作为一种可能的实施方式,本发明实施例中的第一标记模块可以包括:
第一标记单元,若识别到预设词库中的语气词,而且所述语气词位于句首或单独出现,则将所述语气词的音调标记为轻声之外的预设音调,所述预设音调与所述语气词的位置关联;
第二标记单元,若识别到预设词库中的语气词,而且所述语气词位于句尾,则将所述语气词的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成系统还可以包括:
第二标记模块,若识别到预设词库中的变调词汇,则根据所述变调词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成系统还可以包括:
第三标记模块,若识别到预设词库中包含多音字的词汇,则根据所述包含多音字的词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成系统还可以包括:
第四标记模块,若识别到“儿”字组成预设儿化音词库中词语,则将所述“儿”字的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中的提取模块还可以包括:
获取单元,用于获取用户选择的目标录音师对应的身份标识;
提取单元,根据所述身份标识确定所述目标录音师对应的映射关系中提取带有音调标记的各个目标分词的音频信号。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上面从模块化功能实体的角度对本发明实施例中的网图表编辑器进行了描述,请参阅图8,下面从硬件处理的角度对本发明实施例中的计算机装置进行描述:
该计算机装置1可以包括存储器11、处理器12和输入输出总线13。处理器11执行计算机程序时实现上述图1所示的语音合成方法实施例中的步骤,例如图1所示的步骤101至104。或者,处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。
本发明的一些实施例中,处理器具体用于实现如下步骤:
获取带有音调标注的模板文本对应的第一录音文件;
在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
对目标文本中的各个目标分词进行音调标记,并根据映射关系提取带有音调标记的各个目标分词的音频信号;
按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到“儿”字组成预设儿化音词库中词语,则将“儿”字的音调标记为轻声。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中的语气词,而且语气词位于句首或单独出现,则将语气词的音调标记为轻声之外的预设音调,预设音调与语气词的位置关联。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中的语气词,而且语气词位于句尾,则将语气词的音调标记为轻声。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中的变调词汇,则根据变调词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中包含多音字的词汇,则根据包含多音字的词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
获取用户选择的目标录音师对应的身份标识;
根据身份标识确定目标录音师对应的映射关系中提取带有音调标记的各个目标分词的音频信号。
其中,存储器11至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是计算机装置1的内部存储单元,例如该计算机装置1的硬盘。存储器11在另一些实施例中也可以是计算机装置1的外部存储设备,例如计算机装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括计算机装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于计算机装置1的应用软件及各类数据,例如计算机程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行计算机程序01等。
该输入输出总线13可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。
进一步地,计算机装置还可以包括有线或无线网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该计算机装置1与其他电子设备之间建立通信连接。
可选地,该计算机装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的,用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在计算机装置1中处理的信息以及用于显示可视化的用户界面。
图8仅示出了具有组件11-14以及计算机程序01的计算机装置1,本领域技术人员可以理解的是,图8示出的结构并不构成对计算机装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,可以实现如下步骤:
获取带有音调标注的模板文本对应的第一录音文件;
在第一录音文件中提取模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
对目标文本中的各个目标分词进行音调标记,并根据映射关系提取带有音调标记的各个目标分词的音频信号;
按照各个目标分词的排列顺序将提取到的音频信号合成目标文本对应的音频文件。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到“儿”字组成预设儿化音词库中词语,则将“儿”字的音调标记为轻声。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中的语气词,而且语气词位于句首或单独出现,则将语气词的音调标记为轻声之外的预设音调,预设音调与语气词的位置关联。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中的语气词,而且语气词位于句尾,则将语气词的音调标记为轻声。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中的变调词汇,则根据变调词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
若识别到预设词库中包含多音字的词汇,则根据包含多音字的词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
获取用户选择的目标录音师对应的身份标识;
根据身份标识确定目标录音师对应的映射关系中提取带有音调标记的各个目标分词的音频信号。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种语音合成方法,其特征在于,包括:
获取带有音调标注的模板文本对应的第一录音文件;
在所述第一录音文件中提取所述模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
对目标文本中的各个目标分词进行音调标记,并根据所述映射关系提取带有音调标记的各个目标分词的音频信号;
按照各个目标分词的排列顺序将提取到的音频信号合成所述目标文本对应的音频文件。
2.根据权利要求1所述的方法,其特征在于,对目标文本中的各个目标分词进行音调标记,包括:
若识别到预设词库中的语气词,而且所述语气词位于句首或单独出现,则将所述语气词的音调标记为轻声之外的预设音调,所述预设音调与所述语气词的位置关联;或者,
若识别到预设词库中的语气词,而且所述语气词位于句尾,则将所述语气词的音调标记为轻声。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若识别到预设词库中的变调词汇,则根据所述变调词汇的预存音调进行音调标记。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
若识别到预设词库中包含多音字的词汇,则根据所述包含多音字的词汇的预存音调进行音调标记。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
若识别到“儿”字组成预设儿化音词库中词语,则将所述“儿”字的音调标记为轻声。
6.根据权利要求1至5中任一项所述的方法,其特征在于,根据所述映射关系提取带有音调标记的各个目标分词的音频信号,包括:
获取用户选择的目标录音师对应的身份标识;
根据所述身份标识确定所述目标录音师对应的映射关系,并提取带有音调标记的各个目标分词的音频信号。
7.一种语音合成系统,其特征在于,包括:
获取模块,获取带有音调标注的模板文本对应的第一录音文件;
处理模块,用于在所述第一录音文件中提取所述模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
第一标记模块,用于对目标文本中的各个目标分词进行音调标记;
提取模块,根据所述映射关系提取带有音调标记的各个目标分词的音频信号;
合成模块,用于按照各个目标分词的排列顺序将提取到的音频信号合成所述目标文本对应的音频文件。
8.根据权利要求7所述的系统,其特征在于,所述第一标记模块包括:
第一标记单元,若识别到预设词库中的语气词,而且所述语气词位于句首或单独出现,则将所述语气词的音调标记为轻声之外的预设音调,所述预设音调与所述语气词的位置关联;
第二标记单元,若识别到预设词库中的语气词,而且所述语气词位于句尾,则将所述语气词的音调标记为轻声。
9.根据权利要求7或8所述的系统,其特征在于,还包括:
第二标记模块,若识别到预设词库中的变调词汇,则根据所述变调词汇的预存音调进行音调标记。
10.根据权利要求7至9中任一项所述的系统,其特征在于,还包括:
第三标记模块,若识别到预设词库中包含多音字的词汇,则根据所述包含多音字的词汇的预存音调进行音调标记。
11.根据权利要求7至10中任一项所述的系统,其特征在于,还包括:
第四标记模块,若识别到“儿”字组成预设儿化音词库中词语,则将所述“儿”字的音调标记为轻声。
12.根据权利要求7至11中任一项所述的系统,其特征在于,所述提取模块包括:
获取单元,用于获取用户选择的目标录音师对应的身份标识;
提取单元,根据所述身份标识确定所述目标录音师对应的映射关系,并提取带有音调标记的各个目标分词的音频信号。
13.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011001059.4A CN112102810A (zh) | 2020-09-22 | 2020-09-22 | 一种语音合成方法、系统及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011001059.4A CN112102810A (zh) | 2020-09-22 | 2020-09-22 | 一种语音合成方法、系统及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112102810A true CN112102810A (zh) | 2020-12-18 |
Family
ID=73755778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011001059.4A Pending CN112102810A (zh) | 2020-09-22 | 2020-09-22 | 一种语音合成方法、系统及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112102810A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005024794A (ja) * | 2003-06-30 | 2005-01-27 | Toshiba Corp | 音声合成方法と装置および音声合成プログラム |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN106601228A (zh) * | 2016-12-09 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能韵律预测的样本标注方法及装置 |
CN109389968A (zh) * | 2018-09-30 | 2019-02-26 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN109545183A (zh) * | 2018-11-23 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN110956948A (zh) * | 2020-01-03 | 2020-04-03 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
-
2020
- 2020-09-22 CN CN202011001059.4A patent/CN112102810A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005024794A (ja) * | 2003-06-30 | 2005-01-27 | Toshiba Corp | 音声合成方法と装置および音声合成プログラム |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN106601228A (zh) * | 2016-12-09 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能韵律预测的样本标注方法及装置 |
CN109389968A (zh) * | 2018-09-30 | 2019-02-26 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN109545183A (zh) * | 2018-11-23 | 2019-03-29 | 北京羽扇智信息科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN110956948A (zh) * | 2020-01-03 | 2020-04-03 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moran et al. | The Unicode Cookbook for Linguists: Managing writing systems using orthography profiles | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
US10043519B2 (en) | Generation of text from an audio speech signal | |
CN102439540A (zh) | 输入法编辑器 | |
CN112365878B (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
CN101196881A (zh) | 文本中数字和特殊符号串的文字符号化处理方法及系统 | |
EP2447854A1 (en) | Method and system of automatic diacritization of Arabic | |
Cassidy et al. | Tools for multimodal annotation | |
JP2020027132A (ja) | 情報処理装置およびプログラム | |
CN113409761B (zh) | 语音合成方法、装置、电子设备以及计算机可读存储介质 | |
Samudravijaya | Indian language speech label (ILSL): a de facto national standard | |
CN116229935A (zh) | 语音合成方法、装置、电子设备及计算机可读介质 | |
CN112102810A (zh) | 一种语音合成方法、系统及相关设备 | |
CN110428668B (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 | |
CN113160793A (zh) | 基于低资源语言的语音合成方法、装置、设备及存储介质 | |
CN115249472A (zh) | 一种结合上文语境实现重音统筹的语音合成方法及装置 | |
Thangthai et al. | Automatic syllable-pattern induction in statistical Thai text-to-phone transcription. | |
JP6197523B2 (ja) | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
CN117219116B (zh) | 现代汉语语音分析方法、系统及存储介质 | |
CN109977420A (zh) | 离线语义识别调整方法、装置、设备及存储介质 | |
US12080270B2 (en) | Method and apparatus for text-based speech synthesis | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
US20220366890A1 (en) | Method and apparatus for text-based speech synthesis | |
CN113096641B (zh) | 信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201218 |
|
RJ01 | Rejection of invention patent application after publication |