CN113781997A - 语音合成方法及电子设备 - Google Patents
语音合成方法及电子设备 Download PDFInfo
- Publication number
- CN113781997A CN113781997A CN202111108151.5A CN202111108151A CN113781997A CN 113781997 A CN113781997 A CN 113781997A CN 202111108151 A CN202111108151 A CN 202111108151A CN 113781997 A CN113781997 A CN 113781997A
- Authority
- CN
- China
- Prior art keywords
- characters
- type
- sentence break
- text
- ventilation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 14
- 238000009423 ventilation Methods 0.000 claims abstract description 141
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 230000008451 emotion Effects 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 208000037656 Respiratory Sounds Diseases 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003434 inspiratory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003519 ventilatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种语音合成方法及电子设备,该方法包括:确定获取的文本中的断句标识;基于断句标识,确定文本中的第一类文字和第二类文字;其中,第一类文字与断句标识具有第一位置关系,第二类文字与断句标识具有第二位置关系;获取第一类文字对应的第一语音信息和第二类文字对应的第二语音信息;其中,第一语音信息包括第一类文字的文字发音,以及在时序上位于该文字发音之前的换气音;第二语音信息包括第二类文字的文字发音;基于第一语音信息和第二语音信息,合成与文本相对应的目标音频。该方法所生成的目标音频中在适当的位置配置了换气音,能够显著提高该目标音频的拟人程度,有益于提高听众的视听体验。
Description
技术领域
本申请涉及语音合成技术领域,特别涉及一种语音合成方法及电子设备。
背景技术
在长时间收听语音合成的内容时,例如,在收听由语音合成的音频书时,人们对于合成语音的自然程度会更加敏感。过于单调的和机器人想象的声音,会使得人们容易听觉疲劳,从而导致对于内容的理解力和对于知识的记忆效率下降。
发明内容
本申请提供了一种语音合成方法及电子设备,本申请实施例采用的技术方案如下:
本申请一方面提供了一种语音合成方法,包括:
确定获取的文本中的断句标识;
基于所述断句标识,确定所述文本中的第一类文字和第二类文字;其中,所述第一类文字与所述断句标识具有第一位置关系,所述第二类文字与所述断句标识具有第二位置关系;
获取所述第一类文字对应的第一语音信息和所述第二类文字对应的第二语音信息;其中,所述第一语音信息包括所述第一类文字的文字发音,以及在时序上位于该文字发音之前的换气音;所述第二语音信息包括所述第二类文字的文字发音;
基于所述第一语音信息和所述第二语音信息,合成与所述文本相对应的目标音频。
在一些实施例中,所述确定获取的文本中的断句标识,包括:
确定所述文本中的标点符号,将所述标点符号作为第一断句标识。
在一些实施例中,所述确定获取的文本中的断句标识,还包括:
在相邻两个所述第一断句标识之间的文字数量大于第一阈值的情况下,在相邻两个所述第一断句标识之间添加一个或多个第二断句标识,以使相邻的所述第一断句标识和所述第二断句标识之间,或者相邻所述第二断句标识之间的文字数量小于第二阈值。
在一些实施例中,所述在相邻两个所述第一断句标识之间添加一个或多个第二断句标识,包括:
对相邻两个所述第一断句标识之间的文字进行语义分析;
根据语义分析结果,将相邻两个所述第一断句标识之间的文字划分为多个语义片段;
在至少一对相邻的语义片段之间添加所述第二断句标识。
在一些实施例中,所述基于所述断句标识,确定所述文本中的第一类文字和第二类文字,包括:
将所述文本中位于所述断句标识之后的首个文字,确定为所述第一类文字;
将所述文本中除所述第一类文字之外的其余文字,确定为所述第二类文字。
在一些实施例中,所述获取所述第一类文字对应的第一语音信息,包括:
获取具有随机时长的换气音的第一语音信息。
在一些实施例中,所述获取具有随机时长的换气音的第一语音信息,包括:
获取包括所述第一类文字的文字发音和位于该文字发音之前的换气音的第三语音信息;
从所述第三语音信息中截取所述第一类文字的文字发音,以及邻近所述第一类文字的文字发音的随机时长的换气音,以形成具有随机时长的换气音的第一语音信息;或者
获取随机时长的换气音和所述第一类文字的文字发音;
基于该随机时长的换气音和所述第一类文字的文字发音,形成具有随机时长的换气音的第一语音信息。
在一些实施例中,所述获取所述第一类文字对应的第一语音信息,包括:
在各所述第一类文字具有多个相对应的第一语音信息,且多个相对应的第一语音信息具有不同的换气音的情况下,随机获取多个相对应的第一语音信息中的一个第一语音信息。
在一些实施例中,所述获取所述第一类文字对应的第一语音信息,包括:
获取与各所述第一类文字相对应的情绪信息;
基于所述情绪信息,获取具有与所述情绪信息相对应的换气音的所述第一语音信息。
本申请另一方面提供了一种电子设备,包括:
第一确定模块,用于确定获取的文本中的断句标识;
第二确定模块,用于基于所述断句标识,确定所述文本中的第一类文字和第二类文字;其中,所述第一类文字与所述断句标识具有第一位置关系,所述第二类文字与所述断句标识具有第二位置关系;
获取模块,用于获取所述第一类文字对应的第一语音信息和所述第二类文字对应的第二语音信息;其中,所述第一语音信息包括所述第一类文字的文字发音,以及在时序上位于该文字发音之前的换气音;所述第二语音包括所述第二类文字的文字发音;
合成模块,用于基于所述第一语音信息和所述第二语音信息,合成与所述文本相对应的目标音频。
本申请实施例的语音合成方法,确定获取的文本中的断句标识,基于断句标识确定文本中的第一类文字和第二类文字,针对第一类文字,获取包含第一类文字的文字发音和换气音的第一语音信息,针对第二类文字,获取包含第二类文字的文字发音的第二语音信息,基于第一语音信息和第二语音信息所合成的目标音频在适当的位置配置了换气音,能够显著提高该目标音频的拟人程度,有益于提高听众的视听体验。
附图说明
图1为本申请实施例的语音合成方法的流程图;
图2为本申请实施例的语音合成方法的步骤S1的流程图;
图3为本申请实施例的语音合成方法的步骤S12的流程图;
图4为本申请实施例的语音合成方法的步骤S31的场景示意图;
图5为本申请实施例的电子设备的第一种实施例的结构框图;
图6为本申请实施例的电子设备的第二种实施例的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
图1为本申请实施例的语音合成方法的流程图,参见图1所示,本申请实施例的语音合成方法具体可包括如下步骤:
S1,确定获取的文本中的断句标识。
在实际应用时,可通过多种方式来获取该文本。电子设备可通过另一电子设备交互来获取该文本,也可从电子设备内部的存储装置中获取该文本,或者可基于电子设备对数据的处理结果来获取该文本,亦或者也可采用其他方式来获取文本。关于文本的具体内容,此处也不进行限定,如该文本的具体内容可为电子书、文章、诗歌、古文,甚至于交互信息等。
真人进行文字朗读时,为了保持朗读的流畅性,通常会在断句位置或者与断句位置具有特定位置关系的位置处换气,以避免换气动作显著影响朗读的发音和节奏。因此,在获取到文本的情况下,可确定文本中的断句标识。断句标识用于标识文本中文字内容的断句位置。
该断句标识可由文本中原有字符形成,也可为基于确定的断句位置所添加的断句标识。例如,在获取到文本的情况下,可分析该文本中文字内容的断句位置,基于所分析的断句位置生成断句标识。可选的,可通过多种方式来分析文本中文字内容的断句位置,如可对文字内容进行词性分析、语义分析或句型分析等,来确定文字内容的断句位置,或者,也可利用训练完成的自学习模型来分析文本中文字内容的断句位置,以确定文本中的断句标识。
S2,基于断句标识,确定文本中的第一类文字和第二类文字;其中,第一类文字与断句标识具有第一位置关系,第二类文字与断句标识具有第二位置关系。
换气动作会形成换气音,换气动作之后的首个文字的文字发音之前需要配置换气音,可将换气动作之后的首个文字确定为第一类文字,将文本中的其余文字确定为第二类文字。
在此基础上,可基于断句标识,确定换气位置。例如,可将具有断句标识的位置配置为换气位置,也即,将断句位置配置为换气位置,以模拟真人利用断句停顿进行换气;也可将在两个断句标识之间配置一换气位置,以模拟真人在朗读过程中进行换气。继而,基于换气位置,确定文本中的第一类文字和第二类文字,也即,将换气位置之后的首个文字确定为第一类文字,将文本中除第一类文字之前的其余文字确定为第二类文字。
当然,由于换气位置是基于断句标识所确定,与断句标识之间具有特定的位置关系,换气位置还直接决定了第一类文字和第二类文字。因此,也可预先确定断句标识与第一类文字之间的第一位置关系,以及断句标识与第二类文字之间的第二位置关系。在已确定文本中的断句标识的情况下,可基于断句标识和第一位置关系,确定文本中的第一类文字,基于断句标识和第二位置关系,确定文本中的第二类文字,也起到了确定换气位置之后的首个文字的目的。
S3,获取第一类文字对应的第一语音信息和第二类文字对应的第二语音信息;其中,第一语音信息包括第一类文字的文字发音,以及在时序上位于该文字发音之前的换气音;第二语音信息包括第二类文字的文字发音。
其中,第一语音信息实际为包含文字发音和换气音的音频,第二语音信息实际为包含文字发音的音频,该音频可由播音员预先录制形成,也可为基于所录制的音频进行合成形成。该换气音可包括吸气音,也可既包括吸气音,又包括呼气音,当然,至少要包含吸气音。
在确定文字类型的基础上,还可分别为第一类文字和第二类文字添加文字类型标识。基于第一类文字的文字类型标识,获取第一语音信息,基于第二类文字的文字类型标识,获取第二语音信息。以所朗读的内容为汉字为例,可基于各汉字的汉字编码和文字类型标识,分别获取第一类文字对应的第一语音信息,以及第二类文字对应的第二语音信息。
关于第一语音信息,可直接获取已经包含文字发音和换气音的第一语音信息,也可分别获取第一类文字的文字发音和换气音,基于第一类文字的文字发音和换气音合成第一语音信息。
S4,基于第一语音信息和第二语音信息,合成与文本相对应的目标音频。
在已获取第一语音信息和第二语音信息的情况下,可按照文本中的文字顺序,将对应的第一语音信息和第二语音信息合成为目标音频。可选的,文本中的文字可具有相对应的索引信息,索引信息用于标识文本中的文字位置。可基于索引信息对第一语音信息和第二语音信息进行排序,并将排序后的第一语音信息和第二语音信息合成为目标音频。
本申请实施例的语音合成方法,确定获取的文本中的断句标识,基于断句标识确定文本中的第一类文字和第二类文字,针对第一类文字,获取包含第一类文字的文字发音和换气音的第一语音信息,针对第二类文字,获取包含第二类文字的文字发音的第二语音信息,基于第一语音信息和第二语音信息所合成的目标音频在适当的位置配置了换气音,能够显著提高该目标音频的拟人程度,有益于提高听众的视听体验,避免听众产生疲劳感。
配合图2所示,在一些实施例中,步骤S1,确定获取的文本中的断句标识,包括:
S11,确定文本中的标点符号,将标点符号作为第一断句标识。
标点符号是用于辅助文字记录语言的符号,用于表示停顿、语气以及词语的性质和作用。因此,可确定文本中的标点符号,将标点符号作为第一断句标识。基于标点符号的位置确定换气位置,继而确定第一类文字和第二类文字,或者基于预先识别的第一类文字与标点符号的位置关系,来确定第一类文字,并基于预先识别的第二类文字与标点符号的位置关系,来确定第二类文字。例如,可将标点符号所在位置确定为换气位置,如此,标点符号之后的首个文字即为第一类文字。在一个可选的实施例中,可确定文本中的点号位置,将点号作为第一断句标识。点号用于表示文本中不同长短的停顿。因此,将点号作为第一断句标识,能够更加准确的标识断句位置,进而能够更加拟人化的配置换气音。
继续配合图2所示,在一些实施例中,步骤S1,确定获取的文本中的断句标识,还包括:
S12,在相邻两个第一断句标识之间的文字数量大于第一阈值的情况下,在相邻两个第一断句标识之间添加一个或多个第二断句标识,以使相邻的第一断句标识和第二断句标识之间,或者相邻第二断句标识之间的文字数量小于第二阈值。
在真实场景下,当一句话或一个文字段过长,真人通常难以在一次换气的情况下完成整个句子或整个文字段的朗读。例如,以如下这句话为例:
“。中央人民广播电台。各位听众,现在播送中央气象台今天晚上六点钟发布的天气预报。”
如果仅在第一断句标识所标识的位置进行换气,则完成这句话的朗读会进行三次换气,在朗读完“各位观众”之后,进行换气,这次换气之后需要连续朗读完“现在播送中央气象台今天晚上六点钟发布的天气预报”这个文字段,但由于该文字段过长,真人通常难以在一次换气的情况下完成朗读。针对这样的情况,真人通常会在一句话或一个文字段中间进行一次断句或几次断句,并进行换气,以便能够保持气息平稳、吐字清晰。
为模拟该真实场景,以进一步提高音频的拟人化程度,可预先确定通常情况下真人的断句长度,并再次基础上预先配置第一阈值和第二阈值,第一阈值可为极限断句长度,该第二阈值可小于第一阈值。可选的,该第二阈值可为舒适的断句长度,也即不会令真人明显感觉气息不足的断句长度。
由于第一断句标识是由标点符号形成,因此,在已确定第一断句标识的基础上,可进一步判断相邻两个第一断句标识之间的文字数量大于是否大于第一阈值,即可实现判断句子或文字段中间是否需要断句的目的,如果相连两个第一断句标识之间的文字数量大于第一阈值,则表明该句子或文字段过长,可在相邻两个标点符号之间添加一个或多个第二断句标识,以使断句之后形成的每段文字的文字数量均小于第二阈值。
仍然以“中央人民广播电台。各位听众,现在播送中央气象台今天晚上六点钟发布的天气预报。”这句话为例,基于标点符号所确定的第一断句标识的位置如下所示:
“。『第一断句标识』中央人民广播电台。『第一断句标识』各位听众,『第一断句标识』现在播送中央气象台今天晚上六点钟发布的天气预报”
以第一阈值为二十,第二阈值为十五为例,分隔形成的“现在播送中央气象台今天晚上六点钟发布的天气预报”文字段的文字数量达到二十三个,大于第一阈值,所以,可在该文字段中添加一个或多个第二断句标识,以使重新划分后的文字段小于十五,经计算只需添加一个第二断句标识即可。第二断句标识的位置如下所示:
“。『第一断句标识』中央人民广播电台。『第一断句标识』各位听众,『第一断句标识』现在播送中央气象台『第二断句标识』今天晚上六点钟发布的天气预报”
这样,就会形成四个换气音,更加接近于真人的朗读过程。
配合图3所示,在一个可选的实施例中,步骤S12,在相邻两个第一断句标识之间添加一个或多个第二断句标识,包括:
S121,对相邻两个第一断句标识之间的文字进行语义分析;
S122,根据语义分析结果,将相邻两个第一断句标识之间的文字划分为多个语义片段;
S123,在至少一对相邻的语义片段之间添加第二断句标识。
当两个标点符号之间形成的一句话或一个文字段过程时,可对该句话或该文字段进行语义分析,将该句话或该文字段划分为几个语义片段,这几个语义片段在语言含义上相对独立,在语义片段之间添加第二断句标识,进而能够在相应的位置处形成换气音,能够确保语义的连贯性,避免形成突兀的换气音。
在一些实施例中,确定获取的文本中的断句标识,还可包括:
确定文字段的文字数量,文字段由任意相邻两个第一断句标识之间的文字形成;
在具有连续的N个文字段的文字数量均小于第三阈值的情况下,去除一个或多个第一断句标识,以使重新形成的文字段的文字数量大于第四阈值;
其中,N为大于等于2的正整数。
在真实场景下,会存在标点符号分隔形成多个连续的较短的文字段,例如,由多个顿号分隔形成的多个并列的词语。真人在朗读这部分内容时虽然会断句,但并不会每次断句都进行换气。因此,在确定了第一断句标识的情况下,还可确定由第一断句标识所分隔形成的文字段的文字数量,继而判断是否存在连续N个文字段的文字数量均小于第三阈值的情况,如果存在,则删除一个或多个第一断句标识,删除第一断句标识后,文字段会重新划分,使重新划分后的文字段的文字数量大于第四阈值。这样,能够避免短时间内出现连续换气的现象,有益于进一步提高所合成的目标音频的拟人化程序。
需要说明的是,上述断句标识的确定方法仅为示例性的,在具体实施时,可采用多种方法确定断句标识,不应理解为仅限于上述示例所示方法,例如,还可采用自学习模型来分析文本中文字内容的断句位置,以确定文本中的断句标识。
在一些实施例中,步骤S2,基于断句标识,确定文本中的第一类文字和第二类文字,包括:
将文本中位于断句标识之后的首个文字,确定为第一类文字;
将文本中除第一类文字之外的其余文字,确定为第二类文字。
真正的真人通常会选择在断句位置进行换气,这样能够保持朗读内容的连续性和流畅性,能够避免出现突兀的停顿。在此基础上,可将换气位置配置为与断句位置相同,如此,断句位置之后的首个文字即为第一类文字,文本中除第一类文字之外的其余文字即为第二类文字。在已确定第一断句标识和第二断句标识的情况下,可将第一断句标识之后的首个文字和第二断句标识之后的首个文字均确定为第一类文字。可选的,在将文本中位于断句标识之后的首个文字,确定为第一类文字的基础上,还可在文本中随机选取另外一些文字作为第一类文字。由于真人可能无法完美的做到每次均在断句位置进行换气,所以,随机选取一些换气位置可以进一步提高所形成的目标音频的拟人化程序。当然,随机选取的换气位置占全部换气位置的比例应该是较小的,以避免显著影响目标音频的连续性和流畅性。
在一些实施例中,步骤S3,获取第一类文字对应的第一语音信息,包括:
S31,获取具有随机时长的换气音的第一语音信息。
真正真人的换气长度呈现出一定的随机分布特性。获取具有随机时长的换气音的第一语音信息,也即,获取的第一语音信息包括第一类文字对应的文字发音,以及在时序上位于该文字发音之前的一个随机时长的换气音。能够使得目标音频中的换气音的时长呈现出随机化分布的特性,能够模拟真人的换气特征,提高目标音频的拟人化水平,避免因换气音过于单调导致听众容易听觉疲劳的问题。
在一个可选的实施例中,步骤S31,获取具有随机时长的换气音的第一语音信息,包括:
获取包括第一类文字的文字发音和位于该文字发音之前的换气音的第三语音信息;
从第三语音信息中截取第一类文字的文字发音,以及邻近第一类文字的文字发音的随机时长的换气音,以形成具有随机时长的换气音的第一语音信息。
针对同一个文字,播音员可录制两种音频,一种音频是不带有换气音的音频。播音员进行文字发音录制之前,不进行换气,而是直接进行朗读,从而形成一个不带换气音的音频,也即,第二语音信息。另一种音频是带有完整的换气音和文字发音的音频,也即第三语音信息,第三语音信息的音频频谱如图4中A部分所示。播音员在进行文字发音之前,先进行换气,然后进行文字发音,这样就能够形成包含完整的换气音和文字发音的音频。当然,也可基于完整的换气音和文字发音合成第三语音信息,只要第三语音信息包含完整的换气音即可。
获取到该第三语音信息,可利用随机化算法确定一个随机时长。基于该随机时长,从第三语音信息的起始侧截取掉随机时长的换气音,保留文字发音和邻近文字发音的换气音,形成具有随机时长的换气音的第一语音信息,如图4中B部分所示为一个具有较长的换气音的第一语音信息音频频谱,如图4中C部分所示为一个具有较短的换气音的第一语音信息的音频频谱。当然,随机化算法所确定的随机时长也可作为需要保留的换气音的时长。
在另一个可选的实施例中,步骤S31,获取具有随机时长的换气音的第一语音信息,包括:
获取随机时长的换气音和第一类文字的文字发音;
基于该随机时长的换气音和第一类文字的文字发音,形成具有随机时长的换气音的第一语音信息。
播音员可直接录制不同时长的换气音,或从播音员录制的音频中截取不同时长的换气音,基于这些换气音可构建换气音数据库。在已确定第一类文字的情况下,可获取该第一类文字的文字发音,并从换气音数据库中随机获取换气音,继而将换气音置于文字发音的起始侧,将二者合成在一起就能够形成具有随机时长换气音的第一语音信息。这样,能够降低所需保存的音频数据的数据量,也无需利用随机化算法来确定随机时长,只需随机获取音频即可。
在一些实施例中,获取具有随机时长的吸气音的第一语音信息,包括:
确定第一类文字相对于文本的第三位置关系;
基于第三位置关系,确定用于校正随机事件概率的校正系数;
基于校正系数,获取具有随机时长的换气音的第一语音信息。
其中,第三位置关系表征第一类文字相对于文本的位置,如段首、段中、句首、句中等。校正系数用于校正随机事件,以在实现随机化的同时,通过该校正系数校正随机事件的趋势。例如,通过该校正系数,在随机确定换气音时长的同时,也可使换气音的时长与第三位置关系呈现关联关系。
真正真人的换气长度呈现随机化特性的同时,在一定程度上也会受到真人的有意识的控制。例如,在两个段落之间,由于有较长的停顿,真人在开始下一段朗读之前已经进行充分换气,朗读下一段文字之前仅需进行短暂平缓的换气即可开始朗读。可调整校正系数,使得具有较大概率获取到时长较短的换气音。当第一类文字位于一段文字中间且位于一句话的句首,由于存在明显的断句停顿,但又不至于让真人进行多次换气,真人通常会一次进行充分换气,换气时长较长且换气动作平缓。可调整校正系数,使得具有较大概率获取到时长较长的换气音。当第一类文字位于一句话中间,由于停顿较短,真人通常会短暂且急促的换气。可调整校正系数,使得具有较大概率获取到时长较短的换气音。
在一些实施例中,步骤S3,获取第一类文字对应的第一语音信息,包括:
在各第一类文字具有多个相对应的第一语音信息,且多个相对应的第一语音信息具有不同的换气音的情况下,随机获取多个相对应的第一语音信息中的一个第一语音信息。
针对同一个文字,可预先制作多个不同的第一语音信息,这些第一语音信息具有不同的换气音,该不同的换气音可以是换气时长不同,也可以是换气方式不同,如急促、平缓、摩擦音较重或音量较小等。这样,不仅能够实现换气时长的随机化,也可实现换气方式的随机化,模拟真人的随机化换气,提高目标音频的拟人化程度。而且,多个第一语音信息已经预先制作完成,合成过程中只需随机获取即可,无需在对获取的语音信息进行处理,能够降低合成过程中的数据处理量。
在一些实施例中,步骤S3,获取第一类文字对应的第一语音信息,包括:
获取与各第一类文字相对应的情绪信息;
基于情绪信息,获取具有与情绪信息相对应的换气音的第一语音信息。
真人朗读过程中,换气不仅仅是为了补气,在一定程度上也是一种感情或情绪的表达手段,如急促的换气声能够产生较强的气息摩擦声,能够显露出朗读者着急、紧张、感慨等不同的感情色彩,而平缓的换气声能能够展现出朗读者平静、平和的内心状态。因此,恰当的选择换气音不仅能够提高目标音频的拟人化程度,还能够使目标音频更富于表现力。
在已确定各第一类文字的基础上,可确定各第一类文字位置处的文字内容所展现的感情或情绪,以形成情绪信息。可选的,可通过例如情绪分析模型对文本进行分析,以获取各第一类文字相对应的情绪信息。也可基于语义分析来获取各第一类文字相对应的情绪信息。通过该情绪信息能够确定该情绪信息所展现的感应、情绪或情感。
在实际应用时,可预先录制能够展现出各种情绪或感情的换气音,并对各换气音所能够展现的情绪或感情进行标记,基于情绪信息则能够获取与之相对应的换气音。例如,在需要展现出生动或激动的心情时,换气音通常需要短暂且急促。
在实际应用时,也可仅录制标准的换气音,获取到情绪信息,可基于情绪信息对换气音进行处理,以调整换气音的音频参数,从而形成与该情绪信息相对应的换气音。音频参数可包括例如响度、音量、时长、频率等。例如,提高换气音的音量,压缩换气音的长度,则能够形成一个急促的换气音。
参见图5所示,本申请实施例还提供了一种电子设备,包括:
第一确定模块10,用于确定获取的文本中的断句标识;
第二确定模块20,用于基于断句标识,确定文本中的第一类文字和第二类文字;其中,第一类文字与断句标识具有第一位置关系,第二类文字与断句标识具有第二位置关系;
获取模块30,用于获取第一类文字对应的第一语音信息和第二类文字对应的第二语音信息;其中,第一语音信息包括第一类文字的文字发音,以及在时序上位于该文字发音之前的换气音;第二语音包括第二类文字的文字发音;
合成模块40,用于基于第一语音信息和第二语音信息,合成与文本相对应的目标音频。
在一些实施例中,第一确定模块10具体用于:
确定文本中的标点符号,将标点符号作为第一断句标识。
在一些实施例中,第一确定模块10还用于:
在相邻两个第一断句标识之间的文字数量大于第一阈值的情况下,在相邻两个第一断句标识之间添加一个或多个第二断句标识,以使相邻的第一断句标识和第二断句标识之间,或者相邻第二断句标识之间的文字数量小于第二阈值。
在一些实施例中,第一确定模块10具体用于:
对相邻两个第一断句标识之间的文字进行语义分析;
根据语义分析结果,将相邻两个第一断句标识之间的文字划分为多个语义片段;
在至少一对相邻的语义片段之间添加第二断句标识。
在一些实施例中,第二确定模块20具体用于:
将文本中位于断句标识之后的首个文字,确定为第一类文字;
将文本中除第一类文字之外的其余文字,确定为第二类文字。
在一些实施例中,获取模块30具体用于:
获取具有随机时长的换气音的第一语音信息。
在一些实施例中,获取模块30具体用于:
获取包括第一类文字的文字发音和位于该文字发音之前的换气音的第三语音信息;
从第三语音信息中截取第一类文字的文字发音,以及邻近第一类文字的文字发音的随机时长的换气音,以形成具有随机时长的换气音的第一语音信息;或者
获取随机时长的换气音和第一类文字的文字发音;
基于该随机时长的换气音和第一类文字的文字发音,形成具有随机时长的换气音的第一语音信息。
在一些实施例中,获取模块30具体用于:
在各第一类文字具有多个相对应的第一语音信息,且多个相对应的第一语音信息具有不同的换气音的情况下,随机获取多个相对应的第一语音信息中的一个第一语音信息。
在一些实施例中,获取模块30具体用于:
获取与各第一类文字相对应的情绪信息;
基于情绪信息,获取具有与情绪信息相对应的换气音的第一语音信息。
参见图6所示,本申请实施例还提供了一种电子设备,至少包括存储器220和处理器210,存储器220上存储有程序,处理器210在执行存储器220上的程序时实现如上任一实施例所述的方法。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种语音合成方法,包括:
确定获取的文本中的断句标识;
基于所述断句标识,确定所述文本中的第一类文字和第二类文字;其中,所述第一类文字与所述断句标识具有第一位置关系,所述第二类文字与所述断句标识具有第二位置关系;
获取所述第一类文字对应的第一语音信息和所述第二类文字对应的第二语音信息;其中,所述第一语音信息包括所述第一类文字的文字发音,以及在时序上位于该文字发音之前的换气音;所述第二语音信息包括所述第二类文字的文字发音;
基于所述第一语音信息和所述第二语音信息,合成与所述文本相对应的目标音频。
2.根据权利要求1所述的方法,其中,所述确定获取的文本中的断句标识,包括:
确定所述文本中的标点符号,将所述标点符号作为第一断句标识。
3.根据权利要求2所述的方法,其中,所述确定获取的文本中的断句标识,还包括:
在相邻两个所述第一断句标识之间的文字数量大于第一阈值的情况下,在相邻两个所述第一断句标识之间添加一个或多个第二断句标识,以使相邻的所述第一断句标识和所述第二断句标识之间,或者相邻所述第二断句标识之间的文字数量小于第二阈值。
4.根据权利要求3所述的方法,其中,所述在相邻两个所述第一断句标识之间添加一个或多个第二断句标识,包括:
对相邻两个所述第一断句标识之间的文字进行语义分析;
根据语义分析结果,将相邻两个所述第一断句标识之间的文字划分为多个语义片段;
在至少一对相邻的语义片段之间添加所述第二断句标识。
5.根据权利要求1所述的方法,其中,所述基于所述断句标识,确定所述文本中的第一类文字和第二类文字,包括:
将所述文本中位于所述断句标识之后的首个文字,确定为所述第一类文字;
将所述文本中除所述第一类文字之外的其余文字,确定为所述第二类文字。
6.根据权利要求1所述的方法,其中,所述获取所述第一类文字对应的第一语音信息,包括:
获取具有随机时长的换气音的第一语音信息。
7.根据权利要求6所述的方法,其中,所述获取具有随机时长的换气音的第一语音信息,包括:
获取包括所述第一类文字的文字发音和位于该文字发音之前的换气音的第三语音信息;
从所述第三语音信息中截取所述第一类文字的文字发音,以及邻近所述第一类文字的文字发音的随机时长的换气音,以形成具有随机时长的换气音的第一语音信息;或者
获取随机时长的换气音和所述第一类文字的文字发音;
基于该随机时长的换气音和所述第一类文字的文字发音,形成具有随机时长的换气音的第一语音信息。
8.根据权利要求1所述的方法,其中,所述获取所述第一类文字对应的第一语音信息,包括:
在各所述第一类文字具有多个相对应的第一语音信息,且多个相对应的第一语音信息具有不同的换气音的情况下,随机获取多个相对应的第一语音信息中的一个第一语音信息。
9.根据权利要求1所述的方法,其中,所述获取所述第一类文字对应的第一语音信息,包括:
获取与各所述第一类文字相对应的情绪信息;
基于所述情绪信息,获取具有与所述情绪信息相对应的换气音的所述第一语音信息。
10.一种电子设备,包括:
第一确定模块,用于确定获取的文本中的断句标识;
第二确定模块,用于基于所述断句标识,确定所述文本中的第一类文字和第二类文字;其中,所述第一类文字与所述断句标识具有第一位置关系,所述第二类文字与所述断句标识具有第二位置关系;
获取模块,用于获取所述第一类文字对应的第一语音信息和所述第二类文字对应的第二语音信息;其中,所述第一语音信息包括所述第一类文字的文字发音,以及在时序上位于该文字发音之前的换气音;所述第二语音包括所述第二类文字的文字发音;
合成模块,用于基于所述第一语音信息和所述第二语音信息,合成与所述文本相对应的目标音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111108151.5A CN113781997B (zh) | 2021-09-22 | 2021-09-22 | 语音合成方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111108151.5A CN113781997B (zh) | 2021-09-22 | 2021-09-22 | 语音合成方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113781997A true CN113781997A (zh) | 2021-12-10 |
CN113781997B CN113781997B (zh) | 2024-07-23 |
Family
ID=78852728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111108151.5A Active CN113781997B (zh) | 2021-09-22 | 2021-09-22 | 语音合成方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113781997B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09230884A (ja) * | 1996-02-28 | 1997-09-05 | Sanyo Electric Co Ltd | 文音声変換方法ならびに文音声変換装置における息継ぎ位置決定方法 |
CN101334994A (zh) * | 2007-06-25 | 2008-12-31 | 富士通株式会社 | 文本到语音设备 |
CN101727904A (zh) * | 2008-10-31 | 2010-06-09 | 国际商业机器公司 | 语音翻译方法和装置 |
US9508338B1 (en) * | 2013-11-15 | 2016-11-29 | Amazon Technologies, Inc. | Inserting breath sounds into text-to-speech output |
CN107679033A (zh) * | 2017-09-11 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本断句位置识别方法和装置 |
CN112542154A (zh) * | 2019-09-05 | 2021-03-23 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
-
2021
- 2021-09-22 CN CN202111108151.5A patent/CN113781997B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09230884A (ja) * | 1996-02-28 | 1997-09-05 | Sanyo Electric Co Ltd | 文音声変換方法ならびに文音声変換装置における息継ぎ位置決定方法 |
CN101334994A (zh) * | 2007-06-25 | 2008-12-31 | 富士通株式会社 | 文本到语音设备 |
CN101727904A (zh) * | 2008-10-31 | 2010-06-09 | 国际商业机器公司 | 语音翻译方法和装置 |
US9508338B1 (en) * | 2013-11-15 | 2016-11-29 | Amazon Technologies, Inc. | Inserting breath sounds into text-to-speech output |
CN107679033A (zh) * | 2017-09-11 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本断句位置识别方法和装置 |
CN112542154A (zh) * | 2019-09-05 | 2021-03-23 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113781997B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mirza et al. | Appreciation of music in adult patients with cochlear implants: a patient questionnaire | |
Zárate | Captioning and subtitling for d/deaf and hard of hearing audiences | |
US20100298959A1 (en) | Speech reproducing method, speech reproducing device, and computer program | |
CN109147800A (zh) | 应答方法和装置 | |
CN108847215A (zh) | 基于用户音色进行语音合成的方法及装置 | |
Lambourne et al. | Speech-based real-time subtitling services | |
CN107959881A (zh) | 一种基于儿童情绪的视频教学系统 | |
CN109410937A (zh) | 中文语音训练方法及系统 | |
Gooskens | How well can Norwegians identify their dialects? | |
CN112908302B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN110797001B (zh) | 电子书语音音频的生成方法、装置及可读存储介质 | |
CN113781997A (zh) | 语音合成方法及电子设备 | |
CN104735461B (zh) | 视频中语音关键词广告的更换方法及装置 | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
JP6314879B2 (ja) | 音読評価装置、音読評価方法、及びプログラム | |
CN109841225B (zh) | 声音替换方法、电子设备和存储介质 | |
Jankowska et al. | Reading rate in filmic audio description | |
CN107452408A (zh) | 一种音频播放方法及装置 | |
CN109036373A (zh) | 一种语音处理方法及电子设备 | |
CN111429878B (zh) | 一种自适应语音合成方法及装置 | |
CN110364139B (zh) | 一种进行智能角色匹配的文字转语音工作方法 | |
Gorman | A framework for speechreading acquisition tools | |
Nielsen et al. | A Danish nonsense word corpus for phoneme recognition measurements | |
Yang | Speech recognition rates and acoustic analyses of English vowels produced by Korean students | |
JP2011232775A (ja) | 発音学習装置及び発音学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |