CN110970013A

CN110970013A - 一种语音合成方法、装置以及计算机可读存储介质

Info

Publication number: CN110970013A
Application number: CN201911335928.4A
Authority: CN
Inventors: 冯小琴; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd; Chumen Wenwen Information Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-07

Abstract

本发明公开了一种语音合成方法、装置以及计算机可读存储介质，包括：获得文本信息；在所获得的文本信息的文本区域内设置停顿标识符；将含有停顿标识符的文本信息作为语音合成系统的输入，并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，生成对应于所述文本信息的语音信息。由此，通过在文本中设置停顿标识符，语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间，使得得到的语音消息更加自然，提升用户体验。

Description

一种语音合成方法、装置以及计算机可读存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、装置以及计算机可读存储介质。

背景技术

目前面向文章的语音合成系统，存在一种问题：文章无段落标记或者标记位置不合适时，将导致整篇文章生成的音频不能有自然的段落停顿效果。

发明内容

本发明实施例提供了一种语音合成方法、装置以及计算机可读存储介质，使得到的语音更具有自然度，提升用户的体验。

本发明一方面提供一种语音合成方法，所述方法包括：获得文本信息；在所获得的文本信息的文本区域内设置停顿标识符；将含有停顿标识符的文本信息作为语音合成系统的输入，并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，生成对应于所述文本信息的语音信息。

在一可实施方式中，所述停顿标识符包括停顿标签，所述停顿标签中设有停顿时长；相应的，所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，包括：指示所述语音合成系统识别所述文本信息中的停顿标签；指示所述语音合成系统提取所识别的停顿标签中的停顿时长；指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间。

在一可实施方式中，所述停顿标签还包括处理方式，所述处理方式又包括后处理和前处理；相应的，在指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间之前，所述方法还包括：指示所述语音合成系统识别并判断所述停顿标签中的处理方式；若判定所识别得到的处理方式为前处理，则指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间；若判定所识别得到的处理方式为后处理，则指示所述语音合成系统将所提取的停顿时长替换由所述语音合成系统在所述位置预先设置的预设时长。

在一可实施方式中，所述停顿标签中的停顿时长为400ms、600ms和800ms的其中之一。

在一可实施方式中，所述停顿标识符还包括文章标签，所述文章标签又包括标题标签和正文标签：所述在所获得的文本信息的文本区域内设置停顿标识符，具体包括：在所获得的文本信息的任意文本区间设置文章标签；相应的，所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，包括指示所述语音合成系统识别所述文本信息中的文章标签；判断所识别的文章标签为标题标签或正文标签；根据判断结果在所述停顿标识符处设置静音区间。

在一可实施方式中，所述根据判断结果在所述停顿标识符处设置静音区间，包括：若判定所识别的文章标签为标题标签，则指示所述语音合成系统在所述文本区间末尾设置第一预设时长的静音区间；若判定所识别的文章标签为正文标签，则指示所述语音合成系统在所述文本区间末尾设置第二预设时长的静音区间。

本发明另一方面提供一种语音合成装置，所述装置包括：文本获取模块，用于获得文本信息；标识符设置模块，用于在所获得的文本信息的文本区域内设置停顿标识符；语音生成模块，用于将含有停顿标识符的文本信息作为语音合成系统的输入，并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，生成对应于所述文本信息的语音信息。

在一可实施方式中，所述停顿标识符包括停顿标签，所述停顿标签中设有停顿时长；相应的，所述语音生成模块在指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间的过程中，具体用于：指示所述语音合成系统识别所述文本信息中的停顿标签；指示所述语音合成系统提取所识别的停顿标签中的停顿时长；指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间。

在一可实施方式中，所述停顿标识符还包括文章标签，所述文章标签又包括标题标签和正文标签：所述标识符设置模块具体用于：在所获得的文本信息的任意文本区间设置文章标签；相应的，所述语音生成模块在指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间的过程中，具体用于：指示所述语音合成系统识别所述文本信息中的文章标签；判断所识别的文章标签为标题标签或正文标签；根据判断结果在所述停顿标识符处设置静音区间。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的一种语音合成方法。

在本发明实施例中，通过在文本中设置停顿标识符，语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间，使得得到的语音消息更加自然，提升用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种语音合成方法的实现流程示意图；

图2为本发明实施例一种语音合成装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种语音合成方法的实现流程示意图。

如图1所示，本发明一方面提供一种语音合成方法，方法包括：

步骤101，获得文本信息；

步骤102，在所获得的文本信息的文本区域内设置停顿标识符；

步骤103，将含有停顿标识符的文本信息作为语音合成系统的输入，并指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间，生成对应于文本信息的语音信息。

本实施例中，首先获得文本信息，其中文本信息可以是纯文本，也可以是已带有停顿标识符的文本，获取方式可以由用户自己编辑，也可以从线上直接获取。

接着用户可以根据文本内容在文本信息的文本区域内设置停顿标识符，获得含有停顿标识符的文本信息。其中，文本区域具体是指文本中标题以及每个段落的头部、中间以及尾部，也包括任意文本区间。

停顿标识符实则为一种标签，是由语音合成标记语言(SSML)来编写，其包括多种属性以及对应的属性值。例如</break time＝"400ms"tag＝“forward”>其中，break代表停顿标签，time为属性，表示停顿时长，400ms为对应time的属性值。在设置参数的过程中，普通用户可通过相关工程师设计的一些可视化界面在文本的任意位置标签种类、停顿时长、处理方式等参数，后台通过普通用户提供的参数来在用户指定文本位置生成相应的停顿标识符。

然后将含有停顿标识符的文本信息输入于语音合成系统，语音合成系统将文本信息从头到尾依次转换为对应的语音信息。在转换过程中，若待转换的字符为文字，则将文字转换为对应的语音，若待转换的字符为换行符或者标点符号，则在该处插入系统中预设时长的静音区间，若遇到停顿标识符，则根据停顿标识符信息来设置相应的静音信息。其中，静音区间由若干个连续0分贝的音频组成，静音区间的宽窄与时长成正比。

由此，通过在文本中设置停顿标识符，语音合成系统在将文本转换成语音的过程中在设有停顿标识符处相应设置静音区间，使得得到的语音消息更加自然，提升用户体验。

在一可实施方式中，停顿标识符包括停顿标签，停顿标签中设有停顿时长；

相应的，将指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间，包括：

指示语音合成系统识别文本信息中的停顿标签；

指示语音合成系统提取所识别的停顿标签中的停顿时长；

指示语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间。

本实施例中，停顿标签中设有停顿时长，并且停顿标签可以设置在标题以及段落的头部、中间以及尾部；相应的，步骤103中“将指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间”的具体过程为：在将含有停顿标识符的文本信息输入于语音合成系统之后，语音合成系统在转换过程中，识别文本信息中的停顿标签，识别方式可以是通过识别例如</break time＝"400ms"tag＝“forward”>中的break单词来判定该标签为停顿标签。

接着另语音合成系统提取所识别的停顿标签中的停顿时长，以</break time＝"400ms"tag＝“forward”>为例，具体为识别time属性，再获取time属性对应的属性值，也就是停顿时长400ms。

然后另语音合成系统在该停顿标签所处位置插入所提取时长的静音区间，具体以</break time＝"400ms"tag＝“forward”>为例，也就是插入400ms时长的静音区间。

在一可实施方式中，停顿标签还包括处理方式，处理方式又包括后处理和前处理；

相应的，在指示语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间之前，方法还包括：

指示语音合成系统识别并判断停顿标签中的处理方式；

若判定所识别得到的处理方式为前处理，则指示语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间；

若判定所识别得到的处理方式为后处理，则指示语音合成系统将所提取的停顿时长替换由语音合成系统在位置预先设置的原停顿时长

本实施例中，停顿标签还包括处理方式，处理方式又包括后处理和前处理；例如</break time＝"400ms"tag＝“forward”>其中，tag属性代表处理方式，其属性值为forward或者backward，forward代表前处理，backward代表后处理。

上文中也提到语音合成系统是将文本信息从头到尾依次转换语音，在转换过程中，若判定所转换的字符是文字，则将其转换为语音，若判定所转换的字符是换行符或者是标点符号，则不予转换，而是在该处设置预设时长的静音区间，以表示语音停顿。

由此，在语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间之前，除了从停顿标签中提取停顿时长之外，还需从停顿标签中提取tag属性，也就是处理方式，并且获取tag属性对应的属性值。

若判定获取tag属性对应的属性值为forward，也就是前处理时，则按照先前的操作流程，指示语音合成系统在停顿标签所在位置处插入对应于停顿时长的静音区间，再通过语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间。因此，通常在增加停顿的时候选择前处理。

若判定获取tag属性对应的属性值为backward，也就是后处理时，则指示所提取的停顿时长替换由语音合成系统预设的预设时长。例如原先语音合成系统在某个标点符号出设置的停顿时长为1s，若用户在该标点符号出设置了停顿标签以及400ms的停顿时长。语音合成系统在转换过程中若识别出了该停顿标签，则将该停顿标签中400ms替换原先系统中预设的1s，再通过语音合成系统在停顿标签所在位置处设置对应于停顿时长的静音区间。因此，通常在更新、删除标签的时候选择后处理。

在一可实施方式中，停顿标签中的停顿时长为400ms、600ms和800ms的其中之一。

本实施例中，停顿标签中的停顿时长优选为400ms、600ms和800ms，当然也可以其他任意数值。

在一可实施方式中，停顿标识符还包括文章标签，文章标签又包括标题标签和正文标签：

在所获得的文本信息的文本区域内设置停顿标识符，具体包括：

在所获得的文本信息的任意文本区间设置文章标签；

相应的，指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间，包括

指示语音合成系统识别文本信息中的文章标签；

判断所识别的文章标签为标题标签或正文标签；

根据判断结果在停顿标识符处设置静音区间。

本实施例中，除了在文本任意位置处设置停顿标签之外，用户还可以在文本信息中指定任意文本区间，对选中的文本设置文章标签。其中，文章标签具体为<article＝‘header’></article>和“<article＝‘text’></article>”，article代表文章标签，header代表标题标签，text代表正文标签，需要说明的是，这里所指的标题包括多级标题，所指的正文包括多级正文，同时用户也可自定义多类文章层级结构。

相应的，在步骤103中“指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间”的具体过程为：识别文本信息中的文章标签，识别方式与上文中识别停顿标签的方式类似。

接着另语音合成系统判断所识别的文章标签为标题标签或正文标签，具体为提取文章标签对应的属性值，若是header，则说明是标题标签，若是text，则说明是正文标签。

根据判断结果在停顿标识符处设置静音区间。

在一可实施方式中，根据判断结果在停顿标识符处设置静音区间，包括：

若判定所识别的文章标签为标题标签，则指示语音合成系统在文本区间末尾设置第一预设时长的静音区间；

若判定所识别的文章标签为正文标签，则指示语音合成系统在文本区间末尾设置第二预设时长的静音区间。

本实施例中，第一预设时长和第二预设时长为固定值，预设在语音合成系统中。

若判定所识别的文章标签为标题标签，则指示语音合成系统在文本区间末尾插入第一预设时长的静音区间；

若判定所识别的文章标签为正文标签，则指示语音合成系统在文本区间末尾插入第二预设时长的静音区间。

图2为本发明实施例一种语音合成装置的结构组成示意图。

如图2所示，基于上文提供的一种语音合成方法，本发明实施例还提供一种语音合成装置，装置包括：

文本获取模块201，用于获得文本信息；

标识符设置模块202，用于在所获得的文本信息的文本区域内设置停顿标识符；

语音生成模块203，用于将含有停顿标识符的文本信息作为语音合成系统的输入，并指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间，生成对应于文本信息的语音信息。

本实施例中，首先通过文本获取模块201获得文本信息，获取方式可以由用户自己编辑，也可以从线上直接获取。

接着通过标识符设置模块202根据文本内容在文本信息的文本区域内设置停顿标识符，获得含有停顿标识符的文本信息。其中，文本区域具体是指文本中标题以及每个段落的头部、中间以及尾部，也包括任意文本区间。

然后通过语音生成模块203将含有停顿标识符的文本信息输入于语音合成系统，语音合成系统将文本信息从头到尾依次转换为对应的语音信息。在转换过程中，若待转换的字符为文字，则将文字转换为对应的语音，若待转换的字符为换行符或者标点符号，则在该处插入系统中预设时长的静音区间，若遇到停顿标识符，则根据停顿标识符信息来设置相应的静音信息。其中，静音区间由若干个连续0分贝的音频组成，静音区间的宽窄与时长成正比。

相应的，语音生成模块203在指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间的过程中，具体用于：

指示语音合成系统识别文本信息中的停顿标签；

指示语音合成系统提取所识别的停顿标签中的停顿时长；

本实施例中，停顿标签中设有停顿时长，并且停顿标签可以设置在标题以及段落的头部、中间以及尾部。

在将含有停顿标识符的文本信息输入于语音合成系统之后，语音合成系统在转换过程中，识别文本信息中的停顿标签，识别方式可以是通过识别例如</break time＝"400ms"tag＝“forward”>中的break单词来判定该标签为停顿标签。

标识符设置模块202具体用于：

在所获得的文本信息的任意文本区间设置文章标签；

指示语音合成系统识别文本信息中的文章标签；

判断所识别的文章标签为标题标签或正文标签；

根据判断结果在停顿标识符处设置静音区间。

本实施例中，除了在文本任意位置处设置停顿标签之外，用户还可以通过标识符设置模块202在文本信息中指定任意文本区间，对选中的文本设置文章标签。其中，文章标签具体为<article＝‘header’></article>和“<article＝‘text’></article>”，article代表文章标签，header代表标题标签，text代表正文标签，需要说明的是，这里所指的标题包括多级标题，所指的正文包括多级正文，同时用户也可自定义多类文章层级结构。

识别文本信息中的文章标签，识别方式与上文中识别停顿标签的方式类似。

根据判断结果在停顿标识符处设置静音区间。

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的语音合成方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获得文本信息；在所获得的文本信息的文本区域内设置停顿标识符；将含有停顿标识符的文本信息作为语音合成系统的输入，并指示语音合成系统根据停顿标识符在停顿标识符处设置静音区间，生成对应于文本信息的语音信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获得文本信息；

在所获得的文本信息的文本区域内设置停顿标识符；

将含有停顿标识符的文本信息作为语音合成系统的输入，并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，生成对应于所述文本信息的语音信息。

2.根据权利要求1所述的方法，其特征在于，所述停顿标识符包括停顿标签，所述停顿标签中设有停顿时长；

相应的，所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，包括：

指示所述语音合成系统识别所述文本信息中的停顿标签；

指示所述语音合成系统提取所识别的停顿标签中的停顿时长；

指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间。

3.根据权利要求2所述的方法，其特征在于，所述停顿标签还包括处理方式，所述处理方式又包括后处理和前处理；

相应的，在指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间之前，所述方法还包括：

指示所述语音合成系统识别并判断所述停顿标签中的处理方式；

若判定所识别得到的处理方式为前处理，则指示所述语音合成系统在所述停顿标签所在位置处设置对应于所述停顿时长的静音区间；

若判定所识别得到的处理方式为后处理，则指示所述语音合成系统将所提取的停顿时长替换由所述语音合成系统在所述位置预先设置的预设时长。

4.根据权利要求2或3所述的方法，其特征在于，所述停顿标签中的停顿时长为400ms、600ms和800ms的其中之一。

5.根据权利要求1所述的方法，其特征在于，所述停顿标识符还包括文章标签，所述文章标签又包括标题标签和正文标签：

所述在所获得的文本信息的文本区域内设置停顿标识符，具体包括：

在所获得的文本信息的任意文本区间设置文章标签；

相应的，所述指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，包括

指示所述语音合成系统识别所述文本信息中的文章标签；

判断所识别的文章标签为标题标签或正文标签；

根据判断结果在所述停顿标识符处设置静音区间。

6.根据权利要求5所述的方法，其特征在于，所述根据判断结果在所述停顿标识符处设置静音区间，包括：

若判定所识别的文章标签为标题标签，则指示所述语音合成系统在所述文本区间末尾设置第一预设时长的静音区间；

若判定所识别的文章标签为正文标签，则指示所述语音合成系统在所述文本区间末尾设置第二预设时长的静音区间。

7.一种语音合成装置，其特征在于，所述装置包括：

文本获取模块，用于获得文本信息；

标识符设置模块，用于在所获得的文本信息的文本区域内设置停顿标识符；

语音生成模块，用于将含有停顿标识符的文本信息作为语音合成系统的输入，并指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间，生成对应于所述文本信息的语音信息。

8.根据权利要求7所述的装置，其特征在于，所述停顿标识符包括停顿标签，所述停顿标签中设有停顿时长；

相应的，所述语音生成模块在指示所述语音合成系统根据所述停顿标识符在所述停顿标识符处设置静音区间的过程中，具体用于：

指示所述语音合成系统识别所述文本信息中的停顿标签；

9.根据权利要求8所述的装置，其特征在于，所述停顿标识符还包括文章标签，所述文章标签又包括标题标签和正文标签：

所述标识符设置模块具体用于：

在所获得的文本信息的任意文本区间设置文章标签；

指示所述语音合成系统识别所述文本信息中的文章标签；

判断所识别的文章标签为标题标签或正文标签；

根据判断结果来在所述停顿标识符处设置静音区间。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-6任一项所述的一种语音合成方法。