CN102479508B

CN102479508B - 用于将文本转换成语音的方法和系统

Info

Publication number: CN102479508B
Application number: CN201010580334.2A
Authority: CN
Inventors: 刘盈; 付国康; 韩兆兵; 贾宾
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2015-02-11
Anticipated expiration: 2030-11-30
Also published as: US8650032B2; US8620656B2; US20120166197A1; CN102479508A; US20120136661A1

Abstract

本发明公开了用于将文本转换成语音的方法和系统。在本发明中，通过并行地或串行地解析数据源，获得数据源的部分词条列表。然后对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图。然后合并获得的各个音素图。然后，根据合并结果，进行语音处理。根据本发明，可以在语音识别过程中降低计算复杂度，提高识别效率。

Description

用于将文本转换成语音的方法和系统

技术领域

本发明涉及信息技术领域，更具体地，本发明涉及用于将文本转换成语音的方法和系统。

背景技术

直到现在，LVCSR(大词汇量连续语音识别)和NLU(自然语言处理)仍然不能满足现实生活中人机语音通信的正确性和性能要求。

因此，在支持语音的应用中，例如在基于Web页面的语音控制应用中，如果数据源内容发生了变化，必须根据数据源内容动态地产生语法。

在语音识别过程中，如何降低计算复杂度，提高识别效率，是一个需要面对的问题。

发明内容

根据本发明的第一方面，提出了一种将文本转换成语音的方法，包括对以文本形式的数据源进行解析，以获得数据源的部分词条列表；对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图；对获得的各个音素图进行合并；以及根据合并结果，进行语音识别。

根据本发明的第二方面，提出了一种将文本转换成语音的系统，包括：数据解析器，用于对以文本形式的数据源进行解析，以获得数据源的部分词条列表；一个或多个编译器，用于对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图；合并器，用于对获得的各个音素图进行合并；以及语音识别器，用于根据合并结果，进行语音识别。

根据本发明，可以在语音识别过程中降低计算复杂度，提高识别效率。

附图说明

通过以下结合附图的说明，并且随着对本发明的更全面了解，本发明的其他目的和效果将变得更加清楚和易于理解，其中：

图1示出了根据本发明的第一实施方式的用于将文本转化成语音的系统；

图2示出了根据本发明的第二实施方式的用于将文本转化成语音的系统；

图3示出了根据本发明的第三实施方式的用于将文本转化成语音的方法的流程图；

图4示出了根据本发明的第四实施方式的用于将文本转化成语音的方法的流程图；

图5示出了根据本发明的将文本转化成语音的具体例子；

在所有的上述附图中，相同的标号表示具有相同、相似或相应的特征或功能。

具体实施方式

以下结合附图对本发明的具体实施方式进行描述。

本发明的基本思想是通过并行地或串行地解析以文本形式的数据源，获得数据源的部分词条列表。然后对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图。然后合并获得的各个音素图。然后，根据合并结果，进行语音识别处理。

图1示出了根据本发明的第一实施方式的用于将文本转化成语音的系统。

如图1所示，该系统100包括数据解析器110，用于对以文本形式的数据源进行解析，以获得数据源的部分词条列表；多个编译器120-1、120-2、120-3、...、120-N-1、120-N，用于对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图；合并器130，用于合并获得的各个音素图；语音识别器140，用于根据合并结果，进行语音识别。

本领域的技术人员应当理解，在这里，词条代表字、词、短语等常见的语法元素。部分词条列表是指解析整个数据源应该得到的词条列表的一部分。

在该第一实施方式中，数据解析器110串行地解析所述数据源，在获得数据源的一个部分词条列表后，就调用一个编译器(例如编译器120-1)对该部分词条列表进行编译，以获得一个音素图，然后继续对剩下的数据源进行解析，以获得下一个部分词条列表。

在该第一实施方式中，还包括判断器160，用于判断合并结果是否有足够的信息可以进行语音识别。其中如果有足够的信息，例如，如果有完整的一个句子，语音识别器140就开始进行语音识别。

在该第一实施方式中，在合并器130完成获得的各个音素图的合并之前，在当前数据源发生了变化的情况下，合并器130继续进行对获得的各个音素图的合并，并缓存合并结果。

在该第一实施方式中，还可以包括优化器150，用于对合并结果进行优化。例如，优化器150对合并结果中相同的节点进行合并，如下面所描述的。

在该第一实施方式中，编译器120-1、120-2、120-3、...、120-N-1、120-N中的每一个编译器120可以包括：语法获得器1201，用于对部分词条列表应用语法模板，以获得与部分词条列表相对应的语法；确定器1202，用于确定语法的音素列表；创建器1203，用于根据所述音素列表，创建相对应的音素树；优化器1204，用于对音素树进行优化，以获得相对应的音素图。

其中，语法模板一般包括描述语法看起来应该是怎么样的内容。

以下是一个语法模板的例子：

<rule ID>＝

Word_sequence_1|

Word_sequence_2|

Word_sequence_N；

Word_sequence_1＝word_1word_2word_3；

Word_sequence_2＝word_1word_3word_2；

Word_sequence_N＝word_1word_4word_2；

而语法具体地描述了部分词条列表中的内容，例如，该部分词条列表中的内容是英文还是中文，是英文的情况下是美国英文还是英国英文等等。

以下是一个部分词条列表的语法的例子：

#ABNF 1.0 ISO-8859-1；

language en-US；

mode voice；

root$main；

$main＝red flag|

white house|yellow flag|

xxx|xxx。

音素列表描述了词条如何发音。可以根据语法，从音素池中确定音素列表。

以下是一个音素列表的例子：

White：HH W AY TD

White：W AY TD

House：HH AW S

House：HH AW Z

Yellow：Y EH L OW

Yellow：Y EH L AX

Red：R EH DD

Flag：F L AE GD

总之，对于本领域的技术人员来说，是完全能够理解语法模板、语法、音素列表、音素树等等术语的含义的，这里出于简便的考虑，不对其进行过多地描述。

在对音素树的优化过程中，将音素树中相同的节点合并，从而获得音素图。

当然，对于本领域的技术人员来说，可以理解，在该第一实施方式中，如果编译器的处理速度足够快，即在数据解析器110向其发送一个部分词条列表之时，已经完成对该部分词条列表的前面一个部分词条列表的编译，那么可以只需要一个编译器。

另外，本领域的技术人员可以理解，在编译器120中，优化器不是必须的。

图2示出了根据本发明的第二实施方式的用于将文本转化成语音的系统。

该系统200与图1中所示的系统100相比不同之处在于该系统200包括一个分块器210，用于将数据源分块，以获得各个数据源子块；以及包括多个数据解析器110-1、110-2、110-3、...、110-N-1、110-N，这些数据解析器并行地解析各个数据源子块，以获得各个数据源子块的部分词条列表。

图3示出了根据本发明的第三实施方式的用于将文本转化成语音的方法的流程图。

如图3所示，该方法300包括步骤S310，对以文本形式的数据源进行解析，以获得数据源的部分词条列表；步骤S320，对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图；步骤S330，对获得的各个音素图进行合并；以及步骤S340，根据合并结果，进行语音识别。

在该第三实施方式中，串行地解析所述数据源，获得一个部分词条列表后，就对该部分词条列表进行编译，以获得一个音素图，然后继续对剩下的数据源进行解析，以获得下一个部分词条列表。

在该第三实施方式中，还包括步骤S360，在完成获得的各个音素图的合并之前，判断合并结果是否有足够的信息可以进行语音识别，如果有足够的信息，例如，如果有完整的一个句子，就开始进行语音识别。

在该第三实施方式中，在完成获得的各个音素图的合并之前，在当前数据源发生了变化的情况下，继续进行对获得的各个音素图的合并，并缓存合并结果。

在该第三实施方式中，还可以包括步骤S350：对合并结果进行优化。

在该第三实施方式中，对部分词条列表进行编译，以获得与部分词条列表相对应的音素图的步骤可以包括步骤S3201，对部分词条列表应用语法模板，以获得与部分词条列表相对应的语法；步骤S3202，确定语法的音素列表；步骤S3203，根据音素列表，创建相对应的音素树；步骤S3204，对音素树进行优化，以获得相对应的音素图。

当然，本领域的技术人员可以理解，对音素树进行优化，以获得相对应的音素图这个步骤不是必须的。

图4示出了根据本发明的第四实施方式的用于将文本转化成语音的方法。

该方法400与图3中所示的方法300相比不同之处在于在该方法400中，包括步骤S405，将数据源分块，以获得各个数据源子块，以及在步骤410，并行地解析各个数据源子块，以获得各个数据源子块的部分词条列表。

下面根据一个例子，对本发明的实施方式进行更具体地描述。

数据解析器110串行地解析数据源，获得第一部分词条列表，该第一部分词条列表包括内容Red flag，然后调用第一编译器120-1，对该第一部分词条列表进行编译，以获得第一音素图。

在该例子中，第一编译器120-1获得的语法如下：

#ABNF 1.0 ISO-8859-1；

language en-US；

mode voice；

root$main；

$main＝Red flag

xxx|xxx。

确定的音素列表如下：

Red：R EH DD

Flag：F L AE GD。

创建的音素树如图5A所示。

由于在该简单例子中，如图5A所示的音素树已经最优化，因此不需要进行优化。

并且，由于这是第一个获得的音素图，因此此时不发生合并。

另外，这里假定第一音素图还没有足够的信息可以进行语音识别，因此此时也不发生语音识别。

随着数据解析器110继续解析剩下的数据源，获得第二部分词条列表，该第二部分词条列表包括内容White house，然后调用第二编译器120-2，对该第二部分词条列表进行编译，以获得第二音素图。

在该例子中，第二编译器120-2获得的语法如下：

#ABNF 1.0 ISO-8859-1；

language en-US；

mode voice；

root$main；

$main＝White house

xxx|xxx。

确定的音素列表如下：

White：HH W AY TD

White：W AY TD

House：HH AW S

House：HH AW Z。

创建的音素树如图5B所示。

由于在该简单例子中，如图5B所示的音素树已经最优化，因此不需要进行优化。

并且，由于这是第二个获得的音素图，此前已经获得了第一音素图，因此此时发生合并。合并结果如图5C所示。因为第一音素图和第二音素图各自都具有根节点和末端节点，因此合并音素图相对比较简单，即合并第一音素图和第二音素图的根节点和末端节点。

另外，这里假定合并了第一音素图和第二音素图的合并结果已经有足够的信息可以进行语音识别，因此此时发生语音识别。

另外，在该例子中，此时第一音素图和第二音素图的合并结果已经是最优的，因此此时不发生对合并结果进行优化。

随着数据解析器110继续解析剩下的数据源，获得第三部分词条列表(最后一个)，该第三部分词条列表包括内容Yellow flag，然后调用第三编译器120-3，对该第三部分词条列表进行编译，以获得第三音素图。

在该例子中，第三编译器120-3获得的语法如下：

#ABNF 1.0 ISO-8859-1；

language en-US；

mode voice；

root$main；

$main＝Yellow flag

xxx|xxx。

确定的音素列表如下：

Yellow：Y EH L OW

Yellow：Y EH L AX

Flag：F L AE GD。

创建的音素树如图5D所示。

由于在该简单例子中，如图5D所示的音素树已经最优化，因此不需要进行优化。

并且，由于这是第三个获得的音素图，此前已经获得了第一音素图和第二音素图，因此此时发生合并。合并结果如图5E所示。

另外，此时第一音素图、第二音素图和第三音素图的合并结果不是最优的，两个分支上具有相同的节点F L AE和GD，因此此时对合并结果进行优化。优化后的合并结果如图5F所示。

另外，如果在合并第三个获得的音素图之前，该数据源发生了变化，例如，该数据源是一个网页，并且用户点击了该网页上的链接之后，继续进行第三个获得的音素图的合并，并缓存合并结果，以当用户返回上面这个页面时可以继续使用。

根据本发明，由于每次只需要确定部分词条列表的音素图，因此能降低计算复杂度。并且，在完成获得的各个音素图的合并之前，一旦合并结果已经有足够的信息可以进行语音识别，就开始进行语音识别，因此能提高语音识别性能。

应当注意，为了使本发明更容易理解，上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。

提供本发明的说明书的目的是为了说明和描述，而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言，许多修改和变更都是显而易见的。

因此，选择并描述实施方式是为了更好地解释本发明的原理及其实际应用，并使本领域普通技术人员明白，在不脱离本发明实质的前提下，所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。

Claims

1.一种将文本转换成语音的方法，包括步骤：

对以文本形式的数据源进行解析，以获得数据源的部分词条列表；

对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图，其中与每个所述部分词条列表相对应的所述音素图包括根节点和末节点；

对获得的各个音素图进行合并，使得所合并的音素图具有相同的根节点和末节点；以及

根据合并结果，进行语音识别。

2.根据权利要求1所述的方法，进一步包括：

判断合并结果是否有足够的信息可以进行语音识别；

其中，如果有足够的信息就开始进行语音识别。

3.根据权利要求1所述的方法，其中，在当前数据源发生了变化的情况下，继续进行对获得的各个音素图的合并，并缓存合并结果。

4.根据权利要求1所述的方法，其中对以文本形式的数据源进行解析，以获得数据源的部分词条列表包括：

将所述数据源分块，以获得各个数据源子块；

并行地解析各个数据源子块，以获得各个数据源子块的部分词条列表。

5.根据权利要求1所述的方法，其中对以文本形式的数据源进行解析，以获得数据源的部分词条列表包括：

串行地解析所述数据源，以获得数据源的部分词条列表。

6.根据权利要求1所述的方法，还包括步骤：

对合并结果进行优化。

7.根据权利要求1所述的方法，

其中对部分词条列表进行编译，以获得与部分词条列表相对应的音素图包括：

对部分词条列表应用语法模板，以获得与部分词条列表相对应的语法；

确定所述语法的音素列表；

根据所述音素列表，创建相对应的音素树；

对所述音素树进行优化，以获得相对应的音素图。

8.一种将文本转换成语音的系统，包括：

数据解析器，用于对以文本形式的数据源进行解析，以获得数据源的部分词条列表；

一个或多个编译器，用于对各个部分词条列表分别进行编译，以获得与各个部分词条列表相对应的各个音素图，其中与每个所述部分词条列表相对应的所述音素图包括根节点和末节点；

合并器，用于对获得的各个音素图进行合并，使得所合并的音素图具有相同的根节点和末节点；以及

语音识别器，用于根据合并结果，进行语音识别。

9.根据权利要求8所述的系统，还包括：

判断器，用于判断合并结果是否有足够的信息可以进行语音识别，其中如果有足够的信息，语音识别器就开始进行语音识别。

10.根据权利要求8所述的系统，其中，在当前数据源发生了变化的情况下，合并器继续进行对获得的各个音素图的合并，并缓存合并结果。

11.根据权利要求8所述的系统，还包括：

分块器，用于将所述数据源分块，以获得各个数据源子块；其中多个数据解析器并行地解析各个数据源子块，以获得各个数据源子块的部分词条列表。

12.根据权利要求8所述的系统，其中所述数据解析器串行地解析所述数据源，以获得数据源的部分词条列表。

13.根据权利要求8所述的系统，还包括：

优化器，用于对合并结果进行优化。

14.根据权利要求8所述的系统，

其中所述编译器包括：

语法获得器，用于对部分词条列表应用语法模板，以获得与部分词条列表相对应的语法；

确定器，用于确定语法的音素列表；

创建器，用于根据所述音素列表，创建相对应的音素树；

优化器，用于对所述音素树进行优化，以获得相对应的音素图。