CN102237081B

CN102237081B - 语音韵律评估方法与系统

Info

Publication number: CN102237081B
Application number: CN2010101632299A
Authority: CN
Inventors: 施琴; 张世磊; 双志伟; 秦勇
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2010-04-30
Filing date: 2010-04-30
Publication date: 2013-04-24
Anticipated expiration: 2030-04-30
Also published as: CN102237081A; WO2011135001A1; EP2564386A1; US20110270605A1; US9368126B2

Abstract

本发明提出了一种对输入语音进行评估的有效方法和系统。所述方法包括：接收输入语音数据；获取韵律约束条件；按照所述韵律约束条件对所述输入语音数据的韵律进行评估；以及提供所述评估的结果。所述系统包括：输入语音数据接收装置、韵律约束条件获取装置、评估装置、以及结果提供装置。本发明对于输入语音数据没有任何限制，也就是说用户可以根据特定文字/语音进行朗读或者跟读，也可以自由发挥。

Description

语音韵律评估方法与系统

技术领域

本发明总体上涉及语音评估方法和系统，特别的本发明涉及对语音数据的韵律进行评估的方法和系统。

背景技术

语音评估是语音应用技术中的一个重要领域，其主要目的是为了对所输入的语音数据的质量进行评估。然而现有技术中的语音评估技术主要侧重于对输入语音数据的发音(pronunciation)的评估，也就是对语音数据的发音变形(Pronunciation variance)进行判别和打分。比如对于today这个单词，正确的美式读音应当是

而朗读者可能误读成[tu’de]。现有的语音评估技术可以检测到错误的读音并且加以纠正。如果输入语音数据并非一个单词而是一个句子或者一长段语言，则需要首先对句子或段落进行切分，使得所述输入的语音数据与对应的文字数据进行强制对齐(Force Alignment)，然后再根据每一个单词的发音变形进行评估。此外，现有的语音评估产品大多要求朗读者朗读特定的语音信息，包括依照某段文字进行朗读，或者依照一段标准语音进行跟读，使得输入的语音数据受限于特定的内容。

发明内容

本发明的发明人注意到现有技术中并没有提供一种有效的对语音进行韵律(prosody)评估的方法和系统。并且现有技术中大多要求用户按照特定的文字或者语音进行跟读，因此限制了韵律评估的适用范围。本发明提出了一种对输入语音进行评估的有效方法和系统。并且本发明对于输入语音数据没有任何限制，也就是说用户可以根据特定文字/语音进行朗读或者跟读，也可以自由发挥。因此，本发明不仅能够对朗读者或者跟读者的韵律进行评估，也可以用于评估任意一段输入语音数据的韵律。本发明不仅可以帮助自学者对自己的口语进行评分和纠正，并且可以用在口语考试中帮助考官对考生的口语给予评估。本发明不仅可以实现为一种如复读机那样的专门的硬件设备，本发明也可以实现为计算机内的软件逻辑从而与声音采集设备配合工作。本发明不仅可以服务于一个终端用户，而且可以被网络服务提供商所采用，从而对多个终端用户的输入语音数据进行评估。

具体而言，本发明提供了一种语音韵律评估方法，包括：接收输入语音数据；获取韵律约束条件；按照所述韵律约束条件对所述输入语音数据的韵律进行评估；以及提供所述评估的结果。

本发明还提供了一种语音韵律评估系统，包括：输入语音数据接收装置，用于接收输入语音数据；韵律约束条件获取装置，用于获取韵律约束条件；评估装置，用于按照所述韵律约束条件对所述输入语音数据的韵律进行评估；以及结果提供装置，用于提供所述评估的结果。

附图说明

本说明中所参考的附图只用于示例本发明的典型实施例，不应该认为是对本发明范围的限制。

图1示出了一种语音韵律评估方法流程图。

图2示出了按照本发明的一个实施例的节奏评估方法流程图。

图3示出了按照本发明的一个实施例的获取输入语音数据的节奏特征的流程图。

图4示出了按照本发明的一个实施例的获取标准节奏特征的流程图。

图5示出了按照本发明的一个实施例的部分决策树的示意图。

图6A示出了按照本发明的一个实施例的测量输入语音数据的停顿的语音分析图。

图6B示出了按照本发明的一个实施例的测量输入语音数据的音调重置的语音分析图。

图7示出了按照本发明的一个实施例的流利度评估方法流程图。

图8示出了按照本发明的一个实施例的获取输入语音数据的流利度特征的流程图。

图9示出了按照本发明的一个实施例的节奏边界总数评估方法流程图。

图10示出了按照本发明的一个实施例的停顿长度评估方法流程图。

图11示出了按照本发明的一个实施例的字或词的重复次数评估方法流程图。

图12示出了按照本发明的一个实施例的单音迟疑程度评估方法流程图。

图13示出了一种语音韵律评估系统框图。

图14示出了按照本发明的一个实施例的以网络服务方式进行语音韵律评估的示意图。

具体实施方式

下列讨论中，提供大量具体的细节以帮助彻底了解本发明。然而，很显然对于本领域技术人员来说，即使没有这些具体细节，并不影响对本发明的理解。并且应该认识到，使用如下的任何具体术语仅仅是为了方便描述，因此，本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。

本发明提出了一种对输入语音进行评估的有效方法和系统。并且本发明对于输入语音数据没有任何限制，也就是说用户可以根据特定文字/语音进行朗读或者跟读，也可以自由发挥。因此，本发明不仅能够对朗读者或者跟读者的韵律进行评估，也可以用于评估任意一段输入语音数据的韵律。本发明不仅可以帮助自学者对自己的口语进行评分和纠正，并且可以用在口语考试中帮助考官对考生的口语给予评估。本发明不仅可以实现为一种如复读机那样的专门的硬件设备，本发明也可以实现为计算机内的软件逻辑从而与声音采集设备配合工作。本发明不仅可以服务于一个终端用户，而且可以被网络服务提供商所采用，从而对多个的输入语音数据进行评估。

图1示出了一种语音韵律评估方法流程图。首先在步骤102中接收输入语音数据。比如用户说的一句话“Is it very easy for you to stayhealthy in England”。然后在步骤104获取韵律约束条件，所述韵律约束条件即可以是节奏(Rhythm)约束条件、也可以是流利度(Fluency)约束条件或者二者兼而有之，对此下文中将给予更加详细的描述。接下来在步骤106中按照所述韵律约束条件对所述输入语音数据的韵律(Prosody)进行评估(Assessment)，并且在步骤108中提供所述评估的结果。

图2示出了按照本发明的一个实施例的节奏评估方法流程图。首先在步骤202接收输入语音数据。然后在步骤204获取所述输入语音数据的节奏特征，所述节奏特征可以表现为节奏边界(phraseboundary)位置，所述节奏边界包括下列各项中的至少一项：停顿(silence)、音调重置(pitchreset)。停顿指语音数据中字(Word)与字之间的时间间隔。参考图6A，图6A示出了按照本发明的一个实施例的测量输入语音数据的停顿的语音分析图。图6A的上半部分602显示了说话者的语音能量(energy)以分贝为单位随着时间的能量变化曲线。在图6A中可以清楚的看出，在“easy”与“for”之间说话者停顿了0.463590秒。音调重置指语音数据中字与字之间的音调变化。通常，如果说话者在前字结束后需要换气或者需要对后字提高音调则可能发生音调重置。参考图6B，图6B示出了按照本发明的一个实施例的测量输入语音数据的音调重置的语音分析图。图6B的上半部分606显示了说话者的语音能量随着时间的能量变化曲线。由能量变化曲线可以得出图6B下半部分608所示的音调变化曲线。从音调变化曲线可以识别音调重置。对语音数据进行分析得出能量变化曲线与音调变化曲线的技术属于现有技术，在此无需赘述。从608所示的音调变化曲线可知说话者虽然在单字“easy”和“for”之间没有停顿，但是在“easy”和“for”之间存在一个音调重置。

对于说话者而言，如果没有在正确的位置停顿或者进行音调重置，则会导致其朗读或者口语听起来不标准或不地道。比如，如果说话者并非在“easy”后面停顿，而是在“very”后面停顿，如下例所示：

Is it very(停顿)easy for you to stay healthy in England很显然，如果说话者按照上面方式进行说话，则不符合正常的说话节奏。下面的步骤将用以判断说话者是否在正确的位置进行了停顿或者音调重置。

图3示出了按照本发明的一个实施例的获取输入语音数据的节奏特征的流程图。在步骤302，获取所述输入语音数据对应的输入文字数据(比如得到“Is it very easy for you to stay healthy inEngland”的文字内容)。将语音数据转换成对应的文字数据可以利用任何已知的或未知的转换技术进行，在此不再赘述。在步骤304，将所述输入文字数据与输入语音数据进行对齐(Alignment)，也就是说使得语音数据中的每个字从时间上与文字数据中的每个字进行对应。对齐的目的是为了进一步分析输入语音数据的节奏特征。在步骤306，测量所述输入语音数据的节奏边界位置，可就是测量说话者在哪个字后面出现了停顿/音调重置。进一步还可以在对齐后的文字数据上标注节奏边界位置，如下：

Is it very easy(停顿)for you to stay healthy in England

回到图2，在步骤206获取所述输入语音数据对应的标准节奏特征。所谓标准节奏特征是指，对于说话者所说的语音数据，标准的读法应当在哪里进行停顿或者音调重置，或者说，如果让受过专业训练的播音员来阅读同样一句话，他/她的节奏边界位置应当设置在哪里。当然，对于一句话而言，标准的节奏边界位置可能有多种，比如下面列举的这几种可能都可以被认为是正确的或标准的阅读方式：

Is it very easy(停顿)for you to stay healthy in England

Is it very easy for you to stay healthy(停顿)in England

Is it very easy for you to stay healthy in England(整句中间没有停顿或音调重置)

本发明并不仅限于按照一种标准的阅读方式对说话者的输入语音数据进行评估，而是可以综合考虑各种标准的阅读方式，从而进行评估。具体的获取标准节奏特征的步骤将在下文中进行更加详细的描述。

图4示出了按照本发明的一个实施例的获取标准节奏特征的流程图。在步骤402处理所述输入文字数据以获得对应的输入语言结构。进一步，可以对输入文字数据中的每个字进行分析以获得其语言结构，从而生成整句话的语言结构表。表1给出语言结构表的一个示例：

字	本字的词性	左边相邻字的词性	右边相邻字的词性
				Is	aux	-1	pro
it	pro	aux	adv
				very	adv	pro	adj
easy	adj	adv	prep
				for	prep	adj	pro
you	pro	prep	prep
				to	prep	pro	vi
stay	vi	prep	noun
				healthy	noun	vi	prep
in	prep	noun	noun
				England	noun	prep	-1

表1

由于语料库中所存储的标准语音数据是有限的(比如几万句话，或者几十万句话)。因此在语料库中很难找到与说话者的输入语音数据的语言结构完全一致的句子，比如我们很难找到一个语言结构同样也是“aux pro adv adj prep pro prep vi noun prep noun”的标准语音。本发明的发明人注意到虽然整句话的语法结构未必相同，但是如果在一定范围内的语法结构相同则很可能具有相似的节奏边界。比如如果语料库中所存储的一个标准语音数据是：

Vitamin c is extremely good(停顿)for all types of skin

上面这句话中也存在extremely(adv)good(adj)for(prep)的语法结构，因此可以通过具有相似语法结构的标准语音的节奏边界位置来推导输入语音数据应有的节奏边界位置。当然语料库中可能存在众多含有语言结构“adv adj prep”的标准语音数据，有些在adj的后面出现停顿/音调重置，有些在adj后面没有出现停顿/音调重置。本发明根据众多标准语音数据的相同语言结构的节奏边界的统计概率来判断是否应该在某一个字后面出现停顿/音调重置。

具体而言，在步骤404，将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率。步骤404进一步包括按照所述输入文字数据的至少一个字的输入语言结构(比如字“easy”的语言结构为“adv adjprep”)遍历所述标准语言结构的决策树(decision tree)以确定该至少一个字的节奏边界位置的发生概率。所述决策树是指对语料库中的标准语音的语言结构进行分析所得到的树状结构。图5示出了按照本发明的一个实施例的部分决策树的示意图。按照图5中的实施例，在依据众多标准语音数据建立决策树时，首先判断本字的词性是否是Adj，如果判断结构为Yes，则进一步判断其左边相邻字的词性是否是Adv，如果判断结构为No，判断本字的词性是否为Aux。如果左边相邻字的词性是Adv，则进一步判断右边相邻字的词性是否是Prep，否则继续判断左边相邻字的词性是否为Ng。如果右边相邻字的词性是Prep则统计词性为Adj的字后是否出现停顿/音调重置，并加以记录，否则继续对右边相邻字的词性进行其它判断。当对语料库中的所有标准语音进行分析之后，可以对叶子节点中的统计数据进行计算，从而得出节奏边界的发生概率。比如标准语音数据中有875个语言结构为“adv adj prep”的字出现了停顿/音调重置，有125个语言结构为“adv adj prep”的字没有出现停顿/音调重置，则节奏边界位置的发生概率为0.875000。决策树建立的过程可以进一步参见参考文献Shi，Qin/Jiang，DanNing/Meng，FanPing/Qin，Yong(2007)：″Combining length distribution model with decisiontree in prosodic phrase prediction″，In INTERSPEECH-2007，454-457。可见，按照所述输入文字数据的某一个字的语言结构遍历所述决策树就可以确定该字的节奏边界位置的发生概率，从而可以进一步获得输入语音数据中的每个字的节奏边界位置的发生概率，如下：

Is(0.000000)it(0.300000)very(0.028571)easy(0.875000)for(0.000000)you(0.470588)to(0.000000)stay(0.026316)healthy(0.633333)in(0.0513514)England(1.000000)

在步骤406提取所述标准节奏特征的节奏边界位置，进一步提取所述发生概率在一定阈值以上的节奏边界位置。比如如果设置0.600000为阈值，则提取节奏边界位置的发生概率在0.600000以上的字。按照上面的例子，“easy”、“healthy”、“England”都将被提取出来，也就是说如果输入语音数据在“England”后面出现了停顿/音调重置，或者还在“easy”、“healthy”这两个词中任意一个或者两个后进行停顿/音调重置都可能被认为是节奏上合理的。

值得说明的是，上面仅仅给出语言结构表的一种简单的示例，实际上所述语言结构表可以进行进一步扩展，进一步包括其它的项目：比如是否是句首、是否是句尾、是否是句中、左边数第二个字的词性、右边数第二个字的词性等等。

回到图2，在步骤208将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较，以查看所述输入语音数据的节奏边界位置与标准节奏特征的节奏边界位置是否匹配，包括说话者是否在不该停顿/音调重置的地方进行了停顿/音调重置、或者是否在该进行停顿/音调重置的地方没有进行停顿/音调重置。最后，在步骤210提供评估的结果。按照图6A中所示的实施例，说话者在“easy”和“England”后面进行了停顿，因此其符合标准节奏特征。说话者不必在每个节奏边界位置的发生概率在0.600000以上的字后都进行停顿，因为这样可能导致一句话中停顿次数过多反而影响整句话的连贯性。本发明中可以采用各种预定评估策略以根据输入语音数据的节奏特征与对应的标准节奏特征的比较进行评估。

如上文所述，韵律即可以指语音数据的节奏也可以指语音数据的流利度或者二者兼而有之。上文详细描述了从节奏特征上对输入语音数据进行评估的方法。下文中将描述从流利度特征上对输入语音数据进行评估的方法。

图7示出了按照本发明的一个实施例的流利度评估方法流程图。在步骤702接收输入语音数据，在步骤704获取所述输入语音数据的流利度特征。所述流利度特征包括下列各项中的一项或多项：一句话中的节奏边界总数、节奏边界的停顿长度(silence duration)、字或词的重复(repeat)次数、单音迟疑(hesitation)程度。在步骤706，获取流利度约束条件，在步骤708按照所述流利度约束条件对所述输入语音数据进行评估，并且在步骤710提供所述评估的结果。

图8示出了按照本发明的一个实施例的获取输入语音数据的流利度特征的流程图。首先在步骤802，获取所述输入语音数据对应的输入文字数据。然后在步骤804将所述输入文字数据与输入语音数据进行对齐。步骤802与804与图3中的步骤302和304相似，在此不再赘述。在步骤806测量所述输入语音数据的流利度特征。

图9示出了按照本发明的一个实施例的节奏边界总数评估方法流程图。首先在步骤902接收输入语音数据，然后在步骤904获取所述输入语音数据的节奏边界总数。如上文所述，通过分析决策树可以提取多个标准节奏特征的节奏边界位置。但是如果在所有的节奏边界位置都进行停顿/音调重置，则可能影响整句话的流利程度。因此需要对一句话的节奏边界总数进行评估。如果说话者说了一大段话，如何检测句子的末尾属于现有技术，在此不再赘述。在步骤906，根据所述输入语音数据对应的文字数据的句子长度确定节奏边界总数的预测值。在上文所举的例子中，整个句子包括11个字。比如，如果根据一定经验值确定该句的节奏边界总数的预测值为2，则说话者除应当在句子末尾停顿一次以外，在句子中间最多进行一次停顿/音调重置。在步骤908将所述输入语音数据的节奏边界总数与所述节奏边界总数的预测值进行比较。在步骤910提供评估的结果。如果说话者的停顿情况如下：

Is it very easy(停顿)for you to stay healthy(停顿)in England(停顿)

则虽然他/她的节奏特征的评估结果可能不错，但是流利度特征的评估结果可能会有问题。

图10示出了按照本发明的一个实施例的停顿长度评估方法流程图。在步骤1002接收输入语音数据，在步骤1004获取所述输入语音数据的节奏边界的停顿长度。比如图5A中“easy”后面的停顿长度为0.463590秒。在步骤1006获取所述输入语音数据对应的标准停顿长度。步骤1006进一步包括：处理所述输入文字数据以获得对应的输入语言结构；以及将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度。获得输入语言结构的方法已经在上文中进行了详细的描述，因此在此不再赘述。确定标准停顿长度的步骤进一步包括：按照所述输入文字数据的至少一个字的输入语言结构，遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界位置的标准停顿长度，其中所述标准停顿长度为经过统计的标准语言结构的节奏边界位置的停顿长度的平均值。以图5中的决策树的例子进行说明，在建立决策树时，不仅对语料库中的标准语音数据的每一个字的节奏边界的发生概率进行统计，还对停顿长度进行统计，从而记录停顿长度的平均值，比如语言结构“adv adj prep”中“adj”的节奏边界的平均停顿长度为0.30秒，因此0.30秒就是语言结构“adv adj prep”的标准停顿长度。在步骤1008将所述输入语音数据的节奏边界的停顿长度与对应的标准停顿长度进行比较，并且根据预定评估策略在步骤1010提供评估的结果。比如，所述预定评估策略可以是：当实际的停顿长度显著超过标准停顿长度时，给评估结果减分。在步骤1010提供评估的结果。

图11示出了按照本发明的一个实施例的字重复次数评估方法流程图。在步骤1102接收输入语音数据，在步骤1104获取所述输入语音数据的字或词的重复(repeat)次数。比如一个有口吃的人说话的流利度通常会存在问题。因此可以根据其在一句话或一段话中对某一个字或某一个词的重复次数来对其语言的流利度进行评估。本发明中的重复次数是指由于说话不够流利所造成的重复，而不包括说话者有意强调某个字或词时进行的重复。不流利导致的重复和强调性重复所表现的语音特征是不同的，前者往往在重复的同时不会出现音调重置，而后者往往伴随有音调重置。如在上文的例子中，如果输入语音数据为：

Is it very very easy for you to stay healthy in England。即，在两个“very”之间没有出现音调重置，则对于“very”的重复可能是由于不流利所导致的。

如果输入语音数据为：

Is it very(音调重置)very easy for you to stay healthy in England。则于“very”的重复可能是由于说话者有意进行强调所导致的。

在步骤1106中获取重复次数的允许值(比如一段话中最多允许对一个字或词重复一次)，并且在步骤1108中将所述输入语音数据的重复次数与所述允许值进行比较，最后在步骤1110中提供比较后的评估结果。

图12示出了按照本发明的一个实施例的单音迟疑程度评估方法流程图。在步骤1202接收输入语音数据。在步骤1204获取所述输入语音数据的单音迟疑(hesitation)程度，所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个。比如说话者把“easy”中的短音[i]拖的很长，则可能对其口语/朗读的流利度造成影响。在步骤1206获取单音迟疑程度的允许值(比如一段话或一句话内所允许的最大的单音迟疑次数或者单音迟疑时间)。然后在步骤1208将所述输入语音数据的单音迟疑程度与所述单音迟疑程度的允许值进行比较。最后在步骤1210提供比较后的评估结果。

图13示出了一种语音韵律评估系统框图。所述系统包括输入语音数据接收装置、韵律约束条件获取装置、评估装置以及结果提供装置。其中输入语音数据接收装置用于接收输入语音数据；韵律约束条件获取装置用于获取韵律约束条件；评估装置用于按照所述韵律约束条件对所述输入语音数据的韵律进行评估；结果提供装置，用于提供所述评估的结果。

所述韵律约束条件包括节奏约束条件或者流利度约束条件中的一种或多种。所述系统可以进一步包括：节奏特征获取装置(图中未示出)，用于获取所述输入语音数据的节奏特征，所述节奏特征表现为节奏边界位置，所述节奏边界包括下列各项中的至少一项：停顿、音调重置，并且所述韵律约束条件获取装置进一步用于获取所述输入语音数据对应的标准节奏特征，所述评估装置进一步用于将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较。

按照本发明的另外一种实施例，所述系统进一步包括：流利度特征获取装置(图中未示出)用于获取所述输入语音数据的流利度特征，并且所述韵律特征获取装置进一步用于获取所述输入语音数据对应的输入文字数据，将所述输入文字数据与输入语音数据进行对齐，以及测量所述输入语音数据的流利度特征。

图13中所示的语音韵律评估系统所执行的其它功能与上文中所描述的语音韵律评估方法的各个步骤对应在此不再赘述。

值得说明的是，本发明中可以仅对输入语音数据的节奏特征的一种或多种进行评估，也可以仅对流利度特征的一种或多种进行评估，或者将某一种或多种节奏特征与某一种或多种流利度特征结合进行比较全面的韵律评估。如果评估的内容多于一项，可以为不同的评估项目设置不同或者相同的权重，也就是根据实际需要制定不同的评估策略。

本发明虽然提供了一种语音韵律评估方法和系统，但是本发明也可以与其它语音评估方法和系统相结合。比如本发明的系统可以与发音评估系统和/或语法评估系统等其它语音评估系统相结合从而对输入语音数据进行综合的评估。本发明中的韵律评估结果可以作为综合语音评估的一项并且被赋予特定权重。

按照本发明的一个实施例，可以根据所述评估的结果，比如将得分较高的输入语音数据加入语料库作为标准语音数据，从而进一步丰富标准语音数据的数量。

图14示出了按照本发明的一个实施例的以网络服务方式进行语音韵律评估的示意图。服务器1402提供对语音韵律进行评估的服务，不同用户可以通过网络1404将各自的语音数据上传到服务器1402中，并且服务器1402可以将韵律评估的结果返回用户。

按照本发明的另一个实施例，所述语音韵律评估系统还可以应用在本地计算机中供说话者对语音进行韵律评估。按照本发明的又一个实施例，所述语音韵律评估系统还可以被设计为专门的硬件装置供说话者对语音进行韵律评估。

本发明中评估的结果包括下列各项中的至少一项：所述输入语音数据的韵律的得分；所述输入语音数据的韵律的详细分析；参考语音数据。所述得分可以是以百分制、五分制或任意其它分制进行评估，也可以使用描述性评分，如很好(excellent)，好(good)，一般(fine)，差(bad)等。所述详细分析可以包括下列中的一项或多项：说话者在哪里的停顿/音调重置是不合适的，说话者的停顿/音调重置总数过多，说话者在某处的定顿长度过长，说话者的某个字/词的重复次数过多，以及说话者的某个字的单音迟疑程度太高。同时所述评估的结果还可以给出参考的语音数据，比如“Is it very easy for you tostay healthy in England”这句话的正确读法。所述参考的语音数据可以有多个，本发明中的系统可以提供一个参考的语音数据也可以提供多个供参考的语音数据。

虽然上文中以一个英文句子为例进行说明，但是本发明对评估的语言种类没有任何限制，本发明可以应用于评估中文、日文、韩文等各种语言的语音数据的韵律。

虽然上文中以说话为例进行说明，但是本发明同样也可以对唱歌或说唱等其它语音形式的韵律进行评估。

所属技术领域的技术人员知道，本发明可以体现为系统、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式，该介质中包含计算机可用的程序码。

可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质，这是因为，例如可以通过电扫描这种纸张或其它介质，以电子方式获得程序，然后以适当的方式加以编译、解释或处理，并且必要的话在计算机存储器中存储。在本文件的语境中，计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输，包括—但不限于—无线、电线、光缆、RF等等。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言—诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令，产生实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程数据处理装置上执行一系列操作步骤，以产生计算机实现的过程，从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文中所用的术语，仅仅是为了描述特定的实施例，而不意图限定本发明。本文中所用的单数形式的“一”和“该”，旨在也包括复数形式，除非上下文中明确地另外指出。还要知道，“包含”一词在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述，并非是穷尽性的，也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

Claims

1.一种语音韵律评估方法，包括：

接收输入语音数据；

获取韵律约束条件，其中所述韵律约束条件包括流利度特征约束条件，其中所述流利度特征包括一个句子内的节奏边界总数，所述节奏边界包括下列各项中的至少一项：停顿、音调重置，按照所述韵律约束条件对所述输入语音数据的韵律进行评估；以及

提供所述评估的结果，

所述方法进一步包括：

获取所述输入语音数据的流利度特征；所述获取韵律约束条件的步骤进一步包括：

根据所述输入语音数据对应的文字数据的句子长度确定节奏边界总数的预测值，

所述按照所述韵律约束条件对所述输入语音数据的韵律进行评估的步骤进一步包括：

将所述输入语音数据的节奏边界总数与所述节奏边界总数的预测值进行比较。

2.一种如权利要求1所述的方法，其中所述韵律约束条件包括节奏特征约束条件。

3.一种如权利要求2所述的方法，所述方法进一步包括：

获取所述输入语音数据的节奏特征，

所述获取韵律约束条件的步骤进一步包括：

获取所述输入语音数据对应的标准节奏特征，并且

将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较。

4.一种如权利要求3所述的方法，其中所述节奏特征表现为节奏边界位置，所述节奏边界包括下列各项中的至少一项：停顿、音调重置。

5.一种如权利要求4所述的方法，其中将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较的步骤进一步包括：

查看所述输入语音数据的节奏边界位置与标准节奏特征的节奏边界位置是否匹配。

6.一种如权利要求4所述的方法，所述获取所述输入语音数据的节奏特征的步骤进一步包括：

获取所述输入语音数据对应的输入文字数据；

将所述输入文字数据与输入语音数据进行对齐；以及

测量所述输入语音数据的节奏边界位置。

7.一种如权利要求6所述的方法，所述获取所述输入语音数据对应的标准节奏特征的步骤进一步包括：

处理所述输入文字数据以获得对应的输入语言结构；

将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率；以及

提取所述标准节奏特征的节奏边界位置。

8.一种如权利要求7所述的方法，其中所述提取所述标准节奏特征的节奏边界位置的步骤进一步包括：

提取所述发生概率在一定阈值以上的节奏边界位置。

9.一种如权利要求7所述的方法，所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率的步骤包括：

按照所述输入文字数据的至少一个字的输入语言结构，遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界位置的发生概率。

10.一种如权利要求1所述的方法，所述获取所述输入语音数据的流利度特征的步骤进一步包括：

获取所述输入语音数据对应的输入文字数据；

将所述输入文字数据与输入语音数据进行对齐；以及

测量所述输入语音数据的流利度特征。

11.一种如权利要求1所述的方法，其中所述流利度特征包括节奏边界的停顿长度，

所述获取韵律约束条件的步骤进一步包括：

获取所述输入语音数据对应的标准停顿长度，并且

将所述输入语音数据的节奏边界的停顿长度与对应的标准停顿长度进行比较。

12.一种如权利要求11所述的方法，其中所述获取所述输入语音数据对应的标准停顿长度的步骤进一步包括：

处理所述输入文字数据以获得对应的输入语言结构；以及

将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度。

13.一种如权利要求12所述的方法，其中所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度的步骤包括：

按照所述输入文字数据的至少一个字的输入语言结构，遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界的标准停顿长度，其中所述标准停顿长度为经过统计的标准语言结构的节奏边界的停顿长度的平均值。

14.一种如权利要求1所述的方法，其中所述流利度特征包括字或词的重复次数，

所述获取韵律约束条件的步骤进一步包括：

获取所述重复次数的允许值，并且

将所述输入语音数据的重复次数与所述允许值进行比较。

15.一种如权利要求1所述的方法，其中所述流利度特征包括单音迟疑程度，所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个，

所述获取韵律约束条件的步骤进一步包括：

获取单音迟疑程度的允许值，并且

将所述输入语音数据的单音迟疑程度与所述单音迟疑程度的允许值进行比较。

16.一种如前述权利要求1-9中任意一个所述的方法，进一步包括：

根据所述评估的结果，将所述输入语音数据加入语料库作为标准语音数据。

17.一种如前述权利要求1-9中任意一个所述的方法，其中所述评估的结果包括下列各项中的至少一项：

所述输入语音数据的韵律的得分；

所述输入语音数据的韵律的详细分析；

参考语音数据。

18.一种语音韵律评估系统，包括：

输入语音数据接收装置，用于接收输入语音数据；

韵律约束条件获取装置，用于获取韵律约束条件其中所述韵律约束条件包括流利度特征约束条件，其中所述流利度特征包括一个句子内的节奏边界总数，所述节奏边界包括下列各项中的至少一项：停顿、音调重置；

评估装置，用于按照所述韵律约束条件对所述输入语音数据的韵律进行评估；以及

结果提供装置，用于提供所述评估的结果，

所述系统进一步包括：

流利度特征获取装置，用于获取所述输入语音数据的流利度特征，

其中所述韵律约束条件获取装置进一步被配置为根据所述输入语音数据对应的文字数据的句子长度确定节奏边界总数的预测值，

所述评估装置进一步被配置为将所述输入语音数据的节奏边界总数与所述节奏边界总数的预测值进行比较。

19.一种如权利要求18所述的系统，其中所述韵律约束条件包括节奏特征约束条件。

20.一种如权利要求19所述的系统，进一步包括：

节奏特征获取装置，用于获取所述输入语音数据的节奏特征，所述节奏特征表现为节奏边界位置，所述节奏边界包括下列各项中的至少一项：停顿、音调重置，并且

所述韵律约束条件获取装置进一步用于获取所述输入语音数据对应的标准节奏特征，

所述评估装置进一步用于将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较。

21.一种如权利要求19所述的系统，其中

所述流利度特征获取装置进一步用于：

获取所述输入语音数据对应的输入文字数据；

将所述输入文字数据与输入语音数据进行对齐；以及

测量所述输入语音数据的流利度特征。

22.一种如权利要求21所述的系统，其中所述流利度特征包括下列各项中的至少一项：

节奏边界的停顿长度；

字或词的重复次数；和

单音迟疑程度，其中所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个。

23.一种如权利要求20所述的系统，其中将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较进一步包括：

24.一种如权利要求23所述的系统，所述节奏特征获取装置进一步被配置为：

获取所述输入语音数据对应的输入文字数据；

将所述输入文字数据与输入语音数据进行对齐；以及

测量所述输入语音数据的节奏边界位置。

25.一种如权利要求20所述的系统，所述获取所述输入语音数据对应的标准节奏特征的步骤进一步包括：

处理所述输入文字数据以获得对应的输入语言结构；

提取所述标准节奏特征的节奏边界位置。

26.一种如权利要求25所述的系统，其中所述提取所述标准节奏特征的节奏边界位置进一步包括：

提取所述发生概率在一定阈值以上的节奏边界位置。

27.一种如权利要求25所述的系统，所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率包括：

28.一种如权利要求19-27中任意一个所述的系统，其中所述韵律约束条件包括流利度特征约束条件，

所述系统进一步包括：

获取所述输入语音数据的流利度特征的装置。

29.一种如权利要求28所述的系统，其中所述流利度特征包括节奏边界的停顿长度，

所述韵律约束条件获取装置进一步被配置为：

获取所述输入语音数据对应的标准停顿长度，并且

所述评估装置进一步被配置为：

30.一种如权利要求29所述的系统，其中所述获取所述输入语音数据对应的标准停顿长度进一步包括：

处理所述输入文字数据以获得对应的输入语言结构；以及

31.一种如权利要求30所述的系统，其中所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度包括：

32.一种如权利要求28所述的系统，其中所述流利度特征包括字或词的重复次数，

所述韵律约束条件获取装置进一步被配置为：

获取所述重复次数的允许值，并且

所述评估装置进一步被配置为：

将所述输入语音数据的重复次数与所述允许值进行比较。

33.一种如权利要求28所述的系统，其中所述流利度特征包括单音迟疑程度，所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个，

所述韵律约束条件获取装置进一步被配置为：

获取单音迟疑程度的允许值，并且

所述评估装置进一步被配置为：

34.一种如前述权利要求19-27中任意一个所述的系统，进一步包括：

根据所述评估的结果，将所述输入语音数据加入语料库作为标准语音数据的装置。

35.一种如前述权利要求19-27中任意一个所述的系统，其中所述评估的结果包括下列各项中的至少一项：

所述输入语音数据的韵律的得分；

所述输入语音数据的韵律的详细分析；

参考语音数据。