CN102881282A

CN102881282A - 一种获取韵律边界信息的方法及系统

Info

Publication number: CN102881282A
Application number: CN2011102042823A
Authority: CN
Inventors: 张洁; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-07-15
Filing date: 2011-07-15
Publication date: 2013-01-16
Anticipated expiration: 2031-07-15
Also published as: CN102881282B

Abstract

本发明实施例公开了一种获取韵律边界信息的方法及系统，其中，所述方法包括：获取待标注的文本数据，并获得所述文本数据对应的音频数据；向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息；向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息；将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定各个位置的韵律边界信息。通过本发明，能够有效地获取到韵律边界信息，进而提高语音合成结果的自然度。

Description

一种获取韵律边界信息的方法及系统

技术领域

本发明一般地涉及语音信号处理技术领域，尤其是一种获取韵律边界信息的方法及系统。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术，其目的是能够让计算机将文本信息转化为语音朗读出来，相当于使计算机具有类似于人一样的说话能力。

传统的语音合成技术中通常有以下实现方式：以字为切分单位的单字式的字音转换，或者以语法词为切分单位的词组式的文语转换。然而，实际上人们在说话时并不是以字或语法词为切分单位，而是以韵律词、韵律短语等为切分单位，因此这些传统的语音合成方法都会导致计算机输出的合成语音的自然度比较低，会给人“一字一顿”的感觉，无法达到人们可以接受的程度。

因此，韵律边界信息对于语音信号处理有着至关重要的作用。韵律边界信息用于指示对于一个文本而言，在阅读时应该在哪些地方进行停顿。显然，在语音合成过程中，如果能够使得计算机按照自然的韵律边界信息进行停顿，将有助于提升语音合成结果的自然度和流畅性。

为了能够有效地利用韵律边界信息，通常需要预先建立语料库，该语料库中保存有带有正确韵律边界信息的音频或文本，这样，在语音合成过程中，就可以利用语料库中的韵律边界信息进行语音的合成。因此，如何有效地获取韵律边界信息以便建立起语料库成为迫切需要本领域技术人员解决的技术问题。

发明内容

有鉴于此，本发明实施例提供了一种获取韵律边界信息的方法及系统，能够有效地获取到韵律边界信息，进而提高语音合成结果的自然度。

根据本发明实施例的一个方面，提供一种获取韵律边界信息的方法，包括：获取待标注的文本数据，并获得所述文本数据对应的音频数据；向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息；向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息；将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定各个位置的韵律边界信息。

根据本发明实施例的另一个方面，提供一种获取韵律边界信息的系统，包括：待标注数据获取单元，配置为获取待标注的文本数据，并获得所述文本数据对应的音频数据；第一韵律边界信息获取单元，配置为向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息；第二韵律边界信息获取单元，配置为向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息；韵律边界信息确定单元，配置为将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定各个位置的韵律边界信息。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述获取韵律边界信息的方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述获取韵律边界信息的方法。

根据本发明实施例的上述方法，能够在标注者进行韵律边界信息进行标注的过程中，获取到韵律边界信息，在获取标注信息的过程中，分别向不同组的标注者播放音频数据或展现文本数据的句法树，这样，可以避免由于文本与音频之间的相互作用，而对标注者产生干扰，从而能够提高标注的准确度。另一方面，每个标注者可以独立进行标注，不需要标注者之间进行协商，系统就可以自动从标注者的标注信息中获取到韵律边界信息，因此，可以提高获取韵律边界信息的效率，有利于大规模语料库的创建。

在下面的说明书部分中给出本发明实施例的其他方面，其中，详细说明用于充分地公开本发明实施例的优选实施例，而不对其施加限定。

附图说明

下面结合具体的实施例，并参照附图，对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的方法的流程图；

图2是示出作为句法树结构的示意图；

图3是示出作为本发明实施例提供的第一装置的示意图；

图4是示出作为本发明实施例提供的第二装置的示意图；

图5是示出作为本发明实施例提供的第三装置的示意图；

图6是示出作为本发明实施例提供的第四装置的示意图；和

图7是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明实施例。

参见图1，本发明实施例提供的获取韵律边界信息的方法可以包括以下步骤：

S101：获取待标注的文本数据，并获得所述文本数据对应的音频数据。

在本发明实施例中，音频数据通常是指语音文件对应的数据，每个音频数据对应着各自的文本数据，文本数据主要体现音频数据中携带的文字内容。

对于待标注的文本数据以及对应的音频数据而言，可以是先通过录音等方式获取音频数据，再从音频数据中提取出文字信息形成文本数据；也可以是先通过从网页中抓取等方式获取文本数据，然后利用TTS(Text ToSpeech，语音合成技术)系统生成文本数据对应的音频数据，等等。

S202：向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息。

在本发明实施例中，相当于是从标注者的标注信息中提取韵律边界信息，也就是说，将标注者的知识利用到获取韵律边界信息的过程中来。具体实现时，可以将标注者分为两组，其中一组专门从音频角度进行韵律边界信息的标注。对于这组标注者而言，系统可以向这组标注者播放待标注的音频数据，标注者在收听音频数据的过程中，就可以在认为需要停顿的地方进行标注。

其中，为了便于标注者对音频数据进行韵律边界信息进行标注，系统可以向标注者提供标注的入口。该入口的形式可以是多种多样的，例如，其中一种可以是：预先定义特定的按键作为标注键，当标注者需要进行标注时，可以按下该特定按键，相应的，系统在接收到标注者的按下操作之后，就可以保存相应的标注信息。其中，在保存标注信息时，可以根据标注时刻对应的时间点，在音频数据中该时间点的相应位置上，标注出音律边界标识，等等。也就是说，可以用不同的时间点来表示不同的位置。例如，可以将空格键作为标注键，标注者在收听音频数据的过程中，如果在收到某时刻时认为此处存在韵律边界，则可以按下空格键，相应的，系统就可以在音频数据中时刻对应的位置处保存上韵律边界信息。当然，除了设定标注键以外，还可以有其他的入口提供方式，例如，还可以将用户的点击鼠标操作，作为标注操作，这样，标注者在需要进行标注的地方，点击鼠标即可，系统进行相应的记录。

这样，针对第一组中的各个标注者，分别可以获取到各自针对同一音频数据标注的韵律边界信息，最后再将各个标注者的标注结果进行综合，即可得到基于该第一组标注者确定的韵律边界信息。

需要说明的是，在实际应用中，韵律边界可能分为多个层级，例如，通常可以有三个层级，分别对应着有韵律词(P1)、韵律短语(P2)及语调短语(P3)，各个层级对应的停顿时间长短可能有所不同。标注者在标注时，如果能够区分出不同层级的韵律边界，则可以通过具体的操作体现出来，系统也可以进行相应的记录。例如，在前述将空格键作为标注入口的方式下，可以通过连续按键次数来代表不同的层级。例如，一次代表P1，两次代表P2，三次代表P3，则标注者在收听音频数据的过程中，如果认为某处是一个P1级别的停顿，则可以按下一次空格键，相应的，系统就可以将此处标注为P1级别的停顿；如果认为某处是一个P2级别的停顿，则可以连续按下两次空格键，相应的，系统就可以将此处标注为P2级别的停顿；同样的，如果认为某处是一个P3级别的停顿，则可以连续按下三次空格键，相应的，系统就可以将此处标注为P3级别的停顿。

S203：向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息。

对于第二组标注者，可以单独从文本数据的角度进行标注，当然，该文本数据是与第一组标注者标注的音频数据是对应的。具体实现时，系统就需要向该组标注者展现根据文本数据生成的句法树，然后标注者可以在句法树上标注韵律边界信息。需要说明的是，在根据文本数据生成句法树时，可以采用已有的方法来实现，主要包括对文本数据进行自动的句法分析，从而实现对文本数据的词性标注等，最终生成句法树。例如，对于“对象堆积的基本设想是重叠具有同样的界面的对象。”这一文本而言，生成的句法树可以如图2所示，其中，各个节点上的字母组合代表对应的文本块的词性。例如，“NP”表示名词短语，也即“对象堆积的基本设想”这一文本块是一个名词短语，该节点有两个子节点，分别为“DNP”和“NP”，其中，“DNP”表示带“的”的短语，等等，这里不再一一详述。

同样，为了实现这种标注，也需要向标注者提供标注的入口，例如，一种方式可以是将用户的鼠标点击操作作为标注操作。在这种方式下，标注者可以将光标移动到认为需要停顿的地方，然后按下鼠标左键，然后系统就可以记录为该处具有韵律边界。当然，在需要进行多个层级的标注时，同样可以采用连续点击鼠标的次数进行区分，这里不再赘述。此外，还可以有其他的入口实现方式，例如，将展现的界面设置为可编辑的模式，光标在该界面中可以显示为“画笔”等，这样，标注者可以在需要停顿的地方操作“画笔”画上“竖线”等，相应的，系统也可以根据画线的位置，保存相应的韵律边界信息，同时，不同的“竖线”数目也可以用于区分不同的层级，等等。再或者，还可以当标注者将光标移动到句法树的某处之后，通过键盘等输入“P1”、“P2”等，然后系统进行记录也是可以的。各种具体的实现方式这里不再一一列举。

对于系统而言，同样可以用不同的时间点来代表不同的位置。也就是说，对于文本数据而言，由于是与音频数据对应的，因此，文本数据中也可以保留与音频数据中一致的时间信息。比如，对于某时长为1分钟的音频数据而言，在第5秒这个时间点上对应播放的文字是“重”，则在该音频数据对应的文本数据中，该“重”字对应的时间信息也是第5秒。

与第一组标注者类似，对于第二组中的各个标注者，也可以分别获取到各自的标注结果，最后将组内各个标注者的标注结果进行综合，即可得到基于该第二组标注者确定的韵律边界信息。

S104：将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定各个位置的韵律边界信息。

虽然基于第一组标注者是基于音频数据进行的标注，第二组标注者是基于文本数据进行的标注，但是音频数据与文本数据具有对应性，在两组分别标注完成获得各自的标注结果之后，还可以将这两组的标注结果进行综合，得到最终的韵律边界信息。

下面对具体如何获取基于第一组标注者的标注结果，以及基于第二组标注者的标注结果，进行详细地介绍。

首先，关于第一组标注者，在分别得到各个标注者针对同一音频数据的标注结果之后，需要对各个标注者的标注结果进行综合，在综合时，相当于将各个标注者标注的位置以及层级信息等进行比对，如果某位置上各个标注者标注的结果完全一致，则可以确认该位置上具有该标注结果。但是，当某位置上存在标注不一致时，就需要通过一定的手段进行判决。

为此，本发明实施例中可以预先利用已知韵律边界信息的音频数据，获取第一组中的各个标注者对与韵律边界信息相关的各种声学特征的敏感度信息；这样，在对第一组中的各个标注者的标注结果进行综合时，如果存在不一致的情况，则可以首先获取该处的声学特征，然后根据各个标注者对该位置上的声学特征的敏感度信息，确定该位置上的韵律边界信息。也就是说，不同的标注者对不同的声学特征的敏感度是不同的，如果某标注者对某声学特征比较敏感，则其对具有该声学特征的位置处进行的标注信息的可靠性比较高。

其中，与韵律边界信息相关的声学特征通常可以包括基频跳跃(F0)，无声波间断(F1)、音强波谷(F2)中的任意一个或多个的组合。也就是说，对于某音频数据而言，如果某处存在韵律边界，则对其进行声学分析时，通常可以发现该处可能存在上述F0、F1、F2中的某一种或者某几种的组合。换言之，当出现上述声学特征时，容易产生停顿，因此，将这些声学特征称为与韵律边界信息相关的声学特征。

总之，在上述声学特征出现时，都可能产生停顿，而标注者对各种声学特征的敏感度不同，这就会导致有些韵律边界能够正确地标注出来，而有些却无法标注出来，或者标注错误。因此，可以将标注者对声学特征的敏感度，作为评判标注准确度的依据。这样，当不同标注者对某位置上的标注结果之间出现不一致的情况时，就可以首先将该位置上的语声学特征提取出来，然后根据不同标注者对该声学特征的敏感度，来确定该位置上最终的韵律边界信息。

例如，音频数据中的某处被标注者A标注为具有P1的韵律边界，被标注者B标注为具有P3的韵律边界，此时，就可以获取该处的声学特征，例如，获取到的声学特征为F1，则就可以比较标注者A对F1的敏感度以及标注者B对F1的敏感度，哪个标注者对F1的敏感度高，就以哪个标注者的标注结果为准。

需要说明的是，由于同一个位置上存在的声学特征可能是组合的形式，例如F1及F2，也即该位置上既存在无声波间断，又是一个音强波谷，对于这种情况，可以将F1及F2作为一个整体来看待，相当于该位置上的声学特征就是F1及F2同时出现；在统计标注者对各种声学特征的敏感度时，不仅仅是统计对F0、F1、F2单独出现时的敏感度，还需要统计当F0、F1、F2中的多个同时出现时的敏感度。也就是说，声学特征实际上可以包括F0、F1、F2及其组合，相应的，标注者对各种声学特征的敏感度，也是包括对F0、F1、F2及其组合的敏感度。例如，对于标注者A，除了可以获取到其对F0的敏感度，对F1的敏感度，对F2的敏感度，还可以获取到其对F0、F1同时出现时的敏感度、对F1、F2同时出现时的敏感度，等等。

为了获取各个标注者对各种声学特征的敏感度，可以预先准备一些已知韵律边界信息的音频数据，向标注者播放这些已知韵律边界信息的音频数据，获取标注者在该音频数据的各个位置上标注的韵律边界信息；然后，将标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断标注者在各位置上标注的韵律边界信息是否正确；对于标注者标注正确的位置，获取其包含的与韵律边界信息相关的声学特征，最后，将标注者所有标注正确的位置上的声学特征汇总，分别计算出每种声学特征的出现次数在所有声学特征出现总数中所占的比例，将该比例确定为标注者对对应声学特征的敏感度信息。这样，对于第一组中的各个标注者而言，可以分别获取到各个标注者对各种声学特征的敏感度。

以上获取标注者对各种声学特征的敏感度的过程，可以是在训练阶段完成的。在实际应用中，随着标注的数据的增多，标注者对各种声学特征的敏感度可能会发生变化，因此，为了提高判决时的准确性，还可以在标注的过程中，插入一些已知韵律边界信息的音频数据，从而实现动态调整每个标注者对与韵律边界信息相关的各种声学特征的敏感度信息。

关于第二组标注者，在分别得到各个标注者针对同一文本数据的标注结果之后，同样需要对各个标注者的标注结果进行综合，在综合时，相当于将各个标注者标注的位置以及层级信息等进行比对，如果某位置上各个标注者标注的结果完全一致，则可以确认该位置上具有该标注结果。但是，当某位置上存在标注不一致时，就需要通过一定的手段进行判决。

为此，本发明实施例中可以预先利用根据已知韵律边界信息的文本数据生成的句法树，获取第二组中的各个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息，这样，在对第二组中的各个标注者的标注结果进行综合时，如果存在不一致的情况，则可以首先获取该位置上包含的与韵律边界信息的语法规则特征，根据各个标注者对该位置上的语法规则特征的敏感度信息，确定该位置上的韵律边界信息。也就是说，不同的标注者对不同的语法规则特征的敏感度是不同的，如果某标注者对某语法规则比较敏感，则其在具有该语法规则的位置上的标注信息的可靠性比较高。

其中，关于与韵律边界相关的语法规则，与前文所述的声学特征类似，对于音频数据而言，存在韵律边界的位置上通常会具有一些特殊的语法规则，换言之，在出现一些特殊的语法规则时，容易产生停顿，因此将这些特殊的语法规则称为与韵律边界信息相关的语法规则。

这种语法规则的表示方式可以有多种，其中一种方式可以是从停顿前的次节点开始，采用自上而下地产生式规则。例如，在图2的例子中，在“对象堆积的基本设想”之后有一个P2级别的停顿，则该位置上的语法规则可以取为“NP-＞DNP NP”，也即取该停顿之前的次节点(以根节点为父节点的节点)以及该次节点的两个子节点，以此来表示该位置上的语法规则。

总之，在很多与韵律边界相关的语法规则出现时，都可能产生停顿。而标注者对各种语法规则的敏感度不同，这就会导致有些韵律边界能够正确地标注出来，而有些却无法标注出来，或者标注错误。因此，可以将标注者对语法规则的敏感度，作为评判标注准确度的依据。这样，当不同标注者对某位置上的标注结果之间出现不一致的情况时，就可以首先将该位置上的语法规则提取出来，然后根据不同标注者对该语法规则的敏感度，来确定该位置上最终的韵律边界信息。

例如，句法树中的某处被标注者A标注为具有P1的韵律边界，被标注者B标注为具有P3的韵律边界，此时，就可以获取该处的句法规则，例如，获取到的句法规则为“NP-＞DNP NP”，则就可以比较标注者A对该句法规则的敏感度以及标注者B对该句法规则的敏感度，哪个标注者对该句法规则的敏感度高，就以哪个标注者的标注结果为准。

为了获取各个标注者对各种语法规则的敏感度，可以预先准备一些根据已知韵律边界信息的文本数据生成的句法树，并向标注者展现这些根据已知韵律边界信息的文本数据生成的句法树，获取该标注者根据该句法树在该文本数据的各个位置上标注的韵律边界信息。然后，将该标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断该标注者在各位置上标注的韵律边界信息是否正确。对于该标注者标注正确的位置，获取其包含的与韵律边界信息相关的语法规则特征。将该标注者所有标注正确的位置上的语法规则特征汇总，分别计算出每种语法规则特征的出现次数在所有语法规则特征出现总数中所占的比例，将所述比例确定为该标注者对对应语法规则特征的敏感度信息。

以上获取标注者对各种语法规则的敏感度的过程，可以是在训练阶段完成的。在实际应用中，随着标注的数据的增多，标注者对各种语法规则的敏感度可能会发生变化。因此，为了提高判决时的准确性，还可以在标注的过程中，插入一些已知韵律边界信息的文本数据，从而实现动态调整每个标注者对与韵律边界信息相关的各种语法规则的敏感度信息。

以上所述介绍了分别如何获取两组标注者的标注结果，在得到两组标注者的标注结果之后，还需要进一步地综合两组的标注结果，才能得到最终的韵律边界信息。在对两组的标注结果进行综合的过程中，同样可以按照一致性优先的原则，也即，如果某位置上的标注结果一致，则可以将该一致的标注结果作为该位置上的韵律边界信息。而如果某位置上的标注结果不一致，则同样可以采取一定的判决方式，以便确定最终的韵律边界信息。

为此，在本发明实施例中，可以根据已知韵律边界信息的音频数据，分别统计各种声学特征与韵律边界信息共现的概率，并根据已知韵律边界信息的文本数据生成的句法树，分别统计各种语法规则特征与韵律边界信息共现的概率。这样，如果基于第一组标注者确定的某位置上的韵律边界信息，与基于第二组标注者确定的该位置上的韵律边界信息不一致，则可以首先获取该位置上的声学特征以及语法规则特征，然后根据该位置上的声学特征与韵律边界信息共现的概率，以及该位置上的语法规则特征与韵律边界信息共现的概率，来最终确定该位置上的韵律边界信息。

这里的声学特征以及语法规则特征与前文所述的一致。也就是说，对于前文所述的各种声学特征而言，当出现各种声学特征时，都有可能会产生停顿(也即韵律边界)，并且如果某声学特征出现时，确实产生了停顿，这种现象就可以称为该声学特征与韵律边界信息共现。但是，对于不同的声学特征而言，与韵律边界信息共现的概率是不同的。如果某声学特征与韵律边界信息共现的概率比较高，则可以证明该声学特征出现时，产生停顿的可能性也比较大。

同样的，对于前文所述的各种语法规则特征而言，当出现各种语法规则特征时，都有可能会产生停顿(也即韵律边界)，并且如果某语法规则特征出现时，确实产生了停顿，这种现象就可以称为该语法规则特征与韵律边界信息共现。但是，对于不同的语法规则特征而言，与韵律边界信息共现的概率是不同的。如果某语法规则特征与韵律边界信息共现的概率比较高，则可以证明该语法规则特征出现时，产生停顿的可能性也比较大。

据此可知，如果某位置上两组标注者的标注结果不一致，则可以根据该位置上的声学特征与韵律边界信息共现的概率来表征第一组标注者的标注结果的准确度，根据该位置上的语法规则特征与韵律边界信息共现的概率来表征第二组标注者的标注结果的准确度，然后将概率较高者的标注结果作为最终的韵律边界信息即可。

例如，基于第一组标注者确定的某位置上的韵律边界信息是P1，基于第二组标注者确定的该位置上的韵律边界信息是P2，则可以提取该位置上的声学特征以及语法规则特征；假设提取出的声学特征为F1，该声学特征与韵律边界信息共现的概率是a；提取出的语法规则特征为“VP-＞VP NP”，该语法规则特征与韵律边界信息共现的概率是b；然后，就可以比较a与b的大小，如果a大于b，则以第一组标注者的标注结果为准，也即，将该位置上的韵律边界信息确定为P1；反之，如果b大于a，则以第二组标注者的标注结果为准，也即，将该位置上的韵律边界信息确定为P2。

其中，在统计各种声学特征与韵律边界信息共现的概率时，可以预先准备多个已知韵律边界信息的音频数据，然后，分别提取各个存在韵律边界的位置上的声学特征，然后统计各种声学特征分别出现的数目，用各种声学特征分别出现的数目除以韵律边界的总数，即可得到各种声学特征与韵律边界信息共现的概率。

例如，假设已知韵律边界信息的音频数据共有2000条，其中共有6000处停顿，并且统计发现这6000个停顿处中，出现F1这种声学特征的共有300处，则F1这种声学特征与韵律边界信息共现的概率为300/6000＝5％；出现F1+F2这种声学特征的共有600处，则F1+F2这种声学特征与韵律边界信息共现的概率为600/6000＝10％。其他声学特征与韵律边界信息共现的概率也可以此类推进行计算。

类似的，在统计各种语法规则特征与韵律边界信息共现的概率时，可以预先准备多个根据已知韵律边界信息的文本数据生成的句法树，然后，分别提取各个存在韵律边界的位置上的语法规则特征，然后统计各种语法规则特征分别出现的数目，用各种语法规则特征分别出现的数目除以韵律边界的总数，即可得到各种语法规则特征与韵律边界信息共现的概率。

例如，假设根据已知韵律边界信息的文本数据生成的句法树共有2000棵，其中共有6000处停顿，并且统计发现这6000个停顿处中，出现“NP-＞DNP NP”这种语法规则特征的共有600处，则“NP-＞DNP NP”这种语法规则特征与韵律边界信息共现的概率为600/6000＝10％。其他语法规则特征与韵律边界信息共现的概率也可以此类推进行计算。

在将两组标注者的标注结果进行综合之后，就可以得到针对某待标注数据各个位置上的韵律边界信息，然后，就可以各个位置上的韵律边界信息保存到数据库中。其他的待标注数据也做同样处理，得到各个位置上的韵律边界信息也都保存在数据库中，最终即可建立起供语音合成过程中使用的数据库。

总之，在本发明实施例中，能够在标注者进行韵律边界信息进行标注的过程中，获取到韵律边界信息，在获取标注信息的过程中，分别向不同组的标注者播放音频数据或展现文本数据的句法树，这样，可以避免由于文本与音频之间的相互作用，而对标注者产生干扰，从而能够提高标注的准确度。另一方面，每个标注者可以独立进行标注，不需要标注者之间进行协商，系统就可以自动从标注者的标注信息中获取到韵律边界信息，因此，可以提高获取韵律边界信息的效率，有利于大规模语料库的创建。

与本发明实施例提供的获取韵律边界信息的方法相对应，本发明实施例还提供了一种获取韵律边界信息的系统，参见图3，该系统包括：

待标注数据获取单元301，配置为获取待标注的文本数据，并获得所述文本数据对应的音频数据；

第一韵律边界信息获取单元302，配置为向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息；

第二韵律边界信息获取单元303，配置为向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息；

韵律边界信息确定单元304，配置为将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定各个位置的韵律边界信息。

具体实现时，参见图4，第一韵律边界信息获取单元302可以包括：

第一敏感度信息获取子单元3021，配置为预先利用已知韵律边界信息的音频数据，获取第一组中的各个标注者对与韵律边界信息相关的各种声学特征的敏感度信息；

第一标注结果获取子单元3022，配置为需要获取韵律边界信息时，向第一组中的各个标注者播放待标注的音频数据，获取各个标注者在所述音频数据的各个位置上标注的韵律边界信息；

第一确定子单元3023，配置为如果各个标注者在所述音频数据的某位置上标注的韵律边界信息一致，则确定该位置具有该一致的韵律边界信息；否则，获取该位置上包含的与韵律边界信息的声学特征，根据各个标注者对该位置上的声学特征的敏感度信息，确定该位置上的韵律边界信息。

为了提高判决的准确性，第一韵律边界信息获取单元302还可以包括：

第一动态调整单元3024，配置为在获取韵律边界信息的过程中，插入已知韵律边界信息的音频数据，动态调整每个标注者对与韵律边界信息相关的各种声学特征的敏感度信息。

其中所述第一敏感度信息获取子单元3021可以包括：

播放子单元30211，配置为向标注者播放已知韵律边界信息的音频数据，获取标注者在该音频数据的各个位置上标注的韵律边界信息；

第一判断子单元30212，配置为将标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断标注者在各位置上标注的韵律边界信息是否正确；

第一汇总子单元30213，配置为对于标注者标注正确的位置，获取其包含的与韵律边界信息相关的声学特征；将标注者所有标注正确的位置上的声学特征汇总，分别计算出每种声学特征的出现次数在所有声学特征出现总数中所占的比例，将所述比例确定为标注者对对应声学特征的敏感度信息。

在实际应用中，第一确定子单元3023具体可以配置为：将对该位置上的声学特征敏感度最高的标注者标注的韵律边界信息，确定为该位置上的韵律边界信息。

参见图5，第二韵律边界信息获取单元303具体可以包括：

第二敏感度信息获取子单元3031，配置为预先利用根据已知韵律边界信息的文本数据生成的句法树，获取第二组中的各个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息；

第二标注结果获取子单元3032，配置为需要获取韵律边界信息时，向第二组中的各个标注者展现根据所述待标注的文本数据生成的句法树，获取各个标注者根据所述句法树在所述文本数据的各个位置上标注的韵律边界信息；

第二确定子单元3033，配置为如果各个标注者在所述文本数据的某位置上标注的韵律边界信息一致，则确定该位置具有该一致的韵律边界信息；否则，获取该位置上包含的与韵律边界信息的语法规则特征，根据各个标注者对该位置上的语法规则特征的敏感度信息，确定该位置上的韵律边界信息。

类似的，为了提高判决的准确度，第二韵律边界信息获取单元303还可以包括：

第二动态调整单元3034，配置为在获取韵律边界信息的过程中，插入已知韵律边界信息的文本数据，动态调整每个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息。

其中，第二敏感度信息获取子单元3031具体可以包括：

展现子单元30311，配置为向标注者展现根据已知韵律边界信息的文本数据生成的句法树，获取该标注者根据该句法树在该文本数据的各个位置上标注的韵律边界信息；

第二判断子单元30312，配置为将该标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断该标注者在各位置上标注的韵律边界信息是否正确；

第二汇总子单元30313，配置为对于该标注者标注正确的位置，获取其包含的与韵律边界信息相关的语法规则特征；将该标注者所有标注正确的位置上的语法规则特征汇总，分别计算出每种语法规则特征的出现次数在所有语法规则特征出现总数中所占的比例，将所述比例确定为该标注者对对应语法规则特征的敏感度信息。

其中，第二确定子单元3033具体可以配置为：将对该语法规则特征敏感度最高的标注者标注的韵律边界信息，确定为该位置上的韵律边界信息。

为了更好地进行两组标注结果之间的综合，参见图6，该系统还可以包括：

第一概率统计单元305，配置为根据已知韵律边界信息的音频数据，分别统计各种声学特征与韵律边界信息共现的概率；

第二概率统计单元306，配置为根据已知韵律边界信息的文本数据生成的句法树，分别统计各种语法规则特征与韵律边界信息共现的概率；

相应的，韵律边界信息确定单元304具体可以包括：

特征获取子单元3041，配置为如果基于所述第一组标注者确定的某位置上的韵律边界信息，与基于所述第二组标注者确定的该位置上的韵律边界信息不一致，则获取该位置上的声学特征以及语法规则特征；

确定子单元3042，配置为根据该位置上的声学特征与韵律边界信息共现的概率，以及该位置上的语法规则特征与韵律边界信息共现的概率，确定该位置上的韵律边界信息。

总之，通过本发明实施例提供的上述系统，能够在标注者进行韵律边界信息进行标注的过程中，获取到韵律边界信息，在获取标注信息的过程中，分别向不同组的标注者播放音频数据或展现文本数据的句法树，这样，可以避免由于文本与音频之间的相互作用，而对标注者产生干扰，从而能够提高标注的准确度。另一方面，每个标注者可以独立进行标注，不需要标注者之间进行协商，系统就可以自动从标注者的标注信息中获取到韵律边界信息，因此，可以提高获取韵律边界信息的效率，有利于大规模语料库的创建。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图7所示的通用个人计算机700安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU701执行各种处理等等时所需的数据。

CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，包括键盘、鼠标等等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分708，包括硬盘等等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。

根据需要，驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

关于包括以上实施例的实施方式，还公开下述附记：

附记1、一种获取韵律边界信息的方法，包括：

获取待标注的文本数据，并获得所述文本数据对应的音频数据；

向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息；

向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息；

将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定各个位置的韵律边界信息。

附记2、根据附记1所述的方法，其中所述向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息，包括：

预先利用已知韵律边界信息的音频数据，获取第一组中的各个标注者对与韵律边界信息相关的各种声学特征的敏感度信息；

需要获取韵律边界信息时，向第一组中的各个标注者播放待标注的音频数据，获取各个标注者在所述音频数据的各个位置上标注的韵律边界信息；

如果各个标注者在所述音频数据的某位置上标注的韵律边界信息一致，则确定该位置具有该一致的韵律边界信息；

否则，获取该位置上包含的与韵律边界信息的声学特征，根据各个标注者对该位置上的声学特征的敏感度信息，确定该位置上的韵律边界信息。

附记3、根据附记2所述的方法，还包括：

在获取韵律边界信息的过程中，插入已知韵律边界信息的音频数据，动态调整每个标注者对与韵律边界信息相关的各种声学特征的敏感度信息。

附记4、根据附记2所述的方法，其中所述获取第一组中的各个标注者对与韵律边界信息相关的各种声学特征的敏感度信息包括：

向标注者播放已知韵律边界信息的音频数据，获取标注者在该音频数据的各个位置上标注的韵律边界信息；

将标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断标注者在各位置上标注的韵律边界信息是否正确；

对于标注者标注正确的位置，获取其包含的与韵律边界信息相关的声学特征；将标注者所有标注正确的位置上的声学特征汇总，分别计算出每种声学特征的出现次数在所有声学特征出现总数中所占的比例，将所述比例确定为标注者对对应声学特征的敏感度信息。

附记5、根据附记2所述的方法，所述根据各个标注者对该位置上的声学特征的敏感度信息，确定该位置上的韵律边界信息包括：

将对该位置上的声学特征敏感度最高的标注者标注的韵律边界信息，确定为该位置上的韵律边界信息。

附记6、根据附记1所述的方法，其中所述向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息，包括：

预先利用根据已知韵律边界信息的文本数据生成的句法树，获取第二组中的各个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息；

需要获取韵律边界信息时，向第二组中的各个标注者展现根据所述待标注的文本数据生成的句法树，获取各个标注者根据所述句法树在所述文本数据的各个位置上标注的韵律边界信息；

如果各个标注者在所述文本数据的某位置上标注的韵律边界信息一致，则确定该位置具有该一致的韵律边界信息；

否则，获取该位置上包含的与韵律边界信息的语法规则特征，根据各个标注者对该位置上的语法规则特征的敏感度信息，确定该位置上的韵律边界信息。

附记7、根据附记6所述的方法，还包括：

在获取韵律边界信息的过程中，插入已知韵律边界信息的文本数据，动态调整每个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息。

附记8、根据附记6所述的方法，所述预先获取第二组中的各个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息包括：

向标注者展现根据已知韵律边界信息的文本数据生成的句法树，获取该标注者根据该句法树在该文本数据的各个位置上标注的韵律边界信息；

将该标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断该标注者在各位置上标注的韵律边界信息是否正确；

对于该标注者标注正确的位置，获取其包含的与韵律边界信息相关的语法规则特征；将该标注者所有标注正确的位置上的语法规则特征汇总，分别计算出每种语法规则特征的出现次数在所有语法规则特征出现总数中所占的比例，将所述比例确定为该标注者对对应语法规则特征的敏感度信息。

附记9、根据附记6所述的方法，所述根据各个标注者对该位置上的语法规则特征的敏感度信息，确定该位置上的韵律边界信息包括：

将对该语法规则特征敏感度最高的标注者标注的韵律边界信息，确定为该位置上的韵律边界信息。

附记10、根据附记1至9任一项所述的方法，还包括：

根据已知韵律边界信息的音频数据，分别统计各种声学特征与韵律边界信息共现的概率；

根据已知韵律边界信息的文本数据生成的句法树，分别统计各种语法规则特征与韵律边界信息共现的概率；

所述根据比对结果，确定各个位置的韵律边界信息包括：

如果基于所述第一组标注者确定的某位置上的韵律边界信息，与基于所述第二组标注者确定的该位置上的韵律边界信息不一致，则获取该位置上的声学特征以及语法规则特征；

根据该位置上的声学特征与韵律边界信息共现的概率，以及该位置上的语法规则特征与韵律边界信息共现的概率，确定该位置上的韵律边界信息。

附记11、一种获取韵律边界信息的系统，包括：

待标注数据获取单元，配置为获取待标注的文本数据，并获得所述文本数据对应的音频数据；

第一韵律边界信息获取单元，配置为向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息；

第二韵律边界信息获取单元，配置为向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息；

韵律边界信息确定单元，配置为将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定所述文本数据各个位置的韵律边界信息。

附记12、根据附记11所述的系统，其中所述第一韵律边界信息获取单元包括：

第一敏感度信息获取子单元，配置为预先利用已知韵律边界信息的音频数据，获取第一组中的各个标注者对与韵律边界信息相关的各种声学特征的敏感度信息；

第一标注结果获取子单元，配置为需要获取韵律边界信息时，向第一组中的各个标注者播放待标注的音频数据，获取各个标注者在所述音频数据的各个位置上标注的韵律边界信息；

第一确定子单元，配置为如果各个标注者在所述音频数据的某位置上标注的韵律边界信息一致，则确定该位置具有该一致的韵律边界信息；否则，获取该位置上包含的与韵律边界信息的声学特征，根据各个标注者对该位置上的声学特征的敏感度信息，确定该位置上的韵律边界信息。

附记13、根据附记12所述的系统，所述第一韵律边界信息获取单元还包括：

第一动态调整子单元，配置为在获取韵律边界信息的过程中，插入已知韵律边界信息的音频数据，动态调整每个标注者对与韵律边界信息相关的各种声学特征的敏感度信息。

附记14、根据附记12所述的系统，其中所述第一敏感度信息获取子单元包括：

播放子单元，配置为向标注者播放已知韵律边界信息的音频数据，获取标注者在该音频数据的各个位置上标注的韵律边界信息；

第一判断子单元，配置为将标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断标注者在各位置上标注的韵律边界信息是否正确；

第一汇总子单元，配置为对于标注者标注正确的位置，获取其包含的与韵律边界信息相关的声学特征；将标注者所有标注正确的位置上的声学特征汇总，分别计算出每种声学特征的出现次数在所有声学特征出现总数中所占的比例，将所述比例确定为标注者对对应声学特征的敏感度信息。

附记15、根据附记12所述的系统，所述第一确定子单元具体配置为：将对该位置上的声学特征敏感度最高的标注者标注的韵律边界信息，确定为该位置上的韵律边界信息。

附记16、根据附记11所述的系统，其中第二韵律边界信息获取单元，包括：

第二敏感度信息获取子单元，配置为预先利用根据已知韵律边界信息的文本数据生成的句法树，获取第二组中的各个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息；

第二标注结果获取子单元，配置为需要获取韵律边界信息时，向第二组中的各个标注者展现根据所述待标注的文本数据生成的句法树，获取各个标注者根据所述句法树在所述文本数据的各个位置上标注的韵律边界信息；

第二确定子单元，配置为如果各个标注者在所述文本数据的某位置上标注的韵律边界信息一致，则确定该位置具有该一致的韵律边界信息；否则，获取该位置上包含的与韵律边界信息的语法规则特征，根据各个标注者对该位置上的语法规则特征的敏感度信息，确定该位置上的韵律边界信息。

附记17、根据附记16所述的系统，所述第二韵律边界信息获取单元还包括：

第二动态调整子单元，配置为在获取韵律边界信息的过程中，插入已知韵律边界信息的文本数据，动态调整每个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息。

附记18、根据附记16所述的系统，其中所述第二敏感度信息获取子单元包括：

展现子单元，配置为向标注者展现根据已知韵律边界信息的文本数据生成的句法树，获取该标注者根据该句法树在该文本数据的各个位置上标注的韵律边界信息；

第二判断子单元，配置为将该标注者在各位置上标注的韵律边界信息与已知的各位置上韵律边界信息进行比对，判断该标注者在各位置上标注的韵律边界信息是否正确；

第二汇总子单元，配置为对于该标注者标注正确的位置，获取其包含的与韵律边界信息相关的语法规则特征；将该标注者所有标注正确的位置上的语法规则特征汇总，分别计算出每种语法规则特征的出现次数在所有语法规则特征出现总数中所占的比例，将所述比例确定为该标注者对对应语法规则特征的敏感度信息。

附记19、根据附记16所述的系统，所述第二确定子单元具体配置为：将对该语法规则特征敏感度最高的标注者标注的韵律边界信息，确定为该位置上的韵律边界信息。

附记20、根据附记11至19任一项所述的系统，还包括：

第一概率统计单元，配置为根据已知韵律边界信息的音频数据，分别统计各种声学特征与韵律边界信息共现的概率；

第二概率统计单元，配置为根据已知韵律边界信息的文本数据生成的句法树，分别统计各种语法规则特征与韵律边界信息共现的概率；

所述韵律边界信息确定单元包括：

特征获取子单元，配置为如果基于所述第一组标注者确定的某位置上的韵律边界信息，与基于所述第二组标注者确定的该位置上的韵律边界信息不一致，则获取该位置上的声学特征以及语法规则特征；

确定子单元，配置为根据该位置上的声学特征与韵律边界信息共现的概率，以及该位置上的语法规则特征与韵律边界信息共现的概率，确定该位置上的韵律边界信息。

Claims

1.一种获取韵律边界信息的方法，包括：

2.根据权利要求1所述的方法，其中所述向第一组标注者播放所述音频数据，根据各个标注者的标注结果，获取基于该第一组标注者确定的韵律边界信息，包括：

3.根据权利要求2所述的方法，其中所述获取第一组中的各个标注者对与韵律边界信息相关的各种声学特征的敏感度信息包括：

4.根据权利要求1所述的方法，其中所述向第二组标注者展现根据所述文本数据生成的句法树，根据各个标注者的标注结果，获取基于该第二组标注者确定的韵律边界信息，包括：

5.根据权利要求4所述的方法，所述预先获取第二组中的各个标注者对与韵律边界信息相关的各种语法规则特征的敏感度信息包括：

6.根据权利要求1至5任一项所述的方法，还包括：

所述根据比对结果，确定各个位置的韵律边界信息包括：

7.一种获取韵律边界信息的系统，包括：

韵律边界信息确定单元，配置为将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对，根据比对结果，确定各个位置的韵律边界信息。

8.根据权利要求7所述的系统，其中所述第一韵律边界信息获取单元包括：

9.根据权利要求11所述的系统，其中第二韵律边界信息获取单元，包括：

10.根据权利要求7至9任一项所述的系统，还包括：

所述韵律边界信息确定单元包括：