CN105118499A

CN105118499A - 韵律停顿预测方法和装置

Info

Publication number: CN105118499A
Application number: CN201510391903.1A
Authority: CN
Inventors: 陈汉英; 李秀林; 缪冠琼; 肖朔
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2015-12-02

Abstract

本发明提出一种韵律停顿预测方法和装置，其中，该方法包括以下步骤：基于机器学习方法获取待预测的文本内容对应的停顿预测结果，并根据预设的句式模板库对文本内容进行句式匹配，以确定文本内容对应的韵律停顿信息；根据韵律停顿信息对停顿预测结果进行修正；根据修正后的停顿预测结果对文本内容进行韵律停顿预测。本发明的韵律停顿预测方法，能够对机器学习方法的预测结果进行补充和修正，提升韵律预测结果的可靠性。

Description

韵律停顿预测方法和装置

技术领域

本发明涉及语音合成技术领域，特别涉及一种韵律停顿预测方法和装置。

背景技术

韵律预测技术是指在语音合成技术的前端文本处理过程中，通过文本内容来预测文本中的停顿位置和停顿时间长短的信息，使得在后端合成语音的过程中，利用文本中的停顿位置和停顿时间长短的信息合成出来的语音能够尽量符合人类自然说话的停顿和韵律习惯。因此，韵律预测技术的好坏是直接影响语音合成质量好坏的一个至关重要的方面。

目前，韵律预测技术主要是基于机器学习的方法，利用大规模语料训练模型，然后通过该模型对输入的文本进行预测，将预测的韵律停顿的概率结合长度约束矩阵，运用最优路径搜索算法，得到最后的停顿预测结果。

但是，由于训练语料是人工标注的，因此获取大规模的训练语料是非常昂贵和耗时的，并且受限于人工标注能力及规模，由此得到的训练语料也并不够充分。此外，训练模型的学习过程是在模型的泛化能力和模型复杂度之间的一种权衡，这使得模型的泛化能力或者说学习能力总是有限的。另外现实中文本的多样性、变化性、歧义性，也使得模型很难去准确描述这些文本。这就导致了模型本身学习能力的局限性。上述训练语料的不充分性以及训练模型学习能力的局限性使得基于机器学习的韵律预测方法仍然有待改进。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种韵律停顿预测方法，能够对机器学习方法的预测结果进行补充和修正，提升韵律预测结果的可靠性。

本发明的第二个目的在于提出一种韵律停顿预测装置。

为达上述目的，根据本发明第一方面实施例提出了一种韵律停顿预测方法，包括以下步骤：基于机器学习方法获取待预测的文本内容对应的停顿预测结果，并根据预设的句式模板库对所述文本内容进行句式匹配，以确定所述文本内容对应的韵律停顿信息；根据所述韵律停顿信息对所述停顿预测结果进行修正；根据修正后的停顿预测结果对所述文本内容进行韵律停顿预测。

本发明实施例的韵律停顿预测方法，不但基于机器学习方法获取文本内容的停顿预测结果，还根据句式模板匹配确定文本内容对应的韵律停顿信息，并根据该韵律停顿信息对机器学习的停顿预测结果进行修正，然后根据修正后的停顿预测结果对文本内容进行韵律停顿预测，从而能够将机器学习的预测结果与句式模板匹配的停顿信息进行结合，对基于机器学习的停顿预测结果进行修正，可弥补训练语料的不充分性以及训练模型学习能力的局限性带来的不足，提升预测结果的可靠性。

本发明第二方面实施例提出了一种韵律停顿预测装置，包括：获取模块，用于基于机器学习方法获取待预测的文本内容对应的停顿预测结果；匹配模块，用于根据预设的句式模板库对所述文本内容进行句式匹配，以确定所述文本内容对应的韵律停顿信息；修正模块，用于根据所述韵律停顿信息对所述停顿预测结果进行修正；预测模块，用于根据修正后的停顿预测结果对所述文本内容进行韵律停顿预测。

本发明实施例的韵律停顿预测装置，不但基于机器学习方法获取文本内容的停顿预测结果，还根据句式模板匹配确定文本内容对应的韵律停顿信息，并根据该韵律停顿信息对机器学习的停顿预测结果进行修正，然后根据修正后的停顿预测结果对文本内容进行韵律停顿预测，从而能够将机器学习的预测结果与句式模板匹配的停顿信息进行结合，对基于机器学习的停顿预测结果进行修正，可弥补训练语料的不充分性以及训练模型学习能力的局限性带来的不足，提升预测结果的可靠性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的韵律停顿预测方法的流程图；

图2为根据本发明一个实施例的确定文本内容对应的韵律停顿信息的示例图；

图3为根据本发明一个实施例的韵律停顿预测方法中预测过程的架构图；

图4为根据本发明一个实施例的韵律停顿预测装置的结构示意图；

图5为根据本发明另一个实施例的韵律停顿预测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“多个”指两个或两个以上；术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

考虑到句子的韵律停顿与句子的语法句式结构的重要关系，如果将句子中的句式结构信息转化为韵律信息，结合现有的韵律预测流程，能够减少训练语料的不充分性和训练模型学习能力的局限性带来的影响，有效改善韵律预测的结果。因此，本发明提出了一种韵律停顿预测方法和装置。

下面参考附图描述根据本发明实施例的韵律停顿预测方法和装置。

本发明提出了一种韵律停顿预测方法，包括以下步骤：基于机器学习方法获取待预测的文本内容对应的停顿预测结果，并根据预设的句式模板库对文本内容进行句式匹配，以确定文本内容对应的韵律停顿信息；根据韵律停顿信息对停顿预测结果进行修正；根据修正后的停顿预测结果对文本内容进行韵律停顿预测。

图1为根据本发明一个实施例的韵律停顿预测方法的流程图。

如图1所示，根据本发明实施例的韵律停顿预测方法，包括以下步骤：

S101，基于机器学习方法获取待预测的文本内容对应的停顿预测结果，并根据预设的句式模板库对文本内容进行句式匹配，以确定文本内容对应的韵律停顿信息。

其中，句式模板库为预先建立的，包括多个句式模板，且每个句式模板分别具有对应的韵律停顿信息。举例来说，句式模板库中可包括“因为……，所以”且在“所以”之前具有一个韵律停顿信息(为长停顿)、还可包括“不但……，而且……”等句式模板，且在每个句式模板中，根据句式结构和发音规律在相应的位置都赋予了韵律停顿信息。

在本发明的一个实施例中，根据预设的句式模板库对文本内容进行句式匹配，以确定文本内容对应的韵律停顿信息，可具体包括：在句式模板库中查找文本内容对应的句式模板；根据文本内容对应的句式模板确定文本内容对应的韵律停顿信息。

举例来说，如图2所示，对于文本内容“因为你笑了，所以我也笑了”，通过查找句式模板库中的所有句式模板，可确定其具有句式模板“因为……，所以”，并可根据该句式模板对应的韵律停顿信息确定，该文本内容中“所以”之前应当为长停顿。

在本发明的实施例中，基于机器学习方法获取待预测的文本内容对应的停顿预测结果是指通过机器学习方法根据预先训练的预测模型对待预测的文本内容进行预测，获取该文本内容对应的停顿预测结果，其中，停顿预测结果可包括停顿位置，停顿类型(可包括长停顿、短停顿等)以及与停顿类型相对应的概率值。举例来说，可通过CRF(ConditionalRandomFields，条件随机场)算法对待预测的文本内容进行韵律停顿预测。

S102，根据韵律停顿信息对停顿预测结果进行修正。

在本发明的一个实施例中，停顿预测结果可包括停顿位置和与停顿位置对应的停顿类型和概率，即停顿预测结果中在文本内容中标注了具体需要停顿的位置，且每个位置具有相应的停顿类型(可包括长停顿和短停顿等)，以及为长停顿的概率或者短停顿的概率。

根据韵律停顿信息对停顿预测结果进行修正具体包括：根据韵律停顿信息确定文本内容中的长停顿的位置；判断在停顿预测结果中长停顿的位置对应的停顿类型是否为短停顿；如果是，则将停顿预测结果中长停顿的位置的停顿类型修改为长停顿，并将相应的概率设置为预设概率值。该预设概率阈值可为1.0。

如果根据韵律停顿信息确定文本内容中的长停顿的位置在停顿预测结果中没有被标注为停顿，则可忽略该韵律停顿信息，仍以停顿预测结果为准。如果根据韵律停顿信息确定文本内容中的长停顿的位置在停顿预测结果中也被标注为长停顿，则表明两种预测结果一致，无须修正。

S103，根据修正后的停顿预测结果对文本内容进行韵律停顿预测。

在本发明的实施例中，可基于最优路径搜索算法根据修正后的停顿预测结果和预设的长度约束矩阵对文本内容进行韵律停顿预测。

其中，长度约束矩阵为根据语料训练得到的、反映每隔多少数量的字需要停顿的一个约束矩阵。

具体地，可根据修正后的停顿位置、长停顿概率、短停顿概率结合长度约束矩阵，通过最后路径搜索算法得到最终韵律特征预测结果。

举例来说，对于上述“文本内容“因为你笑了，所以我也笑了”，预测结果为“因为你笑了(长停顿)所以我也笑了”。

由于，上述句式模板库为预先建立的，因此，在本发明的另一个实施例中，该韵律停顿预测方法还可包括：建立句式模板库的过程，即该韵律停顿预测方法还可包括：对句式结构知识进行学习以建立句式模板库的步骤，其中，句式模板库包括多个句式模板，每个句式模板分别具有对应的韵律停顿信息。以便于后续进行句式模板匹配。由此，能够有效利用现有的句式的研究成果，并充分发掘其中的韵律信息，而这些韵律停顿信息通常是正确的、可靠的，因此，由此建立的句式模板在后续进行韵律停顿预测时，能够提高了韵律预测结果的可靠性和准确性，提升户体验。

具体地，以汉语为例，可根据汉语句式的相关研究，总结出尽量概括、完整、正确的韵律句式；根据正则表达式原理，将韵律句式写成计算机能够匹配的正则表达式；根据正则匹配的处理结果，获得由于句式模板产生的停顿信息。在其他语言中可参照汉语句式模板库的建立过程。

基于上述过程，本发明实施例的韵律停顿预测方法中预测过程的架构图可如图3所示，首先，基于句式研究，总结尽量完整、正确的句式信息，然后根据正则表达式原理，将句式信息表示为正则表达式，得到让程序去匹配运行的句式模版。获取文本内容匹配到的句式模版中的韵律停顿信息，并将韵律停顿信息存储在当前文本的相应结构中，以便后面运用，并对文本内容基于机器学习的停顿预测。然后，将基于机器学习的停顿预测结果和基于句式的韵律挺停顿信息相结合，并根据相应算法获取最终的韵律预测结果。具有以下优点：

(1)有效利用现有的句式的知识，并充分发掘其中的韵律信息，而这些韵律停顿信息通常是正确的，可靠的，所以基于这种韵律停顿信息的修正也是可靠的；

(2)句式模板的中的韵律信息跟语料标注相比，获取简单，而且是对语料信息的一个有效的补充；

(3)句式模版的运用是独立于机器学习的韵律预测过程，是在基于机器学习的韵律预测基础上的一种正面的修正，所以不会影响模型的预测过程，只会对符合句式模版的文本产生正面的停顿；

(4)基于句式模板的停顿合成出来的语音更易于理解。如果不考虑句式结构，那么韵律停顿在句子的关键句式节点上容易出错，会使得句子难以理解，用户感受会更差，而通过句式结构的停顿信息对机器学习的预测结果进行补充和修正，提高了韵律预测结果的可靠性和准确性，提升用户体验。

为了实现上述实施例，本发明还提出一种韵律停顿预测装置。

一种韵律停顿预测装置，包括：获取模块，用于基于机器学习方法获取待预测的文本内容对应的停顿预测结果；匹配模块，用于根据预设的句式模板库对文本内容进行句式匹配，以确定文本内容对应的韵律停顿信息；修正模块，用于根据韵律停顿信息对停顿预测结果进行修正；预测模块，用于根据修正后的停顿预测结果对文本内容进行韵律停顿预测。

图4为根据本发明一个实施例的韵律停顿预测装置的结构示意图。

如图4所示，根据本发明实施例的韵律停顿预测装置，包括：获取模块10、匹配模块20、修正模块30和预测模块40。

具体地，获取模块10用于基于机器学习方法获取待预测的文本内容对应的停顿预测结果。

在本发明的实施例中，获取模块10基于机器学习方法获取待预测的文本内容对应的停顿预测结果是指通过机器学习方法根据预先训练的预测模型对待预测的文本内容进行预测，获取该文本内容对应的停顿预测结果，其中，停顿预测结果可包括停顿位置，停顿类型(可包括长停顿、短停顿等)以及与停顿类型相对应的概率值。举例来说，获取模块10可通过CRF(ConditionalRandomFields，条件随机场)算法对待预测的文本内容进行韵律停顿预测。

匹配模块20用于根据预设的句式模板库对文本内容进行句式匹配，以确定文本内容对应的韵律停顿信息。

在本发明的一个实施例中，匹配模块20可具体包括：在句式模板库中查找文本内容对应的句式模板；根据文本内容对应的句式模板确定文本内容对应的韵律停顿信息。

修正模块30用于根据韵律停顿信息对停顿预测结果进行修正。

在本发明的一个实施例中，停顿预测结果可包括停顿位置和与停顿位置对应的停顿类型和概率，即停顿预测结果中在文本内容中标注了具体需要停顿的位置，且每个位置具有相应的停顿类型(可包括长停顿和短停顿等)，以及为长停顿的概率或者短停顿的概率。修正模块30具体用于：根据韵律停顿信息确定文本内容中的长停顿的位置；判断在停顿预测结果中长停顿的位置对应的停顿类型是否为短停顿；如果是，则将停顿预测结果中长停顿的位置的停顿类型修改为长停顿，并将相应的概率设置为预设概率值。该预设概率阈值可为1.0。

预测模块40用于根据修正后的停顿预测结果对文本内容进行韵律停顿预测。

在本发明的实施例中，预测模块可具体用于：基于最优路径搜索算法根据修正后的停顿预测结果和预设的长度约束矩阵对文本内容进行韵律停顿预测。

具体地，预测模块40可根据修正后的停顿位置、长停顿概率、短停顿概率结合长度约束矩阵，通过最后路径搜索算法得到最终韵律特征预测结果。

如图5所示，根据本发明实施例的韵律停顿预测装置，包括：获取模块10、匹配模块20、修正模块30、预测模块40和建立模块50。

具体地，建立模块50用于对句式结构知识进行学习以建立句式模板库，其中，句式模板库包括多个句式模板，每个句式模板分别具有对应的韵律停顿信息。

由此，能够有效利用现有的句式的研究成果，并充分发掘其中的韵律信息，而这些韵律停顿信息通常是正确的、可靠的，因此，由此建立的句式模板在后续进行韵律停顿预测时，能够提高了韵律预测结果的可靠性和准确性，提升户体验。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种韵律停顿预测方法，其特征在于，包括以下步骤：

基于机器学习方法获取待预测的文本内容对应的停顿预测结果，并根据预设的句式模板库对所述文本内容进行句式匹配，以确定所述文本内容对应的韵律停顿信息；

根据所述韵律停顿信息对所述停顿预测结果进行修正；

根据修正后的停顿预测结果对所述文本内容进行韵律停顿预测。

2.如权利要求1所述的韵律停顿预测方法，其特征在于，还包括：

对句式结构知识进行学习以建立所述句式模板库，其中，所述句式模板库包括多个句式模板，每个句式模板分别具有对应的韵律停顿信息。

3.如权利要求1所述的韵律停顿预测方法，其特征在于，所述根据预设的句式模板库对所述文本内容进行句式匹配，以确定所述文本内容对应的韵律停顿信息，具体包括：

在所述句式模板库中查找所述文本内容对应的句式模板；

根据所述文本内容对应的句式模板确定所述文本内容对应的韵律停顿信息。

4.如权利要求1所述的韵律停顿预测方法，其特征在于，所述停顿预测结果包括停顿位置和与所述停顿位置对应的停顿类型和概率，所述根据所述韵律停顿信息对所述停顿预测结果进行修正具体包括：

根据所述韵律停顿信息确定所述文本内容中的长停顿的位置；

判断在所述停顿预测结果中所述长停顿的位置对应的停顿类型是否为短停顿；

如果是，则将所述停顿预测结果中所述长停顿的位置的停顿类型修改为长停顿，并将相应的概率设置为预设概率值。

5.如权利要求1所述的韵律停顿预测方法，其特征在于，所述根据修正后的停顿预测结果对所述文本内容进行韵律停顿预测具体包括：

基于最优路径搜索算法根据修正后的停顿预测结果和预设的长度约束矩阵对所述文本内容进行韵律停顿预测。

6.一种韵律停顿预测装置，其特征在于，包括：

获取模块，用于基于机器学习方法获取待预测的文本内容对应的停顿预测结果；

匹配模块，用于根据预设的句式模板库对所述文本内容进行句式匹配，以确定所述文本内容对应的韵律停顿信息；

修正模块，用于根据所述韵律停顿信息对所述停顿预测结果进行修正；

预测模块，用于根据修正后的停顿预测结果对所述文本内容进行韵律停顿预测。

7.如权利要求6所述的韵律停顿预测装置，其特征在于，还包括：

建立模块，用于对句式结构知识进行学习以建立所述句式模板库，其中，所述句式模板库包括多个句式模板，每个句式模板分别具有对应的韵律停顿信息。

8.如权利要求6所述的韵律停顿预测装置，其特征在于，所述匹配模块具体用于：

在所述句式模板库中查找所述文本内容对应的句式模板；

9.如权利要求6所述的韵律停顿预测装置，其特征在于，所述停顿预测结果包括停顿位置和与所述停顿位置对应的停顿类型和概率，所述修正模块具体：

10.如权利要求6所述的韵律停顿预测装置，其特征在于，所述预测模块具体用于：