CN105225658A

CN105225658A - 韵律停顿信息的确定方法和装置

Info

Publication number: CN105225658A
Application number: CN201510689302.9A
Authority: CN
Inventors: 康永国
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-10-21
Filing date: 2015-10-21
Publication date: 2016-01-06
Anticipated expiration: 2035-10-21
Also published as: CN105225658B

Abstract

本发明提出一种韵律停顿信息的确定方法和装置，该韵律停顿信息的确定方法包括：提取待合成文本的韵律预测特征；根据所用的发音人选择所述发音人对应的自适应韵律预测模型；将所述待合成文本的韵律预测特征输入到所述发音人对应的自适应韵律预测模型中，以确定所述待合成文本的韵律停顿信息。本发明解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。

Description

韵律停顿信息的确定方法和装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种韵律停顿信息的确定方法和装置。

背景技术

语音合成的目的是将文本转换为语音播放给用户，目标是达到真人文本播报的效果。在语音合成环节中一个重要模块是预测待合成文本的韵律停顿，然后根据预测得到的韵律停顿去生成合成语音。

目前语音合成中的韵律预测是基于统计机器学习的方法实现的，其流程包括准备训练数据、训练韵律预测模型和基于训练好的模型进行韵律预测。

但是，现有技术中，韵律预测模型中训练的韵律停顿模式和声学模型训练中的韵律停顿模式是不匹配的。其原因是韵律停顿的训练数据是标注人根据文本标注获得的，而且一般是多个标注人共同标注的结果，因此训练的韵律停顿模型表征的是这些标注人的平均韵律停顿模式；而声学模型训练中输入特征的韵律停顿是根据发音人录音标注来的，即反映的是发音人个人的韵律停顿模式。

另外一个问题是现在的语音合成系统均支持多个发音人，比如男声、女声和童声等，但是目前的解决方案不同发音人对相同文本的韵律停顿是同一个，这也不符合真人发音的特点。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种韵律停顿信息的确定方法。该方法解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。

本发明的第二个目的在于提出一种韵律停顿信息的确定装置。

为了实现上述目的，本发明第一方面实施例的韵律停顿信息的确定方法，包括：提取待合成文本的韵律预测特征；根据所用的发音人选择所述发音人对应的自适应韵律预测模型；将所述待合成文本的韵律预测特征输入到所述发音人对应的自适应韵律预测模型中，以确定所述待合成文本的韵律停顿信息。

本发明实施例的韵律停顿信息的确定方法中，提取待合成文本的韵律预测特征之后，根据所用的发音人选择上述发音人对应的韵律预测模型，然后将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。

为了实现上述目的，本发明第二方面实施例的韵律停顿信息的确定装置，包括：提取模块，用于提取待合成文本的韵律预测特征；选择模块，用于根据所用的发音人选择所述发音人对应的自适应韵律预测模型；确定模块，用于将所述提取模块提取的待合成文本的韵律预测特征输入到所述选择模块选择的所述发音人对应的自适应韵律预测模型中，以确定所述待合成文本的韵律停顿信息。

本发明实施例的韵律停顿信息的确定装置中，提取模块提取待合成文本的韵律预测特征之后，选择模块根据所用的发音人选择上述发音人对应的韵律预测模型，然后确定模块将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明韵律停顿信息的确定方法一个实施例的流程图；

图2为本发明韵律停顿信息的确定方法另一个实施例的流程图；

图3为本发明韵律停顿信息的确定方法再一个实施例的流程图；

图4为本发明韵律停顿信息的确定方法再一个实施例的流程图；

图5为本发明韵律停顿信息的确定方法的实现示意图；

图6为本发明韵律停顿信息的确定装置一个实施例的结构示意图；

图7为本发明韵律停顿信息的确定装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明韵律停顿信息的确定方法一个实施例的流程图，如图1所示，该韵律停顿信息的确定方法可以包括：

步骤101，提取待合成文本的韵律预测特征。

具体地，提取待合成文本的韵律预测特征可以为：对上述待合成文本进行分词和词性标注等操作，以提取上述待合成文本的韵律预测特征。

步骤102，根据所用的发音人选择上述发音人对应的自适应韵律预测模型。

步骤103，将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定上述待合成文本的韵律停顿信息。

上述韵律停顿信息的确定方法中，提取待合成文本的韵律预测特征之后，根据所用的发音人选择上述发音人对应的自适应韵律预测模型，然后将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。

图2为本发明韵律停顿信息的确定方法另一个实施例的流程图，如图2所示，步骤102之前，还可以包括：

步骤201，训练韵律预测的基础模型。

步骤202，通过上述基础模型对发音人的韵律停顿信息进行自适应，获得上述发音人对应的自适应韵律预测模型。

其中，步骤201～步骤202可以与步骤101并行执行，也可以先后执行，本实施例对步骤201～步骤202与步骤101的执行顺序不作限定，图2中以步骤201～步骤202在步骤101之前执行为例示出。

图3为本发明韵律停顿信息的确定方法再一个实施例的流程图，如图3所示，步骤201可以包括：

步骤301，获得韵律预测的标注文本。

步骤302，提取上述标注文本的韵律预测特征，以及标注上述标注文本的韵律停顿信息。

具体地，可以对标注文本进行分词和词性标注等操作，以提取上述标注文本的韵律预测特征。

步骤303，通过机器学习工具建立上述标注文本的韵律预测特征与韵律停顿信息之间的映射关系，获得上述韵律预测的基础模型。

具体地，可以选择机器学习工具在上述标注文本的韵律预测特征与韵律停顿信息之间建模，以描述这两者之间的映射关系，最终训练得到韵律预测的基础模型。

此处为了后面的自适应操作，对于机器学习工具推荐使用深度神经网络模型，但本实施例并不仅限于此，也可以使用其他的机器学习工具，本实施例对此不作限定。

图4为本发明韵律停顿信息的确定方法再一个实施例的流程图，如图4所示，步骤202可以包括：

步骤401，获得发音人的录音文本。

其中，上述发音人的录音文本的数量相对于训练基础模型时的标注文本的数量来说要小得多。

步骤402，提取上述录音文本的韵律预测特征，以及根据上述发音人朗读的节奏标注上述录音文本的韵律停顿信息。

具体地，可以对上述录音文本进行分词和词性标注等操作，以提取上述录音文本的韵律预测特征。

步骤403，根据上述录音文本的韵律预测特征，通过上述基础模型对上述录音文本的韵律停顿信息进行自适应，获得上述发音人对应的自适应韵律预测模型。

需要说明的是，如果语音合成系统存在多个发音人，对于每个发音人均可按照上述流程训练各自的自适应韵律预测模型。

本发明图1～图4所示实施例提供的韵律停顿信息的确定方法的实现示意图可以如图5所示，图5为本发明韵律停顿信息的确定方法的实现示意图。

上述韵律停顿信息的确定方法解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合合成效果更加自然。

图6为本发明韵律停顿信息的确定装置一个实施例的结构示意图，本实施例中的韵律停顿信息的确定装置可以实现本发明提供的韵律停顿信息的确定方法的流程，如图6所示，上述韵律停顿信息的确定装置可以包括：提取模块61、选择模块62和确定模块63；

其中，提取模块61，用于提取待合成文本的韵律预测特征；具体地，提取模块61，具体用于对上述待合成文本进行分词和词性标注等操作，以提取上述待合成文本的韵律预测特征。

选择模块62，用于根据所用的发音人选择上述发音人对应的自适应韵律预测模型；

确定模块63，用于将提取模块61提取的待合成文本的韵律预测特征输入到选择模块62选择的上述发音人对应的自适应韵律预测模型中，以确定上述待合成文本的韵律停顿信息。

上述韵律停顿信息的确定装置中，提取模块61提取待合成文本的韵律预测特征之后，选择模块62根据所用的发音人选择上述发音人对应的自适应韵律预测模型，然后确定模块63将上述待合成文本的韵律预测特征输入到上述发音人对应的自适应韵律预测模型中，以确定待合成文本的韵律停顿信息，从而可以解决声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏，提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合的合成效果更加自然。

图7为本发明韵律停顿信息的确定装置另一个实施例的结构示意图，与图6所示的韵律停顿信息的确定装置相比，不同之处在于，图7所示的韵律停顿信息的确定装置还可以包括：

训练模块64，用于在选择模块62选择上述发音人对应的自适应韵律预测模型之前，训练韵律预测的基础模型；

获得模块65，用于通过训练模块64训练的基础模型对发音人的韵律停顿信息进行自适应，获得上述发音人对应的自适应韵律预测模型。

本实施例中，训练模块64可以包括：

第一获得子模块641，用于获得韵律预测的标注文本。

第一提取子模块642，用于提取第一获得子模块641获得的标注文本的韵律预测特征；具体地，第一提取子模块642可以对标注文本进行分词和词性标注等操作，以提取上述标注文本的韵律预测特征。

第一标注子模块643，用于标注第一获得子模块641获得的标注文本的韵律停顿信息。

第一模型获得子模块644，用于通过机器学习工具建立第一提取子模块642提取的标注文本的韵律预测特征与第一标注子模块643标注的韵律停顿信息之间的映射关系，获得上述韵律预测的基础模型。具体地，第一模型获得子模块644可以选择机器学习工具在上述标注文本的韵律预测特征与韵律停顿信息之间建模，以描述这两者之间的映射关系，最终训练得到韵律预测的基础模型。

本实施例中，获得模块65可以包括：

第二获得子模块651，用于获得发音人的录音文本；其中，上述发音人的录音文本的数量相对于训练基础模型时的标注文本的数量来说要小得多。

第二提取子模块652，用于提取第二获得子模块651获得的录音文本的韵律预测特征；具体地，第二提取子模块652可以对上述录音文本进行分词和词性标注等操作，以提取上述录音文本的韵律预测特征。

第二标注子模块653，用于根据上述发音人朗读的节奏标注第二获得子模块651获得的录音文本的韵律停顿信息。

第二模型获得子模块654，用于根据第二提取子模块652提取的录音文本的韵律预测特征，通过上述基础模型对第二标注子模块653标注的录音文本的韵律停顿信息进行自适应，获得上述发音人对应的自适应韵律预测模型。

上述韵律停顿信息的确定装置解决了声学模型和韵律模型两者所用韵律训练数据不一致的问题，改善了韵律节奏提升了合成流畅度，并且使用发音人各自的自适应韵律预测模型，使得多发音人切换的场合合成效果更加自然。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(ProgrammableGateArray；以下简称：PGA)，现场可编程门阵列(FieldProgrammableGateArray；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种韵律停顿信息的确定方法，其特征在于，包括：

提取待合成文本的韵律预测特征；

根据所用的发音人选择所述发音人对应的自适应韵律预测模型；

将所述待合成文本的韵律预测特征输入到所述发音人对应的自适应韵律预测模型中，以确定所述待合成文本的韵律停顿信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所用的发音人选择所述发音人对应的自适应韵律预测模型之前，还包括：

训练韵律预测的基础模型；

通过所述基础模型对发音人的韵律停顿信息进行自适应，获得所述发音人对应的自适应韵律预测模型。

3.根据权利要求2所述的方法，其特征在于，所述训练韵律预测的基础模型包括：

获得韵律预测的标注文本；

提取所述标注文本的韵律预测特征，以及标注所述标注文本的韵律停顿信息；

通过机器学习工具建立所述标注文本的韵律预测特征与韵律停顿信息之间的映射关系，获得所述韵律预测的基础模型。

4.根据权利要求2所述的方法，其特征在于，所述通过所述基础模型对发音人的韵律停顿信息进行自适应，获得所述发音人对应的自适应韵律预测模型包括：

获得发音人的录音文本；

提取所述录音文本的韵律预测特征，以及根据所述发音人朗读的节奏标注所述录音文本的韵律停顿信息；

根据所述录音文本的韵律预测特征，通过所述基础模型对所述录音文本的韵律停顿信息进行自适应，获得所述发音人对应的自适应韵律预测模型。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述提取待合成文本的韵律预测特征包括：

对所述待合成文本进行分词和词性标注，以提取所述待合成文本的韵律预测特征。

6.一种韵律停顿信息的确定装置，其特征在于，包括：

提取模块，用于提取待合成文本的韵律预测特征；

选择模块，用于根据所用的发音人选择所述发音人对应的自适应韵律预测模型；

确定模块，用于将所述提取模块提取的待合成文本的韵律预测特征输入到所述选择模块选择的所述发音人对应的自适应韵律预测模型中，以确定所述待合成文本的韵律停顿信息。

7.根据权利要求6所述的装置，其特征在于，还包括：

训练模块，用于在所述选择模块选择所述发音人对应的自适应韵律预测模型之前，训练韵律预测的基础模型；

获得模块，用于通过所述训练模块训练的基础模型对发音人的韵律停顿信息进行自适应，获得所述发音人对应的自适应韵律预测模型。

8.根据权利要求7所述的装置，其特征在于，所述训练模块包括：

第一获得子模块，用于获得韵律预测的标注文本；

第一提取子模块，用于提取所述第一获得子模块获得的标注文本的韵律预测特征；

第一标注子模块，用于标注所述第一获得子模块获得的标注文本的韵律停顿信息；

第一模型获得子模块，用于通过机器学习工具建立所述第一提取子模块提取的标注文本的韵律预测特征与所述第一标注子模块标注的韵律停顿信息之间的映射关系，获得所述韵律预测的基础模型。

9.根据权利要求7所述的装置，其特征在于，所述获得模块包括：

第二获得子模块，用于获得发音人的录音文本；

第二提取子模块，用于提取所述第二获得子模块获得的录音文本的韵律预测特征；

第二标注子模块，用于根据所述发音人朗读的节奏标注所述第二获得子模块获得的录音文本的韵律停顿信息；

第二模型获得子模块，用于根据所述第二提取子模块提取的录音文本的韵律预测特征，通过所述基础模型对所述第二标注子模块标注的录音文本的韵律停顿信息进行自适应，获得所述发音人对应的自适应韵律预测模型。

10.根据权利要求6-9任意一项所述的装置，其特征在于，

所述提取模块，具体用于对所述待合成文本进行分词和词性标注，以提取所述待合成文本的韵律预测特征。