CN104867490B

CN104867490B - 韵律结构预测方法和装置

Info

Publication number: CN104867490B
Application number: CN201510324535.9A
Authority: CN
Inventors: 陈志杰; 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2017-03-22
Anticipated expiration: 2035-06-12
Also published as: CN104867490A

Abstract

本发明提出一种韵律结构预测方法和装置，该韵律结构预测方法包括：对无标注数据进行学习获得词语的词向量；对所述词语的词向量进行聚类，获得所述词向量的聚类特征；将所述词向量的聚类特征加入从标注数据提取的特征集合中；对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型；通过所述韵律结构预测模型进行韵律结构预测。本发明在训练获得韵律结构预测模型时，引入了词向量的聚类特征，提升了韵律结构预测模型的性能，进而可以提升语音合成的效果。

Description

韵律结构预测方法和装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种韵律结构预测方法和装置。

背景技术

韵律结构预测技术是语音合成技术的核心，韵律结构预测的准确与否，直接影响到语音合成系统后端的声学建模部分，由此可见，韵律结构预测在语音合成系统中的重要地位。

现有的韵律结构预测模型主要是利用监督学习的方法来训练得到的，为了使得韵律结构预测模型达到较好的性能，往往需要大量人工标注的训练数据。由于韵律结构预测问题属于自然语言处理(Natural Language Processing；以下简称：NLP)中的结构化预测问题，而结构化预测问题的训练数据又很难获得，并且还存在标注一致性的问题，因此，基于监督学习方法的韵律结构预测模型的性能往往受制于训练数据的数量以及质量，这主要体现在训练数据的稀疏性和歧义性这两个方面，经常导致基于监督学习方法的韵律结构预测模型无法正确预测出句子或句子中的词语的韵律结构。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种韵律结构预测方法。该方法在训练获得韵律结构预测模型时，引入了词向量的聚类特征，提升了韵律结构预测模型的性能，进而可以提升语音合成的效果。

本发明的第二个目的在于提出一种韵律结构预测装置。

为了实现上述目的，本发明第一方面实施例的韵律结构预测方法，包括：对无标注数据进行学习获得词语的词向量；对所述词语的词向量进行聚类，获得所述词向量的聚类特征；将所述聚类特征加入从标注数据提取的特征集合中；对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型；通过所述韵律结构预测模型进行韵律结构预测。

本发明实施例的韵律结构预测方法，对无标注数据进行学习获得词语的词向量，然后对上述词语的词向量进行聚类，获得上述词向量的聚类特征，再将上述词向量的聚类特征加入从标注数据提取的特征集合中，最后对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型，从而在训练获得韵律结构预测模型时，引入了词向量的聚类特征，提升了韵律结构预测模型的性能，然后通过上述韵律结构预测模型进行韵律结构预测，进而可以提升语音合成的效果。

为了实现上述目的，本发明第二方面实施例的韵律结构预测装置，包括：学习模块，用于对无标注数据进行学习获得词语的词向量；聚类模块，用于对所述学习模块获得的所述词语的词向量进行聚类，获得所述词向量的聚类特征；添加模块，用于将所述聚类模块获得的所述词向量的聚类特征加入从标注数据提取的特征集合中；训练模块，用于对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型；预测模块，用于通过所述训练模块获得的韵律结构预测模型进行韵律结构预测。

本发明实施例的韵律结构预测装置中，学习模块对无标注数据进行学习获得词语的词向量，然后聚类模块对上述词语的词向量进行聚类，获得上述词向量的聚类特征，再由添加模块将上述词向量的聚类特征加入从标注数据提取的特征集合中，最后训练模块对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型，从而在训练获得韵律结构预测模型时，引入了词向量的聚类特征，提升了韵律结构预测模型的性能，然后预测模块通过上述韵律结构预测模型进行韵律结构预测，进而可以提升语音合成的效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明韵律结构预测方法一个实施例的流程图；

图2为本发明韵律结构预测方法中韵律结构预测模型的架构一个实施例的示意图；

图3为本发明韵律结构预测方法中进行了聚类特征提取后的训练语料的示意图；

图4为本发明采用改进后的韵律结构预测模型的语音合成系统一个实施例的示意图；

图5为本发明韵律结构预测装置一个实施例的结构示意图；

图6为本发明韵律结构预测装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明韵律结构预测方法一个实施例的流程图，如图1所示，该韵律结构预测方法可以包括：

步骤101，对无标注数据进行学习获得词语的词向量。

具体地，对无标注数据进行学习获得词语的词向量可以为：通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。

步骤102，对上述词语的词向量进行聚类，获得上述词向量的聚类特征。

具体地，对上述词语的词向量进行聚类，获得上述词向量的聚类特征可以为：对上述词语的词向量进行聚类，获得聚类后的每个类别的类中心向量；计算给定的词语的词向量与所有类中心向量的余弦相似度；判断上述余弦相似度中最大的余弦相似度是否大于预先设置的阈值；如果是，则确定上述给定的词语的词向量的聚类特征为上述最大的余弦相似度所对应的类别符号。

而如果上述余弦相似度中最大的余弦相似度小于或等于预先设置的阈值，则可以确定上述给定的词语的词向量的聚类特征为“-1”。

步骤103，将上述词向量的聚类特征加入从标注数据提取的特征集合中。

步骤104，对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。

具体地，对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型可以为：通过监督学习的方式对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。

步骤105，通过上述韵律结构预测模型进行韵律结构预测。

上述韵律结构预测方法中，对无标注数据进行学习获得词语的词向量，然后对上述词语的词向量进行聚类，获得上述词向量的聚类特征，再将上述词向量的聚类特征加入从标注数据提取的特征集合中，最后对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型，从而在训练获得韵律结构预测模型时，引入了词向量的聚类特征，提升了韵律结构预测模型的性能，然后通过上述韵律结构预测模型进行韵律结构预测，进而可以提升语音合成的效果。

本发明图1所示实施例提供的韵律结构预测方法实质上是基于半监督学习方法的韵律结构预测技术。该方法首先通过类神经网络语言模型以无监督学习的方式对海量无标注数据进行学习获得词语的词向量，进而对上述词语的词向量进行聚类，获得上述词向量的聚类特征，然后将聚类特征作为新增特征加入到特征集合中，最后再通过监督学习的方式对加入上述词向量的聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。由于本发明采用的是无监督学习方法和监督学习方法的结合技术，因此本发明也可以称为基于半监督学习方法的韵律结构预测技术。图2为本发明韵律结构预测方法中韵律结构预测模型的架构一个实施例的示意图。从图2中可以看出，本发明提供的韵律结构预测方法区别于现有的韵律结构预测技术的主要创新点是引入了基于海量无标注数据的聚类特征。聚类特征的生成是利用聚类算法对词向量作聚类而得到的。由于基于词向量的聚类特征利用了海量无标注数据所蕴含的丰富的语法和语义信息，因此，基于聚类特征的韵律结构预测模型可以在很大程度上解决训练数据的稀疏性的问题，并且可以在一定程度上解决训练数据的歧义性的问题。

在解决训练数据的稀疏性的方面，如果在训练数据集中出现了句子：“今天中午我们吃中餐”，而在测试数据集中出现了句子：“明天晚上他们吃西餐”，根据本发明所提出的韵律结构预测方法的原理，那么“今天”和“明天”，“中午”和“晚上”，“我们”和“他们”，“中餐”和“西餐”分别具有相同的聚类特征，因此这两个句子可以被本发明提出的韵律结构预测模型认为是同一个句子，从而韵律结构预测模型可以根据在训练时学到的句子“今天中午我们吃中餐”的韵律结构信息来预测句子“明天晚上他们吃西餐”的韵律结构信息。

在解决训练数据的歧义性的方面，对于句子：“他喜欢使用苹果手机”。这句话中的词语“苹果”是一个多义词，如果不结合上下文信息，很容易产生歧义。本发明所提出的韵律结构预测方法，结合词语“苹果”的上一个词语“使用”的聚类特征和下一个词语“手机”的聚类特征，从而可以正确地识别出这个句子中“苹果”的含义是指一个手机品牌，而不是一种水果，从而可以准确地预测出“苹果”在这个例句中的韵律结构信息。

基于聚类特征的韵律结构预测模型主要有两个实现要点：第一个要点是词向量的获取；第二个要点是聚类特征的提取算法。

1、词向量的获取。

词向量的获取除了需要用到海量的无标注数据之外，还需要一个训练词向量的模型。本发明采用的是连续词袋模型(Continuous Bag of Words Model；以下简称：CBOW)，该模型类似于前馈神经网络语言模型，只不过去掉了复杂耗时的隐层，从而使得模型的训练速度更快。

通过CBOW模型，能够得到词语的词向量，这里的词向量是一种低维实值向量，采用分布式表示(distributed representation)，词向量的具体维数可以在训练之前预先给定，比如100，150，200等等。训练出的词向量可以用以下公式表示：

我们＝(2.117308,0.617478,...,-0.512415)

上式以词语“我们”为例子，展示了训练出的词向量的具体形式。这里的词向量为200维的向量，式中用省略号表示剩余的未被列出的实数值。

2、聚类特征的提取算法。

具体地，获得聚类特征时，首先需要对词语的词向量进行聚类，接着求出聚类后的每个类别的类中心向量，以此来代表每个类别的中心。对于给定的一个词语，算法首先快速查出该词语的词向量，然后将该词语的词向量与所有类中心向量的余弦相似度，最后判断上述余弦相似度中最大的余弦相似度是否大于预先设置的阈值，如果是，则确定上述给定的词语的词向量的聚类特征为最大的余弦相似度所对应的类别标号，反之上述给定的词语的词向量的聚类特征为“-1”。

图3为本发明韵律结构预测方法中进行了聚类特征提取后的训练语料的示意图，图3中第5列即为句子中每个词语的聚类特征。对于解决歧义性的问题，这里以图3为例来具体说明一下。

如果词语“大巴”具有多种含义，那么“大巴”在下面这个句子中的含义可以通过它前后一个词语的聚类特征的组合来确定，即“旅游”的聚类特征“634”以及“车”的聚类特征“81”，通过对这两个聚类特征进行组合(634/81)，从而可以得到词语“大巴”在这个句子中的含义。

在训练得到基于聚类特征的韵律结构预测模型之后，可以利用该模型进行韵律结构预测，并可以将该模型集成到语音合成系统中，从而提升语音合成系统的性能。图4为本发明采用改进后的韵律结构预测模型的语音合成系统一个实施例的示意图。

本发明提出了一种不完全依赖于标注数据的韵律结构预测方法，该方法的优点如下：

1、在很大程度上解决了训练数据的稀疏性的问题。现有的语音合成系统的韵律结构预测模型由于强烈依赖于训练数据集的数量和质量，因此在遇到没有在训练数据集中出现过的但是与训练数据集中的某个句子相似的句子时，现有的韵律结构预测模型很难准确预测出该句子的韵律结构信息。而本发明所提出的方法由于引入了基于海量的无标注数据的词向量聚类特征，因此可以判断出句子的相似性，从而能够很好地解决现有技术无法解决的数据稀疏性的问题，进而提升了语音合成系统的性能。

2、在一定程度上解决了训练数据的歧义性的问题。对于一个多义词，歧义的情况是不可避免的，多义词在不同句子中往往具有不同的含义，因此对应的韵律结构信息也是不同的。本发明所提出的方法将多义词在句子中的上下文词语的聚类特征组合起来，从而得到当前多义词的确切含义，从而解决了歧义性的问题，而这又会在一定程度上提升语音合成系统的性能。

图5为本发明韵律结构预测装置一个实施例的结构示意图，本实施例中的韵律结构预测装置可以实现本发明图1所示实施例的流程，如图5所示，该韵律结构预测装置可以包括：学习模块51、聚类模块52、添加模块53、训练模块54和预测模块55；

其中，学习模块51，用于对无标注数据进行学习获得词语的词向量；其中，学习模块51，具体用于通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。

聚类模块52，用于对学习模块51获得的词语的词向量进行聚类，获得上述词向量的聚类特征；

添加模块53，用于将聚类模块52获得的上述词向量的聚类特征加入从标注数据提取的特征集合中；

训练模块54，用于对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型；其中，训练模块54，具体用于通过监督学习的方式对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。

预测模块55，用于通过训练模块54获得的韵律结构预测模型进行韵律结构预测。

上述韵律结构预测装置中，学习模块51对无标注数据进行学习获得词语的词向量，然后聚类模块52对上述词语的词向量进行聚类，获得上述词向量的聚类特征，再由添加模块53将上述词向量的聚类特征加入从标注数据提取的特征集合中，最后训练模块54对加入上述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型，从而在训练获得韵律结构预测模型时，引入了词向量的聚类特征，提升了韵律结构预测模型的性能，然后预测模块55通过上述韵律结构预测模型进行韵律结构预测，进而可以提升语音合成的效果。

图6为本发明韵律结构预测装置另一个实施例的结构示意图，与图5所示的韵律结构预测装置相比，不同之处在于，图6所示的韵律结构预测装置中，聚类模块52可以包括：词向量聚类子模块521、获得子模块522、计算子模块523、判断子模块524和特征确定子模块525；

其中，词向量聚类子模块521，用于对上述词语的词向量进行聚类；

获得子模块522，用于获得词向量聚类子模块521聚类后的每个类别的类中心向量；

计算子模块523，用于计算给定的词语的词向量与获得子模块522获得的所有类中心向量的余弦相似度；

判断子模块524，用于判断计算子模块523获得的余弦相似度中最大的余弦相似度是否大于预先设置的阈值；

特征确定子模块525，用于当判断子模块524确定上述最大的余弦相似度大于预先设置的阈值时，确定上述给定的词语的词向量的聚类特征为最大的余弦相似度所对应的类别符号。

而如果上述余弦相似度中最大的余弦相似度小于或等于预先设置的阈值，则特征确定子模块525可以确定上述给定的词语的词向量的聚类特征为“-1”。

其中，上述预先设置的阈值的大小可以在具体实现时自行设定，本实施例对上述预先设置的阈值的大小不作限定。

上述韵律结构预测装置在训练获得韵律结构预测模型时，引入了词向量的聚类特征，提升了韵律结构预测模型的性能，然后预测模块55通过上述韵律结构预测模型进行韵律结构预测，可以提升语音合成的效果。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种韵律结构预测方法，其特征在于，包括：

对无标注数据进行学习获得词语的词向量；

对所述词语的词向量进行聚类，获得所述词向量的聚类特征；

将所述词向量的聚类特征加入从标注数据提取的特征集合中；

对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型；

通过所述韵律结构预测模型进行韵律结构预测。

2.根据权利要求1所述的方法，其特征在于，所述对无标注数据进行学习获得词语的词向量包括：

通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。

3.根据权利要求1所述的方法，其特征在于，所述对所述词语的词向量进行聚类，获得所述词向量的聚类特征包括：

对所述词语的词向量进行聚类；

获得聚类后的每个类别的类中心向量；

计算给定的词语的词向量与所有类中心向量的余弦相似度；

判断所述余弦相似度中最大的余弦相似度是否大于预先设置的阈值；

如果是，则确定所述给定的词语的词向量的聚类特征为所述最大的余弦相似度所对应的类别符号。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型包括：

通过监督学习的方式对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。

5.一种韵律结构预测装置，其特征在于，包括：

学习模块，用于对无标注数据进行学习获得词语的词向量；

聚类模块，用于对所述学习模块获得的所述词语的词向量进行聚类，获得所述词向量的聚类特征；

添加模块，用于将所述聚类模块获得的所述词向量的聚类特征加入从标注数据提取的特征集合中；

训练模块，用于对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型；

预测模块，用于通过所述训练模块获得的韵律结构预测模型进行韵律结构预测。

6.根据权利要求5所述的装置，其特征在于，

所述学习模块，具体用于通过类神经网络语音模型以无监督学习的方式对无标注数据进行学习获得词语的词向量。

7.根据权利要求5所述的装置，其特征在于，所述聚类模块包括：

词向量聚类子模块，用于对所述词语的词向量进行聚类；

获得子模块，用于获得所述词向量聚类子模块聚类后的每个类别的类中心向量；

计算子模块，用于计算给定的词语的词向量与所述获得子模块获得的所有类中心向量的余弦相似度；

判断子模块，用于判断所述计算子模块获得的余弦相似度中最大的余弦相似度是否大于预先设置的阈值；

特征确定子模块，用于当所述判断子模块确定所述最大的余弦相似度大于预先设置的阈值时，确定所述给定的词语的词向量的聚类特征为所述最大的余弦相似度所对应的类别符号。

8.根据权利要求5-7任意一项所述的装置，其特征在于，

所述训练模块，具体用于通过监督学习的方式对加入所述聚类特征的特征集合进行训练获得带有聚类特征的韵律结构预测模型。