CN105185374A

CN105185374A - 韵律层级标注方法和装置

Info

Publication number: CN105185374A
Application number: CN201510580636.2A
Authority: CN
Inventors: 付晓寅; 李秀林; 康永国; 徐扬凯; 陈志杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2015-12-23
Anticipated expiration: 2035-09-11
Also published as: CN105185374B

Abstract

本发明公开了一种韵律层级标注方法和装置，其中，韵律层级标注方法包括以下步骤：S1、获取文本序列；S2、将文本序列切分为多个分词，并提取分词的特征；S3、将特征作为输入，并基于双向长短时记忆模型获得对应的输出结果；以及S4、根据输出结果对文本序列的韵律层级进行标注。本发明实施例的韵律层级标注方法和装置，基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。

Description

韵律层级标注方法和装置

技术领域

本发明涉及文语转换技术领域，尤其涉及一种韵律层级标注方法和装置。

背景技术

语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并进行朗读的技术。语音合成系统性能的主要评价指标主要包括可懂度和流畅度两方面。现有的语音合成系统在可懂度方面已经基本成熟，但是在流畅度方面和人们真实的发音仍然存在一定的差距。而影响语音合成系统流畅度的关键因素是韵律层级预测的准确性。韵律层级预测的方法主要利用人们发音停顿的特点，根据停顿的时间长度，将韵律分为不同的韵律层级。韵律层级结构通常包括韵律词、韵律短语、语调短语等。如图1所示。其中，PW、PPH和IPH分别表示韵律层级结构中的韵律词、韵律短语和语调短语。从图1可看出，韵律层级结构具有一定的包含关系，即韵律词<韵律短语<语调短语。韵律预测就是对文本中各个单词的韵律层级进行分类。

目前，韵律层次预测方法采用条件随机场CRF模型进行预测。首先，将文本切分成多个单词，然后获得单词对应的特征，分别训练得到韵律词模型、韵律短语模型以及语调短语模型，然后采用逐级预测的方式对文本的韵律结构进行预测，即首先对韵律词进行预测，然后将当前的预测结果作为特征对韵律短语进行预测，最后对语调短语进行预测。另外，基于CRF模型的韵律层级预测方法，为了在韵律词模型、韵律短语模型以及语调短语模型中引入上下文信息，需要对上述模型的特征进行左右扩展，并且引入人工编写的特征模板对上述模型进行训练。

但是，基于CRF模型进行预测的方法具有以下缺点：1、采用特征左右扩展的方式扩展的范围有限，无法构建单词之间较远距离的上下文关系。2、使用单词作为特征训练得到的模型泛化性差。3、采用逐级预测的方式一旦在前一级韵律预测中出现错误，在对下一级韵律预测时会传递错误，最终导致预测错误。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种韵律层级标注方法，该方法基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。

本发明的第二个目的在于提出一种韵律层级标注装置。

为了实现上述目的，本发明第一方面实施例提出了一种韵律层级标注方法，包括：S1、获取文本序列；S2、将所述文本序列切分为多个分词，并提取所述分词的特征；S3、将所述特征作为输入，并基于双向长短时记忆模型获得对应的输出结果；以及S4、根据所述输出结果对所述文本序列的韵律层级进行标注。

本发明实施例的韵律层级标注方法，基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。

本发明第二方面实施例提出了一种韵律层级标注装置，包括：获取模块，用于获取文本序列；处理模块，用于将所述文本序列切分为多个分词，并提取所述分词的特征；计算模块，用于将所述特征作为输入，基于双向长短时记忆模型获得对应的输出结果；以及标注模块，用于根据所述输出结果对所述文本序列的韵律层级进行标注。

本发明实施例的韵律层级标注装置，基于双向长短时记忆模型对韵律层级进行标注，有效地解决了文本序列中分词的上下文特征扩展范围有限的问题，并且一次性对韵律层级进行标注，避免了标注时错误传递的问题。

附图说明

图1是现有技术中韵律层级分类的效果示意图。

图2是根据本发明一个实施例的韵律层级标注方法的流程图。

图3是根据本发明一个实施例的韵律层级标注装置的结构示意图一。

图4是根据本发明一个实施例的韵律层级标注装置的结构示意图二。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的韵律层级标注方法和装置。

图2是根据本发明一个实施例的韵律层级标注方法的流程图。

如图2所示，韵律层级标注方法可包括：

S1、获取文本序列。

举例来说，文本序列为“那时新旧思想的碰撞可谓激烈”。

S2、将文本序列切分为多个分词，并提取分词的特征。

例如，可将文本序列“那时新旧思想的碰撞可谓激烈”切分为“那时”、“新旧”、“思想”、“的”、“碰撞”、“可谓”和“激烈”，然后分别将上述分词转换为词向量，并将词向量作为对应分词的特征。

S3、将特征作为输入，并基于双向长短时记忆模型获得对应的输出结果。

其中，双向长短时记忆模型由输入门、遗忘门、输出门、状态单元和LSTM(Long-ShortTermMemory,长短时记忆网络)结构输出五部分组成，具体公式如下：

公式1：

公式2：

公式3：

公式4：

公式5：

假设文本序列x＝(x₁,x₂,...,x_T)，T为文本序列的长度，x₁表示第一个分词的词向量，x₂表示第二个分词的词向量，x_T表示第T个分词的词向量。对于时刻t，其对应的词向量表示为x_t，将x_t作为特征进行输入，通过上述公式计算出x_t对应的输出结果m_t。其中，W为权重矩阵，b为偏置向量，W和b为参数，通过语料库训练获得。i为输入门、f为遗忘门、为输出门、c为状态单元、m为LSTM结构输出。⊙表示向量按元素的乘积。σ为sigmoid函数，g为状态单元的输入激活函数，h为状态单元的输出激活函数，g和h一般为tanh函数。

S4、根据输出结果对文本序列的韵律层级进行标注。

在获得输出结果之后，可对输出结果进行归一化，并计算出输出结果的概率值，然后根据概率值对文本序列的韵律层级进行标注。

具体地，可根据以下公式计算输出结果的概率值。

公式6：h_t＝W_hmm_t+b_h

公式7：y_t＝p(h_t)

其中，W_hm为权重矩阵，b_h为偏置向量，与公式1-5中的W和b同样为参数，可通过训练获得。p为softmax函数，表示为

由于输入的是词向量，则计算出的输出结果也为向量。

在本发明的实施例中，韵律层级为三级，则计算出的概率值是个三维向量，第一维度表示韵律词，第二维度表示韵律短语，第三维度表示语调短语，p＝(0.8，0.1，0.1)，第一维度的数值最大，即词向量x_t被标注为韵律词的概率最大。

同理，可分别计算出文本序列中x₁至x_T的输出结果，从而根据输出结果对文本序列韵律层级进行标注。

此外，本发明实施例的韵律层级标注方法还可包括步骤S5。

S5、训练双向长短时记忆模型。

具体地，可从语料库中获取海量的训练文本，再将训练文本转换为词向量进行表示，然后将词向量作为输入特征，并基于深度神经网络和双向长短时记忆网络训练双向长短时记忆模型。其中，深度神经网络DNN可包括前馈神经网络。对双向长短时记忆模型进行训练的过程，就是对公式1至公式5中的W和b这两个参数进行训练的过程，通过不断地对W和b进行训练，能够更加准确地对文本序列的韵律层级进行标注，且双向长短时记忆模型鲁棒性更好。

另外，为了提高双向长短时记忆模型的性能，还可将词长和词性等特征，与训练文本的词向量一起，共同作为训练文本的输入特征，训练双向长短时记忆模型。

为实现上述目的，本发明还提出一种韵律层级标注装置。

如图3所示，韵律层级标注装置可包括：获取模块110、处理模块120、计算模块130和标注模块140。

其中，获取模块110可用于获取文本序列。举例来说，文本序列为“那时新旧思想的碰撞可谓激烈”。

处理模块120可用于将文本序列切分为多个分词，并提取分词的特征。例如，可将文本序列“那时新旧思想的碰撞可谓激烈”切分为“那时”、“新旧”、“思想”、“的”、“碰撞”、“可谓”和“激烈”，然后分别将上述分词转换为词向量，并将词向量作为对应分词的特征。

计算模块130可用于将特征作为输入，并基于双向长短时记忆模型获得对应的输出结果。

公式1：

公式2：

公式3：

公式4：

公式5：

假设文本序列x＝(x₁,x₂,...,x_T)，T为文本序列的长度，x₁表示第一个分词的词向量，x₂表示第二个分词的词向量，x_T表示第T个分词的词向量。对于时刻t，其对应的词向量表示为x_t，将x_t作为特征进行输入，通过上述公式计算出x_t对应的输出结果m_t。其中，W为权重矩阵，b为偏置向量，W和b为参数，通过语料库训练获得。i为输入门、f为遗忘门、o为输出门、c为状态单元、m为LSTM结构输出。⊙表示向量按元素的乘积。σ为sigmoid函数，g为状态单元的输入激活函数，h为状态单元的输出激活函数，g和h一般为tanh函数。

标注模块140可用于根据输出结果对文本序列的韵律层级进行标注。在计算模块130获得输出结果之后，标注模块140可对输出结果进行归一化，并计算出输出结果的概率值，然后根据概率值对文本序列的韵律层级进行标注。

具体地，可根据以下公式计算输出结果的概率值。

公式6：h_t＝W_hmm_t+b_h

公式7：y_t＝p(h_t)

由于输入的是词向量，则计算出的输出结果也为向量。

此外，如图4所示，本发明实施例的韵律层级标注装置还可包括训练模块150。

在计算模块130基于双向长短时记忆模型获得对应的输出结果之前，训练模块150可训练双向长短时记忆模型。

具体地，训练模块150可从语料库中获取海量的训练文本，再将训练文本转换为词向量进行表示，然后将词向量作为输入特征，并基于深度神经网络和双向长短时记忆网络训练双向长短时记忆模型。其中，深度神经网络DNN可包括前馈神经网络。对双向长短时记忆模型进行训练的过程，就是对公式1至公式5中的W和b这两个参数进行训练的过程，通过不断地对W和b进行训练，能够更加准确地对文本序列的韵律层级进行标注，且双向长短时记忆模型鲁棒性更好。

另外，为了提高双向长短时记忆模型的性能，训练模块150还可将词长和词性等特征，与训练文本的词向量一起，共同作为训练文本的输入特征，训练双向长短时记忆模型。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种韵律层级标注方法，其特征在于，包括以下步骤：

S1、获取文本序列；

S2、将所述文本序列切分为多个分词，并提取所述分词的特征；

S3、将所述特征作为输入，并基于双向长短时记忆模型获得对应的输出结果；以及

S4、根据所述输出结果对所述文本序列的韵律层级进行标注。

2.如权利要求1所述的方法，其特征在于，在所述基于双向长短时记忆模型获得对应的输出结果之前，还包括：

S5、训练所述双向长短时记忆模型。

3.如权利要求2所述的方法，其特征在于，所述训练所述双向长短时记忆模型，具体包括：

基于语料库将训练文本转换为词向量；

将所述词向量作为输入特征，并基于深度神经网络和双向长短时记忆网络训练所述双向长短时记忆模型。

4.如权利要求3所述的方法，其特征在于，所述输入特征还包括词长和词性，所述训练所述双向长短时记忆模型，还包括：

将所述词向量、所述词长和所述词性作为所述输入特征，基于深度神经网络和双向长短时记忆网络训练所述双向长短时记忆模型。

5.如权利要求1所述的方法，其特征在于，根据所述输出结果对所述文本序列的韵律层级进行标注，具体包括：

对所述输出结果进行归一化，并计算出所述输出结果的概率值；

根据所述概率值对所述文本序列的韵律层级进行标注。

6.一种韵律层级标注装置，其特征在于，包括：

获取模块，用于获取文本序列；

处理模块，用于将所述文本序列切分为多个分词，并提取所述分词的特征；

计算模块，用于将所述特征作为输入，并基于双向长短时记忆模型获得对应的输出结果；以及

标注模块，用于根据所述输出结果对所述文本序列的韵律层级进行标注。

7.如权利要求6所述的装置，其特征在于，还包括：

训练模块，用于在所述基于双向长短时记忆模型获得对应的输出结果之前，训练所述双向长短时记忆模型。

8.如权利要求7所述的装置，其特征在于，所述训练模块，具体用于：

基于语料库将训练文本转换为词向量，并将所述词向量作为输入特征，以及基于深度神经网络和双向长短时记忆网络训练所述双向长短时记忆模型。

9.如权利要求8所述的装置，其特征在于，所述输入特征还包括词长和词性，所述训练模块，还用于：

10.如权利要求6所述的装置，其特征在于，所述标注模块，具体用于：

对所述输出结果进行归一化，并计算出所述输出结果的概率值，以及根据所述概率值对所述文本序列的韵律层级进行标注。