CN102254554B

CN102254554B - 一种对普通话重音进行层次化建模和预测的方法

Info

Publication number: CN102254554B
Application number: CN2011102003301A
Authority: CN
Inventors: 陶建华; 李雅
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-07-18
Filing date: 2011-07-18
Publication date: 2012-08-08
Anticipated expiration: 2031-07-18
Also published as: CN102254554A

Abstract

本发明公开了一种对普通话重音进行层次化建模和预测的方法，该方法采用层次化重音描述体系对普通话重音进行描述，包括：选择合适的重音描述体系，创建层级标注的重音语料库；训练生成韵律词重音预测模型；训练生成句重音预测模型；以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。利用本发明，提高了重音模型的精细度，同时也保证了较高的重音预测正确率和召回率，进而提高合成语音的自然度和表现力，能够以更精确的描述语音中用于表现韵律凸显的重音现象，同时能够从任意输入的文本得到较为细致的重音等级标注结果。

Description

一种对普通话重音进行层次化建模和预测的方法

技术领域

本发明涉及人机交互中语音合成技术领域，尤其涉及一种对普通话重音进行层次化建模和预测的方法，具体地涉及普通话句重音、词重音的建模，以及基于最大熵模型的词重音、句重音的两层重音预测方法。

背景技术

准确的重音描述以及从文本信息中预测重音信息一直是语音合成至关重要的一步，是提高合成语音表现力、构建和谐人机交互技术的重要组成部分。重音模型能够刻画出语音中的抑扬顿挫与轻重缓急，进而提高合成语音的表现力和自然度。重音的建模与预测对语音合成，人机交互等的发展具有重要意义。

虽然，在这个领域已经有很多的研究工作，但是重音建模与预测还有很多问题至今没有很好的解决。其中，具有重音标注的用于语音合成的语料库较少，且在仅有的几个语料库中，都强调重音音节的分析研究，没有对轻音音节的分析。但是，从语音合成实验结果来看，合成结果之所以不理想，重要原因之一就是现有合成系统忽略了语音轻音的问题。轻音除了对语流中的轻重缓急起到一定的衬托作用，它还具有表义的作用，即具有区分词义的作用。

因此，为了提高合成语音的自然度和表现力，有必要加强轻音音节的研究，同时进一步提高重音音节的研究。

发明内容

(一)要解决的技术问题

为了解决现有技术问题，本发明的主要目的是要提出一种对普通话重音进行层次化建模和预测的方法，以更精确的描述语音中用于表现韵律凸显的重音现象，同时能够从任意输入的文本得到较为细致的重音等级标注结果。

(二)技术方案

为达到上述目的，本发明提供了一种对普通话重音进行层次化建模和预测的方法，该方法采用层次化重音描述体系对普通话重音进行描述，包括：

选择合适的重音描述体系，创建层级标注的重音语料库；

训练生成韵律词重音预测模型；

训练生成句重音预测模型；以及

根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。

上述方案中，所述采用层次化重音描述体系对普通话重音进行描述，是采用句重音与韵律词重音对普通话重音进行描述，以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，对于句重音层级采用重音音节的建模分析，而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词，所述韵律词重音用于表明韵律词内部音节之间的凸显对比。

上述方案中，所述选择合适的重音描述体系，是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，然后针对不同的层级，选择不同的重音标注单元。所述重音标注单元分为两类：在韵律词重音中，重音标注单元为单个韵律词；在句重音标注中，标注单元为句子。所述创建层级标注的重音语料库，是在录音室录制语音数据，并进行音节切分，韵律边界标注，最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级。

上述方案中，所述训练生成韵律词重音预测模型，是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型，训练的具体过程为：采用一文本特征参数提取模块，得到与韵律词重音特征相关的文本特征参数F1作为模型训练输入，利用最大熵模型，得到有关韵律词内部轻音节与非轻音节的文本特征差异，进而通过模型训练得到音节是轻音的概率，建立韵律词重音预测模型。所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。

上述方案中，所述训练生成句重音预测模型，是训练一个能够预测当前音节在句子范围内是重音的概率的模型，训练的具体过程为：采用一文本特征参数提取模块，得到与句子级别重音预测相关的文本特征参数F2作为模型输入，利用最大熵模型，训练有关句子层级重音节与非重音节的文本特征差异，进而通过模型训练得到音节是重音的概率，建立句重音预测模型。所述句重音预测模型具有一输出句重音预测结果的输出端。

上述方案中，所述根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果，是将韵律词重音预测结果和句重音预测结果采用公式

进行加权综合，然后输出综合后的层级重音标注信息；其中，

和

分别是音节在当前韵律词和句子中的重音凸显度，

是韵律词在当前句子中的重音凸显度。

(三)有益效果

从上述技术方案可以看出，本发明具有以下有益效果：

1、本发明提供的对普通话重音进行层次化建模和预测的方法，加强了重音研究中的轻音音节的研究。以往的重音研究都侧重于重音音节的研究，包括重音音节的文本相关物和声学表现等。但是，从语音合成结果来看，单纯强调重音音节的研究并不能使得合成语音在自然度和表现力上有明显的提高。其原因为，随着交互的需要，在真实语流中存在越来越多的轻音音节，轻音除了对语流中的轻重缓急起到一定的衬托作用，有时还具有区分词义的作用。为了解决该问题，本发明引入了对重音中轻音音节的研究，同时，本发明进一步提高了重音音节的研究，提出了层级的重音建模方法。

2、本发明提供的对普通话重音进行层次化建模和预测的方法，在层级重音预测中，针对不同层级的重音预测模型，采用不同的文本特征集合，以及特征窗口长度，这样能够细致的描述在不同级别下，重音的文本特征，增加了模型预测的正确率。

3、本发明提供的对普通话重音进行层次化建模和预测的方法，在层级重音标注综合结果阶段，采用加权的方法，这样得到的重音描述体系更为细致，使得采用这种重音标注方式得到的合成语音自然度和表现力更好。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见，其中：

图1是本发明提供的对普通话重音进行层次化建模和预测的方法流程图；

图2是依照本发明实施例对普通话重音进行层次化建模和预测的方法流程图。

图3是依照本发明实施例训练生成韵律词重音预测模型的方法流程图。

图4是依照本发明实施例训练生成句重音预测模型的方法流程图。

图5是依照本发明实施例综合生成每个音节的重音标注结果的方法流程图。

图6是依照本发明实施例对普通话重音进行层次化预测的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提供的对普通话重音进行层次化建模和预测的方法，是采用层次化重音描述体系对普通话重音进行描述，即采用句重音与韵律词重音对普通话重音进行描述，以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，对于句重音层级采用重音音节的建模分析，而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词，所述韵律词重音用于表明韵律词内部音节之间的凸显对比。相应的，本发明采用基于最大熵的层次化的重音预测模型。

本发明提供的对普通话重音进行层次化建模和预测的方法，用于中文语音合成中重音信息的预测，对语音合成系统接收或输入的任意文字串标注每个音节的重音等级；采用层级重音描述体系，即句子层面以及韵律词层面，其中，在句子层面的重音，本发明侧重重音词或者重音音节的研究，而在词层面，本发明侧重轻音音节研究；创建大规模的层级重音标注语料数据库；从标注文本进行特征提取；训练最大熵模型预测词内重音；训练最大熵模型预测句内重音，综合词重音与句重音的的预测结果得到更精确的重音等级描述。

如图1所示，图1是本发明提供的对普通话重音进行层次化建模和预测的方法流程图，该方法采用层次化重音描述体系对普通话重音进行描述，包括：选择合适的重音描述体系，创建层级标注的重音语料库；训练生成韵律词重音预测模型；训练生成句重音预测模型；以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。

其中，所述采用层次化重音描述体系对普通话重音进行描述，是采用句重音与韵律词重音对普通话重音进行描述，以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，对于句重音层级采用重音音节的建模分析，而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词，所述韵律词重音用于表明韵律词内部音节之间的凸显对比。

所述选择合适的重音描述体系，是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，然后针对不同的层级，选择不同的重音标注单元。所述重音标注单元分为两类：在韵律词重音中，重音标注单元为单个韵律词；在句重音标注中，标注单元为句子。所述创建层级标注的重音语料库，是在录音室录制语音数据，并进行音节切分，韵律边界标注，最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级。

所述训练生成韵律词重音预测模型，是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型，训练的具体过程为：采用一文本特征参数提取模块，得到与韵律词重音特征相关的文本特征参数F1作为模型训练输入，利用最大熵模型，得到有关韵律词内部轻音节与非轻音节的文本特征差异，进而通过模型训练得到音节是轻音的概率，建立韵律词重音预测模型。所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。

所述训练生成句重音预测模型，是训练一个能够预测当前音节在句子范围内是重音的概率的模型，训练的具体过程为：采用一文本特征参数提取模块，得到与句子级别重音预测相关的文本特征参数F2作为模型输入，利用最大熵模型，训练有关句子层级重音节与非重音节的文本特征差异，进而通过模型训练得到音节是重音的概率，建立句重音预测模型。所述句重音预测模型具有一输出句重音预测结果的输出端。

所述根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果，是将韵律词重音预测结果和句重音预测结果采用公式

和

分别是音节在当前韵律词和句子中的重音凸显度，

是韵律词在当前句子中的重音凸显度。

基于图1所示的对普通话重音进行层次化建模和预测的方法，图2至图6示出了依照本发明一个实施例对普通话重音进行层次化建模和预测的方法流程。

其中，图2示出了依照本发明实施例对普通话重音进行层次化建模和预测的方法流程图。在图2所示的实施例中，左侧为训练部分，包括语音合成语料库、韵律词重音等级标注语料库、句重音等级标注语料库、韵律词重音预测模型训练、句重音预测模型训练、层级重音预测模型训练；右侧为在线运行部分，包括浅层词法分析与节奏预测、在线层级重音预测两大部分，输入为任意文本，输出为层级的重音标注结果。其中，在线层级重音预测依赖于离线训练得到的层级重音预测模型。由韵律词重音等级标注语料库得到韵律词重音预测模型，由韵律词重音等级标注语料库和句重音等级标注语料库综合得到句中音节重音等级标注的语料库，进而训练得到句重音预测模型，由韵律词重音预测模型和句重音预测模型综合得到层级重音预测模型。

图3示出了是依照本发明实施例训练生成韵律词重音预测模型的方法流程图。输入为韵律词中音节重音等级标注的语料库，经过文本特征提取，如分词、词性标注，韵律边界标注等，提取出与韵律词重音相关的文本特征集合F1，利用最大熵模型从大规模重音标注语料中统计训练学习得到当前音节是韵律词层面轻音的概率，输出为韵律词重音预测模型。

图4示出了依照本发明实施例训练生成句重音预测模型的方法流程图。输入为句中音节重音等级标注的语料库，经过文本特征提取，如分词、词性标注，韵律边界标注等，提取出与句重音相关的文本特征集合F2，利用最大熵模型从大规模重音标注语料中统计训练学习得到当前音节是句子层面重音的概率，输出为句重音预测模型。

图5示出了依照本发明实施例综合生成每个音节的重音标注结果的方法流程图。对任意输入语句，能够标注出韵律词内重音对比以及句内音节重音对比，输出为句子中每个音节的层级重音描述。

图6示出了依照本发明实施例对普通话重音进行层次化预测的方法流程图。该实施例从以下六个方面对本发明进一步详细描述：

1、准备重音标注语料库。

根据本发明，文本选用一个标注有韵律词、韵律短语以及语调短语边界信息的语音合成文本语料库。同时，对该语料进行以韵律词为单位的切分，形成一个以韵律词为单位存储的语料库。这些韵律词切分之后被打乱原来的次序，以单个文件的方式存储，避免了上下文信息对词重音感知的影响。

例如标注实例(单句)：

向香港|特别行政区同胞$ 澳门|和台湾同胞$ 海外侨胞.

xiang4 xiang1 gang3 te4 bie2 xing2 zheng4 qu1 tong2 bao1 ao4men2 he2 tai 2wan1 tong2 bao1 hai3 wai4 qiao2 bao1

其中，空格表示韵律词边界，‘|’表示韵律短语的位置，‘$’表示韵律短语的位置。

韵律词为单位的语料库实例：

香港

xiang1 gang3

2、韵律词重音标注和句重音标注。

包括：韵律词内音节等级标注和句子内韵律词突显度标注，其中，句子内韵律词突显度也就是韵律词在句子中的重音等级。在两个重音标注工作中，按照凸显度的高低，将重音标注任务都分为3级，分别用3、2、1表示。

标注样例如下：

句子层级标注：

向香港|特别行政区同胞$ 澳门|和台湾同胞$ 海外侨胞.

2 3 2 2 2 3 1 2 2 2 3

韵律词层级标注：

香港|

3 2

将这两个标注结果采用公式(1)的方式进行加权综合，得到句中每个音节的重音等级。

{PD}_{syt}^{sen} = {PD}_{pw}^{sen} \times {PD}_{syl}^{pw} - - - (1)

其中，和

分别是音节在当前韵律词和句子中的重音凸显度，

是韵律词在当前句子中的重音凸显度。在这样的框架下，也可以采用其他的层级重音综合方法。

最终，对在进行层级划分，得到三类的重音标记。

Stress = \{\begin{matrix} 3, & \begin{matrix} if & {PD}_{syl}^{sen} &GreaterEqual; 6 \end{matrix}) \\ 2, & \begin{matrix} if & 4 \leq {PD}_{syl}^{sen} < 6 \end{matrix} \\ 1, & others \end{matrix} - - - (2)

3、训练生成韵律词内音节“轻”与“非轻”的韵律词内重音预测模型。

训练生成韵律词内音节“轻”与“非轻”的韵律词内重音预测模型，可分为以下步骤：利用选择基于最大熵模型的识别器为该模型的预测模型；用字、语法词、韵律词、词性和位置信息等作为主要的特征；用标注好韵律短语的语料作为训练语料该最大熵模型识别器。

选择特征时，以词法特征，如词性、位置信息、词的长度信息，为主要的考察对像，本发明选用的特征集合如下：

●拼音(PY)和声调(T).

●音节所在的韵律边界(B).

●语法词的词性和长度(P，L).

●当前音节距离前/后一个语法词的距离(DPW，DNW).

●韵律词长度(PL).

●归一化后的当前音节在韵律词内的位置(RPW).

●当前音节距离前、后一个韵律短语的距离(DPP，DNP).

●当前音节在所在语法词和韵律词的位置(IW，IPW).

●当前音节，当前音节所在语法词、当前音节所在的韵律词的描述(C，W，PW).

●当前音节距离句首、句末的距离(DB，DE).

●当前音节所在的语法词距离句首、句末的距离(DBW，DEW).

●当前音节所在的韵律词距离句首、句末的距离(DBPW，DEPW).

●当前音节在大语料库中的凸显率(SRC).

●当前音节所在的韵律词在大语料库中的凸显率(SRW)

经过封装式的特征选择优化，在韵律词重音模型中最终选择的特征集合F1为：

其中，特征中的数字表示特征选择窗口偏移量。利用该方法预测韵律词内部音节是“轻音”的概率。具体过程如图3所示。

4、训练生成句子内音节“重”与“非重”的句内音节重音预测模型。

根据本发明所述的句子内音节“重”与“非重”的句内音节重音预测模型，其最大熵模型的原始文本特征与韵律词内音节“轻”与“非轻”的韵律词内重音预测模型相同，经过针对该技术问题的特征选择和优化，最终选择的特征集合F2如下：

其中，特征中的数字表示特征选择窗口偏移量。利用该方法预测句子级别范围内音节是“重音”的概率。具体过程如图4所示。

5、综合层级重音预测结果。

根据本发明，基于图5所述的层次化重音建模方法的示意图，本发明将韵律词内部重音与句重音进行加权综合，通过上层句重音对韵律词重音进行限制，如，句中的“重”音节不会作为韵律词内部的“轻”音节，最终得到句中每个音节的两级重音描述体系。

6、系统在线运行。

如图6所示：浅层词法分析与节奏预测、句重音等级预测、韵律词重音等级预测和每个音节的两级重音描述。

具体地，浅层词法分析与节奏预测接受输入的任意文本、输出为已经进行了分词、词性标注等以及韵律层级标注的文本。

具体地，句重音等级预测，利用离线训练好的句重音最大熵模型对已经进行了分词、词性标注等以及韵律层级标注的文本标注句子级别的重音。

具体地，韵律词等级预测，利用离线训练好的句重音最大熵模型对已经进行了分词、词性标注等以及韵律层级标注的文本标注句子级别的重音。

基于以上步骤，将输入文本中的每个音节分别标注了句重音和词重音，输出为句中每个音节的两级重音描述，用于指导语音合成的后端进行语音合成。

通过上述实施例可以看出，本发明提供的对普通话重音进行层次化建模和预测的方法，通过采用层次化重音描述体系对普通话重音进行描述，以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，对于句重音层级采用重音音节的建模分析，而对于韵律词重音层级采用轻音音节的建模分析，提高了重音模型的精细度，同时也保证了较高的重音预测正确率和召回率，进而提高合成语音的自然度和表现力，能够以更精确的描述语音中用于表现韵律凸显的重音现象，同时能够从任意输入的文本得到较为细致的重音等级标注结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对普通话重音进行层次化建模和预测的方法，其特征在于，该方法采用层次化重音描述体系对普通话重音进行描述，包括：

选择合适的重音描述体系，创建层级标注的重音语料库；

训练生成韵律词重音预测模型；

训练生成句重音预测模型；以及

根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果；

其中，所述采用层次化重音描述体系对普通话重音进行描述，是采用句重音与韵律词重音对普通话重音进行描述，以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，对于句重音层级采用重音音节的建模分析，而对于韵律词重音层级采用轻音音节的建模分析；所述句重音用于表明在句子层面凸显的韵律词，所述韵律词重音用于表明韵律词内部音节之间的凸显对比；

所述选择合适的重音描述体系，是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级，然后针对不同的层级，选择不同的重音标注单元；

所述创建层级标注的重音语料库，是在录音室录制语音数据，并进行音节切分，韵律边界标注，最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级；

所述训练生成韵律词重音预测模型，是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型，训练的具体过程为：采用一文本特征参数提取模块，得到与韵律词重音特征相关的文本特征参数F1作为模型训练输入，利用最大熵模型，得到有关韵律词内部轻音节与非轻音节的文本特征差异，进而通过模型训练得到音节是轻音的概率，建立韵律词重音预测模型；

所述训练生成句重音预测模型，是训练一个能够预测当前音节在句子范围内是重音的概率的模型，训练的具体过程为：采用一文本特征参数提取模块，得到与句子级别重音预测相关的文本特征参数F2作为模型输入，利用最大熵模型，训练有关句子层级重音节与非重音节的文本特征差异，进而通过模型训练得到音节是重音的概率，建立句重音预测模型；

进行加权综合，然后输出综合后的层级重音标注信息；其中，和

分别是音节在当前韵律词和句子中的重音凸显度，

是韵律词在当前句子中的重音凸显度。

2.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法，其特征在于，所述重音标注单元分为两类：在韵律词重音中，重音标注单元为单个韵律词；在句重音标注中，标注单元为句子。

3.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法，其特征在于，所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。

4.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法，其特征在于，所述句重音预测模型具有一输出句重音预测结果的输出端。