CN101572083A

CN101572083A - 韵律词组词方法和装置

Info

Publication number: CN101572083A
Application number: CNA200810096066XA
Authority: CN
Inventors: 郭庆; 片江伸之
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-04-30
Filing date: 2008-04-30
Publication date: 2009-11-04
Anticipated expiration: 2028-04-30
Also published as: CN101572083B

Abstract

本发明涉及韵律词组词方法和装置，该方法包括以下步骤：词性获得步骤，获得输入的句子中的各语言学词的词性；词位获得步骤，获得所述输入的句子中的各所述语言学词的在所属韵律词中的各可能候选词位以及处于各可能候选词位的概率；路径获得步骤，获得所有可能顺序组合，各所述可能组合顺序包括所述输入的句子中的每一个所述语言学词的一个可能候选词位；概率计算步骤，根据各所述语言学词处于其可能候选词位的概率，计算所述所有可能顺序组合中的各可能顺序组合的概率；以及最终路径确定步骤，根据所确定出的各可能顺序组合的概率，确定所述输入的句子中的各所述语言学词的词位。

Description

韵律词组词方法和装置

技术领域

本发明涉及一种对自然语言文本进行韵律词组词的处理方法和装置。

背景技术

当一种语言(例如汉语)中的多个字组成词或词组而连续发音时，它们之间将会相互影响，形成较独立、完整的韵律块，这些韵律块的韵律特征对语音的自然度起着非常重要的作用，而不同韵律块组合在一起，往往可以形成不同的语调，使人的发音具有不同的语气。

因而，韵律是影响合成语音自然度和可懂度的一个重要因素。在语音合成系统中，韵律结构为韵律参数预测模型提供最重要的信息，通过对基频、音长、停顿等参数的预测，来达到控制语音合成系统发音方式的目的，从而在合成语音中实现各级韵律单元的相应韵律效果，使之发音自然、好听。

随着对语言处理的研究的不断深入，人们不但越来越需要了解自然话语的韵律结构，而且力图寻找从文本预测韵律结构的方法，以便更加有效地提高合成语音的自然度或语音识别的准确率，同时加深对自然语言理解的程度。

研究发现，语言的韵律是层次结构的，这种层次性的韵律结构形成了语音的节奏(韵律)。一般来说，语音中的主要韵律单位有：韵律词、韵律短语、语调短语。韵律单位的边界往往对应于语音中韵律边界音节的停顿、基频变化或者音长变化。

韵律词指语音流中连续发音的一组音节，这些音节之间发音非常紧密且其中没有听感上的停顿。韵律词是韵律结构中最低一级的要素，一般来说在韵律词边界有可感知的停顿。在真实的语音中，不是所有的韵律词边界都有停顿。在韵律词边界有可感知的停顿是可接受的，但是，韵律词内部的任何可感知的停顿都会导致语音难以理解或者不自然。换句话说，在韵律词内部不应有可感知的停顿，而停顿只应出现在韵律词边界处。因此，一个良好的韵律词组词模块对于增加合成语音的自然度具有极其重要的意义。

关于这方面的研究已发表多篇论文和专利，例如：

Minnis；Stephen；美国专利6,996,529 February 7，2006，Speechsynthesis with prosodic phrase boundary information；

Hirschberg；Julia；美国专利6,173,262January 9，2001，Text-to-speechsystem with automatically trained phrasing rules；

Hirschberg；Julia；美国专利6,003,005December 14，1999，Text-to-speech system and a method and apparatus for training the samebased upon intonational feature annotations of input text[patent]；

Holm；Frode；Pearson；Steve；美国专利5,850,629December 15，1998，User interface controller for text-to-speech synthesizer；

Chu；Min；Peng；Hu；美国专利6,978,239December 20，2005，Methodand apparatus for speech synthesis without prosody modification；

Shih，C.L.，“The Prosodic Domain of Tone Sandhi in MandarinChinese”，PhD Dissertation，UC San Diego，1986；

Chu M.and Qian Y.，“Locating boundaries for prosodic constituents inunrestricted Mandarin texts”，Journal of Computational Linguistics andChinese Language Processing，6(1)，61-82，2001；

Dong H.，Tao J.and Xu b.，“Prosodic word prediction using the lexicalinformation”，International Conference on Natural Language Processing andKnowledge Engineering，Wuhan，2005；

Shao Y.，Han，J.，Liu T.and Zhao Y.，“Prosodic word boundariesprediction for Mandarin text-to-speech”，International Symposium on TonalAspects of Languages with Emphasis on Tone Languages，159-162，Beijing，2004；

Dong M.，Lua K.T.and Li H.，“A probabilistic approach to prosodicword prediction for Mandarin Chinese TTS”，9th European Conference onSpeech Communication and Technology，Lisbon，Portugal，2005；

Qin Shi and XiJun Ma，2002.“Statistic prosody structure prediction”，International Conference of the IEEE 2002Workshop on Speech Synthesis，Santa Monica，Ca.，2002；

Chou F.，Tseng C.and Lee L，“Automatic Generation of ProsodicStructure for High Quality Mandarin Speech Synthesis”，InternationalConference on Acoustic，Speech and Signal Processing，1624-1627，1996；

Ying，Z.，and Shi，X.，“An RNN-based algorithm to detect prosodicphrase for Chinese TTS”，International Conference on Acoustic，Speech andSignal Processing，2001；

Guo Q.，Xun E.，Katae N.，“Prosody word grouping in Mandarin TTSsystem”，International Symposium on Chinese Spoken Language Processing，Sigapore，2006；

Low Jin Kiat，Ng Hwee Tou，Guo Wenyuan，“A Maximum EntropyApproach to Chinese Word Segmentation”，Proceedings of the FourthSIGHAN Workshop on Chinese Language Processing，161-164.Jeju Island，Korea，2005；

Zhao Hai，Huang Chang Ning，Li Mu，“An Improved Chinese WordSegmentation System with Conditional Random Field”，Proceedings of theFifth SIGHAN Workshop on Chinese Language Processing，162-165，Sydney，Australia，2006；

Zhang X.，Xu J.and Cai L.，“Prosodic Boundary Prediction Based onMaximum Entropy Model with Error-Driven Modification”，InternationalSymposium on Chinese Spoken Language Processing，Sigapore，2006；以及

Kang H.and Liu W.，“Prosodic Words Prediction from Lexicon Wordswith CRF and TBL Joint Method”，International Symposium on ChineseSpoken Language Processing，Sigapore，2006。

许多研究表明韵律词与词汇学中的词有很大的不同。原因之一就是韵律词的形成不仅是基于词义的而且也是基于语音的韵律需要的。一个韵律词可以包含多于一个的词汇学上的词，也可以是相对比较长的词汇学上的词的其中一部分。因而，在进行语音合成时，要进行词性标注/注音、韵律结构预测等。有时还进行分词。例如，对于汉语来说，其与英语等文本不同，在词与词之间没有空格作为分隔符来予以隔开，因而需要进行分词。一般来说，机器自动分词采用一个字典来完成。目前，主要采用的自动分词方法有前向最大匹配方法、后向最大匹配方法、语言模型方法、隐马尔可夫模型以及最大熵模型等。分词一般基于词类分析。韵律结构预测就是要找到一种有效的办法将文本内容映射为韵律结构，以用于建立从文本到韵律特征(如停顿和语调)的预测模型，从而指导后续的韵律声学参数的生成。

下面针对一个例句描述文本分析模块的两个处理步骤，分词/词性标注和韵律结构预测。

输入文本：有一次，我们和外校搞联谊爬香山，我们的学生没有一个掉队的，噌噌噌就爬上了山顶。

分词和词性标注：有/v 一/m 次/q，/w我们/r 和/p 外/f 校/Ng 搞/v 联谊/v 爬/v 香山/ns，/w 我们/r 的/u 学生/n 没有/v 一个/m个/q掉队/v 的/u，/w 噌噌噌/o 就/d爬/v 上/v 了/u 山顶/n。/w

在上面的例子中，“/”之前的一个或多个字组成一个词，“/”后的英文字母表示该词的词性。譬如“有”是动词(“v”)，“我们”是代词(“r”)，“，”是标点符号(“w”)等。

韵律结构：有/v 一/m 次/q ||| 我们/r 和/c | 外/f 校/Ng || 搞/v 联谊/v|爬/v 香山/ns ||| 我们/r 的/u | 学生/n || 没有/v 一/m 个/q | 掉队/v的/u |||噌噌噌/o || 就/d 爬/v 上/v 了/u | 山顶/n |||

其中，“|”表示韵律词边界，“||”表示韵律短语边界，“|||”表示语调短语边界。这样，“有一次”、“我们和”、“外校”、“搞联谊”、“爬香山”等都是韵律词。进一步，“我们和外校”和“搞联谊爬香山”为韵律短语，“我们和外校搞联谊爬香山”则为语调短语。

韵律短语边界和语调短语边界必然也是韵律词边界。韵律词组词模块就是要在分词和词性标注的基础上进行韵律词边界的确定。另外，韵律词组词也是更高层次韵律单元预测如韵律短语预测的基石。因此，韵律词组词的好与坏对于合成语音的自然度有着极其重要的意义。

近年来，在汉语韵律词边界预测方面提出了许多方法，如classification and regression tree(CART)方法、基于规则的方法，基于统计的方法、基于自回归神经网络的方法和基于韵律二叉树的方法等。一般来说，在这些研究工作中，词性(Part of Speech，POS)和词长信息被广泛采用。

近年来，最大熵(maximum entropy)方法和条件随机场(conditionalrandom field，CRF)方法被引入到自然语言处理领域中的许多研究方向中，并且在很多研究方向如汉语分词、统计机器翻译等中取得了很好的效果。基于上述两种方法实现的汉语分词系统在第二届和第三届SIGHAN中文语言处理Backoff比赛(Backoff-2005和Backoff-2006)中取得了极优异的成绩。在这样的系统中，每一个汉字都会被赋予一个标签，这个标签代表该汉字在其所属词中的位置。然后，基于字标签的中文分词方法，不论是基于最大熵还是条件随机场方法，均把中文分词视为一个给字打标签的问题。近期，最大熵和条件随机场方法也被引入到中文语音合成领域来解决韵律词的组词问题。

一般说来，上述的这些方法在每个语言学词的词边界利用一些特征(例如临近词的词长和词性)来估计该边界是否为韵律词边界。换句话说，对于一个输入句子中的每个可能的边界点，估计其是或不是韵律词边界的概率，比较这两个概率，从而判定该边界点是否为韵律词边界。

然而，我们知道当前边界点是否为韵律词边界在一定程度上依赖于前一边界点的情况。更进一步，在韵律词组词这个层次上，可能好几个语言学词之间都是相互作用、相互联系的。例如，总体来说，如果前一个边界点为韵律词边界，那么当前边界点为韵律词边界的可能性就会降低。考虑到这点，有的研究人员在CART方法的基础上融入了一个马尔可夫链模型以获得更好的结果。有的研究人员利用一些统计模型，采用动态规划与规则相结合的方法。还有的研究人员采用马尔可夫模型与基于错误的机器学习相结合的方法。总之，他们的目的都是试图去从全局的角度去考虑韵律词组词问题中各个边界点之间的相关性。

但是，上述的这些方法要么没有考虑到相邻韵律词边界之间的相互依赖性，要么受限于训练数据稀疏的问题，因此不能够很好地进行韵律词边界的预测。

发明内容

本发明鉴于现有技术的以上问题作出。考虑到在韵律词组词这个层次上，一个句子内，可能连续好几个相邻语言学词之间都是相互作用、相互联系的，本发明提出了一种采用全局韵律词组词概率估计的方法来进行韵律词组词，可以消除现有技术的一个或更多个缺陷，至少提供一种有益的选择。

为了实现本申请提供了以下的发明。

发明1、一种韵律词组词方法，该方法包括以下步骤：

词性获得步骤，获得输入的句子中的各语言学词的词性；

词位获得步骤，获得所述输入的句子中的各所述语言学词的在所属韵律词中的各可能候选词位以及处于各可能候选词位的概率；

路径获得步骤，获得所有可能顺序组合，各所述可能组合顺序包括所述输入的句子中的每一个所述语言学词的一个可能候选词位；

概率计算步骤，根据各所述语言学词处于其可能候选词位的概率，计算所述所有可能顺序组合中的各可能顺序组合的概率；以及

最终路径确定步骤，根据所确定出的各可能顺序组合的概率，确定所述输入的句子中的各所述语言学词的词位。

发明2、根据发明1所述的韵律词组词方法，其特征在于，

所述词位获得步骤对所述输入的句子中的各所述语言学词都设置所有可能词位，并根据各所述语言学词的词性及其在所述输入的句子中的位置，计算各所述语言学词处于各词位的各概率；以及

所述路径获得步骤针对各所述语言学词的各可能词位，对所述输入句子的各语言学词的词位进行组合。

发明3、根据发明1所述的韵律词组词方法，其特征在于，

所述词位获得步骤根据所述输入的句子中的各所述语言学词的词性及其在所述输入的句子中的位置，确定各所述语言学词的可能词位，并计算各所述语言学词处于各词位的各概率；以及

发明4、根据发明1所述的韵律词组词方法，其特征在于，

所述可能候选词位为以下词位中的一个：(1)首词位；(2)非首词位；

所述词位获得步骤根据各所述语言学词的词性以及其在所述句子中的位置，利用以下公式计算其处于首词位的概率和处于非首词位的概率：

该语言学词处于首词位的概率＝该语言学词的词性的词处于首词位的概率×词间跳转概率，所述词间跳转概率为跳转到以该语言学词的词性的词为首位词的韵律词的概率；

该语言学词处于为非首词位的概率＝词内跳转概率，所述词内跳转概率为在韵律词内跳转到该语言学词的词性的词的概率。

发明5、根据发明1所述的韵律词组词方法，其特征在于，

所述可能候选词位为以下词位中的一个：(1)由单个词组成的韵律词中的单个词的位置，即独立词位；(2)由两个获更多个词组成的韵律词中的第一个词的位置，即首词位；(3)由两个获更多个词组成的韵律词中的非第一个词的位置，即从属词位；

所述词位获得步骤根据各所述语言学词的词性以及其在所述句子中的位置，利用以下公式计算各所述语言学词处于独立词位的概率、处于首词位的概率和处于从属词位的概率：

该语言学词处于独立词位的概率＝该语言学词的词性的词为独立词位的概率×第一词间跳转概率，所述第一词间跳转概率为跳转到以该语言学词的词性的词处于独立词位的韵律词的概率；

该语言学词处于首词位的概率＝该语言学词的词性的词为首词位的概率×第二词间跳转概率，所述第二词间跳转概率为跳转到该语言学词的词性的词处于首词位的韵律词的概率；以及

该语言学词处于从属词位的概率＝词内跳转概率，所述词内跳转概率为在韵律词内跳转到该语言学词的词性的概率。

发明6、根据发明5所述的韵律词组词方法，其特征在于，

所述从属词位包括n个从属词位，n为正整数；

所述词位获得步骤利用以下公式计算各所述语言学词处于第i从属词位的概率：

该语言学词为第1从属词位的概率＝在韵律词内从所述首词位的词跳转到具有该语言学词的词性的词的第一词内跳转概率，

该语言学词为第i从属词位的概率＝第i-1个从属词位的词跳转到具有该语言学词的词性的第i从属词位的词的第i词内跳转概率，i为大于2小于等于n的正整数。

发明7、根据发明5所述的韵律词组词方法，其特征在于，所述从属词位包括第一从属词位和第二从属词位，所述第一从属词位为多词韵律词中紧邻所述首词位的词位，所述第二从属词位为多词韵律词中所述第一从属词位以外的从属词位，

该语言学词处于第一从属词位的概率＝在韵律词内从首词位的词跳转到该语言学词的词性的词内跳转概率；

该语言学词处于第二从属词位的概率＝在韵律词内从第一从属词位的词跳转到该语言学词的词性的的词的词内跳转概率。

发明8、根据发明1所述的韵律词组词方法，其特征在于，所述方法还包括：

分词步骤，划分出所述输入的句子中的各语言学词。

发明9、根据发明1所述的韵律词组词方法，其特征在于，输入的句子是汉语、英语、德语、日语、韩语、印度语、拉丁语、法语、蒙古语中的任一种。

发明10、根据发明1所述的韵律词组词方法，其特征在于，所述方法还包括分句划分步骤，将输入的句子划分为分句，并将划分出的分句视为所述输入的句子进行处理。

发明11、根据发明1所述的韵律词组词方法，其特征在于，所述方法还包括：局部最优韵律词组词路径优化步骤，当在所述输入的句子中存在韵律词短语边界或语调短语边界时，在局部最优韵律词组词路径优化步骤中计算所述韵律词短语边界或语调短语边界之前的所有局部韵律词组词路径的概率，并选取最优的局部韵律词组词路径。

发明12、根据发明1所述的韵律词组词方法，其特征在于，所述方法还包括：路径剪枝步骤，根据预定的标准减少路径的数目。

发明13、根据发明12所述的韵律词组词方法，其特征在于，所述预定的以下两种标准中的一种或两种：

绝对数量标准，是指按照概率大小排序，最多保留指定数目的路径，其余的删除；

范围标准，指保留与最大概率路径概率的相对差别在一定范围内的路径，其余删除。

发明14、根据发明12所述的韵律词组词方法，其特征在于，所述方法还包括

概率调整步骤(1101)，根据预定的先验知识对所述语言学词的在所属韵律词中的各可能候选词位的概率进行调整。

发明15、根据发明14所述的韵律词组词方法，其特征在于，所述预定的先验知识是指韵律词词长统计概率分布或名词对的相关概率。

发明16、一种韵律词组词装置，该装置包括：

词性获得单元，获得输入的句子中的各语言学词的词性；

词位获得单元，获得所述输入的句子中的各所述语言学词的在所属韵律词中的各可能候选词位以及处于各可能候选词位的概率；

路径获得单元，获得所有可能顺序组合，各所述可能组合顺序包括所述输入的句子中的每一个所述语言学词的一个可能候选词位；

概率计算单元，根据各所述语言学词处于其可能候选词位的概率，计算所述所有可能顺序组合中的各可能顺序组合的概率；以及

最终路径确定单元，根据所确定出的各可能顺序组合的概率，确定所述输入的句子中的各所述语言学词的词位。

发明17、根据发明16所述的韵律词组词装置，其特征在于，

所述词位获得单元对所述输入的句子中的各所述语言学词都设置所有可能词位，并根据各所述语言学词的词性及其在所述输入的句子中的位置，计算各所述语言学词处于各词位的各概率；以及

所述路径获得单元针对各所述语言学词的各可能词位，对所述输入句子的各语言学词的词位进行组合。

发明18、根据发明16所述的韵律词组词装置，其特征在于，

所述词位获得单元根据所述输入的句子中的各所述语言学词的词性及其在所述输入的句子中的位置，确定各所述语言学词的可能词位，并计算各所述语言学词处于各词位的各概率；以及

发明19、根据发明16所述的韵律词组词装置，其特征在于，

所述词位获得单元根据各所述语言学词的词性以及其在所述句子中的位置，利用以下公式计算其处于首词位的概率和处于非首词位的概率：

该语言学词为首位词的概率＝该语言学词的词性的词处于首词位的概率×跳转到以该语言学词的词性的词为首位词的韵律词的词间跳转概率；

该语言学词为非首位词的概率＝在韵律词内跳转到该语言学词的词性的词内跳转概率。

发明20、根据发明16所述的韵律词组词装置，其特征在于，

所述可能候选词位为以下词位中的一个：(1)由单个词组成的韵律词中的单个词，即独立词位；(2)由两个或更多个词组成的韵律词中的第一个词，即首词位；(3)由两个或更多个词组成的韵律词中的非第一个词，即从属词位；

所述词位获得单元根据各所述语言学词的词性以及其在所述句子中的位置，利用以下公式计算处于独立词位的概率、处于首词位的概率和处于从属词位的概率：

该语言学词为独立词位的概率＝该语言学词的词性的词为独立词位的概率×跳转到以该语言学词的词性的词为独立词的韵律词的词间跳转概率；

该语言学词为首词位的概率＝该语言学词的词性的词为首词位的概率×跳转到以该语言学词的词性的词为首词位的韵律词的词间跳转概率；以及

该语言学词为从属词位的概率＝在韵律词内跳转到该语言学词的词性的词内跳转概率。

发明21、根据发明20所述的韵律词组词装置，其特征在于，

所述从属词位包括n个从属词位，n为正整数；

所述词位获得单元利用以下公式计算处于第i从属词位的概率：

该语言学词为第1从属词位的概率＝在韵律词内从所述首词位跳转到该语言学词的词性的第1从属词位的词内跳转概率，

该语言学词为第i从属词位的概率＝第i-1个从属词位跳转到该语言学词的词性的第i从属词位的词内跳转概率，i为大于2小于等于n的正整数。

发明22、根据发明20所述的韵律词组词装置，其特征在于，所述从属词位包括第一从属词位和第二从属词位，所述第一从属词位为多词韵律词中紧邻所述首词位的词位，所述第二从属词位为多词韵律词中所述第一从属词位以外的从属词位，

该语言学词为第一从属词位的概率＝在韵律词内从首词位跳转到该语言学词的词性的词内跳转概率；

该语言学词为第二从属词位的概率＝在韵律词内从第一从属词位跳转到该语言学词的词性的词内跳转概率。

发明23、根据发明16所述的韵律词组词装置，其特征在于，所述装置还包括：

分词单元，该分词单元划分出所述输入的句子中的各语言学词。

发明24、根据发明16所述的韵律词组词装置，其特征在于，输入的句子是汉语、英语、德语、日语、韩语、印度语、拉丁语、法语、蒙古语中的任一种。

发明25、根据发明16所述的韵律词组词装置，其特征在于，所述装置还包括分句划分单元，所述分句划分单元将输入的句子划分为分句，并将划分出的分句视为所述输入的句子进行处理。

发明26、根据发明16所述的韵律词组词装置，其特征在于，所述装置还包括：局部最优韵律词组词路径优化单元，当在所述输入的句子中存在韵律词短语边界或语调短语边界时，在局部最优韵律词组词路径优化单元中计算所述韵律词短语边界或语调短语边界之前的所有局部韵律词组词路径的概率，并选取最优的局部韵律词组词路径。

发明27、根据发明16所述的韵律词组词装置，其特征在于，所述装置还包括：路径剪枝单元，根据预定的标准减少路径的数目。

发明28、根据发明27所述的韵律词组词装置，其特征在于，所述预定的以下两种标准中的一种或两种：

发明29、根据发明16所述的韵律词组词装置，其特征在于，所述装置还包括

概率调整单元(1101)，根据预定的先验知识对所述语言学词的在所属韵律词中的各可能候选词位的概率进行调整。

发明30、根据发明29所述的韵律词组词装置，其特征在于，所述预定的先验知识是指韵律词词长统计概率分布或名词对的相关概率。

应该注意，上面的装置和方法可以由纯硬件实现，也可以仅由软件实现，也可以由计算机软件和硬件相配合实现。在计算机实现本发明时，该计算机包含工作所必须的操作系统等。

发明31、一种计算机程序，在被计算机或逻辑部件执行或被计算机或逻辑部件解释或编译后执行时可以使所述计算机或逻辑部件实现以下步骤：

词性获得步骤，获得输入的句子中的各语言学词的词性；

即，实现发明1中所述的方法。

发明32、一种计算机程序，在被计算机或逻辑部件执行或被计算机或逻辑部件解释或编译后执行时可以使所述计算机或逻辑部件实现发明16的韵律词组词装置。

发明33、一种计算机可读存储介质，用于存储发明31和32的计算机程序。

所述存储介质可以是CD、DVD、磁盘、磁带、闪存、硬盘驱动器、光盘驱动器、MO、ROM、RAM等等。

简而言之，本发明一是提出了采用全局韵律词组词概率估计的方法来进行韵律词组词，因此能够刻画相邻韵律词边界之间的相互依赖性。二是，本发明根据语言学词在其所属韵律词中的位置定义了四种词位，并经过统计训练得到各个词位、词性之间的转移概率，因此从一定程度上使得训练数据不再稀疏，概率模型也更加鲁棒。

附图说明

当结合附图阅读本发明的说明时，本发明的以上以及其它特征、目的、优点将更加显而易见。在附图中：

图1示出了本发明的学习训练装置的示意性框图；

图2示出了依据本发明第一实施方式的韵律词组词装置的结构框图；

图3A示出了韵律词组词部的结构框图；

图3B示出了依据本发明的一种实施方式，图3A的韵律词组词部的处理的流程图；

图3C示出了依据本发明的另一种实施方式的韵律词组词部的处理的流程图；

图4给出了语言学词的词位转移图；

图5详细描述了概率计算步骤的处理流程；

图6示出了路径存贮步骤的处理流程；

图7示出了当前路径库的具体实施例；

图8详细描述了最优韵律词组词路径获取步骤的处理流程；

图9示出了依据本发明第二实施方式的韵律词组词装置的框图；

图10详细描述了韵律词组词部的处理流程；

图11给出了约束条件限制步骤(约束条件应用单元)的详细描述；

图12描述了约束条件应用步骤中的一个具体的约束条件应用；以及，

图13描述了条件约束步骤中的另外一个具体的约束条件应用。

具体实施方式

下面参照附图详细描述本发明的具体实施方式。在描述本发明的具体实施方式之前，首先对本发明所涉及的一些名词等进行说明。

韵律结构标注语料库

就中文而言，韵律结构标注语料库是指至少进行了分词、标注了词性以及韵律结构的语料库。

下面是可能的一种标注文本格式示例。这个标注格式中含有分词、拼音、词性以及韵律结构信息。其中，“|”、“||”、“|||”分别代表韵律短语、韵律短语和语调短语。“@”用于标注句尾。

8月(ba1 yve4)/t | 20日(er4 sh％2 r％4)/t | 清晨(qing1 chen2)/t，|||一(yi1)/m支(zh％1)/q满载(man3 zai4)/v || 锅碗瓢盆(guo1 wan3 piao2pen2)/1、|| 桌椅(zhuo1 yi3)/n、|| 调料(tiao2 liao4)/n、|| 发电机(fa1 dian4ji1)/n || 等(deng3)/u | 家当(jia1 dang4)/n的(de5)/u || 流动(liu2dong4)/vn |支前(zh％1 qian2)/vn 车队(che1 dui4)/n || 从(cong2)/p郑州(zheng4zhou1)/ns | 出发(chu1 fa1)/v了(le5)/y。@

注：除了词、词性和韵律结构边界如前所述外，这里又增加拼音信息。括号内的数字代表声调，其中1代表阴平、2代表阳平、3代表上声、4代表去声、5代表轻声。譬如：“ba1y ve4”为词“8月”的拼音，“er4sh％2 r％4”为词“20日”的拼音，这里个别声韵母的表述方式根据实验语音学的知识而定，与传统的拼音学表述有一定的区别。譬如“yue4”用“yve4”表示，“shi2”用“sh％2”表示等。

应该注意，本发明的韵律结构标注语料库可以不包含拼音(音标)信息。

词位的定义

对于每个语言学上的词，确定它们在其所属韵律词中的位置类型，即词位。

下面给出了一种包含四种位置类型的词位定义，这四种词位类型可以由B₁，B₂，M和I来表示，其中：

B₁表示一个语言学的词处于它所属的、由多个语言学词构成的韵律词中的开始位置，即所属韵律词中的第一个语言学词；

B₂表示一个语言学的词是它所属的、由两个或更多个语言学词构成的韵律词(多词韵律词)中的第二个语言学词；

M表示一个语言学的词是它所属的多词韵律词中的第三个或更后面的语言学词；以及

I表示一个语言学的词是只含一个语言学词的韵律词(单词韵律词)中的那个语言学词。

应该注意，虽然上面列举了四种位置类型的词位，但词位的种类可以更多或更少。

例如，可以将词位分为两类，即首位词位和非首位词位。首位词位表示该语言学词位于所属的韵律词的首位，对应于上面描述的I和B1。非首位词位表示该语言学词位于所属的韵律词的非首位的位置，对应于上面描述的B2和M。

再例如，可以将词位分为三类，即独立词位、首词位和从属词位。独立词位表示该语言学词是所属的、由单个语言学词构成的韵律词中的语言学词，对应于以上描述的I。首词位表示处于它所属的、由多个语言学词构成的韵律词中的开始位置，即所属韵律词中的第一个语言学词，对应于上面描述的B1；从属词位表示处于它所属的、由多个语言学词构成的韵律词中的非开始位置，即所属韵律词中的第一个语言学词之外的语言学词，对应于上面描述的B2、M。

可以进一步将上面的从属词位细分，例如分为第一从属词位(对应于B2)、第二从属词位(所述韵律词中的第3个词，也称为B3)、第三从属词位(B4)、...等，所分的详细程度根据需要而定。

韵律词词位标注语料

在训练阶段，韵律结构标注语料库中的标注句子可以很容易地自动加上词位信息，下面是一个转换例子：

晚饭(wan3 fan4)/n 后(hou4)/f ||| 我们(wo3 men5)/r | 决定(jve2ding4)/v | 先(xian1)/d去(qv4)/v逛逛(guang4 guang5)/v || 张家港(zhang1jia1 gang3)/ns的(de5)/u | 市容(sh％4 rong2)/n。

加上词位信息后格式如下：

晚饭(wan3 fan4)/n/B1后(hou4)/f/B2 ||| 我们(wo3 men5)/r/I | 决定(jve2 ding4)/v/I |先(xian1)/d/B1去(qv4)/v/B2逛逛(guang4 guang5)/v/M ||张家港(zhang1 jia1 gang3)/ns/B1的(de5)/u/B2|市容(sh％4 rong2)/n/I。@

这种加注了词位信息的语料称为韵律词词位标注语料。

韵律词组词路径

对于任意一个输入的句子，在进行完自动分词、词性标注处理后，该句子可以如下表示：

W＝w₁w₂…w_n-1w_n。设i＝1，2，…，n(n为正整数)表示语言学词在句子中的顺序编号。w₁表示第i位置的语言学词。

在增加了词位信息之后，该句子的可能的韵律词组词结果PW(即韵律词组词路径)可以写成如下形式：

PW＝w₁s₁w₂s₂…w_n-1s_n-1w_ns_n

其中s_i∈{B₁，B₂，M，I}，i＝1，2，…，n

由于，s_i的取值可以有多个，即在一个句子中，根据其词性和在句子中的位置，s_i可能有取多于一个值的可能性。因而，一个句子可能有多个韵律词组词路径。

韵律词组词路径也可以表述为输入的句子中的各所述语言学词的在所属韵律词中的各可能候选词位的可能的顺序组合。

基于词位信息的全局韵律词组词概率估计

这样，韵律词组词的目标就是从所有可能的韵律词组词路径中去寻找最优的韵律词组词路径PW^*，

{PW}^{*} = \max_{s_{1}, s_{2}, \cdot \cdot \cdot, s_{n - 1}} P (w_{1} s_{1} w_{2} s_{2} \cdot \cdot \cdot w_{n - 1} s_{n - 1} w_{n}) - - - (1)

公式(1)可以由下式来近似计算，

{PW}^{*} = \max_{s_{1}, s_{2}, \cdot \cdot \cdot, s_{n - 1}} P (w_{1} s_{1} w_{2} s_{2} \cdot \cdot \cdot w_{n - 1} s_{n - 1} w_{n})

\approx \max_{s_{1}, s_{2}, \cdot \cdot \cdot, s_{n - 1}} {P ({pos}_{1}) P (s_{1} | {pos}_{1}) P (s_{2}, {pos}_{2} | s_{1}, {pos}_{1}) - - - (2)

\cdot \cdot \cdot P (s_{n - 1}, {pos}_{n - 1} | s_{n - 2}, {pos}_{n - 2}) P (s_{n}, {pos}_{n} | s_{n - 1}, {pos}_{n - 1})}

式中pos_i表示句子中第i(i小于等于n)位置的语言学词w_i的词性。P(s₁|pos₁)表示词性pos₁的语言学词w_i处于词位s₁的可能性(概率)。P(s_i+1，pos_i+1|s_i，pos_i)表示在前一位置i的语言学词w_i的词性为pos_i、词位为s_i的情况下，位于位置i+1的词性为pos_i+1的词位于词位s_i+1的可能性(概率)。

也即整个韵律词组词路径的概率是各个语言学词取其词位的概率的乘积。

由于公式(2)中的P(pos₁)是一个常量，因此公式(2)可以简化如下：

{PW}^{*} = \max_{s_{1}, s_{2}, \cdot \cdot \cdot, s_{n - 1}} P (w_{1} s_{1} w_{2} s_{2} \cdot \cdot \cdot w_{n - 1} s_{n - 1} w_{n})

\approx \max_{s_{1}, s_{2}, \cdot \cdot \cdot, s_{n - 1}} {P (s_{1} | {pos}_{1}) P (s_{2}, {pos}_{2} | s_{1}, {pos}_{1}) - - - (3)

\cdot \cdot \cdot P (s_{n - 1}, {pos}_{n - 1} | s_{n - 2}, {pos}_{n - 2}) P (s_{n}, {pos}_{n} | s_{n - 1}, {pos}_{n - 1})}

其中，当s_i＝B₁∨I，即处于首词位时，P(s_i，pos_i|s_i-1，pos_i-1)用如下公式来近似计算。

P(s_i，pos_i|s_i-1，pos_i-1)

≈P(s＝B₁orI，pos＝pos_j|s_prev＝B₂orMorI，pos_prev＝pos_i)P(s_i|pos_i) (4)

＝P_jump(pos_i|pos_i-1)P(s_i|pos_i)

式中P(s＝B₁orI，pos＝pos_j|s_prev＝B₂orMorI，pos_prev＝pos_i)表示前一位置的语言学词的词性pos_prev为词性pos_i、前一位置语言学词的词位s_prev为B₂或者为M或者为I的条件下，当前位置语言学词的词性pos为词性pos_j、词位为B1或者为I的可能性(概率)。P(s_i|pos_i)表示词性pos_i的语言学词处于词位s_i的可能性(概率)。P_jump(pos_i|pos_i-1)，也就是韵律词间词位跳转概率，表示两个韵律词之间，从前一个韵律词最后一个语言学词词性为pos_i-1跳转到后一个韵律词第一个语言学词词性为pos_i的可能性(概率)。

从以上的说明中可以看出要计算韵律词组词路径的概率就需要获知各词性的词处于首词位(B1、I)的概率、从前一词性的词跳转到以该词性词为首词位的韵律词的概率的词间跳转概率、以及在同一韵律词内从前一词性的词跳转到该词性的词的词内跳转概率。

这可以通过学习训练得到。

学习训练

图1示出了本发明的学习训练装置的示意性框图。

如图1A所示，根据本发明的一种实施方式的学习训练装置包括词位信息生成单元102和概率训练单元104。词位信息生成单元102根据韵律结构标注语料库101(如前所述，韵律结构标注语料库101是进行了韵律结构标注的语料库)中韵律词的划分，给每个语言学上的词加上其在所属韵律词中的词位信息。经过词位信息生成单元102处理后得到的含有词位信息的韵律词词位标注语料在图中被标志为103。概率训练单元104从韵律词标注语料中学习词位与词性之间的关系，获取各种词位与词性之间的条件概率知识，这些词位与词性之间的条件概率知识将用来对输入的自动分词及词性标注序列进行韵律词组词。训练得到的知识库存储于条件概率知识库105中。

具体地，例如在上例的情况下，词位信息生成单元102把“|支前(zh％1 qian2)/vn车队(che1 dui4)/n||”，转换成“支前B1车队B2”。

图1B示出了概率训练单元104的结构框图。如图1B所示，依据本发明一种实施方式的概率训练单元104包括首词位概率训练部201、韵律词内词位转移概率训练部202以及韵律词间词位跳转概率训练部203。

首词位概率训练部201、韵律词内词位转移概率训练部202和韵律词间词位跳转概率训练部203都利用最大似然估计的方法对韵律词标注语料103进行学习，获得的相关概率信息保存在条件概率知识库105中。当然，首词位概率训练部201、韵律词内词位转移概率训练部202和韵律词间词位跳转概率训练部203也可以利用其它方法进行学习。

首词位概率训练部201估计下面某词性为两种首词位(B₁、I)的概率：

(一)某词性出现在单词韵律词中的概率，

P (s = I | pos = pos_i)

= \frac{C (s = I, pos = pos_i)}{C (s = I, pos = pos_i) + C (s = B_{1}, pos = pos_i)}

P(s＝I|pos＝pos_i)表示词性pos为pos_i时词位为I的条件概率。C(s＝I，pos＝pos_i)表示韵律结构标注语料库中词性pos为pos_i、词位为I的语言学词个数。C(s＝B₁，pos＝pos_i)表示韵律结构标注语料库中词性pos为pos_i、词位为B1的语言学词个数。

(二)某词性出现在含两个或两个以上语言学词的韵律词中首位的概率，

P (s = B_{1} | pos = pos_i)

= \frac{C (s = B_{1}, pos = pos_i)}{C (s = I, pos = pos_i) + C (s = B_{1}, pos = pos_i)}

P(s＝B₁|pos＝pos_i)表示词性pos为pos_i时词位为B1的条件概率，其他同上。

韵律词内词位转移概率训练部202估计下面两种韵律词内词位转移概率：

(一)韵律词内从B₁词位转移到B₂词位的概率(下文简称为韵律词内词位转移I概率)：

P (s = B_{2}, pos = pos_j | s_{prev} = B_{1}, {pos}_{prev} = pos_i)

= \frac{C (s_{prev} = B_{1}, {pos}_{prev} = pos_i, s = B_{2}, pos = pos_j)}{C (s_{prev} = B_{1}, {pos}_{prev} = pos_i)}

P(s＝B₂，pos＝pos_j|s_prev＝B₁，pos_prev＝pos_i)表示韵律词内从B₁词位、词性pos_prev为pos_i转移到B₂词位、词性pos为pos_j的条件概率。C(s_prev＝B₁，pos_prev＝pos_i，s＝B₂，pos＝pos_j)表示韵律结构标注语料库中满足B1词位词性为pos_i，B2词位词性为pos_j的所有韵律词的个数。C(s_prev＝B₁，pos_prev＝pos_i)表示韵律结构标注语料库中满足B1词位词性为pos_i的所有韵律词的个数。

(二)韵律词内从B₂词位或者M词位转移到M词位的概率(下文简称为韵律词内词位转移II概率)：

P (s = M, pos = pos_j | s_{prev} = B_{2} orM, {pos}_{prev} = pos_i)

= \frac{C (s_{prev} = B_{2} orM, {pos}_{prev} = pos_i, s = M, pos = pos_j)}{C (s_{prev} = B_{2} orM, {pos}_{prev} = pos_i)}

P(s＝M，pos＝pos_j|s_prev＝B₂orM，pos_prev＝pos_i)表示韵律词内从B2词位或者M词位、词性pos_prev为pos_i转移到M词位、词性pos为pos_j的条件概率。C(s_prev＝B₂orM，pos_prev＝pos_i，s＝M，pos＝pos_j)表示韵律结构标注语料库中满足B2词位或者M词位词性为pos_i，M词位词性为pos_j的所有韵律词的个数。C(s_prev＝B₂orM，pos_prev＝pos_i)表示韵律结构标注语料库中满足B2词位或者M词位词性为pos_i的所有韵律词的个数。

韵律词间词位跳转概率训练部203估计如下的韵律词边界处的词位跳转概率：

P_{jump} (pos = pos_j | {pos}_{prev} = pos_i)

= P (s = B_{1} orI, pos = pos_j | s_{prev} = B_{2} orMorI, {pos}_{prev} = pos_i)

= \frac{C (s_{prev} = B_{2} orMorI, {pos}_{prev} = pos_i, s = B_{1} orI, pos = pos_j)}{C ({pos}_{prev} = pos_i, pos = pos_j)}

在上式中，该跳转概率描述的是从一个韵律词的最后一个语言学词跳转到下一个韵律词的第一个语言学词的概率。

P_jump(pos＝pos_j|pos_prev＝pos_i)表示两个韵律词之间，从前一个韵律词的最后一个语言学词词性pos_prev为pos_i跳转到后一个韵律词第一个语言学词词性pos为pos_j的可能性(概率)。P(s＝B₁orI，pos＝pos_j|s_prev＝B₂orMorI，pos_prev＝pos_i)是另外一种表示方法，亦即前一个韵律词的最后一个语言学词的词位s_prev只可能是B2或M或I，而后一个韵律词第一个语言学的词位s只可能是B1或者I。

C(S_prev＝B₂orMorI，pos_prev＝pos_i，s＝B₁orI，pos＝pos_j)表示韵律结构标注语料库中满足前一个韵律词的最后一个语言学词的词位s_prev是B2或M或I、词性pos_prev为pos_i，而后一个韵律词第一个语言学的词位s是B1或者I、词性pos为po_j的所有韵律词的个数。C(pos_prev＝pos_i，pos＝pos_j)表示韵律结构标注语料库中满足前一个语言学词词性pos_prev为pos_i，后一个语言学词词性pos为pos_j联合出现的个数。

韵律词间词位跳转概率也可以用三元模型来表示，

P_{jump} (pos = pos_j | {pos}_{prev} = pos_i, {pos}_{prev - 1} = pos_k)

= P (s = B_{1} orI, pos = pos_j | s_{prev} = MorI, {pos}_{prev} = pos_i, {pos}_{prev - 1} = pos_k)

= \frac{C (s_{prev} = MorI, {pos}_{prev} = pos_i, s = B_{1} orI, pos = pos_j, {pos}_{prev - 1} = pos_k)}{C ({pos}_{prev} = pos_i, pos = pos_j, {pos}_{prev - 1} = pos_k)} .

条件概率知识库105中存储的内容例如如下表所示。

表1

词性	处于I词位的概率	处于B1词位的概率	从代词转换来的韵律词词间跳转概率	...	从代词转换来的韵律词词内转移概率(B1到B2)	...	从代词转换来的韵律词词内转移概率(从B2或者M到M)	...
词性	处于I词位的概率	处于B1词位的概率	从代词转换来的韵律词词间跳转概率	...	从代词转换来的韵律词词内转移概率(B1到B2)	...	从代词转换来的韵律词词内转移概率(从B2或者M到M)	...	名词	0.02538	0.02088	0.54483	0.00464	0.00091
...									名词	0.02538	0.02088	0.54483	0.00464	0.00091
...									助词	0.00001

下面详细描述本发明的实施方式。

第一实施方式

图2示出了依据本发明第一实施方式的韵律词组词装置的结构框图。

如图2所示，依据本发明第一实施方式的韵律词组词装置包括分词和词性标注部107和韵律词组词部109。分词和词性标记部107对输入文本106进行分词和词性标注处理。获得的结果写入分词和词性标注结果数据库108中，作为后续处理的基础。应该注意，有时分词和词性标记部107并不需要进行分词，因为例如英语等文本，在词与词之间已经有空格作为分隔符将词隔开了，这时不再需要进行分词的处理。分词和词性标记部107对应于本发明的分词单元和词性标记单元。

韵律词组词部109在输入文本的分词和词性标注结果上，利用词位与词性之间的条件概率知识，获得最优的韵律词组词结果110。

图3A示出了韵律词组词部的结构框图。如图3A所示，依据本发明的一种实施方式，所述韵律词组词部109包括词位获得单元1091、路径获得单元1092、概率计算单元1093以及最终路径确定单元1094。其中，在一种实施方式中，路径获得单元1092可以包括初始路径做成部和路径拓展部。此外在优选的情况下，还可以包括分句划分单元1095、局部路径优化单元1096以及路径剪枝单元1097。

图3B示出了依据本发明的一种实施方式，图3A的韵律词组词部的处理的流程图。

下面结合图3A和图3B对本发明的韵律词组词部的实施方式进行详细说明。

如图3B所示，首先在步骤301，词位获得单元获取当前输入句子中的第一个语言学词。

然后在步骤302判断目前处理的语言学词是否为当前句子中的第一个语言学词(例如，可以在进行分词时，由所述分词和词性标注部107给每个语言学词标上序号或带上指针，然后利用指针或标号来进行判断)。如果是第一个语言学词，则在步骤303首先获得词位信息，然后由初始路径做成部生成初始路径(即确定该词的可能的词位(I或B1))。如果不是第一个语言学词，则在步骤304判断当前词前是否有韵律短语边界或语调短语边界，如果有，则转步骤303生成初始路径，否则在步骤305首先由词位获得单元获得词位，然后由路径拓展部进行路径处理，即，结合目前已处理的语言学词生成所有可能的路径。

可以如下地进行韵律短语边界或语调短语边界的判断。在一些具体的应用系统(譬如语音合成系统)中，在前期，即韵律词组词之前的文本处理模块中(或者在分词和词性标注部中)，可以对于一些标点符号进行处理，并且在处理结果中加入这样的标志。譬如在汉语中，“，”、“。”、“！”、“？”后会加入语调短语边界标志，可以采用韵律结构标注语料库中的“|||”来标记语调短语边界。又如，对于“《论语》”中的书名号或者文本中的顿号会加入韵律短语边界，可以采用韵律结构标注语料库中的“||”来标记韵律调短语边界。

然后在步骤306，由词位获得单元1091利用条件概率知识库105中存贮的词位、词性条件概率知识来计算各个韵律词组词路径的概率。

在步骤307中负责存贮各个韵律词组词路径的有关信息，结果存入当前路径库308中。

然后在步骤309判断目前处理的语言学词是否为当前句子中的最后一个词。如果不是最后一个词，在步骤310判断当前词后是否有韵律短语或语调短语边界，如果有，在步骤311由局部路径优化单元1096提取局部最优韵律词组词路径(当在所述输入的句子中存在韵律词短语边界或语调短语边界时，计算所述韵律词短语边界或语调短语边界之前的所有局部韵律词组词路径的概率，并选取最优的(概率最大的)局部韵律词组词路径)，并在步骤312中将结果存入历史局部韵律词组词路径库。然后在步骤314中取下一词，继续下一个语言学词的处理，如果当前词后没有韵律短语或语调短语边界则直接转步骤314继续下一个语言学词的处理。如果在步骤309发现目前处理的语言学词是当前句子中的最后一个词，则转步骤313处理。

在步骤313由概率计算单元1093计算各路径的概率，并由最终路径确定单元1094确定最优韵律词组词路径。在该步骤中，概率计算单元1093通过将该路径中与各语言学词的词位相对应的概率相乘而获得路径的概率，最终路径确定单元1094从所有有效路径中选取路径的概率最大的韵律词组词路径，并将该韵律词组词路径输出。

另外，如果有必要，在步骤313中将从模块312中的历史局部韵律词组词路径库中提取之前的局部韵律词组词路径，然后拼接(譬如对于“ABC，DEFG”，假设2个局部最优结果是(AB)C和(DE)(FG)，那么拼接的结果就是“(AB)C，(DE)(FG)”)输出当前句子的最优韵律词组词路径。

应该注意，图3B中的步骤310和311以及步骤312的处理可以由局部路径优化单元1096完成，并且这些步骤可以省略。

图3C示出了依据本发明的另一种实施方式的韵律词组词部的处理的流程图。

如图3C所示，与图3B示出的韵律词组词部的流程相比，依据本发明的另一种实施方式的韵律词组词部增加了分句划分步骤3001等。下面对增加的步骤进行说明。首先，在步骤3001，由分句划分单元1095进行分句划分(这里的分句可以指由标点符号所得到的语法意义上的分句，也可以指由韵律词短语或语调短语边界所确定出的句子的一部分)，然后在步骤3002获取所分出的第一分句，然后针对所取的第一分句，执行步骤302、303、305、306、307、309、314等，这些步骤与上面结合图3B描述的相同，因此不予赘述，应该注意的是，由于使用了分句划分步骤，图3B中的步骤304、310、311和312等被省略。在步骤309的判断中判断出是当前分句的最后一个词时，在步骤3003判断是否还有未处理的下一分句，如果有，则在步骤3004取下一分句，并返回步骤301进行处理。直到处理完所有的分句(步骤3003的判断为否)。此时，在步骤313中，获取最优韵律词组词路径。另外，步骤313也可在步骤3003的判断之前执行。此时，相当于进行了局部路径的最优化，并且最优化的韵律词组词路径可以存入历史局部最优数据库中。

以前面定义的四种词位为例，图4给出了语言学词的词位转移图。

参照图4可知，对于第一个语言学词，将生成两条可能的路径，即第一个语言学词的词位分别是B₁和I词位。

路径拓展部则根据上一个语言学词的词位来拓展当前语言学词的词位。即：如果前一语言学词的词位为B₁，则当前语言学词的词位只能为B₂；如果前一语言学词的词位为B₂，则当前语言学词的词位可以为M、I或者B₁；如果前一语言学词的词位为M，则当前语言学词的词位可以为M、I或者B₁；如果前一语言学词的词位为I，则当前语言学词的词位可以为I或者B₁。截至到上一个语言学词词位的路径称为历史路径。

图5详细描述了图3中的概率计算步骤306的处理流程。

首先，在步骤502判断当前处理的语言学词的词位是否为韵律词首词位，即s_i＝B₁∨I？

(1)如果s_i＝B₁∨I，则在步骤503获得前一韵律词和当前韵律词之间的跳转概率(即韵律词词间跳转概率，如果是句子的开始，则设该概率为1.0)。然后在步骤504判断s_i＝B₁？，即是否为多个语言学词组成的韵律词的首词。如果是，则在步骤505计算当前词的词性出现在含两个或两个以上语言学词的韵律词中首位的概率；如果不是(步骤504，否)，则在步骤506计算当前词的词性出现在单词韵律词中的概率(即其词位为I的概率)。之后，在步骤510计算当前词位概率，即将步骤503所计算出来的韵律词间跳转概率与步骤505计算出来的概率相乘，作为当前词位于B1词位的概率，将步骤503所计算出来的韵律词间跳转概率与步骤506计算出来的概率相乘，作为当前词位于I词位的概率。

(2)如果当前语言学词的词位不是韵律词的首词位(步骤502，否)，则在步骤507继续判断s_i＝B₂？如果是，则在步骤508计算韵律词内词位转移I的概率；如果不是，则在步骤509计算韵律词内词位转移II的概率。之后，转步骤510的处理，即将步骤508计算出的概率作为当前语言学词的词位B2的概率，将步骤509计算出的概率作为当前语言学词的词位M的概率。

图6给出了路径存贮步骤307的详细描述。

如图6所示，首先，在步骤601取当前所有韵律词组词路径中的第一条路径。然后，在步骤602进行路径概率累积计算(即进行相乘运算，例如将先前算出的路径概率与当前词的词位概率相乘)，它负责累积历史路径的概率和/或在步骤306中给出的针对当前处理语言学词的相关概率，这个累积概率即为当前韵律词组词路径的概率。很显然，该计算结果可以在步骤313中使用。另外，另选地，该步骤602也可在步骤313中执行。

然后，在步骤603进行路径信息填写。填写的信息有当前韵律词组词路径概率(到当前语言学词为止整个路径的概率)以及其他相关信息。其他相关信息例如包括：本路径的编号、历史路径的编号、当前语言学词、当前语言学词词位、当前语言学词性、当前语言学词汉字个数、韵律短语或语调短语边界标记等。

随后，在步骤604中由路径剪枝单元1097进行路径剪枝。有的时候，输入句子很长，因此含有很多的语言学词，而其中又没有显式的韵律短语或语调短语边界指示符如逗号等。这样，随着语言学词数目的增加，韵律词组词路径的数目会以指数的形式增加。为了避免内存的过度使用以及从处理速度的角度出发，路径剪枝单元1097在步骤604采取一定策略来进行路径的剪枝，以保留适合操作处理的数目的路径。剪枝策略一般采用：绝对数目的限制、保留与最大概率路径概率的相对差别在一定范围内的路径等策略。绝对数目的限制剪枝策略，是指按照概率大小排序，最多保留指定数目的路径，其余的删除。另外一种剪枝策略就是，保留与最大概率路径概率的相对差别在一定范围内的路径，其余删除。这两种策略也可以结合使用。

然后，在步骤605检查是否所有韵律词组词路径处理完毕。如果否，则在步骤606取下一路径，然后转到步骤602的处理。如果步骤605的判断为是，则结束。

图7示出了当前路径库308的具体实施例。

在图中，给出了路径库的基本数据结构和一个实施例。在路径库中至少存储：路径编号、历史路径编号、当前语言学词、路径韵律词组词概率、当前语言学词词位、当前语言学词性、当前语言学词汉字个数、韵律短语或语调短语边界标记。

图8详细描述了最优韵律词组词路径获取步骤313的处理流程。

首先在步骤801，从模块308存贮的当前路径库中选取概率最大的路径。

然后在步骤802判断当前概率最大韵律词组词路径的起点是否为句子的第一个语言学词。如果不是，则重新回到步骤801，再从存贮的历史局部最优韵律词组词路径库中选取之前的概率最大路径，这个步骤可以多次，直到当前概率最大韵律词组词路径的起点是句子的第一个语言学词为止。如果当前概率最大韵律词组词路径的起点是句子的第一个语言学词，则在步骤803进行路径拼接处理。

应该注意，在不进行局部最优韵律词组词路径获取或不进行分句划分的情况下，可以省略步骤802和步骤803的处理。

另外，应该注意，在上面的描述中，以汉语为例进行的描述，但应该注意，本发明也可以应用于日语、韩语、英语、法语、拉丁语、孟加拉语、蒙古语、德语等。

还应该注意，虽然在上面的描述中，学习训练装置是与韵律词组词装置分开描述的，但实际上，它们可以集成在一起。

第二实施方式

图9示出了依据本发明第二实施方式的韵律词组词装置的框图。

第二实施方式的韵律词组词装置中与第一实施方式的韵律词组词装置中功能相同的模块将用与描述第一实施方式的韵律词组词装置的标号相同的标号描述，并且不再做具体描述。

如图9所示，第二实施方式的韵律词组词装置增加了约束条件知识库901。在第二实施方式的韵律词组词装置中，除了利用词位概率知识外，还利用其他一些统计或规则知识来进行韵律词组词。在此装置中，约束条件知识库901是其他一些统计或规则知识库，其中存贮用于辅助韵律词组词的一些统计或者规则知识。韵律词组词部902在进行组词时需要利用约束条件知识库901中的知识，其包括约束条件应用部(未示出)。

图10详细描述了韵律词组词部902的处理流程。

与图3B的流程向比较，图10的流程中增加了约束条件限制步骤1001。在该步骤中，利用知识库901中存贮的统计或规则知识计算相应的鼓励或抑制因子，该因子将被用来辅助韵律词组词。

图11给出了约束条件限制步骤1001(约束条件应用部)的详细描述。

首先在步骤1101取第一条韵律词组词路径。

在步骤1102取约束条件知识库901中的第一种约束条件。

在步骤1103判断是否可以应用当前约束条件。如果可以应用当前约束条件，则在步骤1104进行鼓励因子或抑制因子的计算，即根据约束条件知识库901中存储的统计规则或其它规则来计算鼓励因子或抑制因子(在后文中进行详细说明)，然后进入步骤1105处理。如果在步骤1103的判断为否，则直接转步骤1105的处理。

在步骤1105判断是否所有约束条件都已经处理完毕。如果否，取下一约束条件，然后转步骤1103。如果是，则转步骤1108。

步骤1108判断是否所有韵律词组词路径已经被处理完毕。如果没有，转步骤1107取下一路径继续处理。否则，结束。

另外，在第二实施方式中，路径概率累积步骤(见图6的步骤602)负责累积历史路径的概率、步骤306给出的针对当前处理语言学词的相关概率以及步骤1001中可能给出的所有鼓励或抑制因子，这个累积概率即为当前韵律词组词路径的概率。

图12描述了约束条件应用步骤1001中的一个具体的统计策略，即韵律词长度模型。

首先，在步骤1201判断当前处理的语言学词的词位是否为韵律词首词位，即s_i＝B₁∨I？

(1)如果s_i＝B₁∨I，即当前语言学词的词位是韵律词的首词位，则在步骤1202计算前一个韵律词的词长。然后在步骤1204中，由韵律长度模型因子计算部从模块1203韵律词长度模型知识库中查询相应韵律词词长的统计概率分布，即将该长度的韵律词出现的概率记为长度因子。

韵律词词长的统计概率分布，可以从韵律词标注语料中统计得到。

实际上，在加入了韵律词长度模型后，全局韵律词组词概率的近似计算公式(4)调整为下面的公式(5)：

{PW}^{*} = \max_{s_{1}, s_{2}, \cdot \cdot \cdot, s_{n - 1}} P (w_{1} s_{1} w_{2} s_{2} \cdot \cdot \cdot w_{n - 1} s_{n - 1} w_{n})

\approx \max_{s_{1}, s_{2}, \cdot \cdot \cdot, s_{n - 1}} {P (s_{1} | {pos}_{1}) P (s_{2}, {pos}_{2} | s_{1}, {pos}_{1}) - - - (5)

\cdot \cdot \cdot P (s_{n - 1}, {pos}_{n - 1} | s_{n - 2}, {pos}_{n - 2}) P ({pos}_{n} | s_{n - 1}, {pos}_{n - 1})

P (len (P W_{1})) P (len (P W_{2})) \cdot \cdot \cdot P (len (P W_{j}))}

公式(5)和公式(4)的区别就是加上了韵律词长度的概率，假设在某条路径上，一共组成了i个韵律词，分别为PW1、PW2、...、PWi，那么在公式(4)的基础上，乘上这i个韵律词的长度概率，即P(len(PW₁))P(len(PW₂))…P(len(PW_j))}。

(2)如果当前语言学词的词位不是韵律词的首词位，结束。

采用韵律词长度模型，可以大大降低韵律词组词的错误率。一个实现实例可以如下：

采用一个韵律词内的音节个数作为该韵律词的长度。下表就是从一个进行了韵律结构标注的语料库中统计得到的不同长度韵律词的出现频率。

音节数	出现频率
音节数	出现频率	0	0.000000001
1	0.088689197	0	0.000000001
1	0.088689197	2	0.386794296
3	0.258058214	2	0.386794296
3	0.258058214	4	0.210588005
5	0.044930651	4	0.210588005
5	0.044930651	6	0.008009377

从上表可以看出，采用公式(5)，相对来说，将鼓励两个、三个、四个字组成一个韵律词，相对来说，不鼓励一个字或五六个字组成一个韵律词。

采用如上所述的韵律词长度模型，有效地利用了韵律词长度的经验分布信息，从而能够在一定程度上降低韵律词组词的错误率。

例如：“为了(wei4 le5)/p大家(da4 jia1)/r，小院(xiao3 yuan4)/n里(li3)/f的(de5)/u人们(ren2 men5)/n 尽管(jin2 guan3)/d不(bu4_H)/d情愿(qing2 yuan4)/v 离开(li2 kail)/v 他们(ta1 men5)/r的(de5)/u故居(gu4ju1)/n，可(ke3)/c还是(hai2 shi4)/d骂骂咧咧(ma4 ma5 lie1 lie1)/z地(de5)/u把(ba3)/p 家具(jia1 ju4)/n 搬(ban1)/v 到(dao4)/v 汽车(qi4 che1)/n上(shang4)/f。”

如果没有采用韵律词长度模型，处理结果如下：

“DPPath:为了大家DPPath:小院里的|人们|尽管不情愿|离开他们的|故居DPPath:可|还是|骂骂咧咧地|把家具|搬到|汽车上”

采用了韵律词长度模型，处理结果如下：

“DPPath:为了大家DPPath:小院里的|人们|尽管不情愿|离开|他们的|故居DPPath:可还是|骂骂咧咧地|把家具|搬到|汽车上”

可以看到，在这句话中有两个地方的韵律词组词被韵律词长度模型进行了修正，一是“离开|他们的”，二是“可还是”。前者“离开”和“他们的”被正确地划分成了两个韵律词，后者“可”和“还是”被正确地组为一个韵律词。

图13描述了条件约束部(步骤1001)中的另外一个具体的约束条件应用，即名词词对相关因子。

首先，在步骤1301判断当前处理的语言学词的词性是否为名词，如果不是，结束。如果是，在步骤1302判断前一语言学词的词性是否为名词，如果不是，结束。如果是，即当前语言学词和前一语言学词均为名词，则在步骤1304中由条件约束部中的名词词对相关度计算部根据名词短语相关度知识库1303中存贮的知识来计算这两个名词之间的相关度，并将该相关度列为调整因子(鼓励或惩罚因子)。

名词词对相关因子用于刻画相邻的两个名词组成名词短语的可能性。由于很多名词短语在韵律词的层面上属于一个韵律词，因此名词词对相关鼓励或惩罚因子被设计用来避免在一些名词短语内的两个名词之间错误地插入韵律词边界。

名词短语相关度针对每个名词来设计，分为前向相关度和后向相关度。

{NounPhraseFactor}_{forward} (w = word, pos = noun)

= \frac{C (w = word, pos = noun, {pos}_{next} = noun)}{C (w = word, pos = noun)}

其中，C(w＝word，pos＝noun，pos_next＝noun)表示韵律结构标注语料库中当前语言学词word的词性pos为名词(noun)，并且之后的语言学词的词性也为名词的名词短语的个数。C(w＝word，pos＝noun)表示韵律结构标注语料库中词性为名词的当前语言学词word的个数。

{NounPhraseFactor}_{backward} (w = word, pos = noun)

= \frac{C ({pos}_{prev} = noun, w = word, pos = noun)}{C (w = word, pos = noun)}

其中，C(pos_prev＝noun，w＝word，pos＝noun)表示韵律结构标注语料库中当前语言学词word的词性为名词，并且之前语言学词的词性pos_prev也为名词的名次短语个数。C(w＝word，pos＝noun)表示韵律结构标注语料库中词性为名词的当前语言学词word的个数。

名词短语相关度可以从有分词和词性标注的语料库训练得到。

基于名词短语前向相关度和后向相关度，可以采用如下面一定的公式来计算两个名词之间的词对相关因子。

Factor(word₁，word₂)

＝f(NounPhraseFactor_forward(w＝word₁，pos＝noun)，NounPhraseFactor_backward(w＝word₂，pos＝noun))

其中，f(NounPhraseFactor_forward(w＝word₁，pos＝noun)，NounPhraseFactor_backward(w＝word₂，pos＝noun))表示由NounPhraseFactor_forward(w＝word₁，pos＝noun)和NounPhraseFactor_backward(w＝word₂，pos＝noun)作为变量的某种函数。譬如，两个相邻的语言学词，如果都是名词，那么我们考察前一个语言学词的名词短语前向相关度和后一个语言学词的名词短语后向相关度，如果这两个因子的值都比较大，那么这两个词组成名词短语的可能性就比较大。这个词对相关因子的使用，如同长度概率模型的使用。

采用名词词对相关因子后可以有效地解决一些名词短语的问题。

例如，在采用名词词对相关因子之前，“这/r位/q传奇/n人物/n”被处理为“这位传奇|人物”。而在采用名词词对相关因子之后，经过计算，两个名词“传奇”和“人物”之间具有很高的相关度，因此不鼓励在这两个名词之间插入韵律词边界。这样，新的韵律词组词结果为“这位|传奇人物”。

尽管本发明的示例性实施方式的前述说明是例示性和说明性的，并非旨在穷尽性地说明本发明或将本发明限制成所公开的确切形式。显见的是，本领域技术人员将清楚许多修改例和变型例。因而，本发明的范围由权利要求及其等同物来限定。

Claims

1、一种韵律词组词方法，该方法包括以下步骤：

词性获得步骤，获得输入的句子中的各语言学词的词性；

2、根据权利要求1所述的韵律词组词方法，其特征在于，

3、根据权利要求1所述的韵律词组词方法，其特征在于，

4、根据权利要求1所述的韵律词组词方法，其特征在于，

5、根据权利要求1所述的韵律词组词方法，其特征在于，

6、根据权利要求5所述的韵律词组词方法，其特征在于，

所述从属词位包括n个从属词位，n为正整数；

7、根据权利要求5所述的韵律词组词方法，其特征在于，所述从属词位包括第一从属词位和第二从属词位，所述第一从属词位为多词韵律词中紧邻所述首词位的词位，所述第二从属词位为多词韵律词中所述第一从属词位以外的从属词位，

8、根据权利要求1所述的韵律词组词方法，其特征在于，所述方法还包括：局部最优韵律词组词路径优化步骤，当在所述输入的句子中存在韵律词短语边界或语调短语边界时，在局部最优韵律词组词路径优化步骤中计算所述韵律词短语边界或语调短语边界之前的所有局部韵律词组词路径的概率，并选取最优的局部韵律词组词路径。

9、一种韵律词组词装置，该装置包括：

词性获得单元，获得输入的句子中的各语言学词的词性；

10、根据权利要求9所述的韵律词组词装置，其特征在于，

所述词位获得单元根据各所述语言学词的词性以及其在所述句子中的位置，利用以下公式计算各所述语言学词处于独立词位的概率、处于首词位的概率和处于从属词位的概率：

该语言学词处于从属词位的概率＝词间跳转概率，所述词间跳转概率为在韵律词内跳转到该语言学词的词性的概率。