CN102063898B - 韵律短语预测方法 - Google Patents

韵律短语预测方法 Download PDF

Info

Publication number
CN102063898B
CN102063898B CN201010294552XA CN201010294552A CN102063898B CN 102063898 B CN102063898 B CN 102063898B CN 201010294552X A CN201010294552X A CN 201010294552XA CN 201010294552 A CN201010294552 A CN 201010294552A CN 102063898 B CN102063898 B CN 102063898B
Authority
CN
China
Prior art keywords
boundary
maximum entropy
phrase
grammar
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010294552XA
Other languages
English (en)
Other versions
CN102063898A (zh
Inventor
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Original Assignee
JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd filed Critical JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority to CN201010294552XA priority Critical patent/CN102063898B/zh
Publication of CN102063898A publication Critical patent/CN102063898A/zh
Application granted granted Critical
Publication of CN102063898B publication Critical patent/CN102063898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种韵律短语预测方法,包括:最大熵模型预测,分析句子的特征,并对韵律短语进行预测;语法边界预测,分析句子的特征,根据语法规则对语法边界进行预测;对最大熵模型预测结果进行调整,通过预测出的语法边界,对最大熵模型预测结果进行调整,并根据调整后的概率结果确定韵律短语边界。本发明的韵律短语预测方法中通过对句子进行成分分析,得出语法短语边界,然后对最大熵模型的预测结果进行调整。将语法短语边界处是韵律短语边界的概率增大,将非语法短语边界处是韵律短语边界的概率减小,提高了韵律短语预测的准确性。

Description

韵律短语预测方法
技术领域
本发明涉及一种语音合成技术领域,特别是涉及一种韵律短语预测方法。 
背景技术
随着技术的发展,语音合成技术已经越来越多的受到人们的关注。现阶段合成语音的可懂度已经达到相当高的水平,但自然度还不够高,韵律层次预测的不准确。 
由于现有的语音合成系统大多只能生成固定语调模式的语句,对语句中的停顿、轻重、长短、速度及升降调等出现不当处理,使合成语音听起来枯燥、呆板。韵律生成的主要障碍在于确定韵律的层次,常见的韵律层次是把韵律结构自下而上划分为韵律词、次韵律短语、主韵律短语和呼吸群。近年来,越来越多的研究都集中于预测韵律结构。多通过首先设计或收集一个标注好的语料数据库,然后用某种学习算法建立一个训练模型,并用从数据库中提取出的语法和韵律特征参数对模型进行训练,从而得到最终的韵律预测模型。 
然而,因为汉语语言结构非常复杂,采用目前常见韵律预测模型对于韵律短语边界预测的正确率并不高,阻碍了自然度的进一步提高。 
发明内容
本发明所要解决的技术问题是提供一种韵律短语预测方法,能够提高韵律短语边界预测的准确性。 
为了解决上述问题,本发明公开了一种韵律短语预测方法,包括:最大熵模型预测,分析句子的特征,并对韵律短语进行预测;语法边界预测,分析句子的特征,根据语法规则对语法边界进行预测;对最大熵模型预测结果进行调整,通过预测出的语法边界,对最大熵模型预测结果进行调整,并根据调整后的概率结果确定韵律短语边界;
其中,所述语法边界预测还包括根据语法规则将句子进行短语划分,并解析为多个短语组合的形式,然后根据句子的语法结构规则,分析出语法边界; 
所述对最大熵模型预测结果的调整包括将最大熵模型预测结果中语法边界处是韵律短语边界的概率增大,非语法边界处是韵律短语边界的概率降低。 
进一步地,该最大熵模型预测之前还包括建立最大熵模型,建立最大熵模型包括选择最大熵模型特征、准备训练数据及最大熵模型训练。 
进一步地,该最大熵模型预测包括解析出句子中分词边界等特征,并根据确定的特征进行标注,然后将标注后的数据送入最大熵模型进行预测,得出词与词之间是否为韵律短语边界的概率。 
进一步地,该最大熵模型解析出的特征包括前一词的词性、词长,后一词的词性、词长或者词性与词长的组合。 
进一步地,该语法边界预测之前还包括总结语法规则,并根据语法规则确定句子中的短语在句中的成分及句子的结构。 
进一步地,该语法规则的总结根据汉语结构特点进行。 
与现有技术相比,本发明具有以下优点: 
本发明的韵律短语预测方法中首先采用最大熵模型对韵律短语进行预测,然后对句子进行成分分析,得出语法短语边界,如主谓边界、谓宾边界等。然后通过这些语法短语边界对最大熵模型的预测结果进行调整。将语法短语边界处是韵律短语边界的概率增大,将非语法短语边界处是韵律短语边界的概率减小。因为韵律短语边界一定是语法短语边界,而语法短语边界不一定是韵律短语边界,因此提高了韵律短语预测的准确性。 
附图说明
图1是本发明实施例的韵律短语预测方法的流程图。 
图2是图1所示韵律短语预测方法中的语法规则分析的流程图。 
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。 
请参阅图1,本发明的韵律短语预测方法首先采用最大熵模型对韵律短语边界进行预测;然后对句子进行成分分析,得出语法短语边界,如主谓边界、谓宾边界等。然后通过这些语法短语边界对最大熵模型的预测结果进行调整。将语法短语边界处是韵律短语边界的概率增大,将非语法短语边界处是韵律短语边界的概率减小。因为韵律短语边界一定是语法短语边界,而语法短语边界不一定是韵律短语边界,故若最大熵模型预测出的韵律短语边界不在语法短语边界上,则预测错误的可能性就比较大。下面对本发明的韵律短语预测方法进行详细说明。 
在预测之前还包括建立最大熵模型及总结语法规则。其中,建立最大熵模型包括: 
(1)选择最大熵模型特征 
选择与韵律短语位置有关的特征作为最大熵模型的特征,例如,前一词的词性、词长,后一词的词性、词长,或者前一词的词性与词长的组合。 
(2)准备训练数据 
在选择最大熵模型的特征之后,进行训练数据的准备,需要确定模型中分词边界的特征。如前一词的词性、词长,后一词的词性、词长等等,即上述模型中的x。然后进行数据准备,准备一些语料,并根据确定的特征进行标注。 
考虑一个随机过程p(y|x),它根据能观测到的向量x,以一定的概率输出某个y,y属于一个有限集合Y。在韵律短语边界预测中,Y={1,0},分别表示韵律短语边界和非韵律短语边界。x代表与韵 律短语位置有关的特征,即待判决的边界的上下文环境,包括前一词的词性、词长,后一词的词性、词长等等。为了重建随机过程p(y|x),我们对其输出进行采样,得到N个训练样例(x1,y1),(x2,y2),......,(xN,yN)。由于这些训练样例由此随机过程产生,所以我们假设某个事件在训练样例中的经验概率,等于该事件在已知p(y|x)时的期望概率。 
(3)训练最大熵模型 
在准备好训练数据后,利用准备好的训练数据来训练最大熵模型。将上一步标注了词性、词长、正确的韵律短语位置后的数据送入最大熵模型训练,数据格式为:是否是韵律短语边界,特征1,特征2,特征3,......。 
某个事件可以用一个表征函数fi(x,y)来表示。如果样例(xj,yj)中发生了此事件,则fi(xi,yi)=1;否则为0。例如:如果x满足右边第一个词是连词,且y为韵律短语边界,则fi(x,y)=1;其他情况,则fi(x,y)=0。该事件在训练样例中的经验概率表示为: 
p ( f i ) = Σ x , y p ~ ( x , y ) f i ( x , y ) - - - ( 1 )
其中, 是样例(x,y)在训练样例中出现的概率, 
Figure BSA00000287045700043
在训练语料中的出现次数。 
如果已知p(y|x),则事件fi(x,y)的期望概率表示为: 
p ( f i ) = Σ x , y p ~ ( x ) p ( y | x ) f i ( x , y ) - - - ( 2 )
其中,p(x)是训练例中x的概率。 
根据我们的假设有 
Figure BSA00000287045700046
即: 
Σ x , y p ~ ( x ) p ( y | x ) f i ( x , y ) = Σ x , y p ~ ( x , y ) f i ( x , y ) - - - ( 3 )
我们称表征函数fi(x,y)为特征函数,或简称特征。所以上式被称为关于特征fi(x,y)的一个约束方程,简称为约束。约束是随机过程p(y|x)和训练样例关于某一特征的一个等式,它对p(y|x)的分布做了某些限制,使之产生的样例在特征指示的方面,从统计意义上接近训练样例。 
假设已经定义了n个特征,满足这n个特征的所有随机过程构成一个集合: 
C ≡ { p ( y | x ) | p ( f i ) = p ~ ( f i ) fori ∈ { 1,2 , . . . , n } } - - - ( 4 )
一般地,|C|>1。我们选取其中熵最大的那个随机过程作为重建出来的模型。这里的熵是条件熵,表示为: 
H ( p ) ≡ - Σ x , y p ~ ( x ) p ( y | x ) log p ( y | x ) - - - ( 5 )
则我们最终重建出来的模型为:p*=arg max p∈CH(p)    (6) 
该模型称之为最大熵模型。熵最大的原则保证了最大熵模型具有很好的泛化效果。最大熵模型的表达形式和参数计算 
求解(6)式得到最大熵模型具有如下的形式: 
p ( y | x ) = 1 Z ( x ) exp ( Σ i λ i f i ( x , y ) ) - - - ( 7 )
上式中,λi是特征fi(x,y)的权重,可以使用IIS或L-BFGS迭代算法,从训练语料中训练得到。Z(x)是归一化系数。 
总结语法规则包括: 
请参阅图2,对输入的句子进行短语划分,并确定各短语的词性,再根据汉语结构特点对语法规则进行总结。比如,名词可以为主语,形容词可以为定语,以及一些其他的复合规则,如:状语+谓语+补语,可以为动词短语等。具体的总结主要是根据现实中的一些句子来总结,比如在多个名词可以组合成名词短语,假设四个名词组合成名词短语,则可以总结规则为“名词加名词加名词加名词可以组成名词短语”。当然,名词的数量并未限制,为了减少规则,则可以将上述规则总结为两条规则:“名词加名词是名词短语”、“名词加名词短语是名词短语”。然后根据句子语法结构规则确定各种短语在句子中的成分及句子的结构,并解析为多个短语组合的形式。比如,名词短语可以做主语、宾语,形容词可以做状语等。句子结构可以为“主语+谓语+宾语”等等。 
在对最大熵模型训练及总结语法规则之后,便可以采用对韵律短语进行预测,预测过程如下: 
S101,最大熵模型预测。 
首先最大熵模型对输入句子进行解析,解析出最大熵的输入特征,如词性、词长等特征。然后将这些特征输入最大熵模型进行预测,最大熵模型会给出词与词之间是否为韵律短语边界的概率。如果该概率很大,则该边界被认为是一个韵律短语边界。 
S102,语法边界预测。 
根据总结的语法规则对输入的句子进行分析,将输入句子进行短语划分最终将句子解析为多个短语组合的形式。如,短语1+短语2+短语3+......,然后根据句子的语法结构规则,分析出语法边界,如主谓边界、谓宾边界等,得到句子的语法结构。比如,短语1可以做主语、宾语,短语2可以做谓语,短语3可以作宾语,由于句子结构可以为“主语+谓语+宾语”。则可以确定短语1为主语、短语2为谓语,短语3为宾语。 
S103,调整最大熵模型 
预测出语法边界之后,对最大熵模型预测结果进行调整,因为韵律短语边界一定是语法短语边界,而语法短语边界不一定是韵律短语边界。因此,将语法边界处是韵律短语边界的概率调大,将非语法边界处是韵律短语边界的概率调小,最后根据调整后的概率结果确定韵律短语边界。 
下面结合实例对上述方法进行说明: 
首先,对输入文本进行解析,得到最大熵的输入特征,例如,输入句子为“最大熵模型预测韵律短语边界”,则需要进行分词,词性标注等处理,如:“最大熵/名词、模型/名词、预测/动词、韵律/名词、短语/名词、边界/名词”等,即解析出最大熵的输入特征,然后根据最大熵训练出来的每个特征的概率,得到此处是韵律短语边界的概率。“最大熵”、“模型”、“韵律”、“短语”、“边界”等都是名词,根据最大熵模型,相邻的“最大熵”及“模型”是韵律短语边界的概率较大,同时相邻的“韵律”、“短语”、“边界”是韵律短语边界的 概率也较大。 
然后,根据总结的语法规则,将输入的句子进行短语划分。例如,“最大熵”、“模型”是名词,此处,两个名词组合成名词短语,“预测”是动词,“韵律”、“短语”、“边界”也是名词,此处,三个名词组合成名词短语。根据语法规则,名词短语可以为主语也可以为宾语,而动词前的名词短语为主语,动词后的名词短语为宾语。则可以分析出,此处,“最大熵模型”可以做主语,“预测”可以做谓语,“韵律短语边界”可以做宾语,则“最大熵模型”和“预测”之间是主谓边界,“预测”和“韵律短语边界”之间是谓宾边界。 
最后,对最大熵模型预测的概率进行调整,在语法边界处是韵律短语的概率调大,非语法边界处是韵律短语的概率调小,然后根据调整后的概率确定韵律短语边界。即,将“最大熵模型”整体及“韵律短语边界”整体做为韵律短语的概率调大,而将单一的名词做为韵律短语的概率调小。另外,由于不同的语法边界处是韵律短语边界的可能性不一样,故在对最大熵预测的概率进行调整时,需要根据不同的语法边界调整不同的幅度。 
本发明的韵律短语预测方法中,通过采用语法短语边界来调整最大熵模型,将语法短语边界是韵律短语边界的概率增大,将非语法短语边界处是韵律短语边界的概率减小,可以避免一些统计模型预测的错误,提高了韵律短语边界预测的准确性。 
以上对本发明所提供的一种韵律短语预测方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。 

Claims (6)

1.一种韵律短语预测方法,其特征在于,包括:
最大熵模型预测,分析句子的特征,并对韵律短语进行预测;
语法边界预测,分析句子的特征,根据语法规则对语法边界进行预测;
对最大熵模型预测结果进行调整,通过预测出的语法边界,对最大熵模型预测结果进行调整,并根据调整后的概率结果确定韵律短语边界;
其中,所述语法边界预测还包括根据语法规则将句子进行短语划分,并解析为多个短语组合的形式,然后根据句子的语法结构规则,分析出语法边界;
所述对最大熵模型预测结果的调整包括将最大熵模型预测结果中语法边界处是韵律短语边界的概率增大,非语法边界处是韵律短语边界的概率降低。
2.如权利要求1所述的韵律短语预测方法,其特征在于,所述最大熵模型预测之前还包括建立最大熵模型,建立最大熵模型包括选择最大熵模型特征、准备训练数据及最大熵模型训练。
3.如权利要求2所述的韵律短语预测方法,其特征在于,所述最大熵模型预测包括解析出句子中分词边界等特征,并根据确定的特征进行标注,然后将标注后的数据送入最大熵模型进行预测,得出词与词之间是否为韵律短语边界的概率。
4.如权利要求2所述的韵律短语预测方法,其特征在于,所述最大熵模型解析出的特征包括前一词的词性、词长,后一词的词性、词长或者词性与词长的组合。
5.如权利要求1所述的韵律短语预测方法,其特征在于,所述语法边界预测之前还包括总结语法规则,并根据语法规则确定句子中的短语在句中的成分及句子的结构。
6.如权利要求5所述的韵律短语预测方法,其特征在于,所述语法规则的总结根据汉语结构特点进行。
CN201010294552XA 2010-09-27 2010-09-27 韵律短语预测方法 Active CN102063898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010294552XA CN102063898B (zh) 2010-09-27 2010-09-27 韵律短语预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010294552XA CN102063898B (zh) 2010-09-27 2010-09-27 韵律短语预测方法

Publications (2)

Publication Number Publication Date
CN102063898A CN102063898A (zh) 2011-05-18
CN102063898B true CN102063898B (zh) 2012-09-26

Family

ID=43999145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010294552XA Active CN102063898B (zh) 2010-09-27 2010-09-27 韵律短语预测方法

Country Status (1)

Country Link
CN (1) CN102063898B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345922B (zh) * 2013-07-05 2016-07-06 张巍 一种长篇幅语音全自动切分方法
CN104464751B (zh) * 2014-11-21 2018-01-16 科大讯飞股份有限公司 发音韵律问题的检测方法及装置
CN104867491B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
CN110047462B (zh) * 2019-01-31 2021-08-13 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN111105780B (zh) * 2019-12-27 2023-03-31 出门问问信息科技有限公司 一种韵律纠正方法、装置以及计算机可读存储介质
CN112562676B (zh) * 2020-11-13 2023-12-29 北京捷通华声科技股份有限公司 一种语音解码方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051458A (zh) * 2006-04-04 2007-10-10 中国科学院自动化研究所 基于组块分析的韵律短语预测方法
CN101271688A (zh) * 2007-03-20 2008-09-24 富士通株式会社 韵律修改装置和方法及存储有韵律修改程序的记录介质
CN101572083A (zh) * 2008-04-30 2009-11-04 富士通株式会社 韵律词组词方法和装置
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051458A (zh) * 2006-04-04 2007-10-10 中国科学院自动化研究所 基于组块分析的韵律短语预测方法
CN101271688A (zh) * 2007-03-20 2008-09-24 富士通株式会社 韵律修改装置和方法及存储有韵律修改程序的记录介质
CN101572083A (zh) * 2008-04-30 2009-11-04 富士通株式会社 韵律词组词方法和装置
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法

Also Published As

Publication number Publication date
CN102063898A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
Calhoun How does informativeness affect prosodic prominence?
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
CN102063898B (zh) 韵律短语预测方法
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
US20050267758A1 (en) Converting text-to-speech and adjusting corpus
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
CN109448699A (zh) 语音转换文本方法、装置、计算机设备及存储介质
Sangeetha et al. Speech translation system for english to dravidian languages
Turnbull et al. Nasal place assimilation trades off inferrability of both target and trigger words
CN113823259B (zh) 将文本数据转换为音素序列的方法及设备
Hashimoto et al. Impacts of machine translation and speech synthesis on speech-to-speech translation
Sun et al. Building high-accuracy multilingual ASR with gated language experts and curriculum training
Hashimoto et al. An analysis of machine translation and speech synthesis in speech-to-speech translation system
Che et al. Investigating effect of rich syntactic features on Mandarin prosodic boundaries prediction
KR101626386B1 (ko) 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치
CN106294310B (zh) 一种藏语声调预测方法及系统
Lhioui et al. Towards a Hybrid Approach to Semantic Analysis of Spontaneous Arabic Speech.
JP2004271615A (ja) 情報処理装置
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
Yeh et al. Efficient text analyser with prosody generator-driven approach for Mandarin text-to-speech
Ryu et al. Incremental Japanese spoken language generation in simultaneous machine interpretation
de Holanda Maia et al. Part-of-speech tagging of Portuguese using hidden Markov models with character language model emissions
Xu et al. Parsing hierarchical prosodic structure for Mandarin speech synthesis
Boroş et al. Romanian-English speech translation
Tirronen Automated Testing of Speech-to-Speech Machine Translation in Telecom Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100193, No. two, building 10, Zhongguancun Software Park, 8 northeast Wang Xi Road, Beijing, Haidian District, 206-1

Patentee after: Beijing InfoQuick SinoVoice Speech Technology Corp.

Address before: 100193, No. two, building 10, Zhongguancun Software Park, 8 northeast Wang Xi Road, Beijing, Haidian District, 206-1

Patentee before: Jietong Huasheng Speech Technology Co., Ltd.