CN102254554B - 一种对普通话重音进行层次化建模和预测的方法 - Google Patents
一种对普通话重音进行层次化建模和预测的方法 Download PDFInfo
- Publication number
- CN102254554B CN102254554B CN2011102003301A CN201110200330A CN102254554B CN 102254554 B CN102254554 B CN 102254554B CN 2011102003301 A CN2011102003301 A CN 2011102003301A CN 201110200330 A CN201110200330 A CN 201110200330A CN 102254554 B CN102254554 B CN 102254554B
- Authority
- CN
- China
- Prior art keywords
- stress
- sentence
- rhythm
- syllable
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 241001672694 Citrus reticulata Species 0.000 title claims abstract description 46
- 230000033764 rhythmic process Effects 0.000 claims abstract description 137
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000013517 stratification Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 13
- 238000011160 research Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005053 stress perception Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种对普通话重音进行层次化建模和预测的方法,该方法采用层次化重音描述体系对普通话重音进行描述,包括:选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。利用本发明,提高了重音模型的精细度,同时也保证了较高的重音预测正确率和召回率,进而提高合成语音的自然度和表现力,能够以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。
Description
技术领域
本发明涉及人机交互中语音合成技术领域,尤其涉及一种对普通话重音进行层次化建模和预测的方法,具体地涉及普通话句重音、词重音的建模,以及基于最大熵模型的词重音、句重音的两层重音预测方法。
背景技术
准确的重音描述以及从文本信息中预测重音信息一直是语音合成至关重要的一步,是提高合成语音表现力、构建和谐人机交互技术的重要组成部分。重音模型能够刻画出语音中的抑扬顿挫与轻重缓急,进而提高合成语音的表现力和自然度。重音的建模与预测对语音合成,人机交互等的发展具有重要意义。
虽然,在这个领域已经有很多的研究工作,但是重音建模与预测还有很多问题至今没有很好的解决。其中,具有重音标注的用于语音合成的语料库较少,且在仅有的几个语料库中,都强调重音音节的分析研究,没有对轻音音节的分析。但是,从语音合成实验结果来看,合成结果之所以不理想,重要原因之一就是现有合成系统忽略了语音轻音的问题。轻音除了对语流中的轻重缓急起到一定的衬托作用,它还具有表义的作用,即具有区分词义的作用。
因此,为了提高合成语音的自然度和表现力,有必要加强轻音音节的研究,同时进一步提高重音音节的研究。
发明内容
(一)要解决的技术问题
为了解决现有技术问题,本发明的主要目的是要提出一种对普通话重音进行层次化建模和预测的方法,以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。
(二)技术方案
为达到上述目的,本发明提供了一种对普通话重音进行层次化建模和预测的方法,该方法采用层次化重音描述体系对普通话重音进行描述,包括:
选择合适的重音描述体系,创建层级标注的重音语料库;
训练生成韵律词重音预测模型;
训练生成句重音预测模型;以及
根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。
上述方案中,所述采用层次化重音描述体系对普通话重音进行描述,是采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比。
上述方案中,所述选择合适的重音描述体系,是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,然后针对不同的层级,选择不同的重音标注单元。所述重音标注单元分为两类:在韵律词重音中,重音标注单元为单个韵律词;在句重音标注中,标注单元为句子。所述创建层级标注的重音语料库,是在录音室录制语音数据,并进行音节切分,韵律边界标注,最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级。
上述方案中,所述训练生成韵律词重音预测模型,是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型,训练的具体过程为:采用一文本特征参数提取模块,得到与韵律词重音特征相关的文本特征参数F1作为模型训练输入,利用最大熵模型,得到有关韵律词内部轻音节与非轻音节的文本特征差异,进而通过模型训练得到音节是轻音的概率,建立韵律词重音预测模型。所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。
上述方案中,所述训练生成句重音预测模型,是训练一个能够预测当前音节在句子范围内是重音的概率的模型,训练的具体过程为:采用一文本特征参数提取模块,得到与句子级别重音预测相关的文本特征参数F2作为模型输入,利用最大熵模型,训练有关句子层级重音节与非重音节的文本特征差异,进而通过模型训练得到音节是重音的概率,建立句重音预测模型。所述句重音预测模型具有一输出句重音预测结果的输出端。
上述方案中,所述根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果,是将韵律词重音预测结果和句重音预测结果采用公式进行加权综合,然后输出综合后的层级重音标注信息;其中,和分别是音节在当前韵律词和句子中的重音凸显度,是韵律词在当前句子中的重音凸显度。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、本发明提供的对普通话重音进行层次化建模和预测的方法,加强了重音研究中的轻音音节的研究。以往的重音研究都侧重于重音音节的研究,包括重音音节的文本相关物和声学表现等。但是,从语音合成结果来看,单纯强调重音音节的研究并不能使得合成语音在自然度和表现力上有明显的提高。其原因为,随着交互的需要,在真实语流中存在越来越多的轻音音节,轻音除了对语流中的轻重缓急起到一定的衬托作用,有时还具有区分词义的作用。为了解决该问题,本发明引入了对重音中轻音音节的研究,同时,本发明进一步提高了重音音节的研究,提出了层级的重音建模方法。
2、本发明提供的对普通话重音进行层次化建模和预测的方法,在层级重音预测中,针对不同层级的重音预测模型,采用不同的文本特征集合,以及特征窗口长度,这样能够细致的描述在不同级别下,重音的文本特征,增加了模型预测的正确率。
3、本发明提供的对普通话重音进行层次化建模和预测的方法,在层级重音标注综合结果阶段,采用加权的方法,这样得到的重音描述体系更为细致,使得采用这种重音标注方式得到的合成语音自然度和表现力更好。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见,其中:
图1是本发明提供的对普通话重音进行层次化建模和预测的方法流程图;
图2是依照本发明实施例对普通话重音进行层次化建模和预测的方法流程图。
图3是依照本发明实施例训练生成韵律词重音预测模型的方法流程图。
图4是依照本发明实施例训练生成句重音预测模型的方法流程图。
图5是依照本发明实施例综合生成每个音节的重音标注结果的方法流程图。
图6是依照本发明实施例对普通话重音进行层次化预测的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提供的对普通话重音进行层次化建模和预测的方法,是采用层次化重音描述体系对普通话重音进行描述,即采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比。相应的,本发明采用基于最大熵的层次化的重音预测模型。
本发明提供的对普通话重音进行层次化建模和预测的方法,用于中文语音合成中重音信息的预测,对语音合成系统接收或输入的任意文字串标注每个音节的重音等级;采用层级重音描述体系,即句子层面以及韵律词层面,其中,在句子层面的重音,本发明侧重重音词或者重音音节的研究,而在词层面,本发明侧重轻音音节研究;创建大规模的层级重音标注语料数据库;从标注文本进行特征提取;训练最大熵模型预测词内重音;训练最大熵模型预测句内重音,综合词重音与句重音的的预测结果得到更精确的重音等级描述。
如图1所示,图1是本发明提供的对普通话重音进行层次化建模和预测的方法流程图,该方法采用层次化重音描述体系对普通话重音进行描述,包括:选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。
其中,所述采用层次化重音描述体系对普通话重音进行描述,是采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比。
所述选择合适的重音描述体系,是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,然后针对不同的层级,选择不同的重音标注单元。所述重音标注单元分为两类:在韵律词重音中,重音标注单元为单个韵律词;在句重音标注中,标注单元为句子。所述创建层级标注的重音语料库,是在录音室录制语音数据,并进行音节切分,韵律边界标注,最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级。
所述训练生成韵律词重音预测模型,是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型,训练的具体过程为:采用一文本特征参数提取模块,得到与韵律词重音特征相关的文本特征参数F1作为模型训练输入,利用最大熵模型,得到有关韵律词内部轻音节与非轻音节的文本特征差异,进而通过模型训练得到音节是轻音的概率,建立韵律词重音预测模型。所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。
所述训练生成句重音预测模型,是训练一个能够预测当前音节在句子范围内是重音的概率的模型,训练的具体过程为:采用一文本特征参数提取模块,得到与句子级别重音预测相关的文本特征参数F2作为模型输入,利用最大熵模型,训练有关句子层级重音节与非重音节的文本特征差异,进而通过模型训练得到音节是重音的概率,建立句重音预测模型。所述句重音预测模型具有一输出句重音预测结果的输出端。
所述根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果,是将韵律词重音预测结果和句重音预测结果采用公式进行加权综合,然后输出综合后的层级重音标注信息;其中,和分别是音节在当前韵律词和句子中的重音凸显度,是韵律词在当前句子中的重音凸显度。
基于图1所示的对普通话重音进行层次化建模和预测的方法,图2至图6示出了依照本发明一个实施例对普通话重音进行层次化建模和预测的方法流程。
其中,图2示出了依照本发明实施例对普通话重音进行层次化建模和预测的方法流程图。在图2所示的实施例中,左侧为训练部分,包括语音合成语料库、韵律词重音等级标注语料库、句重音等级标注语料库、韵律词重音预测模型训练、句重音预测模型训练、层级重音预测模型训练;右侧为在线运行部分,包括浅层词法分析与节奏预测、在线层级重音预测两大部分,输入为任意文本,输出为层级的重音标注结果。其中,在线层级重音预测依赖于离线训练得到的层级重音预测模型。由韵律词重音等级标注语料库得到韵律词重音预测模型,由韵律词重音等级标注语料库和句重音等级标注语料库综合得到句中音节重音等级标注的语料库,进而训练得到句重音预测模型,由韵律词重音预测模型和句重音预测模型综合得到层级重音预测模型。
图3示出了是依照本发明实施例训练生成韵律词重音预测模型的方法流程图。输入为韵律词中音节重音等级标注的语料库,经过文本特征提取,如分词、词性标注,韵律边界标注等,提取出与韵律词重音相关的文本特征集合F1,利用最大熵模型从大规模重音标注语料中统计训练学习得到当前音节是韵律词层面轻音的概率,输出为韵律词重音预测模型。
图4示出了依照本发明实施例训练生成句重音预测模型的方法流程图。输入为句中音节重音等级标注的语料库,经过文本特征提取,如分词、词性标注,韵律边界标注等,提取出与句重音相关的文本特征集合F2,利用最大熵模型从大规模重音标注语料中统计训练学习得到当前音节是句子层面重音的概率,输出为句重音预测模型。
图5示出了依照本发明实施例综合生成每个音节的重音标注结果的方法流程图。对任意输入语句,能够标注出韵律词内重音对比以及句内音节重音对比,输出为句子中每个音节的层级重音描述。
图6示出了依照本发明实施例对普通话重音进行层次化预测的方法流程图。该实施例从以下六个方面对本发明进一步详细描述:
1、准备重音标注语料库。
根据本发明,文本选用一个标注有韵律词、韵律短语以及语调短语边界信息的语音合成文本语料库。同时,对该语料进行以韵律词为单位的切分,形成一个以韵律词为单位存储的语料库。这些韵律词切分之后被打乱原来的次序,以单个文件的方式存储,避免了上下文信息对词重音感知的影响。
例如标注实例(单句):
向 香港|特别 行政区 同胞$ 澳门|和 台湾 同胞$ 海外 侨胞.
xiang4 xiang1 gang3 te4 bie2 xing2 zheng4 qu1 tong2 bao1 ao4men2 he2 tai 2wan1 tong2 bao1 hai3 wai4 qiao2 bao1
其中,空格表示韵律词边界,‘|’表示韵律短语的位置,‘$’表示韵律短语的位置。
韵律词为单位的语料库实例:
香港
xiang1 gang3
2、韵律词重音标注和句重音标注。
包括:韵律词内音节等级标注和句子内韵律词突显度标注,其中,句子内韵律词突显度也就是韵律词在句子中的重音等级。在两个重音标注工作中,按照凸显度的高低,将重音标注任务都分为3级,分别用3、2、1表示。
标注样例如下:
句子层级标注:
向 香港|特别 行政区 同胞$ 澳门|和 台湾 同胞$ 海外 侨胞.
2 3 2 2 2 3 1 2 2 2 3
韵律词层级标注:
香港|
3 2
将这两个标注结果采用公式(1)的方式进行加权综合,得到句中每个音节的重音等级。
最终,对在进行层级划分,得到三类的重音标记。
3、训练生成韵律词内音节“轻”与“非轻”的韵律词内重音预测模型。
训练生成韵律词内音节“轻”与“非轻”的韵律词内重音预测模型,可分为以下步骤:利用选择基于最大熵模型的识别器为该模型的预测模型;用字、语法词、韵律词、词性和位置信息等作为主要的特征;用标注好韵律短语的语料作为训练语料该最大熵模型识别器。
选择特征时,以词法特征,如词性、位置信息、词的长度信息,为主要的考察对像,本发明选用的特征集合如下:
●拼音(PY)和声调(T).
●音节所在的韵律边界(B).
●语法词的词性和长度(P,L).
●当前音节距离前/后一个语法词的距离(DPW,DNW).
●韵律词长度(PL).
●归一化后的当前音节在韵律词内的位置(RPW).
●当前音节距离前、后一个韵律短语的距离(DPP,DNP).
●当前音节在所在语法词和韵律词的位置(IW,IPW).
●当前音节,当前音节所在语法词、当前音节所在的韵律词的描述(C,W,PW).
●当前音节距离句首、句末的距离(DB,DE).
●当前音节所在的语法词距离句首、句末的距离(DBW,DEW).
●当前音节所在的韵律词距离句首、句末的距离(DBPW,DEPW).
●当前音节在大语料库中的凸显率(SRC).
●当前音节所在的韵律词在大语料库中的凸显率(SRW)
经过封装式的特征选择优化,在韵律词重音模型中最终选择的特征集合F1为:
其中,特征中的数字表示特征选择窗口偏移量。利用该方法预测韵律词内部音节是“轻音”的概率。具体过程如图3所示。
4、训练生成句子内音节“重”与“非重”的句内音节重音预测模型。
根据本发明所述的句子内音节“重”与“非重”的句内音节重音预测模型,其最大熵模型的原始文本特征与韵律词内音节“轻”与“非轻”的韵律词内重音预测模型相同,经过针对该技术问题的特征选择和优化,最终选择的特征集合F2如下:
其中,特征中的数字表示特征选择窗口偏移量。利用该方法预测句子级别范围内音节是“重音”的概率。具体过程如图4所示。
5、综合层级重音预测结果。
根据本发明,基于图5所述的层次化重音建模方法的示意图,本发明将韵律词内部重音与句重音进行加权综合,通过上层句重音对韵律词重音进行限制,如,句中的“重”音节不会作为韵律词内部的“轻”音节,最终得到句中每个音节的两级重音描述体系。
6、系统在线运行。
如图6所示:浅层词法分析与节奏预测、句重音等级预测、韵律词重音等级预测和每个音节的两级重音描述。
具体地,浅层词法分析与节奏预测接受输入的任意文本、输出为已经进行了分词、词性标注等以及韵律层级标注的文本。
具体地,句重音等级预测,利用离线训练好的句重音最大熵模型对已经进行了分词、词性标注等以及韵律层级标注的文本标注句子级别的重音。
具体地,韵律词等级预测,利用离线训练好的句重音最大熵模型对已经进行了分词、词性标注等以及韵律层级标注的文本标注句子级别的重音。
基于以上步骤,将输入文本中的每个音节分别标注了句重音和词重音,输出为句中每个音节的两级重音描述,用于指导语音合成的后端进行语音合成。
通过上述实施例可以看出,本发明提供的对普通话重音进行层次化建模和预测的方法,通过采用层次化重音描述体系对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析,提高了重音模型的精细度,同时也保证了较高的重音预测正确率和召回率,进而提高合成语音的自然度和表现力,能够以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种对普通话重音进行层次化建模和预测的方法,其特征在于,该方法采用层次化重音描述体系对普通话重音进行描述,包括:
选择合适的重音描述体系,创建层级标注的重音语料库;
训练生成韵律词重音预测模型;
训练生成句重音预测模型;以及
根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果;
其中,所述采用层次化重音描述体系对普通话重音进行描述,是采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析;所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比;
所述选择合适的重音描述体系,是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,然后针对不同的层级,选择不同的重音标注单元;
所述创建层级标注的重音语料库,是在录音室录制语音数据,并进行音节切分,韵律边界标注,最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级;
所述训练生成韵律词重音预测模型,是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型,训练的具体过程为:采用一文本特征参数提取模块,得到与韵律词重音特征相关的文本特征参数F1作为模型训练输入,利用最大熵模型,得到有关韵律词内部轻音节与非轻音节的文本特征差异,进而通过模型训练得到音节是轻音的概率,建立韵律词重音预测模型;
所述训练生成句重音预测模型,是训练一个能够预测当前音节在句子范围内是重音的概率的模型,训练的具体过程为:采用一文本特征参数提取模块,得到与句子级别重音预测相关的文本特征参数F2作为模型输入,利用最大熵模型,训练有关句子层级重音节与非重音节的文本特征差异,进而通过模型训练得到音节是重音的概率,建立句重音预测模型;
2.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于,所述重音标注单元分为两类:在韵律词重音中,重音标注单元为单个韵律词;在句重音标注中,标注单元为句子。
3.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于,所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。
4.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于,所述句重音预测模型具有一输出句重音预测结果的输出端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102003301A CN102254554B (zh) | 2011-07-18 | 2011-07-18 | 一种对普通话重音进行层次化建模和预测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102003301A CN102254554B (zh) | 2011-07-18 | 2011-07-18 | 一种对普通话重音进行层次化建模和预测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102254554A CN102254554A (zh) | 2011-11-23 |
CN102254554B true CN102254554B (zh) | 2012-08-08 |
Family
ID=44981765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102003301A Active CN102254554B (zh) | 2011-07-18 | 2011-07-18 | 一种对普通话重音进行层次化建模和预测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102254554B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731832A (zh) * | 2013-12-23 | 2015-06-24 | 安徽科大讯飞信息科技股份有限公司 | 藏语拉萨话声调预测的方法及系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899245B (zh) * | 2015-04-09 | 2018-12-07 | 四川九洲空管科技有限责任公司 | 一种航班动态智能化实时播报方法 |
CN104867490B (zh) * | 2015-06-12 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
CN107464559B (zh) * | 2017-07-11 | 2020-12-15 | 中国科学院自动化研究所 | 基于汉语韵律结构和重音的联合预测模型构建方法及系统 |
WO2019217035A1 (en) * | 2018-05-11 | 2019-11-14 | Google Llc | Clockwork hierarchical variational encoder |
CN109087627A (zh) * | 2018-10-16 | 2018-12-25 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN112002302B (zh) * | 2020-07-27 | 2024-05-10 | 北京捷通华声科技股份有限公司 | 一种语音合成方法和装置 |
CN112309366B (zh) * | 2020-11-03 | 2022-06-14 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267692A (ja) * | 1999-03-12 | 2000-09-29 | Lucent Technol Inc | 音声レコグナイザーのためのトレーニング方法 |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
US7275030B2 (en) * | 2003-06-23 | 2007-09-25 | International Business Machines Corporation | Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system |
US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
CN101826263A (zh) * | 2009-03-04 | 2010-09-08 | 中国科学院自动化研究所 | 基于客观标准的自动化口语评估系统 |
-
2011
- 2011-07-18 CN CN2011102003301A patent/CN102254554B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267692A (ja) * | 1999-03-12 | 2000-09-29 | Lucent Technol Inc | 音声レコグナイザーのためのトレーニング方法 |
US7275030B2 (en) * | 2003-06-23 | 2007-09-25 | International Business Machines Corporation | Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system |
US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN101826263A (zh) * | 2009-03-04 | 2010-09-08 | 中国科学院自动化研究所 | 基于客观标准的自动化口语评估系统 |
Non-Patent Citations (1)
Title |
---|
田岚等.一种数据驱动的汉语成句语音韵律特征产生模型的研究.《控制与决策》.2003,第18卷(第06期),656-660. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731832A (zh) * | 2013-12-23 | 2015-06-24 | 安徽科大讯飞信息科技股份有限公司 | 藏语拉萨话声调预测的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102254554A (zh) | 2011-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102254554B (zh) | 一种对普通话重音进行层次化建模和预测的方法 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
Venditti | The J_ToBI model of Japanese intonation | |
CN101785048B (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
Sonderegger et al. | Automatic measurement of voice onset time using discriminative structured prediction | |
CN104217713A (zh) | 汉藏双语语音合成方法及装置 | |
US20080120093A1 (en) | System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device | |
CN103632663B (zh) | 一种基于hmm的蒙古语语音合成前端处理的方法 | |
CN105654942A (zh) | 一种基于统计参数的疑问句、感叹句的语音合成方法 | |
Chen et al. | The ustc system for blizzard challenge 2011 | |
Cao et al. | Prosodic cues for emotion: analysis with discrete characterization of intonation | |
Tanner et al. | Structured speaker variability in Japanese stops: Relationships within versus across cues to stop voicing | |
CN1956057B (zh) | 一种基于决策树的语音时长预测装置及方法 | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
Ballier et al. | Developing corpus interoperability for phonetic investigation of learner corpora | |
CN105895076A (zh) | 一种语音合成方法及系统 | |
Lee et al. | Modeling Japanese F0 contours using the PENTAtrainers and AMtrainer | |
Meng et al. | Hierarchical English Emphatic Speech Synthesis Based on HMM with Limited Training Data. | |
Arora et al. | Automatic extraction of phonetically rich sentences from large text corpus of indian languages. | |
Tang et al. | Two-stage prosody prediction for emotional text-to-speech synthesis. | |
Zellers et al. | Redescribing intonational categories with functional data analysis | |
Badino et al. | Towards hierarchical prosodic prominence generation in TTS synthesis | |
Boroș et al. | Rss-tobi-a prosodically enhanced romanian speech corpus | |
Moniz et al. | Analysis of interrogatives in different domains | |
Li et al. | Hierarchical Stress Modeling in Mandarin Text-to-Speech. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |