CN101814288B - 使语音合成时长模型自适应的方法和设备 - Google Patents

使语音合成时长模型自适应的方法和设备 Download PDF

Info

Publication number
CN101814288B
CN101814288B CN200910007682A CN200910007682A CN101814288B CN 101814288 B CN101814288 B CN 101814288B CN 200910007682 A CN200910007682 A CN 200910007682A CN 200910007682 A CN200910007682 A CN 200910007682A CN 101814288 B CN101814288 B CN 101814288B
Authority
CN
China
Prior art keywords
duration
classification
model
phonetic synthesis
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910007682A
Other languages
English (en)
Other versions
CN101814288A (zh
Inventor
郭庆
王彬
陆应亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN200910007682A priority Critical patent/CN101814288B/zh
Publication of CN101814288A publication Critical patent/CN101814288A/zh
Application granted granted Critical
Publication of CN101814288B publication Critical patent/CN101814288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

使语音合成时长模型自适应的方法和设备。设备包括:参考模型生成装置,其根据所述语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类,通过计算对应于每个分类的样本集的参考样本数目和参考时长,生成参考语音合成时长模型;和模型自适应装置,其使所述语音合成时长模型中每个语音合成单元的每个时长,适应所述参考语音合成时长模型中相同语音合成单元的、对应于所述时长的分类的参考时长,其中所述适应包括:确定自适应因子λ,其中λ大于0且小于1,并且λ取决于时长的相应样本数目和参考时长的相应样本数目之间的比值;和根据下式计算适应后的时长:适应后的时长=(1-λ)×参考时长+λ×时长。

Description

使语音合成时长模型自适应的方法和设备
技术领域
本发明涉及语音合成领域,尤其涉及语音合成时长模型的自适应。 
背景技术
语音合成(Text-To-Speech,简称TTS)是一种将任意文字信息转化为标准、流畅语音的技术。语音合成涉及到自然语言处理、韵律学、语音信号处理、声音感知等技术,横跨声学、语言学、数字信号处理等多个学科。语音合成技术可广泛应用于电信、金融、电力、邮政、政府等行业。例如,语音技术可以让用户更为轻松地收发电子邮件,获取股市行情,了解天气、交通和道路情况。 
语音合成技术的一个目的是合成高可懂度、高自然度的语音。经过近十几年的研究,现阶段的语音合成系统大多采用基于大规模语音数据库的拼接合成技术,合成的语音质量已经达到了实用的地步。 
一般来说,一个语音合成系统首先要选取一定的基本语音合成单元,例如英语中的音素、汉语中的半音节(即声韵母)或者带调音节等。然后在韵律模型(音长和基频等)预测结果的指导下,从预先录制标注好的音库中搜寻全局最优的合成单元,利用特定的波形生成技术(如TD-PSOLA算法)对选中的语音段进行韵律特性的调整和修改,最终拼接合成出符合要求的语音。 
韵律参数对应着语流中声学参数上的一些特性,如:停顿、基频的变化,或者是音节的时长变化等特性。对于一个语音合成系统来说,需要时长预测模型来提供音节的时长变化方面的预测。通过时长预测模型预测出更精准的时长参数,进而在合成语音中实现该声学参数特性,使得合成语音的韵律更加自然。例如在郭庆和片江伸之提交的中国专利申请CN200510117003.4,“一种基于决策树的语音时长预测分析装置及方法”中公开了预测时长的技术。 
实际上,对于不同的人来说,他们的音节时长参数除了共性特征以外,也存在着个体差异。随着语音合成系统的市场化深入,客户希望能够得到更加丰富多彩的服务。例如,希望语音合成系统能够提供多种音色的合成语音。更进一步地,客户可能要求能够使用自己的声音来生成合成的语音。对于特定任务(例如股票播报等)的信息服务,客户希望能够生成具有该特定任务特色的合成语音等等。
发明内容
鉴于现有技术的上述状况,本发明的一个目的是提供一种使语音合成时长模型自适应的方法和设备,以利于获得具有新说话人或特定任务特色的语音合成时长模型。 
为达到上述目的,本发明的一个实施例是一种使语音合成时长模型自适应的设备,包括:参考模型生成装置,其根据所述语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类,通过计算对应于每个分类的样本集的参考样本数目和参考时长,生成参考语音合成时长模型;和模型自适应装置,其使所述语音合成时长模型中每个语音合成单元的每个时长,适应所述参考语音合成时长模型中相同语音合成单元的、对应于所述时长的分类的参考时长,其中所述适应包括:确定自适应因子λ,其中λ大于0且小于1,并且λ取决于所述时长的相应样本数目和所述参考时长的相应样本数目之间的比值;和根据下式计算适应后的所述时长:适应后的所述时长=(1-λ)×所述参考时长+λ×所述时长。 
模型自适应装置可以在不存在对应于所述时长的分类的所述参考时长的情况下,使所述时长适应所述参考语音合成时长模型中相同语音合成单元的、对应于和所述时长的分类接近的分类的参考时长。 
另外,分类结构可基于决策树,并且和所述时长的分类接近的分类可包括下述中的一或多种:作为代表所述时长的叶子节点的兄弟的叶子节点的相应分类;和作为代表所述时长的叶子节点的血缘关系最近的堂兄弟的叶子节点的相应分类。 
模型自适应装置也可以在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,使所述时长适应所述参考语音合成时长模型中相同类型的语音合成单元的、对应于所述时长的分类的参考时长。 
模型自适应装置也可以在不存在所述相同语音合成单元或对应于和 所述时长的分类相应或接近的分类的参考时长的情况下,使所述时长适应所述参考语音合成时长模型中不同声调的相同语音合成单元的、对应于所述时长的分类的参考时长。 
此外,参考模型生成装置可以根据所述样本数据计算语速,而模型自适应装置可以在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,根据所述语速来调整所述时长。 
本发明的另一个实施例是一种使语音合成时长模型自适应的方法,包括:根据所述语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类,通过计算对应于每个分类的样本集的参考样本数目和参考时长,生成参考语音合成时长模型;和使所述语音合成时长模型中每个语音合成单元的每个时长,适应所述参考语音合成时长模型中相同语音合成单元的、对应于所述时长的分类的参考时长,其中所述适应包括:确定自适应因子λ,其中λ大于0且小于1,并且λ取决于所述时长的相应样本数目和所述参考时长的相应样本数目之间的比值;和根据下式计算适应后的所述时长:适应后的所述时长=(1-λ)×所述参考时长+λ×所述时长。 
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。 
图1是根据本发明一个实施例的使语音合成时长模型自适应的设备的框图。 
图2是示出图1所示的设备进行自适应的语音合成时长模型的一个例子的示意图。 
图3是示出图1所示的设备所采用的参考样本数据的一个例子的示意图。 
图4是示出图1所示的设备所采用的参考样本数据的另一个例子的示意图。 
图5是示出根据本发明一个实施例的使语音合成时长模型自适应的 方法的流程图。 
图6是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
图7是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
图8是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
图9是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
图10是示出其中实现本发明的计算机的示例性结构的框图。 
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。 
在描述本发明的实施例之前,对语音合成技术进行必要的说明将有利于理解本发明的实施例。 
一般来说,一个语音合成系统由三个模块组成:文本分析模块、韵律参数预测模块、后端合成模块。文本分析模块包括分词、词性标注、注音、韵律结构预测等。韵律参数预测模块在文本分析结果的基础上进行时长、基频、能量等声学参数的预测。后端合成模块一般由单元选取和波形生成两个子模块组成,其中,单元选取子模块在韵律参数的指导下通过概率统计的方法从音库中搜寻对于输入文本来说符合全局最优的合成单元;波形生成子模块利用特定的波形生成技术(如TD-PSOLA算法)对选中的语音段进行韵律特性的调整和修改,最终拼接合成出符合要求的语音。 
语音合成单元的时长是最重要的韵律特征之一,它对于合成语音的感知自然度有着重要的意义。时长的变化可以有助于人们对于语音合成单元本身的认知,同时也有助于人们在一个连续的语流中能够确定词、短语的划分,从而提高语音的自然度和可懂度。 
在自然语流中,语音合成单元的长度与该语音合成单元前后的语境是高度相关的。许多上下文的因素如语音合成单元自身的类型、前后语音合成单元的类型、前后韵律边界等级、重读与否等均对语音合成单元的时长都有着制约作用。现有的语音合成单元时长预测技术试图描述这些上下文因素对于时长的影响,从而提高一个语音合成系统的自然度。 
一般来说,基于一个大的预先标注好的某个特定播音员的音库来生成语音合成单元的时长模型(也称为语音合成时长模型),其中采用一些统计的或者规则与统计相结合的方法从这个标注音库中获得时长参数。在客户(即新说话人)要求能够使用自己的声音或根据特定任务特色来生成合成语音的情况下,要求客户去录制大量的语音数据,或针对特定任务来录制 大量的语音数据。这样的方式使得难以及时为新客户或新特定任务特色生成语音合成时长模型。 
图1是根据本发明一个实施例的使语音合成时长模型自适应的设备100的框图。设备100基于包含少量录音数据的音库(即参考样本)对已有的语音合成时长模型进行自适应,从而获得带有期望声音特色的语音合成时长模型。 
如图1所示,设备100包括参考模型生成装置101和模型自适应装置103。应当注意,虽然这里以汉语为例对本发明的实施例进行说明,例如以声韵母作为语音合成单元,然而本发明的实施例同样适于诸如英语的其它语言,例如以音素作为语音合成单元。 
参考模型生成装置101根据语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类,通过计算对应于每个分类的样本集的参考样本数目和参考时长,生成参考语音合成时长模型102。 
参考样本数据包括各个音节、半音节(即声韵母)的标注样本集合。音节、半音节的标注样本集合是在音库中出现的全部该音节、半音节的集合,并且包含各个出现样本的相关上下文信息,如:音素上下文、音节所在词的词性、音节在词中的位置、左右韵律边界等级、是否重读等信息,以及每个样本下真实发生的语音时长。 
通常对录音音库中的每一个句子首先进行音节、半音节边界的标注,然后进行语言、语音学的标注。最后,按照不同的音节、半音节进行分类,得到各个音节、半音节的标注样本集合。 
语言、语音学标注是指经过语言分析和语音学分析处理得到一个序列。通常来说,序列对应于一个文本句子。以汉语为例,在经过分析处理后,序列包括以下几个方面的信息:汉字字符、分词信息、词性信息、汉语拼音(音节、半音节)信息、重读信息、韵律边界等级信息。 
韵律边界等级信息表示在合成语音中需要给出的音节之间的停顿等级。具体来说有:词内、词间、韵律词边界、韵律短语边界、语调短语边界和句子边界六个等级。韵律边界等级可分别用0~5来表示。 
重音等级信息表示在合成语音中需要给出的音节的重读等级。具体来说有:强调、正常和轻声三个等级。重音等级可分别用H,M,L来表示。 
下面是音库中一个句子的标注文本例子。“|”、“||”、“|||”分别代表韵律词、韵律短语和语调短语。一个音节如果被标注上“H”,意味着该音 节是一个重读音节;一个音节如果被标注上“L”,意味着该音节是一个轻声音节。“”用于标注句尾。 
8月(ba1yve4_H)/t|20日(er4sh%2r%4)/t|清晨(qing1chen2)/t,|||一(yi1)/m支(zh%1)/q满载(man3 zai4)/v||锅碗瓢盆(guo1wan3 piao2 pen2)/l、||桌椅(zhuo1 yi3)/n、||调料(tiao2 liao4)/n、||发电机(fa1 dian4 ji1)/n||等(deng3)/u|家当(jia1dang4)/n的(de5)/u||流动(liu2 dong4)/vn|支前(zh%1 qian2)/vn车队(che1 dui4)/n||从(cong2_H)/p郑州(zheng4 zhou1_H)/ns|出发(chu1fa1_H)/v了(le5_L)/y。 
在上面的例子中,“/”之前的一个或多个字组成一个词(语言学词),“/”后的英文字母表示该词的词性。例如“清晨”是时间词(“t”),“满载”是动词(“v”),“,”是标点符号(“w”)等。 
韵律结构可以由“||”、“||”、“|||”和“”解析出来。例如,“8月”、“20日”、“清晨”、“从郑州”、“出发了”等都是韵律词。进一步,“流动支前车队”和“从郑州出发了”为韵律短语,“8月20日清晨”则为语调短语。 
需要注意的是,可用的标注方式并不限于前面描述的方式。只要能够表示所需的信息,可以使用任何标注方式。 
在语音合成时长模型中,对于音节、半音节的标注样本集合,通常根据音节、半音节的上下文和韵律特征(即分类标准)对集合中的样本进行分类,从而得到对应于每个分类的样本子集。针对样本子集统计得到的时长是对应于该分类的时长。对于各个标注样本集合,由于样本的上下文和韵律特征方面的差异,不同集合可能具有不同的子集划分。这种子集划分也称为分类结构。 
分类方法包括但不限于决策树方法。在决策树方法中,设计了两类问题,第一类问题是关于音节、半音节上下文的问题(下文中标记为QS类问题),第二类问题是与韵律特征相关的问题(下文中标记为QT类问题),如韵律边界等级、重音等级等。下面是几个问题例子: 
  问题  类型   问题名称   问题表示   描述
  QS   “L_issaas”   {″k-″,″t-″,″p-″}   该问题将询问当前半音节左边的
        音素是否是送气清塞音(/p/,/t/,  /k/);
  QS “R_isnasc”   {″+n″,″+m″}   该问题将询问当前半音节右边的  音素是否是鼻辅音(/n/,/m/);
  QT ″R_PhraseBoundary_2″   {+2}   该问题将询问当前半音节是否处  于一个韵律词的结束处;
  QT ″R_PhraseBoundary_01″   {+0,+1}   该问题将询问当前半音节右边的  韵律等级是否低于韵律词等级,即  词内或词间。
基于决策树方法对音节、半音节的标注样本集合进行分类的过程可以包括: 
(1)针对标注样本集合生成该音节、半音节的决策树的根节点,该节点包含标注样本集合的全部样本。 
(2)对于当前所有的叶子节点,遍历所有问题,其中按照对问题的回答,把当前节点的样本集合分成两类,计算这种分类带来的区分度。 
(3)根据区分度选取对样本集合具有最大可分性的问题。 
(4)生成两个节点,其中一个节点包含对问题的得到肯定回答的样本,另一个节点包含对问题的得到否定回答的样本。因而,把当前节点的所有样本分成两类。 
(5)转到步骤(2)继续分类过程,直到满足一定的约束条件(例如达到最小样本数量、所有问题回答完毕等等)为止。如果满足约束条件,该节点就是叶子节点,不再继续对其进行分支。该节点下所有样本的时长均值即为该叶子节点的时长。 
图2是示出图1所示的设备进行自适应的语音合成时长模型的一个例子的示意图。 
图2的例子示出的是针对元音“a1”的决策树,其中“1”代表声调为阴平。从这个图中我们可以看到,在决策树的根节点,也就是说“a1”在音库中一共有2896个样本(如TotalOcc所示)、平均时长为184毫秒(如Avg_dur所示)。根据对于问题“R_PhraseBoundary_01”的答案,“是” 或者“否”,这些样本将被划入根节点的两个子节点。其中,对于问题“R_PhraseBoundary_01”回答“是”的子节点,在经过对于问题“L_issaas”、“R_isnasc”的连续回答“是”后,最后根据对于问题“L_PhraseBoundary_5”的回答,到达两个叶子节点201和202,其中“是”叶子节点202上有38个样本(如Occ所示)、平均时长为133毫秒(如Avg_dur所示),“否”叶子节点201上有178个样本、平均时长为102毫秒。 
对于参考样本数据中每个音节、半音节的标注样本集合,参考模型生成装置101不是根据分类标准对集合进行独立的分类,而是采用语音合成时长模型中相同音节、半音节的标注样本集合的已有分类结构进行分类。 
图3是示出图1所示的设备所采用的参考样本数据的一个例子的示意图。 
图3示出的是根据参考样本数据得到的针对元音“a1”的决策树。如图3所示,该决策树的分类结构与图2所示的相同,但参考样本与已有的语音合成时长模型所基于的样本相比较数量较少。 
模型自适应装置103使语音合成时长模型中每个语音合成单元的每个时长,适应参考语音合成时长模型103中相同语音合成单元的、对应于所述时长的分类的参考时长。 
例如,在语音合成时长模型中,对于如图2所示的元音“a1”的对应于节点201所代表的分类的时长,可以在参考语音合成时长模型中,在如图3所示的元音“a1”的各个节点中找到分类与节点201的分类相对应的节点301。相应地,可使节点201的时长适应节点301的时长,即根据节点301的时长对节点201的时长进行重新估计。虽然这里只说明一个节点的例子,然而可以针对语音合成时长模型中所有语音合成单元的所有叶子节点来执行相似的处理。 
在本发明的实施例中,以原有的语音合成时长模型作为种子模型,根据通过录音获得的少量语音数据对其进行自适应从而获得具有新说话人或者特定任务特色的新语音合成时长模型。这使得能够按照客户的要求合成出具有新说话人特色或者特定任务特色的语音。 
可通过各种方法来进行适应。例如,对于语音合成时长模型的节点A和节点A所要适应的参考语音合成时长模型的节点B,模型自适应装置103可以确定一个自适应因子λ,其中λ大于0且小于1。λ取决于节点 A的样本数目和节点B的样本数目之间的比值,例如比值越大,则λ就越大。 
自适应因子λ决定着适应速度。λ值越小,说明在做自适应的时侯越强调新说话人模型的作用。反之,λ值越大,新说话人模型起的作用越小。另外,是否对于所有叶子节点采用同一λ值还是对于各个叶子节点使用各自的λ值也是可以选择的。 
可以采用多种模型自适应算法进行叶子节点的模型自适应。例如可采用近似最大后验概率(approximate maximum a posterior,AMAP)自适应算法。模型自适应装置103可以根据下式计算适应后的节点A的时长: 
节点A的适应后的时长=(1-λ)×节点B的参考时长+λ×节点A的适应前的时长。 
由于参考样本数据是根据少量语音数据获得的,节点A的样本数目可能远多于节点B的样本数目。在这样的情况下,所进行的适应可能由于对节点A的时长改变很小而失去意义。优选地,模型自适应装置103可以在确定λ时将节点B的样本数目的量级调整到接近节点A的样本数目的量级。例如图2中节点201的样本数目为178,相应的图3中节点301的样本数目为18。可以将18调整到接近178的量级,例如50到100之间,或其它范围。 
进行适应的算法不限于前面描述的具体算法。也可以采用已知的其它适应算法,例如最大后验概率(MAP)自适应算法和最大似然线性回归(MLLR)自适应算法。 
由于采用语音合成时长模式的已有分类结构对参考样本数据进行分类,并且参考样本的数量比较有限,因此在参考语音合成时长模型中可能有许多叶子节点上只有极个别甚至是根本没有任何参考样本。例如,图4是示出图1所示的设备所采用的参考样本数据的另一个例子的示意图。如图4所示,针对元音“a1”的决策树中节点401、403、404有若干样本,然而节点402没有样本。对于语音合成时长模型中与节点402相应的节点,则无法使该节点的时长适应节点402的时长。 
相应地,在一个优选实施例中,对于语音合成时长模型中每个语音合成单元的每个时长(即叶子节点的时长),模型自适应装置103在参考语音合成时长模型中不存在对应于所述时长的分类的参考时长(例如图4的节 点402)的情况下,使所述时长适应参考语音合成时长模型中相同语音合成单元的、对应于和所述时长的分类(即叶子节点)接近的分类(即叶子节点)的参考时长。 
接近的程度可根据具体实现和具体分类来设定。也可以统一设定。 
在一个基于决策树的实施例中,参考语音合成时长模型中和所述时长的分类接近的分类包括下述中的一或多种: 
作为代表所述时长的叶子节点的兄弟的叶子节点的相应分类,例如节点402的兄弟节点401;和 
作为代表所述时长的叶子节点的血缘关系最近的堂兄弟的叶子节点的相应分类,例如节点402的堂兄弟节点403或404。 
这样,可以参照当前叶子节点的兄弟叶子节点或血缘关系最近的堂兄弟叶子节点,学习其时长特点。 
由于参考样本的数量比较有限,因此在参考语音合成时长模型中可能缺少某个语音合成单元,或者有许多叶子节点上只有极个别甚至是根本没有任何参考样本。这使得对于语音合成时长模型中某个语音合成单元或其某个时长,参考语音合成时长模型中可能不存在相同的语音合成单元,或对应于和所述时长的分类相应或接近的分类的参考时长。在这些情况中的任何或所有情况下,在一个可选或优选实施例中,模型自适应装置103可以使所述时长适应参考语音合成时长模型中相同类型的语音合成单元的、对应于所述时长的分类的参考时长。相同类型的语音合成单元例如是同一类型的声韵母。 
在上述情况中的任何或所有情况下,在另一个可选或优选实施例中,模型自适应装置103可以使所述时长适应参考语音合成时长模型中不同声调的相同语音合成单元的、对应于所述时长的分类的参考时长。例如语音合成单元可以是韵母等等。在这个实施例中,假定语言为例如汉语的带声调语言,并且语音合成时长模型中根据语音合成单元的不同声调来组织时长模型。 
在上述情况中的任何或所有情况下,在另一个可选或优选实施例中,参考模型生成装置101可以根据参考样本数据来计算出新说话人或特定任务特色的语速。模型自适应装置103可以根据计算的语速来调整所述时长,即通过学习所计算的语速风格来调整时长。 
通过分别处理不同的情况,上述可选或优选实施例可任意组合。在一 个具体组合中,可以在没有相同类型的语音合成单元或没有不同声调的相同语音合成单元的情况下通过学习的语速风格来调整时长。 
图5是示出根据本发明一个实施例的使语音合成时长模型自适应的方法的流程图。 
如图5所示,方法从步骤500开始。在步骤501,根据语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类,通过计算对应于每个分类的样本集的参考样本数目和参考时长,生成参考语音合成时长模型。在步骤502,使语音合成时长模型中每个语音合成单元的每个时长(即叶子节点的时长),适应参考语音合成时长模型中相同语音合成单元的、对应于所述时长的分类(即叶子节点)的参考时长。接着方法在步骤503结束。 
例如,在语音合成时长模型中,对于如图2所示的元音“a1”的对应于节点201所代表的分类的时长,可以在参考语音合成时长模型中,在如图3所示的元音“a1”的各个节点中找到分类与节点201的分类相对应的节点301。相应地,可使节点201的时长适应节点301的时长,即根据节点301的时长对节点201的时长进行重新估计。虽然这里只说明一个节点的例子,然而可以针对语音合成时长模型中所有语音合成单元的所有叶子节点来执行相似的处理。 
在本发明的实施例中,以原有的语音合成时长模型作为种子模型,根据通过录音获得的少量语音数据对其进行自适应从而获得具有新说话人或者特定任务特色的新语音合成时长模型。这使得能够按照客户的要求合成出具有新说话人特色或者特定任务特色的语音。 
可通过各种方法来进行适应。例如前面描述的AMAP自适应算法、MAP自适应算法、MLLR自适应算法。 
由于参考样本数据是根据少量语音数据获得的,节点A的样本数目可能远多于节点B的样本数目。在这样的情况下,所进行的适应可能由于对节点A的时长改变很小而失去意义。优选地,模型自适应装置103可以在确定λ时将节点B的样本数目的量级调整到接近节点A的样本数目的量级。例如图2中节点201的样本数目为178,相应的图3中节点301的样本数目为18。可以将18调整到接近178的量级,例如50到100之间,或其它范围。 
由于采用语音合成时长模式的已有分类结构对参考样本数据进行分 类,并且参考样本的数量比较有限,因此在参考语音合成时长模型中可能有许多叶子节点上只有极个别甚至是根本没有任何参考样本。这种情况可通过图6示出的方法来处理。 
图6是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
如图6所示,方法从步骤600开始。步骤601、602的处理分别与步骤501、502相同,不再重复说明。在步骤603,对于语音合成时长模型中每个语音合成单元的每个时长(即叶子节点的时长),在参考语音合成时长模型中不存在对应于所述时长的分类的参考时长(例如图4的节点402)的情况下,使所述时长适应参考语音合成时长模型中相同语音合成单元的、对应于和所述时长的分类(即叶子节点)接近的分类(即叶子节点)的参考时长。 
接近的程度可根据具体实现和具体分类来设定。也可以统一设定。 
在一个基于决策树的实施例中,参考语音合成时长模型中和所述时长的分类接近的分类包括下述中的一或多种: 
作为代表所述时长的叶子节点的兄弟的叶子节点的相应分类,例如节点402的兄弟节点401;和 
作为代表所述时长的叶子节点的血缘关系最近的堂兄弟的叶子节点的相应分类,例如节点402的堂兄弟节点403或404。 
方法在步骤604结束。 
由于参考样本的数量比较有限,因此在参考语音合成时长模型中可能缺少某个语音合成单元,或者有许多叶子节点上只有极个别甚至是根本没有任何参考样本。这使得对于语音合成时长模型中某个语音合成单元或其某个时长,参考语音合成时长模型中可能不存在相同的语音合成单元,或对应于和所述时长的分类相应或接近的分类的参考时长。这些情况可通过图7示出的方法来处理。 
图7是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
如图7所示,方法从步骤700开始。步骤701、702、703的处理分别与步骤601、602、603相同,不再重复说明。在上述情况中的任何或所有情况下,在步骤704,使所述时长适应参考语音合成时长模型中相同类型 的语音合成单元的、对应于所述时长的分类的参考时长。相同类型的语音合成单元例如是同一类型的声韵母。 
上述情况也可通过图8所示的方法来处理。图8是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
如图8所示,方法从步骤800开始。步骤801、802、803的处理分别与步骤601、602、603相同,不再重复说明,但在步骤801还根据参考样本数据来计算出新说话人或特定任务特色的语速。如果不存在对应于和所述时长的分类相应或接近的分类的参考时长,则在步骤804,使所述时长适应参考语音合成时长模型中相同类型的语音合成单元的、对应于所述时长的分类的参考时长。如果不存在相同的语音合成单元,则在步骤805,根据计算的语速来调整所述时长,即通过学习所计算的语速风格来调整时长。步骤805也可以替代步骤804。 
此外或优选地,也可以在没有相同类型的语音合成单元的情况下执行步骤805。 
方法在步骤806结束。 
上述情况也可通过图9所示的方法来处理。图9是示出根据本发明另一个实施例的使语音合成时长模型自适应的方法的流程图。 
如图9所示,方法从步骤900开始。步骤901、902、903的处理分别与步骤601、602、603相同,不再重复说明,但在步骤901还根据参考样本数据来计算出新说话人或特定任务特色的语速。如果不存在对应于和所述时长的分类相应或接近的分类的参考时长,但有不同声调的相同语音合成单元,则在步骤906,使所述时长适应参考语音合成时长模型中不同声调的相同语音合成单元的、对应于所述时长的分类的参考时长。如果不存在对应于和所述时长的分类相应或接近的分类的参考时长,但有相同类型的语音合成单元,则在步骤904,使所述时长适应参考语音合成时长模型中相同类型的语音合成单元的、对应于所述时长的分类的参考时长。如果不存在相同的语音合成单元,则在步骤905,根据计算的语速来调整所述时长,即通过学习所计算的语速风格来调整时长。步骤906也可以替代步骤904和/或步骤905。 
此外或优选地,也可以在没有相同类型的语音合成单元或没有不同声调的相同语音合成单元的情况下执行步骤905。 
方法在步骤907结束。 
图10是示出其中实现本发明的计算机的示例性结构的框图。 
本发明的设备和方法实现环境如图10所示。 
在图10中,中央处理单元(CPU)1001根据只读映射数据(ROM)1002中存储的程序或从存储部分1008加载到随机存取映射数据(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。 
CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。 
下述部件连接到输入/输出接口1005:输入部分1006,包括键盘、鼠标等等;输出部分1007,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分1008,包括硬盘等等;和通信部分1009,包括网络接口卡比如LAN卡、调制解调器等等。通信部分1009经由网络比如因特网执行通信处理。 
根据需要,驱动器1010也连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。 
在通过软件实现上述步骤和处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。 
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘、光盘(包含光盘只读映射数据(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体映射数据。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的方法一起被分发给用户。 
在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解,在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。 

Claims (14)

1.一种使语音合成时长模型自适应的设备,包括:
参考模型生成装置,其根据所述语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类,通过计算对应于每个分类的样本集的参考样本数目和参考时长,生成参考语音合成时长模型;和
模型自适应装置,其使所述语音合成时长模型中每个语音合成单元的每个时长,适应所述参考语音合成时长模型中相同语音合成单元的、对应于所述时长的分类的参考时长,
其中所述适应包括:
确定自适应因子λ,其中λ大于0且小于1,并且λ取决于所述时长的相应样本数目和所述参考时长的相应样本数目之间的比值;和
根据下式计算适应后的所述时长:
适应后的所述时长=(1-λ)×所述参考时长+λ×所述时长。
2.如权利要求1所述的使语音合成时长模型自适应的设备,其中,所述模型自适应装置在不存在对应于所述时长的分类的所述参考时长的情况下,使所述时长适应所述参考语音合成时长模型中相同语音合成单元的、对应于和所述时长的分类接近的分类的参考时长。
3.如权利要求2所述的使语音合成时长模型自适应的设备,其中,所述分类结构基于决策树,并且和所述时长的分类接近的分类包括下述中的一或多种:
作为代表所述时长的叶子节点的兄弟的叶子节点的相应分类;和
作为代表所述时长的叶子节点的血缘关系最近的堂兄弟的叶子节点的相应分类。
4.如权利要求2所述的使语音合成时长模型自适应的设备,其中,所述模型自适应装置在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,使所述时长适应所述参考语音合成时长模型中相同类型的语音合成单元的、对应于所述时长的分类的参考时长。
5.如权利要求2所述的使语音合成时长模型自适应的设备,其中,所述模型自适应装置在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,使所述时长适应所述参考语音合成时长模型中不同声调的相同语音合成单元的、对应于所述时长的分类的参考时长。
6.如权利要求2所述的使语音合成时长模型自适应的设备,其中,所述参考模型生成装置根据所述样本数据计算语速,并且所述模型自适应装置在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,根据所述语速来调整所述时长。
7.如权利要求1至6中任一项所述的使语音合成时长模型自适应的设备,其中所述适应包括在确定λ时将所述参考时长的相应样本数目的量级调整得接近所述时长的相应样本数目的量级。
8.一种使语音合成时长模型自适应的方法,包括:
根据所述语音合成时长模型的分类结构对参考样本数据中每个语音合成单元的样本进行分类,通过计算对应于每个分类的样本集的参考样本数目和参考时长,生成参考语音合成时长模型;和
使所述语音合成时长模型中每个语音合成单元的每个时长,适应所述参考语音合成时长模型中相同语音合成单元的、对应于所述时长的分类的参考时长,
其中所述适应包括:
确定自适应因子λ,其中λ大于0且小于1,并且λ取决于所述时长的相应样本数目和所述参考时长的相应样本数目之间的比值;和
根据下式计算适应后的所述时长:
适应后的所述时长=(1-λ)×所述参考时长+λ×所述时长。
9.如权利要求8所述的使语音合成时长模型自适应的方法,还包括:
在不存在对应于所述时长的分类的所述参考时长的情况下,使所述时长适应所述参考语音合成时长模型中相同语音合成单元的、对应于和所述时长的分类接近的分类的参考时长。
10.如权利要求9所述的使语音合成时长模型自适应的方法,其中,所述分类结构基于决策树,并且和所述时长的分类接近的分类包括下述中的一或多种:
作为代表所述时长的叶子节点的兄弟的叶子节点的相应分类;和
作为代表所述时长的叶子节点的血缘关系最近的堂兄弟的叶子节点的相应分类。
11.如权利要求9所述的使语音合成时长模型自适应的方法,还包括:
在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,使所述时长适应所述参考语音合成时长模型中相同类型的语音合成单元的、对应于所述时长的分类的参考时长。
12.如权利要求9所述的使语音合成时长模型自适应的方法,还包括:
在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,使所述时长适应所述参考语音合成时长模型中不同声调的相同语音合成单元的、对应于所述时长的分类的参考时长。
13.如权利要求9所述的使语音合成时长模型自适应的方法,其中,所述参考语音合成时长模型的生成包括:
根据所述样本数据计算语速,并且
所述方法还包括:
在不存在所述相同语音合成单元或对应于和所述时长的分类相应或接近的分类的参考时长的情况下,根据所述语速来调整所述时长。
14.如权利要求8至13中任一项所述的使语音合成时长模型自适应的方法,其中所述适应包括在确定λ时将所述参考时长的相应样本数目的量级调整得接近所述时长的相应样本数目的量级。
CN200910007682A 2009-02-20 2009-02-20 使语音合成时长模型自适应的方法和设备 Active CN101814288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910007682A CN101814288B (zh) 2009-02-20 2009-02-20 使语音合成时长模型自适应的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910007682A CN101814288B (zh) 2009-02-20 2009-02-20 使语音合成时长模型自适应的方法和设备

Publications (2)

Publication Number Publication Date
CN101814288A CN101814288A (zh) 2010-08-25
CN101814288B true CN101814288B (zh) 2012-10-03

Family

ID=42621526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910007682A Active CN101814288B (zh) 2009-02-20 2009-02-20 使语音合成时长模型自适应的方法和设备

Country Status (1)

Country Link
CN (1) CN101814288B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104282300A (zh) * 2013-07-05 2015-01-14 中国移动通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
CN105225658B (zh) * 2015-10-21 2018-10-19 百度在线网络技术(北京)有限公司 韵律停顿信息的确定方法和装置
CN110010136B (zh) * 2019-04-04 2021-07-20 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN110767213A (zh) * 2019-11-08 2020-02-07 四川长虹电器股份有限公司 一种韵律预测方法及装置
CN113129863B (zh) * 2019-12-31 2024-05-31 科大讯飞股份有限公司 语音时长预测方法、装置、设备及可读存储介质
CN111768756B (zh) * 2020-06-24 2023-10-20 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1005018A2 (en) * 1998-11-25 2000-05-31 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
CN1372246A (zh) * 2001-01-05 2002-10-02 松下电器产业株式会社 与文本语音系统相配的韵律模板
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
EP1643486A1 (en) * 2004-10-01 2006-04-05 AT&T Corp. Method and apparatus for preventing speech comprehension by interactive voice response systems
CN1956057A (zh) * 2005-10-28 2007-05-02 富士通株式会社 一种基于决策树的语音时长预测装置及方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1005018A2 (en) * 1998-11-25 2000-05-31 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
CN1372246A (zh) * 2001-01-05 2002-10-02 松下电器产业株式会社 与文本语音系统相配的韵律模板
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
EP1643486A1 (en) * 2004-10-01 2006-04-05 AT&T Corp. Method and apparatus for preventing speech comprehension by interactive voice response systems
CN1956057A (zh) * 2005-10-28 2007-05-02 富士通株式会社 一种基于决策树的语音时长预测装置及方法
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法

Also Published As

Publication number Publication date
CN101814288A (zh) 2010-08-25

Similar Documents

Publication Publication Date Title
CN101814288B (zh) 使语音合成时长模型自适应的方法和设备
US11069335B2 (en) Speech synthesis using one or more recurrent neural networks
US8244534B2 (en) HMM-based bilingual (Mandarin-English) TTS techniques
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US6665641B1 (en) Speech synthesis using concatenation of speech waveforms
EP0953970B1 (en) Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
CN101650942B (zh) 基于韵律短语的韵律结构生成方法
US20080177543A1 (en) Stochastic Syllable Accent Recognition
Watts Unsupervised learning for text-to-speech synthesis
Wang et al. Towards automatic assessment of spontaneous spoken English
Kasuriya et al. Thai speech corpus for Thai speech recognition
Torkkola An efficient way to learn English grapheme-to-phoneme rules automatically
US10685644B2 (en) Method and system for text-to-speech synthesis
CN110390928B (zh) 一种自动拓增语料的语音合成模型训练方法和系统
Kurimo et al. Modeling under-resourced languages for speech recognition
CN1956057B (zh) 一种基于决策树的语音时长预测装置及方法
Fordyce et al. Prosody prediction for speech synthesis using transformational rule-based learning.
Dagba et al. A Text To Speech system for Fon language using Multisyn algorithm
US7263486B1 (en) Active learning for spoken language understanding
Jauk et al. Expressive speech synthesis using sentiment embeddings
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
Black et al. Unit selection without a phoneme set
Vazirnezhad et al. Hybrid statistical pronunciation models designed to be trained by a medium-size corpus
Read et al. Automatic pitch accent prediction for text-to-speech synthesis.
Hlaing et al. Word Representations for Neural Network Based Myanmar Text-to-Speech S.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant