CN103854643B - 用于合成语音的方法和装置 - Google Patents
用于合成语音的方法和装置 Download PDFInfo
- Publication number
- CN103854643B CN103854643B CN201210501075.9A CN201210501075A CN103854643B CN 103854643 B CN103854643 B CN 103854643B CN 201210501075 A CN201210501075 A CN 201210501075A CN 103854643 B CN103854643 B CN 103854643B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- duration
- classes
- probability
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 45
- 238000003066 decision tree Methods 0.000 claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 16
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims description 28
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000033764 rhythmic process Effects 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供用于合成语音的方法和装置。所述用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及语音合成单元,其利用上述时长预测单元预测出的时长合成上述文本句的语音。
Description
技术领域
本发明涉及语音合成技术,具体地,涉及用于合成语音的方法和装置。
背景技术
目前,基于隐马尔科夫模型的语音合成(HTS,HMM-based Text to Speech)已经广泛应用于语音合成技术。
具体地,图4示出了传统的基于隐马尔科夫模型的语音合成系统。如图4所示,在训练阶段,利用语音数据库10和语境数据库20训练隐马尔科夫模型(HMMs),得到时长决策树30。
在合成阶段,在步骤405,对步骤401输入的文本句进行文本分析,得到该文本句的音素序列和语境特征序列。然后,在步骤410,基于步骤405中得到的语境特征在时长决策树30中查找与该语境特征对应的音素的叶子节点。然后,在步骤415,将叶子节点的中心时长作为该音素的时长。最后,在步骤420,利用预测出的时长进行语音合成。
在上述传统的基于隐马尔科夫模型的语音合成系统中,某个音素的时长是由时长决策树30的某个叶子节点的中心时长,例如高斯分布的均值决定。也就是说,一个叶子节点上的所有音素时长实例由单一的中心时长来表示,由此导致了过平淡节奏的出现。这种平淡的合成语音会在电子书阅读、汽车导航、移动电话等这样的应用中降低用户体验。
发明内容
为了改善上述现有技术中存在的利用叶子节点的单一的中心时长生成音素的时长而导致合成语音的节奏过于平淡的问题,本发明提出了一种改进合成语音节奏的方法,该方法利用时长决策树的叶子节点上的多中心时长来生成音素的时长。也就是说,本发明提供了用于合成语音的方法和装置。具体地,提供了以下技术方案。
[1]一种用于合成语音的方法,包括以下步骤:
输入文本句;
对上述文本句进行文本分析以获得音素序列;
在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;
计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;
利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及
利用上述预测出的时长合成上述文本句的语音。
本发明的上述用于合成语音的方法,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统方法不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
[2]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:
将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。
本发明的上述用于合成语音的方法,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
[3]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:
将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的方法,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
[4]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:
利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。
[5]根据上述[4]所述的方法,其中,上述利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长的步骤包括:
将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的方法,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
[6]根据上述[1]~[5]的任一项所述的方法,其中,
上述对上述文本句进行文本分析的步骤还获得与上述音素序列对应的语境特征序列,
上述在时长决策树中查找上述音素序列中的至少一个音素的叶子节点的步骤包括:利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。
[7]根据上述[1]~[6]的任一项所述的方法,其中,
上述对上述文本句进行文本分析的步骤还获得与上述音素序列对应的语境特征序列,
上述计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率的步骤包括:利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。
[8]根据上述[7]所述的方法,其中,上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。
[9]根据上述[8]所述的方法,其中,上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。
[10]根据上述[9]所述的方法,其中,上述与用于训练上述时长决策树的语境特征不同的语境特征包括对上述用于训练上述时长决策树的语境特征不同的语境特征进行删减和/或增加后得到的语境特征。
[11]一种用于合成语音的装置,包括:
输入单元,其输入文本句;
文本分析单元,其对上述文本句进行文本分析以获得音素序列;
查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;
概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;
时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及
语音合成单元,其利用上述时长预测单元预测出的时长合成上述文本句的语音。
本发明的上述用于合成语音的装置,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统装置不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
[12]根据上述[11]所述的装置,其中,上述时长预测单元,将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。
本发明的上述用于合成语音的装置,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
[13]根据上述[11]所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的装置,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
[14]根据上述[11]所述的装置,其中,上述时长预测单元,利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。
[15]根据上述[14]所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的装置,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
[16]根据上述[11]~[15]的任一项所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述查找单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。
[17]根据上述[11]~[16]的任一项所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述概率计算单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。
[18]根据上述[17]所述的装置,其中,上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。
[19]根据上述[18]所述的装置,其中,上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。
[20]根据上述[19]所述的装置,其中,上述与用于训练上述时长决策树的语境特征不同的语境特征包括对上述用于训练上述时长决策树的语境特征不同的语境特征进行删减和/或增加后得到的语境特征。
附图说明
结合附图,从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见,其中:
图1示出了根据本发明的第1实施例的用于合成语音的方法的流程图。
图2示出了根据本发明的第1实施例的用于合成语音的方法的一个具体实例。
图3示出了根据本发明的第2实施例的用于合成语音的装置的框图。
图4示出了传统的基于隐马尔科夫模型的语音合成系统。
具体实施方式
下面,结合附图对本发明的实施例进行详细描述。
一般地,本发明的实施例涉及在电子设备(例如电子书、汽车导航、移动电话等和/或类似物)中合成语音的方法及装置。
概括而言,本发明的基本构思是:在训练阶段,使用聚类算法将时长决策树的叶子节点上的音素时长实例聚为多个类,这些类的类中心时长将被用于接下来的时长预测。然后使用类似于条件随机场的机器学习方法建立音素的语境特征和叶子节点的多个类之间的映射关系,获得映射模型。在合成阶段,在对输入的文本句预测时长时,首先根据待合成音素的语境特征在时长决策树上查找其叶子节点,然后根据待合成音素的语境特征,利用训练阶段获得的映射模型计算待合成音素属于其叶子节点的多个类的每个类的概率,最后基于计算得到的概率和多个类的类中心时长预测待合成语音的时长。
用于合成语音的方法
图1示出了根据本发明的第1实施例的用于合成语音的方法的流程图。
首先,如图1所示,在步骤101,输入文本句。
在本实施例中,输入的文本句可以是本领域的技术人员公知的任何文本的句子,也可以是各种语言的文本句,例如汉语、英语、日语等,本发明对此没有任何限制。
接着,在步骤105,对输入的文本句进行文本分析以获得该文本句的音素序列。优选,在步骤105,还获得与音素序列对应的语境特征序列。
在本实施例中,语境特征包括上述文本句的句长,句中各字(词)的字形、拼音、音素类型、声调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此外,在本实施例中,用于对输入的文本句进行文本分析的文本分析方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
接着,在步骤110,在时长预测模型中的时长决策树中查找上述音素序列中的音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类。
在本实施例中,优选,利用步骤105的文本分析所获得的语境特征序列中与音素对应的语境特征查找音素的叶子节点。在时长决策树上查找音素的叶子节点的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
在本实施例中,时长预测模型的时长决策树是在训练阶段通过训练获得的。图2示出了根据本发明的第1实施例的用于合成语音的方法的一个具体实例。下面结合图2对训练阶段的内容进行详细描述。
如图2所示,在训练阶段,利用语音数据库10的声学信息和语境数据库20的语言学信息训练HMMs模型,得到时长决策树30。
在本实施例中,训练HMMs模型的方法可以是本领域的技术人员公知的任何方法,本发明对此并没有任何限制。另外,时长决策树30也可以是本领域的技术人员公知的基于HHMs模型的任何时长决策树,本发明对此不再进行赘述。
在得到时长决策树30后,本发明在步骤260,对时长决策树30的叶子节点中的音素时长实例进行聚类。下面详细描述聚类的过程。
对于某发音人的时长决策树30,其叶子节点集合定义为L={l0,l1,...,lM-1},M是时长决策树30中叶子节点的总数目。对于某个叶子节点lm,其所属的音素时长实例使用例如K均值聚类方法聚为K类,类标签定义为Tm={0,…,K-1},并且这些类的类中心时长集合定义为Cm={cm,k},k∈Tm。为了保持不同叶子节点间的一致性,对这些类根据其类中心的大小进行排序,即cm,0≤cm,1≤...≤cm,k-1。类的先验概率集合定义为Pm={pm,k},k∈Tm,可以由类所拥有的实例的数目与该叶子节点的实例总数的比值获得。
在本实施例中,虽然使用K均值聚类方法对叶子节点的音素时长实例进行了聚类,但是也可以使用本领域的技术人员公知的任何聚类方法进行聚类,本发明对此没有任何限制。
返回图1,接着,在步骤115,计算音素属于其叶子节点中的多个类的每个类的概率。
在本实施例中,优选,利用步骤105的文本分析所获得的语境特征序列中与音素对应的语境特征和时长预测模型中的映射模型计算音素属于其叶子节点中的多个类的每个类的概率。
在本实施例中,映射模型通过时长预测模型中的音素的语境特征与时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。用于训练映射模型的音素的语境特征可以是用于训练时长决策树的语境特征,也可以是与用于训练上述时长决策树的语境特征不同的语境特征,例如对用于训练时长决策树的语境特征进行删减和/或增加后得到的语境特征,本发明对此没有任何限制。
具体地,下面参照图2详细说明训练映射模型的一个实例。
如图2所示,在步骤270,利用步骤260对叶子节点上的音素时长实例进行聚类后所存储的类标签以及语境数据库20提供的语言学信息训练映射模型。具体的训练过程如下。
对于训练集中的某一句,其音素序列定义为Us={un},n=0,...,N-1,N是该句的音素总数量,其时长和语境特征序列分别为Ds={dn},Θs={θn},n=0,...,N-1,下文中将Θ称为HTS语境特征序列,将θn称为HTS语境特征。
在该实例中,使用类似于条件随机场(CRF,conditional random field)的机器学习方法训练映射模型,即建立音素的语境特征和叶子节点的多个类之间的映射关系。用于训练映射模型的语境特征序列定义为 下文中将称为CRF语境特征序列,将称为CRF语境特征。CRF语境特征可以和用于时长模型训练的HTS语境特征θn相同,也可以不同,例如对HTS语境特征θn进行删减和/或增加而得到CRF语境特征
对于该句中的音素un,其对应的叶子节点lm可以通过使用HTS语境特征θn查找时长决策树的方式获得,而所属的类标签tn=k,k∈Tm可以通过比较其时长dn和各类中心cm的距离的方式得到,从而可以获得音素un的CRF语境特征与对应的叶子节点lm的类标签的对应关系,即获得音素un的训练数据对当训练集中所有的音素处理完成后,总的训练数据集合即可获得,然后映射函数即映射模型可以使用CRF训练得到。使用CRF训练映射模型的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
返回图1,在步骤115计算得到音素属于叶子节点中的多个类的每个类的概率后,在步骤120,利用计算出的概率和多个类的每个类的类中心时长预测音素的时长。
在本实施例中,利用计算出的概率和多个类的每个类的类中心时长预测音素的时长的方法主要包括以下3种。
(1)将多个类中概率最大的类的类中心时长,作为音素的时长。
(2)将多个类的类中心时长以计算出的概率为权重的加权和,作为音素的时长。
(3)将多个类的类中心时长以计算出的概率和多个类的每个类的先验概率为权重的加权和,作为音素的时长。
下面以第3种方法为例进行详细描述。
对于在步骤101输入的文本句,在步骤105获得的音素序列表示为U,在步骤105获得的语境特征序列表示为HTS语境特征序列Θ,对HTS语境特征序列Θ进行与训练映射模型时相同的删减和/或增加,获得其CRF特征序列对于音素序列U中的音素un,叶子节点lm和该叶子节点上各类的类中心cm可以通过对其HTS语境特征θn查找时长决策树的方法获得。那么,音素un的时长可以由以下公式给出:
其中,是该音素的CRF语境特征,k是某个类的标签,pm,k和cm,k分别是标签为k的类的先验概率和类中心时长,是映射模型根据该音素的CRF语境特征和标签为k的类给出的该音素属于该类的概率。
在步骤120预测出音素的时长后,最后,在步骤125,利用预测出的时长合成文本句的语音。
在本实施例中,在合成步骤101输入的文本句的语音时,可以对文本句的音素序列中的某一个音素使用本发明的上述用于合成语音的方法,也可以对音素序列中的多个音素使用本发明的上述用于合成语音的方法,当然也可以对音素序列中的全部音素使用本发明的上述用于合成语音的方法。
本发明的上述用于合成语音的方法,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统方法不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
另外,本发明的上述用于合成语音的方法,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
另外,本发明的上述用于合成语音的方法,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
另外,本发明的上述用于合成语音的方法,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
用于合成语音的装置
在同一发明构思下,图3示出了根据本发明的第2实施例的用于合成语音的装置的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,本实施例的用于合成语音的装置300包括:输入单元301,其输入文本句;文本分析单元305,其对上述文本句进行文本分析以获得音素序列;查找单元310,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;概率计算单元315,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;时长预测单元320,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及语音合成单元325,其利用上述时长预测单元预测出的时长合成上述文本句的语音。
在本实施例中,输入单元301输入的文本句可以是本领域的技术人员公知的任何文本的句子,也可以是各种语言的文本句,例如汉语、英语、日语等,本发明对此没有任何限制。
在本实施例中,优选,文本分析单元305还获得与音素序列对应的语境特征序列。
在本实施例中,语境特征包括上述文本句的句长,句中各字(词)的字形、拼音、音素类型、声调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此外,在本实施例中,用于对输入的文本句进行文本分析的文本分析方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
在本实施例中,优选,查找单元310利用文本分析单元305获得的语境特征序列中与音素对应的语境特征查找音素的叶子节点。在时长决策树上查找音素的叶子节点的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
在本实施例中,时长预测模型的时长决策树是在训练阶段通过训练获得的。训练时长决策树的方法与上述参考图2描述的基本相同,在此不再赘述。
在本实施例中,优选,概率计算单元315,利用文本分析单元305获得的语境特征序列中与音素对应的语境特征和时长预测模型中的映射模型计算音素属于其叶子节点中的多个类的每个类的概率。
在本实施例中,映射模型通过时长预测模型中的音素的语境特征与时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。用于训练映射模型的音素的语境特征可以是用于训练时长决策树的语境特征,也可以是与用于训练上述时长决策树的语境特征不同的语境特征,例如对用于训练时长决策树的语境特征进行删减和/或增加后得到的语境特征,本发明对此没有任何限制。训练映射模型的方法与上述参考图2描述的基本相同,在此不再赘述。
在概率计算单元315计算得到音素属于叶子节点中的多个类的每个类的概率后,时长预测单元320利用计算出的概率和多个类的每个类的类中心时长预测音素的时长。
在本实施例中,时长预测单元320利用计算出的概率和多个类的每个类的类中心时长预测音素的时长的方法主要包括以下3种。
(1)将多个类中概率最大的类的类中心时长,作为音素的时长。
(2)将多个类的类中心时长以计算出的概率为权重的加权和,作为音素的时长。
(3)将多个类的类中心时长以计算出的概率和多个类的每个类的先验概率为权重的加权和,作为音素的时长。
下面以第3种方法为例进行详细描述。
对于在输入单元301输入的文本句,文本分析单元305获得的音素序列表示为U,文本分析单元305获得的语境特征序列表示为HTS语境特征序列Θ,对HTS语境特征序列Θ进行与训练映射模型时相同的删减和/或增加,获得其CRF特征序列对于音素序列U中的音素un,叶子节点lm和该叶子节点上各类的类中心cm可以通过对其HTS语境特征θn查找时长决策树的方法获得。那么,音素un的时长可以由以下公式给出:
其中,是该音素的CRF语境特征,k是某个类的标签,pm,k和cm,k分别是标签为k的类的先验概率和类中心时长,是映射模型根据该音素的CRF语境特征和标签为k的类给出的该音素属于该类的概率。
在时长预测单元320预测出音素的时长后,语音合成单元325利用预测出的时长合成文本句的语音。
在本实施例中,在合成输入单元301输入的文本句的语音时,可以利用本发明的上述用于合成语音的装置300预测文本句的音素序列中的某一个音素的时长,也可以利用本发明的上述用于合成语音的装置300预测音素序列中的多个音素的时长,当然也可以利用本发明的上述用于合成语音的装置300预测音素序列中的全部音素的时长。
本发明的上述用于合成语音的装置300,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统装置不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
另外,本发明的上述用于合成语音的装置300,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
另外,本发明的上述用于合成语音的装置300,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
另外,本发明的上述用于合成语音的装置300,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
本领域的普通技术人员可以理解上述的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和装置也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以由上述硬件电路和软件的结合例如固件来实现。
虽然以上结合具体实施例对本发明的用于合成语音的方法和装置进行了详细描述,但本发明并不限于此,本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围;本发明的保护范围由所附权利要求来限定。
Claims (10)
1.一种用于合成语音的装置,包括:
输入单元,其输入文本句;
文本分析单元,其对上述文本句进行文本分析以获得音素序列;
查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及
语音合成单元;
其特征在于,上述装置还包括:
概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及
时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;
上述语音合成单元利用上述时长预测单元预测出的时长合成上述文本句的语音。
2.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。
3.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。
4.根据权利要求1所述的装置,其中,上述时长预测单元,利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。
5.根据权利要求4所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。
6.根据权利要求1所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述查找单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。
7.根据权利要求1所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述概率计算单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。
8.根据权利要求7所述的装置,其中,上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。
9.根据权利要求8所述的装置,其中,上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。
10.一种用于合成语音的方法,包括以下步骤:
输入文本句;
对上述文本句进行文本分析以获得音素序列;
在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及
合成上述文本句的语音;
其特征在于,上述方法还包括以下步骤:
计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及
利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;
上述合成上述文本句的语音的步骤利用上述预测出的时长合成上述文本句的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210501075.9A CN103854643B (zh) | 2012-11-29 | 2012-11-29 | 用于合成语音的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210501075.9A CN103854643B (zh) | 2012-11-29 | 2012-11-29 | 用于合成语音的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103854643A CN103854643A (zh) | 2014-06-11 |
CN103854643B true CN103854643B (zh) | 2017-03-01 |
Family
ID=50862214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210501075.9A Expired - Fee Related CN103854643B (zh) | 2012-11-29 | 2012-11-29 | 用于合成语音的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103854643B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
CN105869446B (zh) * | 2016-03-29 | 2018-09-25 | 广州阿里巴巴文学信息技术有限公司 | 一种电子阅读装置和语音阅读加载方法 |
CN106601226B (zh) * | 2016-11-18 | 2020-02-28 | 中国科学院自动化研究所 | 音素时长预测建模方法及音素时长预测方法 |
CN107481715B (zh) * | 2017-09-29 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN107705782B (zh) * | 2017-09-29 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 用于确定音素发音时长的方法和装置 |
CN109801618B (zh) * | 2017-11-16 | 2022-09-13 | 深圳市腾讯计算机系统有限公司 | 一种音频信息的生成方法和装置 |
CN109102796A (zh) * | 2018-08-31 | 2018-12-28 | 北京未来媒体科技股份有限公司 | 一种语音合成方法及装置 |
CN109599092B (zh) * | 2018-12-21 | 2022-06-10 | 秒针信息技术有限公司 | 一种音频合成方法及装置 |
CN110264993B (zh) * | 2019-06-27 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN110992926B (zh) * | 2019-12-26 | 2022-06-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6970819B1 (en) * | 2000-03-17 | 2005-11-29 | Oki Electric Industry Co., Ltd. | Speech synthesis device |
EP1669886A1 (fr) * | 2004-12-08 | 2006-06-14 | France Telecom | Construction d'un automate compilant des règles de transcription graphème/phonème pour un phonétiseur |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN101449319A (zh) * | 2006-03-29 | 2009-06-03 | 株式会社东芝 | 语音合成装置及其方法 |
CN102203853A (zh) * | 2010-01-04 | 2011-09-28 | 株式会社东芝 | 合成语音的方法和装置 |
CN102270449A (zh) * | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
CN102651217A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI118062B (fi) * | 2003-04-30 | 2007-06-15 | Nokia Corp | Pienimuistinen päätöspuu |
-
2012
- 2012-11-29 CN CN201210501075.9A patent/CN103854643B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6970819B1 (en) * | 2000-03-17 | 2005-11-29 | Oki Electric Industry Co., Ltd. | Speech synthesis device |
EP1669886A1 (fr) * | 2004-12-08 | 2006-06-14 | France Telecom | Construction d'un automate compilant des règles de transcription graphème/phonème pour un phonétiseur |
CN101449319A (zh) * | 2006-03-29 | 2009-06-03 | 株式会社东芝 | 语音合成装置及其方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN102203853A (zh) * | 2010-01-04 | 2011-09-28 | 株式会社东芝 | 合成语音的方法和装置 |
CN102651217A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
CN102270449A (zh) * | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
Non-Patent Citations (3)
Title |
---|
一种改进的基于决策树的英文韵律短语边界预测方法;张元平 等;《计算机应用研究》;20120831;第29卷(第8期);第2921-2925页 * |
基于混合映射模型的语音转换算法研究;康永国 等;《声学学报》;20061130;第31卷(第6期);第555-562页 * |
汉语语音合成中基于语境特征的清浊音时长调整;徐英进 等;《中国科技论文》;20121031;第7卷(第10期);第783-786页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103854643A (zh) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103854643B (zh) | 用于合成语音的方法和装置 | |
US20230410796A1 (en) | Encoder-decoder models for sequence to sequence mapping | |
CN113811946B (zh) | 数字序列的端到端自动语音识别 | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
CN109036391B (zh) | 语音识别方法、装置及系统 | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
US8065149B2 (en) | Unsupervised lexicon acquisition from speech and text | |
KR20170063037A (ko) | 음성 인식 장치 및 방법 | |
US10607601B2 (en) | Speech recognition by selecting and refining hot words | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7058574B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
Srivastava et al. | Significance of neural phonotactic models for large-scale spoken language identification | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Jeon et al. | Automatic prosodic event detection using a novel labeling and selection method in co-training | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
CN113362809B (zh) | 语音识别方法、装置和电子设备 | |
CN114444492B (zh) | 一种非标准词类判别方法及计算机可读存储介质 | |
CN113763939B (zh) | 基于端到端模型的混合语音识别系统及方法 | |
JP7218803B2 (ja) | モデル学習装置、方法及びプログラム | |
JP2021197165A (ja) | 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170301 Termination date: 20171129 |