CN1979637A

CN1979637A - 文字转音标的方法

Info

Publication number: CN1979637A
Application number: CNA2005101295097A
Authority: CN
Inventors: 王稔志; 李青宪
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2005-12-05
Filing date: 2005-12-05
Publication date: 2007-06-13

Abstract

一种文字转音标的方法，包含一个形素音素片段的寻找过程和一个三阶段的字转音过程，通过一已训练好的标音字典，寻找出可能的形素音素配对序列(称为区块)集合，并将输入的文字依序进行一形素切割、一区块标示、以及一确认程序的该三阶段的字转音过程，而决定出一发音序列。由节省计算资源的区块标示降低音素图表的大小，大幅增加搜寻到可能区块序列的速度。除了维持平均水平以上的精准度外，更节省了大量的计算时间，适合应用于移动信息家电上语音相关产品上。

Description

文字转音标的方法

技术领域

本发明涉及关于语音合成(speech synthesis)与语音辨识(speechrecognition)，特别涉及关于一种文字转音标(phonemisation)的方法，可应用在移动信息家电上的文字转音标模型。

背景技术

文字转音标是将输入的文字(text)转换为音标(pronunciation)输出。早在信息家电(information appliance，IA)时代来临前，世界各国产业分析家就预测语音人机接口将会成为信息产业的杀手级应用，而文字转音标(phonemisation)的技术常被用于语音合成(speech synthesis)与语音辨识(speech recognition)相关的系统中。

传统上获取发音的最快方法便是查询字典，然而字典并无法包括所有的文字及其发音。因此当系统遇到字典查不到的生字时，便需要文字转音标的技术产生该字的发音。在语音合成方面，文字转音标提供了生字的发音，避免系统因为缺乏发音，造成语音输出的困难。在语音辨识方面，为提高辨识的正确性，经常增加新字来扩充训练语料库，利用文字转音标就能够处理那些缺乏发音的新字，减少扩充语料库的困难度。

传统上文字转音标是以人工制定规则为基础(rule-based)，此种方法需要由语言专家撰写大量的规则。然而规则再多，还是会有无法处理的情况发生，何况加入更多的新规则，也无法确保不会与既有规则相抵触。规则数量越多，修改与维护规则所花费的成本也越高，另外这些规则也会因为语言的不同而有所差异，若要将应用领域扩展为其它语言，就需花费大量的时间与人力成本重新制定规则，缺乏可重复使用性(reusability)与可移植性(portability)，因此以规则为基础的字转音(text-to-pronunciation)系统比较难以提升其效果。

由于上述的缺点，越来越多字转音系统采用数据导向(data-driven)的方法，包括以模拟式发音(pronunciation by analogy，PbA)、类神经网络(neural-network)、决策树(decision tree)、联合N-gram模型(joint N-grammodel)、自动学习规则(automatic rule learning)以及多阶段字转音(multi-stagetext-to-pronunciation conversion)模型等。数据导向的优点在于无需太多人力及专业知识的介入，而且应用的语言不受到局限。因此在系统建立、未来维护及可重复使用等方面，都比以规则为基础的方法更为优异。

模拟式发音是把输入的文字分解为不同长度的字符串，再与字典中的文字进行对比，找出各字符串最具代表性的音素，将字符串与对应音素建立为图表(graph)，图表中最佳的路径(path)即代表该生字的发音。美国专利6,347,295的文献中，公开了一种形素转音素(grapheme-to-phoneme)的计算机方法(computer method)与装置。此技术采用模拟式发音方法，需要一个发音字典，纯粹找寻字典中有出现过的片段以及这个片段的出现次数当作分数，进而建立整个音素图表。

采用类神经网络方法的技术如美国专利5,930,754所公开的文献。此文献公开了一种以类神经网络为基础的表音法-语音学的技术。此技术需要事先定出一个输入形素特征的集合(predetermined set of input letter features)，来训练出类神经网络模型，以进行发音标示。

采用决策树的技术如美国专利6,029,132所公开的文献。此文献公开了一种形素转音(letter-to-sound)的方法。此技术是一种混合式(hybrid)的方法，即由建立好的规则，利用决策树来表示，用决策树将输入的文字进行音标标示。另一篇美国专利6,230,131的文献中公开了一种产生拼音转发音的决策树的方法，即由此决策树进行标音的动作，再通过机率模型找出最佳的路径。

联合N-gram模型需先将文字与音标分解成为形素-音素配对(grapheme-phoneme pair)后，利用这些配对建立机率模型，之后输入的文字也被分解为形素-音素配对，根据先前建立的机率模型，找出最佳的音素序列。

多阶段字转音是针对易标错音标的形素(元音)加入更多前后文的信息进行再确认，以求得最后的发音结果。美国专利6,230,131的文献利用此技术公开了一种文字转音的方法。

上述这些采用数据导向方法的技术都需要训练的语料，通常是一部含有文字与对应音标的字典。在这些方法当中，模拟式发音和联合N-gram模型是较常被提及的两种方法，而多阶段的字转音模型是目前效能最好的。

模拟式发音在执行效率上虽有不错的表现，但在精准度上却是很差的。联合N-gram模型有不错的精准度，然而形素音素配对所建立的图表(当n＝4)过大，导致效率为上述方法中最差的。多阶段模型会得到较高的发音结果，然而针对易标错音标的形素进行再确认的方法，不但造成内存需求增加，更导致整体效率无法有效的提升。

由于语音是移动信息家电时代人机接口很重要的一项媒介，而文字转音标在语音的合成与辨识方面都扮演了重要的角色，因此优秀的文字转音标技术绝对是不可或缺的一环。

发明内容

本发明克服上述传统的采用数据导向方法技术的缺点，其主要目的是提供一种文字转音标的方法。此文字转音标的方法是一种数据导向的三阶段字转音模型，主要包含一个形素音素片段的前置寻找过程(chunk search process)和一个三阶段(three-stage)的字转音过程。

在形素音素片段的寻找过程里，首先通过一标音字典，找出可能的形素音素配对序列(chunk)，简称为区块。在三阶段的字转音过程中，其第一阶段是将输入的文字进行一形素切割(grapheme segmentation，GS)，获得一形素序列(grapheme sequence)。其第二阶段是根据此形素序列与训练得到的区块，进行一区块标示(chunk marking)，找出一可能的区块序列(chunk sequence)。其第三阶段是对该可能的区块序列进行确认(verification)。最后将第二阶段与第三阶段的评定分数进行权重调整，即可快速地找出发音序列。

上述文字转音标的方法，其中，该形素音素片段的寻找过程中，该区块的定义为长度大于1的形素音素配对序列。

上述文字转音标的方法，其中，该形素音素片段的寻找过程是加入一边界符号的设计，再进行区块寻找。

上述文字转音标的方法，其中，该边界符号的加入是依据区块会出现在边界位置的发音机会的多少而定。

上述文字转音标的方法，其中，该形素音素片段的寻找过程还包含：当该形素音素配对序列出现的机率大于某一个阈值时，则为区块的候选者，而该区块的分数是由其出现的机率值来决定。

上述文字转音标的方法，其中，该三阶段的字转音过程还包含：将该输入的文字进行该形素切割，以获得一形素序列；根据该形素序列与得到的该区块集合，进行该区块标示，产生N个可能的区块序列，N为自然数；以及对该可能的区块序列，进行该确认程序，并进行一分数权重调整，决定出该发音序列。

上述文字转音标的方法，其中，进行该区块标示后，并对该区块标示执行一评分方式。

上述文字转音标的方法，其中，该形素切割是采用一n-gram模型以获得该形素序列。

上述文字转音标的方法，其中，进行该确认程序，并对该确认程序执行一评分方式。

上述文字转音标的方法，其中，该确认程序是将该N个区块序列进行音素序列的再确认和重新对该N个区块序列进行评分。

上述文字转音标的方法，其中，该音素序列的再确认是利用区块中与区块间的特征集合重新对该N个区块序列进行评分。

上述文字转音标的方法，其中，该分数权重调整是对该区块标示执行一评分方式，并通过权重的调整与该再确认的分数进行整合，而得到分数最高的区块序列，选其发音序列为决定出的该发音序列。

上述文字转音标的方法，其中，该文字转音标的方法适用于移动信息家电上的文字转音标模型。

实验结果显示，本发明由于由区块标示降低音素图表的大小，增加搜寻的速度，因此比现有技术的多阶字转音模型快了将近三倍，且硬件需求是先前技术的一半，也具可配置性。

现配合下列图示、实施例的详细说明及申请专利保护范围，将上述内容及本发明的其它目的与优点详述于后。

附图说明

图1为一流程图，说明本发明文字转音标的方法。

图2是以一文字feasible为例，根据图1里三阶段的字转音的流程，决定出一发音序列[FIYZAXBL]。

图3说明区块标示用来降低音素图表的搜寻空间。

图4是以文字aardema为例，进行形素切割，并采用n-gram模型获得一形素序列。

图5是图4所产生的形素序列，加入边界的概念，进行区块标示，并产生Topi与Top2的区块序列。

图6为将图5的Top2的区块序列进行音素序列的再确认。

图7为本发明的实验结果。

其中，附图标记说明如下：

101已训练好的标音字典

102可能的形素音素配对序列集合

110形素切割 111形素序列

120区块标示 121区块序列

122寻找程序

130a确认程序 130b权重调整

131发音序列

具体实施方式

图1为一流程图，说明本发明文字转音标的方法。此文字转音标的方法包含一个形素音素片段的寻找过程和一个三阶段的字转音过程。通过一已训练好的标音字典，寻找出可能的形素音素配对序列(称为区块)集合，并将输入的文字依序进行一形素切割、一区块标示、以及一确认程序的该三阶段的字转音过程，而决定出一发音序列。

参考图1，在形素音素片段的寻找过程里，首先通过一已训练好的标音字典101，通过一寻找程序122寻找出可能的形素音素配对序列集合，如标号102所示。在三阶段的字转音过程中，其第一阶段是将输入的文字进行一形素切割110，以获得一形素序列111。其第二阶段是根据此形素序列111与得到的区块集合102，进行一区块标示(chunk marking)120，找出可能的区块序列121。其第三阶段(决定程序，decision process)是对该可能的区块序列121，进行一确认程序130a，并进行一分数权重调整130b，即可快速地决定出一发音序列131。

图2是以一文字feasible为例，根据图1里三阶段的字转音的流程，决定出一发音序列[FIYZAXBL]。参考图2，输入的文字feasible进行形素切割110后，形成形素序列feasible，亦即完成第一阶段。根据此形素序列feasible与训练得到的区块集合，进行区块标示fea与sible，产生两个可能的区块序列Top1与Top2，即完成第二阶段。对区块序列Top1与Top2再进行确认程序，并进行分数权重调整，则可快速地决定出发音序列[FIYZAXBL]，即完成第三阶段。

由图2的例子可知，因为区块本身已经将可能出现在一起的形素音素进行配对，所以区块标示所形成的区块图表(chunk graph)整体规模比现有技术所建立的音素图表(phoneme graph)小很多，此区块标示用来降低音素图表的搜寻空间，如图3所示。

以下对形素音素片段的寻找和形素切割、区块标示、以及确认程序的每一阶段再一一详细说明。

形素音素片段的寻找

本发明中，区块的定义为长度大于1的形素音素配对序列，且当这种形素音素配对序列出现的机率大于某一个阈值(threshold)时，则为区块的候选者(candidate)，而区块的分数则由出现的机率值来决定。然而，某些区块会随着出现的位置不同而有不一样的发音。比方说当“ch”出现在字尾时有91.55％的机率发[CH]的音，而在其它地方则只有63.91％发[CH]与33.64％发[SH]的音，由此得知当“ch”在字尾发[CH]的机会比[SH]来得高。因此本发明加入了边界(boundry，符号为$)的概念再进行区块搜寻，换句话说，边界符号的加入是依据区块会出现在边界位置发音机会的多少而定。因此“ch:$|CH:$”这个形素与音素配对序列就是区块的候选者。区块的详细定义如下：

Chunk＝(GraphemeList，PhonemeList)；

Length(Chunk)＞1；

P(PhonemeList|GraphemeLIst)＞threshold；

Score(Chunk)＝log(PhonemeList|GraphemeList).

以图2的例子来说，

chunk＝(“s:i:b:le”，“Z:AX:B:L”)；

length(“s:i:b:le”)＝4＞1；

P(“s:i:b:le”|“Z:AX:B:L”)＞threshold；

Score＝log(“s:i:b:le”|“Z:AX:B:L”)。

形素切割

将输入的文字w进行形素切割(G)，切割方法有很多种变化，本方法采用n-gram模型以获得高准确率的形素序列G(w)＝g_w＝g₁g₂…g_n。公式如下：

S_{G} = Σ_{i = 1}^{n} \log (P (g_{i} | g_{i - N + 1}^{i - 1}))

实验结果发现形素序列正确率高达90.61％(n＝3)。图4是以文字aardema为例，进行形素切割，并利用n-gram模型获得的形素序列G(w)，其中

G(w)＝aardema＝g₁g₂…g₆。

区块标示

如前所述，由区块标示可降低音素图表的大小，增加搜寻到可能的区块序列的速度。基于前一阶段所产生的形素序列进行区块标示，并产生TopN的区块序列，N为自然数。图5是基于前一阶段所产生的形素序列g₁g₂…g₆，加入边界的概念，进行区块标示，并产生Top1与Top2的区块序列，亦即N＝2。对此区块标示的评分方式可以有多种变化，如下为其中一例：

S_{C} = Σ_{i = 1}^{n} Chun k_{i}

确认程序

接下来，将TopN的区块序列进行音素序列的再确认和重新对区块序列进行评分。在确认程序中，利用区块中与区块间的特征集合重新对区块序列进行评分，得到再确认的分数，公式如下：

P (f_{i} | X) = \frac{P (X | f_{i}) P (f_{i})}{P (X)}

\approx \frac{P (X | f_{i})}{P (X)}

\approx \frac{P (X, f_{i})}{P (X) P (f_{i})}

\approx Π_{j = 1}^{n} \frac{P (x_{j}, f_{i})}{P (x_{j}) P (f_{l})}

在本方法中再确认分数为利用特征集合与目标音素f₁之间相互信息(mutual informtion，MI)的值联成所得到，进一步对上面公式取log，得到再确认程序的公式如下：

S_{p} = Σ_{i = 1}^{n} \log (P (f_{i} | g_{i - R}^{i - L}))

图6为将图5的Top2的区块序列进行音素序列的再确认。

最后由区块标示的结果，选取TopN区块序列的候选者及其分数，通过权重的调整与再确认的分数进行整合，而得到最终的分数。分数最高的区块序列选其发音序列当作标准答案，公式如下：

S_final＝S_c+w_pS_p。

以本发明来进行实验，以验证本发明的技术效果。此实验中标音字典为CMU Pronouncing Dictionary( http://www.speech.cs.cmu.edu/cgi-bin/cmudict)，这是一部计算机可读(machine-readable)的字典，包含了超过125,000个英文词汇及其相对应的发音，而这些发音是由一组有限的音素集合(总共39个音素)所合成。由于这部字典的信息与格式对于语音合成和语音辨识等相关领域而言是非常有用，也被现有技术拿来进行实验，所以本发明也针对这部字典进行实验。去除标点符号以及具有多重发音的词汇后共剩下110,327个词汇，接下来每个词汇w的所有字母G(w)＝g₁g₂…g_n及其发音P(w)＝p₁p₂…p_m均通过自动对应的模块取得字母与发音的对应GP(w)＝g₁P₁:g₂P₂:…g_nP_m，将所有对应的结果随机分成十个集合再以统计式交叉验证法(cross-validation)进行实验评定。

实验结果如图7所示，本发明由于由区块标示降低音素图表的大小，增加搜寻的速度，因此比现有技术的多阶段字转音模型快了将近三倍，且硬件需求是现有技术的一半，也具可配置性。可符合不同种类的移动信息家电产品，选择最适合的设定，快速地进行文字转音标。

综上所述，本发明的文字转音标的方法是一种高效率数据导向的字转音模型。主要包含一个形素音素片段的寻找过程和一个三阶段的字转音过程。由节省计算资源的区块标示降低音素图表的大小，大幅增加搜寻到可能区块序列的速度。除了维持平均水平以上的精准度外，更节省了大量的计算时间，适合应用于移动信息家电上语音相关产品上。

以上内容仅为本发明的最佳实施例而已，不能依此限定本发明的保护范围。所有依据本发明申请专利保护范围所作的变化与修饰，都应仍属本发明专利保护的范围内。

Claims

1.一种文字转音标的方法，包含一个形素音素片段的寻找过程和一个三阶段的字转音过程，通过一已训练好的标音字典，寻找出可能的形素音素配对序列集合，即区块集合，并将输入的文字依次进行一形素切割、一区块标示、以及一确认程序的该三阶段的字转音过程，而决定出一发音序列。

2.如权利要求1所述的文字转音标的方法，其中，该形素音素片段的寻找过程中，该区块的定义为长度大于1的形素音素配对序列。

3.如权利要求2所述的文字转音标的方法，其中，该形素音素片段的寻找过程是加入一边界符号的设计，再进行区块寻找。

4.如权利要求3所述的文字转音标的方法，其中，该边界符号的加入是依据区块会出现在边界位置的发音机会的多少而定。

5.如权利要求2所述的文字转音标的方法，其中，该形素音素片段的寻找过程还包含：

当该形素音素配对序列出现的机率大于某一个阈值时，则为区块的候选者，而该区块的分数是由其出现的机率值来决定。

6.如权利要求1所述的文字转音标的方法，其中，该三阶段的字转音过程还包含：

将该输入的文字进行该形素切割，以获得一形素序列；根据该形素序列与得到的该区块集合，进行该区块标示，产生N个可能的区块序列，N为自然数；以及

对该可能的区块序列，进行该确认程序，并进行一分数权重调整，决定出该发音序列。

7.如权利要求6所述的文字转音标的方法，其中，进行该区块标示后，并对该区块标示执行一评分方式。

8.如权利要求6所述的文字转音标的方法，其中，该形素切割是采用一n-gram模型以获得该形素序列。

9.如权利要求6所述的文字转音标的方法，其中，进行该确认程序，并对该确认程序执行一评分方式。

10.如权利要求9所述的文字转音标的方法，其中，该确认程序是将该N个区块序列进行音素序列的再确认和重新对该N个区块序列进行评分。

11.如权利要求10所述的文字转音标的方法，其中，该音素序列的再确认是利用区块中与区块间的特征集合重新对该N个区块序列进行评分。

12.如权利要求11所述的文字转音标的方法，其中，该分数权重调整是对该区块标示执行一评分方式，并通过权重的调整与该再确认的分数进行整合，而得到分数最高的区块序列，选其发音序列为决定出的该发音序列。

13.如权利要求1所述的文字转音标的方法，其中，该文字转音标的方法适用于移动信息家电上的文字转音标模型。