CN1315108C

CN1315108C - 对易标错形素重新评分以提高准确率的文字转音标的方法

Info

Publication number: CN1315108C
Application number: CNB2004100287756A
Authority: CN
Inventors: 林一中; 洪鹏翔; 王稔志
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2004-03-17
Filing date: 2004-03-17
Publication date: 2007-05-09
Anticipated expiration: 2024-03-17
Also published as: CN1670820A

Abstract

本发明是关于一种针对易标错音素的形素进行重新评分以提高准确率的文字转音标的方法，其是对一输入文字进行形素切割及音素标示，以产生至少一形素-音素配对序列及其相对应分数；进而由具有较高分数之前至少一个形素-音素配对序列中，对具有易标错形素的形素-音素配对序列，依据每一易标错的形素，选取其前后文的特征，来评断与计算该特征于该形素对应的音素的关联性，以便以对此形素-音素配对序列进行重新评分，而以具有最高分数的形素-音素配对序列作为转换的结果。

Description

对易标错形素重新评分以提高准确率的文字转音标的方法

技术领域

本发明是关于一种文字转音标的方法，尤指一种针对易标错音素的形素进行重新评分以提高准确率的文字转音标的方法。

背景技术

文字转音标是将输入的文字转换为音标输出，其通常被应用于语音合成(speech synthesis)与语音辨识(speech recognition)相关的系统中。基本上，获取发音最佳的方法便是查询字典。然而字典并无法包括所有的字与发音，因此当语音系统遇到字典查不到的生字时，便需要文字转音标的技术来产生该字的发音。在语音合成的应用上面，此技术提供了生字的发音，避免系统因为缺乏发音，造成语音输出的困难。而在语音辨识的应用上面，为提高辨识的正确性，经常增加新字来扩充训练语料库，利用文字转音标就能处理那些缺乏发音的新字，减少扩充语料库的困难度。由此可知，语音是人机界面很重要的一项媒介，而文字转音标在语音的合成与辨识方面都扮演了重要的角色，对语音相关的系统而言，要有最佳的表现，优秀的文字转音标技术绝对是不可或缺的一环。

传统上，文字转音标是以人工订定规则为基础(rule-based)，但是此种方法需要由语言专家撰写大量的规则。然而规则再多，还是会有无法处理的情况发生，何况加入更多的新规则，也无法确保不会与既有规则相抵触。规则数量越多，修改与维护规则所花费的成本也越高，另外这些规则也会因语言的不同而有所差异，若要将应用领域扩展为其他语言，就需花费大量的时间与人力成本重新制定规则，因此以规则为基础的字转音系统缺乏再利用性(reusability)与可携性(portability)，也较难提升效能。

由于上述的缺点，越来越多字转音系统采用资料导向(data-driven)的方法，包括类推发音(pronunciation by analogy，PbA)、类神经网络(neural-network)、决策树(decision tree)、结合式(Joint)的N-gram模型以及自动学习规则(automatic rule learning)等。这些方法都需要训练的语料，通常是一部含有文字与对应音标的字典。资料导向的优点在于无需太多人力及专业知识的介入，而且应用的语言不受到局限。因此在系统建立、未来维护及再利用等方面，都较以规则为基础的方法更为优异。在这些方法当中，PbA以及Joint N-gram模型是较为普遍的两种方法。

PbA是把输入的文字分解为不同长度的形素(grapheme)，与字典中的文字比对之后，找出各形素最具代表性的音素，将形素与音素建立为图网(graph)，图网中最佳的路径(path)即代表该文字的发音。而JointN-gram模型则需先将文字与音标分解成为形素-音素配对(grapheme-phonemepair)后，利用这些配对建立机率模型，之后输入的文字也被分解为形素-音素配对，根据先前建立的机率模型，找出最佳的音素序列。目前JointN-gram模型具有较高的正确率，然而其运算过程却相当耗时。而PbA虽然运算速度较快，但是在正确率的表现却不如Joint N-gram模型。因此，前述现有的文字转音标的方法仍存在有缺失，而有予以改进的必要。

发明内容

本发明的主要目的在提供一种针对易标错音素的形素进行重新评分以提高准确率的文字转音标的方法，其可在较短的运算时间内，得到优于先前技术的文字转音标结果。

为达成前述的目的，本发明的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法主要包括一形素-音素配对序列产生步骤及一重新评分步骤，于该形素-音素配对序列产生步骤中，是对一输入文字进行形素切割及音素标示，以产生至少一形素-音素配对序列，每一形素-音素配对序列包括至少一形素及其对应的音素，并计算每一形素-音素配对序列的分数；于该重新评分步骤中，是由具有较高分数之前至少一个形素-音素配对序列中，对具有预设的易标错形素的形素-音素配对序列，依据每一易标错的形素，选取其前后文的特征，来计算该特征跟该易标错形素对应的音素的关联性，以便对此形素-音素配对序列进行重新评分，而以具有最高分数的形素-音素配对序列作为转换的结果。

附图说明

图1是本发明的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法的流程；

图2是依据本发明的方法的步骤所建立的一图网；

图3是依据本发明的方法的所获得的形素的音标的正确率。

具体实施方式

为能更了解本发明的技术内容，特举一较佳具体实施例说明如下。

有关本发明的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，请先参照图1所示的流程，其利用一份形素(grapheme)集合11和一形素对应音素(phoneme)关系表12来进行文字转音标。其首先使用对输入文字进行形素切割(grapheme segmentation)(步骤S1)，以取得至少一组形素序列(grapheme sequence)，其中的输入文字为罗马拼音或类似的文字，例如英文、德文、法文等。其次，通过由高准确率的形素序列进行音素的标示(Phoneme Tagging)(步骤S2)，以取得音素序列(phoneme sequence)，进而产生形素-音素配对序列(grapheme-phonemesequence)。最后，对容易标错音素的形素加入更多的特征进行重新评分(步骤S3)。

于前述步骤S1中，是依据该形素集合11中所具有的形素，以N-gram模型来对输入文字进行形素切割以取得至少一种的形素序列G＝(g₁g₂…g_i…g_n)，其中g_i为一形素，例如，输入文字为feasible，形素集合11为{a，b，e，ea，f，i，s，le，…)，则可能的形素序列为f-e-a-s-i-b-le或f-ea-s-i-b-le，而对于每一形素序列，再求取其分数S_G如下：

S_{G} = Σ_{i = 1}^{n} \log (P (g_{i} | g_{i - N - 1}^{i - 1})),

其中，n为该形素序列所包含形素的个数，N为N-gram模型的N，也就是代表利用g_i前面的N个形素来决定g_i的分数。

于前述的步骤S2中，是依据该形素对应音素的关系表12，以对步骤S1所产生的具有较高分数之前至少一个形素序列来进行音素的标示。其中，在形素对应音素关系表12中，每个形素相对应的音素平均超过两种，有些甚至高达十种以上，因此，由每一形素序列可标示出至少一个音素序列P＝(f₁f₂…f_i…f_n)，其中f_i为一音素，为了找到最佳的音素序列，故先求取每一音素序列的分数S_p如下：

S_{P} = Σ_{i = 1}^{n} \log (P (f_{i} | g_{i - R}^{i - L})),

其中，L、R代表形素g_i的上下文信息的范围，n为该音素序列所包含音素的个数，而g_i代表f_i的对应形素。再对每一形素序列的对应音素序列，取具有较高分数之前至少一个音素序列，而产生形素-音素配对序列。

以前述步骤S1及S2可建立一图网，如图2显示为在步骤S1将输入文字W进行形素切割而取得多组形素序列G1～G5，由此多组形素序列G1～G5取具有较高分数的形素序列G1～G3，于步骤S2再对选出的每一形素序列G1～G3来标示出多个音素序列P1～P3、P1～P5，P1～P4，并取具有较高分数的前n个(本实施例以n＝3为例)音素序列P1～P3，P1～P3，P1～P3，而产生形素-音素配对序列G1P1，G1P2、G1P3、G2P1、G2P2，G2P3，G3P1，G3P2，G3P3。因此形成一形素-音素序列配对所建构的图网，且于步骤S2中，由于形素序列已经固定，所以只针对音素建立图网，相较于JointN-gram模型通过由形素-音素配对所建构的图网规模明显减少，因此较节省计算时间。

前述图网的每一形素-音素配对序列即为一种可能的文字转音标结果，其分数是根据形素序列分数和音素序列分数进行权重的调整，而得到文字转音标的分数S_G2p：

S_G2P＝w_GS_G+w_PS_P，

其中，W_G及W_p分别为形素序列分数S_G和音素序列分数Sp的权重值。

以前述具有最高分数的形素-音素配对序列作为转换的结果，当L＝1、R＝2的时候，其整词正确率(ward accuracy)可达59.71％，已超越PbA的结果(58.54％)。然进一步分析发现，于前述步骤S1及S2所产生的形素-音素配对序列中，由于部分形素相对应的音素较多，故只利用前后形素当作特征并无足够的信息来判断其正确发音，而这类易标错形素又以母音最为严重(如a，e，i，o，u)，平均每个母音所对应的音素为10.6个，可能会造成判断上的误差进而影响整词正确率。

为了确认母音正确的音素，在步骤S3的重新评分机制中，根据步骤S1、S2产生的前数个具有较高分数的形素-音素配对序列，针对容易判断错误音素的形素加入更多的特征来进行确认，并透过权重的调整取得最高分的形素-音素配对序列当作答案。

于前述的步骤S3中，是于步骤S2所产生的的前n个具有较高分数的形素-音素配对序列中(n为正整数)，对具有易标错的形素的形素-音素配对序列，依据每一易标错的形素，选取其前后文的特征(除了形素外还包括音素及形素-音素配对)来获得S3所需的分数。在此实施例，我们利用交互讯息(mutual information，MI)来计算这些特征跟此易标错形素对应的音素之间的关联性，此交互讯息即表示该等特征与易标错形素对应的音素共同出现的可能性，以便以对此形素-音素配对序列进行重新评分如下：

S_{R} = \underset{\underset{g_{i} &Element; E}{i}}{Σ} Σ_{j = 1}^{| X (i) |} w_{j} \log (\frac{P (x_{j}, f_{i})}{P (x_{j}) P (f_{i})}) \times \frac{1}{\underset{\underset{g_{i} &Element; E}{i}}{Σ} 1}

其中，W_j为权重值，E代表步骤S2产生的形素-音素序列中易标错形素的集合，在此实施例我们只针对母音部分进行重新评分。X(i)为选取的特征的集合，以数学式表示为：

X (i) = \cup_{n = 1}^{N} X_{n} (i; g) \cup \cup_{n = 1}^{N} X_{n} (i; f) \cup \cup_{n = 1}^{N} X_{n} (i; τ)

X_{n} (i; y) = {x | x = y_{l} . . . y_{r}, i - L \leq l \leq r \leq i + RΛ (r - l + 1) = nΛi &NotElement; [l, r]}

\cup {x | x = y_{l} . . . y_{i - 1} y_{i + 1} . . . y_{r}, i - L \leq l \leq r \leq i + RΛ (r - l + 1) = nΛi &Element; [l, r]}

其中，τ_i≡g_if_i，L、R代表形素g_i的上下文信息的范围，N为所选取具有较高分数形素-音素配对序列的个数，y，为g、f或τ，而l、r则代表y出现的位置必须要在i-L及；i+R之间。

经由前述将n个形素-音素配对序列进行重新评分，而得到每一形素-音素配对序列的重评分数S_R，最后通过权重的调整与分数S_G2P进行整合而得到最终的分数S_Final如下：

S_Final＝w_G2PS_G2P+w_RS_R，

其中，具有最高分的形素-音素配对序列即为最后的答案。

为验证本发明的优异效果，以CMU发音字典(http://www.speech.cs.cmu.edu/cgi-bin/cmudict)来进行实验，CMU发音字典是一部电脑可读(machine-readable)的字典，包含了超过125,000个英文辞汇及其相对应的发音，而这些发音是由一组包含39个音素的音素集合所合成。去除标点符号及具多重发音的词汇后共剩下110,327个词汇，接下来每个词汇w的所有形素G(w)＝g₁g₂…g_n，及其音素P(W)＝f₁f₂…f_m均透过自动对应的模组取得形素与音素的配对GP(w)＝g₁p₁:g₂p₂:…g_nP_m，将所有配对的结果随机分成十个集合再以交叉验证法(cross-validation)进行实验评量。

实验首先对输入文字进行形素切割，根据实验结果发现，取具有较高分数S_G的前两名的形素序列的正确答案包含率(includingrate)高达98.25％，比取具有最高分数S_G的的结果(90.61％)高出许多，因此根据前两名的形素序列进行音素标示，音素标示的依据为前后的形素，而范围为L＝1、R＝2，对每一形素序列各取具有较高分数S_P前二十名的音素序列。然后根据形素序列的分数S_G及其音素序列的分数Sp而选取前二十名具有较高分数S_G2p的形素-音素配对序列，发现文字正确率为59.71％，比取具有最高分数S_G形素序列及前二十名具有较高分数Sp的音素序列的结果59.63％来的高，且取前二十名具有较高分数Sp音素序列的结果正确答案的包含率也明显提高(88.92％->90.95％)。

最后对母音(a，e，i，o，u)进行重新评分，通过加入更多的特征(前后形素、音素及形素-音素配对)及判断的范围由L＝1、R＝2扩大为1＝5、R＝5，而可对输入的前二十名具有较高分数S_G2P的音素-形素配对序列进行母音再确认以获得重新评分的分数S_R。

实验结果发现经过重新评分后，整词正确率从前两阶段的59.71％提升到69.13％，错误减少率(Error reducton rate)为23.38％，已超越Joint N-gram模型的67.89％(N＝4)。进一步的分析发现，如图3所示，母音音素的平均正确率也从原本69.72％提升为81.16％，错误减少率为37.78％，因此，本发明的方法确实能有效提升文字转音标的正确率。

上述实施例仅是为了方便说明而举例而已，本发明所主张的权利范围自应以申请专利范围所述为准，而非仅限于上述实施例。

Claims

1.一种针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，包括：

一形素-音素配对序列产生步骤，是对一输入文字进行形素切割及音素标示，以产生至少一形素-音素配对序列，每一形素-音素配对序列包括至少一形素及其对应的音素，并计算每一形素-音素配对序列的分数；以及

一重新评分步骤，是由具有较高分数之前至少一个形素-音素配对序列中，对具有预设的易标错形素的形素-音素配对序列，依据每一易标错的形素，选取其前后文的特征，来计算该特征跟该易标错形素对应的音素的关联性，以便以对此形素-音素配对序列进行重新评分，而以具有最高分数的形素-音素配对序列作为转换的结果。

2.如权利要求1所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，计算易标错形素与前后文特征之间的关联性是交互信息。

3.如权利要求1所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，该形素-音素配对序列产生步骤包括：

一形素切割步骤，是依据一预设的形素集合中所具有的形素，而对该输入文字进行形素切割以取得至少一形素序列，每一形素序列包含多个形素，并求取每一形素序列的分数；

一音素标示步骤，是依据一预设的形素对应音素的关系，而对具有较高分数之前至少一个形素序列来进行音素的标示，以对每一形素序列取得至少一个音素序列，并求取每一音素序列的分数，且对每一形素序列的对应音素序列，取具有较高分数之前至少一个音素序列，而产生该至少一形素-音素配对序列。

4.如权利要求2所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，于该重新评分步骤中，是对每一形素-音素配对序列进行重新评分如下：

S_{R} = \underset{g_{i} &Element; E}{\underset{i}{Σ}} Σ_{j = 1}^{| X (i) |} w_{j} \log (\frac{P (x_{j}, f_{i})}{P (x_{j}) P (f_{i})}) \times \frac{1}{\underset{g_{i} &Element; E}{\underset{i}{Σ}} 1}

当中，g_i为形素序列的形素，f_i为音素序列的音素，W_j为权重值，E代表该易标错形素的集合，X(i)为选取的特征的集合，X_j代表特征集合X(i)中的任一特征。

5.如权利要求4所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，其中，X(i)为：

X (i) = \cup_{n = 1}^{N} X_{n} (i; g) \cup \cup_{n = 1}^{N} X_{n} (i; f) \cup \cup_{n = 1}^{N} X_{n} (i; τ)

X_n(i；y)＝{x|x＝y_l...y_r，i-L≤l≤r≤i+R∧(r-l+1)＝n∧i[l，r]}

∪{x|x＝y_l...y_i-1y_i+1...y_r，i-L≤l≤r≤i+R∧(r-l+1)＝n∧i∈[l，r]}

当中，τ_i≡g_if_i，L、R只代表形素g_i的上下文信息的范围，N为所选取具有较高分数形素-音素配对序列的个数，y为g、f或τ，而l、r则代表y出现的位置必须要在i-L及i＝R之间。

6.如权利要求3所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其中，每一形素-音素配对序列的分数S_G2p是为：

S_G2P＝w_GS_G+w_PS_P，

当中，S_G为其形素序列的分数，S_P为其音素序列的分数，W_G及W_P为权重值。

7.如权利要求6所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，于该形素切割步骤中，所求取的每一形素序列的分数S_G为：

S_{G} = Σ_{i = 1}^{n} \log (P (g_{i} | g_{i - N + 1}^{i - 1})),

当中，g_i为该形素序列的形素，n为该形素序列所包含形素的个数，N代表利用g_i前面的N个形素来决定g_i的分数。

8.如权利要求6所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，于该音素标示步骤中，所求取的每一音素序列的分数S_p为：

S_{P} = Σ_{i = 1}^{n} \log (P (| f_{i} | g_{i - R}^{i - L})),

当中，f_i为该音素序列的音素，L、R代表形素g_i的上下文信息的范围，n为该音素序列所包含音素的个数。

9.如权利要求4所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，于该重新评分步骤中，经重新评分后的每一形素-音素配对序列的分数S_Final为：

S_Final＝w_G2PS_G2P+w_RS_R，

当中，W_G2p及W_R只为权重值。

10.如权利要求1所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，该输入文字为罗马拼音的文字。

11.如权利要求1所述的针对易标错的形素进行重新评分以提高准确率的草字转音标的方法，其特征在于，于该重新评分步骤中，该易标错的形素为英文的母音。

12.如权利要求1所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，于该重新评分步骤中，该等前后文的特征包括音素、形素及形素-音素配对。

13.如权利要求3所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，于该音素标示步骤中，在预设的形素对应音素的关系中，每一形素对应有至少一音素。

14.如权利要求3所述的针对易标错的形素进行重新评分以提高准确率的文字转音标的方法，其特征在于，于该形素切割步骤中，是以N-gram模型来对输入文字进行形素切割。