CN1267805C

CN1267805C - 自动标示音标以矫正发音的系统及方法

Info

Publication number: CN1267805C
Application number: CN 02160031
Authority: CN
Inventors: 林宜敬
Original assignee: AIERKE SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: AIERKE SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2002-12-30
Filing date: 2002-12-30
Publication date: 2006-08-02
Anticipated expiration: 2022-12-30
Also published as: CN1512300A

Abstract

一种自动标示音标以矫正发音的系统及方法，利用图形接口比较并显示语言学习者与语言教学者在发音上的差异，以帮助语言学习者矫正发音的计算机系统，包含其使用者接口、系统及方法。当使用者提供一个文句字符串并输入其相对的声音信号之后，本发明会在输入声音信号的各个区段标示出其对应的音标。接着以该些区段的对应音标，本系统可以比对出教学者声音信号与学习者声音信号之间的差异，如各个音节的发音、音高、强度、长短的差异等，并据此进行评分或提出改善建议。

Description

自动标示音标以矫正发音的系统及方法

技术领域

本发明是有关于一种矫正发音系统之制造及使用方法。其特点在于能快速而正确的标示出一个声音信号的各个音节的音标，并据此比较出语言教学者与语言学习者在发音上的差异，进而提出改善建议。

背景技术

当人们学习外语的时候，不外乎是学习该语言的读、写、听、说等能力，而最令人感到棘手的，通常是在发音的部分。同样的一段外国话，许多人能看得懂也听得懂，但就是无法正确流畅的念出来，更遑论以该种外国语与他人沟通。

由于有这样的需求，所以有些公司便推出了以矫正发音作为诉求的计算机产品。例如台湾希伯仑股份有限公司出品的CNN互动光盘，与法国Auralog公司出产的Tell Me More。这两种产品都可以让外语学习者在朗读课文时进行录音，并显示其波形，然后再让学习者自行比对他们的发音波型与教学者的发音波形。

然而前述的产品却有他们的局限性。一方面声音的波形对一般人并没有特殊的意义，即使在语言方面训练有素的专家，也无法单由观看波形就判断出两个发音是否相似。另一方面，由于这些系统无法在声音信号中找出各个音节的所在位置，所以无法针对各个音节逐一做比对，并进而找出其中差异性较大的部分提出改善建议。这些产品在进行声音比对的时候，只能假设教学者与学习者在同一个时段内是念到同一个音节。但是我们知道，每个人说话的速度(timing)是不同的，举例而言，当教学者在讲第5个字的时候，说不定学习者还在说第2个字，因此，以时间作为比对基础的系统就会以教学者念的第5个字去和学习者念的第2个字做比较，可想而知，这样的比对结果是不具意义的。

以下即参考图1来说明这样的情形，图1为法国Auralog公司出产的Tell Me More产品的部分使用接口。其中，标示100的地方显示的是学习者要学习的外语句子。110显示是教学者的发音波形120显示的是学习者的发音波形。虽然该产品尝试比较教学者与学习者在念“for”这个字上的差异(t0～t1反白部分)，但是由于教学者与学习者在发音的速度上有所不同，所以该产品并没有正确地找出“for”这个字在教学者发音与学习者发音中的位置。事实上，在t0～t1这个时段里，教学者只念了“for”这个字的前半部，而学习者更是没有发出任何声音。

之所以会有这样的情况发生，完全是因为这类产品在比对音波时皆是采“时间(timing)”比对，是以除非学习者的说话速度皆与教学者相同，否则比对出的波形是不具意义的。

发明内容

有鉴于此，本发明提出一种自动标示音标以矫正发音的系统，包含其制造方法以及使用方法。这个系统有两个主要优点，第一，由于它能在教学者及学习者的发音波型上，分别标示出各个区段的音标，学习者可以更清楚的看出两者的差异；第二，由于这个系统系依据各个区段标示的音标而知道句子中某一特定单字或音节分别出现在教学者波形及学习者波形的哪一个部分，是以可以将相对应的部分抽离出来并单独进行比较。这些比较包含各组对应音节之间的发音差异、音高差异、强度差异、长短差异等等。

本发明的制造及使用方法可以分成三个阶段--“数据库建立阶段”、“音标标示阶段”、以及“发音比较阶段”。在数据库建立阶段里，我们的目标是要建立一个“音素特征数据库”(Phoneme FeatureDatabase)，这个数据库包含各个音素(语言发音的最小单位，通常对应于一个音标)的特征数据，以作为下一阶段进行标示音标时的基础。在音标标示阶段里，我们的目标是要在一段语音波形上，标示出各个区段所对应的音标。而在发音比较阶段里，我们的目标是要对两个已经标示出音标的波形进行比较，分析出各个对应区段间的差异程度，然后做出评分或使提出改善建议。以下我们将针对各个阶段进行较详细的说明：

在数据库建立阶段中，首先使用者必须搜集一定数量的样本声音信号，将之输入到本系统中。这些样本声音信号通常是由外语教学者所录制的，包含许多不同文句的发音。接着，本系统将这些发音样本切割成许多固定长度的“音频框”(Frames)，并通过“特征撷取器”(Feature Extractor)分析并取得各个音频框的各项“特征值”(Features)。最后，本系统会提供一个使用接口，通过人工判断做分类，将属于同一“音素”(Phoneme)的样本音频框搜集在一个“音素丛集”(Phoneme Cluster)中，并自动计算每一个音素丛集中各项特征值所共同产生的平均值与标准差，将之存入数据库中。

在音标标示阶段中，本系统所需的输入数据是一个文句字符串，以及一个由语言教学者或语言学习者针对该文句所录制的声音信号。而这个阶段的输出则是一个已标示出各区段音标的声音信号。在做法上，本系统首先利用一个电子字典，查询出输入文句的对应音标，接着本系统会将输入的声音信号切割成固定大小的音频框、计算各音频框的特征值、并利用前一阶段所得到的音素特征数据库，计算出每个音频框归属于各个音标的机率。最后，本系统提出一个利用“动态规划”(Dynamic Programming)方法的技术，以求得一个最佳的音标标示。

在发音比较阶段中，本系统针对两个已经在前一阶段标示出音标的声音信号进行比对，这两个声音信号通常分别来自于语言教学者与语言学习者。在做法上，我们先找出在两个声音信号中相对应的部分(一个或数个音频框)，然后将这些对应的部分逐一配对进行比较。举例而言，如果语言学习者正在学习“This is a book”这个句子，本系统就会在教学者的声音信号及学习者的声音信号中分别找出相对于“Th”的部分进行比较，然后再找出相对于“i”的部分做比较，然后再找出相对于“s”的部分做比较，依此类推。而比对的内容包含但不限于发音准确度、音高、强度、以及节奏。当我们比对发音准确度的时候，我们可以将学习者的发音直接与教学者比较，也可以将学习者的发音拿来与音素数据库中该发音的数据做比较。当我们比较音高的时候，我们可以将学习者发音与教学者发音的绝对音高拿来直接做比较，也可以先计算学习者的“相对音高”(句子一部份的音高与整个句子的平均音高比)，然后再跟教学者的相对音高比较。同样的，当我们比较发音强度的时候，我们可以将学习者发音与教学者发音在该部分的绝对发音强度拿来直接做比较，也可以先计算学习者在该部分的“相对发音强度”(句子一部份的发音强度与整个句子的平均发音强度比)，然后再跟教学者在该部分的相对发音强度比较。也同样的，当我们比较发音节奏的时候，我们可以将学习者发音与教学者发音在该部分的时间长短直接拿来做比较，也可以先计算学习者的“相对发音长度”(句子一部份的发音长度与整个句子的总长度比)，然后再跟教学者在该部分的相对发音长度比较。

这些比较的结果，可以分别用分数或是机率百分比来表示。而经由加权计算，我们可以得出学习者整句话在发音、音高、强度、节奏上的分数，也可以更进一步，再经由加权计算出整个句子的单一分数。在进行这些加权计算的时候，各部份的分数权重可以来自于逻辑上的推断，也可以来自于实验所得的经验值。

在比对及计算分数的过程中，由于本系统可以得知教学者与学习者在发音上的差异究竟发生在哪里、差异的程度有多大，因此本系统也可以根据这些信息向学习者提出改善建议。

上述系统及方法的使用接口包括：通过音频输入设备而得到的声音信号图，和通过分析声音信号而得到强度变化图及音高变化图等。此外，数个区隔线段将这些图表区隔成几个发音区间，而每个发音区间由一个音标标注。使用者可以通过鼠标等输入装置选取一个或数个发音区间，并单独播放那些发音区间的音频。

在本系统中，语言学习者的声音信号及学习者的声音信号分别由一组图表接口表示，当使用者选取教学者的声音信号的某些发音区间时，本系统会自动选取学习者的声音信号中的那些对应发音区间，反之亦然。

综合上述，本发明是利用图形接口比较并显示语言学习者与语言教学者在发音上的差异，以帮助语言学习者学习正确的发音及语调。

附图说明

图1为欧洲的Auralog公司出产的发音练习产品的一使用接口；

图2为本发明一较佳实施例的一种自动标示音标以矫正发音的一使用者接口；

图3为本发明一较佳实施例的一种自动标示音标以矫正发音的一使用者接口；

图4为本发明一较佳实施例在数据库建立阶段的系统方框图；

图5为本发明一较佳实施例在音标标示阶段的的一系统方框图；

图6为本发明一较佳实施例在音标标示阶段的示意流程图；

图7为本发明在音标标示阶段中进行动态比对的一示意图；以及

图8为本发明一较佳实施例在发音比较阶段的系统方框图。

100：字符串显示处

110：教学者声音信号图

120：学习者声音信号图

200：教学内容显示区

210：教学者使用接口

220：学习者使用接口

211，221：声音信号图

212，222：音频变化图

213，223：强度变化图

214，214a，214b，224：区隔线段

215：教学者指令区

216，226：音标标记区

221：声音信号图

225：学习者指令区

402：样本声音信号

404，510：音频切割器

406：样本音频框

408：人工音标标示器

410：已标示音标的样本音频框

412，512：特征撷取器

414：已标示音标的特征值集合

416：丛集分析器

418，515：丛集信息

420，514：音素特征数据库

501a：声音信号

501b：波形图

504：教学内容浏览器

505：文句字符串

506：电子音标字典

507：音标字符串

508：音标标示

513：特征值集合

511：音频框

步骤602至步骤608为本发明的一较佳实施例的一实施步骤

具体实施方式

请参照图2，其为本发明一较佳实施例的使用者接口，其中有分3个部分，分别是教学内容显示区200、教学者使用接口210、及学习者使用接口220。

当使用者利用鼠标等输入装置在教学内容显示区200中选取一个文句字符串的时候，本系统会播放对应于该文句字符串且事先由教学者录制好的声音信号，并在教学者使用接210中显示相关的信息。

其中，教学者使用接口210包括：声音信号图211、音频变化图212、强度变化图213、数个区隔线段214、教学者指令区215及音标标记区216。其中，声音信号图211显示教学者的声音信号的波形。强度(intensity)变化图213是通过分析声音信号的能量变化而得到的。音频变化图212是通过分析声音信号的音频(pitch)变化而得到的，其分析方法可以是由Goldstein，J.S.，在1973年提出的“Anoptimum processor theory for the central formation of the pitch ofcomplex tones，”而得到，或是由Duifhuis，H.，Willems，L.F.，及Sluyter，R.J.，在1982年提出的“Measurement of pitch in speech：animplementation of Goldstein′s theory of pitch perception，”，或是Gold，B.Morgan，N.，在2000年提出的“Speech and Audio Signal Processing，”等等方法而得到。

在教学者使用接口210中，本系统会以区隔线段214将音波图区隔成数个“发音区间”，并在音标标记区216中标示各发音区间所对应的音标。举例而言，区隔线段214a及214b间的发音区间相对于“I”的音，其音标即显示在音标标记区216中该发音区间的下方。使用者可以利用鼠标等输入装置选取一个或多个连续的发音区间，并经由点选教学者指令区215的“播放选择部份”(Play Selected)钮来播放该发音区间的声音信号。

学习者使用接口220与教学者使用接口210类似，包括声音信号图221、音频变化图222、强度变化图223、数个区隔线段224、以及音标标记区226。其功能与教学者使用接口210类似，如图3所示，在此不再详加赘述。但其分析的声音信号并非预先录制的，而是由学习者利用学习者指令区225中的“录音”“Record”钮进行实时录音而的得到的。

如图3所示，当学习者在学习者使用接口210中选取一段发音区间时，本系统会将该段区间以反白方式显示，并依据标示之音标自动在教学者使用接口中选取相对应的发音区间，并同时以反白方式显示。在这里，我们可以看到教学者和学习者在说“great”这个单字时的时间与是不同的，但本发明仍可以分别在教学者与学习者的声音信号图标上，自动而准确地标示出这个字出现的位置。

以下我们将针对此较佳实施例进行比较详细的说明。图4为本系统在“音频数据库建立阶段”中的主要模块。在这个阶段中，“音频切割器”404首先将经由麦克风输入的样本声音信号402切割成一个一个固定长短(通常是256或512个字节)的样本音频框406。紧接着，我们利用“人工音标标示器”408以人工试听的方式来标出每个样本音频框406的音标，至此，样本音频框406即会成为已标示出音标的音频框410，并将这些样本音频框410交给“特征撷取器”412，计算出每个样本音频框410的特征值414。这些已标示出音标的音频框414通常是一组5到40个浮点运算数，包含“倒频谱”(Cepstrum)系数或是预测语音编码(Linear Predictive Coding)系数等。关于音频特征撷取的技术可以参阅Davis，S.，and Mermelstein，P.，在1980年发表“Comparison of parametric representations of monosyllabic wordrecognition in continuously spoken sentences，”，或是Gold，B.Morgan，N.，在2000年提出的“Speech and Audio Signal Processing，”。

接着在“丛集分析器”416中，我们将属于同一音标的样本特征值集合414归类整理成一个一个的“音素丛集”(Phoneme Cluster)，并针对每一个音素丛集，计算其特征值集合的平均值与标准差，然后将这些丛集数据418存入音素特征数据库420中。关于丛集分析这方面的技术，可以参阅Duda，R.，及Hart，P.所著，由Wiley-Interscience公司在1973年出版的“Pattern Classification and Scene Analysis”。

图5所为本较佳实施例在音标标示阶段中的主要模块。在这个阶段中，我们的目的是要在一段声音信号上标示出正确的音标，然后交由教学者使用接口210或学习者使用接口220显示，同时也将结果交由发音比较阶段中的“发音比较器”(未绘示)进行评分。这时系统需要两项输入数据，一个是使用者在“教学内容浏览器”504中所点选的文句字符串，另一个是经由麦克风输入且对应于该文句字符串的声音信号501a。

由麦克风输入的声音信号501a会经由音频切割器510切割成固定大小的音频框511，并由特征撷取器512计算出每个音频框511的特征值集合513。音频切割器510与特征撷取器512的功能如前所述，在此不再重复。

在教学内容浏览器中选取的文句字符串会经由电子音标字典506转换为一个音标字符串507，举例而言，如果使用者选取了文字字符串“This is good”，则电子音标字典会将的转换为音标字符串“D|s|zgud”。

我们在图6中以一个实际的例子来说明音标标示过程，当声音信号501a经由分割步骤602分割得到数个音频框511后，会在经由特征撷取步骤604进行特征撷取而得到音频框511相对应的特征值集合，其中一个音频框对应一个特征值集合513，在这些步骤进行同时，亦会对输入的文句字符串505进行音标字典查询步骤606，以得到文句字符串505的音标字符串507，最后再由步骤604所撷取的特征值集合与步骤606所查询的音标字符串507进行步骤608的动态比对。其中“动态比对”指的是音标标示器508以“动态规划”(DynamicProgramming)法进行音标标示的工作，这个过程会将音标字符串507中的每个音标标示到代表各个音频框511的特征值集合上。这个标示过程必须符合几个条件：第一，各个音标必须依照他们在音标字符串中出现的顺序逐一标示，先出现的音标先标示；第二，每个音标可能对应到零个、一个或多个特征值集合(当一个音标对应到零个特征值集合时，代表录音者并未念出那一个音)；第三，每个特征值集合可以对应到一个音标，或是不对应到任何音标。(当一个特征值集合不对应到任一个音标时，代表这一个特征值集合对应于声音信号中的一段空白部份或是一段杂音)；第四，这个标示必须让一个事先定义的“效用函数”(Utility Function)达到最大值(或是让一个“惩罚函数”(Penalty Function)达到最小值)。这个效用函数所代表的是这个标示的正确程度(惩罚函数所代表的是这个标示的错误程度)，它可以来自于理论推断，也可以根据实验所得到的经验值来推定。

图8所为以“动态规划”(Dynamic Programming)方式进行音标标示的较佳实施例，在这里，我们以音标字符串中的各个音标作为横轴，以声音信号中的各个音频框作为纵轴，然后在表格中填入下列数值：

max(该音频框属于该对应音标的机率，该音频框是杂音或空白的机率)

其中各音频框属于各个音标或是杂音及空白的机率，可以通过参照音素数据库而得到。基本上，我们将各个音频框的特征值集合与音素数据库中各个音素(一个音标对应于一个音素)的特征值集合的平均数与标准差做比较，经由简单的数学运算即可得到这些机率。关于这方面的技术，可以参阅Duda，R.，及Hart，P.所著，由Wiley-Interscience公司在1973年出版的“Pattern Classification andScene Analysis”。

此外，如果在某储存格的数据是来自于该音频框是杂音或空白的机率时，我们会在该储存格加上特别的标记。在图7中，我们是以灰阶底纹来标示这些储存格。

接下来我们必须在图7的动态比对表中找到一条由左上角至右下角的路径，这条路径所代表的就是音标标示的结果。举例而言，在图7中第一个音标对应于音频框1与2，第二个音标I对应于音频框3与4，而第三个音标s则对应于音频框5与6。

这条路径必须符合几个条件：第一，这条路径只能往右、往右下、或往下行进。第二，这条路径所代表的音标标示必须能让我们所定义的效能函数达到最大值，也就是说，这个路径必须代表一个最佳的音标标示。

如果这条路径经过一个以灰阶标示的音频框，则代表这个音频框是一个杂音或是空白信号。否则，当这条路径往右行进时，代表接下来音标并未在这个声音信号中出现；当这条路径往右下行进时，代表前后两个相邻的音频框刚好对应于两个相邻的音标；而当这条路径往下行进时，则代表前后两个音频框对应于同一个音标。

在这里，我们可以将效能函数定义成这条路径在动态比对表中，在往下及往右下行进时所经过的各个机率值的乘积(当这个路径往右行进时，代表我们将略过那一个音标，因此代表那一个音标的机率值不应该计入我们的效能函数中)。理论上，这个乘积相当于这条路径是正确的音标标示的机率。

这样的一条路径，可以利用动态规划法(Dynamic Programming)得到，关于以动态规划法解决这类问题的技术，可以参考J.Ullman于1977年在Computer Journal 10，pp141-147所发表的“A Binaryn-gram technique for automatic correction of substitution，deletion，insertion，and reversal errors in words.”或是R.Wagner与M.Fisher于1974年在Journal of ACM 21，pp168-178所发表的“The String toString Correction Problem.”

图8所为本系统在发音比对阶段中的主要模块。在这个阶段中，本系统先就发音、音高、强度、节奏等四个部份分别进行评分，并列出改善建议。接着，我们再以加权的方式从这四个分数算出一个总分。至于加权的比重，可以来自于理论推断，也可以来自于实际经验。

如前所述，在这些评分的过程中，本系统会先找出在两个声音信号中相对应的部分(一个或数个音频框)，然后将这些对应的部分逐一配对进行比较。举例而言，如果语言学习者正在学习“This is a book”这个句子，本系统就会在教学者的声音信号及学习者的声音信号中分别找出相对于“Th”的部分进行比较，然后再找出相对于“i”的部分做比较，然后再找出相对于“s”的部分做比较，依此类推。而如果一个音标(或音节)在一个声音信号中对应于多个音频框，我们可以先求得这些音频框在特征值(用来比较发音)、音高、强度、以及长度上的平均值，然后再与另一个声音信号中相对求得的平均值做比较。我们也可以将来自于教学者与来自于学习者的各个音频框逐一配对做比较，以分析在同一音标范围内，发音、音高、以及强度随着时间所显现的变化。

Claims

1.一种自动标示音标以矫正发音的方法，其特征是，该方法包括：

一音素特征数据库建立步骤，包括利用样本声音信号建立多个音素丛集，其中一个音素丛集对应一个音标；一音标标示步骤，包括：

分割一声音信号成多个音频框，并计算出每一个音频框的特征值集合；以及

依据每一个音频框的特征值集合，判断该音频框的所属音素，并予以标示相对的音标；以及

一发音比较步骤，包括比较两个声音信号中相对于同一音标的各组音频框，针对包括发音准确度、音高、强度及节奏的项目，做出评分并提出改善建议。

2.如权利要求1所述的自动标示音标以矫正发音的方法，其特征是，音素数据库中包含多个音素丛集，而每一个音素丛集对应于一个音标，而该音素丛集的数据是通过分析对应于该音素的样本音频框而得到。

3.如权利要求2所述的自动标示音标以矫正发音的方法，其特征是，每一音素丛集的数据包含所有对应于该音素的音频框的特征值集合的平均值及标准差。

4.如权利要求1所述的自动标示音标以矫正发音的方法，其特征是，音标标示步骤包括：

输入一文句字符串及对应于该文句字符串的一声音信号；

通过一电子音标字典，查得输入文句字符串所对应的多个音标；

分割该输入声音信号成多个音频框；

分别计算各个音频框的特征值集合；

依据一音素特征数据库所包含的多个音素丛集信息，计算各个音频框属于输入文句字符串所对应的各个音标的机率；

根据各音频框属于各个音标的机率，求得一最佳音标标示，该音标标示是所有可能的音标标示中，最有可能是正确的的音标标示者；以及

显示各音频框所对应的音标。

5.如权利要求4所述的自动标示音标以矫正发音的方法，其特征是，即使在输入字符串所对应的某些音标并未出现在输入的声音信号中的状况下，仍能正常工作，并标示出其它出现的音标。

6.如权利要求4所述的自动标示音标以矫正发音的方法，其特征是，即使在输入的声音信号中的某些区段是多余而不对应于输入字符串的任何部分的状况下，仍能正常工作，并标示出该输入声音信号其它部分的音标。

7.如权利要求4所述的自动标示音标以矫正发音的方法，其特征是，求得最佳音标标示的方法采用一动态规划法技术。

8.如权利要求7所述的自动标示音标以矫正发音的方法，其特征是，该动态规划法技术使用一比较表，该比较表的纵轴或横轴为输入字符串所对应的各个音标，而横轴或纵轴则是经切割输入声音信号所得的各个音频框，或对应于各个音频框的特征值集合。

9.如权利要求8所述的自动标示音标以矫正发音的方法，其特征是，最佳音标标示的求得方法，是在比较表中寻找一条由左上至右下或由右下至左上的路径，而该路径使得一个事先定义好的效能函数达到最大值或是让一个“惩罚函数”达到最小值。

10.如权利要求1所述的自动标示音标以矫正发音的方法，其特征是，发音比较步骤所比较的两个声音信号，其一为预先录制的声音信号，其一为实时录制的声音信号。

11.一种自动标示音标以矫正发音的系统，其特征是，该系统包括：

一输入设备，输入一文句字符串及对应于该文句字符串的一声音信号；

一电子音标字典，用以查阅得到对应于文句字符串的音标字符串；

一音频切割器，分割该声音信号成多个音频框；

一特征撷取器，连接该音频切割器，从该些音频框撷取相对应的特征值集合；

一音素特征数据库，包括多个音素丛集，其中一个音素丛集对应一个音标；

一音标标示器，连接该特征撷取器、该电子音标字典及该音素特征数据库，依据音素特征数据库内含的多个音素丛集，计算该些音频框为该文句字符串的该些音标的多个可能机率，将该些音频框的该些可能机率标示在一动态比对表中，以及依据该动态比对表的一动线方向确定该些音频框对应的该些音标；以及

一输出设备，显示输入声音信号的波形图、音频变化图、强度变化图、以及对应于各个发音区间的音标等，并且能够发出至少一个上述发音区间的音标声音。