CN101064105A

CN101064105A - 字转音的使用者界面系统及修改方法

Info

Publication number: CN101064105A
Application number: CNA200610077661XA
Authority: CN
Inventors: 黄良声; 许天明; 洪健洲; 叶耿宏; 王闵鸿; 沈家麟
Original assignee: Delta Optoelectronics Inc
Current assignee: Delta Electronics Inc; Delta Optoelectronics Inc
Priority date: 2006-04-25
Filing date: 2006-04-25
Publication date: 2007-10-31

Abstract

本发明系指一种字转音的使用者界面系统及修改方法，该字转音的使用者界面系统至少包括一语汇栏、一发音栏、一类型栏以及一信心分数栏。该语汇栏系用以呈现以字母构成的至少一语汇；该发音栏系用以呈现对应于每一该语汇的至少一母发音模块，每一该母发音模块包括多个发音音标；该类型栏系用以呈现对应于每一该母发音模块的一来源；该信心分数栏系用以呈现对应于每一该母发音模块的一信心分数(confidence score)，通过该信心分数提供使用者修改该语汇所对应的该母发音模块的依据，以便后续语音辨识的进行。

Description

字转音的使用者界面系统及修改方法

【技术领域】

本发明指一种字转音的使用者界面系统及修改方法，特别是应用于语音辨识技术的一种字转音的使用者界面系统及修改方法。

【背景技术】

在非特定语者(speaker-independent)语音辨识领域(例如Hmm-based speechrecognition)之中，辨识词汇(recognition vocabulary)常常是通过文字(text)转换成音标(phonetic symbol)的形式所构成；而且，每个音标都有其相对应的声学模型(acoustic model)。对于每一个辨识语(word)来说，其组成音标的相应声学模型系串连成一个辨识语模块(word model)，然后供辨识引擎进行比对之用。

但由于一字(word)多音、或是辞典里的发音不正确、或是新词(new words)的出现，此时便需要靠发音规则来产生其音标，但有时该发音规则又不足以囊括或适用于这些新词时，便常常造成此一字转音(text-to-phone)的过程中极易出现误差。举例来说，中文词的”单身”其正确发音应为<d a n sh ax n>，但有可能被误转为<sha n sh ax n>；另外，英文字“record”作为名词时发音为<’r eh k r d>，作为动词时发音则变为<r ih‘k or d>，这种情形下便有可能选错；再者，专有名词(商标)“BenQ”在辞典里面虽然找不到，但根据发音规则它应该念成，可是大家却都将该词读成，诸如此类的错误林林总总而不胜枚举。

由于这种错误会增加语音辨识上的错误率，因此现行非特定语者的语音辨识系统对于字转音错误的处理上，光靠有限的发音辞典和发音规则是很难满足人类生活中所不断出产的变化万千的词汇。因此，实际所使用的系统上常常会提供一个图形化使用界面(Graphical User Interface，GUI)，让使用者自行来修改这些音标或词汇，

然而，过去的GUI设计由于是将所有语汇及其标音同时列出，并未再提供任何得以判断该标音的正确性的根据，导致使用者在进行修改操作时必须把所有的语汇一个一个地从头到尾检查一次，才能验证完它们的发音；但当词汇量较大(数百个以上)时，这种地毯式的搜索就显得耗时、不够人性化以及欠缺实用性了。

【发明内容】

本发明的构想为提出一种字转音的使用者界面系统及修改方法，提供一离线(off-line)式的修改界面及方法以利后续语音辨识的进行。

根据本发明一第一构想，提出一种字转音的使用者界面系统及修改方法，该字转音的使用者界面系统至少包括一语汇栏、一发音栏、一类型栏以及一信心分数栏。该语汇栏系用以呈现以字母构成的至少一语汇；该发音栏系用以呈现对应于每一该语汇的至少一母发音模块，每一该母发音模块包括多个发音音标；该类型栏系用以呈现对应于每一该母发音模块的一来源；该信心分数栏系用以呈现对应于每一该母发音模块的一信心分数(confidence score)，通过该信心分数提供使用者修改该语汇所对应的该母发音模块的依据，以便后续语音辨识的进行。

根据本发明一第二构想，提出一种字转音的使用者界面系统的修改方法，该字转音的使用者界面系统如上所述，该修改方法包括：利用一输入界面选定该语汇的部份字母；呈现对应于所选定的所述这些字母的至少一子发音模块，其中每一该子发音模块包括多个发音音标，且每一该子发音模块决定部份该母发音模块；以及利用该输入界面于所述这些子发音模块的中选定一子发音模块，以修改部份该母发音模块，以便于其后进行语音辨识时、提供所述这些语汇一正确的声学模型。

根据本发明一第三构想，提出一种字转音的使用者界面系统的修改方法，该字转音的使用者界面系统如上所述，该修改方法包括：利用一输入界面例如鼠标选定欲修改的语汇(word)，再对该使用者界面系统输入一对应于该语汇的语音；然后系统启动一语音辨识程序，以寻找对应于该语汇的至少一可能的母发音模块，然后呈现所述这些母发音模块，使用者便可利用鼠标等界面自有限个该发音模块中选取其中的一，便于后续语音辨识的进行。

较佳者，其中所述这些语汇为系选自中文语汇及英文语汇其中的一。

较佳者，其中该来源包括一常用词库、一发音辞典以及一发音规则。

较佳者，其中该字转音的使用者界面系统更包括一标示栏，用以标示并提供是否选用该母发音模块。

较佳者，其中每一该信心分数、以及对应于每一该信心分数的该语汇、该母发音模块和该来源皆具有相同的一显示颜色。

较佳者，其中该字转音的使用者界面系统更包括一显示颜色设定界面，用以修改对应于每一该信心分数的该显示颜色。

较佳者，其中该字转音的使用者界面系统更包括一发音音标选单，用以呈现对应于每一该语汇的部份字母的至少一子发音模块，其中每一该子发音模块包括多个发音音标，且每一该子发音模块决定部份该母发音模块。

较佳者，其中该字转音的使用者界面系统系通过一输入界面决定及修改对应于所述这些部份字母的该子发音模块。

较佳者，其中该输入界面包括一键盘、一鼠标、一触控板、一触控笔以及一语音输入装置。

本发明得通过下列图式及详细说明，俾得更深入的了解：

【附图说明】

图1为本发明所提字转音的使用者界面系统一较佳实施例的界面示意图；

图2为本发明所提字转音的使用者界面系统的显示颜色设定界面的示意图；

图3为本发明所提字转音的使用者界面系统的修改方法一较佳实施例的界面示意图；以及

图4为本发明所提字转音的使用者界面系统的修改方法一较佳实施例的流程图。

【具体实施方式】

请参阅图1，其为本发明所提字转音(text-to-phone)的使用者界面系统一较佳实施例的界面示意图，该字转音的使用者界面系统系应用于语音辨识，该字转音的使用者界面系统的界面1至少包括一语汇栏10、一发音栏11、一类型栏12以及一信心分数栏13。

在图1中，该语汇栏10系用以呈现以字母构成的至少一语汇，该发音栏11系用以呈现对应于每一该语汇的至少一母发音模块，且每一该母发音模块包括多个发音音标，该类型栏12系用以呈现对应于每一该母发音模块的一来源，而该信心分数栏13系用以呈现对应于每一该母发音模块的一信心分数(confidence score)，以提供使用者修改该语汇所对应的该母发音模块的依据。

需要特别注意的是，本发明所述以字母构成的所述这些语汇可以是中文语汇、英文语汇或是其他种文字的语汇，只要是可以通过字母构成其读音的文字，尽皆适用于本发明的修改方法。然而，为了方便叙述，以下的实施例系以英文语汇(如”resume”、”benQ”)来做说明，但其并无法限制本发明对于中文语汇(如”好吃”-----<hao chih>)...等其他种文字的适用性。

以图1中的实际语汇作为例子来帮助理解。在图1中，第八列的语汇”resume”系为以英文字母构成的一语汇，其相对应的发音栏11的内具有两个母发音模块<r iyz uw m>及<r eh z ax m ey>以供选择，类型栏12显示这两个母发音模块<r iy z uwm>及<r eh z ax m ey>的来源皆为辞典，而其所对应的两个信心分数栏13中的信心分数60及40分别代表母发音模块<r iy z uw m>及<r eh z ax m ey>的常用度。

在图1中，每个语汇相应的发音也许是从常用词库中取得、也许从发音辞典中取得......等等。

本发明的第一个技术特征在于为传统的字转音的使用者界面系统提供一信心分数栏以减少逐一判定及修改字转音错误的窘况。以语汇‘computer’为例，其发音可以在发音词典里被找到，而且该语汇仅有此一发音，故信心分数是100分；又例如图中第十四列的语汇“www”是在我们预先搜集的常用词库里找到，发现它有<tr ih pax l d ah b ax l y uw>和<d ah b ax l y uw d ah b ax l y uw d ah b ax l y uw>两种不同的发音(母发音模块)，但是根据判断大约60％的人采取前者而发音的较多，仅40％的人采取后者而发音，故订定两者的信心分数分别为60分及40分。由于字转音的使用者界面系统多了此一功能，便能够通过该信心分数提供使用者修改该语汇所对应的该母发音模块的依据，更可以大幅减少前面所提传统的GUI设计并未提供判断的根据所造成在进行修改操作时需把所有的语汇一个一个地从头到尾检查一次以验证其发音的时间浪费，再者，亦可以轻松处理当词汇量较大时的情况。

在图1的界面1，更可以包括一标示栏14，其系用以标示通过该信心分数所决定的该语汇所对应的该母发音模块；举例来说，由于母发音模块<r iy z uw m>的信心分数60大于母发音模块<r eh z ax m ey>的信心分数40，因此勾选母发音模块<riy z uw m>所对应的标示栏14，代表此时将语汇”resume”的字转音发音订为<r iy zuw m>。

此外，界面1中较大信心分数列与较小信心分数列的先后顺序是可以自由调整的，使用者可以依照使用时的习惯将较大信心分数列设定在较小信心分数列的前或的后，以便于观察或修改。

值得一提的是，在图1中，根据不同的信心分数，还可以将每一该信心分数、以及对应于每一该信心分数的该语汇、该母发音模块和该来源设定成为皆具有相同的一显示颜色；也就是说，在图1中，不同信心分数的列具有不同的显示颜色，此举更加使得在进行修改操作时的顺利度。以实际的例子来看，母发音模块<r eh z axm ey>所属列的所有显示文字的颜色与母发音模块<r iy z uw m>所属列的所有显示文字的颜色并不相同，以增添鉴别度。

此外，界面1中的设定按钮15关联到显示颜色设定界面2，如图2所示，由图中可看出，通过信心分数的适当定义可以修改对应于每一该信心分数的该显示颜色。

本发明另一附加功能是，整个界面1亦可以依据使用者喜好而根据该语汇栏10、该发音栏11、该类型栏12或是该信心分数栏13来进行排序，使得整个字转音修改界面更为人性化。

本发明的第二个技术特征在于，提供一种字转音的使用者界面系统的修改方法，更特定而言的，系提供可应用于前述字转音的使用者界面系统的一种修改界面。请参阅图3，其为本发明所提字转音的使用者界面系统的修改方法一较佳实施例的界面示意图，其系以图1的单一列为制作根据。

在图3的单一列3中，当使用如键盘、鼠标、触控板或是触控笔...等的类的输入界面选定一语汇30的部份英文字母时，即会随着此一选定而出现一发音音标选单36，该发音音标选单36包括了对应于该语汇30的该选定的部份英文字母的多个子发音模块36x；其中每一该子发音模块皆包括多个发音音标，而每一该子发音模块决定部份该母发音模块31。接着，通过所述这些输入界面选定其中一种子发音模块36x，便可以顺利地改变该母发音模块31，以便于其后进行语音辨识时、提供所述这些语汇一个比较正确的声学模型(acoustic model)。

以实际的例子来看，当使用所述这些输入界面将图3中的语汇”benQ”中的”ben”部份选定成为反白时，便会出现与”ben”相对应的多个子发音模块361~364，此时若再利用所述这些输入界面选定其中的子发音模块363，便可以将图3中原来的母发音模块改变为。

本发明的第三个技术特征在于，提供一种字转音的使用者界面系统的修改方法，更特定而言之，系提供可应用于前述字转音的使用者界面系统的一种修改界面。与前一个利用输入界面以手动方式进行的修改方法不太相同的是，以下所述的另一种修改方法主要系利用语音以自动方式进行修改。

同样以前述的语汇”benQ”为例进行说明。

操作流程如下，首先，先以诸如浏览键、鼠标、触笔...等使用者界面选择欲修改的语汇”benQ”，接着使用者便利用语音方式对着麦克风说出”benQ”的发音，此时，系统便会对该语音进行一额外的语音辨识，由于已经选定了欲修改的语汇(此实施例为”benQ”)，因此其可能的发音就可以被限缩，逐字母来看：

(1)”b”的发音可以是”b”；

(2)”e”的发音可以是”eh”、”ae”、”iy”、”ih”、”ay”或不发音；

(3)”n”的发音可以是”n”、”ng”；以及

(4)”Q”的发音可以是”k”、”kyuw”。

是故，”benQ”这个字的发音便被限缩到下述一较窄的辨识范围：

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

15.

16.

17.

18.

19.

20.

21.

22.

23.

24.

系统是从上述24个母发音模块所构成的一较窄范围中选取其中的一作为辨识出的音标结果，再将其显示于发音栏中，接着便将类型栏的内容更改为”语音校正”即可。

此种利用语音自动辨识方式进行修改的技术特征的优点在于，，利用有限数目的(如本实施例中的24个)母发音模块进行一词汇(lexicon)产生程序所得到的词汇(lexicon)、或是利用语言模型(language model)的形式，可以限制(constrain)语音辨识时所产生辨识的结果为仅属于上列的多种发音的一，故能得到较正确的发音；相对于习用技术中毫无限制的辨识选所述来说，本发明方法的优点为可使得语音辨识的结果更为精准，而不会平白无故地冒出太离谱的结果。

此一技术特征的另一优点在于如此便不需要用键盘直接输入音标符号以进行修改，这对于一般不知如何编辑音标的人来说是极为方便的创举，特别是在小萤幕的手持装置上的利用更能显现其独特的处。

图4为对应图3的操控的流程图，由于步骤与前面所述大致相同，惟图4的多了将所述这些输入界面于所选定的反白区停留一段时间t以起动该发音音标选单36的第二步骤(第二栏)，但此步骤系属熟习本所述技术者所能轻易完成的，故于此处不再详加赘述。

最后，若是针对图4的字转音的使用者界面系统的修改方法进行改善，还可以将其中须使用如键盘、鼠标、触控板或是触控笔...等之类输入界面的输入方式提升为使用语音输入判别的方式；以前面所述”benQ”的例子说明，使用者界面系统针对所念出来的语音”ben”自动加以辨识且根据辞典或发音规则...等选取一种子发音模块36x以定义出母发音模块31。这种作法相较于图4的修改方法的进步的处在于，更进一步地省却了使用者花时间选取子发音模块36x的时间，对于效率的提升有极大助益。

综上所述，本发明所提出字转音的使用者界面系统，系于让字转音过程可能产生的错误(或信心分数)通过不同的颜色的图形化使用界面(GUI)呈现出来，使得潜在的错误能一目了然，并提供以字转音的信心分数(confidence score)为标的排序的功能，使信心分数较差的语汇能集中显示于最前端，让使用者不必频频卷动卷轴(Scroll Bar)就能一览无遗这些可能需要修改的语汇或音标，而能够更为方便地将心力集中在修改这些词汇或标音上，使得后续进行语音辨识时能够获得更为精准的辨识结果；而本发明所提出字转音的使用者界面的修改方法，则系允许使用者通过各种输入界面呈现有限数目的可能的发音模块供选取；或是语音的方式，以此有限数目的可能的发音模块缩限辨识词汇(lexicon)、因而产生较具正确性的语汇发音，便于后续语音辨识的进行。是故，本发明不但可大幅提升了字转音过程中呈现界面与修改界面的操控速度与使用便利性，实为一不可多得的发明创见。

本发明得由熟悉本技艺的人士任施匠思而为诸般修饰，然皆不脱如附申请专利范围所欲保护者。

Claims

1.一种字转音(text-to-phone)的使用者界面系统，系应用于语音辨识，该字转音的使用者界面系统包括：

一语汇栏，用以呈现以字母构成的至少一语汇；

一发音栏，用以呈现对应于每一该语汇的至少一母发音模块，每一该母发音模块包括多个发音音标；

一类型栏，用以呈现对应于每一该母发音模块的一来源；以及

一信心分数栏，用以呈现对应于每一该母发音模块的一信心分数(confidence score)，通过该信心分数提供使用者修改该语汇所对应的该母发音模块的依据，以便后续语音辨识的进行。

2.根据权利要求1所述的字转音的使用者界面系统，其特征在于：

所述这些语汇为选自中文语汇及英文语汇其中之一；及/或

该来源包括一常用词库、一发音辞典、语音校正、以及一发音规则。

3.根据权利要求1所述的字转音的使用者界面系统，其特征在于，更包括一标示栏，用以标示并提供是否选用该母发音模块。

4.根据权利要求1所述的字转音的使用者界面系统，其特征在于：

每一该信心分数、以及对应于每一该信心分数的该语汇、该母发音模块和该来源皆具有相同的一显示颜色；及

该使用者界面系统更包括一显示颜色设定界面，用以修改对应于每一该信心分数的该显示颜色。

5.根据权利要求1所述的字转音的使用者界面系统，其特征在于，更包括一发音音标选单，用以呈现对应于每一该语汇的部份字母的至少一子发音模块，其中每一该子发音模块包括多个发音音标，且每一该子发音模块决定部份该母发音模块，其中该使用者界面系统通过一输入界面决定及修改对应于所述这些部份字母的该子发音模块，而该输入界面包括一键盘、一鼠标、一触控板、一触控笔以及一语音输入装置。

6.一种字转音的使用者界面系统的修改方法，该字转音的使用者界面系统至少包括一语汇栏、一发音栏及一信心分数栏，该语汇栏系用以呈现以字母构成的至少一语汇，该发音栏系用以呈现对应于每一该语汇的至少一母发音模块，且每一该母发音模块包括多个发音音标，而该信心分数栏系用以呈现对应于每一该母发音模块的一信心分数，该修改方法包括步骤如下：

利用一输入界面选定该语汇的部份字母；

呈现对应于所选定的所述这些字母的至少一子发音模块，其中每一该子发音模块包括多个发音音标，且每一该子发音模块决定部份该母发音模块；以及

利用该输入界面于所述这些子发音模块的中选定一子发音模块，以修改部份该母发音模块，以便于其后进行语音辨识时、提供所述这些语汇一正确的声学模型。

7.根据权利要求6所述的字转音的使用者界面系统的修改方法，其特征在于：

该字转音的使用者界面系统更包括一类型栏，用以呈现对应于每一该母发音模块的一来源；

该字转音的使用者界面系统中每一该信心分数、以及对应于每一该信心分数的该语汇、该母发音模块和该来源皆具有相同的一显示颜色；及

该字转音的使用者界面系统更包括一显示颜色设定栏，利用该输入界面可于该显示颜色设定栏内修改对应于每一该信心分数的该显示颜色。

8.根据权利要求6所述的字转音的使用者界面系统的修改方法，其特征在于，该字转音的使用者界面系统更包括一标示栏，利用该输入界面可于该标示栏内标示并提供是否选用该母发音模块。

9.一种字转音的使用者界面系统的修改方法，该字转音的使用者界面系统至少包括一语汇栏、一发音栏及一信心分数栏，该语汇栏系用以呈现以字母构成的至少一语汇，该发音栏系用以呈现对应于每一该语汇的至少一母发音模块，且每一该母发音模块包括多个发音音标，而该信心分数栏系用以呈现对应于每一该母发音模块的一信心分数，该修改方法包括步骤如下：

利用一输入界面选定该语汇；

对该使用者界面系统输入一对应于该语汇的一语音；

启动一语音辨识程序，以上述所选定语汇相应的有限个可能发音为辨识词汇(lexicon)进行语音辨认以寻找对应于该语汇的至少一母发音模块，并呈现所述这些母发音模块；以及

利用该输入界面自有限个该母发音模块中选取其中的一，便于后续语音辨识的进行。

10.根据权利要求9所述的字转音的使用者界面系统的修改方法，其特征在于，该辨识词汇(lexicon)：

是通过选定该语汇所组成的英文字母的可能发音组合而成；或

是通过选定该语汇所组成的中文字的可能的破音字组合而成。