CN1360301A

CN1360301A - 用于恶劣环境中的东方字词的混合键盘/语音识别技术

Info

Publication number: CN1360301A
Application number: CN01145686A
Authority: CN
Inventors: C·－H·黄
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-12-22
Filing date: 2001-12-19
Publication date: 2002-07-24
Anticipated expiration: 2021-12-19
Also published as: CN1224955C; TW533404B; KR20020051842A; JP4230142B2; JP2002268680A; KR100868709B1

Abstract

一种高精度东方语言,如汉语的输入方法和装置,用于恶劣环境中的具有小键盘和/或有限内存的小型电子装置,如PDA、移动电话、电子字典、电子表。通过将多音节中文字词分为单独的音调音节发声,同时按压特殊设计键盘的一键,如包含音节(辅音或元音)的第一音素的键,以进一步解决恶劣环境中例如辅音的拼音发音(子字词单元)引起的模糊问题,单独的音调音节的元音和辅音由自动语音识别系统进行分离而实现,。如果模糊仍然存在,按压音节的第二或第三拼音发音是有必要的。键盘设计是以数据驱动方式进行的,各键盘中音素的相似度被最小化而键之间拼音发音相似度被最大化。

Description

用于恶劣环境中的东方字词的混合键盘/语音识别技术

技术领域

本发明涉及一种语音信号处理，特别是一种只有有限存储量的手持小型电子装置中的东方语言，如普通汉语、日语、韩语等的自动语音识别(ASR)。

背景技术

自动语音识别(ASR)技术已经发展了几十年。一个例子是个人计算机中的大词汇量连续语音识别系统(LVCSR)。参照图1，LVCSR系统1通常使用一声音前端，该前端包括用于特征提取的频谱分析模块15和音调分析16，和具有上下文关联模型和语言模型的发音字典，以识别信号。由于用于上下文关联模型和语言模型的大量参数要被处理，因此LVCSR系统1的计算和存储工作量很大。对具有有限存储量的小型装置，如个人数字助理(PDA)、移动电话、无线电话以及电子字典等中使用的传统语音识别技术来说，声音特征和具有码本设计的语音/字典模型被典型地用来识别语音输入模式。这些技术对东方语言，如普通汉语、日语、韩语等特别有用。虽然LVCSR系统1已经得到发展，而且对个人计算机用户来说已经比较成熟，但它仍然具有缺陷，如声音特征、语音识别器的感应器易于受到恶劣环境中背景噪声的干扰。另一方面，LVCSR系统1识别错误率的下降主要归因于输入字词序列的知识，即特定语言发音者最常使用的所谓的语言模型。这样，LVCSR系统1不可避免的需要大的存储容量和计算工作以处理输入的字词序列。这样，LVCSR系统1就不再适用于具有有限存储能力的小型电子装置，特别是在恶劣环境中。

本发明技术方案

在研究用于恶劣环境中的传统LVCSR技术时，本发明的发明人发现很难在性能不降低的情况下设计出连续语音中的语言模型；单独语音较连续语音更易识别；单独语音中的元音较辅音更易识别；由于大多数普通汉语发音者，如在台湾和香港学习者，比较熟悉注音发音，因此通过注音发音对汉字进行区分相对较为容易。通常，一个汉字一般使用一到三个拼音发音。一些东方语言，如汉语、日语、韩语等的一个单独语音中的音节结构都是如S-停顿-S-停顿-S-停顿-...，其中S表示音节。如本领域技术人员所公知，该音节结构具有S＝(C)+V的特性，其中C表示辅音，V表示元音，C对韩语、日语和汉语是可选的。

至于汉字，通常使用的大约有20,000个。这些汉字具有大约400个音节和大约1400个不同发音，即所谓的音调音节。这些音调音节具有V+T或C+V+T的特殊结构，其中V表示元音，C表示辅音，T表示音调。如语音识别技术领域人员所知，考虑到其能量谱，很容易得出不同辅音的发音(或能量谱)不能被清楚区分的结论。对传统的ASR技术，识别错误率主要由辅音发音的不稳定造成。用于提高发音和辅音模型联合清晰度的稳定性的一个方法就是选择模型单元作为上下文关联音素。如果没有模型上下文关联音素，辅音发音的不稳定性就会导致字词错误率增加。另一个降低识别字词错误率的方法就是利用对生活语言中经常使用的字词顺序的知识，即所谓的语言模型。由于在恶劣环境中，上下文中辅音的发声与清楚的语音相比变得更加不确定，因此在恶劣环境中使用语言模型是ASR技术的关键因素，例如用于电话的对话系统。但是，上下文关联音素模型的缺点是它的模型复杂度很高并且大量统计学参数(通常为100K字节)需要被处理(由统计方法来估算)和存储在动态存储器中，如RAM中。另一个方法是使用整个字词模型。但是，由于300的因素，这也将增加模型的复杂度。另外，用于LVCSR系统1(通常有10,000字词)的语言模型(N字母组，N＝2，3)的内存使用率很高且很昂贵。这样，由于其固有的计算和存储限制，因此对手持电子装置来说很不切实际。

基于单独语音中元音较容易识别，目前的语音识别技术在单独语音中识别元音是可信赖的。至于音调，语音的声音特性可提供足够的信息以区别不同的音调。至于辅音的区分，这是目前语音识别技术中唯一的缺陷，特别是在恶劣环境中，当语音的声音特性被噪音干扰时。

本发明的第一个优点是可提供一种将东方语言中的包括辅音和元音的多个音素在手持电子装置的多个键中进行分组，其分组原则是分组到各键上的多个音素的距离平方和(即声音特征间距的相异尺寸)与多个键间的多个音素的距离平方和的比被最大化。

本发明的第二个优点是提供一种将东方字词输入电子装置的方法，该电子装置具有：包括多个键的数字键盘，语音输入装置，其中所述东方语言中包括元音和辅音的音素的至少一个根据上述方法被分配到并可视地地表示在各键的所属区域之上或之中，其中所述东方字词的语音表达由用户发出并被所述声音输入装置接收，每当用户以单独语音的方式发出各所述的东方字词时，用户随后按下一表示对应所述东方字词音素的第一个音素，通常为辅音的键，则对应的东方字词根据顺序键入的辅音被选择出来。

本发明的第三优点是提供一种电子装置，该装置可输入东方语言的口语语音，并通过混合键盘/语音识别来识别其中的东方字词，其中该电子装置具有一声音输入装置和一具有多个根据上述方法被分配的键的数字键盘。在该电子装置中，语音识别装置根据通过数字键盘键入的音素的序列和口语语音来识别口语语音中的东方字词，这样东方字词就可以在恶劣环境中以有效的方式被输入到电子装置中。

本发明的第四优点是提供一种通过用于上述电子装置中的数字键盘的键输入的帮助，识别东方语言中的语音的方法。

本发明的第五优点是提供一种可操作的计算机产品，当其运行时可使处理器执行上述识别方法。

附图说明

通过以下附图及说明，将对本发明有更全面地了解。其中：

图1为传统大词汇量连续语音识别系统(LVCSR)的方框图；

图2为按照本发明用于拼音字词的混合键盘/语音识别技术的电子装置的示意图；

图3为用于图2所示的电子装置中的混合键盘/语音识别系统的示意方框图；

图4为图3中在数字键盘多个按键输入的帮助下进行东方语言语音识别的方法的流程图。

最佳实施例

本发明为适用于下述条件的用于手持装置的高精度、混合键盘/ASR的结构：

(1)在恶劣环境中传统语音识别技术的缺陷。例如，语音的声音特性由于不稳定噪音和信道干扰变得不清楚。此外，传统技术的计算和存储工作量太高，如全部字词模型、上下文关联音素模型以及三字母组语言模型。

(2)韩语、日语和汉语语言的单独语音中的一些东方语言特征的音节结构。即(C)+V，停顿，(C)+V，停顿，(C)+V，...，其中C表示辅音，V表示元音，C对韩语、日语、和汉语是可选的。

本发明将通过普通汉语的例子来进行解释和说明。但是，本领域技术人员也同样可以在不脱离附加权利要求范围的基础上，将本发明的原理和宗旨应用于其他东方语言，如日语、韩语、广东话等。

图2示出可根据本发明的最佳实施例的用于手持电子装置20的混合键盘/语音识别结构。图2中，本发明将键盘22上的十二个经常使用的数字键，如0到9、*和#，进行专门分配，以明显地表示汉语的注音文字(基本由37个BoPoMoFo音素组成)，下面将进行详述。如本领域所公知的，键盘22还可以是手持电子装置20的屏幕23上的触摸板，其中这十二个键以屏幕23上的图标来表示。在操作中，电子装置20的使用者发出一可通过麦克21接收到的单独语音(语音中具有停顿)，并且每当发出该音节时，同时按下键盘22上的一代表在该单独语音中各音节的第一拼音音素的键。

现在参照图3，接收到的语音信号通过A/D转换器24被数字化采样，并被发送到频谱分析模块25和音调分析模块26中。如本领域技术人员所知，麦克21中可整合入A/D转换器24以形成一具有内置A/D转换器的数字化麦克。在模块25中，被采样的语音信号以相等的宽度和时序的重叠被分割至多个分析门电路。然后，各分析门电路与语音分析中通常使用的内核，即所谓的汉明窗相乘。在各分析门中进行采样语音信号的快速傅里叶变换(FFT)的计算，从而在分析门中产生采样的语音信号的频谱，然后进行平方产生能量谱并形成频谱、声音特性。另外，通过用于东方语言，如马来语、广东话、泰国语、台湾语等的音调分析模块26，从采样语音信号中提取出口语单独语音的音调特性。音调分析模块26不用于东方无音调语言，如日语和韩语。如从键盘22输出的启动/数据信号30所示，用户所作的按压第一键的动作还表示由随后的声音匹配模块27、单独音节匹配模块28、和最佳假设匹配模块29进行的采样语音信号处理的开始。如启动/数据信号30所示，口语语音组成的各音节的通常为辅音的音素的信息被输入到声音匹配模块27，以进一步促使音节的识别，从而降低了电子装置20的计算工作量。类似地，根据从声音匹配模块27输入的各音节和通过键盘22顺序键入的音素(辅音)，单独音节匹配模块28可促使所述口语语音中包括多个音节的各字词的识别。

根据本发明的最佳实施例，单独语音(语音中具有停顿)模式是最佳的，尤其对于恶劣环境中的ASR。也就是说，根据本发明，电子装置20的用户发出的单独语音更为可靠。而且，根据本发明最佳实施例，对各口语多音节单词，单独音节模式是最佳的。就是说，在恶劣环境中，多音节单词中的音节之间出现的停顿可使各音节更易被识别。根据本发明最佳实施例，对各口语单独音节，当向麦克21说出该音节时，最好通过键盘22手工输入单独音节中的对应辅音(或元音)，尤其是对那些具有简单音节结构S＝(C)+V的语言，如韩语、日语和汉语。如上所述，其原因是对传统语音识别技术来说，在恶劣环境中辅音比元音更难识别。

根据本发明，用户向键盘22的手工输入可用于下述情况：(i)当口语单独语音由声音匹配模块27处理时；(ii)当对应单独口语音节(对韩国、日本和中国人来说较为容易识别)的辅音由单独音节匹配模块28处理时；(iii)当通过键盘22上的浏览功能键，如滚动键“＜”和“＞”等从相似备选列表(即，具有相同发音的不同字，如汉语中的你、拟、伲和昵)中选择的所需音节由最佳假设匹配模块28处理时。

通过如上所述，根据本发明，图4示出了借助电子装置20中的键盘22的键输入在东方语言中识别语音的方法。参照图4，在步骤41中，表示所述用户的口语语音的语音信号通过麦克21被输入。在步骤42中，通过频谱分析模块25和音调分析模块26提取出语音信号的语音特征。在步骤43中，当用户发出各音节时，通过键盘22得到对应于口语语音中各音节的第一音素的键的信息。在步骤44中，根据语音信号的语音特征和随后在步骤43中接收到的键入音素，口语语音的各音节通过声音匹配模块27而被识别。在步骤45中，根据步骤44中各被识别的音节和步骤43中被随后接收的键入音素，口语语音中各由多个音节组成的词通过单独音节匹配模块28而被识别。

根据本发明，上述识别方法可以用软件的形式记录在计算机可读介质中。另外，计算机产品可运行使电子装置20的处理器执行上述识别方法。

普通汉语的37个注音(BoPoMoFo)音素如下所列：

ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗ

ㄘㄙㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ一ㄨㄩ

根据本发明，普通汉语的这37个注音文字以数据驱动的形式，即基于汉字发声数据库的“反向线性判别分析(ILDA)”，被分配到键盘22中的十二个键上。根据本发明的方法，最好是通过将分组在键盘22各键上的几个包括辅音和元音的音素的距离(即声音特性间隔中的相异尺寸)的平方和与键盘22中键间的音素的距离的平方和的比最大化来实现。换句话说，为了确保键盘按压效率而向键盘22的键分配普通汉语的37个注音文字的创造性标准可被归纳为：

●键盘22上各键中，37个注音文字的声音特性间隔中的相异尺寸被最大化(通常3到4个音素被分配在一个键上，如本发明中“ㄒ”、“ㄝ”和“ㄈ”被分配到键“1”上)。这种最大化可以确保如图3中所示的ASR系统相对比较容易从被各按压键表示的一组音素中识别特定的音节/音素。

●键盘22上各键之间，37个注音文字(根据本发明，“ㄙ”在键“2”上、“ㄕ”在键“3”上、“ㄘ”在键“6”上)的声音特性间隔中的相异尺寸被最小化。这种最小化可以确保最模糊的声音(音素)通过按压键被识别。

37个注音文字在键盘22中分配的一个例子在图2中示出并在下面给出：

键注音

1 (ㄒㄝㄈ)

2 (ㄙㄦㄖ)

3 (ㄕㄛㄌ)

4 (ㄑㄚㄩ)

5 (ㄗㄡㄨㄜ)

6 (ㄘㄢ一)

7 (ㄓㄣㄆ)

8 (ㄏㄤㄊ)

9 (ㄐㄥㄎ)

0 (ㄔㄅㄞ)

* (ㄇㄉㄟ)

# (ㄋㄍㄠ)

作为本发明操作的一个例子，根据本发明创造性的混合键盘/语音识别方案，当要通过麦克21和键盘22向电子装置20输入一多音节词，如“你是谁”(who afe you？)时，用户首先在单独音节模式下发出单独的语音“你—(停顿)—是—(停顿)—谁—(停顿)—”，然后发出的各音节通过麦克21被顺序接收。每当用户在两次停顿之间发出各音节时，他/她可以按下该音节的辅音(如果有的话，否则是元音)。这是因为如上所述，发明人从现有恶劣环境中的语音识别技术中发现，在单独语音中识别元音比识别辅音更为容易，因此对辅音最好由用户按压键进行指定以提高口语单独语音的识别率。例如，对于中文“你”(you，注音为“ㄋ——

”)，用户可以直观地按压表示辅音“ㄋ”的键“#”。类似地，对于中文“是”(are，注音为“ㄕ—\”)，用户可以按压表示辅音“ㄕ”的键“3”，而对于中文“谁”(who，注音为“ㄕ—ㄟ—/”)，则重复按压表示辅音“ㄕ”的键“3”。如上所述，通过音调分析模块26提取出上述单独音调语音中的音调特征，然后由声音匹配模块27、单独音节匹配模块28和最佳假设匹配模块29进行分析。从而，按照本发明的电子装置20不需要用于普通汉语的四声“●、/、

、\”的音调键。

另外，在上述隋况中，每当用户在停顿之间发出各音节并同时按下表示其辅音的键时，一些同音字(即具有相同发音的不同字)就在屏幕23(图2中未示出)上的各选列表中显示出来。然后，用户可利用键盘22上的滚动键，如“＜”“＞”和“OK”键(未示出)来选择所需的汉字。通过这种方法，如要向电子装置20中输入超过三个汉字，用户只需按压三个按键而不是传统技术中不考虑滚动键和“OK”键的至少6到8个键(每个字至少两次键的按压)。如本领域所公知，在单独语音中的同音字可根据上下文学习技术自动选择。这样，根据本发明，通过创造性的键分配和语音识别方法，就可以实现在恶劣环境中输入东方语言的高效键盘按压。

在本发明的最佳实施例中，通过按压表示对应单独口语音节结构中的辅音的键，音节间的模糊可被有效地大幅降低，而且在不增加任何附加计算工作量或存储的情况下，识别的错误率也被显著减少。本发明特别适用在恶劣环境中匣用的手持电子装置，该装置可通过键盘和麦克输入韩语、日语和汉语，因为这些语言都具有简单的音节结构，S＝(C)+V，其中S表示特定音节，C/V表示对应的辅音/元音。

虽然本发明已经公开了普通汉语的最佳实施例，但该公开并不限制本发明。东方语言，如日语、韩语(无音调)、泰国语、越南语(有音调)也可采用本发明。另外，虽然本发明实施例适合汉语，但将37个注音文字分配到键盘22的十二个键的原则也可应用于其他拉丁语言，如英语。例如，获得例如英语的拉丁语的多个音素的声音特性间隔，并以数据驱动方式将分组在键盘22的各键上的多个音素的距离(即声音特性间隔中的相异尺寸)的平方和与键盘22的键之间的音素的距离的平方和的比最大化。通过这种方法，英语字母表的26个字母也可被分配到键盘中的几个，如10或12个数字键上，这样，键盘的大小也可显著减小。

本发明还可由ASR领域技术人员在不脱离本发明权利要求的实质和范围的情况下进行修改或改变。

Claims

1.一种用于东方语言的口语语音输入的电子装置，该语音具有辅音加元音加音调或元音加音调的音节结构，所述电子装置包括：

一语音接收器，用于接收表示所述口语语音的语音信号；

一预处理装置，与所述语音接收器相连，用于提取所述语音信号的语音特征；

一包括多个键的键盘装置，其中各键上分配有包括辅音和元音的音素中的至少一个音素；

声音匹配装置，用于根据所述语音信号的语音特征和随后通过所述键盘装置获得的音素来识别所述语音的各音节；和

单独音节匹配装置，用于根据声音匹配装置输出的各音节和通过所述键盘顺序键入的音素，识别所述口语语音中包含多个音节的各字词。

2.根据权利要求1所述的电子装置，其特征在于各键分配有至少一个音素，使得分组在多个键的各键上成组的音素的距离平方和与多个键间的音素的距离平方和之和为最大。

3.根据权利要求1所述的电子装置，其特征在于当发出各音节时，按压对应口语语音中各音节的第一音素(最好为一辅音)的键。

4.根据权利要求1所述的电子装置，其特征在于电子装置是从包括蜂窝电话、无线电话、电子字典、个人数字助理和电子表的组中选出的。

5.根据权利要求1所述的电子装置，其特征在于口语语音是由至少一多音节字词组成的单独语音。

6.根据权利要求3中所述的电子装置，其特征在于口语语音中各音节的第一音素为一辅音。

7.一种具有一显示单元的电子装置，包括：

一语音接收装置，用于接收表示具有辅音加元音或元音的音节结构的东方语言中的口语语音的语音信号；

一具有多个键的数字键盘，其中包括元音和辅音的音素中的至少一个被分配到并可视地表示在各键上或各键的附近区域；

一语音识别装置，用于根据通过所述数字键盘随后输入的音素和由所述语音接收装置接收到的口语语音，识别所述口语语音中的东方字词；和

用于将所述口语语音中的东方字词显示在所述显示单元上的装置。

8.根据权利要求7所述的电子装置，其特征在于根据分组在多个键的各键上的多个音素的距离平方和与多个键间的多个音素的距离平方和之比为最大的原则向各键上分配至少一个音素，从而使东方语言更有效地通过所述数字键盘和所述语音接收装置输入。

9.一种在通过数字键盘按键输入的帮助下识别东方语言语音的方法，其特征在于所述东方语音具有辅音加元音或元音的音节结构，且所述数字键盘具有多个键，所述方法包括以下步骤：

(a)输入表示所述语音的语音信号；

(b)从所述语音信号中提取语音特征；

(c)当发出各音节时，通过所述数字键盘随后接收对应所述语音中各音节的第一音素的键的信息；

(d)根据所述语音信号的语音特征和步骤(c)中随后接收到的音素，识别所述语音的各音节；

(e)根据步骤(d)中识别的各音节和步骤(c)中随后接收的音素，识别所述语音中包括多个音节的各字词。

10.根据权利要求9所述的方法，其特征在于所述数字键盘各键上被分配至少一个包括元音和辅音的音素，步骤(c)中的所述第一音素为一辅音。

11.一种用于在一电子装置的数字键盘中对多个东方语言的包括元音和辅音的音素进行分组的方法，其特征在于键盘的各键被分配至少一个音素，包括步骤：

(a)得到多个音素的声音特性；和

(b)以数据驱动的方式将分组在多个键的各键上的多个音素的距离平方和与多个键间的多个音素的距离平方和之比最大化。

12.根据权利要求11所述的方法，其特征在于最大化步骤包括：

(b1)最大化各键中的音素的声音特性间距中的第一相异尺寸，以使分组到各键的多个音素在声音上可区别；

(b2)最小化键间音素的声音特性间距中的第二相异尺寸，以使最易模糊的音素不会被分组在同一键中。

13.根据权利要求11所述的方法，其特征在于东方语言为汉语，电子装置的数字键盘有十二个键，其中在十二键中的汉语的多个音素的分组如下：

1 (ㄒㄝㄈ)

2 (ㄙㄦㄖ)

3 (ㄕㄛㄌ)

4 (ㄑㄚㄩ)

5 (ㄗㄡㄨㄜ)

6 (ㄘㄢ一)

7 (ㄓㄣㄆ)

8 (ㄏㄤㄊ)

9 (ㄐㄥㄎ)

0 (ㄔㄅㄞ)

* (ㄇㄉㄟ)

# (ㄋㄍㄠ)。

14.一种向具有包括多个键的数字键盘和语音输入装置的电子装置中输入东方字词的方法，其特征在于包括辅音和元音的音素的至少一个被分配到并可视地表示在各键上或各键附近的区域；其中所述东方字词的语音表达由用户发出并由所述语音输入装置接收，当用户以单独语音模式发出各东方字词时，用户随后按压表示对应所述各东方字词的第一个音素键；然后对应的东方字词根据随后键入的音素被选出。

15.根据权利要求14所述的方法，其特征在于根据将分组在多个键的各键上的多个音素的距离平方和与多个键间的音素的距离平方和之比为最大的方式将至少一个音素分配到各键上。

16.一种计算机程序产品，在通过数字键盘的键输入的帮助下，其运行可使处理器执行东方语言语音识别的多个步骤，其特征在于所述东方语音具有辅音加元音或元音的音节结构，数字键盘具有多个键，其步骤包括：

(a)输入表示所述语音的语音信号；

(b)从所述语音信号中提取语音特征；

(e)根据步骤(d)中识别的各音节和步骤(c)中随后接收的音素，识别所述语音中由多个音节组成的各字词。

17.根据权利要求16所述的计算机产品，其特征在于所述数字键盘各键上分配有至少一个包括所述东方语言的元音和辅音的音素，步骤(c)中所述的第一音素为一辅音。