CN1666253A

CN1666253A - 利用优化音素集进行普通话语音识别的系统和方法

Info

Publication number: CN1666253A
Application number: CN038162504A
Authority: CN
Inventors: X·梅嫩德斯-皮达尔; 段镭; 吕静雯; L·奥罗伦肖
Original assignee: Sony Electronics Inc
Current assignee: Sony Electronics Inc
Priority date: 2002-07-11
Filing date: 2003-07-07
Publication date: 2005-09-07
Anticipated expiration: 2023-07-07
Also published as: CN100380442C; WO2004008433A2; WO2004008433A3; US7353173B2; US20040010405A1; AU2003249733A1

Abstract

本发明包含一种利用优化音素集实现普通话语音识别器的系统和方法，并可包含一种识别器，该识别器用来对输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串进行比较。利用语音技术实现所述优化音素集分别提供辅音音素和元音音素。为了系统的有效性，以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素，从而在语音识别过程中精确表示普通话语音。

Description

利用优化音素集进行普通话语音识别的系统和方法

技术领域

本发明总体上涉及电子语音识别系统，具体而言，本发明涉及一种利用优化音素集进行普通话语音识别的系统和方法。

背景技术

为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法是系统设计者和制造者主要考虑的事。对于许多系统用户来说，电子设备的声控操作是一种理想的接口。例如，声控操作允许用户同步执行其它任务。例如，一个人可以驾驶汽车，同时利用声控操作电子组织者。对于那些有身体限制或者其它特殊需求的用户来说，不用手操作电子系统也是理想的。

通过各种语音激活电子系统可以实现不用手操作电子设备。因此，语音激活电子系统有利地允许用户在使用传统输入设备不方便或者潜在危险的情况下与电子设备进行交流。电子娱乐系统也可利用语音识别技术，从而允许用户通过说话来与系统交流。

可是，有效实现这种系统可能会对系统设计者产生重大挑战。例如，对增加的系统功能和系统的增强需要可能需要更多的系统处理能力，并需要另外的软件资源。处理或硬件需求的增加也可因增加的生产费用和操作效率低而导致相应的有害经济影响。

另外，进行各种高级操作的增强系统能力可为系统用户提供额外的好处，但是也可对各种系统部件的控制和管理产生更多的要求。例如，有效识别普通话单词和短语的增强电子系统可因涉及的大量复杂的数字数据而不易有效实现。因此，由于所有上述原因，为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法仍然是系统设计者和制造者主要考虑的事。

发明内容

根据本发明，公开了一种利用优化音素集实现普通话语音识别器的系统和方法。在一个实施例中，可以配置识别器以便比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串。

使用语音技术可以实现该优化普通话音素集分别包括辅音音素和元音音素。为了系统有效性，可优选地以压缩方式来实现该优化普通话音素集仅包括所需最少的辅音音素和元音音素，以便在语音识别过程中精确地表达普通话语音。

在某些实施例中，优化普通话音素集可包括以下辅音音素：b，p，d，t，g，k，z，c，zh，ch，j，q，f，s，sh，x，h，m，n，ng，l，r，y，和w。另外，该优化普通话音素集还可包括以下元音音素：a，e，o，i，u，yu，ai，ei，ao，和ou。在许多实施例中，该优化普通话音素集还可包括结束音素“cl”。由于使用相对少量的音素，因此该优化普通话音素集提供了一种用来精确地识别普通话语音的有效且简洁的音素表示法。

在某些实施例中，优化普通话音素集可通过使用单个统一的双元音音素，有利地表示双元音。例如，该优化普通话音素集可包括以下统一的双元音音素：ai，ei，ao，和ou。另外，无音调信息加入该优化普通话音素集。因此，本发明提供一种利用优化音素集实现普通话语音识别器的有效的系统和方法。

附图说明

图1是根据本发明的计算机系统的一个实施例的方框图；

图2是根据本发明的图1中存储器的一个实施例的方框图；

图3是根据本发明的图2的语音识别引擎的一个实施例的方框图；

图4是根据本发明的图2的隐式Markov模型的一个实施例的示意图；

图5是根据本发明的图2的词典的一个实施例的示意图；

图6是根据本发明的一个实施例的优化普通话音素集的示意图；和

图7是根据本发明的一个实施例描述处理双元音技术的示意图。

具体实施方式

本发明设计一种语音识别系统的改进。根据专利申请及其要求提供以下说明，使本领域的普通技术人员能够制造和使用本发明。对于那些本领域的普通技术人员来说，可以很容易地对优选实施例进行各种修改，并且这里的基本原理可以应用到其它实施例中。因此，本发明并不限于所示实施例，而是应该给予符合这里所述的原理和特征的最宽范围。

本发明包含一种利用优化音素集实现普通话语音识别器的系统和方法，并且可包括识别器，该识别器用来比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串。利用语音技术可实现该优化普通话音素集分别包括辅音音素和元音音素。为了系统有效性，可优选地以压缩方式来实现该优化普通话音素集仅包括所需最少的辅音音素和元音音素，以便在语音识别过程中精确地表达普通话语音。

现参考图1，图中示出了根据本发明的计算机系统110的一个实施例的方框图。图1实施例包括声音传感器112，放大器116，模拟数字转换器120，中央处理器(CPU)128，存储器130，和输入/输出接口132。该计算机系统110可容易地包括各种其它元件或功能，以便加在结合图1实施例讨论的那些元件或功能之上，或者取代结合图1实施例讨论的那些元件或功能。

声音传感器112检测声能并将检测到的声能转换成模拟语音信号，该模拟语音信号可经由线114提供给放大器116。放大器116放大接收到的模拟语音信号，并将该放大的模拟语音信号经由线118提供给模拟数字转换器120。然后，模拟数字转换器120将放大的模拟语音信号转换成相应的数字语音数据。接着，模拟数字转换器120经由线122将该数字语音数据提供给系统总线124。

接着，CPU 128可获取系统总线124上的数字语音数据，并做出响应，分析和处理该数字语音数据，以便根据存储器130中所包含的软件指令进行语音检测。存储器130中软件指令和CPU 126的工作将在下面结合图2-7进一步讨论。该语音数据经处理后，CPU 128接着可将该语音检测分析结果经由输入/输出接口132提供给其它设备(未示出)。在可选实施例中，本发明可容易地包含在不同于图1中所示的计算机系统110的各种其它设备中。

现参考图2，图中示出了根据本发明的图1中存储器130的一个实施例的方框图。存储器130可选地包含各种存储设备配置，包含随机存取存储器(RAM)和存储设备如软盘或硬盘驱动器。在图2实施例中，存储器130包括，但不限于，语音识别引擎210，隐式Markov模型(HMM)212，词汇字典214，和语言模型216。在可选实施例中，存储器130可容易地包括各种其它元件或功能，以便加在结合图2实施例讨论的那些元件或功能之上，或者取代结合图2实施例讨论的那些元件或功能。

在图2实施例中，语音识别引擎210包括一系列软件模块，该一系列软件模块由CPU 128执行以分析和识别语音数据，该一系列软件模块将在下面结合图3进行进一步描述。在可选实施例中，使用各种其它软件和/或硬件配置可容易地实现语音识别引擎210。语音识别引擎210可利用HMM 212和字典214来实现本发明的语音识别功能。HMM212的一个实施例将在下面将结合图4进一步讨论，而字典214的一个实施例将在下面结合图5进一步讨论。语言模型216可包括根据前面词预测后面词的词序或“句法”模型。

现参考图3，图中示出了根据本发明的图2中语音识别引擎210的一个实施例的方框图。语音识别引擎210包括，但不限于，特征提取器310，终点检测器312，和识别器314。在可选实施例中，语音识别引擎210可容易地包括各种其它元件或功能，以便加在结合图3实施例讨论的那些元件或功能之上，或者取代结合图3实施例讨论的那些元件或功能。

在图3实施例中，模拟数字转换器120(图1)将数字语音数据经由系统总线124提供给特征提取器310。特征提取器310做出响应生成特征向量，该特征向量经由通道320提供给识别器314。特征提取器310进一步做出响应生成语音能量，经由通道322提供给终点检测器312。终点检测器312分析该语音能量并做出响应检测由语音能量表现出的说话的终点。该终点表示说话在时间上的开始和结束。接着，终点检测器312将该终点经由通道324提供给识别器314。

识别器314优选地被设计用来识别字典214(图2)中表示的预定词汇量中的单词。上述字典214中词汇量单词可对应于用于计算机系统110的任何期望的命令，指令，或其它信息。接着，该识别的词汇量单层或命令可经由通道332被输出到系统110。

实际上，字典214中的每个单词都可与组成该单词的相应音素串(单个音素组成的串)相联系。隐式Markov模型(HMM)212(图2)可包括可用来表示字典214中单词的预定音素集中每个音素经训练的随机表示。识别器314接着可比较来自线320的输入特征向量和字典214中每个音素串的合适的HMM 212，以便确定哪个单词产生最高的识别得分。这样，对应于最高识别得分的那个单词可被认为是被识别单词。

现参考图4，图中示出了根据本发明的图2中HMM的一个实施例的方框图。在图4实施例中，HMM 212可优选地包括模型1(412(a))到模型N(412(c))。在可选实施例中，HMM 212可容易地包括各种其它元件或功能，以便加在结合图4实施例讨论的那些元件或功能之上，或者取代结合图4实施例讨论的那些元件或功能。

在图4实施例中，可容易地实现HMM 212包括任何期望数量的模型412，该模型412可包括任何需要类型的信息。在图4实施例中，HMM的每个模型412可对应于预定音素集中各个特定的音素，以便和识别器314(图3)一起使用。优化普通话音素集的一个实施例将在下面结合图6-7进一步讨论。

现参考图5，图中示出了根据本发明的图2中字典214的方框图。在图5实施例中，字典214优选地可包括单词1(512(a))到单词N(512(c))。在可选实施例中，字典214可容易地包括各种其它元件或功能，以便加在结合图5实施例讨论的那些元件或功能之上，或者取代结合图5实施例讨论的那些元件或功能。

在图5实施例中，可容易地实现字典214包括任何期望数量的词条512，该词条512可包括任何需要类型的信息。在图5实施例中，正如上面结合图3讨论的那样，字典214中的每个词条也可包括预定音素集中单个音素组成的相应的音素串。上述音素串中的单个音素优选地形成了字典214中相应词条512发音的连续表示。优选普通话音素集的一个实施例将在下面结合图6-7进一步讨论。

现参考图6，图中示出了根据本发明一个实施例的优化普通话音素集610的示意图。在可选实施例中，本发明可容易地包括各种其它元件或功能，以便加在结合图6实施例讨论的那些元件或功能之上，或者取代结合图6实施例讨论的那些元件或功能。

在图6实施例中，音素集610包括36个单独的音素，该36个单独音素可用来表示普通话中的语音。由于普通话中文典型地是使用中文字符代替罗马字母来书写的，因此利用被称为“拼音”的标准普通话罗马字书写方法来表示图6的音素集610(除了附加的结束音素“cl”之外)。应当指出的还有，在图6的音素集610中拼音“ü”被表示为“yu”，以便计算机键盘使用。在可选实施例中，本发明可使用以其它类型的罗马字书写方法表示的优化普通话音素集。

由于使用相对少量的音素，因此音素集610提供了一种用来精确识别普通话语音的有效而又简洁的音素表示法。音素集610中单独音素数量的减少显著节约了电子系统110中的处理资源和存储器。另外，总音素数量的减少充分减少了与训练隐式Markov模型(HMM)212有关的负担。可是，在各种可选实施例中，可实现本发明包括各种附加的或者不同的音素，这些音素不同于图6实施例中示出的那些音素。

传统的普通话识别系统典型地利用一种以子音节方法实现的音素集，在该子音节方法中每个音节表示为韵脚或半音节。相反地，优化普通话音素集610有利地利用语音技术，其中音节进一步被分成语音单元，该语音单元可以用合适的辅音音素和元音音素组合表示，从而为语音表示过程提供更大的颗粒度。另外，音素集610表示普通话的各种声音，而不需要利用相应的音调信息作为不同音素的一部分。除了提供更大的灵活性之外，上述语音技术也具有音素集610中需要更少的总音素的优点。

根据对应的音素的特性，可以将图6的音素集610组织到不同语言种类中。为了说明起见，表1中表示了一种这样的组织，表1中包括左面的种类和右面的音素集610中对应的音素。另外，表1还包括根据由国际语音协会(IPA)开发的一种系统的音素集610的第二等价表示法。有关国际语音协会(IPA)的进一步信息可以在环球网www.arts.gla.ac.uk/IPA/fullchart.html上找到。在可选实施例中，也可以以不同于表1中示出的各种方法将音素集610。

表1

Sony(基于拼音) IPA

闭止音 b p

p ph

d t

t th

g k

k kh

破擦音 z t^

c t^h

zh s^｀

ch s^｀h

j C^

q C^h

摩擦音 f f

s s

sh s^

x C

h x

鼻音 m m

n n

ng N

近似音 l l

r r^

y j

w w

yu H

元音 a a

e e

o o

i i

u u

yu yu

双元音 ai aj

(可选) ei ej

ao aw

ou ow

结束音 cl

(可选)

现参考图7，图中示出了根据本发明一个实施例描述处理双元音技术的示意图710。在可选实施例中，本发明可容易地使用各种其它技术或功能，以便加在结合图7实施例讨论的那些技术或功能之上，或者取代结合图7实施例讨论的那些技术或功能，从而处理双元音。

在图7实施例中，优化普通话音素集610(图6)可有利地通过使用单个统一的音素来表示双元音(两个或多个同时发出的元音声音)。例如，在图7实施例中，音素集610可包括以下统一的双元音音素：ai，ei，ao，ou。本发明可有效地利用该统一的双元音音素，从而节约处理和存储资源。另外，由于普通话语音的双元音中元音声音发生相对较快，因此，将双元音表示为统一的音素可防止语音识别过程中的各种问题。

为了说明，在图7实施例中，模块714包括示例的普通话单词“hei”。在模块716，单词“hei”被表示成具有三个单独单元“h”，“e”和“y”的常规语言方式。根据本发明，在模块718中，有效地仅使用音素集610中的两个音素，即“h”和“ei”来表示单词“hei”。根据本发明，任何类型的普通话双元音(或者其它双元音)都可以利用统一的音素来表示，如图7实施例中所示。

以上参考优选实施例阐述了本发明。根据本说明书，那些本领域的技术人员将明白其它实施例。例如，使用不同于上述优选实施例中描述的其它配置和技术，可以容易地实现本发明。另外，本发明可有效用来和不同于上述优选实施例的其它系统一起使用。因此，本发明试图覆盖在优选实施例基础上的这些和其它变化，本发明仅受所附权利要求的限制。

Claims

1.一种用来执行语音识别过程的系统，包含：

识别器，用来比较输入语音数据和根据优化音素集实现的词汇字典中的音素串，利用语音技术实现所述优化音素集以分别提供辅音音素和元音音素，以压缩方式实现所述优化音素集以仅包括所需最少的所述辅音音素和所述元音音素；和

处理器，用来控制所述识别器，从而执行所述语音识别过程。

2.权利要求1的系统，其中所述输入语音数据包括普通话语言数据，所述优化音素集被压缩配置以便精确表示所述普通话语言数据。

3.权利要求1的系统，其中所述识别器和所述处理器被实施成消费电子设备的一部分。

4.权利要求1的系统，其中所述优化音素集在执行所述语音识别程序的同时，节约处理资源和存储资源。

5.权利要求1的系统，其中所述优化音素集减少了执行识别器训练程序以便初始执行所述识别器的训练需要。

6.权利要求1的系统，其中所述音素串中每一个都包括不同的一串来自优化音素集的音素，所述音素串中每一个对应于所述词汇字典中的不同单词。

7.权利要求6的系统，其中所述识别器比较所述输入语音数据和所述词汇字典中所述音素串的隐式Markov模型，从而在所示语音识别过程中选择出被识别单词。

8.权利要求1的系统，其中所述优化音素集包括音素b，p，d，t，g，k，z，c，zh，ch，j，q，f，s，sh，x，h，m，n，ng，l，r，y，w，a，e，o，i，u，yu，ai，ei，ao，和ou。

9.权利要求1的系统，其中所述优化音素集包括辅音音素b，p，d，t，g，k，z，c，zh，ch，j，q，f，s，sh，x，h，m，n，ng，l，r，y，和w。

10.权利要求1的系统，其中所述优化音素集包括结束音素“cl”。

11.权利要求1的系统，其中所述优化音素集包括元音音素a，e，o，i，u，yu，ai，ei，ao，和ou。

12.权利要求1的系统，其中所述优化音素集利用统一的双元音音素来表示某些双元音，从而在为所述语音识别程序提供更大精确度特性的同时，节约处理资源和存储资源。

13.权利要求12的系统，其中所述优化音素集包括统一双元音音素ai，ei，ao，和ou。

14.权利要求1的系统，其中所述优化音素集包括闭止音类，该闭止音类包括单独音素b，p，d，t，g，和k。

15.权利要求1的系统，其中所述优化音素集包括破擦音类，该破擦音类包括单独音素z，c，zh，ch，j，和q。

16.权利要求1的系统，其中所述优化音素集包括摩擦音类，该摩擦音类包括单独音素f，s，sh，x，和h。

17.权利要求1的系统，其中所述优化音素集包括近似音类，该近似音类包括单独音素l，r，y，w，和yu。

18.权利要求1的系统，其中所述优化音素集包括鼻音类，该鼻音类包括单独音素m，n，和ng。

19.权利要求1的系统，其中所述优化音素集表示普通话语言的各种声音，而不需利用相应的音调信息作为所述优化音素集中不同音素的一部分。

20.权利要求1的系统，其中所述优化音素集中的所述辅音音素和所述元音音素被组合起来表示普通话语言系统中的音节。

21.一种用来执行语音识别过程的方法，包含步骤：

配置一种识别器，以便比较输入语音数据和根据优化音素集实现的词汇字典中的音素串，利用语音技术实现所述优化音素集分别提供辅音音素和元音音素，以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素；和

利用处理器控制所述识别器，从而执行所述语音识别过程。

22.权利要求21的方法，其中所述输入语音数据包括普通话语言数据，所述优化音素集被压缩配置以便精确表示所述普通话语言数据。

23.权利要求21的方法，其中所述识别器和所述处理器被实施成消费电子设备的一部分。

24.权利要求21的方法，其中所述优化音素集在执行所述语音识别程序的同时，节约处理资源和存储资源。

25.权利要求21的方法，其中所述优化音素集减少了执行识别器训练程序以便初始执行所述识别器的训练需要。

26.权利要求21的方法，其中所述音素串中每一个都包括不同的一串来自优化音素集的音素，所述音素串中每一个对应于所述词汇字典中的一个不同单词。

27.权利要求26的方法，其中所述识别器比较所述输入语音数据和所述词汇字典中所述音素串的隐式Markov模型，从而在所示语音识别过程中选择出被识别单词。

28.权利要求21的方法，其中所述优化音素集包括音素b，p，d，t，g，k，z，c，zh，ch，j，q，f，s，sh，x，h，m，n，ng，l，r，y，w，a，e，o，i，u，yu，ai，ei，ao，和ou。

29.权利要求21的方法，其中所述优化音素集包括辅音音素b，p，d，t，g，k，z，c，zh，ch，j，q，f，s，sh，x，h，m，n，ng，l，r，y，和w。

30.权利要求21的方法，其中所述优化音素集包括结束音素“cl”。

31.权利要求21的方法，其中所述优化音素集包括元音音素a，e，o，i，u，yu，ai，ei，ao，和ou。

32.权利要求21的方法，其中所述优化音素集利用统一的双元音音素来表示某些双元音，从而在为所述语音识别程序提供更大精确度特性的同时，节约处理资源和存储资源。

33.权利要求32的方法，其中所述优化音素集包括统一双元音音素ai，ei，ao，和ou。

34.权利要求21的方法，其中所述优化音素集包括闭止音类，该闭止音类包括单独音素b，p，d，t，g，和k。

35.权利要求21的方法，其中所述优化音素集包括破擦音类，该破擦音类包括单独音素z，c，zh，ch，j，和q。

36.权利要求21的方法，其中所述优化音素集包括摩擦音类，该摩擦音类包括单独音素f，s，sh，x，和h。

37.权利要求21的方法，其中所述优化音素集包括近似音类，该近似音类包括单独音素l，r，y，w，和yu。

38.权利要求21的方法，其中所述优化音素集包括鼻音类，该鼻音类包括单独音素m，n，和ng。

39.权利要求21的方法，其中所述优化音素集表示普通话语言的各种声音，而不需利用相应的音调信息作为所述优化音素集中不同音素的一部分。

40.权利要求21的方法，其中所述优化音素集中的所述辅音音素和所述元音音素被组合起来表示普通话语言系统中的音节。

41.一种计算机可读媒介，包含用来执行语音识别的程序指令，执行步骤为：

配置一种识别器，以便比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串，利用语音技术实现所述优化音素集分别提供辅音音素和元音音素，以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素；和

利用处理器控制所述识别器，从而执行所述语音识别过程。

42.一种用来执行语音识别过程的系统，包含

用来比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串的装置，其中利用语音技术实现所述优化音素集分别提供辅音音素和元音音素，以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素；和

用来控制所述用来比较的装置以便执行所述语音识别过程的装置。