CN101354886A

CN101354886A - 语音识别装置

Info

Publication number: CN101354886A
Application number: CNA2007100754263A
Authority: CN
Inventors: 陈修志
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-07-27
Filing date: 2007-07-27
Publication date: 2009-01-28

Abstract

本发明涉及一种语音识别装置，包括：用于接收模拟语音信息的语音接收单元；用于将模拟语音信息转换成数字语音信息的模数转换单元；用于存储至少两个声学模型的存储单元；用于输入选择指令的指令输入单元；用于基于与选择指令对应的声学模型识别数字语音信息的识别单元。通过采用上述结构，在语音识别装置中设置多个备选声学模型，用户可以根据语言环境选择适当的声学模型进行语音识别，提高了语音识别的准确性及速度。

Description

语音识别装置

【技术领域】

本发明涉及一种语音识别装置，尤其涉及一种多声学模型的语音识别装置。

【背景技术】

随着科技和经济的不断发展，语音识别以及相关声控技术在许多领域得到了广泛的应用。语音识别过程主要包括：输入模拟语音信息；将模拟语音信息转换成数字语音信息；从数字语音信息中提取特征量；将特征量与预定声学模型进行匹配，由此产生识别结果。语音识别的准确率与声学模型容量有直接关系，因而需要声学模型集成各种语音数据，而语音识别的速度与该声学模型的大小有直接关系，声学模型过大直接导致语音识别速度的降低。目前的语音识别装置往往仅设置一个复合声学模型，通过该声学模型对包括男声、女声、童声在内的所有语音信息进行识别，会出现准确率低或者速度慢的技术问题。

【发明内容】

为了解决现有技术的语音识别装置仅通过一个复合声学模型对所有语音信息进行识别，导致语音识别的准确率低或者速度慢的技术问题。本发明提出了一种设置有多个备选声学模型的语音识别装置。

本发明解决现有技术的语音识别装置仅通过一个复合声学模型对所有语音信息进行识别，导致语音识别的准确率低或者速度慢的技术问题所采用的技术方案是：提供一种语音识别装置，该语音识别装置包括：用于接收模拟语音信息的语音接收单元；用于将模拟语音信息转换成数字语音信息的模数转换单元；用于存储至少两个声学模型的存储单元；用于输入选择指令的指令输入单元；用于基于与选择指令对应的声学模型识别数字语音信息的识别单元。

根据本发明一优选实施例，该识别单元进一步包括从数字语音信息中提取特征量的特征量提取单元以及将特征量与对应声学模型进行匹配的匹配单元。

根据本发明一优选实施例，该指令输入单元为选择按键。

根据本发明一优选实施例，该选择按键与该至少两个声学模型相对应。

根据本发明一优选实施例，该指令输入单元为具有选择菜单或图形按钮的输入界面。

根据本发明一优选实施例，该至少两个声学模型为针对非特定人的声学模型或针对特定人的声学模型。

根据本发明一优选实施例，该至少两个声学模型包括男声模型和女声模型。

根据本发明一优选实施例，该至少两个声学模型包括方言声学模型。

根据本发明一优选实施例，该语音识别装置进一步响应识别单元的识别结果执行预定动作的动作单元。

通过采用上述结构，在语音识别装置中设置多个备选声学模型，用户可以根据语言环境选择适当的声学模型进行语音识别，提高了语音识别的准确性及速度。

【附图说明】

图1是本发明的语音识别装置一实施例的示意框图；

图2是本发明的语音识别装置一实施例的控制面板的结构示意图；

图3是图1所示的语音识别装置的工作流程图。

【具体实施方式】

下面结合附图和实施例对本发明进一步说明。

参见图1和图2，在本实施例中以声控电话机为例对本发明的语音识别装置进行示范性描述，但本领域技术人员应该理解，本发明同样适用于其它语音识别装置。本发明的声控电话机1包括：用于接收模拟语音信息的语音接收单元11；用于将模拟语音信息转换成数字语音信息的模数转换单元12；用于存储至少两个声学模型的存储单元13；用于输入选择指令的指令输入单元14；用于基于与选择指令对应的声学模型识别数字语音信息的识别单元15。此外，声控电话机1进一步包括用于响应识别单元15的识别结果进行外呼的外呼单元16。

在本实施例中，识别单元15进一步包括从数字语音信息中提取特征量的特征量提取单元151以及将特征量与对应声学模型进行匹配的匹配单元152。在本实施例中，可以根据不同的声音特质将复合声学模型拆分成多个对应于不同声音特质的声学模型。例如，存储单元13中存储的声学模型包括男声模型和女声模型。指令输入单元14为分别与男声模型和女声模型对应的选择按键141和142。当然，本领域技术人员通过阅读本发明显而易见，指令输入单元14可以采用多种适当形式，例如，在应用到手机、PDA等便携设备时，指令输入单元14还可以是具有选择菜单或图形按钮的输入界面(未图示)。存储单元13中存储的声学模型还可以存储童声、方言声学模型或者其它适当声学模型。

如图3所示，图3是图1所示的声控固定电话1的工作流程图。在本发明的声控固定电话1的使用过程中，用户首先按下选择按键141或142，选择采用男声模型或女声模型。随后，声控固定电话1优选播放语音提示，指导用户通过语音接收单元11(例如，麦克风)输入语音信息。模数转换单元12则将输入的模拟语音信息转化成数字语音信息。特征量提取单元151从数字语音信息中提取特征量，并由匹配单元152根据所选择的声学模型进行匹配，并输出识别结果。识别结果可以是操作指令或者电话号码，声控固定电话1的其它动作部件可根据识别结果进行预定动作。例如，外呼单元16可以根据识别的电话号码进行拨号。

本发明电话的声学模型可以包括：针对特定人的声学模型或针对非特定人的声学模型。在针对特定人的声学模型中，用户需要事先对每一个词条进行训练。在训练阶段，用户每个词条依次说数遍，提取词条的特征量，并将特征量按序列存入存储单元中。在识别阶段，将输入词条的特征量依次与声学模型中的每一个特征量进行相似度比较，将相似度大于预定阈值的词条作为识别结果输出。采用针对特定人声学模型的识别单元识别的词条数目一般在100条以下，识别性能随着词条数目的增加会有明显的下降，并且对于不同用户、在不同的噪声环境中，以及不同的时间相同用户的不同生理、心理状态下，系统的性能都会受到明显的影响。在针对非特定人的声学模型中，采用基于统计模型的算法，系统开发者事先采集大量的语音数据进行训练，得到声学模型并存储在存储单元中。在识别阶段，将用户的输入词条的特征量与通过声学模型构建的识别网络进行匹配解码，输出该词条。非特定人声学模型对于用户而言，不需要引入繁琐的训练过程，方便了用户的使用；同时它可以供不同的人使用，因此大大拓宽了应用范围。另一方面，由于采用了基于统计模型的算法，其稳健性和识别性能都比特定人识别单元大大的提高。采用非特定人声学模型的识别单元识别的词条数目远大于针对特定人的声学模型，识别性能不会随着识别词条数目的增加有明显的下降，并且具有一定的抗噪能力。

通过采用上述结构，将复合声学模型根据声音特质拆分成多个对应不同声音特质的声学模型并存储在存储单元中，用户可以根据语言环境选择适当的声学模型进行语音识别，提高了语音识别的准确性及速度。

上述的详细描述仅是示范性描述，本领域技术人员在不脱离本发明所保护的范围和精神的情况下，可根据不同的实际需要设计出各种实施方式。

Claims

1.一种语音识别装置，其特征在于：所述语音识别装置包括：

用于接收模拟语音信息的语音接收单元；

用于将所述模拟语音信息转换成数字语音信息的模数转换单元；

用于存储至少两个声学模型的存储单元；

用于输入选择指令的指令输入单元；

用于基于与所述选择指令对应的声学模型识别所述数字语音信息的识别单元。

2.根据权利要求1所述的语音识别装置，其特征在于：所述识别单元进一步包括从所述数字语音信息中提取特征量的特征量提取单元以及将所述特征量与所述对应声学模型进行匹配的匹配单元。

3.根据权利要求1所述的语音识别装置，其特征在于：所述指令输入单元为选择按键。

4.根据权利要求3所述的语音识别装置，其特征在于：所述选择按键与所述至少两个声学模型相对应。

5.根据权利要求1所述的语音识别装置，其特征在于：所述指令输入单元为具有选择菜单或图形按钮的输入界面。

6.根据权利要求1所述的语音识别装置，其特征在于：所述至少两个声学模型为针对非特定人的声学模型或针对特定人的声学模型。

7.根据权利要求1所述的语音识别装置，其特征在于：所述至少两个声学模型包括男声模型和女声模型。

8.根据权利要求1所述的语音识别装置，其特征在于：所述至少两个声学模型包括方言声学模型。

9.根据权利要求1所述的语音识别装置，其特征在于：所述语音识别装置进一步响应所述识别单元的识别结果执行预定动作的动作单元。