CN101354886A - 语音识别装置 - Google Patents

语音识别装置 Download PDF

Info

Publication number
CN101354886A
CN101354886A CNA2007100754263A CN200710075426A CN101354886A CN 101354886 A CN101354886 A CN 101354886A CN A2007100754263 A CNA2007100754263 A CN A2007100754263A CN 200710075426 A CN200710075426 A CN 200710075426A CN 101354886 A CN101354886 A CN 101354886A
Authority
CN
China
Prior art keywords
speech recognition
unit
recognition equipment
speech
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100754263A
Other languages
English (en)
Inventor
陈修志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA2007100754263A priority Critical patent/CN101354886A/zh
Publication of CN101354886A publication Critical patent/CN101354886A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种语音识别装置,包括:用于接收模拟语音信息的语音接收单元;用于将模拟语音信息转换成数字语音信息的模数转换单元;用于存储至少两个声学模型的存储单元;用于输入选择指令的指令输入单元;用于基于与选择指令对应的声学模型识别数字语音信息的识别单元。通过采用上述结构,在语音识别装置中设置多个备选声学模型,用户可以根据语言环境选择适当的声学模型进行语音识别,提高了语音识别的准确性及速度。

Description

语音识别装置
【技术领域】
本发明涉及一种语音识别装置,尤其涉及一种多声学模型的语音识别装置。
【背景技术】
随着科技和经济的不断发展,语音识别以及相关声控技术在许多领域得到了广泛的应用。语音识别过程主要包括:输入模拟语音信息;将模拟语音信息转换成数字语音信息;从数字语音信息中提取特征量;将特征量与预定声学模型进行匹配,由此产生识别结果。语音识别的准确率与声学模型容量有直接关系,因而需要声学模型集成各种语音数据,而语音识别的速度与该声学模型的大小有直接关系,声学模型过大直接导致语音识别速度的降低。目前的语音识别装置往往仅设置一个复合声学模型,通过该声学模型对包括男声、女声、童声在内的所有语音信息进行识别,会出现准确率低或者速度慢的技术问题。
【发明内容】
为了解决现有技术的语音识别装置仅通过一个复合声学模型对所有语音信息进行识别,导致语音识别的准确率低或者速度慢的技术问题。本发明提出了一种设置有多个备选声学模型的语音识别装置。
本发明解决现有技术的语音识别装置仅通过一个复合声学模型对所有语音信息进行识别,导致语音识别的准确率低或者速度慢的技术问题所采用的技术方案是:提供一种语音识别装置,该语音识别装置包括:用于接收模拟语音信息的语音接收单元;用于将模拟语音信息转换成数字语音信息的模数转换单元;用于存储至少两个声学模型的存储单元;用于输入选择指令的指令输入单元;用于基于与选择指令对应的声学模型识别数字语音信息的识别单元。
根据本发明一优选实施例,该识别单元进一步包括从数字语音信息中提取特征量的特征量提取单元以及将特征量与对应声学模型进行匹配的匹配单元。
根据本发明一优选实施例,该指令输入单元为选择按键。
根据本发明一优选实施例,该选择按键与该至少两个声学模型相对应。
根据本发明一优选实施例,该指令输入单元为具有选择菜单或图形按钮的输入界面。
根据本发明一优选实施例,该至少两个声学模型为针对非特定人的声学模型或针对特定人的声学模型。
根据本发明一优选实施例,该至少两个声学模型包括男声模型和女声模型。
根据本发明一优选实施例,该至少两个声学模型包括方言声学模型。
根据本发明一优选实施例,该语音识别装置进一步响应识别单元的识别结果执行预定动作的动作单元。
通过采用上述结构,在语音识别装置中设置多个备选声学模型,用户可以根据语言环境选择适当的声学模型进行语音识别,提高了语音识别的准确性及速度。
【附图说明】
图1是本发明的语音识别装置一实施例的示意框图;
图2是本发明的语音识别装置一实施例的控制面板的结构示意图;
图3是图1所示的语音识别装置的工作流程图。
【具体实施方式】
下面结合附图和实施例对本发明进一步说明。
参见图1和图2,在本实施例中以声控电话机为例对本发明的语音识别装置进行示范性描述,但本领域技术人员应该理解,本发明同样适用于其它语音识别装置。本发明的声控电话机1包括:用于接收模拟语音信息的语音接收单元11;用于将模拟语音信息转换成数字语音信息的模数转换单元12;用于存储至少两个声学模型的存储单元13;用于输入选择指令的指令输入单元14;用于基于与选择指令对应的声学模型识别数字语音信息的识别单元15。此外,声控电话机1进一步包括用于响应识别单元15的识别结果进行外呼的外呼单元16。
在本实施例中,识别单元15进一步包括从数字语音信息中提取特征量的特征量提取单元151以及将特征量与对应声学模型进行匹配的匹配单元152。在本实施例中,可以根据不同的声音特质将复合声学模型拆分成多个对应于不同声音特质的声学模型。例如,存储单元13中存储的声学模型包括男声模型和女声模型。指令输入单元14为分别与男声模型和女声模型对应的选择按键141和142。当然,本领域技术人员通过阅读本发明显而易见,指令输入单元14可以采用多种适当形式,例如,在应用到手机、PDA等便携设备时,指令输入单元14还可以是具有选择菜单或图形按钮的输入界面(未图示)。存储单元13中存储的声学模型还可以存储童声、方言声学模型或者其它适当声学模型。
如图3所示,图3是图1所示的声控固定电话1的工作流程图。在本发明的声控固定电话1的使用过程中,用户首先按下选择按键141或142,选择采用男声模型或女声模型。随后,声控固定电话1优选播放语音提示,指导用户通过语音接收单元11(例如,麦克风)输入语音信息。模数转换单元12则将输入的模拟语音信息转化成数字语音信息。特征量提取单元151从数字语音信息中提取特征量,并由匹配单元152根据所选择的声学模型进行匹配,并输出识别结果。识别结果可以是操作指令或者电话号码,声控固定电话1的其它动作部件可根据识别结果进行预定动作。例如,外呼单元16可以根据识别的电话号码进行拨号。
本发明电话的声学模型可以包括:针对特定人的声学模型或针对非特定人的声学模型。在针对特定人的声学模型中,用户需要事先对每一个词条进行训练。在训练阶段,用户每个词条依次说数遍,提取词条的特征量,并将特征量按序列存入存储单元中。在识别阶段,将输入词条的特征量依次与声学模型中的每一个特征量进行相似度比较,将相似度大于预定阈值的词条作为识别结果输出。采用针对特定人声学模型的识别单元识别的词条数目一般在100条以下,识别性能随着词条数目的增加会有明显的下降,并且对于不同用户、在不同的噪声环境中,以及不同的时间相同用户的不同生理、心理状态下,系统的性能都会受到明显的影响。在针对非特定人的声学模型中,采用基于统计模型的算法,系统开发者事先采集大量的语音数据进行训练,得到声学模型并存储在存储单元中。在识别阶段,将用户的输入词条的特征量与通过声学模型构建的识别网络进行匹配解码,输出该词条。非特定人声学模型对于用户而言,不需要引入繁琐的训练过程,方便了用户的使用;同时它可以供不同的人使用,因此大大拓宽了应用范围。另一方面,由于采用了基于统计模型的算法,其稳健性和识别性能都比特定人识别单元大大的提高。采用非特定人声学模型的识别单元识别的词条数目远大于针对特定人的声学模型,识别性能不会随着识别词条数目的增加有明显的下降,并且具有一定的抗噪能力。
通过采用上述结构,将复合声学模型根据声音特质拆分成多个对应不同声音特质的声学模型并存储在存储单元中,用户可以根据语言环境选择适当的声学模型进行语音识别,提高了语音识别的准确性及速度。
上述的详细描述仅是示范性描述,本领域技术人员在不脱离本发明所保护的范围和精神的情况下,可根据不同的实际需要设计出各种实施方式。

Claims (9)

1.一种语音识别装置,其特征在于:所述语音识别装置包括:
用于接收模拟语音信息的语音接收单元;
用于将所述模拟语音信息转换成数字语音信息的模数转换单元;
用于存储至少两个声学模型的存储单元;
用于输入选择指令的指令输入单元;
用于基于与所述选择指令对应的声学模型识别所述数字语音信息的识别单元。
2.根据权利要求1所述的语音识别装置,其特征在于:所述识别单元进一步包括从所述数字语音信息中提取特征量的特征量提取单元以及将所述特征量与所述对应声学模型进行匹配的匹配单元。
3.根据权利要求1所述的语音识别装置,其特征在于:所述指令输入单元为选择按键。
4.根据权利要求3所述的语音识别装置,其特征在于:所述选择按键与所述至少两个声学模型相对应。
5.根据权利要求1所述的语音识别装置,其特征在于:所述指令输入单元为具有选择菜单或图形按钮的输入界面。
6.根据权利要求1所述的语音识别装置,其特征在于:所述至少两个声学模型为针对非特定人的声学模型或针对特定人的声学模型。
7.根据权利要求1所述的语音识别装置,其特征在于:所述至少两个声学模型包括男声模型和女声模型。
8.根据权利要求1所述的语音识别装置,其特征在于:所述至少两个声学模型包括方言声学模型。
9.根据权利要求1所述的语音识别装置,其特征在于:所述语音识别装置进一步响应所述识别单元的识别结果执行预定动作的动作单元。
CNA2007100754263A 2007-07-27 2007-07-27 语音识别装置 Pending CN101354886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100754263A CN101354886A (zh) 2007-07-27 2007-07-27 语音识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100754263A CN101354886A (zh) 2007-07-27 2007-07-27 语音识别装置

Publications (1)

Publication Number Publication Date
CN101354886A true CN101354886A (zh) 2009-01-28

Family

ID=40307668

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100754263A Pending CN101354886A (zh) 2007-07-27 2007-07-27 语音识别装置

Country Status (1)

Country Link
CN (1) CN101354886A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101668085B (zh) * 2009-09-16 2012-07-18 宇龙计算机通信科技(深圳)有限公司 一种调节移动终端语音输出的方法及移动终端
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
CN105872687A (zh) * 2016-03-31 2016-08-17 乐视控股(北京)有限公司 一种通过语音控制智能设备的方法及装置
CN105957516A (zh) * 2016-06-16 2016-09-21 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
CN103886010B (zh) * 2013-12-25 2017-04-05 科大讯飞股份有限公司 一种关键词语音检索系统及方法
CN107680583A (zh) * 2017-09-27 2018-02-09 安徽硕威智能科技有限公司 一种语音识别系统及方法
CN110491383A (zh) * 2019-09-25 2019-11-22 北京声智科技有限公司 一种语音交互方法、装置、系统、存储介质及处理器

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101668085B (zh) * 2009-09-16 2012-07-18 宇龙计算机通信科技(深圳)有限公司 一种调节移动终端语音输出的方法及移动终端
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测
CN103886010B (zh) * 2013-12-25 2017-04-05 科大讯飞股份有限公司 一种关键词语音检索系统及方法
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
CN105872687A (zh) * 2016-03-31 2016-08-17 乐视控股(北京)有限公司 一种通过语音控制智能设备的方法及装置
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
CN105957516A (zh) * 2016-06-16 2016-09-21 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
WO2017215122A1 (zh) * 2016-06-16 2017-12-21 百度在线网络技术(北京)有限公司 多语音识别模型切换方法、装置和存储介质
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
US10847146B2 (en) 2016-06-16 2020-11-24 Baidu Online Network Technology (Beijing) Co., Ltd. Multiple voice recognition model switching method and apparatus, and storage medium
CN107680583A (zh) * 2017-09-27 2018-02-09 安徽硕威智能科技有限公司 一种语音识别系统及方法
CN110491383A (zh) * 2019-09-25 2019-11-22 北京声智科技有限公司 一种语音交互方法、装置、系统、存储介质及处理器

Similar Documents

Publication Publication Date Title
CN101354886A (zh) 语音识别装置
CN100403828C (zh) 一种便携式数字移动通讯设备及其语音控制方法和系统
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
CN104050966B (zh) 终端设备的语音交互方法和使用该方法的终端设备
CN101345819B (zh) 一种用于机顶盒的语音控制系统
CN104202455A (zh) 智能语音拨号的方法及装置
CN108962260A (zh) 一种多人命令语音识别方法、系统及存储介质
US20120150538A1 (en) Voice message converter
CN107240405B (zh) 一种音箱及告警方法
CN103095911A (zh) 一种通过语音唤醒寻找手机的方法及系统
CN110459222A (zh) 语音控制方法、语音控制装置及终端设备
CN102117614A (zh) 个性化文本语音合成和个性化语音特征提取
JP6783339B2 (ja) 音声を処理する方法及び装置
CN102543071A (zh) 用于移动设备的语音识别系统和方法
CN103165131A (zh) 语音处理系统及语音处理方法
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
CN102292766A (zh) 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品
CN1639768B (zh) 自动语音识别方法及装置
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
CN111683317B (zh) 一种应用于耳机的提示方法、装置、终端及存储介质
CN106098078A (zh) 一种可过滤扬声器噪音的语音识别方法及其系统
CN102025834A (zh) 一种移动终端语音操作方法及装置
CN201075286Y (zh) 语音识别装置
US20100114564A1 (en) Dynamic update of grammar for interactive voice response
CN101825953A (zh) 一种语音输入和拼音输入相结合的中文输入法产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090128