CN103426429A - 语音控制方法和装置 - Google Patents
语音控制方法和装置 Download PDFInfo
- Publication number
- CN103426429A CN103426429A CN2013103014923A CN201310301492A CN103426429A CN 103426429 A CN103426429 A CN 103426429A CN 2013103014923 A CN2013103014923 A CN 2013103014923A CN 201310301492 A CN201310301492 A CN 201310301492A CN 103426429 A CN103426429 A CN 103426429A
- Authority
- CN
- China
- Prior art keywords
- voice messaging
- voice
- user
- eigenvector
- sample storehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供了一种语音控制方法和装置,所述语音控制方法包括:选择进入语音训练模式或语音识别模式;如果选择进入语音训练模式,则将用户输入的语音信息以及相应的功能相关联地存储在样本库中;以及如果选择进入语音识别模式,则将用户输入的语音信息与样本库中的语音信息进行匹配,并执行与匹配的样本库中的语音信息相应的功能。
Description
技术领域
本申请涉及语音识别领域,更具体地,涉及一种语音控制方法和装置。
背景技术
现在,语音控制已经广泛地应用于便携式终端(诸如,智能电话、平板电脑、个人数字助理(PDA)等)或其它电子装置,具体地,在现有的基于远程服务器的语音控制方法中,便携式终端将用户输入的语音信息无线发送到远程服务器,远程服务器处理语音信息并将处理结果发送到便携式终端,随后便携式终端根据所述处理结果执行相应的操作。
然而,上述现有的基于远程服务器的语音控制方法仅仅在无线信号区域适用,对输入语音信息的用户的输入次数有一定的要求,并且不能够对特定应用和菜单显示页面进行定位以及通过蓝牙耳机对便携式终端进行语音控制。
发明内容
本发明在于提供一种语音控制方法,包括:选择进入语音训练模式或语音识别模式;当选择进入语音训练模式时,将用户输入的语音信息以及相应的功能相关联地存储在样本库中;以及当选择进入语音识别模式时,将用户输入的语音信息与样本库中的语音信息进行匹配,并执行与匹配的样本库中的语音信息相应的功能。
所述功能可以是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项。
将用户输入的语音信息以及相应的功能相关联地存储在样本库中的步骤可包括:提取用户输入的语音信息的特征矢量;对语音信息的特征矢量进行离散隐马尔科夫建模(DHMM)以获得语音信息的DHMM模型;将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。
将用户输入的语音信息与样本库中的语音信息进行匹配并执行与匹配的样本库中的语音信息相应的功能的步骤可包括:提取用户输入的语音信息的特征矢量;通过使用维特比(Viterbi)识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配;执行与匹配的语音信息的DHMM模型相应的功能。
语音信息的特征矢量可以是语音信息的音调(Mel)频率倒谱系数(MFCC)。
一种语音控制装置,包括:模式选择单元,选择进入语音训练模式或语音识别模式;语音训练单元,当选择进入语音训练模式时,将用户输入的语音信息以及相应的功能相关联地存储在样本库中;语音识别单元,当选择进入语音识别模式时,将用户输入的语音信息与样本库中的语音信息进行匹配,并执行与匹配的样本库中的语音信息相应的功能。
所述功能可以是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项。
语音训练单元还可提取用户输入的语音信息的特征矢量,对语音信息的特征矢量进行离散隐马尔科夫建模(DHMM)以获得语音信息的DHMM模型,并将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。
语音识别单元还可提取用户输入的语音信息的特征矢量,通过使用维特比(Viterbi)识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配,并执行与匹配的语音信息的DHMM模型相应的功能。
语音信息的特征矢量可以是语音信息的音调(Mel)频率倒谱系数(MFCC)。
将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
通过下面结合附图进行的描述,本发明的上述和其它目的和特点将会变得更加清楚,其中:
图1是示出根据本发明示例性实施例的语音控制方法的流程图;
图2是示出根据本发明示例性实施例的语音控制装置的框图。
具体实施方式
现在,详细描述本发明的示例性实施例,其示例在附图中表示,其中,相同的标号始终表示相同的部件。
图1是示出根据本发明示例性实施例的语音控制方法的流程图。
参照图1,在步骤S110,启动语音识别。这里,可由用户通过操作便携式终端或输入特定语音命令来启动语音识别。
在步骤S120,选择进入语音训练模式或语音识别模式。
如果选择进入语音训练模式,则在步骤S130,将用户输入的语音信息以及相应的功能相关联地存储在样本库中,这里,用户输入的语音信息可由便携式终端接收。此外,仅作为示例,所述功能可以是执行特定应用、定位到特定应用的快捷方式或者定位到特定菜单界面或菜单项。
更具体地,步骤S130可进一步包括:在步骤S131,提取用户输入的语音信息的特征矢量,这里,仅作为示例,可提取语音信息的音调(Mel)频率倒谱系数(MFCC)作为特征矢量;在步骤S132,对语音信息的特征矢量进行离散隐马尔科夫建模(DHMM)以获得语音信息的DHMM模型;在步骤S133,将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。此外,仅作为示例,可针对不同用户输入的语音信息分别进行训练,从而能够识别不同用户输入的语音信息并进而提取特征矢量。
如果选择进入语音识别模式,则在步骤S140,将用户输入的语音信息与样本库中的语音信息进行匹配,并执行与匹配的语音信息相应的功能,这里,用户输入的语音信息可由便携式终端接收。
更具体地,步骤S140可进一步包括:在步骤S141,提取用户输入的语音信息的特征矢量,这里,仅作为示例,可提取语音信息的Mel频率倒谱系数(MFCC)作为特征矢量;在步骤S142,通过使用维特比(Viterbi)识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配;在步骤S143,执行与匹配的语音信息的DHMM模型相应的功能。此外,如果在步骤S142中经过预定时间之后仍没有匹配到与语音信息的特征矢量相匹配的DHMM模型,则可停止执行步骤S142。
此外,在接收用户输入的语音信息之前,可预先选择麦克风类型,(诸如耳机麦克风,系统自带麦克风或者其它麦克风等)并设置麦克风(诸如调节麦克风的音量大小等);在对用户输入的语音信息进行特征提取之前,还可对特征信息进行预处理,包括但不限于功率放大、自增益控制和低通滤波等,在此不再赘述。
图2是示出根据本发明示例性实施例的语音控制装置的框图。
参照图1,根据本发明示例性实施例的语音控制装置可包括模式选择单元210、语音训练单元220和语音识别单元230。此外,根据本发明示例性实施例的语音控制装置可包括在便携式终端中。
模式选择单元210用于选择进入语音训练模式或语音识别模式。
如果选择进入语音训练模式,则语音训练单元220将用户输入的语音信息以及相应的功能相关联地存储在样本库中,这里,用户输入的语音信息可由便携式终端接收。此外,仅作为示例,所述功能可以是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项,并且所述样本库可被存储在便携式终端中。
更具体地,语音训练单元220可进一步包括:特征矢量提取单元221,提取用户输入的语音信息的特征矢量,这里,仅作为示例,可提取语音信息的Mel频率倒谱系数(MFCC)作为特征矢量;离散隐马尔科夫建模(DHMM)单元222,对语音信息的特征矢量进行DHMM以获得语音信息的DHMM模型,其中,语音信息的DHMM模型与用户选择的相应的功能被相关联地存储在样本库中。此外,仅作为示例,语音训练单元220可针对不同用户输入的语音信息分别进行训练,从而能够识别不同用户输入的语音信息并进而提取特征矢量。
如果选择进入语音识别模式,则语音识别单元230将用户输入的语音信息与样本库中的语音信息进行匹配,并执行与匹配的样本库中的语音信息相应的功能,这里,用户输入的语音信息可由便携式终端接收。
更具体地,语音识别单元230可进一步包括:特征矢量提取单元231,提取用户输入的语音信息的特征矢量,这里,仅作为示例,可提取语音信息的Mel频率倒谱系数(MFCC)作为特征矢量;匹配单元232,通过使用维特比(Viterbi)识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配;功能执行单元233,执行与匹配的语音信息的DHMM模型相应的功能。此外,如果经过预定时间之后匹配单元232仍没有匹配到与语音信息的特征矢量相匹配的DHMM模型,则匹配单元232可停止执行匹配操作。
应该了解,上述各个单元可以由软件构成,也可以由硬件构成,在由硬件构成的情况下,可由系统级芯片(SoC)来实现上述各个单元,在此不再赘述。
根据本发明的示例性实施例,便携式终端能够迅速定位到特定菜单或者特定应用并进而进行操作,从而避免了在便携式终端的众多应用中寻找期望的菜单或者应用,尤其可避免当常用的菜单或应用在最后一个显示界面时,要跳过前面的众多显示界面的麻烦,提高了用户体验;此外,由于可将样本库存储在便携式终端中,故可以不需要连接到互联网即可进行上述语音识别操作,提高了用户的便利性。
虽然已经参照特定示例性实施例示出和描述了本发明,但是本领域的技术人员将理解,在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。
Claims (10)
1.一种语音控制方法,包括:
选择进入语音训练模式或语音识别模式;
当选择进入语音训练模式时,将用户输入的语音信息以及相应的功能相关联地存储在样本库中;以及
当选择进入语音识别模式时,将用户输入的语音信息与样本库中的语音信息进行匹配,并执行与匹配的样本库中的语音信息相应的功能。
2.如权利要求1所述的语音控制方法,其中,所述功能是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项。
3.如权利要求1所述的语音控制方法,其中,将用户输入的语音信息以及相应的功能相关联地存储在样本库中的步骤包括:
提取用户输入的语音信息的特征矢量;
对语音信息的特征矢量进行离散隐马尔科夫建模(DHMM)以获得语音信息的DHMM模型;
将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。
4.如权利要求1所述的语音控制方法,其中,将用户输入的语音信息与样本库中的语音信息进行匹配并执行与匹配的样本库中的语音信息相应的功能的步骤包括:
提取用户输入的语音信息的特征矢量;
通过使用维特比(Viterbi)识别算法将语音信息的特征矢量与样本库中的语音信息的离散隐马尔科夫建模(DHMM)模型进行匹配;
执行与匹配的语音信息的DHMM模型相应的功能。
5.如权利要求3~4之一所述的语音控制方法,其中,语音信息的特征矢量是语音信息的音调(Mel)频率倒谱系数(MFCC)。
6.一种语音控制装置,包括:
模式选择单元,选择进入语音训练模式或语音识别模式;
语音训练单元,当选择进入语音训练模式时,将用户输入的语音信息以及相应的功能相关联地存储在样本库中;以及
语音识别单元,当选择进入语音识别模式时,将用户输入的语音信息与样本库中的语音信息进行匹配,并执行与匹配的样本库中的语音信息相应的功能。
7.如权利要求6所述的语音控制装置,其中,所述功能是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项。
8.如权利要求6所述的语音控制装置,其中,语音训练单元还提取用户输入的语音信息的特征矢量,对语音信息的特征矢量进行离散隐马尔科夫建模(DHMM)以获得语音信息的DHMM模型,并将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。
9.如权利要求6所述的语音控制装置,其中,语音识别单元还提取用户输入的语音信息的特征矢量,通过使用维特比(Viterbi)识别算法将语音信息的特征矢量与样本库中的语音信息的离散隐马尔科夫建模(DHMM)模型进行匹配,并执行与匹配的语音信息的DHMM模型相应的功能。
10.如权利要求8~9之一所述的语音控制装置,其中,语音信息的特征矢量是语音信息的音调(Mel)频率倒谱系数(MFCC)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310301492.3A CN103426429B (zh) | 2013-07-15 | 2013-07-15 | 语音控制方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310301492.3A CN103426429B (zh) | 2013-07-15 | 2013-07-15 | 语音控制方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103426429A true CN103426429A (zh) | 2013-12-04 |
CN103426429B CN103426429B (zh) | 2017-04-05 |
Family
ID=49651071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310301492.3A Expired - Fee Related CN103426429B (zh) | 2013-07-15 | 2013-07-15 | 语音控制方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103426429B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104882142A (zh) * | 2015-04-30 | 2015-09-02 | 大连楼兰科技股份有限公司 | 基于obd接口的车载设备的语音控制方法及装置 |
CN104934031A (zh) * | 2014-03-18 | 2015-09-23 | 财团法人工业技术研究院 | 新增口说语汇的语音识别系统与方法 |
CN105529029A (zh) * | 2015-12-28 | 2016-04-27 | 歌尔声学股份有限公司 | 音频控制装置、耳机以及便携式设备 |
CN105740686A (zh) * | 2016-01-28 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 应用的控制方法和装置 |
WO2016112644A1 (zh) * | 2015-01-13 | 2016-07-21 | 中兴通讯股份有限公司 | 语音控制方法、装置及终端 |
WO2021218303A1 (zh) * | 2020-06-09 | 2021-11-04 | 青岛海尔空调器有限总公司 | 空调器的调节方法与空调器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1361516A (zh) * | 2000-12-28 | 2002-07-31 | 广东科龙电器股份有限公司 | 家庭综合服务器 |
US20030078781A1 (en) * | 2001-10-24 | 2003-04-24 | Julia Luc E. | System and method for speech activated navigation |
US20050275505A1 (en) * | 1999-07-23 | 2005-12-15 | Himmelstein Richard B | Voice-controlled security system with smart controller |
CN102111314A (zh) * | 2010-12-30 | 2011-06-29 | 广州市聚晖电子科技有限公司 | 一种基于蓝牙传输的智能家居语音控制系统及方法 |
CN102568478A (zh) * | 2012-02-07 | 2012-07-11 | 合一网络技术(北京)有限公司 | 一种基于语音识别的视频播放控制方法和系统 |
-
2013
- 2013-07-15 CN CN201310301492.3A patent/CN103426429B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050275505A1 (en) * | 1999-07-23 | 2005-12-15 | Himmelstein Richard B | Voice-controlled security system with smart controller |
CN1361516A (zh) * | 2000-12-28 | 2002-07-31 | 广东科龙电器股份有限公司 | 家庭综合服务器 |
US20030078781A1 (en) * | 2001-10-24 | 2003-04-24 | Julia Luc E. | System and method for speech activated navigation |
CN102111314A (zh) * | 2010-12-30 | 2011-06-29 | 广州市聚晖电子科技有限公司 | 一种基于蓝牙传输的智能家居语音控制系统及方法 |
CN102568478A (zh) * | 2012-02-07 | 2012-07-11 | 合一网络技术(北京)有限公司 | 一种基于语音识别的视频播放控制方法和系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104934031A (zh) * | 2014-03-18 | 2015-09-23 | 财团法人工业技术研究院 | 新增口说语汇的语音识别系统与方法 |
CN104934031B (zh) * | 2014-03-18 | 2019-03-01 | 财团法人工业技术研究院 | 新增口说语汇的语音识别系统与方法 |
WO2016112644A1 (zh) * | 2015-01-13 | 2016-07-21 | 中兴通讯股份有限公司 | 语音控制方法、装置及终端 |
CN104882142A (zh) * | 2015-04-30 | 2015-09-02 | 大连楼兰科技股份有限公司 | 基于obd接口的车载设备的语音控制方法及装置 |
CN105529029A (zh) * | 2015-12-28 | 2016-04-27 | 歌尔声学股份有限公司 | 音频控制装置、耳机以及便携式设备 |
CN105740686A (zh) * | 2016-01-28 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 应用的控制方法和装置 |
CN105740686B (zh) * | 2016-01-28 | 2019-04-23 | 百度在线网络技术(北京)有限公司 | 应用的控制方法和装置 |
WO2021218303A1 (zh) * | 2020-06-09 | 2021-11-04 | 青岛海尔空调器有限总公司 | 空调器的调节方法与空调器 |
Also Published As
Publication number | Publication date |
---|---|
CN103426429B (zh) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10643621B2 (en) | Speech recognition using electronic device and server | |
CN107644642B (zh) | 语义识别方法、装置、存储介质及电子设备 | |
US10079014B2 (en) | Name recognition system | |
US10418027B2 (en) | Electronic device and method for controlling the same | |
US10043520B2 (en) | Multilevel speech recognition for candidate application group using first and second speech commands | |
CN106663430B (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
CN109710727B (zh) | 用于自然语言处理的系统和方法 | |
EP3608906B1 (en) | System for processing user voice utterance and method for operating same | |
EP3001414A1 (en) | Method and apparatus for executing voice command in electronic device | |
CN103426429A (zh) | 语音控制方法和装置 | |
AU2019201441B2 (en) | Electronic device for processing user voice input | |
CN112470217A (zh) | 用于确定要执行语音识别的电子装置的方法及电子装置 | |
WO2021013255A1 (zh) | 一种声纹识别方法及装置 | |
CN111640429B (zh) | 提供语音识别服务的方法和用于该方法的电子装置 | |
US20220172722A1 (en) | Electronic device for processing user utterance and method for operating same | |
AU2023203454A1 (en) | Electronic device for performing task including call in response to user utterance and operation method thereof | |
CN108322770B (zh) | 视频节目识别方法、相关装置、设备和系统 | |
US20220284906A1 (en) | Electronic device and operation method for performing speech recognition | |
US11244676B2 (en) | Apparatus for processing user voice input | |
US11991421B2 (en) | Electronic device and method for processing voice input and recording in the same | |
CN114333817A (zh) | 遥控器及遥控器语音识别方法 | |
KR102622350B1 (ko) | 전자 장치 및 그 제어 방법 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
CN110865853A (zh) | 云服务的智能操作方法和装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170405 |