CN103426429A

CN103426429A - 语音控制方法和装置

Info

Publication number: CN103426429A
Application number: CN2013103014923A
Authority: CN
Inventors: 唐知华
Original assignee: Samsung Semiconductor China R&D Co Ltd; Samsung Electronics Co Ltd
Current assignee: Samsung Semiconductor China R&D Co Ltd; Samsung Electronics Co Ltd
Priority date: 2013-07-15
Filing date: 2013-07-15
Publication date: 2013-12-04
Anticipated expiration: 2033-07-15
Also published as: CN103426429B

Abstract

提供了一种语音控制方法和装置，所述语音控制方法包括：选择进入语音训练模式或语音识别模式；如果选择进入语音训练模式，则将用户输入的语音信息以及相应的功能相关联地存储在样本库中；以及如果选择进入语音识别模式，则将用户输入的语音信息与样本库中的语音信息进行匹配，并执行与匹配的样本库中的语音信息相应的功能。

Description

语音控制方法和装置

技术领域

本申请涉及语音识别领域，更具体地，涉及一种语音控制方法和装置。

背景技术

现在，语音控制已经广泛地应用于便携式终端（诸如，智能电话、平板电脑、个人数字助理（PDA）等）或其它电子装置，具体地，在现有的基于远程服务器的语音控制方法中，便携式终端将用户输入的语音信息无线发送到远程服务器，远程服务器处理语音信息并将处理结果发送到便携式终端，随后便携式终端根据所述处理结果执行相应的操作。

然而，上述现有的基于远程服务器的语音控制方法仅仅在无线信号区域适用，对输入语音信息的用户的输入次数有一定的要求，并且不能够对特定应用和菜单显示页面进行定位以及通过蓝牙耳机对便携式终端进行语音控制。

发明内容

本发明在于提供一种语音控制方法，包括：选择进入语音训练模式或语音识别模式；当选择进入语音训练模式时，将用户输入的语音信息以及相应的功能相关联地存储在样本库中；以及当选择进入语音识别模式时，将用户输入的语音信息与样本库中的语音信息进行匹配，并执行与匹配的样本库中的语音信息相应的功能。

所述功能可以是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项。

将用户输入的语音信息以及相应的功能相关联地存储在样本库中的步骤可包括：提取用户输入的语音信息的特征矢量；对语音信息的特征矢量进行离散隐马尔科夫建模（DHMM）以获得语音信息的DHMM模型；将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。

将用户输入的语音信息与样本库中的语音信息进行匹配并执行与匹配的样本库中的语音信息相应的功能的步骤可包括：提取用户输入的语音信息的特征矢量；通过使用维特比（Viterbi）识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配；执行与匹配的语音信息的DHMM模型相应的功能。

语音信息的特征矢量可以是语音信息的音调（Mel）频率倒谱系数（MFCC）。

一种语音控制装置，包括：模式选择单元，选择进入语音训练模式或语音识别模式；语音训练单元，当选择进入语音训练模式时，将用户输入的语音信息以及相应的功能相关联地存储在样本库中；语音识别单元，当选择进入语音识别模式时，将用户输入的语音信息与样本库中的语音信息进行匹配，并执行与匹配的样本库中的语音信息相应的功能。

语音训练单元还可提取用户输入的语音信息的特征矢量，对语音信息的特征矢量进行离散隐马尔科夫建模（DHMM）以获得语音信息的DHMM模型，并将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。

语音识别单元还可提取用户输入的语音信息的特征矢量，通过使用维特比（Viterbi）识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配，并执行与匹配的语音信息的DHMM模型相应的功能。

将在接下来的描述中部分阐述本发明另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明的实施而得知。

附图说明

通过下面结合附图进行的描述，本发明的上述和其它目的和特点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的语音控制方法的流程图；

图2是示出根据本发明示例性实施例的语音控制装置的框图。

具体实施方式

现在，详细描述本发明的示例性实施例，其示例在附图中表示，其中，相同的标号始终表示相同的部件。

图1是示出根据本发明示例性实施例的语音控制方法的流程图。

参照图1，在步骤S110，启动语音识别。这里，可由用户通过操作便携式终端或输入特定语音命令来启动语音识别。

在步骤S120，选择进入语音训练模式或语音识别模式。

如果选择进入语音训练模式，则在步骤S130，将用户输入的语音信息以及相应的功能相关联地存储在样本库中，这里，用户输入的语音信息可由便携式终端接收。此外，仅作为示例，所述功能可以是执行特定应用、定位到特定应用的快捷方式或者定位到特定菜单界面或菜单项。

更具体地，步骤S130可进一步包括：在步骤S131，提取用户输入的语音信息的特征矢量，这里，仅作为示例，可提取语音信息的音调（Mel）频率倒谱系数（MFCC）作为特征矢量；在步骤S132，对语音信息的特征矢量进行离散隐马尔科夫建模（DHMM）以获得语音信息的DHMM模型；在步骤S133，将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。此外，仅作为示例，可针对不同用户输入的语音信息分别进行训练，从而能够识别不同用户输入的语音信息并进而提取特征矢量。

如果选择进入语音识别模式，则在步骤S140，将用户输入的语音信息与样本库中的语音信息进行匹配，并执行与匹配的语音信息相应的功能，这里，用户输入的语音信息可由便携式终端接收。

更具体地，步骤S140可进一步包括：在步骤S141，提取用户输入的语音信息的特征矢量，这里，仅作为示例，可提取语音信息的Mel频率倒谱系数（MFCC）作为特征矢量；在步骤S142，通过使用维特比（Viterbi）识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配；在步骤S143，执行与匹配的语音信息的DHMM模型相应的功能。此外，如果在步骤S142中经过预定时间之后仍没有匹配到与语音信息的特征矢量相匹配的DHMM模型，则可停止执行步骤S142。

此外，在接收用户输入的语音信息之前，可预先选择麦克风类型，（诸如耳机麦克风，系统自带麦克风或者其它麦克风等）并设置麦克风（诸如调节麦克风的音量大小等）；在对用户输入的语音信息进行特征提取之前，还可对特征信息进行预处理，包括但不限于功率放大、自增益控制和低通滤波等，在此不再赘述。

图2是示出根据本发明示例性实施例的语音控制装置的框图。

参照图1，根据本发明示例性实施例的语音控制装置可包括模式选择单元210、语音训练单元220和语音识别单元230。此外，根据本发明示例性实施例的语音控制装置可包括在便携式终端中。

模式选择单元210用于选择进入语音训练模式或语音识别模式。

如果选择进入语音训练模式，则语音训练单元220将用户输入的语音信息以及相应的功能相关联地存储在样本库中，这里，用户输入的语音信息可由便携式终端接收。此外，仅作为示例，所述功能可以是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项，并且所述样本库可被存储在便携式终端中。

更具体地，语音训练单元220可进一步包括：特征矢量提取单元221，提取用户输入的语音信息的特征矢量，这里，仅作为示例，可提取语音信息的Mel频率倒谱系数（MFCC）作为特征矢量；离散隐马尔科夫建模（DHMM）单元222，对语音信息的特征矢量进行DHMM以获得语音信息的DHMM模型，其中，语音信息的DHMM模型与用户选择的相应的功能被相关联地存储在样本库中。此外，仅作为示例，语音训练单元220可针对不同用户输入的语音信息分别进行训练，从而能够识别不同用户输入的语音信息并进而提取特征矢量。

如果选择进入语音识别模式，则语音识别单元230将用户输入的语音信息与样本库中的语音信息进行匹配，并执行与匹配的样本库中的语音信息相应的功能，这里，用户输入的语音信息可由便携式终端接收。

更具体地，语音识别单元230可进一步包括：特征矢量提取单元231，提取用户输入的语音信息的特征矢量，这里，仅作为示例，可提取语音信息的Mel频率倒谱系数（MFCC）作为特征矢量；匹配单元232，通过使用维特比（Viterbi）识别算法将语音信息的特征矢量与样本库中的语音信息的DHMM模型进行匹配；功能执行单元233，执行与匹配的语音信息的DHMM模型相应的功能。此外，如果经过预定时间之后匹配单元232仍没有匹配到与语音信息的特征矢量相匹配的DHMM模型，则匹配单元232可停止执行匹配操作。

应该了解，上述各个单元可以由软件构成，也可以由硬件构成，在由硬件构成的情况下，可由系统级芯片（SoC）来实现上述各个单元，在此不再赘述。

根据本发明的示例性实施例，便携式终端能够迅速定位到特定菜单或者特定应用并进而进行操作，从而避免了在便携式终端的众多应用中寻找期望的菜单或者应用，尤其可避免当常用的菜单或应用在最后一个显示界面时，要跳过前面的众多显示界面的麻烦，提高了用户体验；此外，由于可将样本库存储在便携式终端中，故可以不需要连接到互联网即可进行上述语音识别操作，提高了用户的便利性。

虽然已经参照特定示例性实施例示出和描述了本发明，但是本领域的技术人员将理解，在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。

Claims

1.一种语音控制方法，包括：

选择进入语音训练模式或语音识别模式；

当选择进入语音训练模式时，将用户输入的语音信息以及相应的功能相关联地存储在样本库中；以及

当选择进入语音识别模式时，将用户输入的语音信息与样本库中的语音信息进行匹配，并执行与匹配的样本库中的语音信息相应的功能。

2.如权利要求1所述的语音控制方法，其中，所述功能是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项。

3.如权利要求1所述的语音控制方法，其中，将用户输入的语音信息以及相应的功能相关联地存储在样本库中的步骤包括：

提取用户输入的语音信息的特征矢量；

对语音信息的特征矢量进行离散隐马尔科夫建模（DHMM）以获得语音信息的DHMM模型；

将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。

4.如权利要求1所述的语音控制方法，其中，将用户输入的语音信息与样本库中的语音信息进行匹配并执行与匹配的样本库中的语音信息相应的功能的步骤包括：

提取用户输入的语音信息的特征矢量；

通过使用维特比（Viterbi）识别算法将语音信息的特征矢量与样本库中的语音信息的离散隐马尔科夫建模（DHMM）模型进行匹配；

执行与匹配的语音信息的DHMM模型相应的功能。

5.如权利要求3～4之一所述的语音控制方法，其中，语音信息的特征矢量是语音信息的音调（Mel）频率倒谱系数（MFCC）。

6.一种语音控制装置，包括：

模式选择单元，选择进入语音训练模式或语音识别模式；

语音训练单元，当选择进入语音训练模式时，将用户输入的语音信息以及相应的功能相关联地存储在样本库中；以及

语音识别单元，当选择进入语音识别模式时，将用户输入的语音信息与样本库中的语音信息进行匹配，并执行与匹配的样本库中的语音信息相应的功能。

7.如权利要求6所述的语音控制装置，其中，所述功能是执行特定应用、定位到特定应用的快捷方式、定位到特定菜单界面或菜单项。

8.如权利要求6所述的语音控制装置，其中，语音训练单元还提取用户输入的语音信息的特征矢量，对语音信息的特征矢量进行离散隐马尔科夫建模（DHMM）以获得语音信息的DHMM模型，并将语音信息的DHMM模型与用户选择的相应的功能相关联地存储在样本库中。

9.如权利要求6所述的语音控制装置，其中，语音识别单元还提取用户输入的语音信息的特征矢量，通过使用维特比（Viterbi）识别算法将语音信息的特征矢量与样本库中的语音信息的离散隐马尔科夫建模（DHMM）模型进行匹配，并执行与匹配的语音信息的DHMM模型相应的功能。

10.如权利要求8～9之一所述的语音控制装置，其中，语音信息的特征矢量是语音信息的音调（Mel）频率倒谱系数（MFCC）。