CN102520788A

CN102520788A - 一种语音识别控制方法

Info

Publication number: CN102520788A
Application number: CN2011103630324A
Authority: CN
Inventors: 王重乐; 曾小波; 孟策; 刘新爱; 王恬; 高强; 姜斌斌
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2011-11-16
Filing date: 2011-11-16
Publication date: 2012-06-27
Anticipated expiration: 2031-11-16
Also published as: CN102520788B

Abstract

本发明公开了一种语音识别方法。在该方法中，语音功能控制器通过API获取已安装程序的程序名信息，生成对应的语音控制条目，以及，程序通过语音控制条目操作接口向语音功能控制器进行语音控制条目的自定义，当用户触发语音控制功能，语音功能控制器获取该语音控制信息，并识别出对应的词条名，根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目，将对应语音控制条目中的控制功能信息发送给对应的程序或直接调用对应的程序。本发明的技术方案，对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目，使得用户可以通过语音控制在程序功能间任意快速地切换，大大提高了用户的体验。

Description

一种语音识别控制方法

技术领域

本发明涉及多媒体技术领域，特别涉及一种语音识别控制方法。

背景技术

随着科学技术的不断进步，人们使用电子设备而出现的人机交互输入技术也在不断的发展，从普通的鼠标、键盘，到新近比较流行的轨迹球、触摸屏等技术，不一而足。这些技术以其良好的使用性能和输入速度，得到很好的普及和推广，在或将在一段很长的时间里在人机交互输入技术上占据重要的位置。

然而以上这些技术都有一个共同的特点，就是用人的手的敲击，滑动来实现人与机器或人与远端人的交互，显然这并不符合在通常情况下人与人沟通交流的方式。技术发展的脚步是在不断的往前走的，近十几、二十年来，人们发明并推动了一些和人与人沟通交流方式相符的人机交互技术，譬如基于图像识别技术的肢体控制技术和以语音为载体的语音合成输出技术和语音识别输入技术。

本专利申请涉及的就是基于语音识别的人机交互输入控制技术。近些年来，在计算机和手机等多媒体电子设备上已经出现了语音识别功能，主要实现替代键盘功能的文本输入功能和替代鼠标等功能的控制命令功能。

但是，现有的多媒体电子设备上的语音控制功能具有如下有待改进的地方：现有多媒体电子设备上的语音控制功能在应用调用方面具有较大的限制，一般只能在某个特定的系统功能界面下，或某个开启的应用程序界面下，才能使用语音识别功能，并只能启动系统默认预置的或者有限数量的应用程序，而对后安装的应用程序无法实现语音控制调用功能；另外即使语音控制进入到应用程序中，还是需要继续使用鼠标或触摸屏来操作，无法使用语音控制功能在程序内部进一步的控制。

发明内容

本发明提供了一种语音识别控制方法，该方法使得用户能通过语音控制在多媒体设备的应用程序功能间任意快速的切换，减少了手动控制，提高了用户的体验。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种语音识别控制方法，该方法应用于多媒体电子设备，在多媒体电子设备上配置语音功能控制器、语音控制条目操作接口、识别结果触发接口以及语音控制条目保存介质；该方法包括：

语音功能控制器通过系统应用程序编程接口API，从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息，生成对应的语音控制条目并保存到语音控制条目保存介质中；

以及，系统程序和应用程序通过语音控制条目操作接口向语音功能控制器发送语音控制条目操作指令，语音功能控制器根据所述指令进行语音控制条目的操作，并将操作结果保存到语音控制条目保存介质中；

当用户发出语音控制信息时，语音功能控制器获取多媒体电子设备的语音输入接口接收到的语音控制信息，调用多媒体电子设备的语音识别引擎根据所述语音控制信息识别出对应的词条名，根据词条名查找语音控制条目保存介质中对应的语音控制条目；

语音功能控制器或者将语音控制条目对应的控制功能信息通过识别结果触发接口发送给对应的系统程序或应用程序，由对应的系统程序或应用程序根据所述控制功能信息执行对应的操作；或者，语音功能控制器根据语音控制条目直接调用对应的系统程序或应用程序。

由上述可见，本发明这种，在语音功能控制器通过API获取已安装程序的程序名信息，生成对应的语音控制条目，以及，程序通过语音控制条目操作接口向语音功能控制器进行语音控制条目的自定义的前提下：当用户发出语音控制信息时，语音功能控制器获取该语音控制信息，并识别出对应的词条名，根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目，将对应语音控制条目中的控制功能信息发送给对应的系统程序或应用程序，或直接调用对应的系统程序或应用程序的技术方案，由于通过语音功能控制器主动获取以及程序自定义两种方式生成语音控制条目，使得对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目，使得用户可以通过语音控制在程序功能间任意快速地切换，大大提高了用户的体验。

附图说明

图1是本发明实施例中的一种语音识别控制方法的示意图；

图2是本发明实施例中基于电视应用的语音输入接口的示意图；

图3是本发明实施例中的一个具有麦克风输入的小型键盘的示意图；

图4为语音输入提示界面的示意图；

图5是本发明实施例中的语音控制条目的示意图；

图6是本发明实施例中的语音控制帮助界面的示意图；

图7是本发明实施例中的屏蔽性定义的示意图；

图8为在语音控制帮助界面上对语音控制条目实时修改示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例中的一种语音识别控制方法的示意图。该方法应用于多媒体电子设备。这里，所述的多媒体电子设备包括具有多媒体功能的电视、手机、笔记本、台式电脑、多媒体播放器及其他所有具有屏幕显示和语音输入接口的设备。

如图1所示，为了实现提高用户体验的语音识别控制，在多媒体设备上配置了：语音功能控制器101、语音控制条目保存介质105，并提供了语音控制条目操作接口106、屏蔽性定义接口107和识别结果触发接口108。本发明的方案还需要利用到多媒体电子设备原有的语音识别引擎104和语音输入接口112。此外图1中还示意出了本发明的方案涉及的语音输入提示界面102和语音控制帮助界面103，以及多媒体电子设备的系统程序和应用程序109、系统API 110和系统应用程序管理器111。

在本发明的实施例中，语音输入接口112既包括多媒体电子设备主体上的麦克风输入、麦克风矩阵输入、外接有线麦克风(矩阵)输入，也包括蓝牙、FM、WiFi等无线音频输入，以及所有其他能让多媒体电子设备获取人声的技术和接口设备。

参见图1，语音功能控制器101通过系统应用程序编程接口API 110，从系统应用程序管理器111获取多媒体电子设备上已安装的系统程序和应用程序109的程序名信息，生成对应的语音控制条目并保存到语音控制条目保存介质105中；并根据系统程序和应用程序109的重新安装和卸载情况对对应的语音控制条目进行修改和删除操作。

以及，系统程序和应用程序109通过语音控制条目操作接口106向语音功能控制器101发送语音控制条目操作指令，语音功能控制器101根据所述指令进行语音控制条目的操作，并将操作结果保存到语音控制条目保存介质105中；所述进行语音控制条目的操作包括：添加语音控制条目、修改语音控制条目和删除语音控制条目；

当用户语音触发语音输入提示界面102，或者当用户通过按键方式触发语音输入提示界面102时，语音功能控制器101在多媒体电子设备的屏幕上显示输出语音输入提示界面；用户可以根据语音输入提示界面发出语音控制信息，语音输入接口获取这些语音控制信息；

当用户发出语音控制信息时，语音功能控制器101获取语音输入接口112接收到的语音控制信息，并调用语音识别引擎104根据所述语音控制信息识别出的对应的词条名，根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目。语音功能控制器101或者将对应语音控制条目中的控制功能信息通过识别结果触发接口108发送给对应的系统程序或应用程序，由对应的系统程序或应用程序根据所述控制功能信息执行对应的操作；或者，语音功能控制器101根据语音控制条目直接调用对应的系统程序或应用程序。

可见，通过语音功能控制器主动获取以及程序自定义两种方式生成语音控制条目，使得对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目，使得用户可以通过语音控制在程序功能间任意快速地切换，大大提高了用户的体验。

图2是本发明实施例中基于电视应用的语音输入接口的示意图。如图2所示，200为一台具有屏幕显示和语音输入接口的电视；201、202、203、204是电视边框上的四个麦克风输入接口，在一起形成麦克风矩阵，麦克风矩阵采集到的声音经过一定的音频降噪算法，可获得比较清晰的远端人的声音。麦克风矩阵的麦克风数量可为2，4，6，8等实际应用中合理的数目，并可放置在电视表面的任何合理位置。麦克风矩阵是语音输入接口的一种具体实施方式，在这种实施方式下，站在远端的人可通过直接语音输入一个系统预置的词条——语音控制触发词条，如“语音”或“识别”等来触发语音控制功能。

用户触发语音输入提示界面的方式可以有以下两种：(1)用户语音输入一个系统预置并可以修改的词条——语音控制触发词条，作为触发语音输入提示界面的语音控制信息，语音功能控制器获取语音输入接口接收到的语音控制信息，并调用语音识别引擎根据所述语音控制信息识别出对应的词条名，如该词条名为语音控制触发词条，则直接启动语音输入提示界面(2)用户通过按键方式启动语音输入提示界面，例如可以是多媒体电子设备相关输入设备的一个按键的一种按压模式(比如，短按，长按，双击等)或组合按键功能。

图3是本发明实施例中的一个具有麦克风输入的小型键盘的示意图。如图3所示，这是语音输入接口的另一种具体实施方式，301为麦克风输入接口，302为一个语音控制功能键，可为单独设计的一个按键，也可为一个复用了语音控制功能和其他功能的按键。小型键盘300与电视200可通过任何无线或有线方式连接。用户可以拿着该小型键盘300，按动语音控制功能键302，并通过麦克风输入接口301输入音频。在这种实施方式下，也可以不用语音控制功能键302，而直接语音输入语音控制触发词条来触发语音控制功能。

图4为语音输入提示界面的示意图。在多媒体电子设备200上可通过单击语音控制功能键302或直接语音输入语音控制触发词条来触发语音输入提示界面102的弹出。语音输入提示界面102可由如图的标题文字411，提示文字412和语音输入音量提示413组成。语音输入音量提示413根据语音输入音量的大小做黑白两部分的上下波动，提示用户语音输入是否正常。

语音输入提示界面的作用是提示基于当前程序上下文的语音识别输入，所以可为如图4所示对话框形式，也可以是一个满屏而有透明度的界面，及其他所有从视觉上可以获知当前语音输入提示界面出现之前的所在界面的信息的所有呈现方式。语音输入提示界面可在任意系统程序界面和应用程序界面被触发而弹出。

可见，用户可以通过两种方式实现语音控制功能。

方式一为：

步骤11，用户直接语音输入语音控制触发词条(麦克风矩阵(201，202，203，204)或麦克风输入接口301一直打开)；

步骤12，语音输入提示界面102弹出；

步骤13，用户输入语音控制信息(词条名)；

步骤14，语音功能控制器101调用语音识别引擎104进行识别；

步骤15，语音功能控制器101将识别结果的词条名所对应的控制功能信息(功能字串和功能序号)返回给所对应程序名的程序(为自定义条目时)，或直接调用该程序(为程序名条目时)；

步骤16，语音输入提示界面102退出；

步骤17，所对应程序名的程序针对接收到的控制功能信息(功能字串和功能序号)执行相应操作。

方式二为：

步骤21，用户按动语音控制功能键302；

步骤22，麦克风矩阵(201，202，203，204)或麦克风输入接口301打开；

步骤23，语音输入提示界面102弹出；

步骤24，用户输入语音控制信息(词条名)；

步骤25，语音功能控制器101调用语音识别引擎104进行识别；

步骤26，麦克风矩阵(201，202，203，204)或麦克风输入接口301关闭；

步骤27，语音功能控制器101将识别结果的词条名所对应的控制信息(功能字串和功能序号)返回给所对应程序名的系统程序或应用程序(为自定义条目时)，或直接调用该系统程序或应用程序(为程序名条目时)；

步骤28，语音输入提示界面102退出；

步骤29，所对应程序名的程序针对接收到的控制功能信息(功能字串和功能序号)执行相应操作。

上文所述的语音输入提示界面使用户在没有很多手动控制的情况，轻松快速的在应用程序功能间任意切换。例如，用户输入语音词条“日历”，可进入日历应用程序。

参见图1，多媒体电子设备的系统程序和应用程序109分别通过语音控制条目操作接口106、屏蔽性定义接口107和识别结果触发接口108与语音功能控制器101进行交互。语音功能控制器101通过系统API 110与系统应用程序管理器111通信，获取多媒体电子设备上已安装的所有系统程序和应用程序的程序名信息。语音控制条目操作接口106是一个所有系统程序和应用程序都可操作自定义语音控制条目的接口。

图5是本发明实施例中的语音控制条目的示意图。如图5所示，语音控制条目包括：类型、程序名、源注册界面名、被注册界面名、词条名、控制功能名称、控制功能信息和有效范围；控制功能信息包括：功能字串和功能序号；

其中，在每个语音控制条目中，所述类型为程序名条目或自定义条目；若语音功能控制器通过API，从系统应用程序管理器获取系统程序和应用程序的程序名信息，所生成对应的语音控制条目的类型为程序名条目；若系统程序和应用程序通过语音控制条目操作接口向语音功能控制器发送语音控制条目操作指令，语音功能控制器根据所述指令进行语音控制条目的操作，语音功能控制器将操作结果保存的语音控制条目的类型为自定义条目；

在每个语音控制条目中，所述有效范围为系统级、应用级或界面级。

参见图5，条目一的类型为程序名词条，条目二、条目三、条目四的类型为自定义条目。条目一是语音功能控制器通过系统API从系统应用程序管理器获取的关于程序名为“Angry Birds”的软件的信息，其词条名为“Angry Birds，Angry，Birds”，后两个词条为语音功能控制器自动根据程序名自动进行拆分添加的。程序名词条的有效范围默认为系统级。可见，在本发明的实施例中，语音功能控制器获取系统程序和应用程序的程序名后，将程序名作为本语音控制条目中的词条名，并对程序名进行拆分，将拆分后的词条也作为本语音控制条目中的词条名。

这相对于现有多媒体电子设备上的语音控制功能要求用户输入的语音比较固定，没有弹性来说，大大提高了灵活性。例如，在观看电视节目的应用中，有“中央电视台五套”的词条，一般的语音控制功能就要求用户每次观看该节目时都要把整个词条说全，显得很僵硬；而其实“中央5”，“中央5套”，“央视5”反而是比较简洁而日常使用频率较高的词条。在某些多媒体电子设备的语音控制功能中，也有提供实现某一特定功能的多个词条，包括标准说法和简化说法，但一般都是预置的，不提供用户添加和修改的能力，缺乏足够的灵活度。本发明的方案则可以解决该问题。

这里以一个程序名为“有线节目”的程序为例，其有“电视节目列表”、“控制列表”和“视频播放”三个界面。“电视节目列表”主要用于列出所有的电视节目；“控制列表”主要用于显示所有可用的控制选项；“视频播放”是真正的视频播放界面。

条目二是程序名为“有线节目”的程序的源注册界面名为“电视节目列表”的界面为自己注册的词条名为“电视列表”，功能名称为“打开电视节目列表”的语音控制条目。其有效范围为系统级，用户在系统的任何位置，只要不受屏蔽性定义影响，都可以通过语音控制功能直接来到该“电视节目列表”界面。

条目三是程序名为“有线节目”的程序的源注册界面名为“电视节目列表”的界面为被注册界面名为“视频播放”的界面注册的功能名称为“中央电视台五套”的语音控制条目，其词条名有两个，分别为“中央电视台5”和“中央5”，当用户说出词条名为“中央电视台5”或“中央5”时，语音功能控制器将会通过识别结果触发接口将条目三中的功能字串和功能序号发给程序名为“有线节目”的程序和/或该程序中的被注册界面名为“视频播放”的界面，由该“有线节目”程序或“视频播放”界面执行程序，播放功能名称为“中央电视台五套”的电视节目。条目三的有效范围为“应用级”，表明用户只能在程序名为“有线节目”的程序中使用该语音控制条目，当然也可以将其设置为“系统级”，让用户可在多媒体电子设备的任意当前位置通过语音控制功能直接播放“中央电视台五套”的电视节目。

条目四是程序名同为“有线节目”的程序的另一源注册界面名为“控制列表”的界面为被注册界面名为“视频播放”的界面注册的功能名称为“静音”的语音控制条目，其词条名为“静音”；该有效范围为“界面级”，表明用户只能在处于“有线节目”程序中的被注册界面名为“视频播放”的界面中，才可使用该语音控制条目，也可根据实际情况将其设置为“应用级”。当然对语音控制条目有效范围的限制，对避免与其他程序的语音控制条目重名，提高使用体验是有好处的。

通过语音控制条目操作接口对语音控制条目所做的操作，包括添加、修改和删除语音控制条目和条目属性定义等操作。修改操作即对图5中所示的语音控制条目的程序名、源注册界面名、被注册界面名、词条名、控制功能名称、控制功能字串和控制功能序号的修改和调整。所述的条目属性定义是指对语音控制条目有效范围的定义，包括系统级、应用级和界面级；系统级表示所操作语音控制条目在系统的任意位置都是有效的；应用级表示所操作语音控制条目只在本应用程序内是有效的；界面级表示所操作语音控制条目只在本应用程序内的某一界面是有效的。

所述的语音控制条目是词条及其对应功能及其他关联信息的一个集合。所述的词条为用于传给语音识别引擎的用于匹配输入语音的短语。可以针对某一特定功能定义单一词条，也可以定义多个词条(包括简化词条或别名词条)。所述的语音控制条目分为程序名语音控制条目(简称程序名条目)和自定义语音控制条目(简称自定义条目)。程序名条目由语音控制功能通过系统信息获得；而自定义条目由系统程序和应用程序通过上述语音控制条目操作接口进行操作。

仍参见图1，下面对屏蔽性定义接口107进行说明：屏蔽性定义接口107是所有系统程序和应用程序109可根据自身对语音识别控制功能需求的情况在某些特定情况下，对应用程序内屏蔽所有非本应用程序的系统级语音控制条目(称为程序屏蔽性)，或可对应用程序内的某一界面，屏蔽所有非本界面的系统级和应用级语音控制条目(称为界面屏蔽性)而使用的接口。所述的某些特定情况，举例如在自身语音控制条目过多的情况下，为了提高语音识别的准确率，而去屏蔽其他程序或界面的语音控制条目。在默认情况下，屏蔽性定义都为否。

具体来说：系统程序和应用程序109通过屏蔽性定义接口107向语音功能控制器101进行本程序或本程序内的指定界面的屏蔽性定义操作；语音功能控制器101保存屏蔽性定义操作的结果；

所述屏蔽性定义操作包括：在本程序内屏蔽所有非本程序的系统级语音控制条目；和/或，在本程序内的指定界面，屏蔽所有非本界面的系统级和应用级语音控制条目；

有了屏蔽性定义之后，语音功能控制器101获取语音输入接口112接收到的语音控制信息，并调用语音识别引擎104根据所述语音控制信息进行识别，语音识别引擎104根据所述保存的屏蔽性定义操作结果进行识别时，自动忽略那些被定义了屏蔽的语音控制条目，而是在没有被屏蔽的语音控制条目中进行所述语音控制信息的匹配。

现有多媒体电子设备上的语音控制功能的用户帮助信息很有限。一般的语音控制功能界面仅仅只是提供一个语音输入图标和输入音量大小的提示，少数也有关于功能分类的说明，大致是说什么类型的句子，可以实现某一种特定功能，例如，“打开......”实现打开某应用程序的功能。但一般用户从中并没有得到足够的信息，经常是要手动退出该语音控制功能界面，了解清楚应用程序列表中每个程序的命名后，再回到语音控制功能界面进行语音控制输入操作，而这样的过程在实际使用过程中是要频繁出现很多次的，大大的降低了该语音控制功能的用户体验。

而本发明中的语音控制帮助界面可以大大改进用户的体验。下面对此进行说明。

当用户触发语音控制帮助界面时，语音功能控制器101在多媒体电子设备的屏幕上显示语音控制帮助界面；语音功能控制器101基于当前多媒体电子设备所处的程序上下文环境，在语音控制帮助界面上呈现当前可用词条及其控制功能。

图6是本发明实施例中的语音控制帮助界面的示意图。图6中示意出了语音控制帮助界面103。该语音控制帮助界面103具有和语音输入提示界面类似的操作属性和呈现方式，在多媒体电子设备上可通过双击或长按语音控制功能键或直接语音输入语音帮助触发词条(如“语音帮助”)来触发语音控制帮助界面120的弹出。语音控制帮助界面120由于是基于程序上下文环境来显示的，所以可为如图6所示的对话框形式，也可以是一个满屏而有透明度的界面，及其他所有从视觉上可以获知当前语音控制帮助界面出现之前的所在界面的信息的所有呈现方式。该语音控制帮助界面120可在任意系统程序界面和应用程序界面被触发而弹出。

具体来说，当用户通过语音触发语音控制帮助界面，或者当用户通过按键方式触发语音控制帮助界面时，语音功能控制器101在多媒体电子设备的屏幕上显示输出语音控制帮助界面。其中，语音功能控制器101在屏幕上输出对话框形式的语音控制帮助界面，或在屏幕上输出具有透明度的语音控制帮助界面。

参见图6，语音功能控制器101将基于当前多媒体电子设备所处的程序上下文环境，语音控制帮助界面103上呈现当前可用词条及其具体信息。语音控制帮助界面103可有语音控制帮助界面标题“语音控制帮助”626。语音控制帮助界面103上呈现当前可用条目的词条名及其控制功能。所述的当前可用条目包括：当前界面条目621、当前程序条目622、所有程序名条目623和全局程序自定义条目624；具体显示的信息625的格式为，当为程序名条目时，显示格式为-“词条名”--＞打开“程序名”；当为自定义条目时，显示格式为-“词条名”--＞“程序名”中的“功能名称”。

当前界面条目621列出当前所在程序的所在界面被注册的可用语音控制条目信息及用来调用当前程序所需要的程序名条目信息(第一个)；当前程序条目622列出除当前界面条目621外当前所在程序被注册的可用语音控制条目信息；所有程序名条目623列出除了当前程序外的其他所有多媒体电子设备上安装的系统程序和应用程序被调用时所需要的程序名条目信息；全局程序自定义条目624列出除了当前程序外的其他所有系统程序和应用程序注册的程序内语音控制条目的信息。

词条的可用性及其是否呈现，由语音控制条目的有效范围和当前所处程序和程序界面的屏蔽性定义决定。即词条的可用性及其是否呈现在语音控制帮助界面103上，由前文所述的语音控制条目的属性定义(有效范围)和当前所处程序和程序界面的屏蔽性定义决定。当用户触发语音控制帮助界面时，语音功能控制器基于语音控制条目的有效范围、当前所处程序和程序界面的屏蔽性定义，在语音控制帮助界面上呈现当前可用词条及其控制功能。

图7是本发明实施例中的屏蔽性定义的示意图。图7示意出了在不同屏蔽性定义和不同语音控制条目有效范围下，语音控制条目是否会显示在语音控制帮助界面上的情况。当前界面被注册的语音控制条目是不考虑屏蔽性定义的情况，一定会显示在语音控制帮助界面103的当前界面条目621页的；当前程序内非当前界面被注册的界面级语音控制条目、其他程序被注册的界面级语音控制条目及应用级语音控制条目是不考虑屏蔽性定义的情况，不会显示在语音控制帮助界面103的；而当前程序内非当前界面被注册的应用级和系统级语音控制条目只有当当前界面的屏蔽性定义为否时，才会在语音控制帮助界面103的当前程序条目622页显示；而其他程序被注册的系统级语音控制条目只有当当前界面的屏蔽性定义和当前程序的屏蔽性定义都为否时，才能在语音控制帮助界面103的全局程序自定义条目624页显示。

此外，语音功能控制器101还在语音控制帮助界面上呈现对语音控制条目进行操作的功能按钮；当用户通过该功能按钮进行语音控制条目的操作时，由语音功能控制器101进行相应语音控制条目的操作，并保存操作结果。

图8为在语音控制帮助界面上对语音控制条目实时修改示意图。参见图8，用户可通过单击语音控制帮助界面103上的可用词条具体信息625，例如图8中的826项，在其下方出现对该826项多个词条可修改的项目827。项目827有显示826项三个词条的三个可修改文本框828，和一个添加词条的按键829。用户可以通过文本框828修改和删除现有词条，也可以通过按键829添加一个新词条，可再加上一个“最爱看的”的词条。对词条的修改，删除，添加操作将立即生效。

在本发明的实施例中，语音功能控制器101为多媒体电子设备系统开机就启动的系统后台程序，也可为语音控制功能被使用或语音控制功能上述接口被首次调用时就启动并一直运行的后台服务程序。语音识别引擎104从语音功能控制器101获取当前所要识别的所有词条名，并对输入语音进行识别，将所识别的结果词条返回给语音功能控制器101。语音控制条目保存介质105可为数据库或独立文件，及其他合理的数据保存介质，用于将系统程序和应用程序109在语音功能控制器101注册的语音控制条目保存起来，以便语音功能控制器101重启或多媒体电子设备重启后的直接获取。

在本发明的实施例中，所述语音功能控制器通过系统API，从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息具体可以为：(1)语音功能控制器定期通过系统API，从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息；(2)或者，当有程序被卸载或有新的程序被安装时，由系统应用程序管理器通知语音功能控制器，语音功能控制器收到通知后，删除被卸载程序的语音控制条目(不仅包括程序名语音控制条目，也包括自定义语音控制条目)，或通过系统API从系统应用程序管理器获取新安装程序的程序名信息。

由上述可见，本发明这种，在语音功能控制器通过API获取已安装程序的程序名信息，生成对应的语音控制条目，以及，程序通过语音控制条目操作接口向语音功能控制器进行语音控制条目的自定义的前提下：当用户发出语音控制信息时，语音功能控制器获取该语音控制信息，并识别出对应的词条名，根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目，将对应语音控制条目中的控制功能信息发送给对应的程序或直接调用对应的程序的技术方案，由于通过语音功能控制器主动获取以及程序自定义两种方式生成语音控制条目，使得对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目，使得用户可以通过语音控制在程序功能间任意快速地切换，大大提高了用户的体验。

本发明的技术方案还提供对多词条语音控制条目的良好支持。上文所述的语音控制帮助界面可呈现同一语音控制条目的多个词条，该多个词条可由所属程序通过上文所述语音控制条目操作接口添加；也可由语音控制功能自动通过单词拆分功能实现，例如“Angry Birds”可生成“Angry”和“Birds”两个简化词条。另外所述的语音控制帮助界面也给用户提供对同一语音控制条目的多个词条的操作功能，包括现有词条的修改和删除以及新词条的添加，例如在“中央电视台五套”功能的词条“中央电视台五套”和“中央五”“中央体育”的基础上，可再加上一个“最爱看的”的词条。可见，所述的语音控制帮助界面为用户提供了方便且清晰的语音控制帮助和自定义化语音输入词条功能。

本发明提出的语音识别控制方法，使用户能在应用程序功能间任意快速的切换，并提供方便且清晰的语音控制帮助和自定义化语音输入词条功能。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音识别控制方法，该方法应用于多媒体电子设备，其特征在于，在多媒体电子设备上配置语音功能控制器、语音控制条目操作接口、识别结果触发接口以及语音控制条目保存介质；该方法包括：

当用户发出语音控制信息时，语音功能控制器获取多媒体电子设备的语音输入接口接收到的语音控制信息，调用多媒体电子设备的语音识别引擎根据所述语音控制信息识别出的对应的词条名，根据词条名查找语音控制条目保存介质中对应的语音控制条目；

2.根据权利要求1所述的方法，其特征在于，在语音功能控制器获取多媒体电子设备的语音输入接口接收到的语音控制信息之前，该方法还包括：

用户通过语音方式或按键方式触发语音输入提示界面或触发语音控制帮助界面。

3.根据权利要求2所述的方法，其特征在于，所述语音控制条目包括：类型、程序名、词条名、控制功能名称和有效范围；

其中，在每个语音控制条目中，所述类型为程序名条目或自定义条目；若语音功能控制器通过API，从系统应用程序管理器获取系统程序和应用程序的程序名信息，所生成对应的语音控制条目的类型为程序名条目；若系统程序和应用程序通过语音控制条目操作接口向语音功能控制器发送语音控制条目操作指令，语音功能控制器根据所述指令进行语音控制条目的操作，语音功能控制器将操作结果进行保存的语音控制条目的类型为自定义条目；

4.根据权利要求3所述的方法，其特征在于，该方法还包括：

在多媒体电子设备上配置屏蔽性定义接口；

系统程序和应用程序通过屏蔽性定义接口向语音功能控制器进行本程序或本程序内的指定界面的屏蔽性定义操作；语音功能控制器保存屏蔽性定义操作的结果；

所述屏蔽性定义操作包括：在本程序内屏蔽所有非本程序的系统级语音控制条目；和/或，在本程序内的指定界面，屏蔽所有非本界面的系统级和应用级语音控制条目。

5.根据权利要求4所述的方法，其特征在于，语音识别引擎根据所述语音控制信息识别出对应的词条名包括：

语音识别引擎根据所述保存的屏蔽性定义操作结果进行识别，忽略被定义了屏蔽性的语音控制条目，在没有被定义屏蔽性的语音控制条目中进行所述语音控制信息的匹配。

6.根据权利要求4所述的方法，其特征在于，

当用户触发语音控制帮助界面时，语音功能控制器基于语音控制条目的有效范围、当前所处程序和程序界面的屏蔽性定义，在语音控制帮助界面上呈现当前可用词条及其控制功能。

7.根据权利要求6所述的方法，其特征在于，该方法还包括：

在语音控制帮助界面上呈现对语音控制条目进行操作的功能按钮；

当用户对该功能按钮进行语音控制条目的操作时，由语音功能控制器进行相应语音控制条目的操作，并保存操作结果。

8.根据权利要求1所述的方法，其特征在于，所述语音功能控制器通过API，从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息，生成对应的语音控制条目包括：

语音功能控制器获取系统程序和应用程序的程序名后，将程序名作为本语音控制条目中的词条名，并对程序名进行拆分，将拆分后的词条也作为本语音控制条目中的词条名。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述语音功能控制器通过系统API，从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息包括：

语音功能控制器定期通过系统API，从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息；

或者，

当有程序被卸载或有新的程序被安装时，由系统应用程序管理器通知语音功能控制器，语音功能控制器收到通知后，删除被卸载程序的语音控制条目，或通过系统API从系统应用程序管理器获取新安装程序的程序名信息。

10.根据权利要求1或7所述的方法，其特征在于，对语音控制条目进行的操作包括：添加语音控制条目、修改语音控制条目和删除语音控制条目。