CN102520788A - 一种语音识别控制方法 - Google Patents

一种语音识别控制方法 Download PDF

Info

Publication number
CN102520788A
CN102520788A CN2011103630324A CN201110363032A CN102520788A CN 102520788 A CN102520788 A CN 102520788A CN 2011103630324 A CN2011103630324 A CN 2011103630324A CN 201110363032 A CN201110363032 A CN 201110363032A CN 102520788 A CN102520788 A CN 102520788A
Authority
CN
China
Prior art keywords
voice control
program
subclauses
clauses
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103630324A
Other languages
English (en)
Other versions
CN102520788B (zh
Inventor
王重乐
曾小波
孟策
刘新爱
王恬
高强
姜斌斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Priority to CN201110363032.4A priority Critical patent/CN102520788B/zh
Publication of CN102520788A publication Critical patent/CN102520788A/zh
Application granted granted Critical
Publication of CN102520788B publication Critical patent/CN102520788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种语音识别方法。在该方法中,语音功能控制器通过API获取已安装程序的程序名信息,生成对应的语音控制条目,以及,程序通过语音控制条目操作接口向语音功能控制器进行语音控制条目的自定义,当用户触发语音控制功能,语音功能控制器获取该语音控制信息,并识别出对应的词条名,根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目,将对应语音控制条目中的控制功能信息发送给对应的程序或直接调用对应的程序。本发明的技术方案,对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目,使得用户可以通过语音控制在程序功能间任意快速地切换,大大提高了用户的体验。

Description

一种语音识别控制方法
技术领域
本发明涉及多媒体技术领域,特别涉及一种语音识别控制方法。
背景技术
随着科学技术的不断进步,人们使用电子设备而出现的人机交互输入技术也在不断的发展,从普通的鼠标、键盘,到新近比较流行的轨迹球、触摸屏等技术,不一而足。这些技术以其良好的使用性能和输入速度,得到很好的普及和推广,在或将在一段很长的时间里在人机交互输入技术上占据重要的位置。
然而以上这些技术都有一个共同的特点,就是用人的手的敲击,滑动来实现人与机器或人与远端人的交互,显然这并不符合在通常情况下人与人沟通交流的方式。技术发展的脚步是在不断的往前走的,近十几、二十年来,人们发明并推动了一些和人与人沟通交流方式相符的人机交互技术,譬如基于图像识别技术的肢体控制技术和以语音为载体的语音合成输出技术和语音识别输入技术。
本专利申请涉及的就是基于语音识别的人机交互输入控制技术。近些年来,在计算机和手机等多媒体电子设备上已经出现了语音识别功能,主要实现替代键盘功能的文本输入功能和替代鼠标等功能的控制命令功能。
但是,现有的多媒体电子设备上的语音控制功能具有如下有待改进的地方:现有多媒体电子设备上的语音控制功能在应用调用方面具有较大的限制,一般只能在某个特定的系统功能界面下,或某个开启的应用程序界面下,才能使用语音识别功能,并只能启动系统默认预置的或者有限数量的应用程序,而对后安装的应用程序无法实现语音控制调用功能;另外即使语音控制进入到应用程序中,还是需要继续使用鼠标或触摸屏来操作,无法使用语音控制功能在程序内部进一步的控制。
发明内容
本发明提供了一种语音识别控制方法,该方法使得用户能通过语音控制在多媒体设备的应用程序功能间任意快速的切换,减少了手动控制,提高了用户的体验。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种语音识别控制方法,该方法应用于多媒体电子设备,在多媒体电子设备上配置语音功能控制器、语音控制条目操作接口、识别结果触发接口以及语音控制条目保存介质;该方法包括:
语音功能控制器通过系统应用程序编程接口API,从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息,生成对应的语音控制条目并保存到语音控制条目保存介质中;
以及,系统程序和应用程序通过语音控制条目操作接口向语音功能控制器发送语音控制条目操作指令,语音功能控制器根据所述指令进行语音控制条目的操作,并将操作结果保存到语音控制条目保存介质中;
当用户发出语音控制信息时,语音功能控制器获取多媒体电子设备的语音输入接口接收到的语音控制信息,调用多媒体电子设备的语音识别引擎根据所述语音控制信息识别出对应的词条名,根据词条名查找语音控制条目保存介质中对应的语音控制条目;
语音功能控制器或者将语音控制条目对应的控制功能信息通过识别结果触发接口发送给对应的系统程序或应用程序,由对应的系统程序或应用程序根据所述控制功能信息执行对应的操作;或者,语音功能控制器根据语音控制条目直接调用对应的系统程序或应用程序。
由上述可见,本发明这种,在语音功能控制器通过API获取已安装程序的程序名信息,生成对应的语音控制条目,以及,程序通过语音控制条目操作接口向语音功能控制器进行语音控制条目的自定义的前提下:当用户发出语音控制信息时,语音功能控制器获取该语音控制信息,并识别出对应的词条名,根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目,将对应语音控制条目中的控制功能信息发送给对应的系统程序或应用程序,或直接调用对应的系统程序或应用程序的技术方案,由于通过语音功能控制器主动获取以及程序自定义两种方式生成语音控制条目,使得对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目,使得用户可以通过语音控制在程序功能间任意快速地切换,大大提高了用户的体验。
附图说明
图1是本发明实施例中的一种语音识别控制方法的示意图;
图2是本发明实施例中基于电视应用的语音输入接口的示意图;
图3是本发明实施例中的一个具有麦克风输入的小型键盘的示意图;
图4为语音输入提示界面的示意图;
图5是本发明实施例中的语音控制条目的示意图;
图6是本发明实施例中的语音控制帮助界面的示意图;
图7是本发明实施例中的屏蔽性定义的示意图;
图8为在语音控制帮助界面上对语音控制条目实时修改示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例中的一种语音识别控制方法的示意图。该方法应用于多媒体电子设备。这里,所述的多媒体电子设备包括具有多媒体功能的电视、手机、笔记本、台式电脑、多媒体播放器及其他所有具有屏幕显示和语音输入接口的设备。
如图1所示,为了实现提高用户体验的语音识别控制,在多媒体设备上配置了:语音功能控制器101、语音控制条目保存介质105,并提供了语音控制条目操作接口106、屏蔽性定义接口107和识别结果触发接口108。本发明的方案还需要利用到多媒体电子设备原有的语音识别引擎104和语音输入接口112。此外图1中还示意出了本发明的方案涉及的语音输入提示界面102和语音控制帮助界面103,以及多媒体电子设备的系统程序和应用程序109、系统API 110和系统应用程序管理器111。
在本发明的实施例中,语音输入接口112既包括多媒体电子设备主体上的麦克风输入、麦克风矩阵输入、外接有线麦克风(矩阵)输入,也包括蓝牙、FM、WiFi等无线音频输入,以及所有其他能让多媒体电子设备获取人声的技术和接口设备。
参见图1,语音功能控制器101通过系统应用程序编程接口API 110,从系统应用程序管理器111获取多媒体电子设备上已安装的系统程序和应用程序109的程序名信息,生成对应的语音控制条目并保存到语音控制条目保存介质105中;并根据系统程序和应用程序109的重新安装和卸载情况对对应的语音控制条目进行修改和删除操作。
以及,系统程序和应用程序109通过语音控制条目操作接口106向语音功能控制器101发送语音控制条目操作指令,语音功能控制器101根据所述指令进行语音控制条目的操作,并将操作结果保存到语音控制条目保存介质105中;所述进行语音控制条目的操作包括:添加语音控制条目、修改语音控制条目和删除语音控制条目;
当用户语音触发语音输入提示界面102,或者当用户通过按键方式触发语音输入提示界面102时,语音功能控制器101在多媒体电子设备的屏幕上显示输出语音输入提示界面;用户可以根据语音输入提示界面发出语音控制信息,语音输入接口获取这些语音控制信息;
当用户发出语音控制信息时,语音功能控制器101获取语音输入接口112接收到的语音控制信息,并调用语音识别引擎104根据所述语音控制信息识别出的对应的词条名,根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目。语音功能控制器101或者将对应语音控制条目中的控制功能信息通过识别结果触发接口108发送给对应的系统程序或应用程序,由对应的系统程序或应用程序根据所述控制功能信息执行对应的操作;或者,语音功能控制器101根据语音控制条目直接调用对应的系统程序或应用程序。
可见,通过语音功能控制器主动获取以及程序自定义两种方式生成语音控制条目,使得对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目,使得用户可以通过语音控制在程序功能间任意快速地切换,大大提高了用户的体验。
图2是本发明实施例中基于电视应用的语音输入接口的示意图。如图2所示,200为一台具有屏幕显示和语音输入接口的电视;201、202、203、204是电视边框上的四个麦克风输入接口,在一起形成麦克风矩阵,麦克风矩阵采集到的声音经过一定的音频降噪算法,可获得比较清晰的远端人的声音。麦克风矩阵的麦克风数量可为2,4,6,8等实际应用中合理的数目,并可放置在电视表面的任何合理位置。麦克风矩阵是语音输入接口的一种具体实施方式,在这种实施方式下,站在远端的人可通过直接语音输入一个系统预置的词条——语音控制触发词条,如“语音”或“识别”等来触发语音控制功能。
用户触发语音输入提示界面的方式可以有以下两种:(1)用户语音输入一个系统预置并可以修改的词条——语音控制触发词条,作为触发语音输入提示界面的语音控制信息,语音功能控制器获取语音输入接口接收到的语音控制信息,并调用语音识别引擎根据所述语音控制信息识别出对应的词条名,如该词条名为语音控制触发词条,则直接启动语音输入提示界面(2)用户通过按键方式启动语音输入提示界面,例如可以是多媒体电子设备相关输入设备的一个按键的一种按压模式(比如,短按,长按,双击等)或组合按键功能。
图3是本发明实施例中的一个具有麦克风输入的小型键盘的示意图。如图3所示,这是语音输入接口的另一种具体实施方式,301为麦克风输入接口,302为一个语音控制功能键,可为单独设计的一个按键,也可为一个复用了语音控制功能和其他功能的按键。小型键盘300与电视200可通过任何无线或有线方式连接。用户可以拿着该小型键盘300,按动语音控制功能键302,并通过麦克风输入接口301输入音频。在这种实施方式下,也可以不用语音控制功能键302,而直接语音输入语音控制触发词条来触发语音控制功能。
图4为语音输入提示界面的示意图。在多媒体电子设备200上可通过单击语音控制功能键302或直接语音输入语音控制触发词条来触发语音输入提示界面102的弹出。语音输入提示界面102可由如图的标题文字411,提示文字412和语音输入音量提示413组成。语音输入音量提示413根据语音输入音量的大小做黑白两部分的上下波动,提示用户语音输入是否正常。
语音输入提示界面的作用是提示基于当前程序上下文的语音识别输入,所以可为如图4所示对话框形式,也可以是一个满屏而有透明度的界面,及其他所有从视觉上可以获知当前语音输入提示界面出现之前的所在界面的信息的所有呈现方式。语音输入提示界面可在任意系统程序界面和应用程序界面被触发而弹出。
可见,用户可以通过两种方式实现语音控制功能。
方式一为:
步骤11,用户直接语音输入语音控制触发词条(麦克风矩阵(201,202,203,204)或麦克风输入接口301一直打开);
步骤12,语音输入提示界面102弹出;
步骤13,用户输入语音控制信息(词条名);
步骤14,语音功能控制器101调用语音识别引擎104进行识别;
步骤15,语音功能控制器101将识别结果的词条名所对应的控制功能信息(功能字串和功能序号)返回给所对应程序名的程序(为自定义条目时),或直接调用该程序(为程序名条目时);
步骤16,语音输入提示界面102退出;
步骤17,所对应程序名的程序针对接收到的控制功能信息(功能字串和功能序号)执行相应操作。
方式二为:
步骤21,用户按动语音控制功能键302;
步骤22,麦克风矩阵(201,202,203,204)或麦克风输入接口301打开;
步骤23,语音输入提示界面102弹出;
步骤24,用户输入语音控制信息(词条名);
步骤25,语音功能控制器101调用语音识别引擎104进行识别;
步骤26,麦克风矩阵(201,202,203,204)或麦克风输入接口301关闭;
步骤27,语音功能控制器101将识别结果的词条名所对应的控制信息(功能字串和功能序号)返回给所对应程序名的系统程序或应用程序(为自定义条目时),或直接调用该系统程序或应用程序(为程序名条目时);
步骤28,语音输入提示界面102退出;
步骤29,所对应程序名的程序针对接收到的控制功能信息(功能字串和功能序号)执行相应操作。
上文所述的语音输入提示界面使用户在没有很多手动控制的情况,轻松快速的在应用程序功能间任意切换。例如,用户输入语音词条“日历”,可进入日历应用程序。
参见图1,多媒体电子设备的系统程序和应用程序109分别通过语音控制条目操作接口106、屏蔽性定义接口107和识别结果触发接口108与语音功能控制器101进行交互。语音功能控制器101通过系统API 110与系统应用程序管理器111通信,获取多媒体电子设备上已安装的所有系统程序和应用程序的程序名信息。语音控制条目操作接口106是一个所有系统程序和应用程序都可操作自定义语音控制条目的接口。
图5是本发明实施例中的语音控制条目的示意图。如图5所示,语音控制条目包括:类型、程序名、源注册界面名、被注册界面名、词条名、控制功能名称、控制功能信息和有效范围;控制功能信息包括:功能字串和功能序号;
其中,在每个语音控制条目中,所述类型为程序名条目或自定义条目;若语音功能控制器通过API,从系统应用程序管理器获取系统程序和应用程序的程序名信息,所生成对应的语音控制条目的类型为程序名条目;若系统程序和应用程序通过语音控制条目操作接口向语音功能控制器发送语音控制条目操作指令,语音功能控制器根据所述指令进行语音控制条目的操作,语音功能控制器将操作结果保存的语音控制条目的类型为自定义条目;
在每个语音控制条目中,所述有效范围为系统级、应用级或界面级。
参见图5,条目一的类型为程序名词条,条目二、条目三、条目四的类型为自定义条目。条目一是语音功能控制器通过系统API从系统应用程序管理器获取的关于程序名为“Angry Birds”的软件的信息,其词条名为“Angry Birds,Angry,Birds”,后两个词条为语音功能控制器自动根据程序名自动进行拆分添加的。程序名词条的有效范围默认为系统级。可见,在本发明的实施例中,语音功能控制器获取系统程序和应用程序的程序名后,将程序名作为本语音控制条目中的词条名,并对程序名进行拆分,将拆分后的词条也作为本语音控制条目中的词条名。
这相对于现有多媒体电子设备上的语音控制功能要求用户输入的语音比较固定,没有弹性来说,大大提高了灵活性。例如,在观看电视节目的应用中,有“中央电视台五套”的词条,一般的语音控制功能就要求用户每次观看该节目时都要把整个词条说全,显得很僵硬;而其实“中央5”,“中央5套”,“央视5”反而是比较简洁而日常使用频率较高的词条。在某些多媒体电子设备的语音控制功能中,也有提供实现某一特定功能的多个词条,包括标准说法和简化说法,但一般都是预置的,不提供用户添加和修改的能力,缺乏足够的灵活度。本发明的方案则可以解决该问题。
这里以一个程序名为“有线节目”的程序为例,其有“电视节目列表”、“控制列表”和“视频播放”三个界面。“电视节目列表”主要用于列出所有的电视节目;“控制列表”主要用于显示所有可用的控制选项;“视频播放”是真正的视频播放界面。
条目二是程序名为“有线节目”的程序的源注册界面名为“电视节目列表”的界面为自己注册的词条名为“电视列表”,功能名称为“打开电视节目列表”的语音控制条目。其有效范围为系统级,用户在系统的任何位置,只要不受屏蔽性定义影响,都可以通过语音控制功能直接来到该“电视节目列表”界面。
条目三是程序名为“有线节目”的程序的源注册界面名为“电视节目列表”的界面为被注册界面名为“视频播放”的界面注册的功能名称为“中央电视台五套”的语音控制条目,其词条名有两个,分别为“中央电视台5”和“中央5”,当用户说出词条名为“中央电视台5”或“中央5”时,语音功能控制器将会通过识别结果触发接口将条目三中的功能字串和功能序号发给程序名为“有线节目”的程序和/或该程序中的被注册界面名为“视频播放”的界面,由该“有线节目”程序或“视频播放”界面执行程序,播放功能名称为“中央电视台五套”的电视节目。条目三的有效范围为“应用级”,表明用户只能在程序名为“有线节目”的程序中使用该语音控制条目,当然也可以将其设置为“系统级”,让用户可在多媒体电子设备的任意当前位置通过语音控制功能直接播放“中央电视台五套”的电视节目。
条目四是程序名同为“有线节目”的程序的另一源注册界面名为“控制列表”的界面为被注册界面名为“视频播放”的界面注册的功能名称为“静音”的语音控制条目,其词条名为“静音”;该有效范围为“界面级”,表明用户只能在处于“有线节目”程序中的被注册界面名为“视频播放”的界面中,才可使用该语音控制条目,也可根据实际情况将其设置为“应用级”。当然对语音控制条目有效范围的限制,对避免与其他程序的语音控制条目重名,提高使用体验是有好处的。
通过语音控制条目操作接口对语音控制条目所做的操作,包括添加、修改和删除语音控制条目和条目属性定义等操作。修改操作即对图5中所示的语音控制条目的程序名、源注册界面名、被注册界面名、词条名、控制功能名称、控制功能字串和控制功能序号的修改和调整。所述的条目属性定义是指对语音控制条目有效范围的定义,包括系统级、应用级和界面级;系统级表示所操作语音控制条目在系统的任意位置都是有效的;应用级表示所操作语音控制条目只在本应用程序内是有效的;界面级表示所操作语音控制条目只在本应用程序内的某一界面是有效的。
所述的语音控制条目是词条及其对应功能及其他关联信息的一个集合。所述的词条为用于传给语音识别引擎的用于匹配输入语音的短语。可以针对某一特定功能定义单一词条,也可以定义多个词条(包括简化词条或别名词条)。所述的语音控制条目分为程序名语音控制条目(简称程序名条目)和自定义语音控制条目(简称自定义条目)。程序名条目由语音控制功能通过系统信息获得;而自定义条目由系统程序和应用程序通过上述语音控制条目操作接口进行操作。
仍参见图1,下面对屏蔽性定义接口107进行说明:屏蔽性定义接口107是所有系统程序和应用程序109可根据自身对语音识别控制功能需求的情况在某些特定情况下,对应用程序内屏蔽所有非本应用程序的系统级语音控制条目(称为程序屏蔽性),或可对应用程序内的某一界面,屏蔽所有非本界面的系统级和应用级语音控制条目(称为界面屏蔽性)而使用的接口。所述的某些特定情况,举例如在自身语音控制条目过多的情况下,为了提高语音识别的准确率,而去屏蔽其他程序或界面的语音控制条目。在默认情况下,屏蔽性定义都为否。
具体来说:系统程序和应用程序109通过屏蔽性定义接口107向语音功能控制器101进行本程序或本程序内的指定界面的屏蔽性定义操作;语音功能控制器101保存屏蔽性定义操作的结果;
所述屏蔽性定义操作包括:在本程序内屏蔽所有非本程序的系统级语音控制条目;和/或,在本程序内的指定界面,屏蔽所有非本界面的系统级和应用级语音控制条目;
有了屏蔽性定义之后,语音功能控制器101获取语音输入接口112接收到的语音控制信息,并调用语音识别引擎104根据所述语音控制信息进行识别,语音识别引擎104根据所述保存的屏蔽性定义操作结果进行识别时,自动忽略那些被定义了屏蔽的语音控制条目,而是在没有被屏蔽的语音控制条目中进行所述语音控制信息的匹配。
现有多媒体电子设备上的语音控制功能的用户帮助信息很有限。一般的语音控制功能界面仅仅只是提供一个语音输入图标和输入音量大小的提示,少数也有关于功能分类的说明,大致是说什么类型的句子,可以实现某一种特定功能,例如,“打开......”实现打开某应用程序的功能。但一般用户从中并没有得到足够的信息,经常是要手动退出该语音控制功能界面,了解清楚应用程序列表中每个程序的命名后,再回到语音控制功能界面进行语音控制输入操作,而这样的过程在实际使用过程中是要频繁出现很多次的,大大的降低了该语音控制功能的用户体验。
而本发明中的语音控制帮助界面可以大大改进用户的体验。下面对此进行说明。
当用户触发语音控制帮助界面时,语音功能控制器101在多媒体电子设备的屏幕上显示语音控制帮助界面;语音功能控制器101基于当前多媒体电子设备所处的程序上下文环境,在语音控制帮助界面上呈现当前可用词条及其控制功能。
图6是本发明实施例中的语音控制帮助界面的示意图。图6中示意出了语音控制帮助界面103。该语音控制帮助界面103具有和语音输入提示界面类似的操作属性和呈现方式,在多媒体电子设备上可通过双击或长按语音控制功能键或直接语音输入语音帮助触发词条(如“语音帮助”)来触发语音控制帮助界面120的弹出。语音控制帮助界面120由于是基于程序上下文环境来显示的,所以可为如图6所示的对话框形式,也可以是一个满屏而有透明度的界面,及其他所有从视觉上可以获知当前语音控制帮助界面出现之前的所在界面的信息的所有呈现方式。该语音控制帮助界面120可在任意系统程序界面和应用程序界面被触发而弹出。
具体来说,当用户通过语音触发语音控制帮助界面,或者当用户通过按键方式触发语音控制帮助界面时,语音功能控制器101在多媒体电子设备的屏幕上显示输出语音控制帮助界面。其中,语音功能控制器101在屏幕上输出对话框形式的语音控制帮助界面,或在屏幕上输出具有透明度的语音控制帮助界面。
参见图6,语音功能控制器101将基于当前多媒体电子设备所处的程序上下文环境,语音控制帮助界面103上呈现当前可用词条及其具体信息。语音控制帮助界面103可有语音控制帮助界面标题“语音控制帮助”626。语音控制帮助界面103上呈现当前可用条目的词条名及其控制功能。所述的当前可用条目包括:当前界面条目621、当前程序条目622、所有程序名条目623和全局程序自定义条目624;具体显示的信息625的格式为,当为程序名条目时,显示格式为-“词条名”-->打开“程序名”;当为自定义条目时,显示格式为-“词条名”-->“程序名”中的“功能名称”。
当前界面条目621列出当前所在程序的所在界面被注册的可用语音控制条目信息及用来调用当前程序所需要的程序名条目信息(第一个);当前程序条目622列出除当前界面条目621外当前所在程序被注册的可用语音控制条目信息;所有程序名条目623列出除了当前程序外的其他所有多媒体电子设备上安装的系统程序和应用程序被调用时所需要的程序名条目信息;全局程序自定义条目624列出除了当前程序外的其他所有系统程序和应用程序注册的程序内语音控制条目的信息。
词条的可用性及其是否呈现,由语音控制条目的有效范围和当前所处程序和程序界面的屏蔽性定义决定。即词条的可用性及其是否呈现在语音控制帮助界面103上,由前文所述的语音控制条目的属性定义(有效范围)和当前所处程序和程序界面的屏蔽性定义决定。当用户触发语音控制帮助界面时,语音功能控制器基于语音控制条目的有效范围、当前所处程序和程序界面的屏蔽性定义,在语音控制帮助界面上呈现当前可用词条及其控制功能。
图7是本发明实施例中的屏蔽性定义的示意图。图7示意出了在不同屏蔽性定义和不同语音控制条目有效范围下,语音控制条目是否会显示在语音控制帮助界面上的情况。当前界面被注册的语音控制条目是不考虑屏蔽性定义的情况,一定会显示在语音控制帮助界面103的当前界面条目621页的;当前程序内非当前界面被注册的界面级语音控制条目、其他程序被注册的界面级语音控制条目及应用级语音控制条目是不考虑屏蔽性定义的情况,不会显示在语音控制帮助界面103的;而当前程序内非当前界面被注册的应用级和系统级语音控制条目只有当当前界面的屏蔽性定义为否时,才会在语音控制帮助界面103的当前程序条目622页显示;而其他程序被注册的系统级语音控制条目只有当当前界面的屏蔽性定义和当前程序的屏蔽性定义都为否时,才能在语音控制帮助界面103的全局程序自定义条目624页显示。
此外,语音功能控制器101还在语音控制帮助界面上呈现对语音控制条目进行操作的功能按钮;当用户通过该功能按钮进行语音控制条目的操作时,由语音功能控制器101进行相应语音控制条目的操作,并保存操作结果。
图8为在语音控制帮助界面上对语音控制条目实时修改示意图。参见图8,用户可通过单击语音控制帮助界面103上的可用词条具体信息625,例如图8中的826项,在其下方出现对该826项多个词条可修改的项目827。项目827有显示826项三个词条的三个可修改文本框828,和一个添加词条的按键829。用户可以通过文本框828修改和删除现有词条,也可以通过按键829添加一个新词条,可再加上一个“最爱看的”的词条。对词条的修改,删除,添加操作将立即生效。
在本发明的实施例中,语音功能控制器101为多媒体电子设备系统开机就启动的系统后台程序,也可为语音控制功能被使用或语音控制功能上述接口被首次调用时就启动并一直运行的后台服务程序。语音识别引擎104从语音功能控制器101获取当前所要识别的所有词条名,并对输入语音进行识别,将所识别的结果词条返回给语音功能控制器101。语音控制条目保存介质105可为数据库或独立文件,及其他合理的数据保存介质,用于将系统程序和应用程序109在语音功能控制器101注册的语音控制条目保存起来,以便语音功能控制器101重启或多媒体电子设备重启后的直接获取。
在本发明的实施例中,所述语音功能控制器通过系统API,从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息具体可以为:(1)语音功能控制器定期通过系统API,从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息;(2)或者,当有程序被卸载或有新的程序被安装时,由系统应用程序管理器通知语音功能控制器,语音功能控制器收到通知后,删除被卸载程序的语音控制条目(不仅包括程序名语音控制条目,也包括自定义语音控制条目),或通过系统API从系统应用程序管理器获取新安装程序的程序名信息。
由上述可见,本发明这种,在语音功能控制器通过API获取已安装程序的程序名信息,生成对应的语音控制条目,以及,程序通过语音控制条目操作接口向语音功能控制器进行语音控制条目的自定义的前提下:当用户发出语音控制信息时,语音功能控制器获取该语音控制信息,并识别出对应的词条名,根据词条名查找语音控制条目保存介质中保存的对应的语音控制条目,将对应语音控制条目中的控制功能信息发送给对应的程序或直接调用对应的程序的技术方案,由于通过语音功能控制器主动获取以及程序自定义两种方式生成语音控制条目,使得对包括原有程序的以及后安装程序的所有的程序都能自动生成相应的语音控制条目,使得用户可以通过语音控制在程序功能间任意快速地切换,大大提高了用户的体验。
本发明的技术方案还提供对多词条语音控制条目的良好支持。上文所述的语音控制帮助界面可呈现同一语音控制条目的多个词条,该多个词条可由所属程序通过上文所述语音控制条目操作接口添加;也可由语音控制功能自动通过单词拆分功能实现,例如“Angry Birds”可生成“Angry”和“Birds”两个简化词条。另外所述的语音控制帮助界面也给用户提供对同一语音控制条目的多个词条的操作功能,包括现有词条的修改和删除以及新词条的添加,例如在“中央电视台五套”功能的词条“中央电视台五套”和“中央五”“中央体育”的基础上,可再加上一个“最爱看的”的词条。可见,所述的语音控制帮助界面为用户提供了方便且清晰的语音控制帮助和自定义化语音输入词条功能。
本发明提出的语音识别控制方法,使用户能在应用程序功能间任意快速的切换,并提供方便且清晰的语音控制帮助和自定义化语音输入词条功能。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种语音识别控制方法,该方法应用于多媒体电子设备,其特征在于,在多媒体电子设备上配置语音功能控制器、语音控制条目操作接口、识别结果触发接口以及语音控制条目保存介质;该方法包括:
语音功能控制器通过系统应用程序编程接口API,从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息,生成对应的语音控制条目并保存到语音控制条目保存介质中;
以及,系统程序和应用程序通过语音控制条目操作接口向语音功能控制器发送语音控制条目操作指令,语音功能控制器根据所述指令进行语音控制条目的操作,并将操作结果保存到语音控制条目保存介质中;
当用户发出语音控制信息时,语音功能控制器获取多媒体电子设备的语音输入接口接收到的语音控制信息,调用多媒体电子设备的语音识别引擎根据所述语音控制信息识别出的对应的词条名,根据词条名查找语音控制条目保存介质中对应的语音控制条目;
语音功能控制器或者将语音控制条目对应的控制功能信息通过识别结果触发接口发送给对应的系统程序或应用程序,由对应的系统程序或应用程序根据所述控制功能信息执行对应的操作;或者,语音功能控制器根据语音控制条目直接调用对应的系统程序或应用程序。
2.根据权利要求1所述的方法,其特征在于,在语音功能控制器获取多媒体电子设备的语音输入接口接收到的语音控制信息之前,该方法还包括:
用户通过语音方式或按键方式触发语音输入提示界面或触发语音控制帮助界面。
3.根据权利要求2所述的方法,其特征在于,所述语音控制条目包括:类型、程序名、词条名、控制功能名称和有效范围;
其中,在每个语音控制条目中,所述类型为程序名条目或自定义条目;若语音功能控制器通过API,从系统应用程序管理器获取系统程序和应用程序的程序名信息,所生成对应的语音控制条目的类型为程序名条目;若系统程序和应用程序通过语音控制条目操作接口向语音功能控制器发送语音控制条目操作指令,语音功能控制器根据所述指令进行语音控制条目的操作,语音功能控制器将操作结果进行保存的语音控制条目的类型为自定义条目;
在每个语音控制条目中,所述有效范围为系统级、应用级或界面级。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:
在多媒体电子设备上配置屏蔽性定义接口;
系统程序和应用程序通过屏蔽性定义接口向语音功能控制器进行本程序或本程序内的指定界面的屏蔽性定义操作;语音功能控制器保存屏蔽性定义操作的结果;
所述屏蔽性定义操作包括:在本程序内屏蔽所有非本程序的系统级语音控制条目;和/或,在本程序内的指定界面,屏蔽所有非本界面的系统级和应用级语音控制条目。
5.根据权利要求4所述的方法,其特征在于,语音识别引擎根据所述语音控制信息识别出对应的词条名包括:
语音识别引擎根据所述保存的屏蔽性定义操作结果进行识别,忽略被定义了屏蔽性的语音控制条目,在没有被定义屏蔽性的语音控制条目中进行所述语音控制信息的匹配。
6.根据权利要求4所述的方法,其特征在于,
当用户触发语音控制帮助界面时,语音功能控制器基于语音控制条目的有效范围、当前所处程序和程序界面的屏蔽性定义,在语音控制帮助界面上呈现当前可用词条及其控制功能。
7.根据权利要求6所述的方法,其特征在于,该方法还包括:
在语音控制帮助界面上呈现对语音控制条目进行操作的功能按钮;
当用户对该功能按钮进行语音控制条目的操作时,由语音功能控制器进行相应语音控制条目的操作,并保存操作结果。
8.根据权利要求1所述的方法,其特征在于,所述语音功能控制器通过API,从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息,生成对应的语音控制条目包括:
语音功能控制器获取系统程序和应用程序的程序名后,将程序名作为本语音控制条目中的词条名,并对程序名进行拆分,将拆分后的词条也作为本语音控制条目中的词条名。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述语音功能控制器通过系统API,从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息包括:
语音功能控制器定期通过系统API,从系统应用程序管理器获取多媒体电子设备上已安装的系统程序和应用程序的程序名信息;
或者,
当有程序被卸载或有新的程序被安装时,由系统应用程序管理器通知语音功能控制器,语音功能控制器收到通知后,删除被卸载程序的语音控制条目,或通过系统API从系统应用程序管理器获取新安装程序的程序名信息。
10.根据权利要求1或7所述的方法,其特征在于,对语音控制条目进行的操作包括:添加语音控制条目、修改语音控制条目和删除语音控制条目。
CN201110363032.4A 2011-11-16 2011-11-16 一种语音识别控制方法 Active CN102520788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110363032.4A CN102520788B (zh) 2011-11-16 2011-11-16 一种语音识别控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110363032.4A CN102520788B (zh) 2011-11-16 2011-11-16 一种语音识别控制方法

Publications (2)

Publication Number Publication Date
CN102520788A true CN102520788A (zh) 2012-06-27
CN102520788B CN102520788B (zh) 2015-01-21

Family

ID=46291740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110363032.4A Active CN102520788B (zh) 2011-11-16 2011-11-16 一种语音识别控制方法

Country Status (1)

Country Link
CN (1) CN102520788B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102883041A (zh) * 2012-08-02 2013-01-16 聚熵信息技术(上海)有限公司 移动终端的语音控制装置及方法
CN102929385A (zh) * 2012-09-05 2013-02-13 四川长虹电器股份有限公司 语音控制应用程序的方法
CN103064828A (zh) * 2013-01-25 2013-04-24 华为终端有限公司 一种操作文本的方法及装置
CN103092823A (zh) * 2013-01-25 2013-05-08 华为终端有限公司 一种操作文本的方法及装置
CN103442138A (zh) * 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
CN103442130A (zh) * 2013-04-10 2013-12-11 威盛电子股份有限公司 语音操控方法、移动终端装置及语音操控系统
CN103543930A (zh) * 2012-07-13 2014-01-29 腾讯科技(深圳)有限公司 一种电子书操作控制方法及装置
CN103678383A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 一种数据处理方法及电子设备
CN103915095A (zh) * 2013-01-06 2014-07-09 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
CN104461597A (zh) * 2013-09-24 2015-03-25 腾讯科技(深圳)有限公司 应用程序的启动控制方法及装置
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN105094331A (zh) * 2015-07-27 2015-11-25 联想(北京)有限公司 一种信息处理方法及电子设备
CN105183422A (zh) * 2015-08-31 2015-12-23 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置
CN105278970A (zh) * 2014-06-16 2016-01-27 中兴通讯股份有限公司 一种数据处理方法、装置和终端
CN106098063A (zh) * 2016-07-01 2016-11-09 海信集团有限公司 一种语音控制方法、终端设备和服务器
CN106325889A (zh) * 2016-09-30 2017-01-11 北京奇点机智信息技术有限公司 数据处理方法及装置
CN106371905A (zh) * 2016-08-29 2017-02-01 北京奇点机智信息技术有限公司 应用程序操作方法、装置和服务器
CN107240400A (zh) * 2017-07-03 2017-10-10 重庆小雨点小额贷款有限公司 终端操作方法及装置
CN107408385A (zh) * 2015-04-22 2017-11-28 谷歌公司 开发者语音动作系统
CN108363556A (zh) * 2018-01-30 2018-08-03 百度在线网络技术(北京)有限公司 一种基于语音与增强现实环境交互的方法和系统
CN108710791A (zh) * 2018-05-22 2018-10-26 北京小米移动软件有限公司 语音控制的方法及装置
CN109285549A (zh) * 2017-07-20 2019-01-29 北京嘀嘀无限科技发展有限公司 语音处理方法及装置
CN109727597A (zh) * 2019-01-08 2019-05-07 未来电视有限公司 语音信息的交互辅助方法和装置
CN111192578A (zh) * 2019-12-28 2020-05-22 惠州Tcl移动通信有限公司 应用控制方法、装置、存储介质及电子设备
CN111414145A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音功能使用提示方法及装置
CN113380242A (zh) * 2021-05-26 2021-09-10 广州朗国电子科技有限公司 一种语音控制多媒体播放内容的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037721A (ja) * 2002-07-02 2004-02-05 Pioneer Electronic Corp 音声応答システム、音声応答プログラム及びそのための記憶媒体
CN1641563A (zh) * 2004-01-09 2005-07-20 顺德市顺达电脑厂有限公司 电脑装置的语音快捷控制装置及方法
CN1983160A (zh) * 2005-12-13 2007-06-20 台达电子工业股份有限公司 使用者自定声控功能快捷方式的模块及其方法
US7711560B2 (en) * 2003-02-19 2010-05-04 Panasonic Corporation Speech recognition device and speech recognition method
CN101739197A (zh) * 2008-11-24 2010-06-16 宏达国际电子股份有限公司 功能启动系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037721A (ja) * 2002-07-02 2004-02-05 Pioneer Electronic Corp 音声応答システム、音声応答プログラム及びそのための記憶媒体
US7711560B2 (en) * 2003-02-19 2010-05-04 Panasonic Corporation Speech recognition device and speech recognition method
CN1641563A (zh) * 2004-01-09 2005-07-20 顺德市顺达电脑厂有限公司 电脑装置的语音快捷控制装置及方法
CN1983160A (zh) * 2005-12-13 2007-06-20 台达电子工业股份有限公司 使用者自定声控功能快捷方式的模块及其方法
CN101739197A (zh) * 2008-11-24 2010-06-16 宏达国际电子股份有限公司 功能启动系统及方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103543930A (zh) * 2012-07-13 2014-01-29 腾讯科技(深圳)有限公司 一种电子书操作控制方法及装置
CN102883041A (zh) * 2012-08-02 2013-01-16 聚熵信息技术(上海)有限公司 移动终端的语音控制装置及方法
CN102929385A (zh) * 2012-09-05 2013-02-13 四川长虹电器股份有限公司 语音控制应用程序的方法
CN103678383B (zh) * 2012-09-17 2017-12-01 联想(北京)有限公司 一种数据处理方法及电子设备
CN103678383A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 一种数据处理方法及电子设备
WO2014106433A1 (zh) * 2013-01-06 2014-07-10 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
US10971156B2 (en) 2013-01-06 2021-04-06 Huawei Teciinologies Co., Ltd. Method, interaction device, server, and system for speech recognition
US11676605B2 (en) 2013-01-06 2023-06-13 Huawei Technologies Co., Ltd. Method, interaction device, server, and system for speech recognition
CN103915095A (zh) * 2013-01-06 2014-07-09 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
CN103915095B (zh) * 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
US10229684B2 (en) 2013-01-06 2019-03-12 Huawei Technologies Co., Ltd. Method, interaction device, server, and system for speech recognition
CN103092823A (zh) * 2013-01-25 2013-05-08 华为终端有限公司 一种操作文本的方法及装置
CN103092823B (zh) * 2013-01-25 2015-08-19 华为终端有限公司 一种操作文本的方法及装置
CN103064828A (zh) * 2013-01-25 2013-04-24 华为终端有限公司 一种操作文本的方法及装置
CN106878566A (zh) * 2013-04-10 2017-06-20 威盛电子股份有限公司 语音操控方法、移动终端装置及语音操控系统
CN103442130A (zh) * 2013-04-10 2013-12-11 威盛电子股份有限公司 语音操控方法、移动终端装置及语音操控系统
US10074365B2 (en) 2013-04-10 2018-09-11 Via Technologies, Inc. Voice control method, mobile terminal device, and voice control system
CN103442138A (zh) * 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
CN104461597A (zh) * 2013-09-24 2015-03-25 腾讯科技(深圳)有限公司 应用程序的启动控制方法及装置
CN105278970A (zh) * 2014-06-16 2016-01-27 中兴通讯股份有限公司 一种数据处理方法、装置和终端
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN107408385A (zh) * 2015-04-22 2017-11-28 谷歌公司 开发者语音动作系统
US11657816B2 (en) 2015-04-22 2023-05-23 Google Llc Developer voice actions system
CN107408385B (zh) * 2015-04-22 2021-09-21 谷歌公司 开发者语音动作系统
CN105094331A (zh) * 2015-07-27 2015-11-25 联想(北京)有限公司 一种信息处理方法及电子设备
CN105094331B (zh) * 2015-07-27 2018-08-07 联想(北京)有限公司 一种信息处理方法及电子设备
CN105183422B (zh) * 2015-08-31 2018-06-05 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置
CN105183422A (zh) * 2015-08-31 2015-12-23 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置
CN106098063B (zh) * 2016-07-01 2020-05-22 海信集团有限公司 一种语音控制方法、终端设备和服务器
CN106098063A (zh) * 2016-07-01 2016-11-09 海信集团有限公司 一种语音控制方法、终端设备和服务器
CN106371905B (zh) * 2016-08-29 2019-12-17 北京奇点机智信息技术有限公司 应用程序操作方法、装置和服务器
CN106371905A (zh) * 2016-08-29 2017-02-01 北京奇点机智信息技术有限公司 应用程序操作方法、装置和服务器
CN106325889A (zh) * 2016-09-30 2017-01-11 北京奇点机智信息技术有限公司 数据处理方法及装置
CN107240400A (zh) * 2017-07-03 2017-10-10 重庆小雨点小额贷款有限公司 终端操作方法及装置
CN109285549A (zh) * 2017-07-20 2019-01-29 北京嘀嘀无限科技发展有限公司 语音处理方法及装置
US11397559B2 (en) 2018-01-30 2022-07-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and system based on speech and augmented reality environment interaction
CN108363556A (zh) * 2018-01-30 2018-08-03 百度在线网络技术(北京)有限公司 一种基于语音与增强现实环境交互的方法和系统
CN108710791A (zh) * 2018-05-22 2018-10-26 北京小米移动软件有限公司 语音控制的方法及装置
CN111414145A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音功能使用提示方法及装置
CN109727597A (zh) * 2019-01-08 2019-05-07 未来电视有限公司 语音信息的交互辅助方法和装置
CN111192578A (zh) * 2019-12-28 2020-05-22 惠州Tcl移动通信有限公司 应用控制方法、装置、存储介质及电子设备
CN111192578B (zh) * 2019-12-28 2023-04-07 惠州Tcl移动通信有限公司 应用控制方法、装置、存储介质及电子设备
CN113380242A (zh) * 2021-05-26 2021-09-10 广州朗国电子科技有限公司 一种语音控制多媒体播放内容的方法及系统

Also Published As

Publication number Publication date
CN102520788B (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN102520788B (zh) 一种语音识别控制方法
AU2011296763B2 (en) Mobile terminal and multi-touch based method for controlling list data output for the same
KR101587625B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
CN107832474A (zh) 促进与系统级搜索用户接口的交互
CN112163086B (zh) 多意图的识别方法、显示设备
CN102929425B (zh) 一种触摸按键控制方法及装置
CN103841656A (zh) 移动终端及其数据提供方法
CN102883041A (zh) 移动终端的语音控制装置及方法
CN112511882B (zh) 一种显示设备及语音唤起方法
CN108962220A (zh) 多媒体文件播放场景下的文本显示方法及装置
CN101232678A (zh) 一种菜单选择的方法和终端
CN111866568B (zh) 一种显示设备、服务器及基于语音的视频集锦获取方法
US20200168216A1 (en) Multimedia device for processing voice command
CN202533866U (zh) 一种语音识别控制系统
US11042587B2 (en) Performing behavior analysis on audio track data to obtain a name of an application
CN111061452A (zh) 用户界面的语音控制方法和装置
CN112068764B (zh) 一种语言切换方法、装置和用于语言切换的装置
CN113241097A (zh) 录音方法、装置、电子设备和可读存储介质
EP3660841B1 (en) Multimedia device for processing voice command
CN112256232B (zh) 显示设备与自然语言生成后处理方法
CN113885994A (zh) 显示方法、装置和电子设备
CN113721880A (zh) 一种应用程序声音的控制实现方法以及电子设备
CN111258436B (zh) 一种配置信息修改方法、装置及可读介质
CN112492402B (zh) 一种显示设备
CN114967938A (zh) 一种提示方法、装置和用于提示的装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 261031 Dongfang Road, Weifang high tech Industrial Development Zone, Shandong, China, No. 268

Patentee after: Goertek Inc.

Address before: 261031 Dongfang Road, Weifang high tech Industrial Development Zone, Shandong, China, No. 268

Patentee before: Goertek Inc.