CN104347070A

CN104347070A - 以语音识别来选择控制客体的装置及方法

Info

Publication number: CN104347070A
Application number: CN201410103092.6A
Authority: CN
Inventors: 申宗元; 金涩幂; 郑姜理; 多全仁; 柳惠俊; 尹延森; 金京顺
Original assignee: Diotek Co Ltd
Current assignee: Diotek Co Ltd
Priority date: 2013-08-09
Filing date: 2014-03-19
Publication date: 2015-02-11
Also published as: EP2835734A1; KR101447879B1; TW201506685A

Abstract

本发明涉及一种以语音识别来选择控制客体的装置及方法，本发明的控制客体选择装置是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置，所述一个以上的处理装置，其构成为，基于用户的语音获取输入信息，基于控制客体获取的与符号对应的至少一个的识别信息与输入信息匹配，在识别信息中获取与输入信息匹配的匹配识别信息，在匹配识别信息中选择对应的控制客体；在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别来控制电子装置，具有可提高该电子装置的用户接近性的效果。

Description

以语音识别来选择控制客体的装置及方法

技术领域

本发明涉及一种以语音识别来选择控制客体的装置和方法，尤其是利用基于控制客体的符号的识别信息来选择控制客体的装置和方法。

背景技术

随着使用电脑、笔记本电脑、智能手机、平板电脑、汽车导航仪等电子装置的用户越来越多，这些电子装置与用户间易于人机交互的用户界面的重要性也越来越高。

一般的用户界面多是通过键盘、鼠标、触控屏幕等输入装置进行物理性输入，但是对于无法看到显示画面的视觉残疾人，或是不便于使用操作键盘、鼠标、触控屏幕等输入装置的用户来说，通过上述的用户界面来操作电子装置是不容易的。

另外，对于没有残疾的人来说，在驾驶中或是双手拿着行李不便于或是很难对电子装置进行操作时，通过上述用户界面不易于操作电子装置。

由此可见，开发出可提高电子装置接近性的用户界面势在必行。可提高电子装置接近性的用户界面中，如分析用户语音控制电子装置的语音识别技术就属其一。

为了实现电子装置利用语音识别技术，通过用户的语音来进行控制，需要事先将可与用户语音匹配的控制指令内置在电子装置中。

在将可与用户语音匹配的控制指令内置在平台端时，通过语音识别，可对相关电子装置的基本设定，如电子装置的音量或亮度等进行控制。

此外，为了通过语音识别对个性的应用程序进行控制，在各个应用程序上，必须内置可与用户语音匹配的控制指令。

因此，为了在不支持语音识别的应用程序中进行语音识别，或是为了添加语音识别功能，需要对应用程序进行新的开发或是升级，以便在相关的应用程序上内置与用户语音匹配的控制指令。

但是，电子装置和各个电子装置所搭载的应用程序日新月异、多种多样，在所有的应用程序上内置与用户语音匹配的控制指令并不容易，在多种多样的应用程序中实现可联动通用的语音识别系统就更为不易。

综上所述，支持语音识别的应用程序很少，即使支持语音识别，通过语音识别而执行的动作也很有限，实质上提高电子装置的接近性也是非常有限的。

由此可见，开发通过语音识别来提高电子装置接近性的技术，是势在必行的。

发明内容

为了解决上述技术问题，本发明的目的在于，提供一种在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别控制电子装置的装置及方法。

为了解决上述技术问题，本发明的另一目的在于，提供一种通过语音识别可选择由图像构成的控制客体的装置和方法。

本发明的目的不局限于上述目的，未提及的其他目的通过下述记载对本技术领域的技术人员来说是显而易见的。

本发明实现上述目的的技术方案是：一种控制客体选择装置，是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置；所述一个以上的处理装置的构成为，基于用户的语音获取输入信息，基于控制客体获取的与符号对应的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。

本发明的另一技术特征是：所述符号是基于所述控制客体的显示信息而获取的。

本发明的另一技术特征是：所述符号是基于应用程序画面信息而获取的。

本发明的另一技术特征是：所述符号是通过光学字符识别（OCR:opticalcharacter recognition）而获取的。

本发明的另一技术特征是：所述符号通过图像模式匹配（image patternmatching）而获取。

本发明的另一技术特征是：所述符号与随着在所述装置上实行的应用程序相异的识别信息对应。

本发明的另一技术特征是：所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。

本发明的另一技术特征是：所述输入信息包括通过语音识别，由所述用户的语音而识别的文本（Text）；所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。

本发明的另一技术特征是：所述一个以上的处理装置，不存在与所述识别信息匹配的匹配识别信息时，设定用户指定识别信息与一控制客体对应。

本发明实现上述目的的另一技术方案是：一种控制客体选择方法，是在电脑装置中通过语音识别来选择控制客体的方法，其特征在于，包括：基于用户的语音获取输入信息的步骤；基于控制客体获取的与符号对应的至少一个的识别信息与所述输入信息匹配的步骤；在所述识别信息中获取与所述输入信息匹配的匹配识别信息的步骤；在所述匹配识别信息中选择对应的控制客体的步骤。

本发明的另一技术特征是：所述识别信息是基于所述控制客体的显示信息而获取的。

本发明实现上述目的的另一技术方案是：一种可电脑判读的媒体，是储存指令集的可电脑判读的媒体，其特征在于，所述指令集因电脑装置而被执行时，可让所述电脑装置获取基于用户语音的输入信息，基于控制客体获取的与符号对应的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。

其他实施方式的具体事项包含在本发明的详细说明及说明书附图内。

本发明的有益效果是：依据本发明，在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别控制电子装置，具有提高相关电子装置接近性的效果。

依据本发明，通过语音识别可选择由图像构成的控制客体，具有不受构成控制客体的构成要素的类别影响，可通过语音识别选择控制客体的效果。

本发明的效果并不局限于上述内容，本发明还具有其他多种效果。

附图说明

图1是本发明一实施方式的控制客体选择装置的方块图；

图2是本发明一实施方式的控制客体选择方法的流程图；

图3图示了基于控制客体的显示信息而获取符号和与符号对应识别信息；

图4图示了符号和符号对应的识别信息的示例图；

图5是本发明一实施方式的控制客体选择装置的示意图；

图6是本发明一实施方式的控制客体选择装置的流程图；

图7是本发明一实施方式的控制客体选择方法的另一示意图。

附图符号说明

100、控制客体选择装置；110、界面；120、处理器；122、内存控制器；124、内存；130、显示部；140、话筒；142、扬声器；150、160、应用程序；152、154、156、171、172、173、174、175、176、177、178、179、控制客体；200、控制客体的信息；252、252A、252B、254、254A、254B、256、256A、256B、控制客体的显示信息；300、352、354、356、358、368、符号；400、452、454、456、458、468、识别信息

具体实施方式

本发明的优点及特征，以及实现其优点及特征的方法，将结合本发明的附图，通过以下的实施方式进行明确的说明。但是，本发明并不局限于以下的实施方式，可为多种形态，本发明的实施方式用于说明本发明的特征，用于在本发明的技术领域，向相关技术人员说明本发明的范围，本发明的范围取决于本发明的权利要求项的范围。

“第一”、“第二”等表现用于说明多种构成要素，但是本发明的构成要素并不局限于此。这中表现只用来区分不同的构成要素，也就是说，本发明中的第一构成要素也可以被称为第二构成要素。

在说明书中所标记的相同的符号是指相同的构成要素。

本发明的多个实施方式的各自特征可部分或全部的结合或组合，本发明技术领域的技术人员可通过充分理解其内容，进行多种多样的技术性联动或驱动，各实施方式可相对独立，也可结合实施。

在本说明书中，在任何一个构成要素向其他构成要素“传送”数据或信号时，可以是直接传送所述数据或信号，也可以是通过至少一个以上的其他构成要素来传送数据和信号。

“语音识别”一般是指用户所发出的声音被电子装置分析，并以文本来识别的作业。具体来说，用户所发出声音的波形被输入电子装置时，参照音响型号等，语音波形被分析，从而获取语音模式信息。另外，所获取的语音模式信息与识别信息进行对比，从而识别出识别信息中一致概率最高的文本。

在本说明书中，“输入信息”是指基于用户的语音，经过前述的部分或是全部的语音识别过程而获取的信息。比如说，输入信息可以是分析用户的语音波形而获取的语音模式信息。这种语音模式信息为了表现声学特征，由按照短区间从用户的语音中提取的语音特征系数构成。

在本说明书中，“控制客体”是指在控制客体选择装置的画面上显示出来，可接收用户输入的按键等界面，在显示出来的控制客体上，完成用户输入后，控制客体选择装置可执行事先决定的控制动作。

控制客体可以是用户通过对按键、确认栏、文字输入栏等的点击、输入来选择的界面，但并不局限于此，也可以是用户通过鼠标或触控屏等输入装置来选择的所有界面。

本说明书中，“符号”不包括文本，是指以特定意义来解释的图形、记号或图像。以符号标记的控制客体，该控制客体的符号一般可暗示该控制客体在应用程序中应执行哪种功能。比如说，“”符号一般是指播放声音或影像等，“+”符号或“-”符号是指添加或删减项目等。

在本说明书中，“识别信息”是指通过控制客体选择装置，基于控制客体自动获取的文本。与基于控制客体而获取的符号对应。符号和识别信息可以一对一、一对多、多对一地对应。与符号对应的识别信息的相关说明将在图4中后述。

分析用户的语音而获取的语音模式信息若与文本的识别信息匹配，识别信息中一致概率最高的识别信息可被识别。

识别信息中与用户的语音一致概率最高的识别信息被识别时，与所识别的识别信息对应的控制客体会被选择。因此，即使未内置与用户的语音相匹配的控制指令，控制客体也会因控制客体选择装置被选择。

符号基于控制客体的显示信息或应用程序的画面信息而获取，与此相关的详细说明参照图3将另行后述。

本说明书中，“控制客体的显示信息”是指显示特定控制客体时使用的信息。比如说，客体的图像、符号、控制客体的大小或位置等信息可为显示信息。基于构成显示信息的各项目的值或该值的属性，控制客体被显示在控制客体选择装置的画面上。

在本说明书中，“应用程序的画面信息”是指在控制客体选择装置所执行的应用程序中，显示特定画面时所使用的信息。

在本说明书中，“用户输入文本”是指用户的语音通过语音识别功能，在控制客体选择装置上表现文字的方式。比如说，转换为ASCII码等的文本。

接下来，参照说明书附图，对本发明的多种实施方式进行详细的说明。

图1是本发明一实施方式的控制客体选择装置的方块图。

如图1所示，本发明的一实施方式的控制客体选择装置100包括：处理器120、内存控制器122、内存124。还包括：界面110、话筒140、扬声器142、显示部130。

本发明一实施方式的控制客体选择装置100是可通过语音识别选择控制客体的电脑装置，包括一个以上的处理装置，可以是具备音响输入功能的电脑、笔记本电脑、智能手机、平板电脑、汽车导航仪、掌上电脑、便携式媒体播放器、MP3播放器、电子词典等终端设备，或是与这些终端设备连接的服务器或由多个电脑构成的分散电脑系统。在此，一个以上的处理装置可包括至少一个以上的处理器120和内存124，复数个处理器120可共享相互的内存124。

内存124储存程序或指令集等，内存124可包括随机存取存储器（RAM;random access memory）、只读存储器（ROM;read-only memory）、磁盘装置、光盘装置、闪存等。

处理装置基于用户的语音获取输入信息，基于控制客体而获取的与符号对应的至少一个的识别信息和输入信息匹配，获取识别信息中与输入信息匹配的匹配识别信息，选择与匹配识别信息对应的控制客体。

内存控制器122控制处理器120或界面110等其他组件被格式化成内存124。

处理器120可执行储存在内存124上的程序或指令集进行实行等的演算。

界面110将控制客体选择装置100的话筒140或扬声器142等输入输出装置100连接在处理器120及内存124上。

话筒140可接收语音信号，将接收的语音信号转换成电子信号，提供给界面110。扬声器142接收来自界面110的电子信号，并将其转换成语音信号后输出。

显示部130向用户显示视觉性的图像信息，显示部130可包括侦测触控输入的触控屏幕显示。

本发明的一实施方式的控制客体选择装置100是利用储存在内存124上，由处理器120而实行的程序（以下称为“控制客体选择引擎”），通过语音识别来选择控制客体的。

控制客体引擎是在控制客体选择装置100的背景下而实行的，自应用程序获取控制客体的信息，利用基于控制客体的信息获取的识别信息，让控制客体选择装置100通过语音识别来选择控制客体。

图2是本发明一实施方式的控制客体选择方法的流程图；为了便于说明参照图3一起说明。

图3图示了基于控制客体的显示信息而获取符号和与符号对应识别信息。

控制客体选择装置基于用户的语音获取输入信息S100。

在此，输入信息是指分析用户语音的特征而获取的语音模式信息，但输入信息并不局限于此。

获取输入信息后，控制客体选择装置将基于控制客体获取的与符号对应的至少一个的识别信息与输入信息进行匹配S110。

如图3所示，在控制客体选择装置100上实行地铁应用程序150时，“快退按键152”、“快进按键154”、“播放按键156”属于控制客体。

依据本发明的一实施方式，基于控制客体的显示信息，可获取并实现符号。

如图3所示，在控制客体的信息200中，显示信息252、254、256可包括决定控制客体大小和位置的项目252A、254A、256A的“width”项目、“height”项目、“left”项目及“top”项目，及提供控制客体的图像链接的“img”项目252B、254B、256B等的值。

前述的项目252A、254A、256A、252B、254B、256B是为了便于说明任意定义的，构成控制客体的显示信息252、254、256的项目的种类、数量、项目名称等可做多种多样的变形来体现。

如图3所示，提供控制客体152、154、156的图像链接的“img”项目252B、254B、256B的值由该控制客体152、154、156的图像文件路径（“bwd.jpg”,“play.jpg”,“fwd.jpg”）或显示图像的文字列构成。在此，“bwd.jpg”,“play.jpg”,“fwd.jpg”仅为一实施方式，控制客体可由多种形式的文件显示成图像。

决定控制客体大小和位置的项目252A、254A、256A中的“width”项目及“height”项目的值，决定控制客体152、154、156的图像宽度和高度；“left”项目及“top”项目的值，决定控制客体152、154、156的显示位置，从而可决定该控制客体152、154、156被显示的领域。

如图3所示，“快退按键152”以“img”项目252B的“bwd.jpg”显示为图像。“bwd.jpg”的相关图像模式匹配或光学字符识别被实行后，可获取“”符号。以此类推，“play.jpg”和“fwd.jpg”的相关图像模式匹配或光学字符识别被实行后，可获取“”符号和“”符号。

在此，“图像模式匹配”是指对象图像，如从前述的“bwd.jpg”、“play.jpg”、或“fwd.jpg”等图像提取特征（feature）后，通过事先设定或是用户事后的说明或经验方式，在所生成的对比群中，获得具有相同或是近似模式的图像，为了进行图像模式匹配，可利用模板匹配（templatematching）、神经式网络（neural network）、隐马尔可夫模型（HMM;hidden Markov model）等，但并不局限于所列举的方法，可利用多种多样的方法。

符号通过控制客体选择引擎来获取，可储存在内存上，但并不局限于此，也可以通过所执行的应用程序来获取储存在内存上。

如上所述，基于控制客体而获取的符号，与识别信息对应。有关对应于符号的识别信息，参照图4进行详细说明。

图4图示了符号和符号对应的识别信息的示例图。

“快退按键152”（图3）、“快进按键154”（图3）、“播放按键156”（图3）的符号，分别可获取“”、“”、“”。

如图4所示，所获取的符号分别与识别信息对应。“”符号352获取“快退”识别信息452；“”符号354获取“快进”识别信息454；“”符号356获取“播放”识别信息456。获取与所获取的识别信息相匹配的输入信号时，与该识别信息对应的控制客体，即显示与该识别信息对应符号的控制客体被选择。

另外，图4所示的符号300或与符号对应的识别信息400仅为示例，符号的种类及其对应的识别信息可多种多样。

也就是说，没有必要一定是一个符号对应一个识别信息，根据应用程序，符号意义可为多种多样的，一个符号可以对应多个具有不同意义的识别信息。

如上所述，一个符号对应复数个识别信息时，该复数个识别信息间具有优先顺序，从而来决定匹配的识别信息。

也就是说，“”符号356，因与“”符号358形态近似，作为识别信息，“播放”及“快进”均可对应。此时，自用户的语音获取“快进”这个输入信息时，对于在“快进按键154”及“播放按键156”中选择哪一个控制客体，需要一个基准。

因此，对于“快进按键154”来说，“快进”识别信息的优先顺序是最靠前的；对于“播放按键156”来说，“播放”识别信息的优先顺序是最靠前的，“快进”识别信息则是第二位。自用户语音获取“快进”输入信息时，“快进”识别信息优先选择对应的“快进按键154”。

另外，对于一个符号，根据应用程序可对应相异的识别信息。比如说，“”符号356，在媒体播放应用程序中，可对应“播放”；在网页浏览或电子书阅读的应用程序中，可对应为“下一页”。

识别信息和输入信息的匹配，也就是通过识别信息和语音模式信息的匹配，所获取的语音模式与识别信息对比，判断具有与该语音模式相同或最近似模式的识别信息。

另外，来自用户语音的语音模式信息以代码化的方式，将识别信息代码化为音素或特定区间单位，可使语音模式信息和识别信息互相匹配。识别信息和语音模式信息在匹配时，可利用静态匹配（static matching）、余弦相似度（cosine similarity）、弹性匹配（elastic matching）等。

控制客体选择装置依据所获取的识别信息和输入信息的匹配结果，来判断是否有与输入信息匹配的匹配识别信息S120。

如上所述，判断具有与所获取的语音模式相同或最近似模式的识别信息是匹配识别信息。

若判断没有与输入信息匹配的匹配识别信息时，也就是说，没有与输入信息在一定程度上匹配的识别信息时，控制客体选择装置在重新获取输入信息前呈待机状态，或是要求用户重新发音。比如说，如图3所示，存在“快退”、“播放”、“快进”识别信息时，自用户语音获取“后退”这个输入信息后，可能不存在与所获取的输入信息相匹配的匹配识别信息。此时，为了获取与识别信息匹配的输入信息，要求输入用户语音是非常没有效率的。

因此，若判断没有与输入信息匹配的匹配识别信息的话，控制客体选择装置使用户指定识别信息与一控制客体对应，该用户指定识别信息可为一控制客体的识别信息。

在此，“用户指定识别信息”是指为了使其为控制客体的识别信息，可由语音模式构成，此时语音模式可以是在S100步骤中自用户语音而获取的语音模式。

若语音模式为用户识别信息，与一控制客体对应，并可为该控制客体的识别信息时，获取与该语音模式相同或最近似的语音模式后，该语音模式对应的一控制客体可被选择。

相反，判断有与输入信息匹配的匹配识别信息时，控制客体选择装置获取该匹配识别信息S130。

比如说，如图3所示，自用户的语音获取“播放”这一输入信息时，在“快退”、“快进”、“播放”识别信息中，“播放”识别信息属于匹配识别信息。

获取匹配的识别信息后，控制客体选择装置选择与匹配的识别信息相对应的控制客体S140。

在此，控制客体的选择是可通过输入事件或选择事件来实现的。

“事件”是指程序中所侦测的活动或事件，按照事件的类型，举例来说有用于处理输入的输入事件、用于处理输出的输出事件、用于选择特定客体的选择事件等。

输入事件通常是通过鼠标、触控板、触控屏幕、键盘等输入装置，进行点击、触控、键入等输入时而发生的，但是即使不通过上述输入装置进行实际输入，也可以处理虚拟的输入，发生输入事件。

另外，选择事件是为了选择特定控制客体而发生的，依据特定控制客体的上述输入事件，如双击或键入事件的发生，来实现特定控制客体的选择。

如上所述，依据本发明的一实施方式的控制客体选择装置，即使事前未内置控制指令的应用程序，也可以通过语音识别来控制电子装置，具有提高该电子装置的用户接近性的效果。

另外，依据本发明一实施方式，符号可基于应用程序的画面信息而被获取。

在应用程序的画面上显示控制客体时，会实行与应用程序画面相关的光学字符识别，在该应用程序的画面内，可获取可识别为文本或文字记号的信息。

但是，应用程序的画面上，仅获取被识别成文本或文字记号的信息时，必须决定该信息是否是符号，若是符号应对应哪一个控制客体。

控制客体选择装置判断在应用程序画面内显示被识别成文本或文字记号识别信息的第一领域和与第一领域对应的第二领域内所显示的控制客体，在第一领域中将被识别成文本或文字记号的识别信息作为符号，实现与第二领域的控制客体的关联。

在此，与显示被识别成文本或文字记号的第一领域相对应的第二领域，可以是包括显示文本或文字记号的区段（block）的至少一部分的领域、与显示文本或文字记号的区段最临近的领域、显示文本的区段上端或下端的领域。与显示文本的区段最临近的领域、显示文本或文字记号的区段上端或下端的领域。在此，与第一领域对应的第二领域并不局限于上述内容，可为多种多样的方式。另外，为了判断在第二领域中所显示的控制客体，可参照控制客体的显示信息。

另外，本发明的一实施方式的控制客体选择装置不论是否有控制客体或应用程序画面的显示，都可以获取控制客体的识别信息。对此将参照图5进行详细说明。

图5是本发明一实施方式的控制客体选择装置的示意图。

如图5所示，根据控制客体选择装置100的画面分辨率，向用户所显示的范围也会受限制。

但是，识别信息基于控制客体的信息而被获取，实际与有无显示无关都可获取符号，并可决定符号所对应的识别信息。

如图5所示，应用程序170不仅对于显示的控制客体171、172、173、174、175可获取识别信息，还可对于没有显示的控制客体176、177、178、179获取识别信息。

由此可见，没有显示的控制客体176、177、178、179也可以通过语音识别而被选择，没有显示的控制客体176、177、178、179被选择时，可实现至该控制客体所在点的自动滚动（auto-scroll）。

如上所述，依据本发明一实施方式的控制客体选择装置，即使基于未显示的控制客体或画面，也可获取控制客体的识别信息。

另外，本发明的一实施方式的控制客体选择装置可将控制客体的识别信息或匹配识别信息以语音输出。

因为控制客体的识别信息以语音输出，所以用户可获取控制客体选择装置可识别的单词等；匹配识别信息以语音输出，从而使用户知道所发出的声音最终被识别的单词是什么，具有即使不看控制客体选择装置的画面，也可以选择控制客体的效果。

另外，依据本发明一实施方式，在控制客体上包含文本输入栏时，通过语音识别可在文本输入栏内输入文本。通过语音识别，使含在控制客体上的文本输入栏活性化，文本输入的构成参照图6及图7进行说明。

图6是本发明一实施方式的控制客体选择装置的流程图。

图7是本发明一实施方式的控制客体选择方法的另一示意图。

控制客体选择装置基于用户的语音而获取输入信息S200。

输入信息被获取时，控制客体选择装置将基于控制客体而获取的至少一个的识别信息与输入信息进行匹配S210。

如图7所示，基于控制客体168包括“放大按键”168A和文本输入栏168B，可获取基于“放大按键”168A的“放大”符号368（参照图4），其可与识别信息468（参照图4）对应。

若判断有与输入信息匹配的匹配识别信息时，控制客体选择装置获取该匹配识别信息S230。

所获取的识别信息和输入信息的匹配结果，控制客体选择装置判断是否有与输入信息匹配的匹配识别信息S220。

上述S200、S210、S220、S230步骤，与图2中的S100、S110、S120、S130步骤实质上是一样的，在此不作重复说明。

获取匹配识别信息后，控制客体选择装置判断与匹配识别信息对应的控制客体是否包括文本输入栏S240。

用户选择文本输入栏的意图可看作是为了在该文本输入栏输入文本。因此，控制客体包括文本输入栏时，体现为该文本输入栏内可输入文本。

若匹配的识别信息对应的控制客体不包括文本输入栏时，控制客体选择装置选择与匹配的识别信息对应的控制客体S250。S250步骤与图2所示的S140步骤实质上是相同的，省略重复说明。

当匹配的识别信息对应的控制客体包括文本输入栏时，控制客体选择装置使该文本输入栏活性化S260。

基于用户语音获取“搜索”这一输入信息时，所获取的输入信息可与“搜索”识别信息匹配，与“搜索”匹配识别信息对应的检索控制客体168包括文本输入栏168B，从而可使该文本输入栏168B活性化。

被活性化的文本输入栏内设有插入台。该文本输入栏被活性化后，控制客体选择装置利用语音识别功能，由用户的语音来获取用户输入文本S270。

也就是说，在文本输入栏被活性化后，所接收的用户语音信号，不会再被识别为用于与识别信息匹配的输入信息，被转换成用户输入文本，可在该文本输入栏内输入。

用户输入文本被获取后，控制客体选择装置将所获取的用户输入文本输入到控制客体内包括的文本输入栏上S280。

用户输入文本被输入到文本输入栏后，该文本输入栏非活性化，控制客体选择装置通过语音识别可重新选择控制客体。

另外，说明用户输入文本的输入结束的特定输入信息，如“结束”、“确认”、“下一个”等输入信息被获取时，该文本输入栏非活性化，控制客体选择装置可通过语音识别重新选择控制客体。

另外，依据本发明一实施方式，输入信息也可以是通过自用户语音获取的语音模式信息与语言模式数据库对比的过程而被识别的文本。

输入信息通过语音识别，自用户的语音识别文本时，输入信息和识别信息的匹配因识别的文本和识别信息自身的比较而被实行。

若判断没有与输入信息匹配的匹配识别信息时，也就是说，没有与输入信息在一定程度上匹配的识别信息时，控制客体选择装置在重新获取输入信息前呈待机状态，或是要求用户重新发音。比如说，如图3所示，存在“快退”、“播放”、“快进”识别信息时，自用户语音获取“后退”这个输入信息后，可能不存在与所获取的输入信息相匹配的匹配识别信息。

此时，为了获取与识别信息匹配的输入信息，要求输入用户语音是非常没有效率的。

在此，“用户指定识别信息”是指为了使其为控制客体的识别信息，可由文本构成，此时文本可以是自用户语音而获取的语音模式信息通过和语言模式数据库的比较过程而被识别的文本。

参附的方块图的各方块和流程图的各步骤的组合，可因电脑指令而实行。这些电脑指令可以搭载在常用电脑、特殊电脑或其它软件数据处理装备的处理机上，通过电脑或其它软件数据处理装备的处理机而实行的指令生成在方块图的各方块或流程图的各步骤中实行说明功能的手段。这些电脑软件指令为了以特定的方式体现功能，可在电脑或其它软件数据处理装备的可用于电脑或电脑可读的内存上储存，因此，在可用于电脑或电脑可读的内存上所储存的指令包括各方块图的方块或流程图的各步骤中实行的说明功能的指令手段。电脑软件指令也可搭载在电脑或其它软件数据处理装备上，电脑或其它软件数据处理装备上，相关的动作步骤被实行，生成电脑实行的处理器，实行电脑或其它软件数据处理装备的指令可提供方块图各方块及流程图各步骤中用于说明功能的步骤。

在本说明书中，各方块可以为包括用于实现特定的论理功能的一个以上可实行指令的模组、程序或代码的一部分。另外，在几种代替实行的举例中，在方块图中所提及的功能也可以是脱离顺序而发生的。举例来说，陆续被图示的两个方块也可能是实质上同时实行的，也可以是该方块有时随着功能而逆顺序实行。

与本说明书中所记载的实施方式相关，并被说明的方法或算法的步骤，可以是处理器实行的硬件、软件模组或其结合直接体现的。软件模组可为在RAM内存、闪存、ROM内存、EPROM内存、EEPROM内存、寄存器、硬盘、装拆性盘、CD-ROM或本技术领域内供知的任意形态的储存媒体。示例性的储存媒体在处理器上联合，处理器可判读来自媒体的信息，并在储存媒体上记入信息。采用其他方法，储存媒体可与处理器为一体形。处理器及储存媒体可设在ASIC集成电路内。ASIC可设置的用户终端机内。采用其他方法，处理器及储存媒体可各自设置在用户终端机内。

以上结合本发明的实施方式，对本发明作了更加详细的说明，但是本发明并不局限于此，在本发明技术思想的范围内可进行多种变形。由此可见，本发明所记载的实施方式并不用于限定本发明的思想，仅用于说明本发明，本发明的技术思想并不受实时方式的限制。本发明的保护范围在权利要求书中的权利要求项内，在其同等范围内的所有技术思想均被看作属于本发明的权利范畴之内。

Claims

1.一种控制客体选择装置，是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置；

所述一个以上的处理装置的构成为，基于用户的语音获取输入信息，基于控制客体获取的与符号对应的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。

2.根据权利要求1所述的控制客体选择装置，其特征在于，所述符号是基于所述控制客体的显示信息而获取的。

3.根据权利要求2所述的控制客体选择装置，其特征在于，所述符号是基于应用程序画面信息而获取的。

4.根据权利要求1或2所述的控制客体选择装置，其特征在于，所述符号是通过光学字符识别（OCR:optical character recognition）而获取的。

5.根据权利要求1或2所述的控制客体选择装置，其特征在于，所述符号通过图像模式匹配（image pattern matching）而获取。

6.根据权利要求1所述的控制客体选择装置，其特征在于，所述符号与随着在所述装置上实行的应用程序相异的识别信息对应。

7.根据权利要求1所述的控制客体选择装置，其特征在于，所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。

8.根据权利要求1所述的控制客体选择装置，其特征在于，所述输入信息包括通过语音识别，由所述用户的语音而识别的文本（Text）；所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。

9.根据权利要求1所述的控制客体选择装置，其特征在于，所述一个以上的处理装置，不存在与所述识别信息匹配的匹配识别信息时，设定用户指定识别信息与一控制客体对应。

10.一种控制客体选择方法，是在电脑装置中通过语音识别来选择控制客体的方法，其特征在于，包括：基于用户的语音获取输入信息的步骤；基于控制客体获取的与符号对应的至少一个的识别信息与所述输入信息匹配的步骤；在所述识别信息中获取与所述输入信息匹配的匹配识别信息的步骤；在所述匹配识别信息中选择对应的控制客体的步骤。

11.根据权利要求10所述的控制客体选择方法，其特征在于，所述识别信息是基于所述控制客体的显示信息而获取的。

12.根据权利要求11所述的控制客体选择方法，其特征在于，所述符号是基于应用程序画面信息而获取的。

13.根据权利要求10或11所述的控制客体选择方法，其特征在于，所述符号是通过光学字符识别（OCR:optical characterrecognition）而获取的。

14.根据权利要求10或11所述的控制客体选择方法，其特征在于，所述符号通过图像模式匹配（image pattern matching）而获取。

15.根据权利要求10所述的控制客体选择装置，其特征在于，所述符号与随着在所述装置上实行的应用程序相异的识别信息对应。

16.一种可电脑判读的媒体，是储存指令集的可电脑判读的媒体，其特征在于，所述指令集因电脑装置而被执行时，可让所述电脑装置获取基于用户语音的输入信息，基于控制客体获取的与符号对应的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。