CN103869931B

CN103869931B - 语音控制用户界面的方法及装置

Info

Publication number: CN103869931B
Application number: CN201210527881.3A
Authority: CN
Inventors: 王成军
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2012-12-10
Filing date: 2012-12-10
Publication date: 2017-02-08
Anticipated expiration: 2032-12-10
Also published as: CN103869931A

Abstract

本发明公开了语音控制用户界面的方法及装置。方法包括：当一用户界面即将载入运行时，遍历该用户界面上的元素，分别从每个元素中抽取该元素的标签，将抽取的所有界面元素标签保存到运行时标签库；当接收到用户输入的语音时，将该语音与运行时标签库中的各界面元素标签一一匹配，若匹配上，则对匹配的元素标签进行语义分析，根据语义分析结果对界面元素进行预定义的操作。本发明提高了语音控制用户界面的效率。

Description

语音控制用户界面的方法及装置

技术领域

本发明涉及用户界面技术领域，具体涉及语音控制用户界面的方法及装置。

背景技术

当前的很多软件采取图形用户界面（GUI，Graphical User Interface）的形式，允许用户通过鼠标、键盘、触摸屏等与GUI交互。随着计算机技术的飞速发展，各种便携式可视装备不断涌现，如智能眼镜、智能手表等等。其中，很多装备是不方便用手操作的，语音控制是一种很好的替代方案。

传统的软件用户界面仅考虑可视表现而开发，对于有助于语音交互的界面开发细节关注不够。目前存在各种技术以提供更好的语音人机交互，其中很多注重于创建可结合的更易于语音输入交互的新交互风格，如CommandTalk、ATIS、ELVIS、SUITEKeys等等。SUITEKeys直接模拟用手移动鼠标并且按各个键的交互。这些系统侧重于提供用于口头人机交互的改进型模型，从而在根本上改变交互风格。

近年来，已有一些影响较大的实用的语音识别控制系统推出，如GoogleVoice、Apple Siri等等。Google Voice对语音输入的语法结构和格式要求较高，Apple Siri则更注重结合上下文的语义智能分析。

当前的语音识别控制系统通过语音识别进行语义的智能分析和系统功能的调用。在语音输入的结构上，现有的语音控制系统可以分为两种：

一、要求语音输入具备严格的语法结构和格式，否则系统将无法识别。这种方式的控制系统又可分为两类：

第一类需要预先注册可以处理的一系列语音命令，并指定一个或多个语音命令的执行可能使用的用户界面执行的一个或多个语义操作信号。这一类集中在对设备常用功能的控制，普适性不佳，不易扩展。

第二类采用预定义的规则，解析UI框架（framework）元素，使UIframework支持语音，以便用户可使用语音命令与一些用户界面元素交互。这种方法普适性很好，目前基于这种方法的已有系统的主要问题是不够智能，用户体验不佳。

二、对输入没有严格要求，针对用户的语音输入会结合上下文进行语义的智能分析，根据分析的结果进行合适的处理。这类系统更加智能，人机互动方面，表现比较出色；最大的缺点是在实际的系统表现中，语义的分析目前远不够准确，经常会出现答非所问的情况。

发明内容

本发明提供语音控制用户界面的方法及装置，以提高语音控制用户界面的效率。

本发明的技术方案是这样实现的：

一种语音控制用户界面的方法，该方法包括：

当一用户界面即将载入运行时，遍历该用户界面上的元素，分别从每个元素中抽取该元素的标签，将抽取的所有界面元素标签保存到运行时标签库；

当接收到用户输入的语音时，将该语音与运行时标签库中的各界面元素标签一一匹配，若匹配上，则对匹配的元素标签进行语义分析，根据语义分析结果对界面元素进行预定义的操作。

所述分别从每个元素中抽取该元素的标签为：

当界面元素为下拉列表时，抽取该下拉列表的各列表项文本作为该下拉列表的标签；

当界面元素为文本框时，抽取该文本框的预设的只读颜色的文本作为该文本框的标签；

当界面元素为文本区域时，抽取该文本区域的预设的只读颜色的文本作为该文本区域的标签；

当界面元素为列表框时，抽取该列表框中各个栏目item对应的单item文本或多个子item文本作为该列表框的标签；

当界面元素为网格视图时，抽取该网格视图中各个item对应的单item文本或多个子item文本作为该网格视图的标签；

当界面元素为复选框时，抽取该复选框中各个item对应的单item文本或多个子item文本作为该复选框的标签；

当界面元素为单选按钮时，抽取该单选按钮中各个item对应的单item文本或多个子item文本作为该单选框的标签；

当界面元素为按钮时，抽取该按钮上的文字作为该按钮的标签；

当界面元素为拖动条时，抽取该拖动条的描述性标记label作为该拖动条的标签；

当界面元素为日期和时间控件时，抽取该控件的描述性label作为该控件的标签；

当界面元素为图片切换控件或滚动视图控件时，当该控件未聚焦时，若该控件自带描述性label，则抽取该描述性label作为该控件的标签，若该控件不带描述性label，则将为该控件预设的标签作为该控件的标签；当该控件聚焦时，抽取控件的用户界面动作作为该控件的标签；

当界面元素为组编辑区域时，对于每个窗口小部件widget的每个可编辑区域，若该可编辑区域自带描述性label，则抽取该描述性label作为该可编辑区域的标签，否则，抽取该可编辑区域所属的widget的描述性label作为该可编辑区域的标签。

所述遍历该用户界面上的元素为：

对于每个即将载入运行的用户界面，分别遍历各用户界面上的元素；

或者，只遍历最前端的活动界面上的元素。

所述匹配上为：完全匹配上；

且，所述将该语音与运行时标签库中的各界面元素标签一一匹配之后进一步包括：若语音的一部分与一界面元素标签匹配上，则对匹配的元素标签进行语义分析，根据语义分析结果对界面元素进行预定义的操作，然后将语音的另一部分作为该界面元素的内容输入。

所述将该语音与运行时标签库中的各界面元素标签一一匹配之后进一步包括：若未匹配上，则判断当前可视用户界面上是否有可输入的聚焦元素，若是，则将语音作为该元素的内容输入；否则，丢弃该语音。

所述将该语音与运行时标签库中的各界面元素标签一一匹配为：

将该语音与运行时标签库中属于当前可视范围内的各界面元素的标签一一匹配。

所述匹配上之后、对匹配的元素标签进行语义分析之前进一步包括：

判断匹配的标签是否可见，若是，执行所述对匹配的元素标签进行语义分析的动作；否则，不作进一步处理。

一种语音控制用户界面的装置，该装置包括：解析器、运行时标签库、语音识别引擎、分析引擎和执行引擎，其中：

解析器：当一用户界面即将载入运行时，遍历该用户界面上的元素，分别从每个元素中抽取该元素的标签，将抽取的所有界面元素标签保存到运行时标签库；

运行时标签库：保存解析器抽取的用户界面元素标签；

语音识别引擎：当接收到用户输入的语音时，将该语音与运行时标签库中的各界面元素标签一一匹配，若匹配上，则将匹配的界面元素标签发送给分析引擎；

分析引擎：对匹配的元素标签进行语义分析，根据语义分析结果调用执行引擎对界面元素进行预定义的操作；

执行引擎：接受分析引擎的调用，对界面元素执行预定义的操作。

所述解析器进一步用于，当分别从每个元素中抽取该元素的标签时，

若界面元素为下拉列表，抽取该下拉列表的各列表项文本作为该下拉列表的标签；

若界面元素为文本框，抽取该文本框的预设的只读颜色的文本作为该文本框的标签；

若界面元素为文本区域，抽取该文本区域的预设的只读颜色的文本作为该文本区域的标签；

若界面元素为列表框，抽取该列表框中各个栏目item对应的单item文本或多个子item文本作为该列表框的标签；

若界面元素为网格视图，抽取该网格视图中各个item对应的单item文本或多个子item文本作为该网格视图的标签；

若界面元素为复选框，抽取该复选框中各个item对应的单item文本或多个子item文本作为该复选框的标签；

若界面元素为单选按钮，抽取该单选按钮中各个item对应的单item文本或多个子item文本作为该单选框的标签；

若界面元素为按钮，抽取该按钮上的文字作为该按钮的标签；

若界面元素为拖动条，抽取该拖动条的描述性标记label作为该拖动条的标签；

若界面元素为日期和时间控件，抽取该控件的描述性label作为该控件的标签；

若界面元素为图片切换控件和滚动视图控件，当该控件未聚焦时，若该控件自带描述性label，则抽取该描述性label作为该控件的标签，若该控件不带描述性label，则将为该控件预设的标签作为该控件的标签；当该控件聚焦时，则抽取控件的用户界面动作作为该控件的标签；

若界面元素为组编辑区域，对于每个widget的每个可编辑区域，若该可编辑区域自带描述性label，则抽取该描述性label作为该可编辑区域的标签，否则，抽取该可编辑区域所属的widget的描述性label作为该可编辑区域的标签。

所述解析器进一步用于，当遍历用户界面上的元素时，对于每个即将载入运行的用户界面，分别遍历各用户界面上的元素；或者，只遍历最前端的活动界面上的元素。

所述语音识别引擎进一步用于，若发现用户的语音与运行时标签库中的一界面元素标签完全匹配上，则将“标签+内容”发送给分析引擎，其中，“标签”为匹配上的界面元素标签，“内容”为空，若语音的一部分与运行时标签库中的一界面元素标签匹配上，则将“标签+内容”发送给分析引擎，其中，“标签”为匹配上的界面元素标签，“内容”为未匹配的语音部分；若未匹配上，将“标签+内容”发送给分析引擎，其中，“标签”为空，“内容”为语音；

且，所述分析引擎进一步用于，当发现语音识别引擎发来的“标签+内容”中的“内容”为空时，对“标签”进行语义分析，根据语义分析结果对界面元素进行预定义的操作；若发现“标签”和“内容”都不为空，则先对“标签”进行语义分析，根据语义分析结果对界面元素进行预定义的操作，然后将“内容”作为该界面元素的内容输入；若发现“标签”为空，则将“内容”作为当前可视范围内可输入的聚焦元素的内容输入。

所述分析引擎进一步用于，当接收到语音识别引擎发来的标签时，先判断标签是否可见，若是，执行所述对匹配的元素标签进行语义分析的动作；否则，不作进一步处理。

与现有技术相比，本发明提高了语音控制用户界面的效率。

附图说明

图1为本发明实施例提供的语音控制用户界面的装置的组成示意图；

图2为本发明实施例提供的语音控制用户界面的方法流程图；

图3为本发明应用示例的示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明实施例提供的语音控制用户界面的装置的组成示意图，如图1所示，其主要包括：解析器11、运行时标签库12、语音识别引擎13、分析引擎14、执行引擎15。

通过该语音控制用户界面的装置对用户界面进行语音控制的过程如图2所示：

图2为本发明实施例提供的语音控制用户界面的方法流程图，如图2所示，其具体步骤如下：

步骤200：预先设定用户界面元素标签抽取规则。

用户界面元素如：下拉列表、文本框、文本区域、列表框、网格视图、复选框、单选按钮、按钮、拖动条、日期和时间控件、图片切换控件、滚动视图、组编辑区域等。

为提供更好的用户体验，用户界面元素标签应该是UI可见的，可以是半透明或不透明的，且在视觉上与对应的可操作的用户界面元素紧密关联，简称可关联或可联想的，这就要求UI的设计必须符合一定的规范：每一个可输入的用户界面元素，都有一个或多个标签与其对应。

不同的用户界面元素其标签是不同的，以下给出不同用户界面元素的标签抽取规则：

1）下拉列表：其标签即为列表项文本。

2）文本框或文本区域：其标签即为预设的只读颜色的文本。

3）列表框或网格视图：其标签为列表框或网格视图中的各个栏目（item）对应的一个单item文本或多个子item文本。

一个列表框或者一个网格视图是由多个item组成的，而每个item又由简单文本或者多个子item组合而成，这样每个item对应一个单item文本或者多个子item文本。

4）复选框或单选按钮：其标签为复选框或单选按钮中的各个item对应的一个文本或多个子item文本。

5）按钮：其标签为按钮上的文字。

6）拖动条：其标签为该拖动条的描述性标记（label）。

拖动条即为可以拖动的进度条。

7）日期和时间控件：其标签为该空间的描述性label。

8）图片切换控件和滚动视图等控件：未聚焦时，若控件自带描述性label，则其标签为该描述性label，若控件不带描述性label，则为该控件预先设置标签，如通过setTag方式为该控件设置标签；聚焦时，将控件的用户界面动作如“放大”、“缩小”、“向上滚动”、“向下滚动”等作为其标签。

9）组编辑区域（EditField）：组编辑区域的每个窗口小部件（widget）由描述性label和可编辑区域组成，可编辑区域如：文本框、下拉列表等。对于每个可编辑区域，若该可编辑区域自带描述性label，则该描述性label为该可编辑区域的标签，否则，该可编辑区域所属的widget的描述性label为该可编辑区域的标签。

步骤201：定义各用户界面。

一个用户界面由一种或多种界面元素组成，不同的用户界面由不同组合的界面元素构成。

步骤202：检测到一用户界面即将载入运行，将该用户界面发送给解析器11。

本步骤中，可以将即将载入运行的用户界面都发给解析器11，也可以只将最前端的活动界面发送给解析器11。

可由用户界面控制模块将用户界面发送给解析器11。

步骤203：解析器11遍历用户界面元素，根据预先设定的用户界面元素标签抽取规则，得到每个元素的标签，将所有元素的标签存入运行时标签库12，并将运行时标签库12注册到语音识别引擎13。

这里，解析器11将运行时标签库12注册到语音识别引擎13，其具体实现例如：解析器11可将运行时标签库12的位置通知语音识别引擎13。

步骤204：当语音识别引擎13接收到用户发出的语音时，识别该语音，将该语音与运行时标签库12中的各用户界面元素标签一一匹配。

步骤205：语音识别引擎13判断是否匹配上，若是，执行步骤206；否则，执行步骤208。

本步骤中，语音识别引擎在进行匹配操作时，可以限定匹配范围是：当前可视范围内的界面元素的标签。

本步骤中，对于不同的界面元素的标签，其匹配方式有所不同，匹配成功后执行的操作也不同，具体如下：

1）下拉列表

由于其标签是列表项文本，则对应的用户语音即为列表项文本的内容。若用户的语音与运行时标签库中一列表项文本匹配上，则匹配成功。

当该下拉列表未展开时，运行时标签库12中只有当前选中的列表项文本；当该下拉列表展开时，运行时标签库12中包含了该下拉列表的所有列表项文本。

若在该下拉列表未聚焦（即未展开）时匹配成功，控件改为聚焦状态，触发聚焦事件；若在该下拉列表聚焦时匹配成功，则触发匹配列表项的点击（onclick）事件。

2）文本框或文本区域

由于其标签为预设的只读颜色的文本，则对应的用户语音即为预设的只读颜色的文本的内容。若用户语音与运行时标签库12中一预设的只读颜色的文本匹配上，则匹配成功。

当该文本框或文本区域未聚焦时匹配成功，控件改为聚焦状态，触发聚焦事件。

当该文本框或文本区域聚焦时，若用户发出了语音，则该语音内容将作为文本内容输入。

3）列表框或网格视图

由于其标签为列表框或网格视图中各item对应的单item文本或者多个子item文本，则对应的用户语音即为单item文本的内容或子item文本的内容。若用户语音与运行时标签库12中的单item文本或子item文本匹配上，则匹配成功。

当匹配成功时，触发匹配的item的onclick事件。

4）复选框或单选按钮

其标签为每个栏目（item）对应的文本，则对应的用户语音为item文本的内容，且，不论复选框或单选按钮是否聚焦，用户语音会与所有的item文本匹配。

若匹配成功，则匹配的item会被选中，并触发onclick事件。

需要说明的是，对于有的item，若匹配成功，其对应动作是不选中。

5）按钮

由于其标签为按钮上的文字，则对应的用户语音即按钮上的文字。

当匹配成功时，触发该按钮的onclick事件。

6）拖动条

由于其标签为该拖动条的描述性label，则对应的用户语音为该拖动条的描述性label的内容。当二者匹配上时，匹配成功。

当拖动条未聚焦时匹配成功，则控件改为聚焦状态，触发聚焦事件。

当拖动条聚焦时，若用户发出了语音，则根据该语音内容调整拖动条的位置，如：若语音为百分比50%，则将拖动条设置到50%位置。

7）日期和时间控件

由于其标签为该控件的描述性label，则对应的用户语音为该控件的描述性label。当二者匹配时，则匹配成功。

当该日期和时间控件未聚焦时匹配成功，则控件改为聚焦状态，触发聚焦事件。

当日期和时间控件聚焦时，若用户发出了语音，则根据语音内容，设置该控件的日期或时间值。

8）图片切换控件和滚动视图等控件

由于未聚焦时，若控件自带描述性label，则其标签为该描述性label，若控件不带描述性label，则为该控件预先设置标签，因此未聚焦时，对应的用户语音为控件的描述性label或预设标签，若二者匹配，则匹配成功。

当图片切换控件和滚动视图等控件未聚焦时匹配成功，则将控件改为聚焦状态，触发聚焦事件。

由于聚焦时，其标签为控件的用户界面动作，则对应的用户语音即为控件的用户界面动作，若二者匹配，则匹配成功。此时，执行对应的用户界面动作，如放大”、“缩小”、“向上滚动”、“向下滚动”等。

9）组编辑区域

由于每个可编辑区域的标签为该区域的描述性label或该区域所属widget的描述性label，则对应的用户语音为该区域的描述性label或该区域所属widget的描述性label，若二者匹配，则匹配成功。

由于可编辑区域为文本框、下拉列表等，因此匹配成功后的操作与上述文本框、下拉列表等相同。

步骤206：语音识别引擎13以“标签+内容”的格式，将匹配上的界面元素标签及可输入的语音内容发送给分析引擎，其中，“标签”即匹配上的界面元素标签。

本实施例中，可以预先定义“标签+内容”的标准格式。

若用户发出的语音与运行时标签库12中的一用户界面元素标签完全匹配上，则语音识别引擎13向分析引擎14发出的标准格式的“标签+内容”中的“标签”为匹配上的用户界面元素标签，“内容”则为空。

若用户发出的语音的一部分与运行时标签库12中的一用户界面元素匹配上，则语音识别引擎13向分析引擎14发出的标准格式的“标签+内容”中的“标签”为匹配上的用户界面元素标签，“内容”则为未匹配的语音部分。

步骤207：分析引擎14接收“标签+内容”，若发现该标签可见，即在作用域中，则对该标签进行语义分析，根据语义分析结果，调用执行引擎15对界面元素执行预定义的操作，本流程结束。

由于本发明实施例中，标签是从用户界面元素中抽取的，因此，本步骤中，分析引擎14只需对标签进行简单语义分析即可。

若标签不可见，则分析引擎14不作进一步处理。

为了使用户界面更加“语音友好”，执行引擎15在执行预定义的操作时，可对界面添加附加显示。如：类似SUITEKeys直接模拟用手点击触控屏，并且按各个键的交互。

具体地，分析引擎14根据界面元素的类型，进行相应处理，如：若界面元素为下拉列表，则调用执行引擎15触发匹配列表项的onclick事件；若界面元素为文本框或文本区域，则调用执行引擎15将控件改为聚焦状态，触发对匹配的文本框或文本区域的聚焦事件；若界面元素为列表框或网格视图，则调用执行引擎15触发匹配的item的onclick事件；若界面元素为复选框或单选按钮，则调用执行引擎15将匹配的item选中或不选中，且若为选中，同时触发匹配的item的onclick事件；若界面元素为按钮，则调用执行引擎15触发该按钮的onclick事件；若界面元素为拖动条，则调用执行引擎15将控件改为聚焦状态，触发对该拖动条的聚焦事件；若界面元素为日期和时间控件，则调用执行引擎15将控件改为聚焦状态，触发对该控件的聚焦事件；若界面元素为图片切换控件和滚动视图等控件，则在该控件未聚焦时，调用执行引擎15将该控件改为聚焦状态，触发对该控件的聚焦事件，在该控件聚焦时，调用执行引擎15执行标签对应的动作；若界面元素为组编辑区域，则调用执行引擎15将控件改为聚焦状态，触发对匹配的可编辑区域的聚焦事件。

若“标签+内容”中的“内容”不为空，分析引擎14对标签语义分析完并调用执行引擎15执行完预定义操作后，还需将该内容作为该界面元素的内容输入。例如：当界面元素为文本框或文本区域、拖动条、日期和时间控件、组编辑区域时，用户的语音是可以作为界面元素的内容的。

步骤208：语音识别引擎13以“标签+内容”的格式，将用户发出的语音作为“内容”发送给分析引擎14，其中“标签”为空。

步骤209：分析引擎14接收“标签+内容”，发现“标签”为空，判断当前可视用户界面内是否存在可输入的聚焦元素，若是，执行步骤210；否则，执行步骤211。

步骤210：分析引擎14调用执行引擎15将该“内容”作为该元素的内容输入，本流程结束。

例如：若当前可视用户界面内存在了如下元素之一，且该元素被聚焦时，则认为该“内容”为该元素的输入内容：

文本框或文本区域、拖动条、日期和时间控件、组编辑区域。

步骤211：分析引擎14丢弃该“内容”。

以下以安卓（Android）移动终端为例给出本发明的应用示例：

在该示例中，用户界面基于Android应用层框架构建。图3给出了该示例的示意图，如图3所示，支持语音的Android用户界面300基于Android应用层框架302而创建，语音控制用户界面的装置位于302之上。移动终端使用如下设备与用户交互：麦克风310、触控屏311、可选键盘312。语音控制用户界面的装置可从麦克风310接收语音输入。语音控制用户界面的装置包括：解析器11、运行时标签库12、语音识别引擎13、分析引擎14和执行引擎15。语音控制过程如下：

步骤01：在用户界面300载入前，用户界面300被发给解析器11。

步骤02：解析器11遍历用户界面元素，按照预先设定的用户界面元素标签抽取规则，从各用户界面元素中抽取标签，将所有用户界面元素标签存入运行时标签库12，并将运行时标签库12注册到语音识别引擎13。

一个典型的基于Android应用层框架的用户界面，由很多视图（View）和组视图（ViewGroup）对象组成，是一个分层的树状结构。View是所有Widget的基类，代表用户界面组件的基本单元。ViewGroup是所有布局类的基类，也继承自View。一个ViewGroup可包含多个ViewGroup和View。Widget包括下拉列表、文本框、文本区域、列表框、网格视图、复选框、单选按钮、按钮、拖动条、日期和时间控件、图片切换控件、滚动视图等等。

步骤03：在用户界面运行时，当语音识别引擎13接收到用户发出的语音时，将该语音与运行时标签库12中的用户界面元素标签一一匹配，若匹配上，则将“标签+内容”发送给分析引擎14。

步骤04：分析引擎14接收该“标签+内容”，若该“标签”不为空，则首先判断该标签当前是否“可见”，若可见，则对该标签进行语义分析，根据语义分析结果，调用执行引擎15执行该标签对应的预定义操作，同时，若“内容”不为空，则将“内容”作为该元素的内容输入；若“标签”为空，且当前可视用户界面存在可输入的聚焦元素，则将该“内容”作为该元素的内容输入。

例如：分析引擎14接收到的“标签+内容”为“收件人+张三”，则先查询运行时标签库12，得到“收件人”标签对应的文本框，调用执行引擎15将文本框控件改为聚焦状态，再调用执行引擎15，将“张三”作为内容设置到文本框中。

在实际应用中，多个用户界面元素可能具有相同名称的标签。针对这种情况，可以采用划定隐式范围或可视范围的方法确定该标签到底属于哪个元素。其中，划定隐式范围如：当前最前端的活动界面优先，或者，预先设定各个界面的优先级；划定可视范围指的是，当前可视范围内的用户界面元素优先。如果采用了上述方法仍无法确定标签到底属于哪个元素，则将该标签对应的用户界面元素都显示出来，让用户从中选择。

另外，本发明实施例中，对于如何从命令中区分数据输入以及如何确定数据输入完成，这些已有相应现有技术，在此不再赘述。

本发明方法可应用于便携式可视设备，如：移动终端、智能眼镜、智能手表等中，本发明提供的语音控制用户界面的装置可位于便携式可视设备，如：移动终端、智能眼镜、智能手表等中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音控制用户界面的方法，其特征在于，该方法包括：

当接收到用户输入的语音时，将该语音与运行时标签库中的各界面元素标签一一匹配，若匹配上，则对匹配的元素标签进行语义分析，根据语义分析结果对界面元素进行预定义的操作；

所述匹配上为：完全匹配上；且，所述将该语音与运行时标签库中的各界面元素标签一一匹配之后进一步包括：若语音的一部分与一界面元素标签匹配上，则对匹配的元素标签进行语义分析，根据语义分析结果对界面元素进行预定义的操作，然后将语音的另一部分作为该界面元素的内容输入。

2.根据权利要求1所述的方法，其特征在于，所述分别从每个元素中抽取该元素的标签为：

3.根据权利要求1所述的方法，其特征在于，所述遍历该用户界面上的元素为：

或者，只遍历最前端的活动界面上的元素。

4.根据权利要求1所述的方法，其特征在于，所述将该语音与运行时标签库中的各界面元素标签一一匹配之后进一步包括：若未匹配上，则判断当前可视用户界面上是否有可输入的聚焦元素，若是，则将语音作为该元素的内容输入；否则，丢弃该语音。

5.根据权利要求1所述的方法，其特征在于，所述将该语音与运行时标签库中的各界面元素标签一一匹配为：

6.根据权利要求1所述的方法，其特征在于，所述匹配上之后、对匹配的元素标签进行语义分析之前进一步包括：

7.一种语音控制用户界面的装置，其特征在于，该装置包括：解析器、运行时标签库、语音识别引擎、分析引擎和执行引擎，其中：

运行时标签库：保存解析器抽取的用户界面元素标签；

执行引擎：接受分析引擎的调用，对界面元素执行预定义的操作；

8.根据权利要求7所述的装置，其特征在于，所述解析器进一步用于，当分别从每个元素中抽取该元素的标签时，

9.根据权利要求7所述的装置，其特征在于，所述解析器进一步用于，当遍历用户界面上的元素时，对于每个即将载入运行的用户界面，分别遍历各用户界面上的元素；或者，只遍历最前端的活动界面上的元素。

10.根据权利要求7所述的装置，其特征在于，所述分析引擎进一步用于，当接收到语音识别引擎发来的标签时，先判断标签是否可见，若是，执行所述对匹配的元素标签进行语义分析的动作；否则，不作进一步处理。