CN107507615A

CN107507615A - 界面智能交互控制方法、装置、系统及存储介质

Info

Publication number: CN107507615A
Application number: CN201710757704.7A
Authority: CN
Inventors: 程高飞; 蒋祥涛; 徐犇; 欧林鑫; 熊芩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2017-12-22
Also published as: JP2019046468A; EP3451329A1; US20190066682A1; JP7029613B2; KR20190024793A; JP2021009701A; US10803866B2; EP3451329B1

Abstract

本发明公开了界面智能交互控制方法、装置、系统及存储介质，其中方法包括：接收用户输入的语音信息，并获取语音识别结果；确定出与语音识别结果相关联的场景元素；针对每个场景元素，分别生成对应的条目，并将语音识别结果以及条目发送给云端服务器；接收云端服务器返回的、从接收到的条目中选出的与语音识别结果最为匹配的条目；执行最为匹配的条目对应的界面操作。应用本发明所述方案，能够提高语音控制的灵活性和准确性等。

Description

界面智能交互控制方法、装置、系统及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及界面智能交互控制方法、装置、系统及存储介质。

【背景技术】

随着技术的发展，具有语音交互功能的智能设备越来越多。

用户可对智能设备进行语音控制，如用户可发出语音信息，要求智能设备执行某种操作等。

智能设备在接收到用户输入的语音信息后，可将其发送给云端服务器，并接收云端服务器进行语音识别后返回的指令或搜索出的资源，相应地，智能设备执行指令对应的操作或展示资源。

但是，上述方式在实际应用中会存在一定的问题，比如：

语音控制通常只是针对系统级的指令，云端服务器可返回的指令集是固定的，对于指令集中不存在的指令，则无法执行对应的操作，假设当前界面上展示了一个“收藏”按钮，用户发出了“收藏”的语音信息，但由于云端服务器中未存储该指令，那么则无法执行对应的操作，可见，现有语音控制方式具有很大的局限性；

另外，假设当前界面上展示了10部电影，包括每部电影的名称及播放地址，这些云端服务器都是不知道的，这样，如果用户想看其中的某部电影，说出电影名称之后，云端服务器并不知道用户想看的是当前界面上展示的一部电影，只会对电影名称进行检索，而返回的结果很可能并不是用户想要的，如可能是名称相同或相似的其它电影，从而降低了语音控制的准确性。

【发明内容】

有鉴于此，本发明提供了界面智能交互控制方法、装置、系统及存储介质，能够提高语音控制的灵活性和准确性。

具体技术方案如下：

一种界面智能交互控制方法，包括：

接收用户输入的语音信息，并获取语音识别结果；

确定出与所述语音识别结果相关联的场景元素；

针对每个场景元素，分别生成对应的条目，并将所述语音识别结果以及所述条目发送给云端服务器；

接收所述云端服务器返回的、从接收到的条目中选出的与所述语音识别结果最为匹配的条目；

执行所述最为匹配的条目对应的界面操作。

根据本发明一优选实施例，所述获取语音识别结果包括：

将所述语音信息发送给所述云端服务器；

接收所述云端服务器对所述语音信息进行语音识别后返回的所述语音识别结果。

根据本发明一优选实施例，所述针对每个场景元素，分别生成对应的条目包括：

每个条目中包括：元素标签以及对应的自定义操作行为信息；

所述执行所述最为匹配的条目对应的界面操作包括：

根据所述最为匹配的条目中的自定义操作行为信息，执行界面操作。

一种界面智能交互控制方法，包括：

接收来自智能设备的语音识别结果以及条目，其中，所述语音识别结果为所述智能设备接收到的用户输入的语音信息的语音识别结果，所述条目为所述智能设备在确定出与所述语音识别结果相关联的场景元素后，针对每个场景元素分别生成的对应的条目；

从接收到的条目中选出与所述语音识别结果最为匹配的条目，并将所述最为匹配的条目返回给所述智能设备，以便所述智能设备执行所述最为匹配的条目对应的界面操作。

根据本发明一优选实施例，所述接收来自智能设备的语音识别结果以及条目之前，进一步包括：

接收所述智能终端发送来的所述语音信息；

对所述语音信息进行语音识别，得到所述语音识别结果，返回给所述智能设备。

根据本发明一优选实施例，

所述从接收到的条目中选出与所述语音识别结果最为匹配的条目包括：

根据所述元素标签，从接收到的条目中选出与所述语音识别结果最为匹配的条目。

根据本发明一优选实施例，所述根据所述元素标签，从接收到的条目中选出与所述语音识别结果最为匹配的条目包括：

针对每个条目，分别计算所述条目的元素标签与所述语音识别结果之间的编辑距离；

将取值最小的编辑距离对应的条目作为所述最为匹配的条目。

根据本发明一优选实施例，每个条目中进一步包括以下之一或全部：表明场景元素所处行列位置的x值和y值、表明场景元素的排列序号的index值；

根据所述x值和y值，或根据所述index值，从接收到的条目中选出与所述语音识别结果最为匹配的条目。

一种智能设备，包括：第一获取单元、第一控制单元以及第二控制单元；

所述第一获取单元，用于接收用户输入的语音信息，并获取语音识别结果；

所述第一控制单元，用于确定出与所述语音识别结果相关联的场景元素，针对每个场景元素，分别生成对应的条目，将所述语音识别结果以及所述条目发送给云端服务器，接收所述云端服务器返回的、从接收到的条目中选出的与所述语音识别结果最为匹配的条目；

所述第二控制单元，用于执行所述最为匹配的条目对应的界面操作。

根据本发明一优选实施例，所述第一获取单元进一步用于，

将所述语音信息发送给所述云端服务器；

根据本发明一优选实施例，每个条目中包括：元素标签以及对应的自定义操作行为信息；

所述第二控制单元根据所述最为匹配的条目中的自定义操作行为信息，执行界面操作。

一种云端服务器，包括：第二获取单元以及匹配单元；

所述第二获取单元，用于接收来自智能设备的语音识别结果以及条目，其中，所述语音识别结果为所述智能设备接收到的用户输入的语音信息的语音识别结果，所述条目为所述智能设备在确定出与所述语音识别结果相关联的场景元素后，针对每个场景元素分别生成的对应的条目；

所述匹配单元，用于从接收到的条目中选出与所述语音识别结果最为匹配的条目，并将所述最为匹配的条目返回给所述智能设备，以便所述智能设备执行所述最为匹配的条目对应的界面操作。

根据本发明一优选实施例，所述第二获取单元进一步用于，

在接收来自智能设备的语音识别结果以及条目之前，接收所述智能终端发送来的所述语音信息；

所述匹配单元根据所述元素标签，从接收到的条目中选出与所述语音识别结果最为匹配的条目。

根据本发明一优选实施例，所述匹配单元针对每个条目，分别计算所述条目的元素标签与所述语音识别结果之间的编辑距离，将取值最小的编辑距离对应的条目作为所述最为匹配的条目。

一种界面智能交互控制系统，包括：

如以上所述的智能设备，以及，如以上所述的云端服务器。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，智能设备可接收用户输入的语音信息，并获取语音识别结果，之后确定出与语音识别结果相关联的场景元素，并针对每个场景元素，分别生成对应的条目，进而将语音识别结果以及生成的条目发送给云端服务器，之后，可接收云端服务器返回的、从接收到的条目中选出的与语音识别结果最为匹配的条目，进而执行最为匹配的条目对应的界面操作；相比于现有技术，本发明所述方案中可根据用户输入的语音信息生成并选出条目，进而根据选出的条目执行界面操作，不再局限于指令集中的指令，从而提高了语音控制的灵活性，而且，本发明所述方案中是在智能设备发送的与语音识别结果相关联的场景元素对应的条目中进行筛选，找出与语音识别结果最为匹配的条目，匹配结果更为准确，从而提高了语音控制的准确性。

【附图说明】

图1为本发明所述界面智能交互控制方法第一实施例的流程图。

图2为本发明所述界面智能交互控制方法第二实施例的流程图。

图3为现有语音识别过程的示意图。

图4为本发明所述界面智能交互控制方法第三实施例的流程图。

图5为本发明所述在智能设备界面上可见的场景元素的示意图。

图6为本发明所述智能设备界面上展示的8部电影的示意图。

图7为本发明所述智能设备实施例的组成结构示意图。

图8为本发明所述云端服务器实施例的组成结构示意图。

图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述界面智能交互控制方法第一实施例的流程图。在实际应用中，图1所示流程的执行主体可为智能设备。如图1所示，包括以下具体实现方式。

在101中，接收用户输入的语音信息，并获取语音识别结果。

在接收到用户输入的语音信息之后，可将其发送给云端服务器，并获取云端服务器在对接收到的语音信息进行语音识别后返回的语音识别结果。

在102中，确定出与语音识别结果相关联的场景元素。

本实施例中，用户可针对场景元素发出语音信息。

场景元素是指用户在使用具有用户界面(如屏幕)的智能设备时，界面上呈现的界面元素及一些行为等，如翻页等操作。界面元素可包括按钮、标签、图片、列表等，可通过语音实现对这些元素的操作，让智能设备根据用户输入的语音，执行界面上能够执行的操作，比如点击某个图片、左滑、右滑等。

在获取到用户输入的语音信息的语音识别结果之后，可首先确定出与语音识别结果相关联的场景元素。

如何确定出与语音识别结果相关联的场景元素不作限制，可根据实际需要而定，如可根据预先设定的规则来确定。

比如，当前界面上展示了8部电影，电影通过海报形式展示，用户输入的语音信息为其中的一部电影的名称，那么可将这8部电影分别作为相关联的场景元素。

另外，相关联的场景元素可以是展示在当前界面上的，也可以是没有展示在当前界面上的。

比如，当前界面为主界面，三个场景元素电影、音乐和应用分别对应一个子界面，三个场景元素是自定义的行为，未展示在主界面上，用户输入的语音信息为“看电影”，那么可将电影、音乐和应用分别作为相关联的场景元素。

在103中，针对每个场景元素，分别生成对应的条目，并将语音识别结果以及生成的条目发送给云端服务器。

针对相关联的每个场景元素，需要分别生成对应的条目。

每个条目中可包括：元素标签(label)以及对应的自定义操作行为信息(url)等。

其中，label可以是界面控件上的元素标签，如界面上可操作的元素标签，也可以是自定义的操作标签等。

比如，界面上可操作的元素标签可以是指界面上所展示的电影的名称等，自定义的操作标签可以是指用户自定义的操作的名称等。

url为自定义操作行为信息，代表智能设备端行为，可以是用户自定义的任何字符，只要智能设备能够识别其含义即可。

在104中，接收云端服务器返回的、从接收到的条目中选出的与语音识别结果最为匹配的条目。

云端服务器接收到语音识别结果及生成的条目之后，可根据label，从接收到的条目中选出与语音识别结果最为匹配的条目，进而返回最为匹配的条目。

比如，针对每个条目，云端服务器可分别计算该条目的元素标签与语音识别结果之间的编辑距离，进而将取值最小的编辑距离对应的条目作为最为匹配的条目。

在105中，执行最为匹配的条目对应的界面操作。

在获取到最为匹配的条目之后，即可根据最为匹配的条目中的url，执行界面操作，即根据最为匹配的条目中的url进行处理，实现用户的控制操作。

图2为本发明所述界面智能交互控制方法第二实施例的流程图。在实际应用中，图2所示流程的执行主体可为云端服务器。如图2所示，包括以下具体实现方式。

在201中，接收来自智能设备的语音识别结果以及条目，其中，所述语音识别结果为智能设备接收到的用户输入的语音信息的语音识别结果，所述条目为智能设备在确定出与语音识别结果相关联的场景元素后，针对每个场景元素分别生成的对应的条目。

智能设备在接收到用户输入的语音信息之后，可将其发送给云端服务器，进而由云端服务器对接收到的语音信息进行语音识别，得到语音识别结果，并将语音识别结果返回给智能设备。

图3为现有语音识别过程的示意图。如图3所示，在采集到音频数据之后，可对其进行特征提取，之后将提取出的音频特征输入给特定的解码器进行解码，从而得到语音识别结果。在解码器解码的过程中，会使用到声学模型、语言模型和发音词典。声学模型的主要作用是将音频特征转换成音节，语言模型的主要作用是将音节转换成文本，发音词典则提供了一个从音节到文本的映射表。

其中，在音频数据的采集过程中，声音的效果会因设备性能差异、声音源到设备距离的远近、设备支持单麦克风还是麦克风阵列的不同等而发生变化。总体来说，录音设备性能越好，声音源到设备的距离越短，采用有效的麦克风阵列而不是单麦克，会得到特征更完整更利于识别的音频数据。

另外，采集到的音频数据可能会存在一些问题，并不能直接用来识别。比如，在免提或者会议应用的场景下，扬声器的声音会多次反馈到麦克风，这样麦克风采集到的音频数据中会存在声学回声，需要使用回声消除(AEC，Acoustic Echo Cancellation)算法进行回声消除，再比如，在特定环境下(如行驶的车辆中)采集到的音频数据中会有特定的噪音，这时则需要对采集到的音频数据进行降噪(NS，Noise Suppression)处理，即利用降噪算法消除环境噪音。

在202中，从接收到的条目中选出与语音识别结果最为匹配的条目，并将最为匹配的条目返回给智能设备，以便智能设备执行最为匹配的条目对应的界面操作。

如前所述，每个条目中可包括：label以及对应的url等。

可根据label，从接收到的条目中选出与语音识别结果最为匹配的条目。

比如，可针对每个条目，分别计算该条目的label与语音识别结果之间的编辑距离，进而将取值最小的编辑距离对应的条目作为最为匹配的条目。

较佳地，在获取到取值最小的编辑距离之后，还可将取值最小的编辑距离与预先设定的阈值进行比较，若取值最小的编辑距离小于或等于阈值，则将取值最小的编辑距离对应的条目作为最为匹配的条目。

所述阈值的具体取值可根据实际需要而定，如果没有找到最为匹配的条目，可返回空的结果给智能设备。

另外，每个条目中还可进一步包括以下之一或全部：表明场景元素所处行列位置的x值和y值、表明场景元素的排列序号的index值，相应地，还可根据x值和y值，或根据index值，从接收到的条目中选出与语音识别结果最为匹配的条目。

智能设备如果接收到非空的条目，则可执行接收到的条目对应的界面操作，即根据条目中的url进行处理，实现用户的控制操作。

基于上述介绍，图4为本发明所述界面智能交互控制方法第三实施例的流程图。如图4所示，包括以下具体实现方式。

在401中，智能设备接收用户输入的语音信息，并发送给云端服务器。

用户可通过麦克风近场语音输入或麦克风阵列远场语音输入等方式，输入语音信息。

在402中，云端服务器对接收到语音信息进行语音识别，得到语音识别结果，返回给智能设备。

通过语音识别，可将语音信息转换为对应的文本信息。

在403中，智能设备确定出与语音识别结果相关联的场景元素。

相关联的场景元素的个数通常为多个。

在404中，针对每个场景元素，智能设备分别生成对应的条目，并将语音识别结果以及生成的条目发送给云端服务器。

每个条目中可包括label以及url等。

在405中，云端服务器从接收到的条目中选出与语音识别结果最为匹配的条目，并将最为匹配的条目返回给智能设备。

比如，云端服务器可针对每个条目，分别计算该条目的label与语音识别结果之间的编辑距离，进而将取值最小的编辑距离对应的条目作为最为匹配的条目。

在406中，智能设备执行最为匹配的条目对应的界面操作。

智能设备根据接收到的条目中的url进行处理，实现用户的控制操作。

需要说明的是，对于上述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

另外，在上述各方法实施例中，对各实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以下通过具体的应用场景，对本发明所述方案进行进一步说明。

一)场景一

假设有三个场景元素，分别为电影、音乐和应用，每个场景元素分别对应一个子界面。这三个场景元素是自定义的行为，没有在界面上展现。

假设用户输入的语音信息为“看电影”，智能设备接收到云端服务器返回的语音识别结果“看电影”之后，向云端服务器发送了三个条目，每个条目中分别包括一个label和对应的一个url，并将语音识别结果发送给云端服务器。其中，label的内容分别为电影，音乐和应用，url的内容可自定义，比如可定义为：GoToMovie、GoToMusic、GoToApps。云端服务器会将语音识别结果“看电影”与每个条目中的label进行匹配，选出最为匹配的条目。

智能设备发送给云端服务器的内容可如下所示(以json数据格式为例)：

云端服务器返回给智能设备的内容可如下所示：

智能设备获取到上述url后，执行对应的操作即可，跳转到对应的界面上。

上述的三个场景元素也可以是在智能设备界面上可见的场景元素，如图5所示，图5为本发明所述在智能设备界面上可见的场景元素的示意图。

这种情况下，url可以定义为电影、音乐和应用在界面上的id，智能设备获取到最为匹配的条目中的url后，直接模拟点击此id对应的标签即可。

二)场景二

假设智能设备界面上展示有8部电影，电影通过海报形式展示，如图6所示，图6为本发明所述智能设备界面上展示的8部电影的示意图。

用户可通过语音方式说出其中一部电影的名称，智能设备接收到云端服务器返回的语音识别结果后，向云端服务器发送了8个条目，每个条目中分别包括一个label和对应的一个url，并将语音识别结果发送给了云端服务器。其中，label的内容分别为每部电影的名称，url的内容可为电影的播放地址。云端服务器将语音识别结果与每个条目中的label进行匹配，将选出的最为匹配的条目返回给智能设备。智能设备根据接收到的条目中的url直接播放电影即可，不需要重新搜索电影，更加精准地实现了用户的播放意图。

智能设备发送给云端服务器的内容可如下所示：

云端服务器返回给智能设备的内容可如下所示：

场景一和场景二中，云端服务器在选择最为匹配的条目时，可针对每个条目，分别计算该条目的label与语音识别结果之间的编辑距离，进而将取值最小的编辑距离对应的条目作为最为匹配的条目。

具体地，可计算label的文字与语音识别结果的文字之间的编辑距离，或者，计算label的拼音与语音识别结果的拼音之间的编辑距离。

编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字串的相似度越大。

在实际应用中，每个条目中除了可包括label和url之外，还可进一步包括一些其它内容，比如，x值和y值、index值等，相应地，还可根据x值和y值或index值等来进行匹配，如场景三所示。

三)场景三

假设智能设备界面上展示有8部电影，电影通过海报形式展示，如图6所示。

用户可通过语音方式说出“第2行第1个”，智能设备接收到云端服务器返回的语音识别结果后，向云端服务器发送了8个条目，每个条目中可分别包括label、对应的url、x值和y值、index值等，并将语音识别结果发送给了云端服务器。其中，label的内容分别为每部电影的名称，url中可包括电影的播放地址，x值和y值表明电影所处行列位置，比如，x值表示所在行，y值表示所在列，index值表明电影的排列序号等。云端服务器可根据x值和y值选出最为匹配的条目，返回给智能设备。智能设备根据接收到的条目中的url直接播放电影即可。

智能设备发送给云端服务器的内容可如下所示：

云端服务器返回给智能设备的内容可如下所示：

另外，如果用户输入的语音为“第*个”，那么可根据index值选出对应的条目。

在实际应用中，如果系统只支持场景二中所述的通过电影名称匹配条目的方式，那么生成的条目中可只包括label和url，如果同时支持场景三中所述的“第2行第1个”以及“第*个”等匹配条目的方式，则生成的条目中还需要进一步包括x值和y值以及index值等。

总之，上述各方法实施例所述方案中可根据用户输入的语音信息生成并选出条目，进而可根据选出的条目执行界面操作，不再局限于指令集中的指令，从而提高了语音控制的灵活性，而且，上述各方法实施例所述方案中是在智能设备发送的与语音识别结果相关联的场景元素对应的条目中进行筛选，找出与语音识别结果最为匹配的条目，匹配结果更为准确，从而提高了语音控制的准确性。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图7为本发明所述智能设备实施例的组成结构示意图。如图7所示，包括：第一获取单元701、第一控制单元702以及第二控制单元703。

第一获取单元701，用于接收用户输入的语音信息，并获取语音识别结果。

第一控制单元702，用于确定出与语音识别结果相关联的场景元素，针对每个场景元素，分别生成对应的条目，将语音识别结果以及条目发送给云端服务器，接收云端服务器返回的、从接收到的条目中选出的与语音识别结果最为匹配的条目。

第二控制单元703，用于执行最为匹配的条目对应的界面操作。

第一获取单元701在接收到用户输入的语音信息之后，可将其发送给云端服务器，并获取云端服务器在对接收到的语音信息进行语音识别后返回的语音识别结果。

之后，第一控制单元702可确定出与语音识别结果相关联的场景元素。

针对每个场景元素，第一控制单元702还需要分别生成对应的条目，并将语音识别结果以及生成的条目发送给云端服务器。

云端服务器接收到来自智能设备的语音识别结果及生成的条目后，可根据label，从接收到的条目中选出与语音识别结果最为匹配的条目，进而返回最为匹配的条目。

相应地，第二控制单元703可根据最为匹配的条目中的url，执行界面操作。

图8为本发明所述云端服务器实施例的组成结构示意图。如图8所示，包括：第二获取单元801以及匹配单元802。

第二获取单元801，用于接收来自智能设备的语音识别结果以及条目，其中，语音识别结果为智能设备接收到的用户输入的语音信息的语音识别结果，条目为智能设备在确定出与语音识别结果相关联的场景元素后，针对每个场景元素分别生成的对应的条目。

匹配单元802，用于从接收到的条目中选出与语音识别结果最为匹配的条目，并将最为匹配的条目返回给智能设备，以便智能设备执行最为匹配的条目对应的界面操作。

其中，第二获取单元801在接收来自智能设备的语音识别结果以及条目之前，还可接收智能终端发送来的语音信息，并对语音信息进行语音识别，得到语音识别结果，返回给智能设备。

每个条目中可包括：label以及对应的url等。

匹配单元802可根据label，从接收到的条目中选出与语音识别结果最为匹配的条目。

比如，匹配单元802可针对每个条目，分别计算该条目的label与语音识别结果之间的编辑距离，进而将取值最小的编辑距离对应的条目作为最为匹配的条目。

另外，每个条目中还可进一步包括以下之一或全部：表明场景元素所处行列位置的x值和y值、表明场景元素的排列序号的index值。

相应地，匹配单元802还可根据x值和y值，或根据index值，从接收到的条目中选出与语音识别结果最为匹配的条目。

图7和图8所示装置实施例的具体工作流程请参照前述各方法实施例中的相应说明，不再赘述。

另外，在实际应用中，图8所示服务器可进一步拆分为两个服务器，其中一个用于执行语音识别，另外一个用于执行匹配等操作，具体实现方式不限。

再有，本发明中同时公开了一种界面智能交互控制系统，包括：如图7所示实施例中的智能设备以及如图8所示实施例中的云端服务器，具体实现不再赘述。

图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图9显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1、2或4所示实施例中的方法，即接收用户输入的语音信息，并获取语音识别结果，确定出与语音识别结果相关联的场景元素，针对每个场景元素，分别生成对应的条目，并将语音识别结果以及条目发送给云端服务器，接收云端服务器返回的、从接收到的条目中选出的与语音识别结果最为匹配的条目，执行最为匹配的条目对应的界面操作。

具体实现请参照前述各实施例中的相关说明，不再赘述。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1、2或4所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种界面智能交互控制方法，其特征在于，包括：

接收用户输入的语音信息，并获取语音识别结果；

确定出与所述语音识别结果相关联的场景元素；

执行所述最为匹配的条目对应的界面操作。

2.根据权利要求1所述的方法，其特征在于，

所述获取语音识别结果包括：

将所述语音信息发送给所述云端服务器；

3.根据权利要求1所述的方法，其特征在于，

所述针对每个场景元素，分别生成对应的条目包括：

所述执行所述最为匹配的条目对应的界面操作包括：

4.一种界面智能交互控制方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，

所述接收来自智能设备的语音识别结果以及条目之前，进一步包括：

接收所述智能终端发送来的所述语音信息；

6.根据权利要求4所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

所述根据所述元素标签，从接收到的条目中选出与所述语音识别结果最为匹配的条目包括：

8.根据权利要求6所述的方法，其特征在于，

每个条目中进一步包括以下之一或全部：表明场景元素所处行列位置的x值和y值、表明场景元素的排列序号的index值；

9.一种智能设备，其特征在于，包括：第一获取单元、第一控制单元以及第二控制单元；

10.根据权利要求9所述的智能设备，其特征在于，

所述第一获取单元进一步用于，

将所述语音信息发送给所述云端服务器；

11.根据权利要求9所述的智能设备，其特征在于，

12.一种云端服务器，其特征在于，包括：第二获取单元以及匹配单元；

13.根据权利要求12所述的云端服务器，其特征在于，

所述第二获取单元进一步用于，

14.根据权利要求12所述的云端服务器，其特征在于，

15.根据权利要求14所述的云端服务器，其特征在于，

所述匹配单元针对每个条目，分别计算所述条目的元素标签与所述语音识别结果之间的编辑距离，将取值最小的编辑距离对应的条目作为所述最为匹配的条目。

16.一种界面智能交互控制系统，其特征在于，包括：

如权利要求9～11中任一项所述的智能设备，以及，如权利要求12～15中任一项所述的云端服务器。

17.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～3中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～3中任一项所述的方法。

19.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求4～8中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求4～8中任一项所述的方法。