CN111722893A

CN111722893A - 一种电子设备图形用户界面交互方法、装置和终端设备

Info

Publication number: CN111722893A
Application number: CN201910212935.9A
Authority: CN
Inventors: 党茂昌; 张茹; 李丽; 徐波; 曹原
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2020-09-29

Abstract

本申请公开了一种电子设备图形用户界面GUI交互方法、装置和终端设备，所述方法包括：获取第一文字串，所述第一文字串是由用户语音转换生成；解析所述第一文字串得到至少一个关键词；在所述电子设备当前显示的界面对应的控制事件集合中查找与所述至少一个关键词相匹配的控制事件名称，所述控制事件集合包括所述当前显示界面中所能产生的控制事件的名称与关键词的对应关系，确定所述控制事件名称对应的控制事件，并执行所述控制事件。本方法实现了基于语音驱动GUI交互过程，达到了用户在双手无法释放情况下仍然能够与终端电子设备进行GUI交互的有益效果。

Description

一种电子设备图形用户界面交互方法、装置和终端设备

技术领域

本申请涉及计算机技术图形用户界面GUI交互领域，尤其涉及一种电子设备GUI交互方法、装置和终端设备。

背景技术

图形用户界面(graphical user interface，GUI)又称图形用户接口，是指采用图形方式显示的计算机操作用户界面。进一步地，GUI是一种人与计算机通信的界面显示方式，允许用户使用鼠标等输入设备操纵屏幕上的图标或菜单选项，以选择命令、调用文件、启动程序或执行其它一些日常任务。

与通过键盘输入文本或字符命令来完成例行任务的字符界面相比，图形用户界面有许多优点，比如嵌入式GUI具有：轻型、占用资源少、高性能、高可靠性、便于移植、可配置等特点。GUI的应用极大地方便了普通用户的使用，用户不再需要死记硬背大量的命令，取而代之的是可以通过窗口、菜单、按键等方式来方便地进行操作。

目前，用户在终端上进行GUI操作方法，主要是采用按键、触控输入的方式来驱动GUI交互，但是在一些情况下，用户双手无法按键或触控输入终端，比如用户在开车或骑行、手机投屏模式等，无法与终端进行GUI交互，从而影响用户体验。

另外，对于不熟悉终端使用方法的用户，在终端上进行GUI交互操作也存在局限性，比如用户在一些用户界面(user interface，UI)上进行发信息、播放视频、拍照、查找文件、开启手电筒等功能的操作会变得困难。

发明内容

本申请实施例提供了一种电子设备GUI交互方法，用于解决用户在双手无法释放情况下无法与终端电子设备进行GUI交互的问题，并且，本方法仅通过语音输入就能够实现驱动电子设备进行GUI交互的操控，无需用户再学习使用方法。

第一方面，本申请实施例提供了一种电子设备图形用户界面GUI交互方法，所述方法可以应用于电子设备，比如手机、平板、笔记本等，具体地所述方法包括：获取第一文字串，所述第一文字串是由用户语音转换生成，解析所述第一文字串得到至少一个关键词；在所述电子设备当前显示的界面对应的控制事件集合中查找与所述至少一个关键词相匹配的控制事件名称，所述控制事件集合包括所述当前显示界面中所能产生的控制事件的名称与关键词的对应关系；确定所述控制事件名称对应的控制事件，并执行所述控制事件，并完成所述控制事件的相关进程。

本方面提供的方法，通过对用户输入的语音进行文字转化处理，词汇筛选和匹配处理，从而实现从用户输入语音到确定并执行关联的控制事件的过程，达到了仅靠用户语音就可以与终端电子设备进行GUI交互的有益效果，避免用户再对GUI交互进行操作和学习，本方法提高了用户体验。

结合第一方面，在第一方面的一种实现方式中，所述查找相匹配的控制事件名称之前，还包括：根据所述电子设备当前显示的界面确定当前界面的界面标识；根据所述界面标识确定与所述界面标识对应的控制事件集合；其中，所述当前显示的界面包括至少一个应用，每个所述应用对应一个应用标识，所述当前界面的界面标识关联当前显示的界面的所有应用标识，且用于唯一标识所述当前显示的界面，并且每个界面都对应一个控制事件集合。本方面通过电子设备当前界面与控制事件集合的对应关系，可以唯一确定一个控制事件集合，从而能够为快速查找和确定控制事件做准备。

结合第一方面，在第一方面的另一种实现方式中，所述确定所述控制事件名称对应的控制事件，包括：将所述控制事件名称在控件树中遍历，确定与所述控制事件名称相同的分支，其中所述控件树由根节点和至少一条分支组成，每条所述分支包括至少一个中间节点和尾节点，每个所述中间节点上配置有一个字符，在所述尾节点上配置有一个控制事件标识，所述控制事件标识用于指示所述尾节点所在的分支上所有字符组成的控制事件名称；查找所述分支上尾节点的控制事件标识；根据所述控制事件标识确定所述控制事件。本实现方式利用控件树遍历的方式查找并确定出控制事件，提高了查找效率和用户体验。

结合第一方面，在第一方面的又一种实现方式中，确定所述控制事件名称对应的控制事件，包括：根据光学字符辨识技术确定所述控制事件名称所对应的坐标区域；利用所述坐标区域确定所述控制事件。本实现方式利用光学字符辨识技术能够快速地查找并确定出控制事件，提高了查找效率和用户体验。

结合第一方面，在第一方面的又一种实现方式中，配置控制事件集合中的控制事件名称包括以下两种方式：在语义开发时，添加并配置控制事件集合中的每个所述控制事件名称的自然语义处理字段的方式；或者，扫描控制事件集合中的每个控制事件标识，并将所述所有控制事件名称标识映射到自然语义定义的人工标签的方式。本实现方式，通过两种方法设置和添加GUI控制事件集合中的所有控制事件名称，使得所述控制事件名称可以自定义添加，达到了对控制事件名称添加灵活性和自由度。

结合第一方面，在第一方面的又一种实现方式中，所述解析所述第一文字串得到至少一个关键词之前，还包括：判断所述第一文字串是否满足框架语义完整性要求，所述框架语义完整性要求中包括服务名称、服务内容和服务对象的完整性；如果不满足，则确定所述第一文字串中缺少的内容，并对所述缺少内容进行语义补全，使得补全之后的第一字符串满足所述框架语义完整性要求。

本实现方式，通过对不满足语义完整性要求的字符串内容进行补全，能够更准确地确定用户需要执行的控制事件名称和控制事件名称标识，从而能够准确地定位相关控制事件，进而为客户提供准确的服务，进一步地提高了用户体验。

第二方面，本申请实施例还提供了一种电子设备GUI交互装置，所述装置包括：获取单元，用于获取第一文字串，所述第一文字串是由用户语音转换生成；处理单元，用于解析所述第一文字串得到至少一个关键词；在所述电子设备当前显示的界面对应的控制事件集合中查找与所述至少一个关键词相匹配的控制事件名称，所述控制事件集合中包括所述当前显示界面中所能产生的控制事件的名称与关键词的对应关系；确定所述控制事件名称对应的控制事件，并执行所述控制事件，并完成所述控制事件的相关进程。

结合第二方面，在第二方面的一种实现方式中，所述处理单元，还用于在查找相匹配的控制事件名称之前，根据所述电子设备当前显示的界面确定当前界面的界面标识；根据所述界面标识确定与所述界面标识对应的控制事件集合；其中，所述当前显示的界面包括至少一个应用，每个所述应用对应一个应用标识，所述当前界面的界面标识关联当前显示的界面的所有应用标识，且用于唯一标识所述当前显示的界面。

结合第二方面，在第二方面的另一种实现方式中，所述处理单元，具体用于将所述控制事件名称在控件树中遍历，确定与控制事件名称相同的分支，其中所述控件树由根节点和至少一条分支组成，每条所述分支包括至少一个中间节点和尾节点，每个所述中间节点上配置有一个字符，在所述尾节点上配置有一个控制事件标识，所述控制事件标识用于指示所述尾节点所在的分支上所有字符组成的控制事件名称；查找所述分支上尾节点的控制事件标识；根据所述控制事件标识确定所述控制事件。

结合第二方面，在第二方面的又一种实现方式中，所述处理单元，具体用于根据光学字符辨识技术确定所述控制事件名称所对应的坐标区域，利用所述坐标区域确定所述控制事件。

结合第二方面，在第二方面的又一种实现方式中，所述处理单元，还用于配置控制事件集合中的控制事件名称，具体包括以下两种方式：在语义开发时，添加并配置控制事件集合中的每个所述控制事件名称的自然语义处理字段的方式；或者，扫描控制事件集合中的每个控制事件标识，并将所述所有控制事件名称标识映射到自然语义定义的人工标签的方式。

结合第二方面，在第二方面的又一种实现方式中，所述处理单元，还用于在解析所述第一文字串得到至少一个关键词之前，判断所述第一文字串是否满足框架语义完整性要求，如果不满足，则确定所述第一文字串中缺少的内容，并对所述缺少内容进行语义补全；其中所述框架语义完整性要求中包括服务名称、服务内容和服务对象的完整性。

第三方面，在具体的硬件实现层面，本申请实施例还提供了一种终端设备，包括收发器、处理器和存储器，所述存储器中存储有程序和指令，所述处理器可以执行所述存储器中所存储的程序或指令，从而实现上述第一方面和第一方面各种实现方式的所述GUI交互方法。

第四方面，本申请还提供了一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括本申请提供的GUI交互方法各实施例中的部分或全部步骤。

第五方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，当所述指令被计算机或处理器执行时，可实现前述第一方面以及第一方面各种实现方式中的GUI交互方法。

本申请提供的一种电子设备GUI交互方法、装置和终端设备，可以实现语音驱动GUI交互过程，达到了用户在双手无法释放情况下，仍能够与终端电子设备进行GUI交互的有益效果。进一步地，具体包括：

1、终端用户双手无法释放情景下，不用按键和触控，仅使用语音控制，完成GUI交互。包括：终端用户开车/骑行、手机投屏模式等，使用语音控制代替触控操作，完成GUI交互。

2、不熟悉手机使用方法的用户，可以根据自己的意图，通过语音实现对手机的操控，比如：发信息、播放视频、拍照、查找文件、手电筒等，从而无需学习手机UI操作逻辑，极简的使用手机的功能和服务。

附图说明

图1为本申请实施例提供的一种GUI交互场景的示意图；

图2为本申请实施例提供的一种GUI交互方法的示意图；

图3为本申请实施例提供的一种终端设备的结构示意图；

图4为本申请实施例提供的一种GUI交互方法的流程图；

图5为本申请实施例提供的一种一句话服务直达服务的流程示意图；

图6为本申请实施例提供的一种预配置第一应用相关进程的示意图；

图7为本申请实施例提供的一种GUI交互装置的结构示意图；

图8为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例中的技术方案，下面结合附图对本申请实施例中的技术方案作进一步详细的说明。在对本申请实施例的技术方案说明之前，首先结合附图对本申请实施例的应用场景进行说明。

本申请的技术方案可应用于图形用户界面(graphical user interface，GUI)的应用场景，尤其是涉及用户通过语音控制电子设备执行GUI的相关进程，并提供请求服务。例如图1所示，为本实施例提供的一种GUI交互场景的示意图，该场景中包括终端设备10和用户20。其中，用户20通过语音输入控制终端设备10执行控制事件并完成相关进程。

其中，所述控制事件，简称“控件”(event)，可以理解为是终端设备装载的所有功能软件程序的统称，比如手机桌面上显示的每个功能软件程序(APP)均可以称为一个控制事件。例如手机程序中的“微信”、“通讯录”、“音乐”等APP都是一个控制事件，对于每一个控制事件都包括一个控制事件名称和控制事件标识，用于唯一关联对应的控制事件。

可选的，所述控制事件名称可以是APP的名字，例如“微信”、“通讯录”、“音乐”；所述控制事件标识为身份标识号(ID)，所述ID为一串数字，比如二进制或十六进制表示。可选的，每个APP也可以为一个应用，对应的，所述应用名称为所述控制事件名称，所述应用标识为所述控制事件标识。

另外，完成所述控制事件的相关进程包括触控点击、滑动、拖动、确定、取消等。

本实施例提供的方法可以实现基于用户语音对终端设备输入请求指令，终端设备对该用户语音进行分析并执行GUI相关进程，为用户提供服务。

进一步地，如图2所示，控制终端设备完成GUI交互过程具体包括：在终端设备GUI当前窗口显示界面上，终端设备先利用语音识别技术将用户输入的语音转化为文字串，例如所述文字串的内容为：

1、当前窗口菜单文字朗读与识别；

2、通用命令，比如翻页、缩放和长按等。

然后将文字串映射成GUI控制事件，以及将文字映射到GUI控制区域，然后再通过GUI控制区域确定控制事件，聚焦到执行窗口，然后实施该窗口并进行控制事件的相关操作，最后在GUI的下一个窗口显示输出给用户，完成GUI相关进程。

可选的，如果用户不方便看终端设备的屏幕输出内容，所述终端设备的系统会将识别的文字串朗读给用户，在语义理解完整无误的情况下，才执行后续的GUI交互操作过程。

其中，所述终端设备可以是一种电子设备，进一步地包括：用户设备(userequipment，UE)、车载用户设备(vehicle UE，VUE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)等。其中，终端可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmentedreality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(selfdriving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。

需要说明的是，本申请实施例对所述终端设备所采用的结构和设备形态不做具体限定。其中，一种可能的实现方式是，通过以下三个模块来实现GUI交互和相关进程，如图3所示，所述终端设备中包括转换模块31、过滤模块32和控制模块33。

其中，转换模块31，用于获取用户语音，并将用户语音转换为文字或文字串，例如利用语音识别技术将用户输入的语音转化成输入文字串。

过滤模块32，用于获取转换模块31输出的文字串，所述文字串中由多个关键词组成，逐一地分析每个关键词，通过GUI控制事件集合查找出每个关键词所对应的控制事件名称，过滤出至少一个GUI控制事件，并将这些GUI控制事件转化为窗口管理器(windowsmanager system，WMS)可以识别的GUI控制事件ID。

控制模块33，用于执行过滤模块32确定的至少一个GUI控制事件的相关进程，完成并向用户反馈服务响应。具体地，控制模块33接收来自过滤模块32发送的至少一个GUI控制事件ID，在终端设备的当前窗口聚焦每个控制事件，WMS识别出当前需要执行的控制事件ID之后按照系统默认的方法，执行对该控制事件ID对应的控制事件进程，例如实施窗口切换和显示等，从而实现自动化控制和反馈服务响应的方法流程。

其中，所述聚焦可理解为确定或者锁定当前需要执行的控制事件，或者换句话说，使用一个确定的窗口来处理用户输入的控制事件，所述确定或锁定的窗口可以是用户当前使用的活跃窗口。例如假设控制事件ID为“微信”的ID，则聚焦到控制事件，是指根据所述“微信”的ID确定当前界面上的“微信”应用APP，以准备“打开”或“启动”该微信应用。由于终端设备的当前界面上可以显示多个控制事件，所以在确定出用户的语音文字串所对应的控制事件ID之后，要在当前界面上确定并准备执行该控制事件，即为所述“聚焦”的过程。

下面对本申请实施例提供的GUI交互方法做详细地说明。

本实施例以终端设备整体作为该方法执行的主体，实现前述基于用户语音驱动完成GUI交互流程，具体地，如图4所示，该方法包括：

步骤101：获取第一文字串，所述第一文字串是由用户语音转换生成。

具体地，在终端操作系统中，通过添加语音输入管理能力，比如输入管理器来实现将语音转换为第一文字串的功能，进一步地，终端设备利用语音识别技术将用户语音转换为所述第一文字串。另外，所述文字串由一系列的关键词组成，可选的，所述文字串中的关键词包括但不限于文字、数字、单词、字母或其他符号。

步骤102：解析所述第一文字串得到至少一个关键词。

步骤103：在所述电子设备当前显示的界面对应的控制事件集合中查找与所述至少一个关键词相匹配的控制事件名称，所述控制事件集合包括所述当前显示界面中所能产生的控制事件的名称与关键词的对应关系。

其中，所述相匹配是指当前界面显示的所述GUI控制事件集合中包括一个控制事件名称与所述关键词相同，即在所述GUI控制事件集合中查找是否存在与所述关键词相同的控制事件名称，如果是，则认为匹配成功；否则，匹配失败。例如用户输入的第一文字串为“给小明发微信开会”，其中“微信”为待查找的一个关键词，将该关键词在当前界面显示的GUI控制事件集合查找，找到与该关键词“微信”相同的控制事件名称(微信)，且该控制事件名称与ID号绑定，则通过将关键词“微信”在所述GUI控制事件集合查找，得到关键词“微信”所对应的控制事件名称“微信”，以及该名称“微信”的ID号。所述第一文字串中的其他关键词也通过GUI控制事件集合查找相匹配的控制事件名称和控制事件名称ID，本实施例中举例的第一文字串“给小明发微信开会”经过匹配查找后得到一个控制事件名称“微信”和所述“微信”对应的ID号。

另外，在查找之前还包括：确定当前显示界面所对应的GUI控制事件集合。具体包括：根据所述电子设备当前显示的界面确定当前界面的界面标识；根据所述界面标识确定与所述界面标识对应的控制事件集合。其中，所述当前显示的界面包括至少一个应用，每个所述应用对应一个应用标识，所述当前界面的界面标识关联当前显示的界面的所有应用标识，且用于唯一标识所述当前显示的界面，所述电子设备中每个界面都对应一个GUI控制事件集合，每个所述界面标识还用于在所述电子设备中唯一标识一个界面，因此通过当前界面可以确定出GUI控制事件集合。

另外，每个所述应用标识还关联一个view(窗口或页面)，当执行该应用时，即打开所述应用关联的view，例如对于一应用“微信”，当聚焦到该应用“微信”时，对应打开该“微信”关联的view(窗口或页面)。

可选的，步骤103中匹配和查找控制事件名称之前，还包括：判断所述第一文字串是否满足语义框架完整性要求，其中所述语义框架完整性包括：服务名称、服务内容和服务对象的完整性等；如果满足，则确定关键词并执行步骤103；如果不满足，则对所述第一文字串缺失的语义进行补全，使得待查找的第一字符串满足所述框架语义完整性要求，然后再执行所述步骤103，由于本实施例对第一文字串进行匹配查找的过程是基于规范字段进行的文字匹配，所以属于精确匹配和查找，提高了确定控制事件的准确性。

进一步地，一种可能的实现方式为：终端设备根据框架语义确定缺失的内容，并向用户询问、修正或补全语义，直到满足所述框架语义完整性需求为止。例如，终端设备根据第一文字串的内容解析用户的意图，生成规范请求对文字串进行语义分析，根据事先定义的语义框架，包括：服务名称、服务对象、服务内容等，生成完整规范的服务请求。如果请求不满足框架语义规范完整性要求，终端设备会询问用户不完备的信息，比如用户输入的一句话语义文字串为“给小明发微信开会”，包括服务名称为发微信；服务对象是小明；服务内容不完整，需要补全开会的时间和地点，因此终端设备的系统会向用户询问具体的“开会”时间和地点，使得这一句话的服务请求内容完整。

所述框架语义规范可以在终端设备的系统中预先配置完成，例如在定义各个GUI组件(包括控件、窗口、activity等)过程中，设置框架语义内容和各组件对应的自然语义属性，例如操作或服务名称、操作服务链依赖关系等，使之符合特定的框架语义规范，从而为后续精准识别和查找控制事件做准备。

上述步骤103利用框架语义补全功能对模糊的词汇进行框架补全，从而提高了匹配和查找的成功率，为后续的准确和快速地查找出与GUI控制事件和控制事件ID做准备，实现了从语音意图识别到具体的操作、服务的高效查找、跳转、自动化链式服务和自动化操控GUI组件功能。

可选的，在步骤103之前还包括：终端设备获取并且存储GUI控制事件集合中的所有控制事件名称，以及每个控制事件名称ID，具体地，所述控制事件名称可以通过控件的语义定义来设置，进一步地，可以采用以下两种方式定义：

方式一

1、在语义开发时，添加并配置所述GUI控制事件集合中的所有控制事件名称的自然语义处理(nature language process，NLP)字段的方式。具体地，在控制事件集合添加一个控制事件名称，该控制事件名称可通过自然语义描述字段来设置，例如设置“微信”这个控制事件，对应的自然语义描述字段包括：控制事件名称“微信”、发送微信的对象、需要发送的内容以及发送时间等。

方式二

2、通过扫描所述GUI控制事件集合中的每个控制事件名称标识，并将所述所有控制事件名称标识映射到自然语义定义的人工标签的方式。具体地，系统利用第三方APP应用扫描每个控制事件ID，所述控制事件ID可通过在GUI的输入系统(input system)配置获得，每个所述控制事件名称对应唯一的控制事件ID，然后系统将所有扫描的控制事件ID映射到自然语义定义的人工标签上，形成每个控制事件的自然语义描述到映射表的对应关系。其中所述自然语义描述包括有限个词汇，且每个词汇对应一个所述控制事件名称，因此可以建立所述每个控制事件自然语义和所述控制事件ID的对应关系。

进一步地，所述控制事件的自然语义描述和映射表的数据结构可以表示为：

Class view{

Name：人类可识别的自然语义描述控制事件名称

ID：计算机可识别的控制事件ID

}

步骤104：确定所述控制事件名称对应的控制事件，执行所述控制事件，并完成所述控制事件的相关进程。

终端设备的控制模块获取查找达到所述控制事件名称之后，将所述控制事件名称聚焦到对应的控制事件，其中所述聚焦的过程包括以下方式：

一种可能的实现方式是，将所述控制事件名称在控件树中遍历，确定与所述控制事件名称相同的分支，查找所述分支上尾节点的控制事件标识，根据所述控制事件标识确定所述控制事件，或者说通过控件树查找将每个所述控制事件名称聚焦到对应的控制事件。

其中，所述控件树又可称为“窗口树”或者“view树”，具体地，所述控件树由根节点和至少一条分支组成，每条所述分支包括至少一个中间节点和尾节点，每个所述中间节点上配置有一个字符，在所述尾节点上配置有一个控制事件标识，所述控制事件标识用于指示所述尾节点所在的分支上所有字符组成的控制事件名称。

具体地，遍历时可从控件树的根节点开始沿着一条分支从该分支的第一个字符开始逐一查找和比对，当控制事件名称包涵字符与控件树上的某一分支上的字符相同时，认为该控制事件名称在控件树中可以找到相匹配的控制事件；否则，认为不相匹配。

另一种可能的实现方式是，通过光学字符辨识(optical characterrecognition，OCR)技术确定所述控制事件名称所对应的坐标区域，并根据所述坐标区域(例如控件坐标)确定所述控制事件，实现对控制事件的聚焦。例如，在语音识别场景，用户语音输入关键词“发微信”，确定出该关键词“发微信”所对应的控制事件名称“微信”(即第一应用的名称)，由于该第一应用名称的坐标区域与当前显示界面的第一应用APP“微信”所在的区域相关联，所以通过第一应用“微信”的坐标区域能够在当前显示的界面中唯一定位控制事件“微信”。

步骤104中终端设备执行所述控制事件的相关进程，完成用户通过语音输入驱动GUI交互操作。其中，所述执行每个控制事件的相关进程包括：点击打开、退出、返回、确认、取消和关闭等。所述GUI交互操作包括：将用户输入文字串转化为GUI操作事件的方法、例如打开退出、返回桌面、返回、左右滑、上下滑动、点击等。

具体地，确定所述控制事件之后，根据该控制事件的控制事件标识(ID)来执行该控制事件并实现所述GUI相关交互操作。比如利用所述“窗口管理器”来识别控制事件标识，并执行窗口切换和显示等交互操作，从而完成了基于语音驱动的GUI交互控制。所述交互操作是系统预先设置好的一系列流程，比如确定识别出控制事件“微信”之后，执行一系列的交互操作包括：打开微信、查找联系人、输入发送内容、确认发送等过程，本实施例提供的方法，无需客户进行按键和触控操作，仅使用语音控制就能够完成GUI交互，提高了用户体验。

此外，对于不熟悉终端(手机)使用操作方法的用户，可以通过语音实现对手机的操控，比如：发信息、播放视频、拍照、查找文件、手电筒等，从而无需学习手机UI操作逻辑，极简的使用手机的功能和服务。

另外，本方法基于语音驱动控制事件实现GUI交互的过程，系统可以自动判断解放双手模式场景，自动切换；或者智能识别语音控制指令，判断相关性概率，实现自动切换。例如用户在驾车过程中，需要解放双手，不能操控手机，则手机终端可根据用户的语音自动切换到语音模式，进而实现上述GUI交互的方法流程。

在一个具体的实施例中，本申请提供的GUI交互方法可针对交互复杂、学习成本高、人和机器交互存在隔阂的应用场景中，解决的技术方案是：利用人类自然语言描述，桥接“自然语义至服务能力”的过渡，从而实现“一句话服务直达”的效果，达到自然极简地操作复杂的操作系统的目标。

具体地，如图5所示，本实施例提供的“一句话服务直达”的具体方法包括：

步骤501：用户在终端设备的当前界面上输入一句话语音。例如所述用户在终端设备的Home界面输入的一句话语音为：“给小明发微信开会”。

步骤502：终端设备将所述语音转换为文本。通过语义识别将所述语音转换成文字串或文本，本实施例中转换后的文字串为“给小明发微信开会”。

步骤503：终端设备对所述文字串进行自然语义理解。将该文字串拆分成若干个关键，例如：给、小明、发、微信、开会。

步骤504：判断所述文字串是否满足框架语义完整性要求。通过解析系统可以判断该文字串中包括服务名称“发微信”、服务对象“小明”、服务内容是“开会”，但是服务内容中还缺少“开会”的具体时间和地点、所以服务内容“开会”不能满足语义完整性要求，需要进一步补充。其中，所述框架语义完整性的判断条件可以预先在系统设置，例如所述完整性判断条件中包括：服务名称、服务对象、服务内容或服务细节等。

具体地，一种补充语义完成的方式是，步骤5041：系统根据上下文环境智能感知文字串语义，并通过向询问缺少内容来补充完整语义，例如本实施例中判断出当前的一句话语音缺少服务细节，所以终端设备向用户询问“开会”的服务细节，包括开会时间、地点、会议内容等，可选的，本实施例中，终端设备经过与用户间的询问以及相关上下文可以推断缺少的服务细节内容补全之后为，时间：今天10点、地点：1H01室、XX会议内容等细节。

步骤5042：终端设备根据框架语义完整性要求，对缺失的语义进行框架语义补全。将步骤5041中获取的服务内容，比如会议细节进行补全。

步骤505：当补全之后的文字串满足所述框架语义完整性要求时，生成完整规范的服务请求。具体地，所述完整的规范服务请求包括下表1所示的内容：

关键词(语义词汇)	语义内容
		服务名称	微信
服务对象	小明
		服务内容	发微信
服务细节	今天10点在1H01室开XX会议

表1

步骤506：根据所述服务请求对文字串的关键词进行UI搜索，确定控制事件。

首先确定当前显示界面所对应的GUI控制事件集合，具体包括：通过当前显示界面的界面标识，所述界面标识与GUI控制事件集合之间的对应关系，确定出所述当前显示界面的所对应的GUI控制事件集合。其中所述GUI控制事件集合包括当前显示界面上所有应用APP的应用名称(即控制事件名称)，且每个所述应用对应一个应用标识，所述当前显示界面的界面标识用于唯一标识所述当前显示的界面。

所述步骤506具体包括：将文字串“给小明发微信，今天10点在1H01室开XX会议”进行解析，得到至少一个关键词：给、小明、发、微信、今天10点在1H01室开XX会议；然后将这些关键词在当前显示的界面中对应的GUI控制事件集合中查找相匹配的控制事件名称，可选的，当前显示界面所对应的GUI控制事件集合中包括的控制事件名称有：QQ、微信、照相机、淘宝、支付宝等。经过匹配查找，只有关键词“微信”在当前显示的界面中的GUI控制事件集合有相同的控制事件名称“微信”，所以筛选出该语音文字串的控制事件名称为“微信”。

系统确定出控制事件名称之后，聚焦该控制事件，即在当前终端设备的显示界面中锁定该控制事件，相当于光标或者虚拟的用户手势指向所述“微信”应用(或称第一应用)。具体可以通过两种方式实现，一种方式是，将控制事件名称“微信”在控件树中遍历，找到对应的控制事件标识，通过该标识锁定所述“微信”，因为在所述控件树中每个控制事件名称与控制事件标识之间具有唯一的对应关系。另一种方式是，通过OCR技术对当前终端设备的界面进行分析，确定控制事件名称“微信”所在的坐标区域位于当前显示界面中的哪个位置，因为第一应用“微信”的坐标区域为所述当前显示页面所在的坐标系中的一部分，所以通过第一应用“微信”的坐标区域能够确定当前页面显示的第一应用“微信”的位置，聚焦到该控制事件“微信”应用，并打开“微信”的应用界面。

步骤507：终端设备执行所述控制事件的相关进程，实现UI界面的自动直达。

终端设备确定出控制事件“微信”之后，按照预设程序执行“微信”的相关进程，由于第一应用“微信”所对应的应用标识还关联一个页面(或窗口)，所以当执行该第一应用时，即打开所述第一应用关联的页面(或窗口)，并执行对应的预配置相关进程，如图6所示包括：

1、打开微信、找到微信通讯录，并激活(activity)所述微信通讯录，其中所述控制事件微信与微信通讯录页面之间相关联；

2、对通讯录中的人名进行查找，筛选出服务对象“小明”；

其中服务对象“小明”为筛选的当前视窗(view)1中的一个控制事件，若在控件树中查找到多个“小明”，则需要对目标所要查找的“小明”做服务对象的服务语义描述(view2)，以便唯一确定一个服务对象；

3、根据文字串中的关键词“发微信”执行在服务对象小明的信息栏中打开发消息视窗

(view3)，其中，所述服务对象“小明”的信息栏标识与所述发消息视窗view3具有关联关系；

4、打开视窗view3后在显示的输入框视窗(view4)中输入服务细节内容“今天10点在1H01室开XX会议”；

5、对所述输入的服务细节内容进行服务语义描述(在视窗view5)使发送的内容符合框架语义完整性要求，最后将该消息通过视窗view6显示并发送给用户，为该用户提供服务。

本实施例提供的方法，分析并对自然模糊语义进行智能补全，结合框架语义规范和服务链式脚本的要求，实现了高效查找、跳转、自动链式化服务，从而实现释放双手，基于语音驱动控制GUI交互的极简操作，实现了一句话服务直达的效果，提高了用户的体验。

进一步地，所述“一句话服务直达”概况而言，包括：自然语言、框架语义、规范服务和服务直达等四个主要过程，这些过程通过上述步骤501至步骤507实现，应理解，本方法还可以包括其他步骤，比如上下文语义感知、纠错等过程，本实施例对此不进行限制。

另外，需要说明的是，本实施例所述的视窗(view)，也可指页面或窗口。

参见图7，为本申请一实施例提供的一种GUI交互装置，用于实现前述实施例提供的GUI交互方法。其中，所述装置包括：获取单元701和处理单元702，此外还可以包括其它功能模块或单元，比如发送单元和存储单元等，本实施例对此不进行限定。

具体地，获取单元701用于获取第一文字串，所述第一文字串是由用户语音转换生成；处理单元702用于解析所述第一文字串得到至少一个关键词；在所述电子设备当前显示的界面对应的控制事件集合中查找与所述至少一个关键词相匹配的控制事件名称，所述控制事件集合中包括所述当前显示界面中所能产生的控制事件的名称与关键词的对应关系；确定所述控制事件名称对应的控制事件，并执行所述控制事件，并完成所述控制事件的相关进程。

可选的，在本实施例的一种具体的实现方式中，所述处理单元702还用于在查找相匹配的控制事件名称之前，根据所述电子设备当前显示的界面确定当前界面的界面标识；根据所述界面标识确定与所述界面标识对应的控制事件集合；其中，所述当前显示的界面包括至少一个应用，每个所述应用对应一个应用标识，所述当前界面的界面标识关联当前显示的界面的所有应用标识，且用于唯一标识所述当前显示的界面。

可选的，在本实施例的另一种具体的实现方式中，所述处理单元702具体用于将所述控制事件名称在控件树中遍历，确定与所述控制事件名称相同的分支，其中所述控件树由根节点和至少一条分支组成，每条所述分支包括至少一个中间节点和尾节点，每个所述中间节点上配置有一个字符，在所述尾节点上配置有一个控制事件标识，所述控制事件标识用于指示所述尾节点所在的分支上所有字符组成的控制事件名称；查找所述至少一条分支中的每条分支上尾节点的控制事件标识；根据所述控制事件标识确定所述控制事件。

可选的，在本实施例的另一种具体的实现方式中，所述处理单元702具体用于根据光学字符辨识OCR技术确定所述控制事件名称所对应的坐标区域，利用所述坐标区域确定所述控制事件。

可选的，在本实施例的又一种具体的实现方式中，所述处理单元702还用于配置所述控制事件集合中的控制事件名称，其中所述处理单元配置所述控制事件集合中的控制事件名称，具体包括以下两种方式：在语义开发时，添加并配置所述控制事件集合中的每个所述控制事件名称的自然语义处理字段的方式；或者，扫描所述控制事件集合中的每个控制事件标识，并将所述所有控制事件名称标识映射到自然语义定义的人工标签的方式。

可选的，在本实施例的又一种具体的实现方式中，所述处理单元702还用于在解析所述第一文字串得到至少一个关键词之前，判断所述第一文字串是否满足框架语义完整性要求；如果满足，则执行将在所述控制事件集合中查找控制事件名称的步骤；如果不满足，则确定所述第一文字串中缺少的内容，并对所述缺少内容进行语义补全，使得补全之后满足所述框架语义完整性要求。其中，所述框架语义完整性要求中包括服务名称、服务内容和服务对象的完整性。

可选的，所述处理单元702具体可用于实现前述图3所示的转换模块31、过滤模块32和控制模块33的功能。

另外，参见图8，本申请实施例提供的一种终端设备的结构示意图。所述终端设备可以包括前述实施例中的GUI交互装置，用于实现前述各个实施例中的GUI交互方法。

如图8所示，所述终端设备可以包括收发器801、处理器802和存储器803，所述终端设备还可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置，本申请对此不进行限定。进一步地，收发器801用于获取用户语音以及其他网络设备发送的信息。

在本申请的不同实施方式中，收发器中的各种收发模块一般以集成电路芯片(Integrated Circuit Chip)的形式出现，并可进行选择性组合。例如，获取用户输入的语音并接收后发送给处理器处理。

所述处理器802为终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器703内的软件程序和/或模块，以及调用存储在存储器703内的数据，以执行终端设备的各种功能和/或处理数据。

所述处理器802可以由集成电路(Integrated Circuit，IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器可以仅包括中央处理器(Central Processing Unit，CPU)，也可以是GPU、数字信号处理器(Digital Signal Processor，DSP)、及收发器中的控制芯片(例如基带芯片)的组合。在本申请的各种实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

所述存储器803可以包括易失性存储器(volatile memory)，例如随机存取内存(Random Access Memory，RAM)；还可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，硬盘(Hard Sisk Drive，HDD)或固态硬盘(Solid-StateDrive，SSD)；存储器还可以包括上述种类的存储器的组合。所述存储器中可以存储有程序或代码，终端设备中的处理器802通过执行所述程序或代码可以实现所述终端设备的功能。

进一步地，图7中的获取单元701所要实现的功能可以由所述终端设的收发器801实现，或者由处理器802控制所述收发器801实现，所述处理单元702所要实现的功能则可以由所述处理器802实现。可选的，所述处理器802还用于实现前述图3所示的转换模块31、过滤模块32和控制模块33的全部功能。进一步地，在具体的硬件实现中，所述处理器为处理芯片，该处理芯片上包括所述转换模块31、过滤模块32和控制模块33等功能单元，或者是这三个模块集成的处理单元，通过所述硬件芯片实现各种功能，本实施例对各功能模块和单元的结构形态不做具体限制。

此外，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的电子设备GUI交互方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体ROM或随机存储记忆体RAM等。在上述实施例中，可以全部或部分通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令，例如切换指令，在计算机加载和执行所述计算机程序时，全部或部分地产生按照本申请上述各个实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网络节点、计算机、服务器或数据中心通过有线或无线方式向另一个站点、计算机或服务器进行传输。

所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等存储设备。所述可用介质可以是磁性介质，例如软盘、硬盘、磁带、光介质(例如DVD)、或半导体介质，例如SSD等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于网络设备/节点或装置设备而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种电子设备图形用户界面GUI交互方法，其特征在于，所述方法包括：

获取第一文字串，所述第一文字串是由用户语音转换生成；

解析所述第一文字串得到至少一个关键词；

在所述电子设备当前显示的界面对应的控制事件集合中查找与所述至少一个关键词相匹配的控制事件名称，所述控制事件集合包括所述当前显示界面中所能产生的控制事件的名称与关键词的对应关系；

确定所述控制事件名称对应的控制事件，并执行所述控制事件。

2.根据权利要求1所述的方法，其特征在于，所述查找相匹配的控制事件名称之前，还包括：

根据所述电子设备当前显示的界面确定当前界面的界面标识；

根据所述界面标识确定与所述界面标识对应的控制事件集合；

其中，所述当前显示的界面包括至少一个应用，每个所述应用对应一个应用标识，所述当前界面的界面标识关联当前显示的界面的所有应用标识，且用于唯一标识所述当前显示的界面。

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述控制事件名称对应的控制事件，包括：

将所述控制事件名称在控件树中遍历，确定与所述控制事件名称相同的分支，其中所述控件树由根节点和至少一条分支组成，每条所述分支包括至少一个中间节点和尾节点，每个所述中间节点上配置有一个字符，在所述尾节点上配置有一个控制事件标识，所述控制事件标识用于指示所述尾节点所在的分支上所有字符组成的控制事件名称；

查找所述分支上尾节点的控制事件标识；

根据所述控制事件标识确定所述控制事件。

4.根据权利要求1或2所述的方法，其特征在于，确定所述控制事件名称对应的控制事件，包括：

根据光学字符辨识技术确定所述控制事件名称所对应的坐标区域；

利用所述坐标区域确定所述控制事件。

5.根据权利要求1-4任一项所述的方法，其特征在于，配置控制事件集合中的控制事件名称包括以下两种方式：

在语义开发时，添加并配置控制事件集合中的每个所述控制事件名称的自然语义处理字段的方式；

或者，扫描控制事件集合中的每个控制事件标识，并将所述所有控制事件名称标识映射到自然语义定义的人工标签的方式。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述解析所述第一文字串得到至少一个关键词之前，还包括：

判断所述第一文字串是否满足框架语义完整性要求，所述框架语义完整性要求中包括服务名称、服务内容和服务对象的完整性；

如果不满足，则确定所述第一文字串中缺少的内容，并对所述缺少内容进行语义补全。

7.一种电子设备图形用户界面GUI交互装置，其特征在于，所述装置包括：

获取单元，用于获取第一文字串，所述第一文字串是由用户语音转换生成；

处理单元，用于解析所述第一文字串得到至少一个关键词；在所述电子设备当前显示的界面对应的控制事件集合中查找与所述至少一个关键词相匹配的控制事件名称，所述控制事件集合中包括所述当前显示界面中所能产生的控制事件的名称与关键词的对应关系；确定所述控制事件名称对应的控制事件，并执行所述控制事件。

8.根据权利要求7所述的装置，其特征在于，

所述处理单元，还用于在查找相匹配的控制事件名称之前，根据所述电子设备当前显示的界面确定当前界面的界面标识；根据所述界面标识确定与所述界面标识对应的控制事件集合；

9.根据权利要求7或8所述的装置，其特征在于，

所述处理单元，具体用于将所述控制事件名称在控件树中遍历，确定与所述控制事件名称相同的分支，其中所述控件树由根节点和至少一条分支组成，每条所述分支包括至少一个中间节点和尾节点，每个所述中间节点上配置有一个字符，在所述尾节点上配置有一个控制事件标识，所述控制事件标识用于指示所述尾节点所在的分支上所有字符组成的控制事件名称；查找所述分支上尾节点的控制事件标识；根据所述控制事件标识确定所述控制事件。

10.根据权利要求7或8所述的装置，其特征在于，

所述处理单元，具体用于根据光学字符辨识技术确定所述控制事件名称所对应的坐标区域，利用所述坐标区域确定所述控制事件。

11.根据权利要求7-10任一项所述的装置，其特征在于，

所述处理单元，还用于配置控制事件集合中的控制事件名称，具体包括以下两种方式：

在语义开发时，添加并配置控制事件集合中的每个所述控制事件名称的自然语义处理字段的方式；或者，扫描控制事件集合中的每个控制事件标识，并将所述所有控制事件名称标识映射到自然语义定义的人工标签的方式。

12.根据权利要求7-11任一项所述的装置，其特征在于，

所述处理单元，还用于在解析所述第一文字串得到至少一个关键词之前，判断所述第一文字串是否满足框架语义完整性要求，如果不满足，则确定所述第一文字串中缺少的内容，并对所述缺少内容进行语义补全；

其中所述框架语义完整性要求中包括服务名称、服务内容和服务对象的完整性。

13.一种终端设备，包括处理器和存储器，所述处理器与所述存储器耦合，其特征在于，

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中的指令，使得所述终端设备执行如权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，所述存储介质中存储有指令，其特征在于，

当所述指令被运行时，实现如权利要求1至6中任一项所述的方法。