CN118250371A

CN118250371A - 终端控制方法、装置、设备及存储介质

Info

Publication number: CN118250371A
Application number: CN202410361834.9A
Authority: CN
Inventors: 孙连鹏; 于鑫
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-06-25

Abstract

本申请公开了一种终端控制方法、装置、设备及存储介质，属于智能终端技术领域。该方法包括：在终端展示第一界面的过程中，通过获取用户输入的语音信息以及对终端进行屏幕截取得到的截屏图像，应用语音识别和图像识别技术，确定用户针对第一界面的操作意图和第一界面的界面内容，基于此，确定出符合用户操作意图的操作指令，并控制终端执行该操作指令，使得用户能够通过语音来对终端上展示的任意界面实施操作，有效提升了人机交互效率，改善了用户体验感。

Description

终端控制方法、装置、设备及存储介质

技术领域

本申请涉及智能终端技术领域，特别涉及一种终端控制方法、装置、设备及存储介质。

背景技术

随着智能终端的功能日益丰富，许多智能终端上配置有语音助手，以智能手机为例，用户可以通过语音助手来发送短信、拨打电话、查询天气等。

相关技术中，智能终端运行语音助手，语音助手获取到用户的语音信息之后，检测语音信息与预设语音指令是否匹配，在检测到语音信息与预设语音指令匹配时，控制智能终端执行该预设语音指令。

然而，上述方法中，语音助手只能控制智能终端执行预设好的语音指令，无法实现除预设语音指令以外的语音指令，导致人机交互效率较差，用户体验感不佳。

发明内容

本申请实施例提供了一种终端控制方法、装置、设备及存储介质。所述技术方案如下：

第一方面，提供了一种终端控制方法，所述方法包括：

在终端展示第一界面的过程中，获取用户输入的语音信息以及对所述终端进行屏幕截取得到的第一截屏图像；

对所述语音信息进行语音识别，得到所述用户针对所述第一界面的操作意图，以及，对所述第一截屏图像进行图像识别，得到所述第一界面的界面内容；

基于所述操作意图和所述界面内容，确定符合所述操作意图的第一操作指令，所述第一操作指令指示对所述第一界面实施第一操作；

控制所述终端执行所述第一操作指令以对所述第一界面实施所述第一操作。

在一些实施例中，所述基于所述操作意图和所述界面内容，确定符合所述操作意图的第一操作指令，包括下述任一项：

基于所述操作意图和所述界面内容，从多个预设操作指令中确定符合所述操作意图的所述第一操作指令；

基于所述操作意图和所述界面内容，生成符合所述操作意图的所述第一操作指令。

在一些实施例中，所述界面内容指示所述第一界面的界面布局和多个界面元素，所述界面元素包括图像、文本以及控件中至少一项；

所述基于所述操作意图和所述界面内容，确定符合所述操作意图的第一操作指令，包括：

基于所述操作意图和所述多个界面元素之间的匹配结果，从所述多个界面元素中确定符合所述操作意图的目标界面元素；

基于所述界面布局，确定所述目标界面元素在所述第一界面的位置；

基于所述目标界面元素在所述第一界面的位置，确定所述第一操作指令。

在一些实施例中，所述基于所述操作意图和所述多个界面元素之间的匹配结果，从所述多个界面元素中确定符合所述操作意图的目标界面元素，包括下述任一项：

基于所述操作意图和所述多个界面元素中每个界面元素之间的匹配结果，从所述多个界面元素中确定所述目标界面元素；

从所述第一截屏图像中确定符合所述操作意图的目标区域，基于所述操作意图和所述目标区域中每个界面元素之间的匹配结果，确定所述目标界面元素。

在一些实施例中，所述基于所述操作意图和所述界面内容，确定符合所述操作意图的第一操作指令，包括：

基于所述操作意图和所述界面内容，确定符合所述操作意图的至少一个候选操作指令；

控制所述终端在所述第一界面上展示提示信息，所述提示信息指示从所述至少一个候选操作指令中确定待执行的操作指令；

响应于所述用户针对所述提示信息的触发操作，将所述触发操作所指示的候选操作指令确定为所述第一操作指令。

在一些实施例中，所述响应于所述用户针对所述提示信息的触发操作，将所述触发操作所指示的候选操作指令确定为所述第一操作指令，包括下述任一项：

响应于所述用户针对所述提示信息的语音输入操作，将所述语音输入操作所指示的候选操作指令确定为所述第一操作指令；

响应于所述用户针对所述提示信息的眼动控制操作，将所述眼动控制操作所指示的候选操作指令确定为所述第一操作指令。

在一些实施例中，所述在终端展示第一界面的过程中，获取用户输入的语音信息以及对所述终端进行屏幕截取得到的第一截屏图像，包括：

在所述终端展示所述第一界面的过程中，获取对所述终端进行屏幕录制得到的录制视频；

在获取到所述语音信息的情况下，基于所述语音信息的获取时间，从所述录制视频中截取与所述获取时间对应的所述第一截屏图像。

在一些实施例中，所述方法还包括：

在对所述终端进行屏幕录制的过程中，对所述录制视频进行图像识别，得到所述录制视频的视频内容，所述视频内容用于为所述第一截屏图像的图像识别过程提供参考信息。

第二方面，提供了一种终端控制装置，所述装置包括：

获取模块，用于在终端展示第一界面的过程中，获取用户输入的语音信息以及对所述终端进行屏幕截取得到的第一截屏图像；

识别模块，用于对所述语音信息进行语音识别，得到所述用户针对所述第一界面的操作意图，以及，对所述第一截屏图像进行图像识别，得到所述第一界面的界面内容；

确定模块，用于基于所述操作意图和所述界面内容，确定符合所述操作意图的第一操作指令，所述第一操作指令指示对所述第一界面实施第一操作；

控制模块，用于控制所述终端执行所述第一操作指令以对所述第一界面实施所述第一操作。

在一些实施例中，确定模块，用于下述任一项：

基于操作意图和界面内容，从多个预设操作指令中确定符合操作意图的第一操作指令；

基于操作意图和界面内容，生成符合操作意图的第一操作指令。

在一些实施例中，界面内容指示第一界面的界面布局和多个界面元素，界面元素包括图像、文本以及控件中至少一项；

确定模块，用于：

基于操作意图和多个界面元素之间的匹配结果，从多个界面元素中确定符合操作意图的目标界面元素；

基于界面布局，确定目标界面元素在第一界面的位置；

基于目标界面元素在第一界面的位置，确定第一操作指令。

在一些实施例中，确定模块，用于下述任一项：

基于操作意图和多个界面元素中每个界面元素之间的匹配结果，从多个界面元素中确定目标界面元素；

从第一截屏图像中确定符合操作意图的目标区域，基于操作意图和目标区域中每个界面元素之间的匹配结果，确定目标界面元素。

在一些实施例中，确定模块，用于：

基于操作意图和界面内容，确定符合操作意图的至少一个候选操作指令；

控制终端在第一界面上展示提示信息，提示信息指示从至少一个候选操作指令中确定待执行的操作指令；

响应于用户针对提示信息的触发操作，将触发操作所指示的候选操作指令确定为第一操作指令。

在一些实施例中，确定模块，用于下述任一项：

响应于用户针对提示信息的语音输入操作，将语音输入操作所指示的候选操作指令确定为第一操作指令；

响应于用户针对提示信息的眼动控制操作，将眼动控制操作所指示的候选操作指令确定为第一操作指令。

在一些实施例中，获取模块，用于：

在终端展示第一界面的过程中，获取对终端进行屏幕录制得到的录制视频；

在获取到语音信息的情况下，基于语音信息的获取时间，从录制视频中截取与获取时间对应的第一截屏图像。

在一些实施例中，识别模块，还用于：

在对终端进行屏幕录制的过程中，对录制视频进行图像识别，得到录制视频的视频内容，视频内容用于为第一截屏图像的图像识别过程提供参考信息。

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如本申请实施例所述的终端控制方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如本申请实施例所述的终端控制方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如本申请实施例所述的终端控制方法。

本申请提供了一种终端控制方法，其中，在终端展示第一界面的过程中，通过获取用户输入的语音信息以及对终端进行屏幕截取得到的截屏图像，应用语音识别和图像识别技术，确定用户针对第一界面的操作意图和第一界面的界面内容，基于此，确定出符合用户操作意图的操作指令，并控制终端执行该操作指令，使得用户能够通过语音来对终端上展示的任意界面实施操作，有效提升了人机交互效率，改善了用户体验感。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种终端控制方法的流程图；

图3是本申请实施例提供的另一种终端控制方法的流程图；

图4是本申请实施例提供的一种终端控制装置的结构示意图；

图5是本申请实施例提供的一种终端的结构示意图；

图6是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。

这些术语只是用于将一个元素与另一个元素区别开。例如，在不脱离各种示例的范围的情况下，第一界面能够被称为第二界面，并且类似地，第二界面也能够被称为第一界面。第一界面和第二界面都可以是界面，并且在某些情况下，可以是单独且不同的界面。

其中，至少一个是指一个或一个以上，例如，至少一个界面可以是一个界面、两个界面、三个界面等任意大于等于一的整数个界面。而多个是指两个或者两个以上，例如，多个界面可以是两个界面、三个界面等任意大于等于二的整数个界面。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的用户的语音信息、截屏图像等都是在充分授权的情况下获取的。

下面对本申请实施例的实施环境进行介绍。

图1是本申请实施例提供的一种实施环境的示意图。如图1所示，该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线网络或无线网络进行直接或间接地连接，本申请在此不作限制。

终端101包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。示意性地，终端101上运行有目标应用，该目标应用能够控制终端101执行多种指令以实现相应功能。例如，目标应用为语音助手类应用，是一种通过语音识别和自然语言处理技术与用户进行交互的软件或应用程序。示意性地，目标应用通过终端101的麦克风采集用户语音，根据用户输入的语音指令，控制终端101执行该语音指令以实现该语音指令所对应的功能，例如，语音指令为发送短信、拨打电话、查询天气等。另外，终端101具备展示功能，能够展示各类应用的应用界面，用户可以在应用界面上实施各类操作，如点击应用界面上的控件等，触发终端101执行相应指令以实现相应功能。需要说明的是，本申请对于终端101上所运行应用的类型不作限定，例如，终端101上可以运行视频类应用、社交类应用、游戏类应用、搜索类应用、交易类应用等等。

在一些实施例中，终端101泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员能够知晓，上述终端101的数量能够更多。比如上述终端101为几十个或几百个，或者更多数量，此时上述实施环境还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

服务器102用于为终端101上运行的目标应用提供后台服务。示意性地，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述服务器102的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。在本申请实施例中，服务器102能够接收终端101发送的各类数据，并对这些数据进行处理，将处理结果反馈给终端101，以使终端101实现各类功能。

在一些实施例中，上述网络可以为有线网络或无线网络。网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络，包括但不限于局域网(Local AreaNetwork，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超级文本标记语言(Hyper Text Markup Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(TransportLayer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

下面通过几个方法实施例，对本申请实施例提供的终端控制方法进行介绍。

图2是本申请实施例提供的一种终端控制方法的流程图。如图2所示，该方法由电子设备执行，以该电子设备为上述实施环境中的服务器102为例进行介绍，该方法包括下述步骤201至步骤204。

201、服务器在终端展示第一界面的过程中，获取用户输入的语音信息以及对终端进行屏幕截取得到的第一截屏图像。

在本申请实施例中，终端上运行有目标应用，该目标应用用于控制终端执行指令以实现各类功能，例如是语音助手类应用。服务器用于为终端上运行的目标应用提供后台服务，终端在运行目标应用的过程中，通过和服务器之间的通信连接来传输数据。另外，目标应用可以由用户手动开启，也可以由用户通过语音指令开启，比如说，终端识别到用户的语音包括用于开启目标应用的唤醒词“XX”，运行目标应用，本申请对于目标应用的启动方式不作限定。

示意性地，终端所展示的第一界面是指终端能够展示的任意界面，第一界面包括但不限于主界面(或称桌面、主屏幕等，是指展示有各种应用图标的界面，该界面还可以展示其他元素，如小部件、壁纸、快捷方式等)和应用界面(如视频类应用的视频播放界面、视频浏览界面等)。终端在展示第一界面的过程中，通过麦克风采集用户语音，得到用户的语音信息，将用户的语音信息发送给服务器。另外，终端提供截屏功能，终端在展示第一界面的过程中，通过对终端屏幕上展示的内容进行屏幕截取，得到第一截屏图像，将第一截屏图像发送给服务器。需要说明的是，本申请对于第一截屏图像的数量以及屏幕截取时间不作限定，终端可以每间隔预设时间段(能够根据业务需求进行设定，例如每间隔1秒)，对终端进行屏幕截取以得到第一截屏图像，也可以对用户的语音信息进行识别，在识别到语音信息指示对第一界面实施操作的情况下，对终端进行屏幕截取以得到第一截屏图像，本申请对此不作限定。

在一些实施例中，服务器在终端展示第一界面的过程中，获取对终端进行屏幕录制得到的录制视频；在获取到语音信息的情况下，基于语音信息的获取时间，从录制视频中截取与获取时间对应的第一截屏图像。也即是，在终端展示第一界面的过程中，终端持续录屏，并将录制视频实时传输给服务器，如此，在服务器获取到语音信息的情况下，可以直接从服务器本地的录制视频中获取相应的截屏图像，进而降低终端与服务器之间的图像传输时延。

在另一些实施例中，在对终端进行屏幕录制的过程中，对录制视频进行图像识别，得到录制视频的视频内容，视频内容用于为第一截屏图像的图像识别过程提供参考信息。这一过程可以由终端执行，也可以由服务器执行，本申请对此不作限定。通过对录制视频进行图像识别，在后续识别第一截屏图像的图像内容时，能够结合对录制视频的图像识别内容，进而提升第一截屏图像的识别结果的准确度和效率。

202、服务器对语音信息进行语音识别，得到用户针对第一界面的操作意图，以及，对第一截屏图像进行图像识别，得到第一界面的界面内容。

在本申请实施例中，服务器上部署有人工智能(Artificial Intelligence，AI)模型，例如，服务器上部署的AI模型为Grok-1、Llama 2、GPT-4、Dolly 2.0等开源AI大模型，本申请对此不作限定。示意性地，服务器上部署的AI模型具备语音识别功能和图像识别功能，能够对获取到的语音信息进行语音识别，将语音信息转换为文本或指令代码，提取关键词，基于关键词得到用户针对第一界面的操作意图，以及，对获取到的第一截屏图像进行图像识别，得到第一界面的界面内容。其中，操作意图也即是用户想对第一界面实施什么样的操作，或者说，用户想让终端实现什么样的功能。另外，界面内容指示第一界面的界面布局和多个界面元素，界面布局用于指示第一界面上各个界面元素在第一界面上的位置、尺寸等信息，界面元素包括图像、文本以及控件中至少一项，本申请对此不作限定。需要说明的是，本申请对于AI模型所具备的语音识别功能和图像识别功能的算法实现不作限定，例如，语音识别功能可以通过深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)来实现，也可以通过动态时间规整算法(Dynamic Time Warping，DTW)算法、隐马尔可夫模型(HiddenMarkov Model，HMM)、转录模型(Transcription Model)实现，等等。又例如，图像识别功能通过深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)来实现，或者支持向量机(Support Vector Machine，SVM)，等等。实际应用中可以根据具体问题和数据特点选择合适的算法或结合多种算法进行上述语音识别和图像识别，本申请对此不作限定。

例如，以第一界面为视频类应用的视频播放界面为例，终端在展示视频播放界面的过程中，获取到用户的语音信息为“播放YY电视剧的第10集”，并获取对终端进行屏幕截取得到的截屏图像，终端将语音信息和截屏图像发送给服务器，由服务器对语音信息进行语音识别，确定用户针对视频播放界面的操作意图为“在视频播放界面播放YY电视剧的第10集”，以及，服务器对截屏图像进行图像识别，得到视频播放界面的界面内容，例如，视频播放界面包括视频播放窗口和选集控件，视频播放窗口正在播放YY电视剧的第9集，选集控件在视频播放窗口下方，等等。

又例如，以第一界面为社交类应用的聊天界面为例，终端在展示聊天界面的过程中，获取到用户的语音信息为“向ZZZ发送OK表情包”，并获取对终端进行屏幕截取得到的截屏图像，终端将语音信息和截屏图像发送给服务器，由服务器对语音信息进行语音识别，确定用户针对视频播放界面的操作意图为“在聊天界面的输入框中输入OK表情包，并发送给ZZZ”，以及，服务器对截屏图像进行图像识别，得到聊天界面的界面内容，例如，聊天界面包括输入框、表情选择控件以及发送控件等，表情选择控件和发送控件位于输入框下方，等等。

203、服务器基于操作意图和界面内容，确定符合操作意图的第一操作指令，第一操作指令指示对第一界面实施第一操作。

在本申请实施例中，第一操作指令符合操作意图是指，通过执行第一操作指令，能够实现用户的操作意图。在一些实施例中，服务器基于操作意图和界面内容，从多个预设操作指令中确定符合操作意图的第一操作指令。其中，预设操作指令是指预先设置好的操作指令，服务器基于操作意图和界面内容的语义，对操作意图和界面内容进行匹配，基于操作意图和界面内容之间的匹配结果，从多个预设操作指令中确定第一操作指令。例如，匹配结果为匹配度，通过数值体现，数值越大，匹配度越高。在另一些实施例中，服务器基于操作意图和界面内容，生成符合操作意图的第一操作指令。示意性地，服务器将操作意图和界面内容进行匹配，基于操作意图和界面内容之间的匹配结果，生成第一操作指令。也即是，服务器可以从已有的操作指令中选出符合用户操作意图的第一操作指令，提升第一操作指令的确定效率；也可以根据用户的操作意图，直接生成符合该操作意图的第一操作指令，确保第一操作指令的准确性，本申请对此不作限定。

示意性地，服务器基于操作意图和界面内容，确定符合操作意图的第一操作指令，包括如下几个步骤：

步骤1、基于操作意图和多个界面元素之间的匹配结果，从多个界面元素中确定符合操作意图的目标界面元素。

示意性地，服务器将操作意图和每个界面元素进行比对，得到操作意图和每个界面元素之间的匹配结果，基于操作意图和每个界面元素之间的匹配结果，从多个界面元素中确定目标界面元素。例如，匹配结果为匹配度，通过数值体现，在本步骤中，服务器将匹配度最高的界面元素确定为目标界面元素。如此，能够确保所确定目标界面元素的准确度。另外，本申请对于目标界面元素的数量不作限定，例如，对于一些复杂操作，需要对多个界面元素进行操作来实现。在一些实施例中，服务器从第一截屏图像中确定符合操作意图的目标区域，基于操作意图和目标区域中每个界面元素之间的匹配结果，确定目标界面元素。也即是，服务器先从第一截屏图像中确定符合操作意图的部分区域，相当于先筛选出一部分界面元素，然后再从这部分界面元素中确定符合操作意图的目标界面元素，如此，能够减少数据处理量，提高确定目标界面元素的效率。比如说，服务器确定用户的操作意图为“在视频播放界面播放YY电视剧的第10集”，从第一截屏图像中确定与视频播放相关的区域(例如是视频播放窗口及下方区域)，然后基于操作意图和这部分区域中每个界面元素之间的匹配结果，确定目标界面元素为视频播放窗口下方的选集控件。再比如说，服务器确定用户的操作意图为“在聊天界面的输入框中输入OK表情包，并发送给ZZZ”，从第一截屏图像中确定与发送聊天消息相关的区域(例如是输入框及周边区域)，然后基于操作意图和这部分区域中每个界面元素之间的匹配结果，确定目标界面元素为输入框下方的表情选择控件和发送控件。

步骤2、基于界面布局，确定目标界面元素在第一界面的位置。

其中，由于界面布局能够指示界面布局用于指示第一界面上各个界面元素在第一界面上的位置、尺寸等信息，因此，在本步骤中，服务器可以基于界面布局来确定目标界面元素在第一界面的位置，例如，目标界面元素为“WW控件”，界面布局指示WW控件在第一界面的位置为x＝aa，y＝bb(以界面左下角为原点，x和y分别表示x轴和y轴)。需要说明的是，此处对于目标界面元素的位置仅为举例说明，在实际应用中，能够根据业务需求来设置界面元素的位置表示形式，本申请对此不作限定。

步骤3、基于目标界面元素在第一界面的位置，确定第一操作指令。

其中，服务器可以基于目标界面元素在第一界面的位置，从多个预设操作指令中选出第一操作指令，例如，服务器确定目标界面元素在第一界面的位置为x＝aa，y＝bb(以界面左下角为原点，x和y分别表示x轴和y轴)，多个预设操作指令包括：指令A，对位置“x＝aa，y＝bb”实施点击操作的指令；指令B，对位置“x＝cc，y＝dd”实施点击操作的指令，基于此，服务器确定指令A为第一操作指令。另外，服务器也可以基于目标界面元素在第一界面的位置，生成第一操作指令，例如，服务器确定目标界面元素在第一界面的位置为x＝aa，y＝bb(以界面左下角为原点，x和y分别表示x轴和y轴)，生成对位置“x＝aa，y＝bb”实施点击操作的指令。

另外，本步骤203可以由服务器上部署的预设算法实现，也可以由前述步骤202中涉及的AI模型来实现，也即，服务器在获取到语音信息和第一截屏图像之后，调用AI模型，对对语音信息进行语音识别，得到用户针对第一界面的操作意图，对第一截屏图像进行图像识别，得到第一界面的界面内容，并基于操作意图和界面内容，确定符合操作意图的第一操作指令。通过这种方式，利用了AI模型的语言理解和生成能力，能够快速确定第一操作指令，提高了第一操作指令的确定效率，进而提升了终端控制效率。

204、服务器控制终端执行第一操作指令以对第一界面实施第一操作。

在本申请实施例中，服务器将第一操作指令发送给终端的操作系统，使得终端执行该第一操作指令以对第一界面实施第一操作。其中，本申请对于第一操作的操作类型不作限定，例如，第一操作可以是单击、双击、长按、滑动等简单操作，也可以是对第一控件进行点击后再对第二控件进行点击的复杂操作(如输入XX消息并发送)，本申请对此不作限定。另外，终端在执行第一操作指令以对第一界面实施第一操作之后，若终端跳转至第二界面，则服务器可以继续在终端展示第二界面的过程中，获取用户输入的语音信息以及对终端进行屏幕截取得到的第二截屏图像，进而控制终端执行下一个操作指令，这一过程与前述步骤201至步骤204同理，故不再赘述。

需要说明的是，在上述图2所示实施例中，是以电子设备配置为服务器为例进行介绍的，在一些实施例中，上述步骤201至步骤204也可以由终端来执行，即，电子设备可以配置为终端。示意性地，终端在展示第一界面的过程中，获取用户输入的语音信息以及对终端进行屏幕截取得到的第一截屏图像；对语音信息进行语音识别，得到用户针对第一界面的操作意图，以及，对第一截屏图像进行图像识别，得到第一界面的界面内容；基于操作意图和界面内容，确定符合操作意图的第一操作指令，第一操作指令指示对第一界面实施第一操作；控制终端执行第一操作指令以对第一界面实施第一操作。这一过程也即是，终端上运行的目标应用在终端本地具备处理语音信息和截屏图像的能力，在实际应用中，能够根据需求将上述终端控制方法中各个执行步骤部署至终端和/或服务器上执行，也即是，终端和服务器能够协同实现本申请提供的终端控制方法，本申请对此不作限定。

综上，在本申请实施例提供的终端控制方法中，在终端展示第一界面的过程中，通过获取用户输入的语音信息以及对终端进行屏幕截取得到的截屏图像，应用语音识别和图像识别技术，确定用户针对第一界面的操作意图和第一界面的界面内容，基于此，确定出符合用户操作意图的操作指令，并控制终端执行该操作指令，使得用户能够通过语音来对终端上展示的任意界面实施操作，有效提升了人机交互效率，改善了用户体验感。换言之，通过本申请实施例提供的终端控制方法，能够有效处理用户针对终端所展示的全部界面的语音指令。

基于上述图2所示的方法实施例，对本申请提供的终端控制方法进行了介绍，下面参考图3，以终端和服务器之间的交互为例，对本申请提供的另一种终端控制方法进行介绍。图3是本申请实施例提供的另一种终端控制方法的流程图。如图3所示，该方法包括如下步骤301至步骤307。

301、终端展示第一界面，并运行目标应用，该目标应用用于控制终端执行指令以实现各类功能。

其中，第一界面也即是终端能够展示的任意界面，包括但不限于主界面和应用界面等。目标应用可以由用户手动开启，也可以由用户通过语音指令开启，本申请对此不作限定。

302、终端在展示第一界面的过程中，获取用户输入的语音信息以及对终端进行屏幕截取得到的第一截屏图像。

其中，终端在展示第一界面的过程中，通过麦克风采集用户语音，得到用户的语音信息，并对终端屏幕上展示的内容进行屏幕截取，得到第一截屏图像。

303、终端将语音信息和第一截屏图像发送给服务器。

304、服务器对语音信息进行语音识别，得到用户针对第一界面的操作意图，以及，对第一截屏图像进行图像识别，得到第一界面的界面内容。

其中，本步骤的实现方式参考前述步骤202，在此不再赘述。

在一些实施例中，用户针对第一界面的操作意图确定过程也可以由终端执行，也即，终端在获取到用户输入的语音信息后，应用语音识别技术，对语音信息进行语音识别，得到用户针对第一界面的操作意图，并将操作意图发送给服务器，本申请对此不作限定。另外，第一界面的界面内容的识别过程也可以由终端执行，本申请对此不作限定。

305、服务器基于操作意图和界面内容，确定符合操作意图的第一操作指令，第一操作指令指示对第一界面实施第一操作。

其中，本步骤的实现方式参考前述步骤203，在此不再赘述。

在一些实施例中，服务器基于操作意图和界面内容，确定出符合操作意图的至少一个候选操作指令，由用户来选择最终要执行的第一操作指令，如此，能够确保后续所执行第一操作指令的准确性，提升用户体验感。示意性地，这一过程包括如下几个步骤：

步骤1、服务器基于操作意图和界面内容，确定出符合操作意图的至少一个候选操作指令。

其中，服务器确定至少一个候选操作指令的过程与前述步骤203同理。区别在于，在本步骤中，服务器基于操作意图和界面内容之间的匹配结果，确定出至少一个候选操作指令，例如，将匹配度位于前N位(N为正整数)的界面元素确定为候选界面元素，并基于这些候选界面元素，确定至少一个候选操作指令。

步骤2、服务器控制终端在第一界面上展示提示信息，提示信息指示从至少一个候选操作指令中确定待执行的操作指令。

其中，服务器基于至少一个候选操作指令，生成提示信息，将提示信息发送给终端，以控制终端在第一界面上展示提示信息。例如，提示信息表示为“请选择您想要执行的操作：A操作；B操作”。应理解，此处仅为举例说明，提示信息的表示形式能够根据实际需求进行设置，本申请对此不作限定。

步骤3、服务器响应于用户针对提示信息的触发操作，将触发操作所指示的候选操作指令确定为第一操作指令。

其中，终端在第一界面展示提示信息，响应于用户针对提示信息的触发操作，将该触发操作反馈给服务器，服务器将该触发操作所指示的候选操作指令确定为第一操作指令。其中，服务器可以响应于用户针对提示信息的语音输入操作，将语音输入操作所指示的候选操作指令确定为第一操作指令，以提示信息表示为“请选择您想要执行的操作：A操作；B操作”为例，语音输入操作例如是用户可以输入语音指令“执行A操作”。服务器也可以响应于用户针对提示信息的眼动控制操作，将眼动控制操作所指示的候选操作指令确定为第一操作指令。以提示信息表示为“请选择您想要执行的操作：A操作；B操作”为例，眼动控制操作例如是用户的视线停留在A操作上的时长大于或等于预设阈值(如2秒)。通过这种方式，一方面，可以由用户来确定待执行的操作指令，确保操作指令的准确度，另一方面，用户能够通过语音输入操作或者眼动控制操作来便捷地确定待执行的操作指令，提升了人机交互效率，无需用户触摸终端屏幕即可实现这一功能，这对于一些视力欠佳或者行动不便的用户来说，能够大大提升用户体验感。

306、服务器将第一操作指令发送给终端。

307、终端执行第一操作指令以对第一界面实施第一操作。

其中，终端上运行的目标应用接收第一操作指令，并将第一操作指令发送给终端的操作系统，由操作系统执行第一操作指令，以对第一界面实施第一操作。

参见图4，本申请实施例提供了一种终端控制装置，该装置配置于电子设备，图4是本申请实施例提供的一种终端控制装置的结构示意图，如图4所示，该装置包括：获取模块401、识别模块402、确定模块403以及控制模块404。

获取模块401，用于在终端展示第一界面的过程中，获取用户输入的语音信息以及对终端进行屏幕截取得到的第一截屏图像；

识别模块402，用于对语音信息进行语音识别，得到用户针对第一界面的操作意图，以及，对第一截屏图像进行图像识别，得到第一界面的界面内容；

确定模块403，用于基于操作意图和界面内容，确定符合操作意图的第一操作指令，第一操作指令指示对第一界面实施第一操作；

控制模块404，用于控制终端执行第一操作指令以对第一界面实施第一操作。

在一些实施例中，确定模块403，用于下述任一项：

确定模块403，用于：

基于界面布局，确定目标界面元素在第一界面的位置；

基于目标界面元素在第一界面的位置，确定第一操作指令。

在一些实施例中，确定模块403，用于下述任一项：

在一些实施例中，确定模块403，用于：

在一些实施例中，确定模块403，用于下述任一项：

在一些实施例中，获取模块401，用于：

在一些实施例中，识别模块402，还用于：

综上所述，本申请实施例提供的终端控制装置中，在终端展示第一界面的过程中，通过获取用户输入的语音信息以及对终端进行屏幕截取得到的截屏图像，应用语音识别和图像识别技术，确定用户针对第一界面的操作意图和第一界面的界面内容，基于此，确定出符合用户操作意图的操作指令，并控制终端执行该操作指令，使得用户能够通过语音来对终端上展示的任意界面实施操作，有效提升了人机交互效率，改善了用户体验感。

需要说明的是：上述实施例提供的终端控制装置在控制终端时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的终端控制装置与终端控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种电子设备，该计算机设备包括处理器和存储器，该存储器用于存储至少一条计算机程序，该至少一段计算机程序由该处理器加载并执行以实现本申请实施例中的终端控制方法。

以电子设备为终端为例，图5是本申请实施例提供的一种终端的结构示意图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器501所执行以实现本申请中方法实施例提供的终端控制方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置在终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、光学传感器514以及接近传感器515。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器514用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器514采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器514采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器515，也称距离传感器，通常设置在终端500的前面板。接近传感器515用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器515检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器515检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

以电子设备为服务器为例，图6是本申请实施例提供的一种服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central Processing Units，CPU)601和一个或一个以上的存储器602，其中，该存储器602中存储有至少一段程序，该至少一段程序由处理器601加载并执行以实现上述各个方法实施例提供的终端控制方法。当然，该服务器还能够具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还能够包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于电子设备，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述实施例中的终端控制方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括至少一条计算机程序，该至少一条计算机程序存储在计算机可读存储介质中，该至少一条计算机程序由处理器加载并执行以实现上述实施例中的终端控制方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种终端控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述操作意图和所述界面内容，确定符合所述操作意图的第一操作指令，包括下述任一项：

3.根据权利要求1所述的方法，其特征在于，所述界面内容指示所述第一界面的界面布局和多个界面元素，所述界面元素包括图像、文本以及控件中至少一项；

4.根据权利要求3所述的方法，其特征在于，所述基于所述操作意图和所述多个界面元素之间的匹配结果，从所述多个界面元素中确定符合所述操作意图的目标界面元素，包括下述任一项：

5.根据权利要求1所述的方法，其特征在于，所述基于所述操作意图和所述界面内容，确定符合所述操作意图的第一操作指令，包括：

6.根据权利要求5所述的方法，其特征在于，所述响应于所述用户针对所述提示信息的触发操作，将所述触发操作所指示的候选操作指令确定为所述第一操作指令，包括下述任一项：

7.根据权利要求1所述的方法，其特征在于，所述在终端展示第一界面的过程中，获取用户输入的语音信息以及对所述终端进行屏幕截取得到的第一截屏图像，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种终端控制装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行如权利要求1至权利要求8中任一项所述的终端控制方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求8中任一项所述的终端控制方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求8中任一项所述的终端控制方法。