CN112825030A

CN112825030A - 一种应用程序控制方法、装置、设备及存储介质

Info

Publication number: CN112825030A
Application number: CN202010130430.0A
Authority: CN
Inventors: 张彩萍
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-05-21
Anticipated expiration: 2040-02-28
Also published as: CN112825030B

Abstract

本申请实施例公开了一种应用程序控制方法、装置、设备及存储介质，其中该方法包括：获取通过操控目标APP显示界面上的语音录制控件输入的控制语音；通过语音识别SDK将该控制语音转换为控制文本；根据该控制文本确定控制动作和控制对象；在控制对象属于目标APP的可控对象的情况下，根据控制动作和控制对象确定控制指令；根据该控制指令，控制该控制对象执行该控制动作。该方法能够通过APP实现语音控制功能，使得语音控制功能的应用不再受智能终端的配置限制，并且可以降低研发人员的研发难度，减小研发工作量。

Description

一种应用程序控制方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种应用程序(Application，APP)控制方法、装置、设备及存储介质。

背景技术

随着计算机技术的迅速发展，智能终端如今在人们的日常生活中已不可或缺，人们可以通过智能终端完成日常生活中的各类活动，如社交、购物、娱乐等等。

现阶段，很多智能终端可以支持用户对其进行语音控制，具体的，可以在智能终端中集成系统级别的语音助手，用户开启该语音助手功能后，即可通过语音对智能终端中的应用程序进行相应地控制，使得智能终端可以受控于用户语音自动完成各项任务。

然而，上述系统级别的语音助手普遍对智能终端的配置要求较高，即配置低的智能终端难以支持系统级别的语音助手的正常运行。此外，开发系统级别的语音助手对于研发人员来说也具有很大的挑战性，具体的，研发人员在开发系统级别的语音助手时，需要针对各种应用程序分别开发调用接口并配置相应的控制指令，而在实际应用中，应用程序更新迭代的速度极快，并且大多数应用程序所支持的控制指令都极为丰富，因此，研发人员在开发系统级别的语音助手时往往需要配置大量的控制指令，并且随着应用程序的更新迭代以较高地更新频率对这些控制指令进行相应地更新，开发难度高，工作量大。

发明内容

本申请实施例提供了一种应用程序控制方法、装置、设备及存储介质，能够通过APP实现语音控制功能，使得语音控制功能的应用不再受智能终端的配置限制，并且可以降低研发人员的研发难度，减小研发工作量。

有鉴于此，本申请第一方面提供了一种应用程序控制方法，所述方法包括：

获取通过操控目标APP显示界面上的语音录制控件输入的控制语音；

通过语音识别SDK将所述控制语音转换为控制文本；

根据所述控制文本确定控制动作和控制对象；在所述控制对象属于所述目标APP的可控对象的情况下，根据所述控制动作和所述控制对象确定控制指令；

根据所述控制指令，控制所述控制对象执行所述控制动作。

本申请第二方面提供了一种应用程序控制装置，所述装置包括：

语音获取模块，用于获取通过操控目标APP显示界面上的语音录制控件输入的控制语音；

语音转换模块，用于通过语音识别SDK将所述控制语音转换为控制文本；

指令确定模块，用于根据所述控制文本确定控制动作和控制对象；在所述控制对象属于所述目标APP的可控对象的情况下，根据所述控制动作和所述控制对象确定控制指令；

控制模块，用于根据所述控制指令，控制所述控制对象执行所述控制动作。

本申请第三方面提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的应用程序控制方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的应用程序控制方法的步骤。

本申请第五方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的应用程序控制方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种应用程序控制方法，该方法创新性地提出了APP级别的语音控制功能，并且根据实际应用需求对目标APP支持的语音控制对象进行了限制。具体的，在本申请实施例提供的应用程序控制方法中，目标APP获取到用户通过其显示界面上的语音录制控件输入的控制语音后，利用语音识别软件开发工具包(Software DevelopmentKit，SDK)将该控制语音转换为控制文本，然后根据该控制文本确定控制动作及控制对象，在确定该控制对象属于目标APP的可控对象的情况下，进一步根据该控制动作和控制对象生成控制指令，最终根据该控制指令控制该控制对象执行控制动作。上述方法通过目标APP接收用户输入的控制语音，并通过目标APP基于该控制语音对控制对象进行相应地控制，由此实现APP级别的智能语音控制，使得智能语音控制功能的使用不再受限于智能终端自身的配置；此外，由于目标APP仅支持对预设的可控对象进行控制，而此类可控对象是根据与目标APP适配的实际应用需求设定的，因此，相关研发人员在研发语音控制功能时，仅需针对此类可控对象开发调用接口、配置控制指令，由此大大降低了研发人员的研发难度，减少了研发人员的工作量。

附图说明

图1为本申请实施例提供的应用程序控制方法的应用场景示意图；

图2为本申请实施例提供的一种应用程序控制方法的流程示意图；

图3为本申请实施例提供的一种目标APP的显示界面的示意图；

图4为本申请实施例提供的一种目标APP的显示界面的示意图；

图5为本申请实施例提供的转换控制语音的流程示意图；

图6为本申请实施例提供的一种目标APP的显示界面的示意图；

图7为本申请实施例提供的一种目标APP的显示界面的示意图；

图8为本申请实施例提供的一种示例性的控制对象的界面示意图；

图9为本申请实施例提供的另一种应用程序控制方法的流程示意图；

图10为本申请实施例提供的第一种应用程序控制装置的结构示意图；

图11为本申请实施例提供的第二种应用程序控制装置的结构示意图；

图12为本申请实施例提供的第三种应用程序控制装置的结构示意图；

图13为本申请实施例提供的第四种应用程序控制装置的结构示意图；

图14为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，系统级别的智能语音控制功能对于智能终端的配置要求较高，并且考虑到系统级别的智能语音控制功能对智能终端中的各种应用均需具备相应的控制能力，因此，在研发系统级别的智能语音控制功能时，需要相应地针对各种应用开发对应的调用接口及控制指令，由于目前存在的应用程序丰富多样，且大多数应用所支持的控制指令也较为复杂，因此，对于研发人员来说，系统级别的智能语音控制功能研发难度极高，且需要耗费大量的时间和精力。

针对上述相关技术存在的问题，本申请实施例提供了一种应用程序控制方法，该方法创新性地提出了APP级别的智能语音控制功能，并且对APP所能控制的对象进行了一定程度的限制，从而解决了上述相关技术存在的问题。

具体的，在本申请实施例提供的应用程序控制方法中，目标APP获取到用户通过操控其显示界面上的语音录制控件输入的控制语音后，通过语音识别SDK将该控制语音转换为对应的控制文本，然后根据该控制文本确定控制动作和控制对象，在确定所涉及的控制对象属于目标APP的可控对象的情况下，根据控制动作和控制对象确定控制指令，最终根据该控制指令，控制该控制对象执行该控制动作。

上述应用程序控制方法通过目标APP接收用户输入的控制语音，并通过目标APP基于该控制语音对控制对象进行相应地控制，由此实现APP级别的智能语音控制，使得智能语音控制功能的使用不再受限于智能终端自身的配置。此外，由于目标APP仅支持对预设的可控对象进行控制，而此类可控对象是根据与目标APP适配的实际应用需求设定的，因此，相关研发人员在研发语音控制功能时，仅需针对此类可控对象开发调用接口、配置控制指令，由此大大降低了研发人员的研发难度，减少了研发人员的工作量。

应理解，本申请实施例提供的应用程序控制方法可以由能够支持APP运行的终端设备执行，该终端设备具体可以为智能手机、计算机、个人数字助理(Personal DigitalAssistant，PDA)、平板电脑等设备。

为了便于理解本申请实施例提供的技术方案，下面对本申请实施例提供的应用程序控制方法所适用的应用场景进行介绍。

参见图1，图1为本申请实施例提供的应用程序控制方法的应用场景示意图。如图1所示，该应用场景中包括：终端设备110和服务器120。其中，终端设备110上运行有目标APP，该目标APP用于执行本申请实施例提供的应用程序控制方法，基于用户输入的控制语音对终端设备110中的可控对象进行相应地控制。服务器120用于分析处理转换控制语音得到的控制文本，生成相应的控制指令。

具体的，当用户需要通过终端设备110中的目标APP实现智能语音控制功能时，用户可以打开目标APP，长按目标APP显示界面上的语音录制控件输入控制语音，目标APP检测到用户确认完成控制语音的输入后，调用自身集成的语音识别SDK将用户输入的控制语音转换为对应的控制文本。

目标APP通过终端设备110中的通讯装置，将转换得到的控制文本通过网络传输至服务器120。服务器120接收到该控制文本后，对该控制文本进行解析识别，确定其中涉及的控制动作和控制对象。然后判断该控制对象是否属于预设的目标APP的可控对象，若是，则进一步根据该控制动作和控制对象生成控制指令，并将该控制指令返回给终端设备110中的目标APP；反之，若否，则服务器120可以停止对该控制文本进行后续处理，丢弃该控制文本，并向终端设备110中的目标APP返回相关提示信息，以提示用户其输入的控制语音中涉及的控制对象并非目标APP的可控对象。

目标APP接收到该控制指令后，调用该控制对象对应的控制接口，根据该控制指令控制该控制对象执行控制动作，由此实现APP级别的智能语音控制。

应理解，图1所示应用场景仅为示例，在实际应用中，在终端设备110与服务器120存在交互的情况下，可以由终端设备110判断控制对象是否为目标APP的可控对象；此外，本申请实施例提供的应用程序控制方法也可以由终端设备110独立完成，无需与服务器120进行交互。在此不对本申请实施例提供的应用程序控制方法适用的应用场景做任何限定。

下面通过实施例对本申请提供的应用程序控制方法进行详细介绍。

参见图2，图2为本申请实施例提供的应用程序控制方法的流程示意图。如图2所示，该应用程序控制方法包括以下步骤：

步骤201：获取通过操控目标APP显示界面上的语音录制控件输入的控制语音。

当用户需要通过终端设备中的目标APP实现智能语音控制功能时，用户可以打开该目标APP，该目标APP的显示界面上显示有语音录制控件，用户可以通过操控该语音录制控件输入控制语音；相应地，目标APP在检测到用户操控该语音录制控件触发输入控制语音的操作后，接收用户输入的控制语音。

可选的，为了方便用户快速地关注到上述语音录制控件，并且不影响用户对于目标APP其他功能的使用，研发人员开发该目标APP时可以将上述语音录制控件设置为悬浮按钮的形式，图3所示即为一种示例性的目标APP的界面示意图，其中语音录制控件301为悬浮按钮，用户可以根据自身需求将该语音录制控件301拖动至显示界面的任意位置。

下面以目标APP适用于安卓(Android)系统为例，对悬浮按钮形式的语音录制控件的设计过程进行简单介绍，可以先通过活动(Activity)获取窗口管理(WindowManager)对象，并设置LayoutParams相关属性，将自定义的视图(view)通过添加视图(addView)方法设置给该WindowManager对象，从而即可使语音录制控件达到悬浮按钮的效果。

应理解，在实际应用中，目标APP的显示界面中的语音录制控件除了可以以悬浮按钮的形式展现外，还可以以其他形式展现，如固定按钮、固定程序入口等等，本申请在此不对语音录制控件的展现形式做具体限定。

在一种可能的实现方式中，用户可以通过长按语音录制控件的方式输入控制语音。具体的，目标APP在检测到用户触控语音录制控件时，可以启动计时器对用户触控语音录制控件的时长进行计时，当检测到用户对于语音录制控件的触控时长达到预设时长时，目标APP确定用户此时触发控制语音输入操作，开启语音接收功能，并相应地在自身的显示界面上弹出语音录制提示框，提醒用户此时已开始录制控制语音；在接收控制语音的过程中，目标APP将其接收的控制语音暂存到内存中；当检测到用户停止触控语音录制控件时，目标APP确定用户已完成控制语音的输入，将其在确定用户触发控制语音输入操作的时间点与确定用户完成控制语音输入的时间点之间接收到的语音，作为用户输入的控制语音。

此外，当用户在输入控制语音的过程中对其输入的控制语音不满意，想要取消该控制语音时，用户可以执行能够取消录制控制语音的操作，例如，用户可以执行预设的滑动手势取消控制语音的录制。相应地，目标APP检测到用户触发取消录制控制语音的操作后，将关闭语音录制功能，并丢弃用户在此之前录制的控制语音。

应理解，在实际应用中，目标APP除了可以响应用户长按语音录制控件的操作触发接收控制语音外，还可以响应其他方式触发接收用户输入的控制语音，例如，目标APP可以在检测到用户点击语音录制控件时触发接收控制语音，在检测到用户再次点击语音录制控件时触发停止接收控制语音。即可以根据实际需求，针对目标APP设置任意触发接收控制语音的操作方式和触发停止接收控制语音的操作方式，本申请在此不对目标APP所响应的触发接收控制语音的操作方式以及触发停止接收控制语音的操作方式做任何限定。此外，本申请也不对目标APP所响应的取消接收控制语音的操作方式做任何限定。

可选的，为了避免用户输入的控制语音过长，影响后续语音转换的效果以及控制指令的生成效果，本申请实施例还可以对控制语音的输入时长进行限制，例如可以将控制语音的输入时长限制在1至10秒之间。

在该种情况下，目标APP在通过语音录制控件接收控制语音的同时，还会显示录制状态提示框，该录制状态提示框中显示有语音录制倒计时，该语音录制倒计时是根据预设的录制时长和该控制语音当前的输入时长确定的；当目标APP在该预设的录制时长内检测到用户触发确认完成语音输入的操作时，或者当控制语音的输入时长达到预设的录制时长时，目标APP可以停止接收控制语音，获取在该控制语音的输入时长内接收的控制语音。

图4为一种示例性的目标APP显示界面的示意图。如图4所示，目标APP在接收用户输入的控制语音的过程中，会相应地在其显示界面上显示录制状态提示框401，录制状态提示框401中显示有语音录制倒计时，以提示用户剩余的控制语音输入时长；此外，录制状态提示框401还可以提示用户取消输入控制语音的方式。在目标APP接收用户输入的控制语音的过程中，图3中语音录制控件301的显示状态会切换为图4中语音录制控件402的显示状态，即随着语音录制状态的改变从“语音录制”切换为“语音录制中”。

目标APP在接收控制语音的过程中可以调用定时器计时，每隔一秒刷新一次录制状态提示框中的语音录制倒计时。若目标APP在预设的录制时长内检测到用户触发确认完成控制语音的输入的操作，则目标APP可以将其接收的语音作为控制语音；若目标APP在控制语音的输入时长达到预设的录制时长之前，未检测到用户触发确认完成控制语音的输入的操作，则目标APP可以在控制语音的输入时长达到预设的录制时长时，直接停止接收语音，并将其在预设的录制时长内接收的语音作为控制语音。

步骤202：通过语音识别SDK将所述控制语音转换为控制文本。

目标APP获取到用户通过语音录制控件输入的控制语音后，调用语音识别SDK对该控制语音进行语音识别，从而得到与该控制语音对应的控制文本。

在一种可能的实现方式中，目标APP所调用的语音识别SDK可以是集成在终端设备系统内的SDK，此时，目标APP通过该语音识别SDK将控制语音转换为控制文本的实现过程如图5所示。

在目标APP已开通系统的语音识别服务的情况下，目标APP可以先针对其接收的控制语音创建密钥，该密钥能够表征该控制语音来自目标APP；系统接收到目标APP传来的控制语音后，先根据该控制语音的密钥判断该控制语音的来源，若确定该控制语音并非来自目标APP，则直接结束此次语音识别流程；若确定该控制语音来自目标APP，则进一步判断该控制语音的文件格式是否满足预设要求，若不满足，则直接结束此次语音识别流程，若满足，则启用语音识别SDK对该控制语音进行识别得到对应的控制文本，并将控制文本返回给目标APP，进而结束此次语音识别流程。

在另一种可能的实现方式中，目标APP所调用的语音识别SDK可以是集成在目标APP自身内部的SDK，此时，目标APP通过该语音识别SDK将控制语音转换为控制文本的实现过程与图5所示的过程基本相同，详细参见图5所示的语音识别过程，此处不再赘述。

下面以目标APP适用于Android系统为例，对在目标APP中集成语音识别SDK的实现过程进行简单介绍。在目标APP工程中添加语音识别SDK，在build.gradle文件添加依赖，如网络库、JavaScript对象简谱(JavaScript Object Notation，json)库等，在AndroidManifest.xml中添加相关权限，如此前期准备工作完成。调用目标APP中的语音识别SDK对控制语音进行识别时，先调用QcloudFileRecognizer API对控制语音文件进行识别，设置识别回调QcloudFileRecognizer Listener，在回调方法中获取识别控制语音得到的结果。

在又一种可能的实现方式中，目标APP所调用的语音识别SDK可以是部署在服务器端的SDK，此时，目标APP需要将其接收的控制语音通过网络传输给服务器，由服务器调用其中部署的语音识别SDK对该控制语音进行识别。

服务器调用语音识别SDK对控制语音进行识别的过程与图5所示的过程相类似，即目标APP在向服务器发送控制语音之前，会先针对该控制语音建立密钥，以通过该密钥表征该控制语音来自目标APP；服务器接收到目标APP发来的控制语音后，先根据该控制语音的密钥判断该控制语音是否来自目标APP，若确定该控制语音并非来自目标APP，则直接结束此次语音识别过程；若确定该控制语音来自目标APP，则进一步判断该控制语音的文件格式是否满足预设要求，若否，则直接结束此次语音识别过程，若是，则调用语音识别SDK对该控制语音进行识别得到对应的控制文本，并将该控制文本通过网络返回至目标APP，进而结束此次语音识别过程。

应理解，在实际应用中，还可以根据实际需求将语音识别SDK部署在其他程序或设备上，本申请在此不对目标APP所调用的语音识别SDK的部署位置做任何限定。

需要说明的是，当执行步骤202时，目标APP的显示界面可以如图6所示。即在显示界面中取消显示图4中的录制状态提示框401，取而代之地显示解析状态提示框601，以提示用户当前正在解析其输入的控制语音；此外，图4中语音录制控件402的显示状态将切换为图6中语音录制控件602的显示状态，即从“语音录制中”切换为“解析中”。

步骤203：根据所述控制文本确定控制动作和控制对象；在所述控制对象属于所述目标APP的可控对象的情况下，根据所述控制动作和所述控制对象确定控制指令。

通过语音识别SDK识别得到控制语音对应的控制文本后，即可进一步确定该控制文本中涉及的控制动作和控制对象，并且判断该控制对象是否属于目标APP的可控对象，若确定该控制对象属于目标APP的可控对象，则进一步根据该控制动作和控制对象生成控制指令，反之，若确定该控制对象不属于目标APP的可控对象，则可以通过目标APP提示用户所要控制的对象不属于目标APP的可控对象。

需要说明的是，目标APP的可控对象通常都是根据实际业务需求预先设定的；例如，若针对目标APP设定的业务是对社交类APP进行控制，则可以预先将所需操控的社交APP设置为该目标APP的可控对象；又例如，若针对目标APP设定的业务是对某公司开发的APP进行控制，则可以预先将该公司开发的APP设置为该目标APP的可控对象，等等。本申请在此不对目标APP的可控对象做任何限定。

在一种可能的实现方式中，可以由服务器对控制文本进行处理，并相应地生成控制指令。

具体的，若在步骤202中目标APP调用的语音识别SDK部署在终端设备的系统内或目标APP自身，则目标APP需要将识别控制语音得到的控制文本通过网络传输至服务器；若在步骤202中目标APP调用的语音识别SDK部署在服务器端，则服务器可以继续对其识别得到的控制文本进行后续处理。

服务器获取到控制文本后，可以通过语义分析、关键词提取等方法，确定该控制文本涉及的控制动作和控制对象；进而，判断该控制对象是否属于预设的目标APP的可控对象，若否，则服务器向目标APP返回处理失败的消息，并通过目标APP提示用户其所要控制的对象并非该目标APP的可控对象；若是，则进一步判断其预存的控制指令集中是否存在与控制动作相匹配的目标动作，若存在，则根据该目标动作和控制对象生成控制指令，并将该控制指令返回至承载有目标APP的终端，以便目标APP基于该控制指令对控制对象进行控制；若不存在，则通知目标APP未成功生成控制指令，无法对控制对象进行控制，并向相关工作人员发送提示消息，以提示相关工作人员及时根据该控制动作更新控制指令集。

作为一种示例，服务器可以基于其存储的控制对象列表和控制指令集进行双层循环遍历，即服务器可以先在控制对象列表中遍历查找与控制文本涉及的控制对象相匹配的key值，如若查找到与该控制对象相匹配的key值，则将该key值存储至控制指令对应的数组中；然后在控制指令集中遍历查找与控制文本涉及的控制动作相匹配的key值，如若查找到与该控制动作相匹配的key值，则将该key值也存储至控制指令对应的数组中；进而，基于该数组生成控制指令。

在另一种可能的实现方式中，目标APP中预存有服务器下发的控制对象列表和控制指令集，该控制对象列表中存储有目标APP的可控对象，控制指令集中存储有目标APP支持的控制动作；此时，可以由目标APP独立地对控制文本进行处理，并相应地生成控制指令。

具体的，若在步骤202中目标APP调用的语音识别SDK部署在终端设备的系统内或目标APP自身，则目标APP直接进一步对系统或自身识别得到的控制文本进行后续处理；若在步骤202中目标APP调用的语音识别SDK部署在服务器端，则目标APP可以在接收到服务器端返回的控制文本后，针对该控制文本进行后续处理。

目标APP获取到控制文本后，即可通过语义分析、关键词提取等方法，确定该控制文本中涉及的控制动作和控制对象；然后判断其预存的控制对象列表中是否存储有该控制文本中涉及的控制对象，若是，则确定该控制对象属于目标APP的可控对象，可以继续执行后续操作，若否，则目标APP无需继续执行后续操作，可以直接提示用户其所要控制的对象并非目标APP的可控对象。在确定控制对象属于目标APP的可控对象的情况下，目标APP可以进一步判断其预存的控制指令集中是否存在与控制文本中涉及的控制动作相匹配的目标动作，若存在，则根据该目标动作和控制对象生成控制指令；若不存在，则目标APP可以向服务器发送该控制动作，以通知服务器根据该控制动作对控制指令集进行更新，即通过服务器通知相关工作人员根据该控制动作对控制指令集进行更新。

应理解，在实际应用中，服务器每完成一次对于控制对象列表和/或控制指令集的更新，即会将更新后的控制对象列表和/或控制指令集重新下发至目标APP，以使目标APP后续基于更新后的控制对象列表和/或控制指令集，生成控制指令。

在又一种可能的实现方式中，考虑到控制指令集中包括的控制动作较多，在目标APP中存储该控制指令集可能导致该目标APP所需占用的内存增大，因此，可以仅在目标APP中存储服务器下发的控制对象列表，将控制指令集存储在服务器端。此时，可以由目标APP对控制文本进行处理，识别其中涉及的控制对象是否为目标APP的可控对象，然后再由服务器根据控制动作和控制对象生成控制指令。

目标APP获取到控制文本后，可以通过语义分析、关键词提取等方法，确定该控制文本中涉及的控制动作和控制对象；进而，判断其预存的控制对象列表中是否存储有该控制对象，若是，则确定该控制对象属于目标APP的可控对象，可以进一步将该控制动作和控制对象通过网络传输至服务器；若否，则可以直接丢弃该控制文本，并通过目标APP提示用户其所要控制的对象并非该目标APP的可控对象。

服务器接收到目标APP发来的控制动作和控制对象后，判断其预存的控制指令集集中是否存在与控制动作匹配的目标动作，若存在，则根据该目标动作和控制对象生成控制指令，并将该控制指令返回至目标APP；若不存在，则通知目标APP未成功生成控制指令，无法对控制对象进行控制，并向相关工作人员发送提示消息，以提示相关工作人员及时根据该控制动作更新当前的控制指令集。

需要说明的是，在实际应用中，也可以根据实际业务需求的不同，对上述三种可能的实现方式中涉及的控制指令集进行相应地设置，例如，当目标APP的使用对象主要是老年人时，控制指令集中涉及到的动作可以包括：打开、打电话、发短信、拍照片等等；当目标APP的使用对象主要是游戏玩家时，控制指令集中涉及到的动作可以包括：打开、下载、录制等等。本申请在此不对控制指令集中具体包括的动作做任何限定。

配置控制指令集通常是一个物理手动的过程，研发人员可以结合实际产品确定关键动作，使用sdktools目录下的uiautomatorviewwe和android studio的logcat工具，提取关键动作的ID值和名称，从而构建控制指令集。

需要说明的是，控制文本中通常可能涉及多个控制动作，在生成控制指令时，每个控制动作对应一条控制指令，相应地最终可能生成多条控制指令。若在生成控制指令的过程中，无法在控制指令集中搜索到与其中一个或多个控制动作相匹配的目标动作，则相应地无法生成与这一个或多个控制动作相对应的控制指令，此时，目标APP可以仅显示与已匹配到目标动作的控制动作相对应的控制指令，并提示用户其余控制指令生成失败。

可选的，目标APP或服务器识别出控制指令后，还可以在目标APP的显示界面上显示所识别出的控制指令，以便用户确认识别出的控制指令是否满足其预期，若用户确认该控制指令满足其预期，则可以点击确认控件，触发目标APP基于该控制指令执行后续控制操作，若用户确认该控制指令不满足其预期，则可以点击取消控件，停止目标APP继续执行后续操作。

图7所示为一种示例性的目标APP显示界面的示意图。如图7所示，目标APP获取到所生成的控制指令后，将在控制指令显示框701中按序显示所生成的控制指令：1、打开应用宝；2、搜索龙族幻想；3、下载；4、安装。若用户确定该控制指令符合其预期，则可以点击“确定”控件，触发目标APP基于该控制指令执行后续操作；若用户确定该控制指令不符合其预期，则可以点击“取消”控件，控制目标APP放弃执行该控制指令。

步骤204：根据所述控制指令，控制所述控制对象执行所述控制动作。

目标APP获取到控制指令后，即可根据该控制指令进行相应地控制，按照其在步骤201中获取的控制语音，控制该语音中涉及的控制对象执行该语音中涉及的控制动作。

在一种可能的情况下，上述控制对象为目标APP本身，此时目标APP可以直接按照该控制指令，执行相应地控制操作。

在另一种可能的情况下，上述控制对象并非目标APP本身，且目标APP首次对该控制对象进行控制，此时，将弹出显示该控制对象对应的授权开关，该授权开关处于开通状态则表明目标APP具有控制该目标对象的权限；当检测到该授权开关被切换至开通状态时，将跳转显示该控制对象的界面，并根据控制指令控制该控制对象执行控制操作。

即在控制对象并非目标APP本身的情况下，用户需要授权目标APP打开终端设备系统的辅助服务，通过该辅助服务授权目标APP可以对控制对象进行控制，打开该辅助服务的具体表现形式即为将界面上显示的控制对象对应的授权开关切换至开通状态。获得用户授权后，目标APP即可对控制对象进行控制，使该控制对象依次执行控制指令中的动作。若用户拒绝授权，则目标APP可以显示对话框提示用户授权后目标APP才可执行该控制指令。

应理解，在实际应用中，目标APP不仅可以在首次对非自身的控制对象进行控制时执行上述授权操作，可以在每次对非自身的控制对象进行控制时均执行上述授权操作。

下面以控制指令为“1、打开应用宝；2、搜索龙族幻想；3、下载；4、安装”为例，结合图8所示的控制对象的显示界面对步骤204的实现过程进行介绍。目标APP获取到对于控制对象应用宝的控制权限后，即可自动打开终端设备中的应用宝，在应用宝的搜索框中输入“龙族幻想”进行搜索，在搜索到“龙族幻想”后，触发下载“龙族幻想”，并在完成下载后，在终端设备中安装“龙族幻想”。

为了便于进一步理解本申请实施例提供的应用程序控制方法，下面结合图9所示的流程，对本申请实施例提供的应用程序控制方法做整体示例性介绍。如图9所示，该方法包括以下步骤：

步骤901：启动目标APP。

步骤902：目标APP从服务器端获取控制对象列表和控制指令集。

步骤903：目标APP调用语音识别SDK对其通过语音录制控件接收的控制语音进行识别，得到控制文本。

步骤904：目标APP确定该控制文本中涉及的控制对象和控制动作。

步骤905：判断控制对象是否在控制对象列表中，若是，则执行步骤907，若否，则执行步骤906。

步骤906：提示用户其所要控制的对象并非目标APP的可控对象。

步骤907：判断控制指令集中是否存在与控制动作匹配的目标动作，若是，则执行步骤908，若否，则执行步骤912。

步骤908：根据目标动作和控制对象生成控制指令。

步骤909：判断用户是否授权系统辅助服务，若是，则执行步骤910，若否，则执行步骤911。

步骤910：根据所生成的控制指令，控制该控制对象执行控制动作。

步骤911：通过弹框提示用户授权辅助服务。

步骤912：将控制动作发送至服务器端，以提示服务器端根据该控制动作对控制指令集进行更新，并在完成更新后，将更新后的控制指令集重新下发至目标APP。

针对上文描述的应用程序控制方法，本申请还提供了对应的应用程序控制装置，以使上述应用程序控制方法在实际中得以应用和实现。

参见图10，图10是与上文图2所示的应用程序控制方法对应的一种应用程序控制装置1000的结构示意图，该装置包括：

语音获取模块1001，用于获取通过操控目标APP显示界面上的语音录制控件输入的控制语音；

语音转换模块1002，用于通过语音识别SDK将所述控制语音转换为控制文本；

指令确定模块1003，用于根据所述控制文本确定控制动作和控制对象；在所述控制对象属于所述目标APP的可控对象的情况下，根据所述控制动作和所述控制对象确定控制指令；

控制模块1004，用于根据所述控制指令，控制所述控制对象执行所述控制动作。

可选的，在图10所示的应用程序控制装置的基础上，在所述控制对象属于所述目标APP的可控对象，且不是所述目标APP本身的情况下，若所述目标APP首次控制所述控制对象，参见图11，图11为本申请实施例提供的另一种应用程序控制装置的结构示意图。如图11所示，该装置还包括：

授权开关显示模块1101，用于显示所述控制对象对应的授权开关，所述授权开关处于开通状态表征所述目标APP具有控制所述控制对象的权限；

跳转显示模块1102，用于当检测到所述授权开关被切换至开通状态时，跳转显示所述控制对象的界面，并触发所述控制模块1004执行相关操作。

可选的，在图10所示的应用程序控制装置的基础上，所述指令确定模块1003具体用于：

将所述控制文本传输至服务器；

通过所述服务器识别所述控制文本，确定所述控制动作和所述控制对象；

通过所述服务器判断所述控制对象是否属于所述目标APP的可控对象，若是，则判断其预存的控制指令集中是否存在与所述控制动作匹配的目标动作，若存在，则根据所述目标动作和所述控制对象生成所述控制指令，并将所述控制指令返回至承载所述目标APP的终端。

可选的，在图10所示的应用程序控制装置的基础上，所述目标APP中预存有服务器下发的控制对象列表和控制指令集，则所述指令确定模块1003具体用于：

判断所述控制对象列表中是否存储有所述控制对象，若是，则确定所述控制对象属于所述目标APP的可控对象；

在所述控制对象属于所述目标APP的可控对象的情况下，判断所述控制指令集中是否存在与所述控制动作匹配的目标动作，若存在，则根据所述目标动作和所述控制对象生成所述控制指令。

可选的，在图10所示的应用程序控制装置的基础上，所述目标APP中预存有服务器下发的控制对象列表，则所述指令确定模块1003具体用于：

判断所述控制对象列表中是否存储有所述控制对象，若是，则确定所述控制对象属于所述目标APP的可控对象，并将所述控制对象和所述控制动作发送至服务器；

通过所述服务器判断其预存的控制指令集中是否存在与所述控制动作匹配的目标动作，若存在，则根据所述目标动作和所述控制对象生成所述控制指令，并将所述控制指令返回至承载所述目标APP的终端。

可选的，在图10所示的应用程序控制装置的基础上，若所述控制指令集中不存在与所述控制动作匹配的目标动作，参见图12，图12为本申请实施例提供的另一种应用程序控制装置的结构示意图。如图12所示，该装置还包括：

通知模块1201，用于通知所述服务器根据所述控制动作更新所述控制指令集。

可选的，在图10所示的应用程序控制装置的基础上，参见图13，图13为本申请实施例提供的另一种应用程序控制装置的结构示意图。如图13所示，该装置还包括：

第二显示模块1301，用于显示录制状态提示框，所述录制状态提示框中显示有语音录制倒计时；所述语音录制倒计时是根据预设的录制时长和所述控制语音的输入时长确定的；

所述语音获取模块1001，具体用于当在所述预设的录制时长内检测到确认完成语音输入的操作时，或者当所述控制语音的输入时长达到所述预设的录制时长时，获取在所述输入时长内接收的所述控制语音。

上述应用程序控制装置通过目标APP接收用户输入的控制语音，并通过目标APP基于该控制语音对控制对象进行相应地控制，由此实现APP级别的智能语音控制，使得智能语音控制功能的使用不再受限于智能终端自身的配置。此外，由于目标APP仅支持对预设的可控对象进行控制，而此类可控对象是根据与目标APP适配的实际应用需求设定的，因此，相关研发人员在研发语音控制功能时，仅需针对此类可控对象开发调用接口、配置控制指令，由此大大降低了研发人员的研发难度，减少了研发人员的工作量。

本申请实施例还提供了一种用于控制应用程序的电子设备，该电子设备具体可以为终端设备，下面将从硬件实体化的角度对本申请实施例提供的终端设备进行介绍。

参见图14，图14为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括智能手机、平板电脑、个人数字助理(英文全称：PersonalDigital Assistant，英文缩写：PDA)等任意终端设备，以终端为智能手机为例：

图14示出的是与本申请实施例提供的终端相关的智能手机的部分结构的框图。参考图14，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图14中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1480是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

在本申请实施例中，该终端所包括的处理器1480还具有以下功能：

通过语音识别SDK将所述控制语音转换为控制文本；

根据所述控制指令，控制所述控制对象执行所述控制动作。

可选的，所述处理器1480还用于执行本申请实施例提供的应用程序控制方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种应用程序控制方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种应用程序控制方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种应用程序控制方法，其特征在于，所述方法包括：

通过语音识别SDK将所述控制语音转换为控制文本；

根据所述控制指令，控制所述控制对象执行所述控制动作。

2.根据权利要求1所述的方法，其特征在于，在所述控制对象属于所述目标APP的可控对象，且不是所述目标APP本身的情况下，若所述目标APP首次控制所述控制对象，则所述方法还包括：

显示所述控制对象对应的授权开关，所述授权开关处于开通状态表征所述目标APP具有控制所述控制对象的权限；

当检测到所述授权开关被切换至开通状态时，跳转显示所述控制对象的界面，并执行所述根据所述控制指令，控制所述控制对象执行所述控制动作。

3.根据权利要求1所述的方法，其特征在于，所述根据所述控制文本确定控制动作以及控制对象；在所述控制对象属于所述目标APP的可控对象的情况下，根据所述控制动作和所述控制对象确定控制指令，包括：

将所述控制文本传输至服务器；

4.根据权利要求1所述的方法，其特征在于，所述目标APP中预存有服务器下发的控制对象列表和控制指令集，则在所述根据所述控制文本确定控制动作以及控制对象之后，所述方法还包括：

则所述根据所述控制动作和所述控制对象确定控制指令，包括：

判断所述控制指令集中是否存在与所述控制动作匹配的目标动作，若存在，则根据所述目标动作和所述控制对象生成所述控制指令。

5.根据权利要求1所述的方法，其特征在于，所述目标APP中预存有服务器下发的控制对象列表，则在所述根据所述控制文本确定控制动作以及控制对象之后，所述方法还包括：

6.根据权利要求3至5任一项所述的方法，其特征在于，若所述控制指令集中不存在与所述控制动作匹配的目标动作，所述方法还包括：

通知所述服务器根据所述控制动作更新所述控制指令集。

7.根据权利要求1所述的方法，其特征在于，在通过所述语音录制控件接收所述控制语音的同时，所述方法还包括：

显示录制状态提示框，所述录制状态提示框中显示有语音录制倒计时；所述语音录制倒计时是根据预设的录制时长和所述控制语音的输入时长确定的；

当在所述预设的录制时长内检测到确认完成语音输入的操作时，或者当所述控制语音的输入时长达到所述预设的录制时长时，获取在所述输入时长内接收的所述控制语音。

8.一种应用程序控制装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至7任一项所述的应用程序控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至7任一项所述的应用程序控制方法。