CN113900577B

CN113900577B - 一种应用程序控制方法、装置、电子设备及存储介质

Info

Publication number: CN113900577B
Application number: CN202111324893.1A
Authority: CN
Inventors: 冉茂松; 张晓帆; 曾理; 陈明
Original assignee: Hangzhou Douku Software Technology Co Ltd
Current assignee: Hangzhou Douku Software Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2024-05-07
Anticipated expiration: 2041-11-10
Also published as: CN113900577A

Abstract

本申请实施例公开了一种应用程序控制方法、装置、电子设备及存储介质，该方法包括：获取原始音频数据，基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型；获取所述电子设备的运动状态数据，基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；基于所述场景类型和所述动作类型，确定运行目标应用程序。这样，结合目标场景类型和动作类型进行服务决策，更准确识别用户应用程序的运行意图，从而控制电子设备快速运动目标应用程序，简化应用程序的操作步骤，优化应用程序控制方案。

Description

一种应用程序控制方法、装置、电子设备及存储介质

技术领域

本申请涉及电子技术，尤其涉及一种应用程序控制方法、装置、电子设备及存储介质。

背景技术

电子产品在人们生活中扮演着重要角色，人们使用电子产品实现办公、娱乐、支付等功能，因此往往需要安装大量的应用程序来实现这些功能，用户在运行应用程序时，需要耗费一定时间先从众多应用程序中找到想要运行的应用程序，同时随着应用程序功能不断的丰富，应用程序的页面也越来越复杂，实现一种功能时需要一系列复杂的操作，比如首先在桌面找到应用程序图标，然后点击应用程序图标，再在应用程序内进行层层递进的点击才能达到最终页面。所以简化应用程序的操作是一项亟待解决的技术问题。

发明内容

为解决上述技术问题，本申请实施例期望提供一种应用程序控制方法、装置、电子设备及存储介质。

本申请的技术方案是这样实现的：

第一方面，提供了一种应用程序控制方法，所述方法包括：

获取原始音频数据，基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型；

获取所述电子设备的运动状态数据，基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；

基于所述场景类型和所述动作类型，确定运行目标应用程序。

第二方面，提供了一种应用程序控制装置，所述装置包括：

第一获取单元，用于获取原始音频数据；

场景识别单元，用于基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型；

第二获取单元，用于获取所述电子设备的运动状态数据；

动作识别单元，用于基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；

确定单元，用于基于所述场景类型和所述动作类型，确定运行目标应用程序。

第三方面，提供了一种电子设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

本申请实施例中提供了一种应用程序控制方法、装置、电子设备及存储介质，该方法包括：获取原始音频数据，基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型；获取所述电子设备的运动状态数据，基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；基于所述场景类型和所述动作类型，确定运行目标应用程序。这样，结合目标场景类型和动作类型进行服务决策，更准确识别用户应用程序的运行意图，从而控制电子设备快速运动目标应用程序，简化应用程序的操作步骤，优化应用程序控制方案。

进一步的，在利用原始音频数据进行场景识别时，还可以结合电子设备的位置信息和/或系统时间进行场景识别，提高场景识别的准确性，进一步提高后续服务决策的准确性。

附图说明

图1为本申请实施例中应用程序控制方法的第一流程示意图；

图2为本申请实施例中场景识别的第一流程示意图；

图3为本申请实施例中场景识别的第二流程示意图；

图4为本申请实施例中应用程序控制方法的第二流程示意图；

图5为本申请实施例中应用程序控制装置的组成结构示意图；

图6为本申请实施例中场景识别单元的组成结构示意图；

图7为本申请实施例中电子设备的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

本申请提供的应用程序控制方法应用于电子设备，该电子设备运行应用程序，电子设备可以以各种形式来实施。例如，本发明中描述的电子设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端设备。

图1为本申请实施例中应用程序控制方法的第一流程示意图，如图1所示，该方法具体可以包括：

步骤101：获取原始音频数据，基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型；

具体地，获取音频采集单元采集的目标场景的原始音频数据。示例性的，目标场景可以为电子设备当前所处的场景，音频采集单元可以位于电子设备上，也可以独立于电子设备之外，当独立于电子设备之外，音频采集单元可以将采集到的原始音频数据以有线通信或无线通信的发送给电子设备。

示例性的，音频采集单元可以为麦克风。

示例性的，在一些实施例中，触发条件满足时，触发所述音频采集单元采集的目标场景的音频数据；基于所述原始音频数据进行场景识别，确定所述电子设备所处的场景类型；其中，所述触发条件包括以下之一：预设时间周期到；检测到所述电子设备的动作类型为预设动作类型。也就是说，可以周期性触发采集音频数据，或者对电子设备执行特定动作触发采集音频数据。

示例性的，结合机器学习和音频识别技术构建机器学习模型，将原始音频数据输入到机器学习模型中，机器学习模型根据原始音频数据对场景进行分类并，得到电子设备所处的场景类型。

在一些可选的实施例中，该方法还包括：控制显示单元显示场景类型；检测到针对场景类型的确认指令时，响应确认指令确定电子设备的所述的场景类型。也就是说，还可以通过识别音频数据确定一个或多个场景类型并显示，由用户确认当前所处场景类型。

示例性的，场景类型包括：支付场景、乘车场景、驾驶场景、会议场景等。

示例性的，在一些实施例中，所述基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型，包括：对所述原始音频数据进行分离，得到目标音频数据和背景音频数据；基于音频场景识别算法对所述原始音频数据和所述背景音频数据进行场景识别，得到第一场景识别结果；对所述目标音频数据进行场景识别，得到第二场景识别结果；基于所述第一场景识别结果和所述第二场景识别结果，确定所述电子设备所处的场景类型。

示例性的，目标音频数据可以为目标环境中声音主旋律的音频数据。例如，人声音频数据，动物音频数据，乐器音频数据，机器运动音频数据等。

步骤102：获取所述电子设备的运动状态数据，基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；

示例性的，在一些实施例中，当根据运动状态数据确定电子设备的状态改变时，控制传感器单元采集，获取电子设备在一段时间内的运动状态数据，分析运动状态数据的变化特征确定电子设备的运动轨迹，从而根据运动轨迹确定电子设备的动作类型。

具体地，获取传感器单元采集的电子设备的运动状态数据。示例性的，传感器单元可以位于电子设备上，也可以独立于电子设备之外，当独立于电子设备之外，传感器单元可以将采集到的运动状态数据以有线通信或无线通信的发送给电子设备。

示例性的，传感器单元位于电子设备上时，传感器单元可以包括：压力传感器、陀螺仪传感器、加速度传感器、距离传感器、接近光传感器等。传感器单元位于电子设备之外时，传感器单元可以包括：图像采集器、电磁式运动捕捉系统等。

示例性的，动作类型包括：拿起、放下、旋转、摇晃、敲击，特殊运动轨迹等。这些动作可以是电子设备运行应用程序服务时用户的习惯性动作，也可以是用户自定义某些动作，比如敲击、特定舞动动作。

在一些实施例中，触发条件满足时，触发传感器单元采集的电子设备的运动状态数据，基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；其中，所述触发条件包括以下之一：预设时间周期到；检测到所述电子设备的场景类型为预设场景类型。也就是说，可以周期性触发采集运动状态数据，或者电子设备处于特定场景时触发采集运动状态数据。

需要说明的是，步骤101场景识别和步骤102动作识别两个步骤，可以同时并行执行，也可以串行执行，比如先执行步骤101场景识别，再执行步骤102动作识别，或者先执行步骤102动作识别，再执行步骤101场景识别。

在一些可选的实施例中，也可以先执行步骤101场景识别，再由场景识别结果触发执行步骤102动作识别，或者先执行步骤102动作识别，再由动作识别结果触发执行步骤101场景识别。

示例性的，若先执行步骤101场景识别，将所述场景类型和预设场景类型进行匹配；当所述场景类型匹配到预设场景类型时，获取传感器单元采集的电子设备的运动状态数据，基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型。

示例性的，若先执行步骤102动作识别，将动作类型和预设动作类型进行匹配；匹配成功时，获取音频采集单元采集的目标场景的原始音频数据，基于所述原始音频数据进行场景识别，确定所述电子设备所处的场景类型。

步骤103：基于所述场景类型和所述动作类型，确定运行目标应用程序。

在一些实施例中，基于所述场景类型和所述动作类型，确定运行目标应用程序中的目标服务。

示例性的，通过构建机器学习模型，利用标准训练数据集对机器模型进行训练，得到训练好的机器学习模型。将场景类型和动作类型输入到机器学习模型中进行情景感知，准确识别用户应用程序或应用程序服务的运行意图，并快速启动，简化应用程序的操作步骤，优化应用程序控制方法。这里，应用程序服务可以理解为应用程序实现的一种功能，比如，收付款、扫一扫、搜索、购物、直播、音乐播放、视频播放、小程序等功能。

在一些实施例中，所述基于所述场景类型和所述动作类型，确定运行目标应用程序，包括：基于预设场景类型、动作类型和应用程序服务的映射关系，进行场景匹配和动作匹配；当所述场景匹配和所述动作匹配成功时，从所述映射关系中运行确定所述目标应用程序，或者所述目标应用程序中的目标服务。

具体地，映射关系包括：场景类型、动作类型和应用程序的映射关系，和/或，场景类型、动作类型和应用程序服务的映射关系。预先设置场景类型、动作类型和应用程序服务的映射关系，将目标场景类型进行场景匹配，场景匹配成功时，将当前动作类型和场景类型对应的一个或多个动作类型进行动作匹配，动作匹配成功时，确定对应的目标应用程序的目标服务。示例性的，一种场景类型、动作类型和应用程序服务的映射关系如下表1所示。

表1

场景类型	动作类型	应用程序	服务
				乘公交场景	手机翻转且屏幕背向用户	应用程序1	公交码显示界面
乘地铁场景	手机翻转且屏幕背向用户	应用程序1	地铁码显示界面
				支付场景	手机翻转且屏幕背向用户	应用程序1	付款码显示界面
导航场景	手机固定到支架	应用程序2	导航界面
				运动场景	手机固定到手臂	应用程序3

本申请实施例中根据电子设备运行应用程序服务时用户的习惯性动作，并结合使用场景作为应用服务推荐的依据，基于多模态数据的服务推荐方法能更准确识别用户所需服务意图，为应用程序或者应用程序中某个服务设置一种快速启动方法。

示例性的，在一些实施例中，所述方法还包括：控制显示单元显示所述目标服务的快捷标识；当检测到针对所述快捷标识的操作指令时，运行所述目标应用程序中的所述目标服务。

这里，为了避免用户意图识别错误，在确定目标应用程序的目标服务之后，显示单元显示快捷标识，用户操作快捷标识可以直接进入目标应用程序的目标服务。示例性的，在乘地铁场景，确定需要显示地铁乘车码，用户拿起手机，手机界面显示地铁乘车码的快捷标识，用户点击快捷标识可以直接进入地铁乘车码显示界面。

也就是说，该方法可以为用户推荐应用服务，自动执行推荐的应用服务，或者由用户决定是否执行推荐的应用服务。

示例性的，图2为本申请实施例中场景识别的第一流程示意图，如图2所示，目标音频数据以人声音频数据为例进行举例说明，所述基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型，包括：

步骤201：对原始音频数据进行分离，得到人声音频数据和背景音频数据；

步骤202：基于音频场景识别算法对所述原始音频数据和所述背景音频数据进行场景识别，得到第一场景识别结果；

步骤203：基于语音识别算法对所述人声音频数据进行文本识别，得到文本识别结果；

步骤204：基于文本场景识别算法对所述文本识别结果进行场景识别，得到第二场景识别结果；

步骤205：基于所述第一场景识别结果和所述第二场景识别结果，确定所述电子设备所处的场景类型。

示例性的，在一些实施例中，该方法还包括：当所述人声音频数据包括多个人声音频数据时，对所述人声音频数据进行人声分离，得到多个独立人声音频数据。

相应的，基于语音识别算法对多个独立人声音频数据进行文本识别，得到多个文本识别结果；基于多个文本场景识别算法对所述文本识别结果进行场景识别，得到第二场景识别结果；其中，第二场景识别结果包括一个或多个场景。

可以理解为，目标场景中包含多人对话时，可以根据多人说话内容进行综合决策，识别一个场景；或者根据每个人的说话内容识别出多个场景。

图3为本申请实施例中场景识别的第二流程示意图，如图3所示，采集当前环境的原始音频数据，然后音频分离单元31基于音频分离算法将原始音频数据分离为独立的不同声源数据，比如环境背景音频数据、人声音频数据，这里当有多个人声时还可以将人声音频数据分离为多个独立人声音频数据，最终音频分离单元31的输出结果为三部分：原始音频数据、背景音频数据、一个或多个人声音频数据，用于后续进行场景识别。

针对原始音频数据和背景音频数据，利用第一场景识别单元32基于音频场景识别算法对音频进行分类从而识别出当前可能的场景1。

针对一个或多个人声音频数据，首先利用语音识别识别单元33基于语音识别算法识别出语音中的文本内容，包括文本1至文本N，然后利用第二场景识别单元34基于文本场景识别算法进行场景识别，识别出场景2至场景N+1，文本场景识别算法可以是基于规则的场景关键字匹配、基于模型(机器学习模型、深度学习模型)的文本匹配或分类模型，从而识别出当前潜在的场景，比如语音内容为“一共XXX元”，则检测为支付场景，“开往XXX的列车即将进站”则识别为交通或地铁场景等。

最后将场景1至场景N+1输入到场景决策单元35进行场景识别，综合决策出最终的场景类型。这里。场景决策单元35可以是基于机器学习、深度学习的算法模型，来实现对各个场景的加权决策。

下面对应用程序控制方法的应用场景进行举例说明。

场景1，支付场景：当音频采集单元收集到收银员的“一共XXX钱”时，通过音频分离单元分离出收银员的语音，并识别出其中的文本内容，然后检测出当前的场景可能为“支付场景”，此时用户发出了屏幕翻转朝向收银员或屏幕朝上出示二维码的动作，此时系统检测出当前需要出示二维码的服务，自动弹出支付二维码进行支付。

场景2，驾驶场景：当用户上车后，移动设备检测到用户关门的声音或者汽车启动的声音，此时场景检测识别的单元根据环境噪音检测出目标场景可能为驾驶场景，同时用户发出了将手机放置于手机支架的动作，此时系统识别出用户可能需要导航操作，则语音询问用户是否需要打开导航服务，若用户反馈需要导航，则进行后续导航的操作。

场景3，乘地铁场景：在地铁中，由于地铁环境会出现列车运行的噪声，同时有列车播报声音(开往XXX的列车即将进站)或车站的广播声音(请站稳扶好，照顾好老人和小孩)，利用这些音频数据识别出目标场景可能为乘地铁场景。则通过传感器单元识别出手机当前快速地发生了手机翻转，手机屏幕由面向用户发生旋转将屏幕朝向背面且手机相对垂直或手机屏幕水平朝下的扫码乘车码动作。由于用户目标场景为乘地铁场景，然后用户又发生了扫码乘车码动作，这和我们日常扫乘车码的动作十分吻合，因此最终服务决策单元推断出当前需要显示地铁乘车码，因此主动打开地铁乘车码。

为了能更加体现本申请的目的，在本申请上述实施例的基础上，进行进一步的举例说明，如图4所示，该方法具体包括：

步骤401：获取原始音频数据，获取所述电子设备的位置信息和/或系统时间；

步骤402：基于所述位置信息和/或所述系统时间，以及所述原始音频数据进行场景识别，得到场景识别结果；

也就是说，基于所述位置信息和所述原始音频数据进行场景识别，得到场景识别结果；基于所述时间信息和所述原始音频数据进行场景识别，得到场景识别结果；基于所述位置信息、所述时间信息和所述原始音频数据进行场景识别，得到场景识别结果。

这里，在利用原始音频数据进行场景识别时，还可以结合电子设备的位置信息和/或系统时间等其他模态数据进行场景识别，提高场景识别的准确性，进一步提高后续服务决策的准确性。

示例性的，在地铁中，进行场景识别时，若能获得当前位置信息，位置信息表明电子设备位于地铁站附近，且音频数据采集了地铁内部的有列车播报声音(开往XXX的列车即将进站)，则确定用户在地铁站内部需要扫码进站，再结合运动状态数据，确定手机屏幕由面向用户发生旋转将屏幕朝向背面且手机相对垂直或手机屏幕水平朝下的扫码乘车码动作，直接控制显示屏显示地铁乘车码，无需用户再执行一些列操作调出地铁乘车码。

示例性的，在地铁中，进行场景识别时，若能获得当前位置信息，位置信息表明电子设备位于地铁站附近，系统时间表明此时为用户上下班时间，且音频数据采集了地铁内部的有列车播报声音(开往XXX的列车即将进站)，则确定用户在地铁站内部需要扫码进站，再结合运动状态数据，确定手机屏幕由面向用户发生旋转将屏幕朝向背面且手机相对垂直或手机屏幕水平朝下的扫码乘车码动作，直接控制显示屏显示地铁乘车码，无需用户再执行一些列操作调出地铁乘车码。

步骤403：获取所述电子设备的运动状态数据，基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；

步骤404：基于所述场景类型和所述动作类型，确定运行目标应用程序。

采用上述技术方案，在利用原始音频数据、位置信息和系统时间进行场景识别，提高场景识别的准确性，之后结合目标场景类型和动作类型进行服务决策，更准确识别用户应用程序的运行意图，从而控制电子设备快速运动目标应用程序，简化应用程序的操作步骤，优化应用程序控制方案。

为实现本申请实施例的方法，基于同一发明构思本申请实施例还提供了一种应用程序控制装置，如图5所示，该装置50包括：

第一获取单元501，用于获取原始音频数据；

场景识别单元502，用于基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型；

第二获取单元503，用于获取所述电子设备的运动状态数据；

动作识别单元504，用于基于所述运动状态数据进行动作识别，确定所述电子设备的动作类型；

确定单元505，用于基于所述场景类型和所述动作类型，确定运行目标应用程序。

示例性的，如图6所示，场景识别单元502，包括：

语音分离单元601，用于对所述原始音频数据进行分离，得到目标音频数据和背景音频数据；

第一场景识别单元602，用于基于音频场景识别算法对所述原始音频数据和所述背景音频数据进行场景识别，得到第一场景识别结果；

第二场景识别单元603，对所述目标音频数据进行场景识别，得到第二场景识别结果；

场景决策单元604，基于所述第一场景识别结果和所述第二场景识别结果，确定所述电子设备所处的场景类型。

示例性的，在一些实施例中，所述目标音频数据为人声音频数据时，第二场景识别单元603，具体用于基于语音识别算法对所述人声音频数据进行文本识别，得到文本识别结果；基于文本场景识别算法对所述文本识别结果进行场景识别，得到第二场景识别结果。

在一些实施例中，语音分离单元601，还用于当所述人声音频数据包括多个人声音频数据时，对所述人声音频数据进行人声分离，得到多个独立人声音频数据。

在一些实施例中，第二获取单元503，具体用于当所述场景类型匹配到预设场景类型时，获取所述电子设备的运动状态数据。

在一些实施例中，确定单元505，具体用于基于预设场景类型、动作类型和应用程序的映射关系，进行场景匹配和动作匹配；当所述场景匹配和所述动作匹配成功时，从所述映射关系中运行确定所述目标应用程序，或者所述目标应用程序中的目标服务。

在一些实施例中，该装置还包括：控制单元，用于控制显示单元显示所述目标应用程序的目标服务的快捷标识；当检测到针对所述快捷标识的操作指令时，控制运行所述目标应用程序中的所述目标服务。

在一些实施例中，场景识别单元502，还用于获取所述电子设备的位置信息和/或系统时间；基于所述位置信息和/或所述系统时间，以及所述原始音频数据进行场景识别，得到场景识别结果。

实际应用中，上述装置应用于本申请实施例中的电子设备，该装置可以是电子设备，也可以是应用于电子设备的芯片。在本申请中，该装置可以通过或软件、或硬件、或软件与硬件相结合的方式，实现多个单元的功能，使该装置可以执行如上述任一实施例所提供的应用程序控制方法。且该装置的各技术方案的技术效果可以参考应用程序控制方法中相应的技术方案的技术效果，本申请对此不再一一赘述。

基于上述应用程序控制装置中各单元的硬件实现，本申请实施例还提供了一种电子设备，如图7所示，该电子设备70包括：处理器701和配置为存储能够在处理器上运行的计算机程序的存储器702；

其中，处理器701配置为运行计算机程序时，执行前述实施例中的方法步骤。

当然，实际应用时，如图7所示，该电子设备中的各个组件通过总线系统703耦合在一起。可理解，总线系统703用于实现这些组件之间的连接通信。总线系统703除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统703。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

在示例性实施例中，本申请实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，计算机程序可由电子设备的处理器执行，以完成前述方法的步骤。

本申请实施例还提供了一种计算机程序产品，包括计算机程序指令。

可选的，该计算机程序产品可应用于本申请实施例中的电子设备，并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序。

可选的，该计算机程序可应用于本申请实施例中的电子设备，当该计算机程序在计算机上运行时，使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

应当理解，在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本申请中表述“具有”、“可以具有”、“包括”和“包含”、或者“可以包括”和“可以包含”在本文中可以用于指示存在对应的特征(例如，诸如数值、功能、操作或组件等元素)，但不排除附加特征的存在。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，不必用于描述特定的顺序或先后次序。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种应用程序控制方法，其特征在于，所述方法包括：

基于所述场景类型和所述动作类型，确定运行目标应用程序；

其中，基于所述原始音频数据进行场景识别，确定电子设备所处的场景类型，包括：

对所述原始音频数据进行分离，得到目标音频数据和背景音频数据，其中，所述目标音频数据为人声音频数据；

基于音频场景识别算法对所述原始音频数据和所述背景音频数据进行场景识别，得到第一场景识别结果；

基于语音识别算法对所述人声音频数据进行文本识别，得到文本识别结果；

基于文本场景识别算法对所述文本识别结果进行场景识别，得到第二场景识别结果，其中，所述第二场景包括一个或多个场景；

基于所述第一场景识别结果和所述第二场景识别结果，确定所述电子设备所处的场景类型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述人声音频数据包括多个人声音频数据时，对所述人声音频数据进行人声分离，得到多个独立人声音频数据。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述场景类型匹配到预设场景类型时，获取所述电子设备的运动状态数据。

4.根据权利要求1所述的方法，其特征在于，所述基于所述场景类型和所述动作类型，确定运行目标应用程序，包括：

基于预设场景类型、动作类型和应用程序的映射关系，进行场景匹配和动作匹配；

当所述场景匹配和所述动作匹配成功时，从所述映射关系中运行确定所述目标应用程序，或者所述目标应用程序中的目标服务。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

控制显示单元显示所述目标服务的快捷标识；

当检测到针对所述快捷标识的操作指令时，运行所述目标应用程序中的所述目标服务。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述电子设备的位置信息和/或系统时间；

基于所述位置信息和/或所述系统时间，以及所述原始音频数据进行场景识别，得到场景识别结果。

7.一种应用程序控制装置，其特征在于，所述装置包括：

第一获取单元，用于获取原始音频数据；

第二获取单元，用于获取所述电子设备的运动状态数据；

确定单元，用于基于所述场景类型和所述动作类型，确定运行目标应用程序；

其中，所述场景识别单元，包括：

语音分离单元，用于对所述原始音频数据进行分离，得到目标音频数据和背景音频数据，其中，所述目标音频数据为人声音频数据；

第一场景识别单元，用于基于音频场景识别算法对所述原始音频数据和所述背景音频数据进行场景识别，得到第一场景识别结果；

第二场景识别单元，用于基于语音识别算法对所述人声音频数据进行文本识别，得到文本识别结果；基于文本场景识别算法对所述文本识别结果进行场景识别，得到第二场景识别结果，其中，所述第二场景包括一个或多个场景；

场景决策单元，基于所述第一场景识别结果和所述第二场景识别结果，确定所述电子设备所处的场景类型。

8.一种电子设备，其特征在于，所述电子设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。