CN108133708A

CN108133708A - 一种语音助手的控制方法、装置及移动终端

Info

Publication number: CN108133708A
Application number: CN201711260714.6A
Authority: CN
Inventors: 洪杰鸿
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-06-08
Anticipated expiration: 2037-12-04
Also published as: CN108133708B

Abstract

本发明提供了一种语音助手的控制方法、装置及移动终端。该方法包括：获取用户的当前人脸图像以及应用程序的使用信息；将所述当前人脸图像和/或所述应用程序的使用信息输入至预设深度神经网络模型进行预测，得到预测结果；当所述预测结果满足预设条件时，开启所述移动终端的语音助手。本发明可以利用当然人脸图像和应用程序的使用信息快速的预测到用户是否想要开启语音助手，从而开启语音助手，简化了开启语音助手的繁琐步骤，使得语音助手的开启更加智能迅速、便捷和准确。

Description

一种语音助手的控制方法、装置及移动终端

技术领域

本发明涉及通信技术领域，尤其涉及一种语音助手的控制方法、装置及移动终端。

背景技术

随着移动终端的广泛应用，移动终端的语音助手也成为人们常用的功能。用户可以使用移动终端的语音助手功能与机器助手进行语音交互，使机器助手可以在用户的语音控制下完成对移动终端的各种操作，也包括对移动终端上的应用程序的各种操作，例如设置日程、开启闹钟、设置代办事项、打开应用、拨打电话等等。

虽然语音助手很智能，但是传统技术中的语音助手的开启方式却不太方便，主要的开启方式包括长按Home键；在手机边框新增一个按键，通过点击该按键来开启语音助手；长按音量键；长按关机键等等。

现有的这些开启语音助手的方法主要是通过人工操作物理按键的方式，但这种方式的操作比较繁琐，无法实现对语音助手的快速开启。

发明内容

本发明实施例提供一种语音助手的控制方法、装置及移动终端，以解决现有技术中语音助手的开启方案所存在的语音助手开启操作繁琐，不能快速、准确地打开语音助手。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音助手的控制方法，应用于移动终端，所述方法包括：

获取用户的当前人脸图像以及应用程序的使用信息；

将所述当前人脸图像和/或所述应用程序的使用信息输入至预设深度神经网络模型进行预测，得到预测结果；

当所述预测结果满足预设条件时，开启所述移动终端的语音助手。

第二方面，本发明实施例还提供了一种语音助手的控制装置，应用于移动终端，所述语音助手的控制装置包括：

获取模块，用于获取用户的当前人脸图像以及应用程序的使用信息；

输入模块，用于将所述当前人脸图像和/或所述应用程序的使用信息输入至预设深度神经网络模型进行预测，得到预测结果；

开启模块，用于当所述预测结果满足预设条件时，开启所述移动终端的语音助手。

第三方面，本发明实施例还提供了一种移动终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的语音助手的控制方法的步骤。

在本发明实施例中，通过利用人脸图像来对预设深度神经网络模型进行情绪训练，并利用应用程序的使用信息来对预设深度神经网络模型进行应用场景训练，从而使得训练后的预设深度神经网络模型能够对输入的当前人脸图像、应用程序的使用信息进行情绪类型预测、是否属于开启语音助手的应用场景的预测，在预测结果满足预设条件时，就自动开启语音助手，在这个过程中，用户无需任何操作，系统就可以快速的预测到用户是否想要开启语音助手，从而开启语音助手，简化了开启语音助手的繁琐步骤，使得语音助手的开启更加智能迅速、便捷和准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的语音助手的控制方法的流程图；

图2是本发明另一个实施例的语音助手的控制方法的流程图；

图3是本发明一个实施例的语音助手的控制装置的框图；

图4是本发明另一个实施例的语音助手的控制装置的框图；

图5是本发明一个实施例的移动终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明一个实施例的语音助手的控制方法的流程图，应用于移动终端，所述方法具体可以包括如下步骤：

步骤101，获取用户的当前人脸图像以及应用程序的使用信息；

其中，本发明实施例可以自动开启移动终端的前置摄像头来获取用户的当前人脸图像。或者，也可以采用现有技术中的其他方式来获取用户的当前人脸图像，本发明对此并不限定。

此外，本发明实施例可以获取移动终端中当前运行的应用程序的使用信息。

其中，在一个实施例中，所述应用程序的使用信息包括以下内容中的至少一项：应用程序的包名、应用程序的使用时间信息、所述移动终端的定位信息。

其中，该应用程序的使用时间信息可以包括以下内容中的至少一项：应用程序的开启时间点、应用程序本次开启的持续使用时间长度(例如用户开启该程序，持续使用了20分钟，然后关闭了该程序，则持续使用时间长度为20分钟)、使用该程序的时间范围(例如8:00～12:00)等。

其中，移动终端的定位信息可以通过移动终端的GPS系统来获取。

这样，通过获取用户当前使用的应用程序的使用信息，包括应用程序的包名、使用时间信息，以及移动终端的定位信息，从而可以确定运行该应用程序的场景，具体来说，通过上述包名可以知道当前使用的是哪个应用程序，通过使用时间信息可以知道在什么时间点或时间段使用该应用程序，以及该应用程序的本次持续使用时间长度是多少，还可以通过上述移动终端的定位信息来确定用户是在哪个位置使用的该应用程序。

另外，需要注意的是，本发明对于上述获取用户的当前人脸图像的步骤以及获取应用程序的使用信息的步骤的执行顺序并不限定。

步骤102，将所述当前人脸图像和/或所述应用程序的使用信息输入至预设深度神经网络模型进行预测，得到预测结果；

其中，本发明实施例的预设深度神经网络模型可以是卷积神经网络(CNN)模型、循环神经网络(RNN)模型、深度神经网络(DNN)模型中的任意一个，或者任意多个的组合。当然也不限于上述列举的神经网络模型，还可以是现有技术中其他未列举的深度神经网络模型。

其中，本发明实施例的预设深度神经网络模型为预先经过情绪训练，以及应用场景训练后收敛的深度神经网络模型。其中，经过情绪训练，本发明实施例的预设深度神经网络模型能够对输入的人脸图像识别其属于哪种情绪类型；而经过应用场景训练，本发明实施例的预设深度神经网络模型则能够针对输入的应用程序的使用信息，来预测该应用程序的使用信息所表示的应用场景是否为需要开启语音助手的应用场景。

其中，不论是输入上述当前人脸图像，还是输入所述应用程序的使用信息，或是既输入上述当前人脸图像也输入所述应用程序的使用信息，本发明实施例的预设深度神经网络模型都能够根据输入的信息进行相应的预测，从而得到不同的预测结果。

步骤103，当所述预测结果满足预设条件时，开启所述移动终端的语音助手。

其中，输入人脸图像，经过模型预测会有第一预测结果；而当输入应用程序的使用信息，经过模型预测则会有第二预测结果；而当输入人脸图像、且输入应用程序的使用信息，则经过模型预测会有第一预测结果，以及第二预测结果；

其中，本发明实施例可以对第一预测结果设置第一预设条件、对第二预测结果设置第二预设条件，那么只要第一预测结果、第二预测结果中存在一个预测结果满足相应的预设条件，本发明实施例就会开启移动终端的语音助手。

可选地，在一个实施例中，在执行步骤101之前，本发明实施例的方法还可以包括对模型进行训练的步骤，具体可以包括以下两种训练方法：

方法一：

将多个具有情绪类型标注的人脸图像作为第一训练样本，输入至深度神经网络模型进行情绪训练，使所述深度神经网络模型收敛。

其中，本发明实施例可以获取大量的人脸图像样本，例如10万个人脸图像样本，这些人脸图像样本涉及的情绪类型可以包括困扰、苦恼、开心、悲伤等等。例如有2万个困扰情绪的人脸图像、3万个苦恼情绪的人脸图像、3万个开心情绪的人脸图像、2万个悲伤情绪的人脸图像。其中，每一种情绪类型的多个人脸图像涉及的人物可以是一个或多个，优选多个。其中，上述人脸图像样本涉及的人物可以包括移动终端的机主本人，但不限于机主。

其中，可以对这10个人脸图像进行情绪类型标注，例如对2万个困扰情绪的人脸图像标注困扰情绪、对3万个苦恼情绪的人脸图像标注苦恼情绪、对3万个开心情绪的人脸图像标注开心情绪、对2万个悲伤情绪的人脸图像标注悲伤情绪。

然后，将这些具有情绪类型标注的10万个人脸图像作为情绪训练的样本，分别输入至该深度神经网络模型，对模型进行情绪训练，使得训练后的深度神经网络模型能够收敛，所谓模型收敛，即表示模型预测的某个人脸图像为某个情绪类型的概率与该人脸图像标注的情绪类型(概率为100％)之间的误差小于预设阈值，例如误差小于0.03％，这样，经过情绪训练收敛后的深度神经网络模型就能够对输入的任意一个实测人脸图像进行情绪类型的预测，以确定该人脸图像的人物属于哪种情绪类型。

这样，通过方法一的情绪训练，能够使得本发明实施例的深度神经网络模型能够对任意一个人脸图像的情绪类型进行预测，从而获知人脸图像对应的用户的情绪类型是否为苦恼或困扰，以确定用户是否需要语音助手的帮助，来解决用户的问题，以缓解其苦恼或困扰的情绪。

另外，需要注意的是预设情绪类型可以包括苦恼、困扰等多个表示用户遇到障碍的情绪，而不限于上述列举的苦恼、困扰，还可以包括困惑、疑惑等情绪类型。

方法二：

对用户开启所述移动终端的语音助手前最后一次使用的目标应用程序的使用信息进行记录；

其中，本发明实施例可以对用户手动开启语音助手之前最后一次使用的应用程序的使用信息进行记录，具体的使用信息已在上述实施例中列举，这里不再赘述。

将多次记录的所述目标应用程序的使用信息作为第二训练样本，输入至所述深度神经网络模型进行开启语音助手的应用场景训练，使所述深度神经网络模型收敛；

其中，用户每次手动开启语音助手前最后一次使用的应用程序可能相同或不同。

当多次手动开启语音助手前最后一次使用的应用程序相同时，但是多次的该应用程序的使用信息并不相同，因此，针对记录信息包括同一个应用程序的使用信息的情况时，只要使用信息不同，则多次记录的同一个应用程序的使用信息可以作为多个训练样本。

例如第一次记录的使用信息包括程序1的使用信息1、程序2的使用信息2；第二次记录的使用信息包括程序1的使用信息3、程序2的使用信息4；第三次记录的使用信息包括程序1的使用信息1。

那么第二训练样本包括程序1的使用信息1(样本1)、程序1的使用信息3(样本2)、程序2的使用信息2(样本3)、程序2的使用信息4(样本4)。

其中，由于第二训练样本中的每个样本都是用户手动开启语音助手前最后一次使用的应用程序的使用信息，对应于开启语音助手的应用场景；

那么通过使用上述第二训练样本来对深度神经网络模型进行应用场景训练，从而使得训练后的深度神经网络模型能够收敛，即对应用场景的预测收敛，使得该深度神经网络模型能够对输入的任意一个应用程序的使用信息进行属于开启语音助手的应用场景，还是不属于开启语音助手的应用场景的预测。对于模型收敛的意义类似于方法一中的解释，也是预测值与真实值之间的误差小于预设阈值，这里不再赘述。

最后，就可以将经过上述方法一的所述情绪训练收敛，以及经过上述方法二的所述应用场景训练收敛后的所述深度神经网络模型，确定为本发明实施例图1中所述的预设深度神经网络模型。

其中，由于预设深度神经网络模型可以包括多个网络分支，而上述方法一和方法二由于是对不同的训练样本进行不同的训练，因此，可以利用预设深度神经网络模型中的不同网络分支来实现情绪预测和应用场景预测。当然，在其他实施例中，根据实际需要，也可以将情绪预测和应用场景预测分由两个不同的深度神经网络模型来实现，训练和预测方法类似，本发明对此不再赘述。

这样，本发明实施例通过对深度神经网络模型进行人脸图像的情绪训练，从而使得训练后的深度神经网络模型能够对输入的任意一个人脸图像，来识别该人脸图像属于哪种情绪类型；而通过对深度神经网络模型进行应用场景的训练，从而使得训练后的深度神经网络模型能够对输入的任意一个应用程序的使用信息，来识别该应用程序的该使用信息是否对应于开启语音助手的应用场景。

可选地，在一个实施例中，当将所述当前人脸图像输入至预设深度神经网络模型进行预测时，所述预测结果则可以包括对应不同情绪类型的多个概率值，例如上述训练过程中，情绪类型标注包括困扰、苦恼、开心、悲伤。

那么本发明实施例的预设深度神经网络模型可以对输入的当前人脸图像进行情绪预测，从而模型输出得到该当前人脸图像对应不同情绪类型的多个概率值。

例如输出的预测结果包括对应开心情绪的概率值为1％、对应悲伤情绪的概率值为3％、对应困扰情绪的概率值为99％、对应苦恼情绪的概率值为80％、

那么在执行步骤103时，则可以通过确定所述多个概率值中最高概率值对应的目标情绪类型；当所述目标情绪类型为预设情绪类型时，开启所述移动终端的语音助手。

其中，概率值最高的情绪类型为困扰。而本发明实施例可以预先设置用户需要开启语音助手的情绪类型，该预设情绪类型可以包括困扰、苦恼，但不限于此。那么这里的最高概率的情绪类型属于预设情绪类型，则表明用户遇到障碍了，需要获得语音助手的帮助。所以，本发明实施例的方法可以自动开启移动终端的语音助手功能，以便于用户寻求帮助。

这样，本发明实施例通过预设用户期望启动语音助手的情绪类型，这样，当预设深度神经网络模型对输入的用户的当前人脸图像识别到的概率值最高的情绪类型属于该预设的情绪类型中时，则可以自动开启语音助手，使得用户当需要开启语音助手时，只需要皱一下眉(表示苦恼)就可以自动开启语音助手，无需手动操作，简化了语音助手的开启步骤，提升了用户体验。

可选地，在一个实施例中，当将所述应用程序的使用信息输入至预设深度神经网络模型进行预测时，所述预测结果包括对应是否开启语音助手的两个概率值，即开启语音助手的概率值和不开启语音助手的概率值。

相应的，在执行步骤103时，可以通过确定所述两个概率值中对应开启语音助手的目标概率值；当所述目标概率值大于预设概率阈值时，开启所述移动终端的语音助手。

也就是说，当系统获取到的当前运行的应用程序的使用信息输入至该预设深度神经网络模型时，该预设深度神经网络模型可以预测出该应用程序的使用信息对应于开启语音助手的应用场景的概率值，以及不开启语音助手的概率值。那么本发明实施例中需要确定两个概率值中对应开启语音助手的概率值；当该概率值大于预设概率阈值(例如50％)时，则说明当前的应用场景为用户平时手动开启语音助手的应用场景，自动开启该移动终端的语音助手。

其中，需要注意的是，步骤101获取到的应用程序的使用信息，涉及到的应用程序为当前运行的应用程序，因此，该应用程序的数量可以是一个或多个。

相应的，当步骤101中获取到的是多个应用程序的使用信息时，只要有任意一个应用程序的使用信息经上述模型预测后给出的预测结果满足预设条件，即：对应开启语音助手的目标概率值大于预设概率阈值，则系统就会自动开启语音助手。

这样，本发明实施例通过预设深度神经网络模型对输入的当前运行的应用程序的使用信息进行应用场景预测，这样，当该应用程序的使用信息对应于用户自己常常手动开启语音助手时的应用场景时，本发明实施例就可以自动开启语音助手，使得用户只要使移动终端的应用程序的使用信息对应于自己过去常常手动开启语音助手的应用场景，就可以根据应用使用行为来自动开启语音助手，无需手动操作，简化了语音助手的开启步骤，提升了用户体验。

可选地，在一个实施例中，在开启语音助手后，本发明实施例的方法可以在移动终端的屏幕右下角弹出语音助手图标，并在屏幕上显示“请问用户是否需要帮助”文字，或者，以语音的方式播放“请问用户是否需要帮助”。

其中，在一个实施例中，如果用户确实需要语音助手的帮助，则会发出具有控制命令的语音，从而与语音助手进行交互，实现对移动终端的各种功能控制。

可选地，在一个实施例中，在步骤103之后，根据本发明实施例的方法还可以包括：

若在预设时间长度内未检测到响应所述语义助手的操作，则关闭所述语音助手。

具体而言，当开启了语音助手并询问用户是否需要帮助后，用户在预设时间长度(例如1.5s)内没有对该语音助手进行响应操作，即未发出控制命令语音，则本发明实施例的方法可以自动关闭该语音助手。

其中，自开启语音助手的时间点开始上述预设时间长度的倒计时，当计时为零时，则默认关闭该语音助手。

这样，当面临语音助手误开启的情况时，本发明实施例的方法还可以自动关闭该语音助手，避免给用户对移动终端的操作造成干扰。

若在预设时间长度内检测到响应所述语义助手的操作，则将所述当前人脸图像录入第一训练样本，将所述应用程序的使用信息录入所述第二训练样本；

根据更新后的第一训练样本继续进行上述方法一的情绪训练；

根据更新后的第二训练样本继续进行上述方法二的应用场景训练。

这样，可以提升预设深度神经网络模型的预测准确率。

参照图2，示出了本发明一个实施例的语音助手的控制方法的流程图，应用于移动终端，所述方法具体可以包括如下步骤：

步骤201，获取所述移动终端的当前通信内容；

其中，该当前通信内容为用户与其他用户的交互通信内容，例如即时通讯软件的聊天内容、邮件内容、短信内容等等。

其中，当前通信内容对应的应用程序可以是一个或多个。

步骤202，对所述当前通信内容进行语义分析，得到语义分析结果；

其中，例如公司的聊天群中的一条聊天内容为“全体人员下周我们开例会，具体的时间为下周一上午九点，地点在公司大会议室，望大家准时到达”，则语义分析后，提炼语义得到短句，即语义分析结果，“下周一上午九点全体人员在大会议室开会”。

步骤203，当所述语义分析结果中存在与预设日程词汇匹配的目标词汇时，开启所述移动终端的语音助手。

其中，可以判断该语义分析结果中是否存在预设日程词汇(包括但不限于代办、会议、约会、有空吗等等与时间有关的预设日程词汇)。本例中语义分析结果中包括开会，所以，需要开启移动终端的语音助手。

这样，本发明实施例通过对用户的当前通信内容进行语义分析，当语义分析结果中出现预设日程词汇时，则表示用户一般需要借助语音助手进行操作，因此，可以自动开启语音助手，在这个过程中，用户无需任何操作，系统就可以快速的预测到用户是否想要开启语音助手，从而开启语音助手，简化了开启语音助手的繁琐步骤，使得语音助手的开启更加智能迅速、便捷和准确。

可选地，在一个实施例中，在步骤203之后，根据本发明实施例的方法还可以包括：

在语音助手界面显示提示信息以及所述语义分析结果；

其中，所述提示信息表示询问用户是否需要设置日程。

其中，在开启语音助手后，本发明实施例的方法可以在移动终端的屏幕右下角弹出语音助手图标，并将屏幕当前显示内容切换为语音助手界面，并在语音助手界面显示提示信息(例如“请问用户是否需要设置日程或代办”)以及所述语义分析结果“下周一上午九点全体人员在大会议室开会”。

这样，在启动语音助手后，可以自动根据语义分析结果来询问用户是否需要设置日程或代办，语音助手的操作更灵活。

可选地，所述在语音助手界面显示提示信息以及所述语义分析结果之后，根据本发明实施例的方法还包括：

当检测到设置日程操作时，根据所述语义分析结果设置日程。

其中，当显示上述提示信息后，如果用户触发了设置日程的操作(例如发出设置日程语音、或者触发设置日程的手势操作、或者触发预设按键的预设操作)，本发明实施例就可以自动根据该语音分析结果来设置日程。

这样，本发明实施例就可以在用户响应日程操作时，根据语义分析结果在移动终端的日程程序上设置日程，从而便于提醒用户日程。

可选地，在一个实施例中，在步骤203之后，根据本发明实施例的方法还包括：

具体而言，当开启了语音助手后，用户在预设时间长度(例如1.5s)内没有对该语音助手进行响应操作，即未发出控制命令语音，则本发明实施例的方法可以自动关闭该语音助手。

参照图3，示出了本发明一个实施例的语音助手的控制装置的框图，应用于移动终端。图3所示语音助手的控制装置包括：

获取模块31，用于获取用户的当前人脸图像以及应用程序的使用信息；

输入模块32，用于将所述当前人脸图像和/或所述应用程序的使用信息输入至预设深度神经网络模型进行预测，得到预测结果；

开启模块33，用于当所述预测结果满足预设条件时，开启所述移动终端的语音助手。

可选地，当将所述当前人脸图像输入至预设深度神经网络模型进行预测时，所述预测结果包括对应不同情绪类型的多个概率值，所述开启模块33包括：

第一确定子模块，用于确定所述多个概率值中最高概率值对应的目标情绪类型；

第一开启子模块，用于当所述目标情绪类型为预设情绪类型时，开启所述移动终端的语音助手。

可选地，当将所述应用程序的使用信息输入至预设深度神经网络模型进行预测时，所述预测结果包括对应是否开启语音助手的两个概率值，所述开启模块33包括：

第二确定子模块，用于确定所述两个概率值中对应开启语音助手的目标概率值；

第二开启子模块，用于当所述目标概率值大于预设概率阈值时，开启所述移动终端的语音助手。

可选地，所述应用程序的使用信息包括以下内容中的至少一项：

应用程序的包名、应用程序的使用时间信息、所述移动终端的定位信息。

可选地，所述装置还包括：

第一训练模块，用于将多个具有情绪类型标注的人脸图像作为第一训练样本，输入至深度神经网络模型进行情绪训练，使所述深度神经网络模型收敛；

记录模块，用于对用户开启所述移动终端的语音助手前最后一次使用的目标应用程序的使用信息进行记录；

第二训练模块，用于将多次记录的所述目标应用程序的使用信息作为第二训练样本，输入至所述深度神经网络模型进行开启语音助手的应用场景训练，使所述深度神经网络模型收敛；

确定模块，用于将经过所述情绪训练收敛，以及经过所述应用场景训练收敛后的所述深度神经网络模型，确定为预设深度神经网络模型。

本发明实施例提供的语音助手的控制装置能够实现图1及与图1相关的方法实施例中语音助手的控制方法实现的各个过程，为避免重复，这里不再赘述。

参照图4，示出了本发明一个实施例的语音助手的控制装置的框图，应用于移动终端。图4所示语音助手的控制装置包括：

获取模块41，用于获取用户的当前通信内容；

语义分析模块42，用于对所述当前通信内容进行语义分析，得到语义分析结果；

开启模块43，用于当所述语义分析结果中存在与预设日程词汇匹配的目标词汇时，开启所述移动终端的语音助手。

可选地，所述装置还包括：

显示模块，用于在语音助手界面显示提示信息以及所述语义分析结果；

其中，所述提示信息表示询问用户是否需要设置日程。

可选地，所述装置还包括：

设置模块，用于当检测到设置日程操作时，根据所述语义分析结果设置日程。

可选地，所述装置还包括：

关闭模块，用于若在预设时间长度内未检测到响应所述语义助手的操作，则关闭所述语音助手。

本发明实施例提供的语音助手的控制装置能够实现图2及与图2相关的方法实施例中语音助手的控制方法实现的各个过程，为避免重复，这里不再赘述。

图5为实现本发明各个实施例的一种移动终端的硬件结构示意图，

该移动终端500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解，图5中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，射频单元501，用于获取用户的当前人脸图像以及应用程序的使用信息；

处理器510，用于将所述当前人脸图像和/或所述应用程序的使用信息输入至预设深度神经网络模型进行预测，得到预测结果；当所述预测结果满足预设条件时，开启所述移动终端的语音助手。

应理解的是，本发明实施例中，射频单元501可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器510处理；另外，将上行的数据发送给基站。通常，射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元501还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块502为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元503还可以提供与移动终端500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

移动终端500还包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度，接近传感器可在移动终端500移动到耳边时，关闭显示面板5061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器510，接收处理器510发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071，用户输入单元507还可以包括其他输入设备5072。具体地，其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5071可覆盖在显示面板5061上，当触控面板5071检测到在其上或附近的触摸操作后，传送给处理器510以确定触摸事件的类型，随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中，触控面板5071与显示面板5061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板5071与显示面板5061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元508为外部装置与移动终端500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端500内的一个或多个元件或者可以用于在移动终端500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器510可包括一个或多个处理单元；优选的，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

移动终端500还可以包括给各个部件供电的电源511(比如电池)，优选的，电源511可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端500包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器510，存储器509，存储在存储器509上并可在所述处理器510上运行的计算机程序，该计算机程序被处理器510执行时实现上述语音助手的控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音助手的控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音助手的控制方法，应用于移动终端，其特征在于，所述方法包括：

获取用户的当前人脸图像以及应用程序的使用信息；

2.根据权利要求1所述的方法，其特征在于，当将所述当前人脸图像输入至预设深度神经网络模型进行预测时，所述预测结果包括对应不同情绪类型的多个概率值，所述当所述预测结果满足预设条件时，开启所述移动终端的语音助手，包括：

确定所述多个概率值中最高概率值对应的目标情绪类型；

当所述目标情绪类型为预设情绪类型时，开启所述移动终端的语音助手。

3.根据权利要求1所述的方法，其特征在于，当将所述应用程序的使用信息输入至预设深度神经网络模型进行预测时，所述预测结果包括对应是否开启语音助手的两个概率值，所述当所述预测结果满足预设条件时，开启所述移动终端的语音助手，包括：

确定所述两个概率值中对应开启语音助手的目标概率值；

当所述目标概率值大于预设概率阈值时，开启所述移动终端的语音助手。

4.根据权利要求1所述的方法，其特征在于，所述应用程序的使用信息包括以下内容中的至少一项：

5.根据权利要求1所述的方法，其特征在于，所述获取用户的当前人脸图像以及应用程序的使用信息之前，所述方法还包括：

将多个具有情绪类型标注的人脸图像作为第一训练样本，输入至深度神经网络模型进行情绪训练，使所述深度神经网络模型收敛；

将经过所述情绪训练收敛，以及经过所述应用场景训练收敛后的所述深度神经网络模型，确定为预设深度神经网络模型。

6.一种语音助手的控制装置，应用于移动终端，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，当将所述当前人脸图像输入至预设深度神经网络模型进行预测时，所述预测结果包括对应不同情绪类型的多个概率值，所述开启模块包括：

8.根据权利要求6所述的装置，其特征在于，当将所述应用程序的使用信息输入至预设深度神经网络模型进行预测时，所述预测结果包括对应是否开启语音助手的两个概率值，所述开启模块包括：

9.根据权利要求6所述的装置，其特征在于，所述应用程序的使用信息包括以下内容中的至少一项：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

11.一种移动终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音助手的控制方法的步骤。