CN113946222A

CN113946222A - 一种控制方法、电子设备及计算机存储介质

Info

Publication number: CN113946222A
Application number: CN202111360393.3A
Authority: CN
Inventors: 曾理; 张晓帆
Original assignee: Hangzhou Douku Software Technology Co Ltd
Current assignee: Hangzhou Douku Software Technology Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-01-18

Abstract

本申请实施例公开了一种控制方法，包括：对获取到的用户的各相关数据进行处理，得到各相关数据的向量，对各相关数据的向量进行融合，得到用户的融合数据，根据用户的融合数据，确定用户所处的场景类型，根据用户的融合数据和用户所处的场景类型，确定用户的服务策略，控制服务策略的执行设备执行服务策略。本申请实施例还同时提供了一种电子设备及计算机存储介质。

Description

一种控制方法、电子设备及计算机存储介质

技术领域

本申请涉及人工智能中电子设备对其他智能设备的控制技术，尤其涉及一种控制方法、电子设备及计算机存储介质。

背景技术

目前，人工智能技术已越来越多地应用于生活的各个方面。在人机交互领域，如智能音箱、语音助手、智能手表、真无线立体声(True Wireless Stereo，TWS)耳机也形成产品，提供过了丰富自然的交互形式。在实际中，常常出现单一模态因为环境因素受到限制而无法使用，或是用户的行为、表达方式差异导致意图模糊的情况，影响交互的效率和体验。所以，多模态应运而生。

相关技术中，通常包括：联合多种模态实现对设备或交互界面的控制，或者联合多种模态感知用户状态和情景信息，提升对用户意图的理解，或者联合多种模态学习用户的历史数据得到规则或模型，然而上述方法都是通过用户主动发起指令的方式，融合多种模态的信息，实现意图的理解和交互系统的被动执行，即，人工智能的智能化不够，还有待提高；由此可以看出，现有的联合多种模态实现对智能设备的控制中存在智能化较低的技术问题。

发明内容

本申请实施例提供一种控制方法、电子设备及计算机存储介质，能够提高联合多种模态实现对智能设备进行控制的智能化水平。

本申请的技术方案是这样实现的：

第一方面，本申请实施例提供了一种控制方法，包括：

对获取到的用户的各相关数据进行处理，得到所述各相关数据的向量；其中，所述各相关数据包括状态数据和环境数据；

对所述各相关数据的向量进行融合，得到所述用户的融合数据；

根据所述用户的融合数据，确定所述用户所处的场景类型；

根据所述用户的融合数据和所述用户所处的场景类型，确定所述用户的服务策略；

控制所述服务策略的执行设备执行所述服务策略。

第二方面，本申请实施例提供一种电子设备，包括：

处理模块，用于对获取到的用户的各相关数据进行处理，得到所述各相关数据的向量；其中，所述各相关数据包括状态数据和环境数据；

融合模块，用于对所述各相关数据的向量进行融合，得到所述用户的融合数据；

第一确定模块，用于根据所述用户的融合数据，确定所述用户所处的场景类型；

第二确定模块，用于根据所述用户的融合数据和所述用户所处的场景类型，确定所述用户的服务策略；

控制模块，用于控制所述服务策略的执行设备执行所述服务策略。

第三方面，本申请实施例提供一种电子设备，包括：处理器以及存储有所述处理器可执行指令的存储介质；所述存储介质通过通信总线依赖所述处理器执行操作，当所述指令被所述处理器执行时，执行上述一个或多个实施例所述的控制方法。

第四方面，本申请实施例提供了一种计算机存储介质，存储有可执行指令，当所述可执行指令被一个或多个处理器执行的时候，所述处理器执行上述一个或多个实施例所述控制方法。

本申请实施例提供了一种控制方法、电子设备及计算机存储介质，包括：对获取到的用户的各相关数据进行处理，得到各相关数据的向量，其中，各相关数据包括状态数据和环境数据，对各相关数据的向量进行融合，得到用户的融合数据，根据用户的融合数据，确定用户所处的场景类型，根据用户的融合数据和用户所处的场景类型，确定用户的服务策略，控制服务策略的执行设备执行服务策略；也就是说，在本申请实施例中，通过对获取到的用户的各相关数据进行处理得到各相关数据的向量，然后对其融合得到用户的融合数据，进而根据融合数据确定用户所处的场景类型，最后，根据融合数据和场景类型确定服务策略，这样，通过对获取到的用户的各相关数据的处理，可以知晓用户所处的场景，在知晓场景的情况下结合融合数据可以确定出用户此时的需求，依据此时的需求确定出用户的服务策略，以达到自主为用户提供服务的目的，从而提高了对智能设备进行控制的智能化水平。

附图说明

图1为本申请实施例提供的一种可选的控制方法的流程示意图；

图2为本申请实施例提供的一种可选的控制方法的实例的流程示意图；

图3为本申请实施例提供的一种可选的电子设备的结构示意图；

图4为本申请实施例提供的另一种可选的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

本申请实施例提供了一种控制方法，图1为本申请实施例提供的一种可选的控制方法的流程示意图，如图1所示，该控制方法可以包括：

S101：对获取到的用户的各相关数据进行处理，得到各相关数据的向量；

目前，为了联合多模态实现对智能设备的控制，在实际应用中，通常从听觉、视觉和感器通道，将语音、手势、脑电、肌电、眼部活动、身体姿势和手势等信号相结合，完成对车辆、虚拟界面、家居设备的控制；或者通过感知用户状态和情景信息，提升对用户意图的理解，用户状态和情景信息可以通过时间、地点、光线、温度、语气、表情等数据得到，然而，这些都需要用户给出明确的指令，设备或系统只是将多种模态的数据联合起来，利用信息的互补或冗余，提升对用户意图理解的正确率，设备只是被动接收和处理多模态数据，并不会主动调整输出形式，如给用户提供服务和内容的推荐。

还有可以通过训练好的神经网络模型或预设的规则得到；或者通过学习用户的历史数据得到规则或模型，在使用时，结合当前的多模态数据，预测用户可能需要的服务并给出交互响应，该方法已经具有一定的服务推荐的概念，但其触发的前提是处在设备已经被人工唤醒，进入到“可以提供推荐”的状态才会进行推荐，相当于仍然需要被动接收至少一次指令来唤醒激活。

然而，上述的方案均需要用户主动发起指令，例如，语音、动作和眨眼等方式，融合多种模态的信息，实现意图的理解和交互系统的被动执行，为了提高对智能设备进行控制的智能化水平，本申请实施例提供一种控制方法，首先，在获取到用户的各相关数据之后，对各相关数据进行处理得到各相关数据的向量，其中，各相关数据包括状态数据和环境数据。

其中，该状态数据为与用户本身相关的数据，例如，用户通过智能设备采集到的语音数据，用户通过智能设备采集到的视频数据或者用户的图像数据，用户的通过惯性测量单元(Inertial Measurement Unit，IMU)传感器采集到的数据，用户通过生理信号传感器采集到的数据等等，该环境数据为与用户所处的当前环境相关的数据，例如，通过温湿度传感器获取到的数据，当前智能设备的状态数据，社会属性数据等等。

这样，在获取到用户的各相关数据之后，就可以知晓用户自身的状况和所处环境的状况，为了便于计算，对各相关数据进行处理，得到各相关数据的向量，这样，可以将获取到的用户的状态数据和环境数据用向量表示出来，有利于数据的融合从而有利于确定出服务策略。

为了得到各相关数据的向量，在一种可选的实施例中，S101可以包括：

按照预设的数据转换规则，分别对各相关数据进行数据转换，得到转换后的各相关数据；

利用词向量技术，分别对转换后的各相关数据进行处理，得到各相关数据的向量。

具体来说，预先设置有数据转换规则，不同的字符设置有对应的数字，这样，按照预设的数据转换规则，分别对各相关数据中每个相关数据进行数据转换，从而可以得到转换后的各相关数据，并且，转换后的各相关数据的长度是相同的，再通过词向量技术，分别对转换后的各相关数据中每个相关数据进行处理，从而可以得到各相关数据的向量。

除了上述对各相关数据进行处理得到各相关数据的向量之外，在一种可选的实施例中，上述方法还可以包括：

对各相关数据中其中一种相关数据的数据格式进行格式转化，得到转换后的其中一种相关数据；

具体来说，在获取到各相关数据之后，可以对各相关数据中的一种相关数据的数据格式进行转换，得到转换后的其中一种相关数据，其中，转化后的其中一种相关数据的数据格式与各相关数据中另一种相关数据的数据格式相同，也就是说，将各相关数据中不同数据格式的两种相关数据进行转换，使得变成一种数据格式的相关数据，例如，将语音用语谱图的形式转化为图片形式，对视频数据进行采样形成多张连续的图片，使得语音和视频转换为图片格式，与采集到的图像的格式相同，这样，有利于后续数据的融合和场景类型的确定。

另外，除了上述对各相关数据进行处理得到各相关数据的向量和数据格式的转化之外，在一种可选的实施例中，上述方法还可以包括：

对各相关数据中，具有相同起始时间点和结束时间点的语音类型的数据和视频类型的数据进行对齐，得到对齐后的语音类型的数据和对齐后的视频类型的数据；

具体来说，还可以对获取到的各相关数据进行对齐，是指将有语义起始点的不同模态数据处理为相同长度，针对用户在说话的同时做了相同动作的情况来说，先从各相关数据中，查找到具有相同起始时间点和结束时间点的语音类型的数据和视频类型的数据，然后，将该语音类型的数据和视频类型的数据对齐，其中，对齐后的语音类型的数据的数据个数和对齐后的视频类型的数据的数据个数相同，这里，可以采用插值的方式，或者下采样的方式，或者动态时间规整(Dynamic Time Warping，DTW)的方式来实现。

如此，有助于数据融合和场景类型的确定，从而有助于生成服务策略。

S102：对各相关数据的向量进行融合，得到用户的融合数据；

在得到各相关数据的向量之后，需要对各相关数据的向量进行融合，以得到用户的融合数据，用户的融合数据是将不同模态的数据合并后的结果，这样，使得不同模态的信息得到了互补。为了得到用户的融合数据，在一种可选的实施例中，S102可以包括：

对各相关数据的向量中其中一种相关数据的向量与另一种相关数据的向量进行拼接，得到用户的融合数据；

或者，对各相关数据的向量中其中一种相关数据的向量与另一种相关数据的向量进行叠加，得到用户的融合数据；

或者，将各相关数据的向量中其中一种相关数据的向量插入至另一种相关数据的向量的特定位置，得到用户的融合数据。

具体来说，可以根据具体情况将各相关数据的向量中其中一种相关数据的向量与另一种相关数据的向量进行拼接，将拼接后的向量确定为用户的融合数据，还可以是对各相关数据的向量中其中一种相关数据的向量与另一种相关数据的向量进行叠加，将会叠加后的向量确定为用户的融合数据，还可以将各相关数据的向量中其中一种相关数据的向量插入至另一种相关数据的向量的特定位置，将插入后的向量确定为用户的融合数据。

需要说明的是，在对各相关数据的处理中，可以包括上述任意一种处理方式，也可以包括上述任意多种组合的处理方式，这里，本申请实施例对此不作具体限定。

另外，还可以是对对齐后的数据进行叠加或者过滤，还可以是对数据转换后的数据进行插入特定位置的操作，从而实现数据的融合，得到的用户的融合数据，这里，本申请实施例对此不作具体限定。

S103：根据用户的融合数据，确定用户所处的场景类型；

在得到用户的融合数据之后，需要根据用户的融合数据确定用户所处的场景类型，这里，可以采用预设的规则确定出用户所处的场景类型，也可以采用预先训练好的网络模型的方式确定出用户所处的场景类型，这里，本申请实施例对此不作具体限定。

这里，需要说明的是，上述场景类型可以分为针对当前环境的场景类型和当前环境中用户的场景类型，例如，当前环境的场景类型可以包括：节假日、吃饭时间、驾驶、会议、操作、堵车、阵雨天和飞机飞过等，当前环境中用户的场景类型可以包括：工作中、下班后、学习、休闲观影、打电话、操作手机、睡觉、交谈和争吵等。

为了确定出用户所处的场景类型，在一种可选的实施例中，S103可以包括：

根据预设的场景类型的识别规则，对用户的融合数据进行识别，得到用户所处的场景类型；

或者，将用户的融合数据输入至预先训练好的第一机器学习模型中，得到用户所处的场景类型。

具体来说，针对采用预设规则来确定用户所处的场景类型中，可以预先根据实际情况确定出场景类型的识别规则，然后利用场景类型的识别规则对用户的融合数据进行识别，从而得到用户所处的场景类型。

或者，预先训练好第一机器学习模型，将用户的融合数据输入至预先训练好的第一机器学习模型中，输出得到用户所处的场景类型。

这样，通过上述两种方式均可以确定出用户所处的场景类型，从而可以确定出用户的服务策略，以智能化地为用户所需的服务。

针对根据预设的场景类型的识别规则确定用户所处的场景类型中，在一种可选的实施例中，根据预设的场景类型的识别规则，对用户的融合数据进行识别，得到用户所处的场景类型，包括如下至少之一：

当用户的融合数据指示用户处于行驶的车辆中，且用户的移动速度在预设时间段内小于预设的速度阈值时，确定用户所处的场景类型为堵车；

当用户的融合数据指示用户正在打电话，且用户打电话的音量大于预设的音量阈值时，确定用户所处的场景为争吵。

具体来说，查看用户的融合数据中，若用户的融合数据中指示用户处于行驶的车辆中，且用户的移动速度在预设的时间内小于预设的速度阈值时，说明用户在车辆中且该车辆缓慢移动，由此，可以判断出该用户所处的场景为堵车，还可以将用户的融合数据与预先获取的历史堵车数据进行相似度计算，确定出一个相似度值，若相似度值小于预设的相似度阈值时，说明该用户所处的场景为堵车。

另外，当用户的融合数据中是指用户正在打电话，且用户打电话的音量大于预设的音量阈值时，说明此时用户正在很大声地与人打电话，由此，可以判断出用户所处的场景类型为争吵，还可以将用户的融合数据与预先获取的历史争吵数据进行相似度计算，确定出一个相似度值，若相似度值小于预设的相似度阈值时，说明该用户所处的场景为争吵。

如此，可以通过用户的融合数据确定出用户所处的场景类型，这样，有助于为用户确定出服务策略。

针对采用预先训练好的第一机器学习模型来确定用户所处的场景类型中，在一种可选的实施例中，上述方法还包括：

将获取到的第一样本数据集输入至预设的机器学习模型中，得到训练好的第一机器学习模型；

具体来说，先获取第一样本数据集，其中，第一样本数据集包括：针对用户至少两种融合数据和与至少两种融合数据中每种融合数据对应的场景类型，这里，可以预先采集该用户的历史融合数据，并标记出各历史融合数据的场景类型，从而形成第一样本数据集，利用第一样本数据集对预设的机器学习模型进行训练，得到训练好的第一机器学习模型，该训练好的第一机器学习模型可以用来识别用户所处的场景类型。

S104：根据用户的融合数据和用户所处的场景类型，确定用户的服务策略；

在确定出用户所处的场景类型之后，可以根据用户的融合数据和用户所处的场景类型，来确定用户的服务策略，这里，可以采用预设的规则确定出用户的服务策略，也可以采用预先训练好的网络模型的方式确定出用户的服务策略，这里，本申请实施例对此不作具体限定。

为了确定出用户的服务策略，在一种可选的实施例中，S104可以包括：

基于预设的服务策略的生成规则，根据用户的融合数据和用户所处的场景类型，生成用户的服务策略；

或者，将用户的融合数据和用户所处的场景类型输入至预先训练好的第二机器学习模型中，得到用户的服务策略。

具体来说，针对采用预设规则来确定用户的服务策略中，可以预先根据实际情况确定出服务策略的生成规则，然后利用服务策略的生成规则，根据用户的融合数据和用户所处的场景类型生成用户的服务策略。

或者，预先训练好第二机器学习模型，将用户的融合数据和用户所处的场景类型输入至预先训练好的第二机器学习模型中，输出得到用户的服务策略。

通过上述两种方式均可以确定出用户的服务策略，以智能化地为用户所需的服务。

针对根据预设的服务策略的生成规则确定用户的服务策略中，在一种可选的实施例中，基于预设的服务策略的生成规则，根据用户的融合数据和用户所处的场景类型，生成用户的服务策略，包括如下至少之一：

当用户所处的场景类型为读书，且用户的融合数据指示当前环境光线较暗时，生成用户的服务策略为：打开当前环境中的灯；

当用户所处的场景类型为浏览手机，且用户的融合数据指示当前环境有其他人员出现时，生成用户的服务策略为：将手机切换至主界面；

当用户所处的场景类型为观看电影，且用户的融合数据指示用户正在处理观看电影以外的其他事件时，生成用户的服务策略为：暂停播放电影；

当用户所处的场景类型为争吵时，生成用户的服务策略为：播放舒缓音乐或者播放笑话。

具体来说，当用户所处的场景类型为读书时，同时，用户的融合数据指示此时当前环境中的光线较暗，例如，光线强度小于预设的强度阈值时，生成的服务策略为打开当前环境中的灯，这里，需要说明的是，还可以根据用户的融合数据中所指示的用户的所在位置，确定待操作的灯，当待操作的灯打开时，就调亮该待操作的灯，当待操作的灯关闭时，打开待操作的灯即可。

另外，当用户正在浏览手机时，即所处的场景类型为浏览手机，并且用户的融合数据指示此时有其他人员出现时，为了保护该用户的隐私，可以为用户生成将手机切换至主界面的服务策略，这样，在用户未发现的其他人员的情况下可以为用户适时的关闭当前的浏览界面，防止隐私泄露。

还有，当用户处于观看电影的场景时，此时用户的手机有来电时，用户接听电话，用户的融合数据指示用户正在处理观看电影以外的其他事件时，此时，生成暂停播放电影的服务策略，防止用户接听完电话重新寻找接听电话前的电影片段。

在用户所处的场景类型为争吵时，为了缓解用户的情绪，可以为用户生成播放舒缓音乐或者播放笑话的服务策略。

如此，通过用户所处的场景类型结合用户的融合数据，可以确定出用户可能需要的服务，并生成服务策略，以服务用户。

将获取到的第二样本数据集输入至预设的机器学习模型中，得到训练好的第二机器学习模型；

具体来说，先获取第二样本数据集，其中，第二样本数据集包括：针对用户至少两种融合数据，至少两种融合数据中每种融合数据的场景类型，以及与至少两种融合数据和每种融合数据的场景类型对应的服务策略；这里，可以预先设置一些用户的融合数据，并利用训练好的第二机器学习模型或者预设的场景类型的识别规则确定出各用户的融合数据的场景类型，然后，在标记出与用户的融合数据和用户的融合数据的场景类型对应的服务策略，从而形成第二样本数据集，利用第二样本数据集对预设的机器学习模型进行训练，得到训练好的第二机器学习模型，该训练好的第二机器学习模型可以用来识别用户的服务策略。

S105：控制服务策略的执行设备执行服务策略。

在确定出用户的服务策略之后，可以获知用户的服务策略对应的执行设备，例如，上述生成用户的服务策略为打开当前环境中的灯时，可以将打开灯这一指令发送至当前环境中的灯，从而控制当前环境中的灯打开；生成用户的服务策略为将手机切换至主界面时，可以将切换至主界面这一指令发送至手机，从而控制手机切换至主界面；生成用户的服务策略为暂停播放电影时，可以将暂停播放电影这一指令发送至电视，从而控制电视暂停播放电影；生成用户的服务策略为播放舒缓音乐或者播放笑话时，可以将播放舒缓音乐或者播放笑话这一指令发送至手机或者电视，从而控制手机或者电视播放舒缓音乐或者播放笑话，还可以由生成服务策略的设备自身来播放舒缓音乐或者播放笑话。

下面举实例来对上述一个或多个实施例中所述的控制方法进行说明。

图2为本申请实施例提供的一种可选的控制方法的实例的流程示意图，如图2所示，该控制方法的执行设备包括：数据获取模块21，认知理解模块22，主动服务决策模块23和服务执行模块24；其中，

数据获取模块21从分布式环境中的设备中获取数据，其中，常见分布式环境中，包含多种智能终端，如手机、智能手表/手环、TWS耳机、智能摄像头、智能电视、智能音箱、智能台灯等。上述终端设备具备各种类型的传感器，如RGB摄像头、深度摄像头麦克风、IMU、红外传感器、深度传感器、生理信号传感器；数据获取模块21依托分布式环境中的各类传感器以及用户本身，获取多模态数据(相当于上述各相关数据)。

多模态数据包含两个方面：

第一方面，用户本身数据(相当于状态数据)：

用户语音数据：可以是单个用户有意识的指令，也可以是单个用户无意识的咳嗽、自言自语哼唱等，也可以是多个用户间的非指令对话；

视觉数据：可以是用户的视频和图像，包含用户的姿势、步态、动作、手势、朝向、头动、唇动和眼动等多种模态信息；

IMU传感器数据：包含用户姿势、动作和速度等信息；

生理信号传感器数据：包含用户体温、脉搏、血压、血糖和肌电等生理数据。

另外，还会实时学习用户的行为特征，并完成画像模型。在系统运行时，会记录一定时间内的用户历史数据，为后续认知理解模块提供上下文语义信息。

第二方面，环境相关数据(相当于环境数据)：

环境传感器数据：包括当前环境的温湿度、坐标、气压、海拔和光线等。

当前设备状态数据：包括：激活使用中的设备、执行的任务类型、设备交互界面信息和设备任务内容等。

社会属性数据：包括日期、星期几、节假日、生日、性别和年龄等。

认知理解模块22可以包括情景理解子模块221和用户理解子模块222；其中，认知理解模22先进行数据处理，该模块首先对数据获取模块得到的多模态数据进行预处理，包含数据表示、转化、对齐、融合。

数据表示是指将上述非结构化的多模态数据进行编码、向量化，得到计算机可以操作的数据形式；

数据转化是指将一种模态的数据结构转换为另一种模态的数据结构，例如，将语音用语谱图的形式转化为图片形式，对视频数据进行采样形成多张连续图片等；

数据对齐是指将有语义起始点的不同模态数据处理为相同长度，例如，用户在说话的同时做了动作，则将对应的语音、视频做起始和结束点检测。所得到的语音段包含M个采样点，所得到的视频段包含N帧，将语音段与视频段统一处理为L点和L帧。可采用插值、下采样、DTW等方法实现；

数据融合是指将不同模态数据合并，使不同模态数据中包含的信息形成互补。可以采用对向量化后的数据进行拼接、将对齐后的数据进行叠加/过滤、将编码后的数据插入其余模态向量的特定位置等。

由于不同用户环境中设备/传感器数量类型可能存在差异，接下来，根据处理后的数据，进行情景理解和用户潜意图理解。

情景理解子模块221：主要分析当前环境可能的情景，如：节假日、吃饭时间、驾驶、会议、操作、堵车、阵雨天和飞机飞过等。可以通过规则和深度学习技术相结合的方式实现。

用户理解子模块222：主要分析当前环境用户的状态，如：工作中、下班后、学习、休闲观影、打电话、操作手机、睡觉、交谈和争吵等。由于用户行为和状态更具个人特征，因此可以预先获取一段时间的数据，通过深度学习技术训练得到分析理解模型，或结合大量用户行为数据进行挖掘，得到分析理解规则引擎。上述分析理解模型和引擎部署于用户理解子模块222，供实时的分析推理。

主动服务决策模块23：该模块将情景理解子模块221和用户理解子模块222的结果进行综合决策，判断是否需要主动提供服务，如果是，则进一步判断提供何种类型的服务，是否执行或是询问用户。如：检测到光线变暗，同时用户正在看书，则主动打开当前环境中的灯光。具体地，主动服务包含且不限于如下类型/示例：

隐私信息保护：当管理员用户正在浏览电脑、手机等交互页面时，系统通过视觉(人脸、步态)或听觉(声纹)等模态的数据检测到非管理员进入当前环境，则进入隐私模式：切换至无隐私信息的交互界面，或不再弹出个人即时信息；此处管理员与非管理员的说法是概念举例，主要表示设备的归属与否，作为个人隐私信息的合法或非法判断标准。

内容分级过滤：当系统检测到未成年人进入当前环境时，结合当前设备执行任务的内容信息，判断是否需要进行停止播放，或是对未成年不宜内容进行过滤。

自动播控辅助：系统检测到用户在休闲观影状态，此时电视正在播放视频内容。若用户发生转头聊天、接听电话、低头查看信息等动作时，自动进行暂停，用户上述动作结束，恢复注视电视的状态后，电视继续播放；用户正在观影状态，系统检测到有飞机飞过，出现较大噪声，则暂停或者调高音量，等待噪声降低后，恢复到前一个播放状态的音量。

个人内容切换：系统检测到有两个用户正在观影。当其中一个用户离开后，根据历史数据形成的用户画像和偏好设置，或者当前仍在电视设备前用户的上一次播放记录，给出感兴趣内容的个性化切换推荐。

情绪安抚：系统检测到用户有较大音量的对话(或接听电话)，且通过情感分析发现用户情绪激动，则主动给用户提示，并执行相应的安抚动作，如播放舒缓音乐、讲笑话等。

主动服务决策模块23由人工事先编排，形成决策规则引擎。根据认知理解模块22所得情景和用户状态及潜在意图，查找对应的主动服务，并发送相应指令给对应设备，完成执行。同时，决策规则引擎可以随时由用户或开发者自定义并实时配置，提供灵活的主动个性化服务扩展能力。

服务执行模块24：将主动服务决策模块23的执行指令发送至对应设备，完成执行或与用户发起主动交互。指令形式可以为如{设备+操作/内容}的形式，也可由开发者根据实际设计，本实例中不做具体限定。

需要说明的是，步骤数据获取模块21中的各传感器可以保持持续开启，也可在用户语音唤醒后再开启以降低功耗。在语音唤醒，通过专用低功耗处理单元，如数字信号处理器(Digital Signal Processor，DSP)、应用处理器(Application Processor，AP)，结合不同的策略实现；步骤认知理解模块22和主动服务决策模块23的计算可以采用始终在线(Always On，AON)技术，通过专用芯片，保证实时获取和处理多模态数据的同时，系统保持低功耗开销。

本实例通过对多种终端、物联网(Internet of Things，IOT)设备、传感器的数据进行处理分析，识别情景和用户潜在意图，主动给出服务。通过多种模态数据，理解并预测用户的潜在意图，获取用户、环境、社会属性数据，将其进行多模态数据预处理，分析融合后的数据，理解当前场景和用户潜在意图，给出用户最需要的服务，实现智慧无感交互。智慧体现在：给出的服务的用户都没有想到，但收到服务之后会觉得“这正是我需要的”。

主动式交互，用户无需发出指令：不同于现有智能助手的“唤醒-下达指令-服务响应”的流程，本实例在无需用户下达明确指令，而是主动给出服务执行或推荐，提升交互效率和智能化体验。甚至在用户睡觉的无主观意识和动作的情况下，也可根据多模态数据如图像、生理信号，给出推荐服务。同时，用户也可设置，关闭主动交互或调整直接给出服务或给出推荐询问的比例。

适配对单用户、多用户和变化场景：本实例不仅考虑了对单个用户的主动服务推荐，还综合考虑了用户本身的属性，如年龄(儿童、老人)、多个用户之间的关系、用户间发生交互时的主动服务，以及用户数量发生变化时的主动服务策略，扩大了智能服务的场景范畴。

本申请实施例提供了一种控制方法，包括：对获取到的用户的各相关数据进行处理，得到各相关数据的向量，其中，各相关数据包括状态数据和环境数据，对各相关数据的向量进行融合，得到用户的融合数据，根据用户的融合数据，确定用户所处的场景类型，根据用户的融合数据和用户所处的场景类型，确定用户的服务策略，控制服务策略的执行设备执行服务策略；也就是说，在本申请实施例中，通过对获取到的用户的各相关数据进行处理得到各相关数据的向量，然后对其融合得到用户的融合数据，进而根据融合数据确定用户所处的场景类型，最后，根据融合数据和场景类型确定服务策略，这样，通过对获取到的用户的各相关数据的处理，可以知晓用户所处的场景，在知晓场景的情况下结合融合数据可以确定出用户此时的需求，依据此时的需求确定出用户的服务策略，以达到自主为用户提供服务的目的，从而提高了对智能设备进行控制的智能化水平。

实施例二

基于同一发明构思，本申请实施例提供一种电子设备，图3为本申请实施例提供的一种可选的电子设备的结构示意图，如图3所示，该电子设备包括：处理模块31、融合模块32、第一确定模块33、第二确定模块34和控制模块35；其中，

处理模块31，用于对获取到的用户的各相关数据进行处理，得到各相关数据的向量；其中，各相关数据包括状态数据和环境数据；

融合模块32，用于对各相关数据的向量进行融合，得到用户的融合数据；

第一确定模块33，用于根据用户的融合数据，确定用户所处的场景类型；

第二确定模块34，用于根据用户的融合数据和用户所处的场景类型，确定用户的服务策略；

控制模块35，用于控制服务策略的执行设备执行服务策略。

在一种可选的实施例中，处理模块31，具体用于：

在一种可选的实施例中，该电子设备还用于：

其中，转化后的其中一种相关数据的数据格式与各相关数据中另一种相关数据的数据格式相同。

在一种可选的实施例中，该电子设备还用于：

其中，对齐后的语音类型的数据的数据个数和对齐后的视频类型的数据的数据个数相同。

在一种可选的实施例中，融合模块32，具体用于：

在一种可选的实施例中，第一确定模块33，具体用于：

在一种可选的实施例中，第一确定模块33根据预设的场景类型的识别规则，对用户的融合数据进行识别，得到用户所处的场景类型中，包括如下至少之一：

在一种可选的实施例中，该电子设备还用于：

其中，第一样本数据集包括：针对用户至少两种融合数据和与至少两种融合数据中每种融合数据对应的场景类型。

在一种可选的实施例中，第二确定模块34根据用户的融合数据和用户所处的场景类型，确定用户的服务策略中，包括：

在一种可选的实施例中，第二确定模块34基于预设的服务策略的生成规则，根据用户的融合数据和用户所处的场景类型，生成用户的服务策略中，包括如下至少之一：

在一种可选的实施例中，该电子设备还用于：

其中，第二样本数据集包括：针对用户至少两种融合数据，至少两种融合数据中每种融合数据的场景类型，以及与至少两种融合数据和每种融合数据的场景类型对应的服务策略。

图4为本申请实施例提供的另一种可选的电子设备的结构示意图，如图4所示，本申请实施例提供一种电子设备400，包括：处理器41以及存储有所述处理器可执行指令的存储介质42；所述存储介质42通过通信总线43依赖所述处理器41执行操作，当所述指令被所述处理器执行时，执行上述一个或多个实施例中处理器侧执行的所述的控制方法。

需要说明的是，实际应用时，终端中的各个组件通过通信总线43耦合在一起。可理解，通信总线43用于实现这些组件之间的连接通信。通信总线43除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为通信总线43。

本申请实施例提供了一种计算机存储介质，存储有可执行指令，当所述可执行指令被一个或多个处理器执行的时候，所述处理器执行上述一个或多个实施例所述的控制方法。

其中，计算机可读存储介质可以是磁性随机存取内存储器(ferromagneticrandom access memory，FRAM)、只读内存储器(Read Only Memory，ROM)、可编程只读内存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读内存储器(ErasableProgrammable Read-Only Memory，EPROM)、电可擦除可编程只读内存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、快闪内存储器(Flash Memory)、磁表面内存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等内存储器。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘内存储器和光学内存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读内存储器中，使得存储在该计算机可读内存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种控制方法，其特征在于，包括：

根据所述用户的融合数据，确定所述用户所处的场景类型；

控制所述服务策略的执行设备执行所述服务策略。

2.根据权利要求1所述的方法，其特征在于，所述对获取到的用户的各相关数据进行处理，得到所述各相关数据的向量，包括：

按照预设的数据转换规则，分别对所述各相关数据进行数据转换，得到转换后的各相关数据；

利用词向量技术，分别对转换后的各相关数据进行处理，得到所述各相关数据的向量。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述各相关数据中其中一种相关数据的数据格式进行格式转化，得到转换后的其中一种相关数据；

其中，转化后的其中一种相关数据的数据格式与所述各相关数据中另一种相关数据的数据格式相同。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述各相关数据中，具有相同起始时间点和结束时间点的语音类型的数据和视频类型的数据进行对齐，得到对齐后的语音类型的数据和对齐后的视频类型的数据；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述各相关数据的向量进行融合，得到所述用户的融合数据，包括：

对所述各相关数据的向量中其中一种相关数据的向量与另一种相关数据的向量进行拼接，得到所述用户的融合数据；

或者，对所述各相关数据的向量中其中一种相关数据的向量与另一种相关数据的向量进行叠加，得到所述用户的融合数据；

或者，将所述各相关数据的向量中其中一种相关数据的向量插入至另一种相关数据的向量的特定位置，得到所述用户的融合数据。

6.根据权利要求1所述的方法，其特征在于，所述根据所述用户的融合数据，确定所述用户所处的场景类型，包括：

根据预设的场景类型的识别规则，对所述用户的融合数据进行识别，得到所述用户所处的场景类型；

或者，将所述用户的融合数据输入至预先训练好的第一机器学习模型中，得到所述用户所处的场景类型。

7.根据权利要求6所述的方法，其特征在于，所述根据预设的场景类型的识别规则，对所述用户的融合数据进行识别，得到所述用户所处的场景类型，包括如下至少之一：

当所述用户的融合数据指示所述用户处于行驶的车辆中，且所述用户的移动速度在预设时间段内小于预设的速度阈值时，确定所述用户所处的场景类型为堵车；

当所述用户的融合数据指示所述用户正在打电话，且所述用户打电话的音量大于预设的音量阈值时，确定所述用户所处的场景为争吵。

8.根据权利要求1所述的方法，其特征在于，所述根据所述用户的融合数据和所述用户所处的场景类型，确定所述用户的服务策略，包括：

基于预设的服务策略的生成规则，根据所述用户的融合数据和所述用户所处的场景类型，生成所述用户的服务策略；

或者，将所述用户的融合数据和所述用户所处的场景类型输入至预先训练好的第二机器学习模型中，得到所述用户的服务策略。

9.根据权利要求8所述的方法，其特征在于，所述基于预设的服务策略的生成规则，根据所述用户的融合数据和所述用户所处的场景类型，生成所述用户的服务策略，包括如下至少之一：

当所述用户所处的场景类型为读书，且所述用户的融合数据指示当前环境光线较暗时，生成所述用户的服务策略为：打开当前环境中的灯；

当所述用户所处的场景类型为浏览手机，且所述用户的融合数据指示当前环境有其他人员出现时，生成所述用户的服务策略为：将所述手机切换至主界面；

当所述用户所处的场景类型为观看电影，且所述用户的融合数据指示所述用户正在处理观看电影以外的其他事件时，生成所述用户的服务策略为：暂停播放所述电影；

当所述用户所处的场景类型为争吵时，生成所述用户的服务策略为：播放舒缓音乐或者播放笑话。

10.一种电子设备，其特征在于，包括：

11.一种电子设备，其特征在于，包括：处理器以及存储有所述处理器可执行指令的存储介质；所述存储介质通过通信总线依赖所述处理器执行操作，当所述指令被所述处理器执行时，执行上述的权利要求1至9任一项所述的控制方法。

12.一种计算机存储介质，其特征在于，存储有可执行指令，当所述可执行指令被一个或多个处理器执行的时候，所述处理器执行所述的权利要求1至9任一项所述的控制方法。