CN112051743A

CN112051743A - 设备控制方法、冲突处理方法、相应的装置及电子设备

Info

Publication number: CN112051743A
Application number: CN201910493339.2A
Authority: CN
Inventors: 王黎杰; 涂眉; 汪华东; 孟祥锋; 张云涛
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2020-12-08
Also published as: US20220317641A1; WO2020246844A1

Abstract

本申请提供了一种设备控制方法、冲突处理方法、相应的装置及电子设备。该方法包括：获取用户的输入指令；获取以下至少一项信息：用户信息；环境信息；设备信息；基于获取的信息和输入指令，确定输入指令的至少一个执行设备；控制至少一个执行设备执行相应操作。本申请能够在用户未指明具体的执行设备时，通过获取的输入指令和用户信息、环境信息、设备信息中的至少一项，来确定出最优的至少一个执行设备，从而更好的响应用户。

Description

设备控制方法、冲突处理方法、相应的装置及电子设备

技术领域

本申请涉及智能设备技术领域，具体而言，本申请涉及一种设备控制方法、冲突处理方法、相应的装置及电子设备。

背景技术

随着信息技术的发展，各种设备进入人们的日常生活，例如，空调、电视、洗衣机、冰箱等，用户可以通过手动调节设备上的按键或者遥控设备上的按钮来控制这些设备执行相应的操作。

随着人工智能技术的进一步发展，智能设备逐步进入人们的日常生活，例如智能音箱、智能空调、智能电视以及智能烤箱等，用户可以不通过设备上的按键或者遥控就可以控制智能设备执行相应的操作，例如用户可以直接通过语音命令来对指定的智能设备进行控制。一个示例中，当用户说“打开空气净化器”时，语音命令中指定了特定的设备，即空气净化器，空气净化器接收到该命令后执行开启操作。又一个示例中，当用户说“播放轻音乐时”，此时接收到语音命令的设备(如手机)就是响应设备，即执行该语音命令的设备，进行轻音乐的播放操作。

但是若存在多个智能设备时，如果用户输入了控制智能设备的指令，但没指定特定的设备去执行，如何选择合适的执行设备，是现有技术通过无指向指令操作多设备时的技术难点。例如如图1所示，以用户输入的指令为语音命令为例，智能电灯、智能音箱、智能热水器、智能手机、智能电视等多个设备均能够根据用户的语音命令执行响应操作，但是当用户输入的语音命令为“我想知道最近的新闻”时，能够执行该命令的设备有智能音箱、智能手机和智能电视，也就是说，多个设备均能执行用户的语音命令，此时由谁来执行是现有技术的难点。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

第一方面，本申请提供了一种设备控制方法，该方法包括：

获取用户的输入指令；

获取以下至少一项信息：用户信息；环境信息；设备信息；

基于获取的信息和输入指令，确定输入指令的至少一个执行设备；

控制至少一个执行设备执行相应操作。

第二方面，本申请提供了一种冲突处理方法，该方法包括：

获取用户的输入指令；

基于输入指令对应的执行设备，进行冲突检测，得到冲突检测结果；

基于冲突检测结果进行相应处理。

第三方面，本申请提供了一种设备控制装置，该装置包括：

第一获取模块，用于获取用户的输入指令；

第二获取模块，用于获取以下至少一项信息：用户信息；环境信息；设备信息；

确定模块，用于基于获取的信息和输入指令，确定输入指令的至少一个执行设备；

控制模块，控制至少一个执行设备执行相应操作。

第四方面，本申请提供了一种冲突处理装置，该装置包括：

获取模块，用于获取用户的输入指令；

冲突检测模块，用于基于输入指令对应的执行设备，进行冲突检测，得到冲突检测结果；

处理模块，用于基于冲突检测结果进行相应处理。

第五方面，本申请提供了一种电子设备，该电子设备包括：

处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本申请的第一方面所示的方法。

第六方面，本申请提供了一种电子设备，该电子设备包括：

处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本申请的第二方面所示的方法。

第七方面，本申请提供了一种计算机可读存储介质，该计算机存储介质用于存储计算机指令、程序、代码集或指令集，当计算机指令、程序、代码集或指令集在计算机上运行时，使得计算机执行如本申请的第一方面所示的方法。

第八方面，本申请提供了一种计算机可读存储介质，该计算机存储介质用于存储计算机指令、程序、代码集或指令集，当计算机指令、程序、代码集或指令集在计算机上运行时，使得计算机执行如本申请的第二方面所示的方法。

本申请提供的设备控制方法、冲突处理方法、相应的装置及电子设备，能够在用户未指明具体的执行设备时，通过获取的输入指令和用户信息、环境信息、设备信息中的至少一项，来确定出最优的至少一个执行设备，从而更好的响应用户。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图做简单的介绍。

图1为本申请实施例提供的现有难以确定执行设备的示意图；

图2a为本申请实施例提供的设备控制方法的流程示意图；

图2b为本申请实施例提供的多模态数据收集的示意图；

图3为本申请实施例提供的特征融合网络的示意图；

图4为本申请实施例提供的设备选择网络的示意图；

图5为本申请实施例提供的设备选择的示意图；

图6a为本申请实施例提供的示例一的示意图；

图6b为本申请实施例提供的联合向量表示的示意图；

图7a为本申请实施例提供的示例二的示意图；

图7b为本申请实施例提供的文本特征权重的示意图；

图8为本申请实施例提供的示例三的示意图；

图9a为本申请实施例提供的场景画像抽取的示意图；

图9b为本申请实施例提供的设备状态聚类的示意图；

图9c为本申请实施例提供的主题提取的示意图；

图10为本申请实施例提供的现有难以处理冲突的示意图；

图11为本申请实施例提供的冲突处理方法的流程示意图；

图12a为本申请实施例提供的行为模式检测的示意图一；

图12b为本申请实施例提供的行为模式检测的示意图二；

图13为本申请实施例提供的设备冲突的示意图；

图14为本申请实施例提供的场景冲突的示意图；

图15a为本申请实施例提供的完整冲突处理流程的示意图；

图15b为本申请实施例提供的云端和本地大脑转换逻辑的示意图；

图16为本申请实施例提供的设备控制装置的结构示意图；

图17为本申请实施例提供的冲突处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种设备控制方法，如图2a所示，该方法包括：

步骤S101：获取用户的输入指令；

步骤S102：获取以下至少一项信息：用户信息、环境信息、设备信息；

步骤S103：基于获取的信息和输入指令，确定输入指令的至少一个执行设备；

步骤S104：控制至少一个执行设备执行相应操作。

本申请实施例的步骤S101中，用户的输入指令可以包括但不限于语音指令、文本指令、动作指令和/或表情指令等。本申请实施例中，可以在用户的输入指令未指定具体的执行设备时，对相应的智能设备进行控制，还可以在用户的输入指令已指定具体设备名，但该设备名对应多个执行设备时，对合适的智能设备进行控制。

本申请实施例的步骤S102中，设备信息包括但不限于以下至少一项：

(1)设备状态，表明设备是否在使用中以及是否可以使用。比如对于电视，其设备状态可以为播放、待机、关闭、无法连接等；对于电灯，其设备状态可以为开、关、无法连接等；对于空调，其状态可以为开、关、无法连接等。

一种可行的实现方式中，可以通过维护一份设备状态表来记录设备的实时状态，当设备状态改变时，设备状态表中对应的该设备的状态随之改变。实际应用中，可以每隔一段时间扫描一下设备的状态，并在设备状态表中进行记录；或者在设备有状态变化时，接收设备的主动反馈来更新设备状态表。

(2)设备画像，表明设备的固有特性，如播放记录频次、是否并行等，例如针对具有播放功能的电视等可以记录播放历史及对应的频率。

(3)设备位置信息，例如可以通过设备当前的GPS(Global Positioning System，全球定位系统)信息或其他方式获取的位置信息等信息来确定。其他实施例中，一些设备的设备位置信息也可以属于设备画像中的一种，例如设备位置固定的设备，如智能空调等。

(4)设备所属场景，本申请实施例中，场景可以是预先定义的，每个场景可以分别对应若干目标环境状态和/或目标设备状态，例如“睡眠”场景中，可以对应温度为20～23度，湿度为75～80％，分贝(dB，decibel)值为0～40dB，光照度(勒克司度，LUX)为0LUX等。

其他实施例中，设备场景也可以属于设备状态中的一种，也可以在设备状态表中进行记录。

(5)设备使用者，即设备的当前实际使用人。

其他实施例中，设备使用者也可以属于设备状态中的一种，也可以在设备状态表中进行记录。

(6)设备信号强度，即设备所连接的网络信号的强弱。

(7)设备行为模式，即用户在同时使用多个设备时，多个设备之间常见的联动行为，例如，用户在使用手机打电话时，电视播放的声音会被调低等。

本申请实施例的步骤S102中，用户信息包括但不限于以下至少一项：

(1)用户情感数据，即用户当前的情绪感受，例如喜、怒、忧、悲、恐、惊等。实际应用中，情感数据也可以通过生理信号来表征，例如心电、脑电、皮点、心率、呼吸频率、血压、体温等。

(2)用户画像，即用户的固有特性，如用户的声纹特征、年龄、性别、喜好(比如什么时间段爱用什么设备做什么事)等。

(3)用户位置信息，例如可以通过摄像头、红外线传感器或其他用户定位装置或系统来确定。

本申请实施例的步骤S102中，环境信息包括但不限于以下至少一项：

(1)声音强度，包括但不限于设备检测到的设备使用者声音的声音强度，其他用户声音的声音强度，各个设备的声音强度，其他来源声音的声音强度等。

本申请实施例中，设备还可以根据检测到的目标对象(例如设备使用者、其他用户等)的声音强度，来辅助判定与目标对象的距离远近。

(2)光照强度，包括自然光照(例如太阳光)的光照强度和/或人工光照(例如灯光、显示屏光等)的光照强度。

(3)天气，包括但不限于气象、温度、湿度、气压、风向、气候等。本申请实施例中，还可以分别记录室内和室外的温度、湿度等。

本申请实施例的步骤S102中，获取的信息可以是获取以上设备状态、设备画像、设备位置信息、设备所属场景、设备使用者、设备信号强度、设备行为模式、用户情感数据、用户画像、用户位置信息、声音强度、光照强度、天气等信息中的至少一项。

本申请实施例中，获取的信息可以分为实时数据和长期数据两部分，如图2b所示，长期数据包括由历史日志和对应的算法抽取的设备画像、用户画像、行为模式和场景画像等。实时数据包括指令识别结果(若指令为语音指令，则可以为语音识别结果)、图片、情感数据(情感识别结果)、环境参数(如位置、信号强度、温度、湿度、天气、声音强度、GPS信号等)、设备状态等。其中，实时数据可以用来更新长期数据，确保长期数据越来越准确，进一步地，更新过程中支持隐私保护，例如采用非对称加密对隐私数据进行加密。获取的信息也可以称为多模态数据。

参加图2b，当实时数据进来后首先经过授权检测，检测出数据为隐私还是授权数据，如果是授权数据则直接依据授权和更新策略更新长期数据，如果是隐私数据那么需要经过加密模块加密后，再根据更新策略更新长期数据，从而保证了用户隐私信息的安全性。并且，在完成命令执行后，实时数据会以日志的方式进行保存，并且通过历史日志中对应的部分来更新长期数据中的设备画像、用户画像、行为模式，具体更新频率根据实际需要调整，可以是每天更新，每周更新，甚至每月更新。

本申请实施例中，长期数据可以存储于云端，实时数据可以存储于终端本地。

本申请实施例中，多设备选择方法基于用户隐私的考虑。如果传统语音识别不指定具体的执行者，或事先设定具体的语音命令而对应的设备有多个时，也不能识别出最终执行者。而本申请的方法不仅考虑实时数据，还综合考虑用户画像、设备画像等长期数据，可以准确的选出执行设备。

本申请实施例的步骤S103中，相较于现有技术中用户未指定设备时，需要预先定义好句子所关联的设备，本申请实施例可以自动地选择最优的执行设备。由于用户未指定具体的设备，需要判定潜在的最优执行设备去响应用户命令。本申请实施例在检测到用户的输入指令后，结合输入指令和获取的上述信息来综合判定选出输入指令对应的最优的至少一个执行设备，进而生成确定出的各执行设备的控制命令，以在步骤S104中，控制确定出的各执行设备执行相应操作，从而更好的响应用户。

本申请实施例中，为步骤S103提供了一种可行的实现方式，具体地，包括以下步骤：

步骤S1031：获取输入指令对应的意图分类结果；

步骤S1032：对意图分类结果和获取的信息进行融合处理，得到对应的多模融合特征；

步骤S1033：基于多模融合特征及输入指令，确定输入指令的至少一个执行设备。

本申请实施例的步骤S1031中，输入指令对应的意图分类结果即可表征用户意图。可对用户的输入指令进行识别、分析等，获得对应的意图分类结果。

作为示例地，以输入指令为语音命令为例，步骤S1031可通过以下方式实现：

对用户输入的语音命令进行语音识别，将语音转写成对应的文本。一些特定的实施例中，还可以包括对用户输入的语音命令进行说话人识别，说话人识别主要是为了判断说话人的身份。

对识别后的文本按以下步骤进行意图理解：

步骤一：抽取文本中的语义特征，包括但不限于浅层句法特征、词向量等；

步骤二：进行意图领域分类，得到意图领域分类结果；

步骤三：基于意图领域分类结果，进行细致意图分类，得到意图分类结果。

本领域技术人员应能理解，上述对语音命令进行意图分类仅为范例，可以基于上述范例进行适当变化，以适用于其他类型的输入指令，也应属于本申请的精神和范畴。

本申请实施例的步骤S1032中，对步骤S1031得到的意图分类结果和步骤S102中获取的信息进行融合处理，得到对应的多模融合特征，该多模融合特征即可涵盖影响设备选择的各种模态的信息。那么，在步骤S1033中结合多模融合特征及输入指令来确定执行设备，也就是综合考虑各种模态的信息，从而选择最优的执行设备。

考虑到不同模态的信息对设备选择的重要性不同，本申请实施例提出了一种多模态注意力机制对不同模态的信息进行融合，作为步骤S1032的多模融合特征。

具体而言，可以先将意图分类结果和获取的信息(即不同模态的信息)连接得到多模特征表示，通过多模态注意力机制对不同模态的特征进行融合。

其中，如图3所示，多模态注意力机制可以用过一个特征融合网络来实现，即通过特征融合网络，对多模特征表示进行注意力加权处理，得到对应的多模融合特征。

其中，特征融合网络包括若干个融合模块(对应图3中的N层自注意力网络，N≥1)，每个融合模块包括多头注意力层(对应图3中的多头自注意力层)，融合归一化层(对应图3中的加&归一化层)和全连接层。

多头注意力层用于对所属融合模块的输入特征进行注意力加权处理，即将不同模态的特征进行权重放大，也可理解为提取不同模态的特征中更为重要的特征。其中，每个多头注意力层的输入即为其所属融合模块的输入特征，而由于特征融合网络可以包括若干个融合模块，那么对于第一个融合模块，其输入特征是特征融合网络的输入，即不同模态的特征；对于第二个融合模块及其之后的融合模块，其输入特征为上一个融合模块的输出，以第二个融合模块为例，即第二个融合模块的输入特征是第一个融合模块的输出，以此类推。

融合归一化层用于对所属融合模块的输入特征和多头注意力层注意力加权处理后的特征进行融合处理(也可称为残差连接处理)，并对融合结果进行归一化处理，该层的作用是保留所属融合模块的输入特征的矢量信息和保证训练的稳定性。其中，融合归一化层所属融合模块的输入特征具体可参见上文中对多头注意力层所属融合模块的输入特征的介绍，在此不再赘述。

全连接层用于对归一化处理结果进行特征提取后，输出提取出的特征，也可理解为该层的作用是进一步的特征抽取，以降低特征维度，减小特征尺寸。其中，每个全连接层的输出即为其所属融合模块的输出，当特征融合网络包括一个融合模块时，全连接层输出的提取出的特征即为多模融合特征；当特征融合网络包括至少两个融合模块时，最后一个融合模块中的全连接层输出的提取出的特征即为多模融合特征，最后一个融合模块之前的各个融合模块中的全连接层的输出是分别对应的下一个融合模块的输入，以第一个融合模块为例，即第一个融合模块中的全连接层的输出是第二个融合模块的输入，以此类推。

本申请实施例中，对于上文提及的将不同模态的信息连接得到多模特征表示，提供了一种可行的实现方式。具体而言，先要确定意图分类结果及获取的信息分别对应的词向量。

其中，步骤S1031中获得的意图分类结果可以直接为词向量，此时意图分类结果对应的词向量即为意图分类结果本身；或者，步骤S1031获得的意图分类结果可以为其他类型的信息，此时需要将意图分类结果进行特征提取，将其映射为对应的词向量。

确定步骤S102中获取的信息对应的词向量，即需要将步骤S102中获取的信息进行特征提取，将其映射(也可称为表示空间映射，下文中不再赘述)为对应的词向量(也可称为表示向量)。以设备位置信息为例，可以将设备当前的GPS信息或其他方式获取的位置信息映射成one-hot(独热编码)向量；以设备信号强度为例，可以将各个设备的信号强度映射成可以反映强弱的向量，除此之外，步骤S102中获取的信息的其他信息也可以通过联合表示(Joint representation)或者协调表示(Coordinated representation)等方式来映射得到词向量。Joint representation适用于神经网络、图模型或序列模型；coordinatedrepresentation适用于具有相似性或结构化的数据。本申请实施例中，由于数据都是非结构化数据，如情感数据、画像数据等，因此可以选择Joint representation。

进一步地，将各个词向量连接得到多模特征表示(即不同模态的特征的联合向量)，即将意图分类结果与步骤S102中获取的信息对应的词向量相结合，得到多模特征表示，实际应用中，继续如图3所示，该过程也可以通过一个融合网络来实现，即将意图分类结果的词向量和步骤S102中获取的信息对应的词向量输入该融合网络，输出多模特征表示，例如图3中，将意图分类结果的词向量、用户画像的词向量、设备画像的词向量、天气的词向量、设备状态的词向量等等输入该融合网络，输出多模特征表示，进一步输入到上述特征融合网络中，输出多模融合特征。

本申请实施例中，为步骤S103进一步提供了一种基于注意力机制的设备或设备组的选择方法。具体而言，通过设备选择网络，获取的信息和输入指令对应的各个模态特征对设备选择的第一贡献度，以及输入指令对应的各个词特征对设备选择的第二贡献度，并基于各个模态特征、各个词特征、第一贡献度及第二贡献度，确定输入指令的至少一个执行设备。

结合上文中获取输入指令对应的意图分类结果，并对意图分类结果和获取的信息进行融合处理，得到对应的多模融合特征的过程，本申请实施例中，可以将多模融合特征中的各个特征作为各个模态特征，即设备选择网络基于多模融合特征来选择设备，也就是在本申请实施例的步骤S1033中，通过设备选择网络，获取多模融合特征中的各个模态特征对设备选择的第一贡献度，以及输入指令对应的各个词特征对设备选择的第二贡献度，并基于各个模态特征、各个词特征、第一贡献度及第二贡献度，确定输入指令的至少一个执行设备。

其中，如图4所示，设备选择网络包括模态特征贡献度确定网络(对应图4中的解码注意力层)、词特征贡献度确定网络(对应图4中的命令-设备注意力层)、分类网络(对应图4中的分类网络，实际应用中，分类网络可以采用Softmax层等)和设备确定网络(图4中未示出)。

模态特征贡献度确定网络用于对各个模态特征进行注意力加权，得到包含第一贡献度的各个模态特征，结合图4，就是将步骤S1032中得到多模融合特征输入到解码注意力层中，通过解码注意力层对多模融合特征中的各个模态特征进行注意力加权，输出注意力加权后的多模融合特征(即在输入的多模融合特征的基础上，融合了来自不同模态特征的贡献权重，模态特征的权重越大，对所选设备的贡献越大)。

词特征贡献度确定网络用于基于包含第一贡献度的各个模态特征，对各个词特征进行注意力加权，得到包含第二贡献度的各个词特征，其中，输入指令对应的各个词特征是对用户的输入指令进行特征提取得到的，包含用户的输入指令的语义对应的句子中提取的各个词的特征。以输入指令为语音命令为例，可以是在将语音转写成对应的文本后，从文本中提取的特征。结合图4，就是将加权后的多模融合特征以及卷积后的指令特征(将指令特征通过一个卷积层得到的，其中，输入指令为语音命令时，指令特征可以是文本特征)输入命令-设备注意力层，利用加权后的多模融合特征，对卷积后的文本特征进行注意力加权，输出注意力加权后的指令特征(即在输入的卷积后的指令特征的基础上，融合了来自不同词特征的贡献权重，词特征的权重越大，对所选设备的贡献越大)。

分类网络用于基于包含第一贡献度的各个模态特征以及包含第二贡献度的各个词特征，得到输出设备；结合图4，就是将注意力加权后的多模融合特征和注意力加权后的指令特征输入分类网络，在输入分类网络之前，也可以先对注意力加权后的多模融合特征和注意力加权后的指令特征进行连接(例如通过图4中命令-设备注意力层后的加&归一化层和全连接层)，将得到的连接结果输入分类网络，输出分类网络的输出设备。

设备确定网络用于基于分类网络得到的输出设备，得到输入指令的至少一个执行设备。

本申请实施例中，设备选择网络可以包含一个循环执行过程，具体地，分类网络具体用于至少一次基于包含第一贡献度的各个模态特征以及包含第二贡献度的各个词特征，得到输出设备；

设备确定网络具体用于根据分类网络每一次得到的输出设备，得到输入指令的至少一个执行设备。

结合图4，第一次将步骤S1032中得到多模融合特征输入到解码注意力层中，输出注意力加权后的多模融合特征，将加权后的多模融合特征以及卷积后的指令特征输入命令-设备注意力层，输出注意力加权后的指令特征，将注意力加权后的多模融合特征和注意力加权后的指令特征输入分类网络，输出的第一输出设备；

第二次将步骤S1032中得到多模融合特征输入到解码注意力层中时，同时输入第一输出设备(对应图4中的“分类网络上一次得到的输出设备ID”)，基于第一输出设备，对多模融合特征中的各个模态特征进行注意力加权，输出注意力加权后的多模融合特征，将第一输出设备的相关特征与加权后的多模融合特征进行连接(例如通过图4中解码注意力层后的加&归一化层)，将连接后的结果以及卷积后的指令特征输入命令-设备注意力层，即可利用加权后的多模融合特征，对卷积后的文本特征进行注意力加权，输出注意力加权后的指令特征，将注意力加权后的多模融合特征和注意力加权后的指令特征输入分类网络，输出第二输出设备。

设备选择网络中循环执行过程的过程以此类推，直至分类网络的输出设备满足停止循环条件。

本申请实施例中，设备选择网络的每一次循环可以包括若干个模态特征贡献度确定网络和词特征贡献度确定网络(与模态特征贡献度确定网络的数量相同)。其中，对于第一个模态特征贡献度确定网络，其输入包括多模融合特征，还可能包括分类网络上一次输出的输出设备，输出注意力加权后的多模融合特征，输入到第一个词特征贡献度确定网络，第一个词特征贡献度确定网络输出注意力加权后的指令特征，输入到第二个模态特征贡献度确定网络，通过第二个模态特征贡献度确定网络和词特征贡献度确定网络进行处理，以此类推，直至将该次循环中最后一个词特征贡献度确定网络输出的注意力加权后的指令特征和最后一个模态特征贡献度确定网络输出的注意力加权后的多模融合特征通过分类网络进行处理。

随后，设备确定网络根据分类网络每一次得到的输出设备，得到输入指令的至少一个执行设备。

本申请实施例中，分类网络每一次得到的输出设备，会获取所有设备可能被选择的概率分布，并按概率大小对设备进行优先级排序，通过设置合适的阈值，使得输出K个概率最高的设备，作为输出设备(即包含K个输出设备)。

那么，当配置的分类网络每一次得到的输出设备的个数为一个时，即当K＝1时，若分类网络输出的第一输出设备满足停止循环条件，即表示通过分类网络得到输出设备的次数为一次，则设备确定网络将该第一输出设备确定为输入指令对应的一个执行设备。

当配置的分类网络每一次得到的输出设备的个数为一个时，即当K＝1时，若分类网络输出的第N(N≥2)输出设备满足停止循环条件，即表示通过分类网络得到输出设备的次数为N次，则设备确定网络将分类网络每次得到的第一输出设备到第N输出设备确定为输入指令的N个执行设备。

当配置的分类网络每一次得到的输出设备的个数为至少两个时，即当K≥2时，若分类网络输出的第一输出设备满足停止循环条件，即表示通过分类网络得到输出设备的次数为一次，则设备确定网络根据分类网络得到的各个输出设备(K个输出设备)分别对应的概率，确定一个执行设备，例如，将K个输出设备中概率最高的设备确定为输入指令对应的一个执行设备。

当配置的分类网络每一次得到的输出设备的个数为至少两个时，即当K≥2时，若分类网络输出的第N(N≥2)输出设备满足停止循环条件，即表示通过分类网络得到输出设备的次数为N次，则设备确定网络根据分类网络N次得到的各个输出设备(K个输出设备)之间的路径(共K^N条路径，每条路径包含N个设备，实际运行时，可以只维护当前的最大K条路径，比如在N＝s-1(s≥2)时有K个路径保存了，在N＝s时，每个路径又生出K个点，那么最多有K*K个路径，这时可以从这些路径里面选出K个最大的路径，从而确定N＝s时对应的K条路径，依此不断运行，直到运行结束)分别对应的概率，确定N个执行设备，例如，将K^N条路径中概率最高的路径对应的N个设备确定为输入指令的N个执行设备。实际应用中，可以采用波束搜索算法在环路解码中选择设备组(N个执行设备)。

可见，本申请实施例提供的设备/设备组的确定方法，可以兼容多个设备的选择。

本申请实施例中，输入解码注意力层的设备以及分类网络的输出设备可以用各设备的标识符进行表征，例如设备ID(identity，身份标识)、设备名称等。

结合图4，将上一次分类网络的输出设备的标识符映射为标识符向量(如词向量)，并通过一个卷积层进行特征提取，得到标识符特征；将标识符特征和多模融合特征输入到解码注意力层，基于标识符特征对多模融合特征中的各个模态特征进行注意力加权，输出注意力加权后的多模融合特征；将标识符特征与加权后的多模融合特征进行加和归一化(通过加和归一化层，对应图4中的加&归一化层，用于对标识符特征与加权后的多模融合特征进行融合处理，也可称为残差连接处理，并对融合结果进行归一化处理)，将加和归一化后的结果以及卷积后的指令特征输入命令-设备注意力层，即可利用加权后的多模融合特征，对卷积后的文本特征进行注意力加权，输出注意力加权后的指令特征；对注意力加权后的多模融合特征和注意力加权后的指令特征进行加和归一化(通过加和归一化层，对应图4中的加&归一化层，用于对对注意力加权后的多模融合特征和注意力加权后的指令特征进行融合处理，也可称为残差连接处理，并对融合结果进行归一化处理)，将得到的加和归一化后的结果进行全连接(通过全连接层)，其中，解码注意力层的注意力加权到该全连接的过程可以为P(P≥1)次(其中，P的值对应图4中的N的值，即通过图4中的N层进行P次处理。例如当N＝2，即设备选择网络包含2层图4中虚线包含的部分时，从解码注意力层的注意力加权到该全连接的过程会执行2次)；随后将第P次输出的全连接后的结果再通过一个全连接层，得到全连接结果输入分类网络，输出当前分类网络的输出设备。

本申请实施例中，分类网络输出的第M输出设备满足停止循环条件，可以包括分类网络输出的第M+1输出设备为预设的终止标识符<\s>。也就是说，可以定义可被选择的目标设备的标识符集合{<s>,<\s>,<设备1>，<设备2>，<设备3>……}，其中<s>表示起始标识符，<\s>表示终止标识符，<设备*>表示每个设备的标识符。

第一次输入多模融合特征和指令特征时，设备选择网络自动使用起始标识符<s>开始运行，此次分类网络输出设备1的标识符<设备1>；第二次输入多模融合特征和指令特征时，设备选择网络自动使用标识符<设备1>开始运行，此次分类网络输出设备2的标识符<设备2>；重复上述过程，直至第L+1(L≥1)次输入多模融合特征和指令特征时，设备选择网络自动使用标识符<设备L>开始运行，此次分类网络输出终止标识符<\s>，设备选择网络停止循环过程。

当K＝1，L＝1时，分类网络得到输出设备的标识序列为“<s><设备1><\s>”，则设备确定网络将设备1确定为执行设备。

当K＝1，L≥2时，分类网络得到输出设备的标识序列为“<s><设备1>…<设备L><\s>”，则设备确定网络将设备1到设备L确定为执行设备组。

当K≥2，L＝1时，分类网络得到输出设备的标识序列为“<s><设备1><\s>”…“<s><设备K><\s>”，将设备1至设备K中概率最高的设备确定为执行设备。

当K≥2，L≥2时，分类网络得到输出设备的标识序列为“<s><设备1>…<设备L><\s>”…“<s><设备K>…<设备L><\s>”共K^L种标识序列，每种标识序列中除了包含<s>和<\s>外，还包括L个设备的标识符，作为一个路径，即一共有K^L条路径，将K^L条路径中概率最高的路径对应的L个设备确定执行设备组，实际应用中，也可以在分类网络每次得到输出设备时只维护当前的最大K条路径，具体可参见上文中的描述，在此不再赘述。

也就是说，本申请实施例中，设备选择网络中循环运行多少次，确定出的设备的个数比循环次数少1。

这样，便可为用户的输入指令选择出合适的执行设备或执行设备组。

本申请实施例中，如图5所示，结合上述特征融合网络和设备选择网络，提出了一种设备选择的完整执行流程。

具体地，对输入指令进行识别分析，得到意图分类结果输入特征融合网络(对应图5中的多模块特征融合网络)。同时，对用户信息、环境信息、设备信息中的至少一项信息(对应图5中的其他信息)进行特征提取后，输入特征融合网络。特征融合网络输出多模融合特征，输入到设备选择网络中。同时，也会将对输入指令进行识别分析得到的指令特征输入设备选择网络中。设备选择网络输出选择的设备或设备组，并由命令生产模块生成这些设备或设备组的操控指令。

本申请实施例中，特征融合网络和设备选择网络可以分别进行训练，也可以进行联合训练。

若进行联合训练，则训练过程如下：

a)收集数据：参与训练的数据包括实时数据和长期数据两部分，实时数据包括用户的输入指令、用户情感数据、设备状态、声音强度、用户位置信息等；长期数据包括用户画像，设备画像等。

b)处理数据：对a)中用户的输入指令进行意图分类，并将其结果进行向量化，同时将其他实时数据和长期数据均进行向量化。

c)数据输入到模型：将b)中向量化的多模态数据送入特征融合网络，并将特征融合网络输出的多模融合特征送入设备选择网络的对应部分，同时将b)中用户的输入指令的指令特征进行输入，设备选择网络就可以输出正确的执行设备，如果输出有偏差，则在训练中会不断调整网络参数，直到网络稳定，能输出正确的执行设备。

下面将结合几个示例来举例说明本申请实施例的实现方式。

示例一：当有多个可执行用户语音命令的设备时，如何通过用户输入的语音命令确定最优执行者。

例如如图6a所示，当用户在客厅发出语音命令“播放迷雾第十五集”时，这时候客厅中有音箱、电视和手机，并且都处于空闲状态，此时需要确认最佳的播放设备来响应用户，具体过程可以分解为以下几个步骤：

步骤1.1：获取用户的语音命令；以及获取其他信息，如设备状态，位置等信息。

步骤1.2：对语音命令进行语音分析，然后抽取文本中的语义特征，得到如表1所示的分析结果。

表1

基于上述分析结果得到意图分类结果。并且，通过语音识别得到文本“播放迷雾第十五集”。

步骤1.3：通过其他信息的特征提取得到以下特征：{手机_空闲，电视_空闲_有播放历史，音箱_空闲，温度_24，湿度_35％，…}。与意图分类结果连接得到的多模态数据的联合向量表示(即多模特征表示)。如图6b所示，图中最上面一行的为待输入的多模态数据，中间一行为各数据的向量表示，最下面一行为联合向量表示。

步骤1.4：经过图3的特征融合网络，联合向量表示将得到进一步融合表示，得到多模融合特征。

步骤1.5：经过图4的设备选择网络，得到设备的概率打分如表2所示。

候选设备/设备组	得分
		电视	0.8
音箱	0.5

表2

步骤1.6：生成执行命令

作为示例地，通过所选执行设备和语义分析的结果得到执行命令如下所示：

设备：电视_客厅

执行命令：{剧名：迷雾第十五集}

该示例中，在有多个可执行用户语音命令的设备时，通过联合意图分类结果和其他数据对应的词向量形成多模特征表示，并输入特征融合网络形成多模融合特征，最后多模融合特征表示经过设备选择网络得到最优的执行设备，从而更好的响应用户。

示例二：当用户想要操控的设备功能较弱，不足以响应用户的命令时，如何满足复杂多变的用户意图。

例如如图7a所示，用户在客厅发出语音命令“一小时后开始煮饭”，具有煮饭功能的电饭煲缺乏时间功能，无法准确执行用户的语音命令。并且电饭煲在厨房中，由于距离用户较远，用户无法实时地查看其执行状态(例如开始煮饭或煮饭完成等)。

此时可以联合具有定时功能以及离用户较近的具有提醒功能的设备来共同满足用户的需求。例如通过客厅里有具备定时功能的电视和具有扬声功能的音响等。具体过程可以分解为以下几个步骤：

步骤2.1：获取用户的语音命令；以及获取其他信息，如设备状态，位置等信息。

步骤2.2：对语音命令进行语音分析，然后抽取文本中的语义特征，得到如表3所示的分析结果。

语义特征	分析结果
		浅层句法分析	一小时/时间量词后/副词开始煮饭/动词

表3

基于上述分析结果得到意图分类结果。并且，通过语音识别得到文本“一小时后开始煮饭”。

步骤2.3：通过其他信息的特征提取得到以下特征：{电饭煲_空闲，电视_运行，音箱_空闲，温度_24，湿度_35％，…}。与意图分类结果连接得到的多模态数据的联合向量表示(即多模特征表示)。

步骤2.4：经过图3的特征融合网络，联合向量表示将得到进一步融合表示，得到多模融合特征。

步骤2.5：根据图4的设备选择网络的命令-设备注意力层，第一选择设备和第二选择设备可以各自对应于文本特征的不同权重(颜色越深，权重越高)，如图7b所示。

经过设备选择网络，得到路径(设备组)的概率打分如表4所示。

候选设备/设备组	得分
		{电视,电饭煲}	0.65
{音箱,电饭煲}	0.55
		电饭煲	0.2

表4

图7b中，当第一选择设备为电视，第二选择设备为电饭煲时，{电视,电饭煲}设备组对应的文本特征的注意力权重显示出，电视更倾向于对应监控命令，电饭煲更倾向于对应煮饭命令。

步骤2.6：生成执行命令。

作为示例地，通过所选执行设备和语义分析的结果得到执行命令如图表5所示。

步骤	设备	功能	值
				1	电视	定时	60分
2	电饭煲	蒸煮	蒸煮

表5

该示例中，在涉及多设备顺序响应时，通过联合意图分类结果和其他数据对应的词向量形成多模特征表示，并输入特征融合网络形成多模融合特征，最后多模融合特征表示经过设备选择网络得到最优的执行设备组。此时用户的语音命令被分解后为多条相关联的命令，设备组根据分解后的命令，形成每个设备对应的执行命令，并进行执行。结合该示例可知，本申请实施例可以解决复杂多变的用户意图，只需要命令分解而不用事先做任何设置。

示例三：通过预定义的场景，让各智能设备根据场景确定用户意图，从而进行相应操作。

例如如图8所示，用户在卧室准备睡觉时，发出语音命令“我要睡觉了”，这时候对光照、声响和温度等外在环境是有一定要求的。此时卧室中设备的状态包括灯开着，电动窗帘开着，电视处于播放中等。这就需要多个对应设备的协作，以便给用户提供一个适合睡眠的场景，例如关闭窗帘、关闭电视、关灯等。具体过程可以分解为以下几个步骤：

步骤3.1：获取用户的语音命令；以及获取其他信息，如设备状态，位置等信息。

步骤3.2：在步骤S1031的基础上，进一步的进行场景判定：基于输入指令，确定目标场景，并获取目标场景的场景信息，将场景信息作为意图分类结果，具体步骤如下：

1)抽取文本中的语义特征，包括但不限于浅层句法特征、词向量等。

2)进行意图领域分类，得到意图领域分类结果；

3)若意图领域分类结果为场景，则在线下训练好的场景定义表(参见表6)中获得对应的目标场景的场景信息，本示例中为睡眠场景，将场场景信息作为意图分类结果输入。

场景	温度(℃)	湿度(RH％)	分贝值(dB)	光照(LUX)
					睡觉	20～23	75～80	0～40	0
打扫卫生	10～40	50～60	70～100	无要求
					会议	15～25	70～80	35～70	50～80

表6

该示例中，对语音命令进行语音分析，然后抽取文本中的语义特征，得到目标场景“睡觉”，在场景定义表中查得对应的场景信息为“温度调整到20～23度，湿度调整到75～80％，分贝值调整到0～40dB，光照调整到0LUX”。

步骤3.3：对其他信息进行特征提取，得到特征列表{电视_运行，音箱_空闲，空调_空闲，加湿器_空闲，窗帘_拉开，温度_24，湿度_35％，分贝_40dB，光照_50LUX，…}，与意图分类结果连接得到的多模态数据的联合向量表示(即多模特征表示)。

步骤3.4：经过图3的特征融合网络，联合向量表示将得到进一步融合表示，得到多模融合特征。

步骤3.5：经过图4的设备选择网络，得到设备/设备组的排序，对于设备组，利用图7b类似的方法，进行命令和设备对齐，比如“空调-温度调整到20～23度，加湿器-湿度调整到75％，电视-声音分贝值调整到40dB以下，窗帘-光照调整到0LUX”等。

步骤3.6：生成执行命令。

本申请实施例中，步骤3.2的场景定义表可以是由线下训练得到，其中，场景定义表的获取过程也可称为场景画像(也就是场景信息，描述对应场景下的目标状态)的抽取过程。如图9a所示，给出了场景画像抽取的方案。简单的场景可以通过人工设计得到，复杂的场景需要通过离线的历史日志进行学习。场景画像的学习框架包括基于时间的无监督设备聚类和基于主题模型的场景主题抽取。具体地，

1、按照预设周期收集所有设备的状态(例如历史日志中，不同时间点包含的设备状态，如A、B、C等)，得到设备状态点集，例如提取历史日志中不同时刻的设备状态，或从每个时间窗口定期收集所有设备状态，从而形成一组设备状态点。

2、通过场景抽取算法将设备状态点集进行分组聚类，基于聚类结果，得到各个场景对应的设备状态点子集，并根据每个设备状态点子集分别对应的聚类质心，确定各个场景中的设备的目标状态，实际应用中，可以通过无监督学习算法(也可称为无监督场景检测算法)，将类似的(不同时刻设备状态相同的)设备状态点分组到相同的集群中，每个集群对应于某个场景。同时，还应确定每个集群的聚类质心的特征，聚类质心中的设备状态就可以充当该场景中的设备的目标状态，从而得到场景对应的优化目标集合。如图9b所示，显示了无监督场景分类的具体设备状态，由初始化的数据收敛得到各个场景对应的设备状态，最后将相同的设备状态聚类在一起。

3、根据各个场景中的设备的目标状态，确定各个场景的场景信息，即为每个集群提取适当的场景描述(例如家庭影院场景、会议场景、阅读场景等)，实际应用中，可以采用主题提取方法进行场景主题抽取：如图9c所示，需要收集所有的用户指令，形成文档(对应图9c中的英文文档部分，其中，图9c中所示的文档仅为示例，文档的具体内容本申请的方案并不关注，附图中文档部分的内容并不影响本申请的方案的实施，只表示执行过程的示意)，然后按照不同的主题进行比例分配(对应图9c中的主题分配比例，同理地，图9c中所示的主题分配比例仅为示意，本申请的方案并不关注具体数值，具体数值并不影响本申请的方案的实施)，按照主题比例分配结果从中抽取具体的集群(场景)的主题(例如图9c中最左侧的多个主题，同理地，图9c中所示的抽取的主题仅为示意，本申请的方案并不关注具体内容，具体内容并不影响本申请的方案的实施)。当离线学习场景画像，每个集群的场景名称可以学习。在线执行场景识别时，可以从用户命令中识别场景名称。

本申请实施例中，对于复杂场景，提出场景画像的概念，结合无监督场景检测和场景主题提取，实现自动配置和调整设备的目标状态。

该示例中，在涉及多设备协同响应时，基于用户命令调用场景检测，判定出目标场景，将目标场景的场景信息作为意图分类结果，其他数据对应的词向量形成多模特征表示，并输入特征融合网络形成多模融合特征，最后多模融合特征表示经过设备选择网络得到最优的执行设备组，将该场景下的设备调到场景信息相应的目标状态。

现有技术中，需要用户事先人为地设定各设备在预定义场景中的目标状态，适应性较差。例如睡眠场景，用户可以事先通过智能设备的控制面板指定在此场景下的灯的目标状态是关闭，电视的目标状态是关闭，窗户的目标状态是关闭。通过预先设定场景下设备的目标状态，当用户说“进入睡眠模式时”，通过对睡眠等模式关键字的捕获，得知用户意图是进入睡眠场景，从而调整场景对应的设备到达预设的目标状态。也就是说，现有技术无法通过自动场景学习，学习出该命令对应的场景，并自动的调整该场景下设备的目标状态。

本申请实施例提出的将同一时刻多个设备的稳定状态归纳出特定的场景。当用户发出命令后，可以通过场景识别得到对应命令是否对应于场景，对应于什么场景，从而判定出意图分类结果，参照场景状态调整设备状态，达到场景对应的目标状态，满足用户意图。

实际应用中，当用户需要长期占用一个或多个设备的所有权，可以调整这些设备的参数以使设备或环境保持一定的状态，另外它不包含缺一不可的概念，比如针对我要出门，这是个出门的场景，此时涉及到的操作有灯关闭，窗帘打开，电视关闭等。

本申请的发明人还发现，如何准确的识别出语音命令带来的冲突或干扰等也是现在语音操作设备时的技术难点。例如如图10所示，当用户A针对智能音箱的语音命令为：大点声，而此时用户B需要安静的环境，那么对于智能音箱来说，很难确定其应执行的操作为音量增加还是静音，这也是现有技术的难点之一。

基于此，本申请实施例还提供了一种冲突处理方法，如图11所示，该方法包括：

步骤S201：获取用户的输入指令；

步骤S202：基于输入指令对应的执行设备，进行冲突检测，得到冲突检测结果；

步骤S203：基于冲突检测结果进行相应处理。

本申请实施例中，输入指令对应的执行设备可以是通过上述任一实施例选择出来的，也可以是通过其他方式确定的，例如用户直接指定。

本申请一个实施例中，当输入指令对应的执行设备待执行时，当前正在运行的设备可能会对待执行的设备产生干扰，本申请实施例中，通过行为模式检测(BPR，behaviorpattern recognition)来判定干扰设备，即进行设备冲突检测，同时对干扰设备进行相应的调节以减少甚至消除干扰，以便其他设备更好地响应用户的请求。

具体而言，对执行设备的设备状态进行行为模式预测，进一步地，根据行为模式的预测结果确认设备间是否存在冲突。如果检测到设备间冲突，那么进行冲突处理，否则继续控制执行设备执行输入指令。

其中，行为模式预测基于线下的行为模式检测。行为模式检测的目的是自动学习某一个行为发生之后，与已经发生的行为是否存在冲突，如果发生冲突的概率或相关性越高，例如超过阈值时判定为冲突，则进行相应的冲突处理。

行为模式检测的示例如图12a和图12b所示，图12a和图12b中示出的具体内容并不构成对本申请实施例的限定，仅示出了对本申请实施例中涉及的处理过程的示意性表示。其中BPR用于帮助判断潜在的冲突设备。下面就具体BPR给出具体的介绍。图12a中的实时数据为行为数据。具体的步骤如下：

通过数据清理/聚类从实时数据中检测到大规模的设备行为模式，比如打电话时电视声音调低等，将此类有冲突的模式聚集在一起。聚类的结果将给到分类模型或相关性分析去训练，这两种方式均可以检测设备间冲突。

1、如果选择分类的方式识别冲突时，那么人工标记的设备行为模式数据将用于训练识别冲突的模型。在进行冲突判定时，控制执行设备执行输入指令过程中，通过预训练的分类模型得到执行设备的潜在冲突设备，根据执行设备的设备状态及潜在冲突设备的设备状态进行冲突检测，当前用户在操作设备时会和潜在的冲突设备(包含状态值)分到一起，那么通过查看设备的状态就知道是否产生了冲突。

2、如果选择相关性分析(包括Pearson相关性、Kendall秩相关性、Spearman相关性和Point-Biserial(点二系列)相关性等)，根据聚类的结果得出相关性模型。在控制执行设备执行输入指令过程中，通过预训练的相关性模型，得到与执行设备满足预定相关系数的相关设备，根据相关设备的设备状态及执行设备的设备状态，进行冲突检测，通过模型计算操作目标执行设备时与其他设备的相关系数，如果相关系数越小，相关性越低，冲突越低，如果相关性越大，则冲突的可能性越大，此时需要进行冲突处理。

本申请实施例中，为了解决设备冲突，提出了一种行为预测方法来进行行为模式识别，与最常使用聚类的传统BPR相比，本申请实施例首次将其应用于物联网领域，并增加基于时间序列的分类和相关性分析，用来确定设备的冲突。

作为示例地，当用户输入语音命令时，其他设备的状态可能会干扰目标设备的执行。

例如如图13所示，用户在客厅，电视处于播放状态，当用户发出语音命令“打电话给苏珊”，电话开始执行通话操作，那么在用户打电话的过程中，电视会对用户的通话造成干扰，需要相应的调小电视的音量。现有的技术无法自动判定设备间的干扰，因此无法调小潜在的干扰设备电视的音量。

本申请实施例中，解决该问题的具体过程如下：

步骤4.1：对用户的语音指令进行识别分析，得到意图分类结果，通过联合意图分类结果和其他数据对应的词向量形成多模特征表示，并输入特征融合网络形成多模融合特征，最后多模融合特征表示经过设备选择网络得到手机为执行设备，命令生产模块生成手机的拨号命令。或者，手机直接接收用户点击的拨号命令。也就是说，此时的设备冲突检测可以是在控制执行设备执行相应操作过程中进行的。

步骤4.2：根据所建立的行为模式检测模型，结合当前选定的目标设备(手机)的设备状态、当前其他设备的设备状态进行行为模式预测，得到如表7所示的冲突检测结果

表7

步骤4.3：当检测到存在冲突设备时，控制冲突设备执行相应操作。根据表7所示的冲突检测结果，得到运行的电视跟拨打电话之间存在冲突，因此生成解决冲突的命令“电视-音量调低”。通过对干扰设备进行调节，消除对当前用户的打扰，本示例中电视的音量将会被调低，待到通话结束才恢复。处理冲突后，用户继续执行打电话的操作。

本申请另一个实施例中，若输入指令对应的执行设备执行用户的命令，可能会和其他用户的需求产生冲突，这种问题可以认为是用户间存在冲突，也可认为是一个用户未退出当前场景，而另外的用户需要调用设备时，破坏了维持当前场景所需要的目标状态，导致场景之间存在冲突。

作为示例地，如图14所示，用户A在卧室睡觉，用户B在客厅说“打扫卫生”，便调用了扫地机器人。此时扫地机器人的噪音会对睡觉场景中的用户A造成打扰(超过睡觉场景中声响限定的阈值)，现有的技术无法自动地判定场景干扰，并给出解决方案。

本申请实施例中，解决该问题的具体过程如下：

步骤5.1：对用户的语音指令(该示例中，对应指令为“打扫卫生”)进行识别分析，得到意图分类结果，通过联合意图分类结果和其他数据对应的词向量形成多模特征表示，并输入特征融合网络形成多模融合特征，最后多模融合特征表示经过设备选择网络得到执行设备(该示例中，选择的执行设备为“扫地机器人”)。

步骤5.2：在控制执行设备执行输入指令之前，进行场景冲突检测：获取当前场景信息，包括但不限于温度，湿度，声音强度，光照强度等。并给予执行设备、输入指令及当前场景信息，进行冲突检测，若接下来要操作的设备对环境特征的影响将超过可以接受的范围，则判定存在场景冲突。上例中，需要判断即将启动的扫地机器人是否会与场景发生冲突，例如声音强度超过“睡觉”场景的阈值。

步骤5.3：相应的处理方式包括当检测到场景冲突时，向执行设备发送场景冲突提示；当接收到用户的继续执行指令时，控制执行设备执行输入指令。若存在环境冲突，也可以进一步判断说话人是否与前一个使用人一致，即根据输入指令，得到用户身份信息；当判断出用户身份信息与当前场景信息对应的用户身份信息不一致时，向执行设备发送场景冲突提示。将潜在的冲突反馈给当前用户，提示继续执行命令会对已存在的场景有所干扰，并给出冲突设备的当前状态，上例中，由于“打扫卫生”命令的发出者与“睡觉”命令的发出者不一致，扫地机器人发出环境冲突提示，让当前用户进行判定是否继续执行，如果“打扫卫生”命令的发出者需要继续执行，则执行清扫命令，否则放弃执行，或直到“睡觉”命令的发出者醒来后退出睡觉场景，扫地机器人才开始清扫任务。或者，也可以在处理冲突时进行用户权限的判断，例如若说话人权限没有前一个使用人对场景的控制权高，则不执行说话人的命令，否则，扫地机器人发出环境冲突提示，让当前用户进行判定是否继续执行。

本申请实施例从用户而不是设备的角度判断和解决不同用户引发的场景冲突，提升用户体验。

本申请实施例中，如图15a所示，在图5的基础上，提出了一种完整冲突处理流程。

具体地，对输入指令进行识别分析，得到意图分类结果输入特征融合网络(对应图15a中的多模态特征融合网络)。同时，对用户信息、环境信息、设备信息中的至少一项信息(对应图15a中的其他信息)进行特征提取后，输入特征融合网络。特征融合网络输出多模融合特征，输入到设备选择网络中。同时，也会将对输入指令进行识别分析得到的指令特征输入设备选择网络中。设备选择网络输出选择的设备或设备组。此时，可以在命令生产模块生成这些设备或设备组的操控指令之前或之后，利用冲突检测模块进行冲突检测或处理，若在命令生产模块生成这些设备或设备组的操控指令之前，则进行的是场景冲突检测，通过设备状态表判定出当前已经存在的场景和场景画像判定该场景下的调用执行设备是否会引发场景冲突，这时的冲突检测模块中还需获取输入指令对应的说话人识别结果。若在命令生产模块生成这些设备或设备组的操控指令之后，则进行的是设备冲突检测，通过调用行为模式分析判定执行设备和此时其他设备的设备状态判定是否存在设备冲突，如果冲突存在则进行相应的冲突处理。

本发明实施例涉及通过用户的指令操控智能联网设备的具体操控包括在线和离线两部分。在线部分包括上述各实施例描述的设备控制方法和冲突处理方法。离线部分包括通过机器学习算法或数据预处理从具体的历史数据中获取得到场景画像、行为模式、设备画像、用户画像、行为模式检测等，得到的数据可以供在线部分调用。

其中，在线部分均可以在云端和/或本地大脑(本地的设备或机器，可以更和云端充当类似的角色，本地大脑可以是固定的一体机，也可是不固定的具有存储和运算功能的设备，根据功能和计算能力等选择)执行。如果在云端处理，在设备接收到指令后，输入(包括指令和其他输入)中的隐私数据将被加密(若为语音指令，则音频的每一帧都需要加密)后上传，并在云端处理解密后进行处理，并在云端生成最终的执行命令，发送给设备进行执行；如果在本地大脑进行处理，那么无需将输入进行上传，所有操作均在本地进行，并生成最终的执行命令。若涉及到本地设备间的数据传输，即使是局域网也需要对隐私数据进行加密。如果在本地大脑和云端都进行处理，那么可以由本地大脑进行语音分析和特征提取，然后将加密后的结果传送到云端，和云端的长期特征共同作为输入进行后续的处理，并在云端生成最终的执行命令，发送给设备进行执行。

云端和本地大脑具体的转换逻辑如图15b所示，设备接收到用户的语音命令后，判断本地设备能否进行语音分析/特征处理，如果本地设备可以进行语音分析/特征处理，就在语音分析/特征处理之后判断本地大脑是否能继续处理，若能则本地处理完成后续设备选择操作(通过多模特征融合网络，设备选择网络，冲突检测/处理模块，命令生成模块)，最终形成执行命令。如果本地设备不能进行语音分析/特征处理，继续判断云端是否可用，可用则输入上传云端，由云端完成后续设备选择操作(通过多模特征融合网络，设备选择网络，冲突检测/处理模块，命令生成模块)，最终形成执行命令。若云端不可用则直接反馈给用户，并结束当前流程。

本申请实施例提供的方法，借助于多模态数据、意图分类、行为模式分析、场景分析从而识别出用户意图，判定出正确的执行设备，形成执行逻辑，同时又能解决潜在的设备冲突和用户冲突。

本申请实施例还提供了一种设备控制装置，如图16所示，该设备控制装置160可以包括：第一获取模块1601、第二获取模块1602、确定模块1603和控制模块1604，其中，

第一获取模块1601用于获取用户的输入指令；

第二获取模块1602用于获取以下至少一项信息：用户信息；环境信息；设备信息；

确定模块1603用于基于获取的信息和输入指令，确定输入指令的至少一个执行设备；

控制模块1604用于控制至少一个执行设备执行相应操作。

在一种可选的实现方式中，确定模块1603在用于基于获取的信息和输入指令，确定输入指令的至少一个执行设备时，具体用于：

获取输入指令对应的意图分类结果；

对意图分类结果和获取的信息进行融合处理，得到对应的多模融合特征；

基于多模融合特征及输入指令，确定输入指令的至少一个执行设备。

在一种可选的实现方式中，确定模块1603在用于对意图分类结果和获取的信息进行融合处理，得到对应的多模融合特征时，具体用于：

将意图分类结果和获取的信息连接得到多模特征表示；

通过特征融合网络，对多模特征表示进行注意力加权处理，得到对应的多模融合特征。

在一种可选的实现方式中，确定模块1603在用于将意图分类结果和获取的信息连接得到多模特征表示时，具体用于：

确定意图分类结果及获取的信息分别对应的词向量；

将各个词向量连接得到多模特征表示。

在一种可选的实现方式中，特征融合网络包括若干个融合模块；

任一融合模块包括多头注意力层，融合归一化层和全连接层；

多头注意力层用于对所属融合模块的输入特征进行注意力加权处理；

融合归一化层用于对所属融合模块的输入特征和多头注意力层注意力加权处理后的特征进行融合处理，并对融合结果进行归一化处理；

全连接层用于对归一化处理结果进行特征提取后，输出提取出的特征。

通过设备选择网络，获取的信息和输入指令对应的各个模态特征对设备选择的第一贡献度，以及输入指令对应的各个词特征对设备选择的第二贡献度，并基于各个模态特征、各个词特征、第一贡献度及第二贡献度，确定输入指令的至少一个执行设备。

在一种可选的实现方式中，确定模块1603还用于：通过以下方式，获取各个模态特征：

获取输入指令对应的意图分类结果；

将多模融合特征中的各个特征作为各个模态特征。

在一种可选的实现方式中，设备选择网络包括模态特征贡献度确定网络、词特征贡献度确定网络、分类网络和设备确定网络；

模态特征贡献度确定网络用于对各个模态特征进行注意力加权，得到包含第一贡献度的各个模态特征；

词特征贡献度确定网络用于基于包含第一贡献度的各个模态特征，对各个词特征进行注意力加权，得到包含第二贡献度的各个词特征；

分类网络用于基于包含第一贡献度的各个模态特征以及包含第二贡献度的各个词特征，得到输出设备；

在一种可选的实现方式中，分类网络具体用于至少一次基于包含第一贡献度的各个模态特征以及包含第二贡献度的各个词特征，得到输出设备；

在一种可选的实现方式中，当配置的分类网络每一次得到的输出设备的个数为至少两个时，设备确定网络具体用于：

若通过分类网络得到输出设备的次数为一次，则根据分类网络得到的各个输出设备分别对应的概率，确定一个执行设备；

若通过分类网络得到输出设备的次数为至少两次，则根据分类网络至少两次得到的各个输出设备之间的路径分别对应的概率，确定至少两个执行设备。

在一种可选的实现方式中，设备信息包括以下至少一项：

设备状态、设备画像、设备位置信息、设备所属场景、设备使用者、设备信号强度、设备行为模式；

和/或，用户信息包括以下至少一项：

用户情感数据、用户画像、用户位置信息；

和/或，环境信息包括以下至少一项：

声音强度、光照强度、天气。

在一种可选的实现方式中，确定模块1603在用于获取输入指令对应的意图分类结果时，具体用于：

基于输入指令，确定目标场景，并获取目标场景的场景信息；

将场景信息作为意图分类结果。

在一种可选的实现方式中，确定模块1603在用于获取目标场景的场景信息时，具体用于：

通过预训练的场景定义表，获取目标场景的场景信息。

在一种可选的实现方式中，该设备控制装置160还包括冲突检测处理模块，用于基于至少一个执行设备，进行冲突检测，得到冲突检测结果；基于冲突检测结果进行相应处理。

在一种可选的实现方式中，冲突检测包括设备冲突检测，冲突检测处理模块在用于基于执行设备，进行冲突检测时，具体用于以下任一种：

控制执行设备执行输入指令时，通过预训练的分类模型得到执行设备的潜在冲突设备，根据执行设备的设备状态及潜在冲突设备的设备状态进行冲突检测；

控制执行设备执行输入指令时，通过预训练的相关性模型，得到与执行设备满足预定相关系数的相关设备，根据相关设备的设备状态及执行设备的设备状态、进行冲突检测。

在一种可选的实现方式中，冲突检测处理模块在用于基于冲突检测结果进行相应处理时，具体用于：

当检测到存在冲突设备时，控制冲突设备执行相应操作。

在一种可选的实现方式中，冲突检测包括场景冲突检测，冲突检测处理模块在用于在控制执行设备执行输入指令之前，基于执行设备，进行冲突检测时，具体用于：

获取当前场景信息；

基于执行设备、输入指令及当前场景信息，进行冲突检测。

在一种可选的实现方式中，冲突检测处理模块在用于基于冲突检测结果进行相应处理时，具体用于

当检测到场景冲突时，向执行设备发送场景冲突提示；

当接收到用户的继续执行指令时，控制执行设备执行输入指令。

在一种可选的实现方式中，确定模块1603还用于：

根据输入指令，得到用户身份信息；

冲突检测处理模块在用于向执行设备发送场景冲突提示时，具体用于：

当判断出用户身份信息与当前场景信息对应的用户身份信息不一致时，向执行设备发送场景冲突提示。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的设备控制装置，其实现原理及产生的技术效果和前述方法实施例相同，为描述的方便和简洁，装置实施例部分未提及之处，可参考前述方法实施例中相应内容，在此不再赘述。

本申请实施例还提供了一种冲突处理装置，如图17所示，该冲突处理装置170可以包括：获取模块1701、冲突检测模块1702和处理模块1703，其中，

获取模块1701用于获取用户的输入指令；

冲突检测模块1702用于基于输入指令对应的执行设备，进行冲突检测，得到冲突检测结果；

处理模块1703用于基于冲突检测结果进行相应处理。

在一种可选的实现方式中，冲突检测包括设备冲突检测，冲突检测模块1702在用于基于执行设备，进行冲突检测时，具体用于以下任一种：

在一种可选的实现方式中，处理模块1703在用于基于冲突检测结果进行相应处理时，具体用于：

当检测到存在冲突设备时，控制冲突设备执行相应操作。

在一种可选的实现方式中，冲突检测包括场景冲突检测，冲突检测模块1702在用于在控制执行设备执行输入指令之前，基于执行设备，进行冲突检测时，具体用于：

获取当前场景信息；

基于执行设备、输入指令及当前场景信息，进行冲突检测。

当检测到场景冲突时，向执行设备发送场景冲突提示；

在一种可选的实现方式中，处理模块1703还用于根据输入指令，得到用户身份信息；

处理模块1703在向执行设备发送场景冲突提示时，具体用于：

所属领域的技术人员可以清楚地了解到，本申请实施例提供的冲突处理装置，其实现原理及产生的技术效果和前述方法实施例相同，为描述的方便和简洁，装置实施例部分未提及之处，可参考前述方法实施例中相应内容，在此不再赘述。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述方法实施例中相应内容。

可选地，电子设备还可以包括收发器。处理器和收发器相连，如通过总线相连。需要说明的是，实际应用中收发器不限于一个，该电子设备的结构并不构成对本申请实施例的限定。

其中，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线可包括一通路，在上述组件之间传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

本申请实施例还提供了一种计算机可读存储介质，该计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种设备控制方法，其特征在于，包括：

获取用户的输入指令；

获取以下至少一项信息：用户信息；环境信息；设备信息；

基于获取的信息和所述输入指令，确定所述输入指令的至少一个执行设备；

控制所述至少一个执行设备执行相应操作。

2.根据权利要求1所述的设备控制方法，其特征在于，所述基于获取的信息和所述输入指令，确定所述输入指令的至少一个执行设备，包括：

获取所述输入指令对应的意图分类结果；

对所述意图分类结果和所述获取的信息进行融合处理，得到对应的多模融合特征；

基于所述多模融合特征及所述输入指令，确定所述输入指令的至少一个执行设备。

3.根据权利要求2所述的设备控制方法，其特征在于，对所述意图分类结果和所述获取的信息进行融合处理，得到对应的多模融合特征，包括：

将所述意图分类结果和所述获取的信息连接得到多模特征表示；

通过特征融合网络，对所述多模特征表示进行注意力加权处理，得到对应的多模融合特征。

4.根据权利要求3所述的设备控制方法，其特征在于，将所述意图分类结果和所述获取的信息连接得到多模特征表示，包括：

确定所述意图分类结果及所述获取的信息分别对应的词向量；

将各个词向量连接得到多模特征表示。

5.根据权利要求3或4所述的设备控制方法，其特征在于，

所述特征融合网络包括若干个融合模块；

所述多头注意力层用于对所属融合模块的输入特征进行注意力加权处理；

所述融合归一化层用于对所属融合模块的输入特征和所述多头注意力层注意力加权处理后的特征进行融合处理，并对融合结果进行归一化处理；

所述全连接层用于对归一化处理结果进行特征提取后，输出提取出的特征。

6.根据权利要求1-5任一项所述的设备控制方法，其特征在于，所述基于获取的信息和所述输入指令，确定所述输入指令的至少一个执行设备，包括：

通过设备选择网络，获取所述获取的信息和所述输入指令对应的各个模态特征对设备选择的第一贡献度，以及所述输入指令对应的各个词特征对设备选择的第二贡献度，并基于所述各个模态特征、所述各个词特征、所述第一贡献度及所述第二贡献度，确定所述输入指令的至少一个执行设备。

7.根据权利要求6所述的设备控制方法，其特征在于，还包括：通过以下方式，获取所述各个模态特征：

获取所述输入指令对应的意图分类结果；

将所述多模融合特征中的各个特征作为所述各个模态特征。

8.根据权利要求6或7所述的设备控制方法，其特征在于，所述设备选择网络包括模态特征贡献度确定网络、词特征贡献度确定网络、分类网络和设备确定网络；

所述模态特征贡献度确定网络用于对所述各个模态特征进行注意力加权，得到包含所述第一贡献度的各个模态特征；

所述词特征贡献度确定网络用于基于所述包含所述第一贡献度的各个模态特征，对所述各个词特征进行注意力加权，得到包含所述第二贡献度的各个词特征；

所述分类网络用于基于所述包含所述第一贡献度的各个模态特征以及所述包含所述第二贡献度的各个词特征，得到输出设备；

所述设备确定网络用于基于所述分类网络得到的输出设备，得到所述输入指令的至少一个执行设备。

9.根据权利要求8所述的设备控制方法，其特征在于，

所述分类网络具体用于至少一次基于所述包含所述第一贡献度的各个模态特征以及所述包含所述第二贡献度的各个词特征，得到输出设备；

所述设备确定网络具体用于根据所述分类网络每一次得到的输出设备，得到所述输入指令的至少一个执行设备。

10.根据权利要求9所述的设备控制方法，其特征在于，当配置的所述分类网络每一次得到的输出设备的个数为至少两个时，所述根据所述分类网络每一次得到的输出设备，得到所述输入指令的至少一个执行设备，包括：

若通过所述分类网络得到输出设备的次数为一次，则根据分类网络得到的各个输出设备分别对应的概率，确定一个执行设备；

若通过所述分类网络得到输出设备的次数为至少两次，则根据所述分类网络至少两次得到的各个输出设备之间的路径分别对应的概率，确定至少两个执行设备。

11.根据权利要求1-10任一项所述的设备控制方法，其特征在于，所述设备信息包括以下至少一项：

和/或，所述用户信息包括以下至少一项：

用户情感数据、用户画像、用户位置信息；

和/或，所述环境信息包括以下至少一项：

声音强度、光照强度、天气。

12.根据权利要求2-11任一项所述的设备控制方法，获取所述输入指令对应的意图分类结果，包括：

基于所述输入指令，确定目标场景，并获取所述目标场景的场景信息；

将所述场景信息作为所述意图分类结果。

13.根据权利要求12所述的设备控制方法，所述获取所述目标场景的场景信息，包括：

通过预训练的场景定义表，获取所述目标场景的场景信息。

14.根据权利要求1-13任一项所述的设备控制方法，其特征在于，还包括：

基于所述至少一个执行设备，进行冲突检测，得到冲突检测结果；

基于所述冲突检测结果进行相应处理。

15.一种冲突处理方法，其特征在于，包括：

获取用户的输入指令；

基于所述输入指令对应的执行设备，进行冲突检测，得到冲突检测结果；

基于所述冲突检测结果进行相应处理。

16.根据权利要求15所述的冲突处理方法，其特征在于，所述冲突检测包括设备冲突检测，所述基于所述执行设备，进行冲突检测，包括以下任一种：

控制所述执行设备执行所述输入指令时，通过预训练的分类模型得到所述执行设备的潜在冲突设备，根据所述执行设备的设备状态及所述潜在冲突设备的设备状态进行冲突检测；

控制所述执行设备执行所述输入指令时，通过预训练的相关性模型，得到与所述执行设备满足预定相关系数的相关设备，根据所述相关设备的设备状态及所述执行设备的设备状态、进行冲突检测。

17.根据权利要求16所述的冲突处理方法，其特征在于，基于所述冲突检测结果进行相应处理，包括：

当检测到存在冲突设备时，控制所述冲突设备执行相应操作。

18.根据权利要求15所述的冲突处理方法，其特征在于，所述冲突检测包括场景冲突检测，在控制执行设备执行输入指令之前，所述基于所述执行设备，进行冲突检测，包括：

获取当前场景信息；

基于所述执行设备、所述输入指令及所述当前场景信息，进行冲突检测。

19.根据权利要求18所述的冲突处理方法，其特征在于，基于所述冲突检测结果进行相应处理，包括：

当检测到场景冲突时，向所述执行设备发送场景冲突提示；

当接收到用户的继续执行指令时，控制所述执行设备执行所述输入指令。

20.根据权利要求18或19所述的冲突处理方法，其特征在于，还包括：

根据所述输入指令，得到用户身份信息；

所述向所述执行设备发送场景冲突提示，包括：

当判断出所述用户身份信息与所述当前场景信息对应的用户身份信息不一致时，向所述执行设备发送场景冲突提示。

21.一种设备控制装置，其特征在于，包括：

第一获取模块，用于获取用户的输入指令；

确定模块，用于基于获取的信息和所述输入指令，确定所述输入指令的至少一个执行设备；

控制模块，控制所述至少一个执行设备执行相应操作。

22.一种冲突处理装置，其特征在于，包括：

获取模块，用于获取用户的输入指令；

冲突检测模块，用于基于所述输入指令对应的执行设备，进行冲突检测，得到冲突检测结果；

处理模块，用于基于所述冲突检测结果进行相应处理。

23.一种电子设备，其特征在于，包括：处理器和存储器，

所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-20任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令、程序、代码集或指令集，当所述计算机指令、程序、代码集或指令集在计算机上运行时，使得计算机执行如权利要求1-20任一项所述的方法。