CN116418611A

CN116418611A - 智能设备的交互方法和装置、存储介质及电子装置

Info

Publication number: CN116418611A
Application number: CN202111662830.7A
Authority: CN
Inventors: 王凯; 栾天祥; 王迪; 赵培
Original assignee: Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Smart Home Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-07-11

Abstract

本申请公开了一种智能设备的交互方法和装置、存储介质及电子装置，其中，上述方法包括：获取使用对象所发出的目标交互数据，其中，目标交互数据为第一模态的交互数据，目标交互数据用于触发第一设备执行第一交互操作；在根据目标交互数据未获取到与第一交互操作对应的交互参数的情况下，获取与目标交互数据对应的目标参考数据，其中，目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数；对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数；按照第一交互参数控制第一设备执行第一交互操作。

Description

智能设备的交互方法和装置、存储介质及电子装置

技术领域

本申请涉及设备交互领域，具体而言，涉及一种设备的交互方法和装置、存储介质及电子装置。

背景技术

智能家居设备一般具备人机交互能力(即，设备和用户进行交互)，通过语音机型交互方式是目前比较常用的人机交互方式。用户通过语音指令控制智能家居设备执行对应的交互操作，例如，播报天气等。

然而，通过语音进行交互的方式，需要对语音数据进行解析，从而得到用户的需求，如果存在环境噪音过大、发音不准确(例如，存在口音)等原因，会导致无法准确获取并识别语音数据，从而造成无法完成人机交互。

由此可见，相关技术中的通过语音与智能设备进行交互的方式，存在由于无法准确获取并识别语音数据导致的人机交互的成功率低的问题。

发明内容

本申请实施例提供了一种智能设备的交互方法和装置、存储介质及电子装置，以至少解决相关技术中的通过语音与智能设备进行交互的方式存在由于无法准确获取并识别语音数据导致的人机交互的成功率低的技术问题。

根据本申请实施例的一个方面，提供了一种智能设备的交互方法，包括：获取使用对象所发出的目标交互数据，其中，所述目标交互数据为第一模态的交互数据，所述目标交互数据用于触发第一设备执行第一交互操作；在根据所述目标交互数据未获取到与所述第一交互操作对应的交互参数的情况下，获取与所述目标交互数据对应的目标参考数据，其中，所述目标参考数据为第二模态的参考数据，所述目标参考数据用于辅助确定与所述第一交互操作对应的交互参数；对所述目标交互数据和所述目标参考数据执行融合操作，得到与所述第一交互操作对应的第一交互参数；按照所述第一交互参数控制所述第一设备执行所述第一交互操作。

在一个示例性实施例中，所述对所述目标交互数据和所述目标参考数据执行融合操作，得到与所述第一交互操作对应的第一交互参数，包括：对所述目标交互数据的第一特征向量和所述目标参考数据的第二特征向量执行融合操作，得到目标融合特征向量；使用所述目标融合特征向量获取到与所述第一交互操作对应的所述第一交互参数。

在一个示例性实施例中，所述获取与所述目标交互数据对应的目标参考数据，包括：根据所述目标交互数据的数据获取时间，获取与所述目标交互数据对应的所述目标参考数据。

在一个示例性实施例中，所述获取与所述目标交互数据对应的目标参考数据，包括：获取在所述数据获取时间之前的第一时间段内，通过第二设备采集到的所述目标参考数据；或者，获取在所述数据获取时间之后的第二时间段内，通过第二设备采集到的所述目标参考数据；或者，获取在包含所述数据获取时间的第三时间段内，通过第二设备采集到的所述目标参考数据。

在一个示例性实施例中，所述获取使用对象所发出的目标交互数据，包括：在检测到对所述第一设备的目标部件被使用的情况下，同时启动多个采集部件进行数据采集，其中，所述多个采集部件中的每个采集部件用于采集一种模态的数据；在从所述多个采集部件中的目标采集部件采集到的第一采集数据中识别出交互信息的情况下，确定获取到所述目标交互数据，其中，所述目标采集部件为与所述第一模态对应的采集部件，所述目标交互数据为所述第一采集数据。

在一个示例性实施例中，所述获取与所述目标交互数据对应的目标参考数据，包括：获取所述多个采集部件中除了所述目标采集部件以外的其他采集部件所采集到的采集数据，得到所述目标参考数据，其中，所述其他采集部件为与所述第二模态对应的采集部件。

在一个示例性实施例中，在所述获取使用对象所发出的目标交互数据之后，所述方法还包括：在根据所述目标交互数据获取到与所述第一交互操作对应的第二交互参数的情况下，获取所述使用对象所处的当前环境参数；在所述第二交互参数与所述当前环境参数不匹配的情况下，使用所述当前环境参数更新所述第二交互参数，得到更新后的所述第二交互参数；按照更新后的所述第二交互参数控制所述第一设备执行所述第一交互操作。

根据本申请实施例的另一个方面，还提供了一种智能设备的交互装置，包括：第一获取单元，用于获取使用对象所发出的目标交互数据，其中，所述目标交互数据为第一模态的交互数据，所述目标交互数据用于触发第一设备执行第一交互操作；第二获取单元，用于在根据所述目标交互数据未获取到与所述第一交互操作对应的交互参数的情况下，获取与所述目标交互数据对应的目标参考数据，其中，所述目标参考数据为第二模态的参考数据，所述目标参考数据用于辅助确定与所述第一交互操作对应的交互参数；第一执行单元，用于对所述目标交互数据和所述目标参考数据执行融合操作，得到与所述第一交互操作对应的第一交互参数；第二执行单元，用于按照所述第一交互参数控制所述第一设备执行所述第一交互操作。

在一个示例性实施例中，所述第一执行单元，包括：执行模块，用于对所述目标交互数据的第一特征向量和所述目标参考数据的第二特征向量执行融合操作，得到目标融合特征向量；识别模块，用于使用所述目标融合特征向量获取与所述第一交互操作对应的所述第一交互参数。

在一个示例性实施例中，所述第二获取单元，包括：第一获取模块，用于根据所述目标交互数据的数据获取时间，获取与所述目标交互数据对应的所述目标参考数据。

在一个示例性实施例中，所述第一获取模块，包括：第一获取子模块，用于获取在所述数据获取时间之前的第一时间段内，通过第二设备采集到的所述目标参考数据；或者，第二获取子模块，用于获取在所述数据获取时间之后的第二时间段内，通过第二设备采集到的所述目标参考数据；或者，第三获取子模块，用于获取在包含所述数据获取时间的第三时间段内，通过第二设备采集到的所述目标参考数据。

在一个示例性实施例中，所述第一获取单元，包括：启动模块，用于在检测到对所述第一设备的目标部件被使用的情况下，同时启动多个采集部件进行数据采集，其中，所述多个采集部件中的每个采集部件用于采集一种模态的数据；确定模块，用于在从所述多个采集部件中的目标采集部件采集到的第一采集数据中识别出交互信息的情况下，确定获取到所述目标交互数据，其中，所述目标采集部件为与所述第一模态对应的采集部件，所述目标交互数据为所述第一采集数据。

在一个示例性实施例中，所述第二获取单元，包括：第二获取模块，用于获取所述多个采集部件中除了所述目标采集部件以外的其他采集部件所采集到的采集数据，得到所述目标参考数据，其中，所述其他采集部件为与所述第二模态对应的采集部件。

在一个示例性实施例中，所述装置还包括：第三获取单元，用于在所述获取使用对象所发出的目标交互数据之后，在根据所述目标交互数据获取到与所述第一交互操作对应的第二交互参数的情况下，获取所述使用对象所处的当前环境参数；更新单元，用于在所述第二交互参数与所述当前环境参数不匹配的情况下，使用所述当前环境参数更新所述第二交互参数，得到更新后的所述第二交互参数；第三执行单元，用于按照更新后的所述第二交互参数控制所述第一设备执行所述第一交互操作。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述智能设备的交互方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的智能设备的交互方法。

在本申请实施例中，采用当从目标交互数据中未能获取到与交互操作对应的交互参数时，融合交互数据和参考数据得到交互操作的交互参数，并控制对应的设备执行交互操作的方式，通过获取使用对象所发出的目标交互数据，其中，目标交互数据为第一模态的交互数据，目标交互数据用于触发第一设备执行第一交互操作；在根据目标交互数据未获取到与第一交互操作对应的交互参数的情况下，获取与目标交互数据对应的目标参考数据，其中，目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数；对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数；按照第一交互参数控制第一设备执行第一交互操作，如果根据一种模态的交互数据中未获取到执行交互操作所需的交互参数，可以融合相同模态或者不同模态的参考数据获取交互操作的交互参数，进而基于获取到的交互执行交互操作，对于语音交互或者非语音交互的场景，均可以实现提高交互参数获取成功率的目的，达到了提高人机交互的成功率的技术效果，进而解决了相关技术中的通过语音与智能设备进行交互的方式存在由于无法准确获取并识别语音数据导致的人机交互的成功率低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的智能设备的交互方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的智能设备的交互方法的流程示意图；

图3是根据本申请实施例的一种可选的智能设备的交互方法系统的示意图；

图4是根据本申请实施例的一种可选的智能设备的交互装置的结构框图；

图5是根据本申请实施例的一种可选的电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种智能设备的交互方法。可选地，在本实施例中，上述智能设备的交互方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑等。

本申请实施例的智能设备的交互方法可以由服务器104来执行，也可以由终端设备102来执行，还可以是由服务器104和终端设备102共同执行。其中，终端设备102执行本申请实施例的智能设备的交互方法也可以是由安装在其上的客户端来执行。

以由服务器104来执行本实施例中的智能设备的交互方法为例，图2是根据本申请实施例的一种可选的智能设备的交互方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤：

步骤S202，获取使用对象所发出的目标交互数据，其中，目标交互数据为第一模态的交互数据，目标交互数据用于触发第一设备执行第一交互操作。

本实施例中的智能设备的交互方法可以应用在终端设备、智能家居设备或者其他设备与用户进行交互的场景中，上述的智能家居设备可以是位于用户家庭中的智能家居设备，可以为智能电视机、智能冰箱等安装有智能芯片的电子设备。本实施例中对于智能设备的类型不做限定。

在使用对象(与使用智能设备的用户对应，其可以是用于表示智能设备的用户的对象)想要使用第一设备时，可以向终端设备发出目标交互数据，终端设备可以是第一设备，也可以是与第一设备关联的其他设备。终端设备可以通过其上的采集装置采集到目标交互数据，并将其发送给服务器。服务器可以获取到上述的目标交互数据，这里，目标交互数据可以为第一模态的交互数据，其可用于触发第一设备执行第一交互操作。

需要说明的是，“模态”是指一种信息的来源或者形式，例如，“模态”可以是指人的触觉、听觉、视觉、嗅觉等，又例如，“模态”可以是语音、视频、文字等信息的媒介。第一模态可以是使用对象发出交互数据的方式，可以是指数据类型，语音数据、手势数据等，本实施例中对此不做限定。

可选地，在采集到的目标交互数据中可能存在各种干扰因素，若直接将上述目标交互数据转发给服务器，会大大增加服务器的资源消耗，从而导致智能设备与使用对象交互的过程的延迟较高。在本实施例中，在采集到目标交互数据之后，终端设备可以对目标交互数据进行初步处理，以去除目标交互数据中的干扰数据，再将处理后的目标交互数据发送给服务器。

例如，在目标交互数据为使用对象发出的目标语音数据、且目标语音数据中存在其他人的异常语音数据时，可以对上述目标语音数据进行降噪操作，以消除目标语音数据中的噪音。当目标交互数据为使用对象发出的目标手势数据时，且上述目标手势数据中存在其他人的异常手势数据时，可以对移除目标手势数据中的异常手势数据，以消除目标手势数据中的干扰。

需要说明的是，第一设备可以是和使用对象处于同一地理环境中的智能家居设备(例如，智能冰箱等)，也可以是与使用对象对应的终端设备(例如，智能手机等)，还可以是其他智能设备(例如，智能导航机器人等)；第一交互操作可以是查询操作、购买操作，还可以是其他操作，本实施例中对此不做限定，

例如，当用户向智能手机发出“明天早上8点叫我起床”的语音数据之后，智能手机可以获取到上述交互语音数据，确定用户需要设定明天早上8点的闹钟，这里，设定闹钟的操作为第一交互操作。

需要说明的是，第一交互操作可以包含一个或者多个操作，例如，当用户向智能导航机器人发出“带我去XXX地方”的语音指令后，智能机器人可以先执行查询操作，确定从当前所处的位置到XXX地的路线，再执行导航操作，按照确定的路线指导用户去往XXX地。

步骤S204，在根据目标交互数据中未获取到与第一交互操作对应的交互参数的情况下，获取与目标交互数据对应的目标参考数据，其中，目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数。

在本实施例中，在获取到目标交互数据之后，服务器可以对根据目标交互数据，获取与要执行的交互操作所对应的交互参数。这里，与第一交互操作对应的交互参数可以有多种，对于执行第一交互操作所必须指定的交互参数，需要从目标交互数据中识别出对应的参数值，对于执行第一交互操作不是必须指定的交互参数，如果从目标交互数据中识别出对应参数值，可以使用从目标交互数据中识别出的参数值来执行第一交互操作，如果从目标交互数据中未识别出对应的参数值，则可以采用默认参数值来执行第一交互参数。

如果根据目标交互数据未获取到与第一交互操作对应的交互参数(可以是获取到其中的部分，但不足以执行递交交互操作)，服务器可以获取与目标交互数据对应的目标参考数据，上述目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数。

需要说明的是，第一模态和第二模态可以是相同的模态，也可以采用不同的模态。例如，当用户边咳嗽，边对其智能设备(例如，智能手机)上的AI(ArtificialIntelligence，人工智能)助手发出交互语音“我要吃点什么药”。AI助手根据当前的声音识别咳嗽声、以及图像识别用户的面部表情(目标参考数据的一种示例)，结合识别到的语音交互query，综合判断用户的意图是：咳嗽吃什么药。可选地，第二模态可以是多个模态，多个模态中的每个模态可以为不同的模态，例如，多个模态中可以包括图像模态或手势模态。

步骤S206，对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数。

在本实施例中，服务器在获取到目标交互数据以及目标参考数据之后，可以根据上述目标交互数据以及目标参考数据，控制第一设备执行第一交互操作。可选地，服务器可以对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数。

可选地，上述融合操作可以是从目标交互数据中提取出交互信息，从目标参考数据中提取出参考信息，再将交互信息和参考信息进行融合，得到融合信息，将上述融合信息确定为与第一交互操作对应的第一交互参数。上述交互信息和参考信息可以是特征向量，也可以是特征值，还可以是其他形式，本实施例中对此不做限定。

例如，当用户在智能冰箱中发现牛奶过期时，可以对智能冰箱发出“再帮我下单两瓶”的语音交互数据，智能冰箱可以获取语音交互数据，并确定与该语音交互数据所对应的交互操作为下单操作，但是无法确定下单的目标。此时，可以同步获取用户此时的图像数据，在识别到用户手中所拿的物品为牛奶时，可以确定下单的目标为牛奶。还可以确定牛奶的品牌、型号等等。

步骤S208，按照第一交互参数控制第一设备执行第一交互操作。

在获取到第一交互参数之后，服务器可以按照第一设备执行与第一交互参数匹配的第一交互操作。例如，服务器根据第一交互参数，生成与第一交互参数对应的控制指令，并将上述控制指令下发到第一设备上，以控制第一设备按照第一交互参数执行第一交互操作。又例如，服务器直接将第一交互参数发送至第一设备，第一设备在接收到第一交互参数后，根据第一交互参数生成控制指令，并根据上述控制指令执行第一交互操作，本实施例中对此不做限定。例如，当服务器获取到下单操作的目标为某一种牛奶之后，可以控制智能冰箱执行下单操作。

示例性地，AI助手通过硬件上的摄像头及其他感知传感器识别到当前的环境，当识别到是室内空间(例如商场)时，用户对AI助手语音交互问：“地铁站怎么走？”，AI助手根据环境信息，结合识别到的用户语音交互query，综合判断用户的意图是：查找室内交通地图。

在另一个环境中，AI助手通过硬件上的摄像头及其他感知传感器识别到当前的环境，当识别到是室外时，用户对AI助手语音交互问：“地铁站怎么走？”，AI助手根据环境信息，结合识别到的用户语音交互query，综合判断用户的意图是：查找室外交通地图。

通过上述步骤S202至步骤S208，获取使用对象所发出的目标交互数据，其中，目标交互数据为第一模态的交互数据，目标交互数据用于触发第一设备执行第一交互操作；在根据目标交互数据未获取到与第一交互操作对应的交互参数的情况下，获取与目标交互数据对应的目标参考数据，其中，目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数；对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数；按照第一交互参数控制第一设备执行第一交互操作，解决了相关技术中的通过语音与智能设备进行交互的方式存在由于无法准确获取并识别语音数据导致的人机交互的成功率低的技术问题，提高了人机交互的成功率。

在一个示例性实施例中，对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数，包括：

S11，对目标交互数据的第一特征向量和目标参考数据的第二特征向量执行融合操作，得到目标融合特征向量；

S12，使用目标融合特征向量识别出与第一交互操作对应的第一交互参数。

在本实施例中，目标服务器根据目标交互数据和目标参考数据对应的特征向量执行融合操作，即，目标服务器可以对目标交互数据的第一特征向量和目标参考数据的第二特征向量执行融合操作，得到目标融合特征向量。

将第一特征向量和第二特征向量进行融合的过程可以是将第一特征向量和第二特征向量在目标位置进行拼接，例如，可以将第二特征向量拼接在第一特征向量之后，得到目标融合特征向量，但是这种方式会导致融合后的特征向量过长，不利于后续使用目标融合特征向量识别出与第一交互操作对应的第一交互参数。可选地，可以利用多层卷积神经网络对第一特征向量和第二特征向量进行融合。

上述多层卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在卷积神经网络的一个卷积层中，通常包含若干个特征平面，每个特征平面由一些矩形排列的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核可以以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险，从而使得融合出的目标融合特征向量在保留第一特征向量以及第二特征向量的要素的同时，也不会使得融合后的特征向量过长。

通过本实施例，使用目标交互数据的第一特征向量和目标参考数据的第二特征向量进行融合操作，可以简化融合目标交互数据和目标参考数据的操作，加快融合的速度。

在一个示例性实施例中，获取与目标交互数据对应的目标参考数据，包括：

S21，根据目标交互数据的数据获取时间，获取与目标交互数据对应的目标参考数据。

由于在不同场景下，使用对象需要智能设备执行的交互操作可以是不同的。例如，在用户需要购买牛奶时，可以发出语音指令控制智能冰箱执行购买3瓶牛奶的下单操作，而如果用户需要购买苹果时，可以发出语音指令控制智能冰箱执行购买3斤苹果的下单操作。因此，获取的参考数据是与当前的交互场景匹配的。

在本实施例中，可以基于时间(或者，时间和空间)的关联性，获取与当前的交互数据匹配的参考数据。可选地，服务器可以根据目标交互数据的数据获取时间，获取与目标交互数据对应的目标参考数据，

例如，当服务器获取“再帮我下单两瓶”的语音指令的时间为第一时刻，从“再帮我下单两瓶”中未识别出下单的目标，可以获取智能冰箱内部的摄像头所采集到的、与第一时刻对应的采集图像，从而识别出下单的目标为牛奶。

通过本实施例，根据目标交互数据的数据获取时间，获取与目标交互数据对应的目标参考数据，可以提高设备交互操作执行的准确性。

S31，获取在数据获取时间之前的第一时间段内，通过第二设备采集到的目标参考数据；或者，

S32，获取在数据获取时间之后的第二时间段内，通过第二设备采集到的目标参考数据；或者，

S33，获取在包含数据获取时间的第三时间段内，通过第二设备采集到的目标参考数据。

在本实施例中，目标参考数据可以是由第二设备采集到的，第二设备与第一设备可以是相同的设备，也可以是不同的设备，其可以为智能家居设备，也可以为终端设备，还可以为其他设备。目标服务器获取到的参考数据可以是第二设备在一个时间段内采集到的参考数据，上述一个时间段与上述数据获取时刻的关系可以有多种。

作为一种可选的实施方式，目标参考数据可以是第二设备在数据获取时间之前的第一时间段内所采集到的数据。第一时间段可以是从数据获取时间向前查找到的有效参考数据所对应的时间段。

作为另一种可选的实施方式，目标参考数据可以是第二设备在数据获取时间之后的第二时间段内所采集到的数据。第二时间段可以是从数据获取时间向前查找到的有效参考数据所对应的时间段。

作为又一种可选的实施方式，目标参考数据可以是第二设备包含数据获取时间的第三时间段内所采集到的数据。第二时间段可以是从数据获取时间分别向前和向后所查找到的有效参考数据所对应的时间段。

通过本实施例，以数据获取时间为准向前、向后或者同时向前和先后查找第二设备所采集到的有效参考数据，可以提高获取到的参考数据的可信度。

在一个示例性实施例中，获取使用对象所发出的目标交互数据，包括：

S41，在检测到对第一设备的目标部件被使用的情况下，同时启动多个采集部件进行数据采集，其中，多个采集部件中的每个采集部件用于采集一种模态的数据；

S42，在从多个采集部件中的目标采集部件采集到的第一采集数据中识别出交互信息的情况下，确定获取到目标交互数据，其中，目标采集部件为与第一模态对应的采集部件，目标交互数据为第一采集数据。

相关技术中，在用于需要使用设备的智能交互功能时，需要唤醒词等来唤醒该功能。在本实施例中，可以预先设置自动唤醒的场景，例如，当智能设备的某一部件被使用时，可以直接触发唤醒交互功能，无需用户额外的操作，即可实现智能交互。对于第一设备，可以在其目标部件被使用时，自动唤醒交互功能。第一设备可以是智能冰箱、智能电视等智能家居设备，第一设备的目标部件可以是智能冰箱、智能电视等智能家居设备的零部件，例如，当第一设备为智能冰箱时，目标部件可以是智能冰箱的冰箱门、或者智能冰箱上的触摸屏等，本实施例中对此不做限定。

第一设备可以设置有多个采集部件，在第一设备的交互功能被唤醒时，可以同时启动多个采集部件进行数据采集，每个采集部件用于采集一种模态的数据，例如，当采集部件为麦克风时，可以采集使用对象的语音模态的数据，当采集部件为摄像头时，可以采集使用对象的图像模态的数据。在检测到对第一设备的目标部件被使用的情况下，目标服务器可以同时启动多个采集部件进行数据采集，得到多种模态的采集数据。可选地，在检测到对目标部件或者其他部件执行预定操作时，控制多个采集部件停止进行数据采集，例如，将其调整为休眠状态，以结束对数据的采集。

例如，当用户打开智能冰箱的冰箱门时，启动智能冰箱中的麦克风采集用户的语音，并同时启动智能冰箱中的摄像头采集用户的图像。当用户关闭智能冰箱的冰箱门时，将智能冰箱中的麦克风以及摄像头关闭，以停止对数据的采集。

上述自动启动交互功能的方式可以是在获取用户的授权之后启动的，例如，用户可以预先配置是否开启自动启动交互功能；或者，也可以在启动自动交互功能，通过语音等提示信息提示用户是否授权进行数据采集，并在获得用户授权之后，才启动数据采集。

第一设备中可能会存在多个目标部件，可选地，可以在检测到对多个目标部件中的任意一个被使用的情况下，同时启动多个采集部件进行数据采集，也可以对多个目标部件进行指定，只有当检测到指定的目标部件被使用时，才会同时启动多个采集部件进行数据采集。

在启动多个采集部件进行数据采集之后，目标服务器可以获取到每个采集部件所采集到的数据，并对每个采集部件所采集到的数据进行识别。如果从目标采集部件采集到的第一采集数据中识别出交互信息，确定获取到目标交互数据，目标采集部件为与第一模态对应的采集部件，目标交互数据为第一采集数据。

上述识别交互信息的过程，可以是识别采集数据中的交互关键词等交互关键信息，上述关键词可以是用户在交互过程中表示用途或者疑问的词，例如，当识别出语音数据“这个物品，帮我下单两瓶”中的“下单”时，该词为一个交互关键词，目标服务器可以确定识别到目标交互数据。

需要说明的是，由于启动了多个采集部件进行数据采集，需要占用大量的存储空间来存储采集到的数据。为了节省采集数据所占用的存储空间，可以在采集数据的过程中，分段的对采集的数据进行存储，分析上述数据中是否包含交互数据，并对存储的原有采集数据进行删除，并将新采集到的数据进行存储，从而减少对存储空间的占用。例如，可以将存储的时间间隔设定为30s，每隔30s之后，将存储的原有数据进行删除。

通过本实施例，当检测到对第一设备的目标部件被使用时，自动启动多个采集部件进行数据采集，可以保证交互的流畅性，提高用户的使用体验。

S51，获取多个采集部件中除了目标采集部件以外的其他采集部件所采集到的采集数据，得到目标参考数据，其中，其他采集部件为与第二模态对应的采集部件。

在确定第一采集数据为交互数据时，目标服务器可以对多个采集部件中除了目标采集部件以外的其他采集部件所采集到的采集数据进行存储，并在需要这些数据作为参考数据时获取存储的数据，或者，也可以直接将其他采集部件所采集到的采集数据作为参考数据使用。

可选地，目标服务器可以获取多个采集部件中除了目标采集部件以外的其他采集部件所采集到的采集数据，将获取到的采集数据作为目标参考数据与目标交互数据进行数据融合，以确定待执行的交互操作。

通过本实施例，通过自然无感将用户交互的语音信息流和图像信息流进行融合将启动的多个采集部件中的部分部件所采集到的采集数据作为参考数据，以确定待执行的交互操作，利用了采集数据之间在时间维度和空间维度上的关联性，提高交互操作识别的准确率。

在一个示例性实施例中，在获取使用对象所发出的目标交互数据之后，上述方法还包括：

S61，在根据目标交互数据获取到与第一交互操作对应的第二交互参数的情况下，获取使用对象所处的当前环境参数；

S62，在第二交互参数与当前环境参数不匹配的情况下，使用当前环境参数更新第二交互参数，得到更新后的第二交互参数；

S63，按照更新后的第二交互参数控制第一设备执行第一交互操作。

在本实施例中，如果能够根据目标交互数据获取到与第一交互操作对应的交互参数，即，第二交互参数，可以直接按照第二交互参数控制第一设备执行第一交互操作。考虑到在不同的场景下，用户所期望的交互操作存在区别，因此，对于第二交互参数中包含的采用默认参数值的交互参数可能无法符合用户的期望。因此，对于未识别出的交互参数按照默认参数值来执行交互操作的方式，存在交互操作的执行结果与交互操作的执行期望之间的匹配度低的问题。

例如，当用户对AI助手语音交互问：“XX地怎么走？”时，由于未识别出指定的交通工具，即，未指定交通工具这个参数的参数值，可以默认采用任意交通工具到达XX地，终端设备可以向用户展示能够达到XX地的所有交通工具。

然而，如果用户正处于室外环境中(例如，地铁站内)，其更期望的交通工具为地铁，而如果用户正处在室外环境中，其更期望的交通工具为公交。

在本实施例中，在获取到第二交互参数之后，服务器可以获取使用对象所处的当前环境参数，获取当前环境参数的方式可以有多种，例如，通过终端设备上的图像采集设备进行图像采集，并对采集到的环境图像进行识别，确定当前环境参数，又例如，可以通过终端设备上的麦克风阵列等进行声音采集，并对采集到的环境声音进行识别，确定当前环境参数。

如果第二交互参数与当前环境参数不匹配，则可以使用当前环境参数更新第二交互参数，得到更新后的第二交互参数，更新的方式可以是：将与当前环境参数对应的交互参数的参数值，更新为与当前环境参数匹配的参数值。在更新完第二交互参数之后，终端设备可以按照更新后的第二交互参数控制第一设备执行第一交互操作。

通过本实施例，使用环境参数更新交互操作的交互参数，可以提高执行交互操作的方式与执行期望的匹配度，进而提升用户的使用体验。

下面结合可选示例对本申请实施例中的智能设备的交互方法进行解释说明。在本可选示例中，智能设备为智能冰箱、智能导航机器人等家电设备。

随着智能家居生态中的家电普遍具备人机交互能力，基于语音和图像等模态数据的交互越来越成为主流的人机交互方式，但是无论是语音交互还是视觉交互均存在单一模态的场景问题(例如语音交互的环境噪音问题，人脸识别的图像遮挡问题)。

为解决单一模态的场景问题，本可选示例中提供了一种多模态融合身份识别和语义理解的方案，将语音信息流和图像信息流进行融合，针对家庭场景下的多模态数据进行训练，让家电设备类似人一样通过多模态感知，进而学习、理解人的意图、与人进行交互。

在本可选示例中，可以融合视觉交互、语音交互、手势交互等交互方式进行人机交互，丰富了家电设备与人的交互互动方式，提升家电设备的人性化程度。并且，在用户与家电设备的自然交互中，无需用户刻意录入信息，将用户的语音信息流和图像信息流进行多模态融合，综合多模态感知信息进行用户身份识别、自然语言理解等，不需要和用户多轮交互获取更多信息，可以提升自然语言理解的准确率。这里，上述的多模态感知信息可以包括环境信息、用户信息(表情、手势、声音等)。

本可选示例中的智能设备的交互方法可以应用到如图3所示的人机交互系统，该系统可以分为三大模块，分别为：

1)多模态融合感知模块

上述多模态融合感知模块可以从单一模态的感知到多模态感知，能够做到即使某种模态失效或缺失时仍能正常工作、得到有效信息，大大提高模型的鲁棒性，提升感知用户和环境信息的全面性和准确性。例如，在用户和家电设备日常交互中，以声纹模型聚类的方式，对说话人的身份空间及说话信息进行处理，达到确认说话人身份的目的。同时将说话人的图像信息与声纹模型进行关联，将声音与图像的感知信息融合输入，进行多模态感知信息学习，实现通过语音或图像信息即可辨识特定用户，满足个性化设备控制、个性化信息播报、个性化服务推荐等场景需求。

2)多模态融合理解模块

多模态融合理解模块可以将视觉信息与语音信息互补，用户无需说出语义理解需要的所有信息，可以使用省略、指代等说法，能够做到让用户更自然的交互，机器更准确的理解用户意图。

3)多模态融合交互模块

多模态融合交互模块可以支持融合视觉交互、语音交互、手势交互等交互方式，丰富了家电设备与人的交互互动方式，提升家电设备的人性化程度。

通过本可选示例，可以自然无感地将用户交互的语音信息流和图像信息流进行融合，可以方便家电设备理解人的意图、与人进行交互，从而提高了家电设备的智能服务能力，提升了用户的人机交互效率和满意度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述智能设备的交互方法的智能设备的交互装置。图4是根据本申请实施例的一种可选的智能设备的交互装置的结构框图，如图4所示，该装置可以包括：

第一获取单元402，用于获取使用对象所发出的目标交互数据，其中，目标交互数据为第一模态的交互数据，目标交互数据用于触发第一设备执行第一交互操作；

第二获取单元404，与第一获取单元402相连，用于在根据目标交互数据未获取到与第一交互操作对应的交互参数的情况下，获取与目标交互数据对应的目标参考数据，其中，目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数；

第一执行单元406，与第二获取单元404相连，用于对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数；

第二执行单元408，与第一执行单元406相连，用于按照第一交互参数控制第一设备执行第一交互操作。

需要说明的是，该实施例中的第一获取单元402可以用于执行上述步骤S202，该实施例中的第二获取单元404可以用于执行上述步骤S204，该实施例中的第一执行单元406可以用于执行上述步骤S206，该实施例中的第二执行单元408可以用于执行上述步骤S208。

通过上述模块，获取使用对象所发出的目标交互数据，其中，目标交互数据为第一模态的交互数据，目标交互数据用于触发第一设备执行第一交互操作；在根据目标交互数据未获取到与第一交互操作对应的交互参数的情况下，获取与目标交互数据对应的目标参考数据，其中，目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数；对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数；按照第一交互参数控制第一设备执行第一交互操作，解决了相关技术中的通过语音与智能设备进行交互的方式存在由于无法准确获取并识别语音数据导致的人机交互的成功率低的技术问题，提高了人机交互的成功率。

在一个示例性实施例中，第一执行单元，包括：

执行模块，用于对目标交互数据的第一特征向量和目标参考数据的第二特征向量执行融合操作，得到目标融合特征向量；

识别模块，用于使用目标融合特征向量获取与第一交互操作对应的第一交互参数。

在一个示例性实施例中，第二获取单元，包括：

第一获取模块，用于根据目标交互数据的数据获取时间，获取与目标交互数据对应的目标参考数据。

在一个示例性实施例中，第一获取模块，包括：

第一获取子模块，用于获取在数据获取时间之前的第一时间段内，通过第二设备采集到的目标参考数据；或者，

第二获取子模块，用于获取在数据获取时间之后的第二时间段内，通过第二设备采集到的目标参考数据；或者，

第三获取子模块，用于获取在包含数据获取时间的第三时间段内，通过第二设备采集到的目标参考数据。

在一个示例性实施例中，第一获取单元，包括：

启动模块，用于在检测到对第一设备的目标部件被使用的情况下，同时启动多个采集部件进行数据采集，其中，多个采集部件中的每个采集部件用于采集一种模态的数据；

确定模块，用于在从多个采集部件中的目标采集部件采集到的第一采集数据中识别出交互信息的情况下，确定获取到目标交互数据，其中，目标采集部件为与第一模态对应的采集部件，目标交互数据为第一采集数据。

在一个示例性实施例中，第二获取单元，包括：

第二获取模块，用于获取多个采集部件中除了目标采集部件以外的其他采集部件所采集到的采集数据，得到目标参考数据，其中，其他采集部件为与第二模态对应的采集部件。

在一个示例性实施例中，上述装置还包括：

第三获取单元，用于在获取使用对象所发出的目标交互数据之后，在根据目标交互数据获取到与第一交互操作对应的第二交互参数的情况下，获取使用对象所处的当前环境参数；

更新单元，用于在第二交互参数与当前环境参数不匹配的情况下，使用当前环境参数更新第二交互参数，得到更新后的第二交互参数；

第三执行单元，用于按照更新后的第二交互参数控制第一设备执行第一交互操作。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行本申请实施例中上述任一项智能设备的交互方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取使用对象所发出的目标交互数据，其中，目标交互数据为第一模态的交互数据，目标交互数据用于触发第一设备执行第一交互操作；

S2，在根据目标交互数据未获取到与第一交互操作对应的交互参数的情况下，获取与目标交互数据对应的目标参考数据，其中，目标参考数据为第二模态的参考数据，目标参考数据用于辅助确定与第一交互操作对应的交互参数；

S3，对目标交互数据和目标参考数据执行融合操作，得到与第一交互操作对应的第一交互参数；

S4，按照第一交互参数控制第一设备执行第一交互操作。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请实施例的又一个方面，还提供了一种用于实施上述智能设备的交互方法的电子装置，该电子装置可以是服务器、终端、或者其组合。

图5是根据本申请实施例的一种可选的电子装置的结构框图，如图5所示，包括处理器502、通信接口504、存储器506和通信总线508，其中，处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信，其中，

存储器506，用于存储计算机程序；

处理器502，用于执行存储器506上所存放的计算机程序时，实现如下步骤：

S4，按照第一交互参数控制第一设备执行第一交互操作。

可选地，通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线、或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器506中可以但不限于包括上述智能设备的交互装置中的第一获取单元402、第二获取单元404、第一执行单元406以及第二执行单元408。此外，还可以包括但不限于上述智能设备的交互装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图5所示的结构仅为示意，实施上述智能设备的交互方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种智能设备的交互方法，其特征在于，包括：

获取使用对象所发出的目标交互数据，其中，所述目标交互数据为第一模态的交互数据，所述目标交互数据用于触发第一设备执行第一交互操作；

在根据所述目标交互数据未获取到与所述第一交互操作对应的交互参数的情况下，获取与所述目标交互数据对应的目标参考数据，其中，所述目标参考数据为第二模态的参考数据，所述目标参考数据用于辅助确定与所述第一交互操作对应的交互参数；

对所述目标交互数据和所述目标参考数据执行融合操作，得到与所述第一交互操作对应的第一交互参数；

按照所述第一交互参数控制所述第一设备执行所述第一交互操作。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标交互数据和所述目标参考数据执行融合操作，得到与所述第一交互操作对应的第一交互参数，包括：

对所述目标交互数据的第一特征向量和所述目标参考数据的第二特征向量执行融合操作，得到目标融合特征向量；

使用所述目标融合特征向量获取与所述第一交互操作对应的所述第一交互参数。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述目标交互数据对应的目标参考数据，包括：

根据所述目标交互数据的数据获取时间，获取与所述目标交互数据对应的所述目标参考数据。

4.根据权利要求3所述的方法，其特征在于，所述获取与所述目标交互数据对应的目标参考数据，包括：

获取在所述数据获取时间之前的第一时间段内，通过第二设备采集到的所述目标参考数据；或者，

获取在所述数据获取时间之后的第二时间段内，通过第二设备采集到的所述目标参考数据；或者，

获取在包含所述数据获取时间的第三时间段内，通过第二设备采集到的所述目标参考数据。

5.根据权利要求1所述的方法，其特征在于，所述获取使用对象所发出的目标交互数据，包括：

在检测到对所述第一设备的目标部件被使用的情况下，同时启动多个采集部件进行数据采集，其中，所述多个采集部件中的每个采集部件用于采集一种模态的数据；

在从所述多个采集部件中的目标采集部件采集到的第一采集数据中识别出交互信息的情况下，确定获取到所述目标交互数据，其中，所述目标采集部件为与所述第一模态对应的采集部件，所述目标交互数据为所述第一采集数据。

6.根据权利要求5所述的方法，其特征在于，所述获取与所述目标交互数据对应的目标参考数据，包括：

获取所述多个采集部件中除了所述目标采集部件以外的其他采集部件所采集到的采集数据，得到所述目标参考数据，其中，所述其他采集部件为与所述第二模态对应的采集部件。

7.根据权利要求1至6中任一项所述的方法，其特征在于，在所述获取使用对象所发出的目标交互数据之后，所述方法还包括：

在根据所述目标交互数据获取到与所述第一交互操作对应的第二交互参数的情况下，获取所述使用对象所处的当前环境参数；

在所述第二交互参数与所述当前环境参数不匹配的情况下，使用所述当前环境参数更新所述第二交互参数，得到更新后的所述第二交互参数；

按照更新后的所述第二交互参数控制所述第一设备执行所述第一交互操作。

8.一种智能设备的交互装置，其特征在于，包括：

第一获取单元，用于获取使用对象所发出的目标交互数据，其中，所述目标交互数据为第一模态的交互数据，所述目标交互数据用于触发第一设备执行第一交互操作；

第二获取单元，用于在根据所述目标交互数据未获取到与所述第一交互操作对应的交互参数的情况下，获取与所述目标交互数据对应的目标参考数据，其中，所述目标参考数据为第二模态的参考数据，所述目标参考数据用于辅助确定与所述第一交互操作对应的交互参数；

第一执行单元，用于对所述目标交互数据和所述目标参考数据执行融合操作，得到与所述第一交互操作对应的第一交互参数；

第二执行单元，用于按照所述第一交互参数控制所述第一设备执行所述第一交互操作。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。