CN114047901A

CN114047901A - 人机交互方法及智能设备

Info

Publication number: CN114047901A
Application number: CN202111414636.7A
Authority: CN
Inventors: 朱益; 鲍懋; 钱能锋; 张文杰
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-15
Anticipated expiration: 2041-11-25
Also published as: CN114047901B

Abstract

本申请实施例提供了一种人机交互方法及智能设备，其中，人机交互方法包括：获取智能设备针对其所在空间环境中的交互对象采集的多模态数据，其中，所述多模态数据包括以下模态数据中的至少两种：语音数据、图像数据、针对所述智能设备的触摸数据；对所述多模态数据进行多模态聚类，根据多模态聚类的结果获取所述交互对象的属性信息和行为模态数据；根据所述属性信息和所述行为模态数据，主动与所述交互对象进行交互。通过本申请实施例，智能设备可主动发起交互，以与交互对象进行沟通和交流，提升智能设备向用户提供的功能服务的触达率，以及用户的交互体验。

Description

人机交互方法及智能设备

技术领域

本申请实施例涉及物联网技术领域，尤其涉及一种人机交互方法及智能设备。

背景技术

随着人工智能技术和终端技术的发展，智能设备越来越多地应用于人们的工作和生活中。

在通常情况下，用户多通过语音与智能设备交互，语音交互基本上可作为智能设备的关键核心交互手段，因此语音交互的好坏直接决定了用户与智能设备的交互度(互动参与度)。以智能音箱为例，用户一方面可以通过语音与智能音箱进行交互；另一方面，用户还可以通过语音与智能音箱桥接的其它设备(如智能电视、智能冰箱、智能空调等)进行交互。

但是，上述现有的交互手段均为由用户发起的主动交互，智能设备仅能被动交互，严重降低了智能设备向用户提供的功能服务的触达率，用户的交互体验较差。

发明内容

有鉴于此，本申请实施例提供一种人机交互方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种人机交互方法，包括：获取智能设备针对其所在空间环境中的交互对象采集的多模态数据，其中，所述多模态数据包括以下模态数据中的至少两种：语音数据、图像数据、针对所述智能设备的触摸数据；对所述多模态数据进行多模态聚类，根据多模态聚类的结果获取所述交互对象的属性信息和行为模态数据；根据所述属性信息和所述行为模态数据，主动与所述交互对象进行交互。

根据本申请实施例的第二方面，提供了一种智能设备，包括：处理器、输入设备、输出设备；其中：所述输入设备包括可采集或接收不同模态数据的多个输入装置，所述多个输入装置用于分别采集或接收所述智能设备所在空间环境中的交互对象的多种模态数据；所述处理器用于获取所述多个输入装置采集或接收的所述多种模态数据并形成多模态数据，以通过如第一方面所述的人机交互方法，确定主动与所述交互对象进行交互的交互方式和交互内容；所述输出设备用于根据所述处理器确定的交互方式和交互内容，与所述交互对象进行交互。

根据本申请实施例提供的人机交互方案，智能设备会对其所在的空间环境进行检测，尤其是在空间环境中存在交互对象时，针对空间环境中的交互对象进行检测，以获取交互对象的多模态数据。需要说明的是，该多模态数据不限于是交互对象与智能设备进行交互时的多模态数据，也可以是非交互意图下的多模态数据。智能设备基于获取的多模态数据进行多模态聚类，以获得相应的交互对象的属性信息(如交互对象在家庭中的角色信息，如孩子、爸爸、妈妈等)，进而可获得该交互对象的行为模态数据，通过行为模态数据，可获知交互对象的惯常行为模式、偏好等等信息。基于此，智能设备可主动发起交互，以与交互对象进行沟通和交流，提升智能设备向用户提供的功能服务的触达率，以及用户的交互体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本申请实施例一的一种人机交互方法的步骤流程图；

图1B为图1A所示实施例中的一种过程框架示意图；

图1C为图1A所示实施例中的一种场景示例的示意图；

图2A为根据本申请实施例二的一种人机交互方法的步骤流程图；

图2B为图2A所示实施例中的一种风格定义的示例图；

图2C为图2A所示实施例中的一种风格框架示意图；

图2D为图2A所示实施例中的一种场景示例的示意图；

图3A为根据本申请实施例三的一种人机交互方法的步骤流程图；

图3B为图3A所示实施例中的一种感知空间的示意图；

图3C为图3A所示实施例中的一种场景示例的示意图；

图4A为根据本申请实施例四的一种人机交互方法的步骤流程图；

图4B为图4A所示实施例中的一种唤醒指令响应的流程示意图；

图4C为图4A所示实施例中的一种场景示例的示意图；

图5A为根据本申请实施例五的一种人机交互方法的步骤流程图；

图5B为图5A所示实施例中的一种场景示例的示意图；

图6为根据本申请实施例六的一种智能设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一

参照图1A，示出了根据本申请实施例一的一种人机交互方法的步骤流程图。

本实施例的人机交互方法包括以下步骤：

步骤S102：获取智能设备针对其所在空间环境中的交互对象采集的多模态数据。

其中，多模态数据包括以下模态数据中的至少两种：语音数据、图像数据、针对智能设备的触摸数据。

具有多模态数据采集功能的智能设备通常配备有多种不同的接收装置或传感器，例如，摄像头、麦克风、触摸屏、压力传感器、距离传感器、红外传感器等等，以保障多模态数据的有效采集。

需要说明的是，本申请实施例中，采集的交互对象的多模态数据可能是交互对象在想要与智能设备交互时，针对智能设备的多模态数据；也可能是交互对象在并没有与智能设备进行交互的意图，仅是在智能设备所在空间环境中活动时产生的多模态数据。

多模态数据中的语音数据可通过智能设备的语音采集装置如麦克风采集获得，图像数据可通过智能设备的图像采集装置如摄像头采集获得，触摸数据可通过相应的传感器如触摸屏的压力传感器或触摸按钮或开头的压力传感器等，在交互对象触摸或按压智能设备时采集获得。

步骤S104：对多模态数据进行多模态聚类，根据多模态聚类的结果获取交互对象的属性信息和行为模态数据。

交互对象的多模态数据是相互之间具有较强关联和相似度，但采用了不同描述方式的数据，通过对多模态数据进行多模态聚类，可以获得交互对象的属性或特征，这些属性或特征可更有效地表征交互对象。其中，对多模态数据进行多模态聚类的具体方式可由本领域技术人员根据实际情况采用适当方式实现，例如，可采用基于多模态数据进行多模态聚类的神经网络模型等实现，本申请实施例对此不作限制。

本申请实施例中，通过多模态聚类，可获得交互对象的属性信息，包括但不限于：交互对象的角色信息，例如，交互对象为家庭成员中的爸爸、妈妈、孩子、爷爷、奶奶等，但不限于此，还可以包括诸如交互对象的年纪，甚至当前状态、位姿等信息。

进而，基于交互对象的属性信息可获得对应的行为模态数据。该行为模态数据可以是智能设备在投入使用后，前期收集交互对象的行为数据后分析获得的，也可以是预先获得的不针对特定对象的大数据统计分析后的结果。行为模态数据与属性信息具有对应关系，该对应关系也可预先存储在需要时使用即可。可选地，所述行为模态数据包括但不限于基于交互对象的历史行为获得的行为偏好数据，或者，预先设定的交互对象的行为偏好数据，或者，其它可反映交互对象的行为模式的数据，等等。

例如，在一种可行方式中，若通过多模态聚类的结果确定当前交互对象为家庭中的孩子A，则可获得预先存储的针对该孩子A的行为模态数据，如，动画X、动画Y、魔术、闪亮的灯光等。在另一种可行方式中，若通过多模态聚类的结果确定当前交互对象为家庭中的孩子B，女孩，年纪为5-6岁，则可获得预先存储的针对5-6岁的小女孩的行为模态数据，如，动画M、动画N、拼图，闪亮的灯光等。后续，则可基于这些数据，由智能设备主动发起与交互对象的交互。

步骤S106：根据交互对象的属性信息和行为模态数据，主动与交互对象进行交互。

仍采用前例，假设当前交互对象为家庭中的孩子A，通过其属性信息获知其昵称为“小A”，其对应的行为模态数据为：动画X、动画Y、魔术、闪亮的灯光等。再假设孩子A当前正在智能设备前的茶几上看书，则智能设备基于获得的上述信息可主动发起交互，例如，使用动画X中的某一角色的声音说：“小A，歇会儿吧，我给你来场灯光秀好不好？”假如，孩子A回复“好”，则智能设备可控制当前空间环境中的智能灯按照预设的规则变换灯效，或者，智能设备也可以控制其自身配置的灯光装置变换灯效等，从而实现智能设备与孩子A的主动交互。

需要说明的是，上述仅为示例性说明，在实际应用中，可选地，根据交互对象的属性信息和行为模态数据，主动与交互对象进行交互可以实现为：根据所述属性信息和所述行为模态数据，主动与交互对象进行以下交互中的至少一种：展示与所述属性信息和所述行为模态数据相匹配的视觉界面、自身展示与所述属性信息和所述行为模态数据相匹配的灯效、控制灯光设备展示与所述属性信息和所述行为模态数据相匹配的灯效、合成与所述属性信息和所述行为模态数据相匹配的交互语音并播放，等等。由此，可极大地提升交互对象与智能设备之间的交互感，提升智能设备的使用体验及其功能的触达率。

此外，在一种可行方式中，除可根据所述属性信息和所述行为模态数据，主动与交互对象进行交互外，还可为交互对象提供相匹配的情景服务，包括但不限于：音频播放服务、视频播放服务、当前交互对象或当前交互对象之外的其它交互对象的看护服务等。由此，使得智能设备更具智能化、情感化、拟人化，可以更好地满足实际的应用需求。

例如，智能设备根据采集的多模态数据确定交互对象为老人，则除可与老人进行主动交互外，在老人活动时还可对其进行看护检测，一旦发现老人出现异常，如摔倒等，则可通过预设方式进行报警，如发出“奶奶摔倒了，快来人呀！”的提示语音，或者，发出报警铃声，或者，拨打存储的联系电话，等等。

图1B示出了上述过程的一种过程框架示例，图1B中左侧上方示出了从接收多模态数据，对其进行多模态聚类处理，基于处理结果进行针对交互对象的个性化(根据交互对象的属性信息和行为模态数据确定)主动交互反馈，以及，在此基础上提供情景服务的过程。

图1B中，情景服务示例为“个体情境”服务、“家庭情境”服务、“社交情景”服务、“兴趣情境”服务、以及“行为情境”服务。其中，“个体情境”服务可在智能设备所处空间环境中仅有一个交互对象时向该交互对象提供个性化的服务，如在询问“要听XX歌曲吗”并收到确定答复后播放该交互对象喜爱的歌曲等；“家庭情境”服务可在智能设备所处空间环境中存在多个家庭交互对象(例如为家庭成员对象)时向该多个家庭交互对象提供服务，如询问“是否要看XXX电影”进而在收到确定答复后播放该电影等；“社交情景”服务可在智能设备所处空间环境中存在非家庭交互对象时向该交互对象或者向包括家庭交互对象和非家庭交互对象在内的多个交互对象提供服务，如询问“最近XX节目特别火爆，要不要一起看下啊？”，在收到确定答复后可播放该节目；“兴趣情境”服务可使智能设备根据交互对象的兴趣提供相应的服务，例如，智能设备检测到交互对象在画画，则可主动询问“XXX里有绘画教程，要不要看？”，在收到确定答复后可展示该教程的信息或者播放教程视频等；“行为情境”服务可使智能设备根据交互对象的交互行为提供服务，例如，交互对象A夸赞交互对象B的衣服好看，智能设备可主动参与交互，如发出语音“我也觉得你这件衣服很好看”，等等。

图1B右下方由6个方框形成的十字形描述了情况服务的具体提供过程，由图中可见，智能设备提供的情景服务通过模型实现。首先，在“建模”阶段进行模型定义，包括对模型的结构、使用的参数、方法、调用等进行定义；在“执行”阶段，如在模型使用时，模型在接收到相应的信息(如交互对象的属性信息、行为模态数据、对多模态数据进行相应检测后获得的数据等中的一种或多种)后，通过服务引擎对其解析，并依据解析结果和预置的规则确定待调用的情景服务，进而，进行服务调用。被调用服务为已预先进行过服务注册的情景服务，其接收服务管理程序的管理，并通过该管理程序接收调用，提供相应的情景服务。此外，在“优化”阶段，每次向交互对象提供的服务都会被记录，一方面，可供后续进行分析，完善或改进向交互对象提供的服务；另一方面，可对提供情景服务的模型进行优化。此外，模型还会持续进行数据收集，进而，对收集的数据进行调整以适配模型后，再进行相应处理，如永久存储或隐私信息保护，在需要时通过缓存和系统总线提供给模型使用。

以下，以智能设备为智能音箱为例，对本实施例的人机交互方法进行示例性说明，如图1C所示。

如图1C所示，交互对象坐在智能音箱前面的沙发上看书，一直未与智能音箱进行交互。期间，智能音箱一直采集该交互对象的多模态数据，本示例设定为语音数据和图像数据，一方面，基于这些多模态数据进行多模态聚类后，获得该交互对象的角色信息及其行为模态数据；另一方面，基于这些多模态数据对交互对象进行状态检测。本示例中，设定智能音箱在检测到该交互对象已持续阅读半个小时后，主动与该交互对象进行交互，如，使用该交互对象喜爱的某明星的语音和语调，发出“看了很久了，我给你放首音乐休息下吧”的声音。假设该交互对象回复“好啊”，则智能音箱将根据该交互对象的属性信息和行为模态数据，从多首音乐中挑选出符合该交互对象偏好的音乐，并进行播放。

可见，通过本实施例，智能设备会对其所在的空间环境进行检测，尤其是在空间环境中存在交互对象时，针对空间环境中的交互对象进行检测，以获取交互对象的多模态数据。需要说明的是，该多模态数据不限于是交互对象与智能设备进行交互时的多模态数据，也可以是非交互意图下的多模态数据。智能设备基于获取的多模态数据进行多模态聚类，以获得相应的交互对象的属性信息(如交互对象在家庭中的角色信息，如孩子、爸爸、妈妈等)，进而可获得该交互对象的行为模态数据，通过行为模态数据，可获知交互对象的惯常行为模式、偏好等等信息。基于此，智能设备可主动发起交互，以与交互对象进行沟通和交流，提升智能设备向用户提供的功能服务的触达率，以及用户的交互体验。

实施例二

参照图2A，示出了根据本申请实施例二的一种人机交互方法的步骤流程图。

本实施例的人机交互方法中，智能设备除可执行前述实施例一中所述的操作外，在进行交互时还可充分考虑交互对象当前的情感，采用相适配的交互风格与交互对象进行交互。

本实施例的人机交互方法包括以下步骤：

步骤S202：获取智能设备针对其所在空间环境中的交互对象采集的多模态数据。

本实施例中，多模态数据除可包括语音数据、图像数据、针对智能设备的触摸数据中的至少两种外，还包括交互对象的当前情感数据，该当前情感数据可表征交互对象的当前情感状态。

例如，智能设备可以通过摄像头、麦克风、触摸屏、传感器等基础算法能力感知其所在空间环境中的交互对象及周围情境，同时判定与交互对象有关的基本信息，如交互对象的位置、与智能设备之间的距离、交互对象的意图等信息。进而，基于这些信息确定交互对象的当前情感状态，例如通过神经网络模型或分析算法的方式，对这些信息进行分析，以获得相应的情感状态。

本实施例中，将交互对象的情感状态划分为不同的风格，一种风格示例如图2B所示，其分为积极、中立和消极三类。其中，热情、兴趣、决心、激动、娱乐、灵感、活跃、自豪、放松、快乐等状态都属于积极风格；严肃、自然、平和、懒散、传统(如平静或与日常状态一致)等状态属于中立风格；忧伤、悲伤、愤怒、紧张、焦虑、痛苦、恐惧、憎恨等状态都属于消极风格。

此外，多模态数据中可以包含有交互对象与其他交互对象的交互行为数据，和/或交互对象与智能设备之间的交互行为数据等，通过这些数据可更为准确地确定交互对象的当前情况。

步骤S204：对多模态数据进行多模态聚类，根据多模态聚类的结果获取交互对象的属性信息和行为模态数据；并且，基于多模态数据进行交互对象的情感识别，根据情感识别结果确定待使用的交互风格类型。

其中，对多模态数据进行多模态聚类，根据多模态聚类的结果获取交互对象的属性信息和行为模态数据的实现可参照前述实施例一中的相关描述，在此不再赘述。

而在基于多模态数据进行交互对象的情感识别，根据情感识别结果确定待使用的交互风格类型时，可采用具有该功能的神经网络模型实现，或者，使用多个神经网络模型组合实现。

一种实现该功能的风格框架示意如图2C所示，在图2C中，各神经网络和编码器可以部署在智能设备端，也可以部署在云端，或者部分部署在智能设备端部分部署在云端。当存在部署在云端的神经网络或编码器时，智能设备需要将相应的多模态数据上传至云端，再由云端的神经网络或编码器进行处理。如图2C中所示，本示例中，用于处理多模态数据中的图像数据的神经网络部分部署在智能设备端，采用了轻量级的卷积网络的形式，即轻量卷积网络；部分部署在云端，采用了深度残差网络加前馈神经网络的形式。

针对图像数据，一方面，在轻量卷积网络对图像数据进行了初步处理后，将结果上传至云端的深度残差网络；另一方面，图像数据在传输给轻量卷积网络的同时，也会传输给深度残差网络，以供深度残差网络结合轻量卷积网络的输出使用，以获得信息更为丰富和细节的图像特征。

针对交互对象的当前情感状态，以其对应的风格的形式进行处理，可将风格首先进行独热编码，再将独热编码后的风格数据进行线性处理，生成风格编码。

在图2C中，将交互对象的行为模态数据采用词级标记的形式，可以简单理解为从行为模态数据中提取出关键词，形成历史人机交互数据。该数据通过Transformer编码器进行编码后，也进行线性处理，获得相应的历史人机交互编码。

此外，图2C中，还使用了潜在主动交互数据，该潜在主动交互数据为智能设备根据当前的多模态数据可能采取的主动交互的文本数据并进行处理后的数据，如可能与交互对象进行主动语音交互时的语音文本等，其同样采用词级标记的形式，即从文本中提取出相应的关键词形成的潜在主动交互数据。该数据通过Transformer编码器进行编码后，也进行线性处理，获得相应的潜在主动交互编码。其中，如图2C中所示，两个Transformer编码器之间及两部分线性处理之间均采用了权重共享的方式。

在获得了图像特征、风格编码、历史人机交互编码和潜在主动交互编码后，可对这几部分数据进行多模态整合和点积运算，进而可获得风格评分，该风格评分可用于确定智能设备与交互对象交互时待使用的交互风格类型。在实际应用中，交互风格类型可由本领域技术人员根据实际需求适当设置，也可采用图2B中所示风格。

步骤S206：根据交互对象的属性信息和行为模态数据，按照交互风格类型所指示的交互风格主动与交互对象进行交互。

例如，交互对象消极风格下适当进行安抚，在交互对象兴奋风格下给予正向反馈，在交互对象中性风格下给予积极的反馈等。在具体反馈时，可根据交互对象的属性信息和行为模态数据，挑选更易被交互对象接受的语音语调来进行反馈。

以下，以一个具体示例对上述过程进行示例性说明，如图2D所示。

图2D中，交互对象A和交互对象B之间存在交互行为，如图中所示，交互对象A对交互对象B说“你这件衣服真不错哦”，智能设备通过分析确定交互对象A的风格为积极、放松。交互对象B回复“哦哦哦，是吗？”，智能设备通过分析确定交互对象B的风格为中性、自然。此时，智能设备主动参与交互，在将智能设备的正面转向交互对象B的同时，采用积极、热情的风格，使用交互对象A或B偏好的某明星的声音发出“太适合你咯，真美呀”的语音。

可见，通过本实施例，智能设备不仅可主动发起交互，以与交互对象进行沟通和交流，提升智能设备向用户提供的功能服务的触达率的用户的交互体验；并且，可根据交互对象的情感状态，采用相适配的交互风格与交互对象进行主动交互，提高了整体人机交互体验。

实施例三

参照图3A，示出了根据本申请实施例三的一种人机交互方法的步骤流程图。

与前述实施例不同的是，本实施例中的智能设备可以根据交互对象的运动状态和与智能设备之间的位置关系，调整自身的状态以进行响应。

本实施例的人机交互方法包括：

步骤S302：获取智能设备针对其所在空间环境中的交互对象采集的多模态数据。

步骤S304：基于多模态数据进行交互对象的行为检测。

其中，所述行为检测包括以下至少之一：行人检测、距离检测、人脸属性检测、对语音数据进行AEC回声消除后执行的声源定位。

通过行人检测可获得交互对象是处于运动还是静止；通过距离检测可获得交互对象与智能设备之间的距离；通过人脸属性检测可获得交互对象的个人信息；通过声源定位可获得交互对象的位置，尤其是在智能设备无法捕捉到交互对象的视频图像时，也能通过声音确定交互对象的位置。

此外，可选地，本实施例在基于多模态数据进行交互对象的行为检测时，还可对多模态数据进行多模态聚类，根据多模态聚类的结果获取交互对象的属性信息和行为模态数据。该步骤的具体实现可参见前述实施例中相关部分的描述，在此不再赘述。

步骤S306：根据行为检测结果，确定交互对象的运动状态及交互对象在智能设备的感知空间中的位置。

本实施例中，智能设备的感知空间定义如下表1：

表1

其中，正面区域意指的视觉可感知区域的正面感知区域，智能设备摄像头面对的正向区域，通常以摄像头为原点，摄像头正向方向为正向轴线，正向轴线两侧预设角度范围内的区域，如从正向轴线左侧45度到右侧45度的区域。如果以正向轴线为正方向的纵轴，垂直于纵轴的方向为水平轴，则可以45度到135度之间的扇形空间区域为正面区域，即主要区域。边缘区域为智能设备的视觉可感知区域的侧面感知区域，如0度-45度以及135度到180度之间的区域为侧面区域即边缘区域。好奇区域为智能设备的视觉可感知区域之外的区域，如摄像头背面的区域即为好奇区域。一种感知区域的示意图如图3B所示。但需要说明的是，本示例及图3B均为示例性说明，在实际应用中，预设角度范围可由本领域技术人员根据摄像头的具体数据适当设置，本申请实施例对此不作限制。

基于以上设置，本实施例中，智能设备可以根据行为检测结果，确定交互对象的运动状态(当前运动还是静止)及交互对象在智能设备的感知空间中的位置(在主要区域还是边缘区域或者好奇区域)，以为后续交互提供依据。

步骤S308：根据所述运动状态和所述位置，确定智能设备的交互状态。

在一种可行方式中，可按照下表2中所述的规则，确定智能设备的交互状态。

表2

其中，智能设备处于“活跃状态”时,各种用于多模态数据采集的装置(如摄像头、麦克风、距离传感器、位置传感器、触摸传感器、红外传感器等)均处于激活状态，可实时采集各种模态的数据，智能设备更倾向于交互；“安静状态”时用于多模态数据采集的装置中的大部分或全部装置可以处于休眠状态，智能设备更倾向于不交互；而“自然状态”时，用于多模态数据采集的装置按照预设规则部分处于激活状态部分处于休眠状态，智能设备会根据交互对象的状态来确定是否交互。其中，在不同状态时，哪些装置处于激活状态哪些处于休眠状态可由本领域技术人员根据需求灵活设置，本申请实施例对此不作限制。

步骤S310：基于智能设备的交互状态，主动与交互对象进行交互。

在确定了智能设备的交互状态后，即可基于该交互状态发起与交互对象的交互，或者，接收交互对象发起的交互。

在一种可行方式中，若前述过程中还获取了交互对象的属性信息和行为模态数据，则在与交互对象进行交互时，可根据所述属性信息、行为模态数据和交互状态，主动与交互对象进行交互。

此外，在另一种可行方式中，在多模态数据中包含语音数据时，语音数据可传递给后端进行VAD语音语义检测，以及深度增强降噪的Steam ASR(支持情感识别)处理，以将交互对象的声音转化为文本。同时，还可将情感识别的结果信息增加至文本信息中，主要分为多分类，如前述实施例中所述的积极风格、中性风格、消极风格。基于此，智能设备在与交互对象交互时，可采用相适配的风格与交互对象进行交互。

以下，以一个具体示例对本实施例的上述过程进行示例性说明，如图3C所示。

图3C中，当女性交互对象从智能设备前走近，智能设备的状态从安静状态变为活跃状态，状态可以显示在屏幕UI界面及声音反馈上，同时智能设备因为检测到交互对象行动以及人脸等信息，将主动转动，以吸引交互对象进行交互。当男性交互对象从智能设备背后趋近，智能设备的状态从安静状态变为活跃状态，状态可以显示在屏幕UI界面及声音反馈上，主动吸引交互对象进行交互。此外，若交互对象通过语音与智能设备进行交互，通过分析语音获得交互对象的情感状态，则智能设备基于感知的交互对象的情感状态，确定与之匹配的交互风格类型以进行回复，促进交互对象与其交互。

可见，通过本实施例，智能设备可根据对交互对象的行为检测以进行相应的处理，最终确定使用的交互状态，基于该交互状态与交互对象交互，为人机互动增加了自然度、情感度和主动度，提高了整体人机交互体验。

实施例四

参照图4A，示出了根据本申请实施例四的一种人机交互方法的步骤流程图。

本实施例中，以唤醒智能设备的过程为侧重点对本申请实施例提供的人机交互方法进行说明，但本领域技术人员应当明了的是，在实际应用中，智能设备也可无需使用唤醒指令或唤醒词唤醒，如通过传感器采集的数据自主唤醒等，同样可适用于本申请其它实施例提供的人机交互方案。

本实施例的人机交互方法包括以下步骤：

步骤S402：接收唤醒指令。

其中，唤醒指令可以为语音信号或物理信号。语音信号可以为针对智能设备的唤醒语音指令，如“小A”(智能设备的名称)，则当交互对象发出语音“小A”时，则意在唤醒该名称为“小A”的智能设备。或者，语音指令也可以为操作指令，如“播放XX歌曲”。物理信号可以为智能设备上的装置如唤醒按钮等，当交互对象按压该按钮，则意在唤醒该智能设备。当然，其它形式的唤醒指令也同样适用本实施例。

步骤S404：判断多台候选智能设备中是否存在当前处于工作状态的智能设备。

当智能设备接收到唤醒指令时，其可能处于工作状态，如正在播放音频，也可能处于非工作状态，如处于休眠状态。当智能设备处于工作状态时，唤醒指令起到了任务切换的作用；而当智能设备处于非工作状态时，唤醒指令起到了唤醒并指示执行任务的作用。

步骤S406：若存在当前处于工作状态的智能设备，则唤醒该智能设备以执行步骤S412。

即，唤醒智能设备执行获取智能设备针对其所在空间环境中的交互对象采集的多模态数据的操作。本实施例中，若有智能设备处于工作状态，则优先唤醒该智能设备，以提高人机交互的效率，提升交互对象的交互体验。

步骤S408：若不存在当前处于工作状态的智能设备，则根据设备类型和唤醒指令携带的唤醒意图信息，从多台候选智能设备中确定目标智能设备。

本实施例中，设备类型可以包括家庭类型和非家庭类型。一般来说，可以将便携式智能设备(如智能手表或其它智能可穿戴设备等)作为非家庭类型，而将非便携式智能设备(如智能音箱、智能电视等)作为家庭类型。但不限于此，在实际应用中，可由本领域技术人员或智能设备使用者自行设置多台智能设备的类型，例如，可根据需要将部分便携式智能设备也设置为家庭类型等，本申请实施例对此不作限制。

唤醒指令携带的唤醒意图信息可以实现为多种形式，如手势信息、能量信息等等。在一种可行方式中，若唤醒意图信息中包括以下至少之一：唤醒指令的能量信息、SNR(信噪比)信息、多模态信息、多台智能设备的唤醒优先级信息、交互对象对多台智能设备的历史使用行为信息，则将多台候选智能设备中的家庭类型的智能设备确定为目标智能设备；若唤醒意图信息中包括以下至少之一：手势信息、触摸信息、物理装置操作信息，则将多台候选智能设备中的非家庭类型的智能设备确定为目标智能设备。通过这种方式，可以高效确定出交互对象意图唤醒的目标智能设备。

此外，因存在多台智能设备，为保障这些智能设备同时收到唤醒指令，以避免因接收到唤醒指令时间的不同导致不符合交互对象意图的误唤醒，本实施例中，在从多台候选智能设备中确定目标智能设备时，可以根据唤醒指令的接收时间和多台候选智能设备的运行状态确定针对多台候选智能设备的唤醒耗时对齐指令，以使多台候选智能设备按照所述指令所指示的时间对唤醒指令进行响应。

一种基于唤醒耗时对齐指令进行唤醒指令响应的流程如图4B所示。由图中可见，当前智能设备连接有四台其它智能设备，这四台其它智能设备分别使用不同的操作系统。本示例中，使用不同的操作系统表征这四台智能设备，图中分别示意为RTOS、Linux、Android和Other OS。由图中可见，对智能设备的唤醒耗时对齐处理包括将Record线程(记录线程)处理、SP信号处理和KWS处理作为整体耗时对齐，以使通过网络到达各智能设备的时间相同。基于此，唤醒指令意图唤醒的目标智能设备将被准确唤醒，并对唤醒指令进行反馈。本示例中，设定采用Linux操作系统的智能设备被准确唤醒，以执行后续操作。

例如，若交互对象发出了“播放XX歌曲”的指令，其意图为唤醒智能音箱进行歌曲播放。但如果未进行唤醒耗时对齐，假设该指令首先到达智能电视，则可能由智能电视对该指令进行响应，有可能导致无法找到该歌曲或者找到该歌曲的时间较长，影响交互体验。而如果进行了唤醒耗时对齐，各智能设备同时接收到该指令，各智能设备会分分析该指令所指示的任务对于自身的优先级。例如，对于智能音箱来说，其判断该指令的执行优先级较高，则会对该指令进行反馈。而对于智能电视来说，其判断该指令的执行优先级较低，则不会对该指令进行反馈。

步骤S410：唤醒目标智能设备以执行步骤S412。

即，唤醒目标智能设备以使其执行获取智能设备针对其所在空间环境中的交互对象采集的多模态数据的操作。

步骤S412：获取智能设备针对其所在空间环境中的交互对象采集的多模态数据。

步骤S414：对多模态数据进行多模态聚类，根据多模态聚类的结果获取交互对象的属性信息和行为模态数据。

步骤S416：根据所述属性信息和所述行为模态数据，主动与交互对象进行交互。

上述步骤S412-S416的具体实现可参照前述多个实施例中相应部分的描述，在此不再赘述。

以下，以一种智能音箱连接四台智能设备的场景为示例，对上述过程进行示例性说明，如图4C所示。

图4C中，四台智能设备分别使用它们各自使用的操作系统表征，如图中所示，分别示意为RTOS、Linux、Android和Other OS。需要说明的是，在实际应用中，智能音箱也可以是这四台智能设备中的一台，也即，这四台智能设备相互连接，或者，其它三台智能设备与智能音箱均有连接。

智能音箱在接收到唤醒指令后，首先进行工作判定，即判断四台智能设备中是否存在处于工作状态的智能设备，若存在，则将该智能设备作为目标智能设备，由其执行唤醒指令所指示的操作；若四台设备中均不存在处于工作状态的智能设备，则再进行场景判定，即判断哪些智能设备为家庭类型哪些为非家庭类型，根据唤醒指令携带的唤醒意图信息，确定目标智能设备；若确定的目标智能设备仍有多台，再进行意图判定，即根据唤醒指令所指示的任务，从多台设备中确定中执行该任务的优先级较高的智能设备。进而，由该最终确定的智能设备执行唤醒指令所指示的任务，如视频服务、音乐服务、信息服务或者其他服务等。

需要说明的是，上述示例中，以各种判定由智能设备端执行为示例，但本领域技术人员应当明了的是，这些判定也可由云端执行，并作出决策后，将决策结果通知目标智能设备，以使其响应唤醒指令，执行相应的任务。

可见，通过本实施例，有效实现了不同场景下不同智能设备的唤醒，能够使得唤醒指令可触达目标智能设备，提高了整体人机交互体验。并且，通过唤醒耗时对齐，有效解决了多台智能设备之间语音唤醒不同步的问题。

实施例五

参照图5A，示出了根据本申请实施例五的一种人机交互方法的步骤流程图。

本实施例中，设定多模态数据中包含有语音数据，以对该语音数据的处理为侧重点，对本申请实施例的人机交互方法进行说明。

本实施例的人机交互方法包括以下步骤：

步骤S502：获取智能设备针对其所在空间环境中的交互对象采集的多模态数据。

本实施例中，多模态数据至少包括语音数据，可选地，还可以包括以下模态数据中的至少一种：图像数据、针对智能设备的触摸数据、交互对象的当前情感状态的数据。

步骤S504：对多模态数据进行多模态聚类，根据多模态聚类的结果获取交互对象的属性信息和行为模态数据；并且，判断当前语音数据中是否包含有关键语音内容数据；若包含，则获取语音数据之前和之后的预设数量的其他语音数据；基于当前语音数据和其他语音数据，进行交互对象对关键语音内容的态度分析。

其中，对多模态数据进行多模态聚类，根据多模态聚类的结果获取交互对象的属性信息和行为模态数据的具体实现可参照前述多个实施例中相应部分的描述，在此不再赘述。

而在判断当前语音数据中是否包含有关键语音内容数据时，可先将语音数据转换为文本数据，再将文本数据与预设的关键词匹配，来确定当前语音数据中是否包含关键语音内容数据。或者，将语音数据转换为文本数据后，输入预先训练好的用于关键词提取的模型，若能从中提取出关键词则将该关键词作为关键语音内容数据，否则认为当前语音数据中不包含关键语音内容数据。进而，智能设备会获取当前语音数据之前的数条语音数据，以将这些语音数据与当前语音数据相结合，综合进行分析获得交互对象对关键语音内容的态度，如是否感兴趣，感兴趣的程度等等。

步骤S506：根据交互对象的属性信息、行为模态数据和态度分析的结果，主动与交互对象进行交互。

例如，智能设备可根据交互对象的属性信息、行为模态数据和态度分析的结果，向交互对象推荐其可能感兴趣的物品、视频、音频等等。

在一个示例中，智能设备捕获交互对象语音交互过程中的语音内容，例如：“我想你了”、“今天很开心”、“我想听周杰伦的歌”等等，智能设备将尝试识别语音内容中的触发词，如“想你”、“开心”、“周杰伦、歌”等，并且与交互对象的兴趣或偏好等进行匹配，进而进行交互响应。

以下，以智能设备为带屏的智能音箱为示例，对上述过程进行示例性说明，如图5B所示。

图5B中，交互对象A与交互对象B正在进行视频通话，其中，交互对象A的通话语音数据“上次去的XXX餐厅不错”被智能音箱捕获到。智能音箱可同时可在本地以及云端进行远程分析，识别出其中的关键语音内容数据如“XXX餐厅”，并结合“上次去的XXX餐厅不错”之前的几句如三句通话语音数据作为与关键语音内容数据对应的上下文情境数据，以理解上下文，帮助更精准地理解语义。在充分理解语义的基础上，可进行相应的交互响应，如在屏幕上显示XXX餐厅介绍信息或者订位界面等等。

在另一个示例中，交互对象A与交互对象B正在进行视频通话，其中，交互对象A的通话语音数据“我想你了”被智能音箱捕获到。智能音箱可同时可在本地以及云端进行远程分析，识别出其中的关键语音内容数据如“想你”，并结合“我想你了”之前的五句通话语音数据作为与关键语音内容数据对应的上下文情境数据，以理解上下文，帮助更精准地理解语义。在充分理解语义的基础上，可进行相应的交互响应，如，智能音箱会控制图像采集装置进行图像采集，例如，智能音箱会通过其摄像头主动进行精彩抓拍等行为，帮助交互对象记录视频通话过程中的美好时刻。

可见，通过本实施例，可以从交互对象的语音数据中提取出关键信息，以基于此为交互对象提供更多的服务，且可避免无效服务，提升了交互体验。

实施例六

参照图6，示出了根据本申请实施例六的一种智能设备的结构示意图。

如图6所示，该智能设备可以包括：处理器(processor)602、输入设备604、输出设备606、存储器608以及通信总线610。

其中：

处理器602、输入设备604、输出设备606以及存储器608通过通信总线610完成相互间的通信。

本实施例中，输入设备604包括可采集或接收不同模态数据的多个输入装置，具体包括：摄像头、麦克风以及其它，如距离传感器、位置传感器、红外传感器等等。

本实施例中的输出设备606也包括多个输出装置，如显示屏、喇叭及其他。

输入设备604通过多个输入装置分别采集或接收智能设备所在空间环境中的交互对象的多种模态数据。

处理器602，用于执行程序，具体可以获取多个输入装置采集或接收的多种模态数据并形成多模态数据，以执行上述多个人机交互方法实施例中任一实施例中的相关步骤，从而确定智能设备主动与交互对象进行交互的交互方式和交互内容。

输出设备606，用于根据处理器602确定的交互方式和交互内容，与交互对象进行交互。如，通过显示屏显示服务信息或播放视频或播放动画特效等等；通过喇叭播放音频或交互语音等等。

具体地，所述程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器608，用于存放所述程序以及所述程序在执行过程中产生的过程数据。存储器608可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

本申请实施例中，智能设备可以为具备上述设置和功能的任意适当设备，包括但不限于：智能音箱、智能电视、智能路由、机器人、智能摄像头、智能冰箱等等。

此外，所述程序中各步骤的具体实现可以参见上述任一人机交互方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一人机交互方法对应的操作。

需要说明的是，本申请实施例中的多个实施例均以智能设备主动发起交互为示例，但本领域技术人员应当明了，在实际应用中，该智能设备也具备相应的被动交互功能。不能因本申请的多个实施例主要对智能设备的主动交互功能进行介绍，就认为其不具备被动交互响应功能。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的人机交互方法。此外，当通用计算机访问用于实现在此示出的人机交互方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的人机交互方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种人机交互方法，包括：

获取智能设备针对其所在空间环境中的交互对象采集的多模态数据，其中，所述多模态数据包括以下模态数据中的至少两种：语音数据、图像数据、针对所述智能设备的触摸数据；

对所述多模态数据进行多模态聚类，根据多模态聚类的结果获取所述交互对象的属性信息和行为模态数据；

根据所述属性信息和所述行为模态数据，主动与所述交互对象进行交互。

2.根据权利要求1所述的方法，其中，所述根据所述属性信息和所述行为模态数据，主动与所述交互对象进行交互，包括：

根据所述属性信息和所述行为模态数据，主动与所述交互对象进行以下交互中的至少一种：展示与所述属性信息和所述行为模态数据相匹配的视觉界面、自身展示与所述属性信息和所述行为模态数据相匹配的灯效、控制灯光设备展示与所述属性信息和所述行为模态数据相匹配的灯效、合成与所述属性信息和所述行为模态数据相匹配的交互语音并播放。

3.根据权利要求1或2所述的方法，其中，所述方法还包括：

根据所述属性信息和所述行为模态数据，为所述交互对象提供相匹配的情景服务。

4.根据权利要求1所述的方法，其中，所述多模态数据还包括所述交互对象的当前情感状态；所述方法还包括：基于所述多模态数据进行交互对象的情感识别；根据情感识别结果确定待使用的交互风格类型；

所述根据所述属性信息和所述行为模态数据，主动与所述交互对象进行交互，包括：根据所述属性信息和所述行为模态数据，按照所述交互风格类型所指示的交互风格主动与所述交互对象进行交互。

5.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述多模态数据进行交互对象的行为检测；

根据行为检测结果，确定所述交互对象的运动状态及所述交互对象在所述智能设备的感知空间中的位置；

根据所述运动状态和所述位置，确定所述智能设备的交互状态；

基于所述交互状态，主动与所述交互对象进行交互。

6.根据权利要求5所述的方法，其中，所述根据所述运动状态和所述位置，确定所述智能设备的交互状态，包括：

若所述智能设备的当前运动状态为静止状态，则根据所述运动状态和所述位置，按照以下规则至少之一确定所述智能设备的交互状态，所述规则包括：

若所述交互对象的运动状态为静止状态且位于所述感知空间中的主要区域，则所述智能设备的交互状态为活跃状态，其中，所述主要区域为所述智能设备的视觉可感知区域的正面感知区域；

若所述交互对象的运动状态为静止状态且位于所述感知空间中的边缘区域，则所述智能设备的交互状态为自然状态，其中，所述边缘区域为所述智能设备的视觉可感知区域的侧面感知区域；

若所述交互对象的运动状态为静止状态且位于所述感知空间中的好奇区域，则所述智能设备的交互状态为安静状态，其中，所述好奇区域为所述智能设备的视觉可感知区域之外的区域；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的主要区域，则所述智能设备的交互状态为活跃状态；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的边缘区域，则所述智能设备的交互状态为从自然状态转变为活跃状态；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的好奇区域，则所述智能设备的交互状态为从安静状态转变为活跃状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的主要区域，则所述智能设备的交互状态从活跃状态转变为安静状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的边缘区域，则所述智能设备的交互状态为从自然状态转变为安静状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的好奇区域，则所述智能设备的交互状态为安静状态。

7.根据权利要求5所述的方法，其中，所述根据所述运动状态和所述位置，确定所述智能设备的交互状态，包括：

根据所述运动状态和所述位置，按照以下规则至少之一确定所述智能设备的交互状态，所述规则包括：

若所述交互对象的运动状态为静止状态且位于所述感知空间中的主要区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为活跃状态；

若所述交互对象的运动状态为静止状态且位于所述感知空间中的边缘区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为从自然状态转变为活跃状态；

若所述交互对象的运动状态为静止状态且位于所述感知空间中的好奇区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为从安静状态转变为活跃状态；

若所述交互对象的运动状态为静止状态且位于所述感知空间中的主要区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为从活跃状态转变为安静状态；

若所述交互对象的运动状态为静止状态且位于所述感知空间中的边缘区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为从自然状态转变为安静状态；

若所述交互对象的运动状态为静止状态且位于所述感知空间中的好奇区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为安静状态。

8.根据权利要求5所述的方法，其中，所述根据所述运动状态和所述位置，确定所述智能设备的交互状态，包括：

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的主要区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为活跃状态；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的边缘区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为从自然状态转变为活跃状态；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的好奇区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为从安静状态转变为活跃状态；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的主要区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为活跃状态；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的边缘区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为活跃状态；

若所述交互对象的运动状态为运动接近智能设备状态且位于所述感知空间中的好奇区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为活跃状态。

9.根据权利要求5所述的方法，其中，所述根据所述运动状态和所述位置，确定所述智能设备的交互状态，包括：

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的主要区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为安静状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的边缘区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为安静状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的好奇区域，所述智能设备的运动状态为转向交互对象状态，则所述智能设备的交互状态为安静状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的主要区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为从活跃状态转变为安静状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的边缘区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为从自然状态转变为安静状态；

若所述交互对象的运动状态为运动远离智能设备状态且位于所述感知空间中的好奇区域，所述智能设备的运动状态为远离交互对象状态，则所述智能设备的交互状态为安静状态。

10.根据权利要求1所述的方法，其中，所述方法还包括：

接收唤醒指令，并判断多台候选智能设备中是否存在当前处于工作状态的智能设备；

若存在，则唤醒处于工作状态的智能设备以执行所述获取智能设备针对其所在空间环境中的交互对象采集的多模态数据的操作；

若不存在，则根据设备类型和唤醒指令携带的唤醒意图信息，从多台候选智能设备中确定目标智能设备，并唤醒所述目标智能设备以执行所述获取智能设备针对其所在空间环境中的交互对象采集的多模态数据的操作。

11.根据权利要求10所述的方法，其中，所述设备类型包括家庭类型和非家庭类型；

所述根据设备类型和唤醒指令携带的唤醒意图信息，从多台候选智能设备中确定目标智能设备，包括：

若所述唤醒意图信息中包括以下至少之一：唤醒指令的能量信息、SNR信息、多模态信息、多台智能设备的唤醒优先级信息、交互对象对多台智能设备的历史使用行为信息，则将多台候选智能设备中的家庭类型的智能设备确定为目标智能设备；

若所述唤醒意图信息中包括以下至少之一：手势信息、触摸信息、物理装置操作信息，则将多台候选智能设备中的非家庭类型的智能设备确定为目标智能设备。

12.根据权利要求10所述的方法，其中，所述从多台候选智能设备中确定目标智能设备，包括：

根据所述唤醒指令的接收时间和多台候选智能设备的运行状态确定针对所述多台候选智能设备的唤醒耗时对齐指令，以使所述多台候选智能设备按照所述指令所指示的时间对所述唤醒指令进行响应。

13.根据权利要求1所述的方法，其中，所述多模态数据至少包括语音数据；

所述方法还包括：判断当前语音数据中是否包含有关键语音内容数据；若包含，则获取所述语音数据之前和之后的预设数量的其他语音数据；基于当前语音数据和其他语音数据，进行所述交互对象对所述关键语音内容的态度分析；

所述根据所述属性信息和所述行为模态数据，主动与所述交互对象进行交互，包括：根据所述属性信息、所述行为模态数据和所述态度分析的结果，主动与所述交互对象进行交互。

14.一种智能设备，包括：处理器、输入设备、输出设备；

其中：

所述输入设备包括可采集或接收不同模态数据的多个输入装置，所述多个输入装置用于分别采集或接收所述智能设备所在空间环境中的交互对象的多种模态数据；

所述处理器用于获取所述多个输入装置采集或接收的所述多种模态数据并形成多模态数据，以通过如权利要求1-13中任一项所述的人机交互方法，确定主动与所述交互对象进行交互的交互方式和交互内容；

所述输出设备用于根据所述处理器确定的交互方式和交互内容，与所述交互对象进行交互。