CN110465947B

CN110465947B - 多模态融合人机交互方法、装置、存储介质、终端及系统

Info

Publication number: CN110465947B
Application number: CN201910770607.0A
Authority: CN
Inventors: 孙骋; 苏衍宇; 孙斌; 张俊杰; 莫明兴
Original assignee: Suzhou Bozhong Robot Co ltd
Current assignee: Suzhou Bozhong Intelligent Robot Co ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2021-07-02
Anticipated expiration: 2039-08-20
Also published as: CN110465947A

Abstract

本发明实施例公开了多模态融合人机交互方法、装置、存储介质、终端及系统。该方法包括：获取机器人采集的目标交互对象对应的交互数据，其中，交互数据包括音频数据、微表情数据、距离数据以及姿势数据；根据交互数据基于预设规则确定所述机器人的交互反馈数据，其中，交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据；利用交互反馈数据控制机器人执行相应的交互反馈操作。本发明实施例通过采用上述技术方案，可以使机器人的反馈更加合理和人性化，丰富反馈形式，有助于提升人机交互的体验。

Description

多模态融合人机交互方法、装置、存储介质、终端及系统

技术领域

本发明实施例涉及计算机技术领域，尤其涉及多模态融合人机交互方法、装置、存储介质、终端及系统。

背景技术

机器人是自动执行工作的机器装置，它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动，它的任务是协助或取代人类的工作，可应用于如生产业、建筑业或其他危险行业。

目前，服务机器人等需要进行人机交互的交互机器人作为一个崭新的产业正在崛起，与此同时，服务机器人市场与需求也在快速增长，根据国际机器人联合会的最新市场预测，到2020年，全球服务机器人的市场总的规模将达到约600亿美元。在个人服务、公共服务、康复辅助以及助老助残等领域，各种不同种类的机器人也在飞速应用发展，成为方便大众生活、缓解劳动力成本上涨以及提升服务质量的有力助手。

然而，目前的交互机器人在与人类进行交互时，反馈形式单调，交互生硬，需要改进。

发明内容

本发明实施例提供了多模态融合人机交互方法、装置、存储介质、终端及系统，可以优化现有的基于交互机器人的人机交互方案。

第一方面，本发明实施例提供了一种多模态融合人机交互方法，包括：

获取机器人采集的目标交互对象对应的交互数据，其中，所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据；

根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据；

利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。

第二方面，本发明实施例提供了一种多模态融合人机交互装置，包括：

交互数据获取模块，用于获取机器人采集的目标交互对象对应的交互数据，其中，所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据；

交互反馈数据确定模块，用于根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据；

反馈控制模块，用于利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的多模态融合人机交互方法。

第四方面，本发明实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例提供的多模态融合人机交互方法。

第五方面，本发明实施例提供了一种多模态融合人机交互系统，包括机器人和后台终端；

所述机器人，用于采集目标交互对象对应的交互数据，并将所述交互数据发送至所述后台终端，在所述后台终端的控制下执行交互反馈操作，其中，所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据；

所述后台终端，用于根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。

本发明实施例中提供的多模态融合人机交互方案，获取机器人采集的目标交互对象对应的交互数据，其中，交互数据包括音频数据、微表情数据、距离数据以及姿势数据，根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，其中，交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据，利用交互反馈数据控制机器人执行相应的交互反馈操作。通过采用上述技术方案，通过采集多个维度的交互数据，并采用基于预设规则来输出多模态的反馈数据，使得机器人的反馈更加合理和人性化，丰富反馈形式，有助于提升人机交互的体验。

附图说明

图1为本发明实施例一提供的一种多模态融合人机交互方法的流程示意图；

图2为本发明实施例二提供的一种多模态融合人机交互方法的流程示意图；

图3为本发明实施例三提供的一种多模态融合人机交互方法的流程示意图；

图4为本发明实施例三提供的一种预设多模态融合模型示意图；

图5为本发明实施例三提供的另一种预设多模态融合模型示意图；

图6为本发明实施例三提供的一种多模态融合人机交互方案的框架示意图；

图7为本发明实施例四提供的一种多模态融合人机交互装置的结构框图；

图8为本发明实施例六提供的一种终端的结构框图；

图9为本发明实施例七提供的一种多模态融合人机交互系统的结构框图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1为本发明实施例一提供的一种多模态融合人机交互方法的流程示意图，该方法可以由多模态融合人机交互装置执行，其中该装置可由软件和/或硬件实现，一般可集成在终端中。如图1所示，该方法包括：

步骤101、获取机器人采集的目标交互对象对应的交互数据，其中，所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据。

本发明实施例中，所述终端可以是机器人终端，也可以是与机器人相配合的后台终端，后台终端可以通过内部局域网或者无线网络等于机器人建立通信连接。所述机器人具体可以是交互机器人，对机器人的具体类型不做限定，例如可以是服务机器人、教学机器人以及表演机器人等等。

示例性的，目标交互对象具体可以是当前与机器人进行交互的用户。人类在进行交互的过程中，会采用丰富的表现方式来表达自己的想法，当人类在与机器人进行交互时，目前的机器人通常反馈形式单调，交互生硬，严重影响交互体验。而本发明实施例中，可以通过机器人采集目标交互对象的多种维度的交互数据，这样在确定机器人的反馈时，就可以考虑多重因素，使得机器人的反馈更加接近人类，进而提升交互体验。

示例性的，音频数据可以通过机器人中的麦克风等声音采集部件来采集，该音频数据中可包括目标交互对象的语音信息以及语气信息等，还可包括周围环境的声音信息。微表情数据和姿势数据可以根据通过机器人中的摄像头等图像采集部件所采集的图像进行分析而得到。距离数据可以通过机器人中的超声波传感器等距离传感器采集得到。上述数据的具体采集方式本发明实施例不做限定。

步骤102、根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。

本发明实施例中，根据交互数据基于预设规则确定机器人的交互反馈数据可以由很多种，对此不做限定，下面提供可选方式做示意性说明。

示例性的，可根据所述交互数据基于预设映射规则确定所述机器人的交互反馈数据。其中，预设映射规则可人为确定，也可通过预设专家系统确定。可选的，根据所述交互数据基于通过预设专家系统设定的预设映射规则确定所述机器人的交互反馈数据。预设专家系统可以指一个智能计算机程序系统，其内部含有大量的人机交互领域专家水平的知识与经验，能够利用人类专家的知识和解决问题的方法来处理人机交互领域问题。也就是说，预设专家系统是一个具有大量的专门知识与经验的程序系统，根据人机交互领域一个或多个专家提供的知识和经验，进行推理和判断，模拟人类专家的决策过程，以便解决那些需要人类专家处理的复杂问题。利用预设专家系统可以定义机器人说的话以及说话的语气，机器人的微表情，以及机器人能够完成的动作，本发明实施例中可称为是行为准则的定义，参考行为准则确定交互数据和交互反馈数据的对应关系，得到预设映射规则。这种方式的好处在于，没有冷启动的问题，适应性更广泛。

示例性的，可将所述交互数据输入至基于深度学习的预设多模态融合模型，并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据。本发明实施例中，预设多模态融合模型基于深度学习训练得到，训练过程可在机器人内部完成，也可在机器人对应的后台终端完成，也可在其他设备中完成，本发明实施例不做限定。预设多模态融合模型可以是一个整体的模型，将交互数据统一输入该整体模型中；预设多模态融合模型也可以由多个子模型构成，将交互数据进行分类，并分别输入至对应的子模型中。可选的，可直接将交互数据输入至预设多模态融合模型中，也可对交互数据进行一定的转换处理再输入至预设多模态融合模型中。以音频数据为例，可以提取其中包含的语音信息和语气信息等，还可将语音信息转换成自然语言文本，更加方便预设多模态融合模型的识别。可选的，用于训练预设多模态融合模型的训练样本的标签可以由后台人工设定，也可以基于预设专家系统确定，本发明实施例不做限定。

示例性的，预设多模态融合模型用于根据交互数据确定机器人如何对目标交互对象进行反馈，可将交互数据按照预设规则转化成向量特征，并输入至预设多模态融合模型中，经过预设多模态融合模型的一系列运算，输出预测行为，也即根据模型输出结果可以确定机器人的交互反馈数据。

步骤103、利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。

示例性的，可以根据不同类型的交互反馈数据分别控制机器人执行相应的交互反馈操作，也可将交互反馈数据合成为机器人的复合行为，控制机器人执行复合行为对应的交互反馈操作。

其中，包含语气信息的语音反馈数据可以指导机器人模拟人的语气对目标交互对象说的话进行回答，微表情反馈数据可以指导机器人在说话时模拟人做出相应的表情反馈，动作反馈数据可以指导机器人身体各个部位配合语音以及微表情做出相应的动作。

示例性的，可利用扬声器播放包含语气信息的语音反馈数据；可利用显示屏显示微表情反馈数据对应的动态表情图像，也可控制机器人脸部五官对应的部件根据微表情反馈数据做出相应的动作；可利用设置在机器人头部以及各个关节处的舵机来按照动作反馈数据来控制机器人做出相应的动作。通过多方面的综合反馈，让机器人的反馈更加接近人类，在提高用户体验的同时也能够改善沟通效率。

本发明实施例中提供的多模态融合人机交互方法，获取机器人采集的目标交互对象对应的交互数据，其中，交互数据包括音频数据、微表情数据、距离数据以及姿势数据，根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，其中，交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据，利用交互反馈数据控制机器人执行相应的交互反馈操作。通过采用上述技术方案，通过采集多个维度的交互数据，并采用基于预设规则来输出多模态的反馈数据，使得机器人的反馈更加合理和人性化，丰富反馈形式，有助于提升人机交互的体验。

实施例二

图2为本发明实施例二提供的一种多模态融合人机交互方法的流程示意图，该方法在上述实施例基础上进行优化，将预设多模态融合模型划分为多个子模型。

示例性的，所述预设多模态融合模型包括多个子模型；所述将所述交互数据输入至预设多模态融合模型，并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据，包括：从所述交互数据中提取多个子模型分别对应的子样本数据；将各子样本数据输入至对应的子模型中，得到多个子输出结果；综合所述多个子输出结果确定所述机器人的交互反馈数据。这样设置的好处在于，各个子模型的输出更加有针对性，并且，由于深度学习模型的不可控性较高，采用多个子模型的方式可以降低模型效果控制的难度。

进一步的，所述预设多模态融合模型包括三个子模型，所述三个子模型分别为语音子模型、表情子模型和动作子模型，所述语音子模型对应第一子样本数据、所述表情子模型对应第二子样本数据，所述动作子模型对应第三子样本数据，所述第一子样本数据中包括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据，所述第二子样本数据中包括所述自然语言文本数据和所述微表情数据，所述第三子样本数据中包括所述自然语言文本数据、所述距离数据和所述姿势数据。这样设置的好处在于，合理地划分子模型以及对应的样本数据，提升反馈数据的准确度。

具体的，该方法可包括如下步骤：

步骤201、获取机器人采集的目标交互对象对应的交互数据，其中，交互数据包括音频数据、微表情数据、距离数据以及姿势数据。

示例性的，可通过机器人中的麦克风进行录音，得到原始录音数据，然后对原始录音数据进行采样与降噪(如转换成16k 16bit单声道音频)，生成脉冲编码调制(Pulse CodeModulation，PCM)音频信号，可将PCM音频信号作为重要特征(如转换为特征矩阵中的元素)输入预设多模态融合模型中。

示例性的，可以通过机器人中的摄像头等图像采集部件来采集图像流，对图像流中包含的微表情和姿势进行识别和分类，得到微表情数据和姿势数据，通过机器人中的雷达探测器等距离传感器来采集机器人到交互对象的距离，得到距离数据；又如，可以采用深度摄像头等深度图像传感器(RGBD)来采集深度图像，其中，R表示红色red，G表示绿色green，B表示蓝色blue，D表示深度图(Depth Map)，将得到的RGB图像用于分析微表情和姿势，得到微表情数据和姿势数据，Depth Map图像生成点云，计算机器人到交互对象的距离，得到距离数据。

步骤202、将音频数据转换的自然语言文本数据。

示例性的，可将原始录音数据或PCM音频信号放入训练好的声学模型中，借助有限状态机转换成自然语言文本。进一步的，对文本的特征选取是多样化的，可以使用简单的N-grams，tf-idf，或者使用含有上下文信息的word2vec等。

步骤203、将音频数据、微表情数据和自然语言文本数据输入至语音子模型中，得到语音输出结果。

示例性的，可以将音频数据、微表情数据和自然语言文本数据中包含的输入信息转换成特征矩阵，输入至提前训练好的语音子模型中，利用语音子模型得到语音输出结果，语音输出结果中可以包括机器人需要反馈的语音以及语气等信息。音频数据中可以包含用户说话的语气等信息，还可包含环境声音等信息，微表情数据中可包含用户说话时的神态和情绪等信息，自然语言文本数据中可以包含用户说话的含义等，通过这三类数据可以确定机器人向用户反馈的语音及语气等信息。

步骤203、将自然语言文本数据和微表情数据输入至表情子模型中，得到微表情输出结果。

示例性的，可以将自然语言文本数据和微表情数据中包含的输入信息转换成特征矩阵，输入至提前训练好的表情子模型中，利用表情子模型得到微表情输出结果，微表情输出结果中可以包括机器人需要反馈的微表情信息。微表情数据中可包含用户说话时的神态和情绪等信息，自然语言文本数据中可以包含用户说话的含义等，通过这两类数据可以确定机器人在向用户反馈时需要作出的微表情。

步骤204、将自然语言文本数据、距离数据和姿势数据输入至动作子模型中，得到动作输出结果。

示例性的，可以将自然语言文本数据、距离数据和姿势数据中包含的输入信息转换成特征矩阵，输入至提前训练好的动作子模型中，利用动作子模型得到动作输出结果，动作输出结果中可以包括机器人需要反馈的动作信息。自然语言文本数据中可以包含用户说话的含义等，距离数据可以包含用户当前与机器人的距离，姿势数据可以包含用户当前的肢体语言信息，通过这三类数据可以确定机器人在向用户反馈时需要作出的肢体动作。

步骤205、综合语音输出结果、微表情输出结果和动作输出结果确定机器人的交互反馈数据。

其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。

步骤206、利用交互反馈数据控制所述机器人执行相应的交互反馈操作。

示例性的，相较于人类的回答反应动作的连续变化，机器人的回答反应动作是离散化的，可以用有限的维度来标记机器人的反应，当维度足够大且计算速度够快时，机器人的反应在人类眼中也就成了“连续”(即流畅自然)，如机器人回答的语气种类定为6种(快乐、悲伤、愤怒、惊讶、恐惧和厌恶)，微表情种类定为27种，最多样化的是机器人的动作，如果有10个舵机，动作参数就有10个维度，每个维度都可以360°旋转，则机器人可以做出360^10种动作，虽然人的关节基本上无法旋转360°，本发明中也可以用十个维度表示，那么机器人反应参数就有12维。不同机器人由于硬件设备的差异，能完成的动作可能有所不同，本发明实施例不做具体限定，为了保证流畅性，机器人的处理器优选拥有强大的处理能力。对于处理器性能有限的机器人来说，可以先把多维的舵机参数简化为离散的、以一段时间为单位的连贯动作，如设计100种不同的动作类型。

本发明实施例提供的多模态融合人机交互方法，将预设多模态融合模型划分为语音子模型、表情子模型和动作子模型，并从交互数据中选择合理的样本数据分别输入至各子模型中，使得各个子模型的输出更加有针对性，并且，由于深度学习模型的不可控性较高，采用多个子模型的方式可以降低模型效果控制的难度，最后综合三个子模型的输出结果来控制机器人对用户的交互行为进行反馈，使得机器人的反馈更加准确合理，进一步提升人机交互体验。

实施例三

图3为本发明实施例三提供的一种多模态融合人机交互方法的流程示意图，该方法在上述实施例基础上进行优化，增加了模型训练相关内容。

示例性的，在所述获取机器人采集的目标交互对象对应的交互数据之前，还包括：获取机器人采集的训练样本交互数据，并基于预设专家系统确定所述训练样本交互数据对应的样本标签；将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到预设多模态融合模型。这样设置的好处在于，利用预设专家系统可以更加合理地设置训练样本集。

进一步的，所述将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到预设多模态融合模型，包括：将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到多模态融合初始模型；基于所述预设专家系统确定测试样本集；利用所述测试样本集对所述多模态融合初始模型进行评估，并根据评估结果修改所述多模态融合初始模型中的参数，得到预设多模态融合模型。这样设置的好处在于，利用预设专家系统设置测试样本集，通过对模型的不断优化，可以使得模型的输出更加合理准确，进而使得机器人的反馈更加人性化。

具体的，该方法可包括如下步骤：

步骤301、获取机器人采集的训练样本交互数据，并基于预设专家系统确定训练样本交互数据对应的样本标签。

本发明实施例中，利用预设专家系统来确定各训练样本对应的标签，可以更加合理地设置训练样本集，提高模型训练的效率及准确度。

步骤302、将训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到多模态融合初始模型。

本发明实施例中，预设多模态融合模型可以有两种设计思路：

一种是只用一个模型，通过对异类特征(即不同类型的特征)加权拼接成一种总的特征，直接预测机器人的全部行为。图4为本发明实施例三提供的一种预设多模态融合模型示意图，如图4所示，可以将PCM音频、文本、微表情、距离以及姿势相关数据全部输入至预设多模态融合模型中，输出音频、微表情以及舵机角度等复合动作。这种方式主要是对多样多维特征的加权拼接，将所有的输入特征通过加权拼接或其他手段整合成多维矩阵，放入一个多层复杂的深度模型网络中，避免人为分类，让模型自己通过梯度下降不断优化参数，可以保护模型的整体性，也可以提高训练效率。另外，在模型训练完成后，还可利用基于预设专家系统得到的行为准则的标签制定测试样本集，通过测试样本集的标签和模型预测的评估对比，不断修改模型的超参数，达到输出行为的最优效果，也即对输出的音频、微表情以及舵机角度等复合动作进行优化

另一种是单独设计三种不同深度学习模型，分别预测语音、微表情和动作(可以由多个舵机角度组成)，在进行训练时，对三个子模型分别进行训练。图5为本发明实施例三提供的另一种预设多模态融合模型示意图，如图5所示，将PCM音频、文本和微表情输入至语音子模型，将文本和微表情输入至表情子模型，将文本、距离和姿势输入至动作子模型，三个模型分别输出有语气的音频、微表情和动作(多个舵机角度)。另外，还可利用基于专家系统的行为准则对输出进行规范，最终输出音频、微表情以及舵机角度等复合动作。

步骤303、基于预设专家系统确定测试样本集，利用测试样本集对多模态融合初始模型进行评估，并根据评估结果修改多模态融合初始模型中的参数，得到预设多模态融合模型。

示例性的，在得到一个初始模型后，还可基于预设专家系统确定测试样本集，来进一步对模型进行优化。

步骤304、获取机器人采集的目标交互对象对应的交互数据，其中，交互数据包括音频数据、微表情数据、距离数据以及姿势数据。

步骤305、将音频数据转换的自然语言文本数据。

步骤306、将音频数据、自然语言文本数据、微表情数据、距离数据以及姿势数据输入至预设多模态融合模型中。

步骤307、根据预设多模态融合模型的输出结果确定机器人的交互反馈数据，其中，交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。

步骤308、利用交互反馈数据控制所述机器人执行相应的交互反馈操作

图6为本发明实施例三提供的一种多模态融合人机交互方案的框架示意图，可参考图6对本发明实施例做进一步了解。如图6所示，系统输入部分是由麦克风、摄像头以及雷达采集的交互数据，将交互数据发送至基于深度学习的多模态融合系统，多模态融合系统中包含预设多模态融合模型，模型的输出结果被发送至自然交互控制中心(NatureInteraction Control Center，NICC)，最后输出包含12个维度的机器人反应参数，用来控制机器人进行反馈。其中，NICC可以理解为人机交互执行单元的核心，也是预设多模态融合模型的应用平台能够合成预设多模态融合模型输出的复合行为，使机器人执行定义的动作，NICC可分布于机器人和后台终端，两者通过内部局域网连接，由后台终端将获取到的机器人行为标签发送给机器人，以实现机器人对用户交互的反馈。

本发明实施例提供的多模态融合人机交互方法，克服了单一的语音对语音，表情对表情等生硬方式的人机交互，建立了复杂连贯的人机交互框架，随着训练数据的扩充，模型框架的优化，可以逐步做到端对端的人机交互，使得机器人的反应更加流畅及多样，并符合人类的行为。

在上述实施例基础上还可进一步优化，示例性的，所述机器人包括服务机器人，在所述将所述交互数据输入至基于深度学习的预设多模态融合模型之前，还包括：识别当前的服务场景，并根据所述服务场景从多个备选模型中筛选出相应的预设多模态融合模型。这样设置的好处在于，可以让机器人适用于跟多的服务场景。具体的，可以通过机器人采集的声音数据和图像数据对当前服务场景进行识别，在识别成功后，筛选出对应的预设多模态融合模型，并将采集到的交互数据输入至该模型。

进一步的，将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到多模态融合初始模型，可包括：对训练样本交互数据和对应的样本标签进行聚类，以生成不同场景对应的训练数据，针对场景数量设置对应数量的预设初始模型，并将聚类后的训练样本交互数据和对应的样本标签分别输入至预设初始模型中，得到不同场景对应的多模态融合初始模型。这样设置的好处在于，通过聚类来自动区分服务场景，智能生成多个场景对应的多模态融合初始模型，随后进行测试等操作，进而得到多个场景对应的预设多模态融合模型，便于控制机器人在不同服务场景下做出有针对性的反馈，使机器人的服务更加人性化。

实施例四

图7为本发明实施例四提供的一种多模态融合人机交互装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在终端中，可通过执行多模态融合人机交互方法来进行人机交互。如图7所示，该装置包括：

交互数据获取模块701，用于获取机器人采集的目标交互对象对应的交互数据，其中，所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据；

交互反馈数据确定模块702，用于根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据；

反馈控制模块703，用于利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作。

本发明实施例中提供的多模态融合人机交互装置，获取机器人采集的目标交互对象对应的交互数据，其中，交互数据包括音频数据、微表情数据、距离数据以及姿势数据，根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，其中，交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据，利用交互反馈数据控制机器人执行相应的交互反馈操作。通过采用上述技术方案，通过采集多个维度的交互数据，并采用基于预设规则来输出多模态的反馈数据，使得机器人的反馈更加合理和人性化，丰富反馈形式，有助于提升人机交互的体验。

可选的，所述根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，包括：

根据所述交互数据基于通过预设专家系统设定的预设映射规则确定所述机器人的交互反馈数据；或者，

将所述交互数据输入至基于深度学习的预设多模态融合模型，并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据。

可选的，所述预设多模态融合模型包括多个子模型；

所述将所述交互数据输入至预设多模态融合模型，并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据，包括：

从所述交互数据中提取多个子模型分别对应的子样本数据；

将各子样本数据输入至对应的子模型中，得到多个子输出结果；

综合所述多个子输出结果确定所述机器人的交互反馈数据。

可选的，所述预设多模态融合模型包括三个子模型，所述三个子模型分别为语音子模型、表情子模型和动作子模型，所述语音子模型对应第一子样本数据、所述表情子模型对应第二子样本数据，所述动作子模型对应第三子样本数据，所述第一子样本数据中包括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据，所述第二子样本数据中包括所述自然语言文本数据和所述微表情数据，所述第三子样本数据中包括所述自然语言文本数据、所述距离数据和所述姿势数据。

可选的，该装置还包括：

训练样本获取模块，用于在所述获取机器人采集的目标交互对象对应的交互数据之前，获取机器人采集的训练样本交互数据，并基于预设专家系统确定所述训练样本交互数据对应的样本标签；

模型训练模块，用于将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到预设多模态融合模型。

可选的，所述将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到预设多模态融合模型，包括：

将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到多模态融合初始模型；

基于所述预设专家系统确定测试样本集；

利用所述测试样本集对所述多模态融合初始模型进行评估，并根据评估结果修改所述多模态融合初始模型中的参数，得到预设多模态融合模型。

可选的，所述机器人包括服务机器人，该装置还包括：

模型筛选模块，用于在所述将所述交互数据输入至基于深度学习的预设多模态融合模型之前，识别当前的服务场景，并根据所述服务场景从多个备选模型中筛选出相应的预设多模态融合模型。

实施例五

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行多模态融合人机交互方法，该方法包括：

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDRRAM、SRAM、EDORAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的多模态融合人机交互操作，还可以执行本发明任意实施例所提供的多模态融合人机交互方法中的相关操作。

实施例六

本发明实施例提供了一种终端，该终端中可集成本发明实施例提供的多模态融合人机交互装置。图8为本发明实施例六提供的一种终端的结构框图。终端800可以包括：存储器801，处理器802及存储在存储器801上并可在处理器运行的计算机程序，所述处理器802执行所述计算机程序时实现如本发明实施例所述的多模态融合人机交互方法。

本发明实施例提供的终端，通过采集多个维度的交互数据，并采用预设规则来输出多模态的反馈数据，使得机器人的反馈更加合理和人性化，丰富反馈形式，有助于提升人机交互的体验。

实施例七

图9为本发明实施例七提供的一种多模态融合人机交互系统的结构框图，该系统包括机器人901和后台终端902；

所述机器人901，用于采集目标交互对象对应的交互数据，并将所述交互数据发送至所述后台终端，在所述后台终端的控制下执行交互反馈操作，其中，所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据；

所述后台终端902，用于根据所述交互数据基于预设规则确定所述机器人的交互反馈数据，利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。

本发明实施例提供的多模态融合人机交互系统，通过采集多个维度的交互数据，并采用预设规则来输出多模态的反馈数据，使得机器人的反馈更加合理和人性化，丰富反馈形式，有助于提升多模态融合人机交互的体验。

上述实施例中提供的多模态融合人机交互装置、存储介质、终端以及多模态融合人机交互系统可执行本发明任意实施例所提供的多模态融合人机交互方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的多模态融合人机交互方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多模态融合人机交互方法，其特征在于，包括：

将所述交互数据输入至基于深度学习的预设多模态融合模型，并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据；

利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作；

其中，所述预设多模态融合模型包括三个子模型，所述三个子模型分别为语音子模型、表情子模型和动作子模型，所述语音子模型对应第一子样本数据、所述表情子模型对应第二子样本数据，所述动作子模型对应第三子样本数据，所述第一子样本数据中包括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据，所述第二子样本数据中包括所述自然语言文本数据和所述微表情数据，所述第三子样本数据中包括所述自然语言文本数据、所述距离数据和所述姿势数据；

从所述交互数据中提取多个子模型分别对应的子样本数据；

综合所述多个子输出结果确定所述机器人的交互反馈数据。

2.根据权利要求1所述的方法，其特征在于，在所述获取机器人采集的目标交互对象对应的交互数据之前，还包括：

获取机器人采集的训练样本交互数据，并基于预设专家系统确定所述训练样本交互数据对应的样本标签；

将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到预设多模态融合模型。

3.根据权利要求2所述的方法，其特征在于，所述将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练，得到预设多模态融合模型，包括：

基于所述预设专家系统确定测试样本集；

4.一种多模态融合人机交互装置，其特征在于，包括：

交互反馈数据确定模块，用于将所述交互数据输入至基于深度学习的预设多模态融合模型，并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据；

反馈控制模块，用于利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作；

从所述交互数据中提取多个子模型分别对应的子样本数据；

综合所述多个子输出结果确定所述机器人的交互反馈数据。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3任一项所述的方法。

6.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-3任一项所述的方法。

7.一种多模态融合人机交互系统，其特征在于，包括机器人和后台终端；

所述后台终端，用于将所述交互数据输入至基于深度学习的预设多模态融合模型，并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据，利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作，其中，所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据；

从所述交互数据中提取多个子模型分别对应的子样本数据；

综合所述多个子输出结果确定所述机器人的交互反馈数据。