CN111931036A

CN111931036A - 一种多模态融合交互系统、方法、智能机器人及存储介质

Info

Publication number: CN111931036A
Application number: CN202010438624.7A
Authority: CN
Inventors: 董文平
Original assignee: Guangzhou Giantan Information Technology Co ltd
Current assignee: Guangzhou Giantan Information Technology Co ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-11-13

Abstract

本发明公开一种多模态融合交互系统，包括：信息获取模块，用于获取多个信息感知设备采集的目标人体的信息；融合分析模块，用于对获取的多个信息进行分析融合，以获得所述目标人体的融合需求；需求发送模块，用于将所述融合需求发送至云端服务器，以使得所述云端服务器对所述融合需求进行解析，生成并返回对应的答案；交互模块，用于将所述答案通过预定的方式进行反馈。本发明提供的多模态融合交互系统，通过对获取的目标人体的信息进行融合分析，得到相应于每个目标人体的融合需求，从而可以根据不同用户的情况得到不同的答案，丰富了人机交互的方式，使得问题的反馈更多样，更符合用户的需求。

Description

一种多模态融合交互系统、方法、智能机器人及存储介质

技术领域

本发明涉及智能机器人领域，尤其涉及一种多模态融合交互系统、方法、智能机器人及存储介质。

背景技术

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

机器人是人工智能最重要的研究方向，人机交互是机器人研究的主要方向之一，是实现人和机器人进行“沟通”的前提。一般情况中，机器人主要是通过各种传感器或者信息采集设备来采集人的信息，并根据获取的信息进行反馈。例如，根据用户发出的语音、输入的文字或者图片信息来获取用户的需求，并根据需求进行反馈，这种方式存在交互和反馈的方式比较单一，不能根据不同用户的实际情况做出不同的反馈，无法给用户以多样化的体验。

发明内容

有鉴于此，本发明的目的在于提供一种多模态融合交互系统、方法、智能机器人及存储介质，能为用户提供丰富多变的人机交互。

本发明实施例提供了一种多模态融合交互系统，包括：

信息获取模块，用于获取多个信息感知设备采集的目标人体的多模态信息；

融合分析模块，用于对获取的多个多模态信息进行分析融合，以获得所述目标人体的融合需求；

需求发送模块，用于将所述融合需求发送至云端服务器，以使得所述云端服务器对所述融合需求进行解析，生成并返回对应的答案；

交互模块，用于将所述答案通过预定的方式进行反馈。

优选地，所述信息感知设备至少包括以下其中之一：摄像头、拾音器、距离检测器、红外感应器；则对应的目标人体的多模态信息包括：目标人体的图像、目标人体发出的语音、与目标人体的距离、目标人体的红外信息。

优选地，所述融合分析模块具体包括：

特征提取单元，用于对获取的多个目标人体的多模态信息进行特征提取，以获取包含在多个多模态信息中的需求信息以及所述目标人体的人体特征；

融合单元，用于根据所述目标人体的人体特征以及所述需求信息进行融合，生成融合需求。

优选地，所述人体特征包括以下其中之一：目标人体的年龄、性别、当前情绪。

优选地，所述交互模块具体用于：

对所述答案进行遍历，以获取所述答案中包括的特定关键词；

获取与所述关键词对应的多种反馈方式；

根据所述目标人体的人体特征选取对应的反馈方式；

根据与所述特定关键词对应的反馈方式对所述答案或所述答案的包含所述特定关键词的部分进行展示。

优选地，还包括：

关系判断模块，用于当判断所述目标人体预定范围内还存在其他人体时，判断目标人体与其他人体之间的关系；

则所述融合分析模块，还用于：

对获取的多个多模态信息以及所述关系进行融合，以获得所述目标人体的融合需求。

优选地，对所述答案的反馈方式中至少包括以下其中之一或其结合：以动作的方式进行反馈、以语音播放的方式进行反馈、以视频或画面播放的方式进行反馈。

本发明实施例还提供了一种多模态融合交互方法，包括：

获取多个信息感知设备采集的目标人体的多模态信息；

对获取的多个多模态信息进行分析融合，以获得所述目标人体的融合需求；

将所述融合需求发送至云端服务器，以使得所述云端服务器对所述融合需求进行解析，生成并返回对应的答案；

将所述答案通过预定的方式进行反馈。

本发明实施例还提供了一种智能机器人，包括至少一个信息感知设备、显示屏、语音播放设备、通信设备、处理器以及存储器；所述至少一个信息感知设备、显示屏、语音播放设备、通信设备、存储器均与所述处理器连接；所述存储器内存储有可执行代码，所述可执行代码能够被所述处理器执行以实现如上述的多模态融合交互方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的多模态融合交互方法。

本实施例提供的多模态融合交互系统，通过对获取的目标人体的多模态信息进行融合分析，得到相应于每个目标人体的融合需求，从而可以根据不同用户的情况得到不同的答案，丰富了人机交互的方式，使得问题的反馈更多样，更符合用户的需求。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种多模态融合交互系统的结构示意图。

图2是本发明第二实施例提供的一种多模态融合交互方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提供了一种多模态融合交互系统，包括：

信息获取模块10，用于获取多个信息感知设备采集的目标人体的多模态信息。

在本实施例中，所述多模态融合交互系统可整体部署在智能机器人上，例如已应用于商业上的Pepper机器人或优友机器人等。以Pepper机器人为例，Pepper是一款人形机器人，由日本软银集团和法国Aldebaran Robotics研发，其可综合考虑周围环境，并积极主动地作出反应。Pepper可通过视野系统来察觉人类的微笑、皱眉以及惊讶。通过语音识别系统来识别人类的语音语调以及特定表现人类强烈感情的字眼。然后情感引擎将上述一系列面部表情、语音语调和特地字眼量化处理，通过量化评分最终做出对人类积极或者消极情绪的判断，并用表情、动作、语音与人类交流、反馈，甚至能够跳舞、开玩笑。

在硬件上，Pepper包括了一系列的信息感知设备，例如摄像头(或相机)、拾音器(如麦克风)、3D传感器、触控传感器、陀螺仪传感器、触控传感器、声纳传感器、激光传感器、保险杠传感器、陀螺仪传感器等，通过这些信息感知设备，本系统可以充分获取目标人体的信息。例如，目标人体的图像、目标人体发出的语音、机器人与目标人体的距离、目标人体的红外信息等。

融合分析模块20，用于对获取的多个多模态信息进行分析融合，以获得所述目标人体的融合需求。

具体地，在本实施例中，针对于同一句话或者同一个问题，不同的人在不同的时候提出，其想得到的答案可能并不相同。例如，对于同一个关于疾病的问题，当患者问的时候，其可能是想得到一些偏向科普的资料，而医生问了则想得到一些更专业的资料。此外，大人或者小孩，男士与女士，一个人在不同情绪下对同一个问题期望的答案也可能不同，为此，在本实施例中，所述融合分析模块20具体包括：

特征提取单元，用于对获取的多个目标人体的多模态信息进行特征提取，以获取包含在多个信息中的需求信息以及所述目标人体的人体特征。

具体地，包含在多个多模态信息中的需求信息即为目标人体想要咨询的问题或者期望得到回复的信息，而目标人体的人体特征则包括目标人体的性别、年龄或者当前情绪。其中，需求信息可通过对用户输入的文本信息、语音信息、图片信息等进行语义识别或者特征提取获得。而目标人体的人体特征则可通过对信息进行分析获得，例如通过获取目标人体的图像并进行图像识别可获得目标人体的性别，通过对目标人体发出的语音进行识别可获得其大概的年龄段以及当前情绪状态等。当然还可以有其他方式，本发明不做具体限定。

在本实施例中，在获得所述目标人体的人体特征以及所述需求信息后，对二者进行融合即可以得到所述目标人体的融合需求。

需求发送模块30，用于将所述融合需求发送至云端服务器，以使得所述云端服务器对所述融合需求进行解析，生成并返回对应的答案。

在本实施例中，所述云端服务器可包括类脑系统，其可对需求发送模块30发送的所述融合需求进行解析，生成并返回对应的答案。

在一种实现方式中，所述类脑系统包括：

引擎模块，用于接收所述融合需求，根据所述融合需求从知识仓储模块中获取匹配的知识候选集，并对所述知识候选集做评分排序，并使用评分最高的知识进行答案生成返回给智能机器人；其中，所述答案是评分最高的知识结合变量或推理结果生成的最终答案。

在本实施例中，具体地，所述引擎模块包括用于提供智能搜索(同时支持用自然语言搜索和关键词搜索)的搜索引擎单元、用于提供句式匹配的匹配引擎单元、用于提供槽点匹配的布尔引擎单元以及用于提供分类功能的分类引擎单元，所述分类引擎单元通过机器学习训练来实现分类。其中：搜索引擎单元、匹配引擎单元、布尔引擎单元和分类引擎单元是同时并行的关系，当调用引擎模块时，要在这四个引擎单元中全部执行一遍，以从知识仓储模块中获取得到知识候选集。

需要说明的是，所述引擎模块还包括推理引擎单元；

所述推理引擎单元，用于根据在交互过程中生成的变量进行推理计算，获得推理结果，并根据推理结果从知识仓储模块中获取知识候选集；其中，推理计算根据每个场景对应的决策树进行推理。

所述知识仓储模块，用于存储来自知识灌入模块以及知识发现模块生成的知识数据。

在本实施例中，所述知识仓储模块在于帮助用户减轻知识整理的工作量，可以快速构建自己的机器人知识库。

其中，知识仓储中的知识数据根据它们的应用领域特征、背景特征(获取时的背景信息)、使用特征、属性特征等而被构成便于利用的、有结构的组织形式。

其中，在本实施例中，所述知识仓储模块内的知识数据包括：FAQ、场景知识(通过场景编辑器进行编辑获得)、文档、WIKI、语义网、知识图谱、知识模型(通过训练后生成的模型数据)、用户数据。

所述知识灌入模块，用于对接收的数据进行知识转换处理，以获得知识数据后发送至知识仓储模块。

在本实施例中，所述知识灌入模块生成知识数据至少包括四种方式：

对于专家知识，所述知识灌入模块可通过场景编辑器对所述专家知识进行知识编辑，生成知识数据，并存储入知识仓储模块。

对于FAQ，由于其与问答形式存在，因此所述知识灌入模块直接将FAQ作为知识数据导入到知识仓储模块。

对于文档：所述知识灌入模块对文档进行碎片化处理或者分类处理，并进行打标签，以生成知识数据，存储入知识仓储模块。

对于语义网和知识图谱：将语义网和知识图谱通过语义网编辑器导入知识仓储模块。

所述知识发现模块，用于获取原始的业务数据集以及业务过程中产生的业务数据集，并通过深度学习技术从业务数据集中识别出有效的、新颖的、潜在有用的数据，并将数据转换为可理解模式的知识数据后发送至知识仓储模块。

在本实施例中，知识发现是从各种信息中，根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节，从原始的业务数据集中提炼出有效的、新颖的、潜在有用的知识，直接向使用者报告。

在本实施例中，所述知识发现模块还可以在与用户的交互过程中，获取交互时产生的业务数据集，并通过深度学习技术从业务数据集中识别出有效的、新颖的、潜在有用的数据。如此，所述知识发现模块可以通过不断训练学习的过程，获得更符合用户需求的知识数据。

交互模块40，用于将所述答案通过预定的方式进行反馈。

其中，所述交互模块40具体用于，

获取与所述关键词对应的多种反馈方式；

根据所述目标人体的人体特征选取对应的反馈方式；

例如，假设所述答案中包含用于表示判断的特定关键词“是”时，则此时与所述特定关键词对应的反馈方式可能有如下几种：1、点头反馈；2、语音反馈；3、显示文字反馈。此时，所述智能机器人会根据所述目标人体的人体特征来选择相应的反馈方式，例如，如果判断目标人体为小孩，则选择点头反馈；如果判断目标人体为老人，考虑到老人可能眼神不好，优先选择语音反馈，以保证目标人体能以最容易接收到信息的方式得到答案。

综上所述，本实施例提供的多模态融合交互系统，通过对获取的目标人体的信息进行融合分析，得到相应于每个目标人体的融合需求，从而可以根据不同用户的情况得到不同的答案，丰富了人机交互的方式，使得问题的反馈更多样，更符合用户的需求。

优选地，还包括：

则所述融合分析模块20，还用于：

在本实施例中，智能机器人如判断目标人体旁边还有其他人体时，可根据人体特征大致判断目标人体与其他人体之间的关系，如父子，母女，情侣等关系。则此时，所述智能机器人在生成融合需求时，还会综合考虑到其他人体与目标人体的关系进行需求的融合。

例如，假设目标人体提出的问题是：附近有什么好玩的地方？则此时所述智能机器人除了发送这个问题外，还会同时将目标人体与其他人体的关系进行融合生成融合需求后发送到云端服务器，云端服务器在得到融合需求时，会综合考虑到所述关系来生成答案，如果关系是母子，则答案是一些适合母子去的场所，如果关系是情侣，则推荐一些适合情侣去的场所，如此，保证答案能贴合目标人体的实际需求。

请参阅图2，本发明第二实施例还提供了多模态融合交互方法，包括：

S201，获取多个信息感知设备采集的目标人体的多模态信息；

S202，对获取的多个多模态信息进行分析融合，以获得所述目标人体的融合需求；

S203，将所述融合需求发送至云端服务器，以使得所述云端服务器对所述融合需求进行解析，生成并返回对应的答案；

S204，将所述答案通过预定的方式进行反馈。

优选地，所述信息感知设备至少包括以下其中之一：摄像头、拾音器、距离检测器、红外感应器；则对应的目标人体的信息包括：目标人体的图像、目标人体发出的语音、与目标人体的距离、目标人体的红外信息。

优选地，S202具体包括：

对获取的多个目标人体的多模态信息进行特征提取，以获取包含在多个多模态信息中的需求信息以及所述目标人体的人体特征；

根据所述目标人体的人体特征以及所述需求信息进行融合，生成融合需求。

优选地，步骤S203具体为：

获取与所述关键词对应的多种反馈方式；

根据所述目标人体的人体特征选取对应的反馈方式；

优选地，还包括：

当判断所述目标人体预定范围内还存在其他人体时，判断目标人体与其他人体之间的关系；

优选地，步骤S203具体为：

获取与所述人体特征对应的反馈方式，并根据对应的所述反馈方式对所述答案进行展示。

本发明第三实施例还提供了一种智能机器人，包括至少一个信息感知设备、显示屏、语音播放设备、通信设备、处理器以及存储器；所述至少一个信息感知设备、显示屏、语音播放设备、通信设备、存储器均与所述处理器连接；所述存储器内存储有可执行代码，所述可执行代码能够被所述处理器执行以实现如上述的多模态融合交互方法。

本发明第四实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的多模态融合交互方法。

示例性的，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在智能机器人中的执行过程。

所述智能机器人可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是智能机器人的示例，并不构成对智能机器人的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述智能机器人还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述智能机器人的控制中心，利用各种接口和线路连接整个智能机器人的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述智能机器人的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述智能机器人集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种多模态融合交互系统，其特征在于，包括：

融合分析模块，用于对获取的多个多模态信息进行融合，以获得所述目标人体的融合需求；

交互模块，用于将所述答案通过预定的方式进行反馈。

2.根据权利要求1所述的多模态融合交互系统，其特征在于，所述信息感知设备至少包括以下其中之一：摄像头、拾音器、距离检测器、红外感应器；则对应的目标人体的多模态信息包括：目标人体的图像、目标人体发出的语音、与目标人体的距离、目标人体的红外信息。

3.根据权利要求1所述的多模态融合交互系统，其特征在于，所述融合分析模块具体包括：

特征提取单元，用于对获取的目标人体的多个多模态信息进行特征提取，以获取包含在多个多模态信息中的需求信息以及所述目标人体的人体特征；

4.根据权利要求3所述的多模态融合交互系统，其特征在于，所述人体特征包括以下其中之一：目标人体的年龄、性别、当前情绪。

5.根据权利要求3所述的多模态融合交互系统，其特征在于，所述交互模块具体用于：

获取与所述关键词对应的多种反馈方式；

根据所述目标人体的人体特征选取对应的反馈方式；

6.根据权利要求3所述的多模态融合交互系统，其特征在于，还包括：

则所述融合分析模块，还用于：

7.根据权利要求书5所述的多模态融合交互系统，其特征在于，对所述答案的反馈方式中至少包括以下其中之一或其结合：以动作的方式进行反馈、以语音播放的方式进行反馈、以视频或画面播放的方式进行反馈。

8.一种多模态融合交互方法，其特征在于，包括：

获取多个信息感知设备采集的目标人体的多模态信息；

对获取的多个多模态信息进行融合，以获得所述目标人体的融合需求；

将所述答案通过预定的方式进行反馈。

9.一种智能机器人，其特征在于，包括至少一个信息感知设备、显示屏、语音播放设备、通信设备、处理器以及存储器；所述至少一个信息感知设备、显示屏、语音播放设备、通信设备、存储器均与所述处理器连接；所述存储器内存储有可执行代码，所述可执行代码能够被所述处理器执行以实现如权利要求8所述的多模态融合交互方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求8所述的多模态融合交互方法。