CN115431288A

CN115431288A - 基于多元融合信息进行情感反馈及信息交互的导诊机器人

Info

Publication number: CN115431288A
Application number: CN202211402162.9A
Authority: CN
Inventors: 彭盼; 彭能; 陈放; 丁磊; 柏晓乐; 王玮琪
Original assignee: Smart Dynamics Co ltd
Current assignee: Smart Dynamics Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2022-12-06
Anticipated expiration: 2042-11-10
Also published as: CN115431288B

Abstract

本发明适用于机器人技术领域，提供了基于多元融合信息进行情感反馈及信息交互的导诊机器人，包括：硬件部分；对象情绪感知模块，对象情绪感知模块具体包括语音与声纹感知单元、视频图像感知单元和信息融合分析单元，声纹感知单元用于获取情感特征和语义特征；视频图像感知单元用于获取人脸表情特征和人体动作特征；信息融合分析单元用于结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息；互动对话管理模块，用于根据情绪感知信息并利用头部LED灯、头部显示屏和头部转动关节进行互动表达。提供了一种可融合用户神态、动作和语音多模态信息进行情感反馈及信息交互的智能导诊机器人，提升患者就诊体验满意度。

Description

基于多元融合信息进行情感反馈及信息交互的导诊机器人

技术领域

本发明涉及机器人技术领域，具体是涉及一种基于多元融合信息进行情感反馈及信息交互的导诊机器人。

背景技术

随着人工智能等技术地发展，智能机器人导诊被越来越多的人使用，但当前各个医院的智能导诊机器人还存在问答死板、交互复杂及无法与患者产生情感共鸣，极易导致患者生出急躁抵触情绪，降低就诊体验满意度和诊疗效率，这也是导致患者长时间滞留而引发医院人满为患问题的根源。例如申请号为201811520542.6的中国专利公开了一种智能问答方法、装置、设备及介质，仅仅能够提供语音的交互，无法识别用户的表情和情感，无法根据情感特征给予人性化的交互。因此，需要提供一种基于多元融合信息进行情感反馈及信息交互的导诊机器人，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于多元融合信息进行情感反馈及信息交互的导诊机器人，以解决上述背景技术中存在的问题。

本发明是这样实现的，基于多元融合信息进行情感反馈及信息交互的导诊机器人，所述导诊机器人包括：

硬件部分，硬件部分具体包括人体全方位探测器、头部LED灯、头部显示屏、头部转动关节、读卡器和控制运算单元；

对象情绪感知模块，对象情绪感知模块具体包括语音与声纹感知单元、视频图像感知单元和信息融合分析单元，所述声纹感知单元用于基于声纹分析技术提取用户声纹里的情感特征，并利用语音识别技术，识别对象的语音内容，得到语义特征；所述视频图像感知单元用于获取人脸表情特征和人体动作特征；所述信息融合分析单元用于结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息；

互动对话管理模块，用于根据情绪感知信息并利用头部LED灯、头部显示屏以及头部转动关节进行互动表达，并进行语音输出。

作为本发明进一步的方案：所述头部转动关节包括电机，能够实现机器人头部的转动、点头和摇头。

作为本发明进一步的方案：所述头部LED灯能够显示多种颜色，通过不同的颜色表示机器人的不同情绪；所述头部显示屏用于展示机器人的表情和交互的图像文字。

作为本发明进一步的方案：所述人体全方位探测器由RGB-D相机、彩色广角相机、麦克风和喇叭阵列组成，用于捕捉患者的神态、动作和语音信息；RGB-D相机安装于头部，能够准确跟踪用户的脸部；彩色广角相机安装于机器人躯干。

作为本发明进一步的方案：所述视频图像感知单元能够根据近距离的RGB-D图像，识别用户人脸特征标签和人脸表情特征；并根据RGB-D图像和广角镜头图像，基于深度学习的技术，识别用户的连续肢体动作得到人体动作特征。

作为本发明进一步的方案：所述结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息的步骤，具体包括：

对象情绪建模：设置若干个代表性反向情绪对，为每一个反向情绪对，建立区间为[-1,+1]的量化表达，其中，-1表示该情绪对的反面极端情绪，+1表示该情绪对的正面极端情绪；将对象情绪表示为：多个代表性反向情绪对所对应标量x1,x2,...，xn组成的向量

，

，其中，

表示反向情绪对的个数；

对象情绪的信息融合：将语义特征、情感特征、人脸表情特征和人体动作特征采用贝叶斯网络或者深度学习的方式进行辨识，统一表达成向量

的形式，其中，将语义特征和情感特征表述为

，将人脸表情特征表述为

，将人体动作特征表述为

，对

、

和

进行信息融合，得到情绪感知信息。

作为本发明进一步的方案：所述对

、

和

进行信息融合，得到情绪感知信息的步骤，具体包括：

获取第n时间段的感知数据为

，计算相关性：

其中，

；

计算权重：

，

，

；

以

符号表示融合计算，其融合计算方式如下：

其中：

其中，

为固定阈值，融合结果为：

，

为限制运算，表示对

向量的每一个元素，当其大于或者等于1时，限制为1，小于或者等于-1时，限制为-1。

作为本发明进一步的方案：所述互动对话管理模块包含DQN对话系统，互动对话管理模块执行步骤的流程为：感知到对象的当前状态S，将当前状态S输入到DQN对话系统中，计算得到执行A，根据执行A进行互动表达和语音输出；得到新的对象感知，包括反馈r和新状态S_；以新状态S_作为输入到DQN系统中，计算下一步的执行动作，依此循环。

作为本发明进一步的方案：执行A建模成：

，其中，

表示正常对话系统所要进行的语音输出，

表示机器人需要做出的情绪表达，

通过语音合成进行输出，

通过机器人的头部LED灯、头部显示屏、头部转动关节进行输出。

作为本发明进一步的方案：机器人的

情绪表达，由头部显示屏中表情的连续渐变表达和头部LED灯以及头部转动关节的分状态表达组合而成。

作为本发明进一步的方案：在每一次循环中，将{S，A，r，S_}作为知识，存放到存储器中，用于后续学习判断。

与现有技术相比，本发明的有益效果是：

本发明提供了一种可融合用户神态、动作和语音多模态信息进行情感反馈及信息交互的智能导诊机器人，能够获取情绪感知信息并利用头部LED灯、头部显示屏以及头部转动关节进行互动表达，并进行语音输出，更加人性化，极大提升患者就诊体验满意度和就诊效率。

附图说明

图1为一种基于多元融合信息进行情感反馈及信息交互的导诊机器人的结构示意图。

图2为一种基于多元融合信息进行情感反馈及信息交互的导诊机器人确定用户的情绪感知信息的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种基于多元融合信息进行情感反馈及信息交互的导诊机器人，所述导诊机器人包括：

硬件部分100，硬件部分100具体包括人体全方位探测器、头部LED灯、头部显示屏、头部转动关节、读卡器和控制运算单元；

对象情绪感知模块200，对象情绪感知模块200具体包括语音与声纹感知单元、视频图像感知单元和信息融合分析单元，所述声纹感知单元用于基于声纹分析技术提取用户声纹里的情感特征，并利用语音识别技术，识别对象的语音内容，得到语义特征；所述视频图像感知单元用于获取人脸表情特征和人体动作特征；所述信息融合分析单元用于结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息；

互动对话管理模块300，用于根据情绪感知信息并利用头部LED灯、头部显示屏以及头部转动关节进行互动表达，并进行语音输出。

本发明实施例中，所述头部转动关节包括电机，能够实现机器人头部的转动、点头和摇头。所述头部LED灯能够显示多种颜色，通过不同的颜色表示机器人的不同情绪，例如能够显示红色、蓝色、绿色等多种颜色，具体的，可用红色代表“愤怒”，粉红色代表“快乐”或“喜悦”，蓝色代表“悲伤”，而在这些颜色之间进行转换表示“困惑”；所述头部显示屏用于展示机器人的表情和交互的图像文字。所述读卡器用于读取患者社保卡、身份证等认证信息；所述控制运算单元，用于执行对象情绪感知模块200以及互动对话管理模块300中的步骤，还可进行资源存储并与外界进行通信。

本发明实施例中，所述人体全方位探测器由RGB-D相机、彩色广角相机、麦克风和喇叭阵列组成，用于捕捉患者的神态、动作和语音信息；RGB-D相机安装于头部，可随机器人头部转动而转动，准确的跟踪用户的脸部等细节；彩色广角相机安装于躯干，相对静止，在较大范围内捕捉跟踪用户，确保不跟丢。

本发明实施例中，所述对象情绪感知模块200主要功能在于运用语音和图像感知，来融合分析对象的情绪以及需求，并为反馈提供指导。其中的视频图像感知单元能够根据近距离的RGB-D图像，识别用户人脸特征标签和人脸表情特征；并根据RGB-D图像和广角镜头图像，基于深度学习的技术，识别用户的连续肢体动作得到人体动作特征。其中，用户人脸特征标签可同时与身份证和社保卡的身份信息比对绑定记录，来识别是否用户本人，并且查询用户历史来访和问诊信息。

如图2所示，作为本发明一个优选的实施例，所述结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息的步骤，具体包括：

S201，对象情绪建模：设置若干个代表性反向情绪对，为每一个反向情绪对，建立区间为的量化表达，其中，-1表示该情绪对的反面极端情绪，+1表示该情绪对的正面极端情绪；将对象情绪表示为：多个代表性反向情绪对所对应标量x1,x2,...，xn组成的向量

，

，其中，

表示反向情绪对的个数，本实例中可取

=4；

S202，对象情绪的信息融合：将语义特征、情感特征、人脸表情特征和人体动作特征采用贝叶斯网络或者深度学习的方式进行辨识，统一表达成向量

的形式，其中，将语义特征和情感特征表述为

，将人脸表情特征表述为

，将人体动作特征表述为

，对

、

和

进行信息融合，得到情绪感知信息。

需要说明的是，这里所识别的对象情绪，我们不采用简单的“高兴”、“生气”等大类别区分，而是基于反向情绪对，设计高维对象情绪空间。具体的，可以设计{“高兴”-“生气”}、{“着急”-“从容”}、{“愤怒”-“冷静”}、{“快乐”-“悲伤”}等代表性反向情绪对。并为每一个情绪对，建立区间为[-1,+1]的量化表达，其中，-1表示该情绪对的反面极端情绪，+1表示该情绪对的正面极端情绪。例如，{“高兴”-“生气”}情绪对，可用标量xi表示，x=-1表示极端生气，x=1表示极端高兴。

本发明实施例中，将语义特征、情感特征、人脸表情特征和人体动作特征采用贝叶斯网络或者深度学习的方式进行辨识，统一表达成向量

的形式，具体过程如下：

对于语义特征和情感特征，是由语音识别的内容和声纹分析综合得到。一方面，将不同的文字词句，按照情感表达的区别赋予不同的情感权值；例如，“快一点”、“要急诊”之类的词语，可以对应到情感：“着急”。另一方面，基于一段时间内对象语言内容与声纹信息，从语义识别的角度出发，计算对象的语义情感，相关的技术可以用深度学习的语音情感识别得到。对于一段语音，可以每一种情感训练一个子网络,每个子网络是一个多层感知器(MLP)，将提取出的特征矢量输入到每一个子神经网络中,每个子网输出界于0-1的数值,表示输入的参数矢量可能属于某种情感的似然程度,利用各个子网络的输出进行决策得出情感识别结果，将其表述为

。对于人体动作特征，它由对一段时间内人体的肢体动作分析得到，可以用基于深度学习的方式来训练网络，实现辨别，将其表述为

。对于人脸表情特征，它由对一段时间内脸部表情分析得到，也可以用基于深度学习的方式来训练网络，实现辨别，将其表述为

。情绪的表达因人而异，尤其体现在语言与肢体动作的相关性和特异性方面。为了在情绪分析方面实现个性化，针对某一特定对象，我们可以存储其历史上的(或者本次互动之前一段时间上的)语言、动作和表情的感知结果。

在本发明实施例中，所述对

、

和

进行信息融合，得到情绪感知信息的步骤，具体包括：

获取第n时间段的感知数据为

，计算相关性：

其中，

；

计算权重：

，

，

；

以

符号表示融合计算，其融合计算方式如下：

其中：

其中，

为固定阈值，一般可取1，融合结果为：

，

为限制运算，表示对

向量的每一个元素，当其大于或者等于1时，限制为1，小于或者等于-1时，限制为-1，

即为第n时间段的情绪感知信息。

作为本发明一个优选的实施例，所述互动对话管理模块300包含DQN对话系统，互动对话管理模块300执行步骤的流程为：感知到对象的当前状态S，将当前状态S输入到DQN对话系统中，计算得到执行A，根据执行A进行互动表达和语音输出；得到新的对象感知，包括反馈r和新状态S_；以新状态S_作为输入到DQN系统中，计算下一步的执行动作，依此循环。在每一次循环中，将{S，A，r，S_}作为知识，存放到存储器中，用于后续学习判断。

本发明实施例中，传统的基于强化学习（DQN）对话系统，主要单独依靠语音内容实现对话，不具备察言观色、情绪表达等能力。这里，我们提出一种结合对象多元情绪感知与互动的DQN对话管理系统，它在传统DQN语音对话的基础上，引入对象多元情绪感知的结果作为系统额外输入量，同时，利用机器人的图像、LED灯和动作互动表达，配合语音输出，从而达到自然交互的效果。

其中，当前状态S：在对话过程中，机器人通过各种传感器，感知识别到的对象的语言文字含义、身份信息、病历、情绪等，可以用序列化的数组表示；

新状态S_：在执行动作A之后，感知到的对象的新的状态信息，可以用序列化的数组表示；

反馈r：在执行动作A之后，感知到的对象的新信息，在这里，以对象的情绪信息、满意度等为主，剔除身份、文字、病历等一般信息；对象的正向情绪信息以及高满意度作为正向反馈，而负面情绪信息作为负反馈。

执行A：指的是机器人自身的语音、动作和情绪表达。包括了语音合成输出、头部显示屏显示、LED灯、头部关节运动等。除了语音输出之外，机器人可以用LED灯、显示屏表情等，来表达机器人的情绪。例如，可用红色代表“愤怒”，粉红色代表“快乐”或“喜悦”，蓝色代表“悲伤”，而在这些颜色之间进行转换表示“困惑”等等。

与传统固定的语音和语气表达有所区别的在于：执行A建模成：

，其中，

表示正常对话系统所要进行的语音输出，

进一步的，机器人的

在连续渐变表达方面，以头部显示屏表情为例，设计表情表达向量

：

其中，y1,y2,...,ym为显示屏的人脸表情的关键特征点（包括嘴角、眉角、眼角等等）偏移于基准值的距离（区分正负号），例如，y1可以是左边嘴角翘起/下移的距离，y2可以是左边眉角翘起/下移的距离等等。一组{y1,y2,...,ym}所表述的特征点，可以依照其位置生成人脸的嘴、鼻、眼、眉毛等关键器官的位置，进而生成对应其特定的人脸表情图像F。

进一步的，基于情绪表达向量Xa，可以直接构建

的人脸表达神经网络G，

，其中，神经网络G可以由人脸表情识别的数据对（Y，X）训练得到。

由此，我们可以得到机器人的

情绪在显示屏表情上的表达：

，对于极端情绪，如愤怒、高兴、疑惑等，运用LED灯和头部动作来表示，例如，可用红色代表“愤怒”，粉红色代表“快乐”或“喜悦”，蓝色代表“悲伤”，而在这些颜色之间进行转换表示“困惑”等等。

本发明实施例中的DQN对话系统，主要采取任务型对话和非任务型对话结合和切换的方式。就导诊机器人而言，任务型对话主要是针对患者执行导诊服务，包括病情询问、挂号推荐、挂号查询等等服务展开；非任务型对话是针对普通问题，采用类似聊天机器人的形式展开。其核心在于，维护一张Q值表，表的维数为：状态数S*动作数A，表中每个数代表在状态s下可以采用动作a可以获得的未来收益的折现和，未来收益的折现和即为Q值，不断的迭代Q值表使其最终收敛，然后根据Q值表我们就可以在每个状态下选取一个最优策略。

实施流程为：首先，机器人感知到对象的当前状态S，将其输入到DQN对话系统中，计算得到执行A，机器人执行A（机器人语音播放、动作和情绪表达），然后感知得到新的对象感知，包括反馈r和新状态S_；下一步，以新状态S_作为输入，到DQN对话系统，计算下一步的执行动作，依此循环。

关于DQN的初始训练：

通过事先采集、人为给定等形式，获取一系列多轮对话以及互动的知识数据：{S，A，r，S_}；

初始化Q网络，随机生成其权重

；目标Q网络，随机生成其权重

；

遍历知识数据，其中包含多组{S，A，r，S_},其局部的连续变化组为（St，At，rt，St+1），计算

表示第j次迭代时使用的结果，它通过

系数调节实现随机探索；

表示通过Q矩阵的当前

，通过输入

计算的结果。通过计算损失函数

，来进行梯度下降算法，实现

更新。最终，通过训练过程中不断的优化权重

，实现一个较优的Q网络，用于实际系统。

在线更新：在机器人执行任务时，在每一步，都将{S，A，r，S_}作为知识，存放到存储器中，每隔一段时间，利用新增加的知识数据，更新Q网络参数；每隔固定的时间，更新目标Q网络。在对话状态跟踪部分，融合患者多元信息作为当前对话状态；在对话策略优化部分，在症状、疾病、科室、医生、时间、路线等槽位的询问动作及确认信息动作基础上加入各个“表情”、“手势”和“点头摇头”的动作。

综上，本发明实施例中的导诊机器人不仅能够捕获患者的声音，还能够通过全方位人体探测器实时获取到患者的表情及动作，从而分析融合多模态信息得到其情绪表达以及相应的信息交互请求，然后基于强化学习做出最优的情感反馈与信息交互。患者可以通过神态、动作和语音来传达信息及需求，不单单是进行语音对话，从而实现了情感表达更加丰富的导诊机器人和患者之间的交流方式。

在对象情绪的建模中，基于反向情绪对，设计高维对象情绪空间，用统一的向量

，来表示不同模式（含语音、表情和动作）识别到的情感。

在传统DQN语音对话的基础上，引入对象多元情绪感知的结果作为系统额外输入量，同时，利用机器人的图像、LED灯和动作互动表达，配合语音输出，从而达到自然交互的效果。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，所述导诊机器人包括：

2.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，所述结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息的步骤，具体包括：

，

，其中，

表示反向情绪对的个数；

的形式，其中，将语义特征和情感特征表述为

，将人脸表情特征表述为

，将人体动作特征表述为

，对

、

和

进行信息融合，得到情绪感知信息。

3.根据权利要求2所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，所述对

、

和

进行信息融合，得到情绪感知信息的步骤，具体包括：

获取第n时间段的感知数据为

，计算相关性：

其中，

；

计算权重：

，

，

；

以

符号表示融合计算，其融合计算方式如下：

其中：

其中，

为固定阈值，融合结果为：

，

为限制运算，表示对

4.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，所述互动对话管理模块包含DQN对话系统，互动对话管理模块执行步骤的流程为：感知到对象的当前状态S，将当前状态S输入到DQN对话系统中，计算得到执行A，根据执行A进行互动表达和语音输出；得到新的对象感知，包括反馈r和新状态S_；以新状态S_作为输入到DQN系统中，计算下一步的执行动作，依此循环。

5.根据权利要求4所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，执行A建模成：

，其中，

表示正常对话系统所要进行的语音输出，

表示机器人需要做出的情绪表达，

通过语音合成进行输出，

6.根据权利要求5所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，机器人的

7.据权利要求4所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，在每一次循环中，将{S，A，r，S_}作为知识，存放到存储器中，用于后续学习判断。

8.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，所述头部LED灯能够显示多种颜色，通过不同的颜色表示机器人的不同情绪；所述头部显示屏用于展示机器人的表情和交互的图像文字。

9.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，所述人体全方位探测器由RGB-D相机、彩色广角相机、麦克风和喇叭阵列组成，用于捕捉患者的神态、动作和语音信息；RGB-D相机安装于头部，能够准确跟踪用户的脸部；彩色广角相机安装于机器人躯干。

10.根据权利要求9所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人，其特征在于，所述视频图像感知单元能够根据近距离的RGB-D图像，识别用户人脸特征标签和人脸表情特征；并根据RGB-D图像和广角镜头图像，基于深度学习的技术，识别用户的连续肢体动作得到人体动作特征。