CN115431288A - 基于多元融合信息进行情感反馈及信息交互的导诊机器人 - Google Patents

基于多元融合信息进行情感反馈及信息交互的导诊机器人 Download PDF

Info

Publication number
CN115431288A
CN115431288A CN202211402162.9A CN202211402162A CN115431288A CN 115431288 A CN115431288 A CN 115431288A CN 202211402162 A CN202211402162 A CN 202211402162A CN 115431288 A CN115431288 A CN 115431288A
Authority
CN
China
Prior art keywords
emotion
information
features
robot
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211402162.9A
Other languages
English (en)
Other versions
CN115431288B (zh
Inventor
彭盼
彭能
陈放
丁磊
柏晓乐
王玮琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Dynamics Co ltd
Original Assignee
Smart Dynamics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Dynamics Co ltd filed Critical Smart Dynamics Co ltd
Priority to CN202211402162.9A priority Critical patent/CN115431288B/zh
Publication of CN115431288A publication Critical patent/CN115431288A/zh
Application granted granted Critical
Publication of CN115431288B publication Critical patent/CN115431288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/008Manipulators for service tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/026Acoustical sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor

Abstract

本发明适用于机器人技术领域,提供了基于多元融合信息进行情感反馈及信息交互的导诊机器人,包括:硬件部分;对象情绪感知模块,对象情绪感知模块具体包括语音与声纹感知单元、视频图像感知单元和信息融合分析单元,声纹感知单元用于获取情感特征和语义特征;视频图像感知单元用于获取人脸表情特征和人体动作特征;信息融合分析单元用于结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息;互动对话管理模块,用于根据情绪感知信息并利用头部LED灯、头部显示屏和头部转动关节进行互动表达。提供了一种可融合用户神态、动作和语音多模态信息进行情感反馈及信息交互的智能导诊机器人,提升患者就诊体验满意度。

Description

基于多元融合信息进行情感反馈及信息交互的导诊机器人
技术领域
本发明涉及机器人技术领域,具体是涉及一种基于多元融合信息进行情感反馈及信息交互的导诊机器人。
背景技术
随着人工智能等技术地发展,智能机器人导诊被越来越多的人使用,但当前各个医院的智能导诊机器人还存在问答死板、交互复杂及无法与患者产生情感共鸣,极易导致患者生出急躁抵触情绪,降低就诊体验满意度和诊疗效率,这也是导致患者长时间滞留而引发医院人满为患问题的根源。例如申请号为201811520542.6的中国专利公开了一种智能问答方法、装置、设备及介质,仅仅能够提供语音的交互,无法识别用户的表情和情感,无法根据情感特征给予人性化的交互。因此,需要提供一种基于多元融合信息进行情感反馈及信息交互的导诊机器人,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于多元融合信息进行情感反馈及信息交互的导诊机器人,以解决上述背景技术中存在的问题。
本发明是这样实现的,基于多元融合信息进行情感反馈及信息交互的导诊机器人,所述导诊机器人包括:
硬件部分,硬件部分具体包括人体全方位探测器、头部LED灯、头部显示屏、头部转动关节、读卡器和控制运算单元;
对象情绪感知模块,对象情绪感知模块具体包括语音与声纹感知单元、视频图像感知单元和信息融合分析单元,所述声纹感知单元用于基于声纹分析技术提取用户声纹里的情感特征,并利用语音识别技术,识别对象的语音内容,得到语义特征;所述视频图像感知单元用于获取人脸表情特征和人体动作特征;所述信息融合分析单元用于结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息;
互动对话管理模块,用于根据情绪感知信息并利用头部LED灯、头部显示屏以及头部转动关节进行互动表达,并进行语音输出。
作为本发明进一步的方案:所述头部转动关节包括电机,能够实现机器人头部的转动、点头和摇头。
作为本发明进一步的方案:所述头部LED灯能够显示多种颜色,通过不同的颜色表示机器人的不同情绪;所述头部显示屏用于展示机器人的表情和交互的图像文字。
作为本发明进一步的方案:所述人体全方位探测器由RGB-D相机、彩色广角相机、麦克风和喇叭阵列组成,用于捕捉患者的神态、动作和语音信息;RGB-D相机安装于头部,能够准确跟踪用户的脸部;彩色广角相机安装于机器人躯干。
作为本发明进一步的方案:所述视频图像感知单元能够根据近距离的RGB-D图像,识别用户人脸特征标签和人脸表情特征;并根据RGB-D图像和广角镜头图像,基于深度学习的技术,识别用户的连续肢体动作得到人体动作特征。
作为本发明进一步的方案:所述结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息的步骤,具体包括:
对象情绪建模:设置若干个代表性反向情绪对,为每一个反向情绪对,建立区间为[-1,+1]的量化表达,其中,-1表示该情绪对的反面极端情绪,+1表示该情绪对的正面极端情绪;将对象情绪表示为:多个代表性反向情绪对所对应标量x1,x2,...,xn组成的向量
Figure 543087DEST_PATH_IMAGE001
Figure 555168DEST_PATH_IMAGE002
,其中,
Figure 803747DEST_PATH_IMAGE003
表示反向情绪对的个数;
对象情绪的信息融合:将语义特征、情感特征、人脸表情特征和人体动作特征采用贝叶斯网络或者深度学习的方式进行辨识,统一表达成向量
Figure 933377DEST_PATH_IMAGE004
的形式,其中,将语义特征和情感特征表述为
Figure 75645DEST_PATH_IMAGE005
,将人脸表情特征表述为
Figure 632528DEST_PATH_IMAGE006
,将人体动作特征表述为
Figure 493037DEST_PATH_IMAGE007
,对
Figure 160779DEST_PATH_IMAGE005
Figure 423133DEST_PATH_IMAGE007
Figure 885338DEST_PATH_IMAGE006
进行信息融合,得到情绪感知信息。
作为本发明进一步的方案:所述对
Figure 731678DEST_PATH_IMAGE005
Figure 203110DEST_PATH_IMAGE007
Figure 319971DEST_PATH_IMAGE006
进行信息融合,得到情绪感知信息的步骤,具体包括:
获取第n时间段的感知数据为
Figure 218657DEST_PATH_IMAGE008
Figure 804490DEST_PATH_IMAGE009
Figure 548455DEST_PATH_IMAGE010
,计算相关性:
Figure 926347DEST_PATH_IMAGE011
其中,
Figure 854989DEST_PATH_IMAGE012
计算权重:
Figure 52752DEST_PATH_IMAGE013
Figure 247014DEST_PATH_IMAGE014
Figure 479412DEST_PATH_IMAGE015
Figure 844535DEST_PATH_IMAGE016
符号表示融合计算,其融合计算方式如下:
Figure 264015DEST_PATH_IMAGE017
其中:
Figure 739995DEST_PATH_IMAGE018
其中,
Figure 826900DEST_PATH_IMAGE019
为固定阈值,融合结果为:
Figure 238290DEST_PATH_IMAGE020
Figure 269700DEST_PATH_IMAGE021
为限制运算,表示对
Figure 159158DEST_PATH_IMAGE022
向量的每一个元素,当其大于或者等于1时,限制为1,小于或者等于-1时,限制为-1。
作为本发明进一步的方案:所述互动对话管理模块包含DQN对话系统,互动对话管理模块执行步骤的流程为:感知到对象的当前状态S,将当前状态S输入到DQN对话系统中,计算得到执行A,根据执行A进行互动表达和语音输出;得到新的对象感知,包括反馈r和新状态S_;以新状态S_作为输入到DQN系统中,计算下一步的执行动作,依此循环。
作为本发明进一步的方案:执行A建模成:
Figure 992248DEST_PATH_IMAGE023
,其中,
Figure 574539DEST_PATH_IMAGE024
表示正常对话系统所要进行的语音输出,
Figure 234190DEST_PATH_IMAGE025
表示机器人需要做出的情绪表达,
Figure 51973DEST_PATH_IMAGE024
通过语音合成进行输出,
Figure 582312DEST_PATH_IMAGE025
通过机器人的头部LED灯、头部显示屏、头部转动关节进行输出。
作为本发明进一步的方案:机器人的
Figure 460138DEST_PATH_IMAGE025
情绪表达,由头部显示屏中表情的连续渐变表达和头部LED灯以及头部转动关节的分状态表达组合而成。
作为本发明进一步的方案:在每一次循环中,将{S,A,r,S_}作为知识,存放到存储器中,用于后续学习判断。
与现有技术相比,本发明的有益效果是:
本发明提供了一种可融合用户神态、动作和语音多模态信息进行情感反馈及信息交互的智能导诊机器人,能够获取情绪感知信息并利用头部LED灯、头部显示屏以及头部转动关节进行互动表达,并进行语音输出,更加人性化,极大提升患者就诊体验满意度和就诊效率。
附图说明
图1为一种基于多元融合信息进行情感反馈及信息交互的导诊机器人的结构示意图。
图2为一种基于多元融合信息进行情感反馈及信息交互的导诊机器人确定用户的情绪感知信息的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种基于多元融合信息进行情感反馈及信息交互的导诊机器人,所述导诊机器人包括:
硬件部分100,硬件部分100具体包括人体全方位探测器、头部LED灯、头部显示屏、头部转动关节、读卡器和控制运算单元;
对象情绪感知模块200,对象情绪感知模块200具体包括语音与声纹感知单元、视频图像感知单元和信息融合分析单元,所述声纹感知单元用于基于声纹分析技术提取用户声纹里的情感特征,并利用语音识别技术,识别对象的语音内容,得到语义特征;所述视频图像感知单元用于获取人脸表情特征和人体动作特征;所述信息融合分析单元用于结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息;
互动对话管理模块300,用于根据情绪感知信息并利用头部LED灯、头部显示屏以及头部转动关节进行互动表达,并进行语音输出。
本发明实施例中,所述头部转动关节包括电机,能够实现机器人头部的转动、点头和摇头。所述头部LED灯能够显示多种颜色,通过不同的颜色表示机器人的不同情绪,例如能够显示红色、蓝色、绿色等多种颜色,具体的,可用红色代表“愤怒”,粉红色代表“快乐”或“喜悦”,蓝色代表“悲伤”,而在这些颜色之间进行转换表示“困惑”;所述头部显示屏用于展示机器人的表情和交互的图像文字。所述读卡器用于读取患者社保卡、身份证等认证信息;所述控制运算单元,用于执行对象情绪感知模块200以及互动对话管理模块300中的步骤,还可进行资源存储并与外界进行通信。
本发明实施例中,所述人体全方位探测器由RGB-D相机、彩色广角相机、麦克风和喇叭阵列组成,用于捕捉患者的神态、动作和语音信息;RGB-D相机安装于头部,可随机器人头部转动而转动,准确的跟踪用户的脸部等细节;彩色广角相机安装于躯干,相对静止,在较大范围内捕捉跟踪用户,确保不跟丢。
本发明实施例中,所述对象情绪感知模块200主要功能在于运用语音和图像感知,来融合分析对象的情绪以及需求,并为反馈提供指导。其中的视频图像感知单元能够根据近距离的RGB-D图像,识别用户人脸特征标签和人脸表情特征;并根据RGB-D图像和广角镜头图像,基于深度学习的技术,识别用户的连续肢体动作得到人体动作特征。其中,用户人脸特征标签可同时与身份证和社保卡的身份信息比对绑定记录,来识别是否用户本人,并且查询用户历史来访和问诊信息。
如图2所示,作为本发明一个优选的实施例,所述结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息的步骤,具体包括:
S201,对象情绪建模:设置若干个代表性反向情绪对,为每一个反向情绪对,建立区间为的量化表达,其中,-1表示该情绪对的反面极端情绪,+1表示该情绪对的正面极端情绪;将对象情绪表示为:多个代表性反向情绪对所对应标量x1,x2,...,xn组成的向量
Figure 607086DEST_PATH_IMAGE001
Figure 228560DEST_PATH_IMAGE026
,其中,
Figure 144563DEST_PATH_IMAGE027
表示反向情绪对的个数,本实例中可取
Figure 803078DEST_PATH_IMAGE027
=4;
S202,对象情绪的信息融合:将语义特征、情感特征、人脸表情特征和人体动作特征采用贝叶斯网络或者深度学习的方式进行辨识,统一表达成向量
Figure 794911DEST_PATH_IMAGE001
的形式,其中,将语义特征和情感特征表述为
Figure 829863DEST_PATH_IMAGE005
,将人脸表情特征表述为
Figure 990586DEST_PATH_IMAGE006
,将人体动作特征表述为
Figure 820002DEST_PATH_IMAGE007
,对
Figure 941541DEST_PATH_IMAGE005
Figure 904818DEST_PATH_IMAGE007
Figure 529835DEST_PATH_IMAGE006
进行信息融合,得到情绪感知信息。
需要说明的是,这里所识别的对象情绪,我们不采用简单的“高兴”、“生气”等大类别区分,而是基于反向情绪对,设计高维对象情绪空间。具体的,可以设计{“高兴”-“生气”}、{“着急”-“从容”}、{“愤怒”-“冷静”}、{“快乐”-“悲伤”}等代表性反向情绪对。并为每一个情绪对,建立区间为[-1,+1]的量化表达,其中,-1表示该情绪对的反面极端情绪,+1表示该情绪对的正面极端情绪。例如,{“高兴”-“生气”}情绪对,可用标量xi表示,x=-1表示极端生气,x=1表示极端高兴。
本发明实施例中,将语义特征、情感特征、人脸表情特征和人体动作特征采用贝叶斯网络或者深度学习的方式进行辨识,统一表达成向量
Figure 920365DEST_PATH_IMAGE001
的形式,具体过程如下:
对于语义特征和情感特征,是由语音识别的内容和声纹分析综合得到。一方面,将不同的文字词句,按照情感表达的区别赋予不同的情感权值;例如,“快一点”、“要急诊”之类的词语,可以对应到情感:“着急”。另一方面,基于一段时间内对象语言内容与声纹信息,从语义识别的角度出发,计算对象的语义情感,相关的技术可以用深度学习的语音情感识别得到。对于一段语音,可以每一种情感训练一个子网络,每个子网络是一个多层感知器(MLP),将提取出的特征矢量输入到每一个子神经网络中,每个子网输出界于0-1的数值,表示输入的参数矢量可能属于某种情感的似然程度,利用各个子网络的输出进行决策得出情感识别结果,将其表述为
Figure 998042DEST_PATH_IMAGE005
。对于人体动作特征,它由对一段时间内人体的肢体动作分析得到,可以用基于深度学习的方式来训练网络,实现辨别,将其表述为
Figure 905955DEST_PATH_IMAGE007
。对于人脸表情特征,它由对一段时间内脸部表情分析得到,也可以用基于深度学习的方式来训练网络,实现辨别,将其表述为
Figure 11577DEST_PATH_IMAGE006
。情绪的表达因人而异,尤其体现在语言与肢体动作的相关性和特异性方面。为了在情绪分析方面实现个性化,针对某一特定对象,我们可以存储其历史上的(或者本次互动之前一段时间上的)语言、动作和表情的感知结果。
在本发明实施例中,所述对
Figure 448374DEST_PATH_IMAGE005
Figure 403561DEST_PATH_IMAGE007
Figure 318427DEST_PATH_IMAGE006
进行信息融合,得到情绪感知信息的步骤,具体包括:
获取第n时间段的感知数据为
Figure 42670DEST_PATH_IMAGE008
Figure 650369DEST_PATH_IMAGE009
Figure 561693DEST_PATH_IMAGE010
,计算相关性:
Figure 280250DEST_PATH_IMAGE028
其中,
Figure 357534DEST_PATH_IMAGE029
计算权重:
Figure 136134DEST_PATH_IMAGE030
Figure 65913DEST_PATH_IMAGE014
Figure 588161DEST_PATH_IMAGE031
Figure 21417DEST_PATH_IMAGE016
符号表示融合计算,其融合计算方式如下:
Figure 236497DEST_PATH_IMAGE032
其中:
Figure 997780DEST_PATH_IMAGE018
其中,
Figure 448353DEST_PATH_IMAGE019
为固定阈值,一般可取1,融合结果为:
Figure 877060DEST_PATH_IMAGE020
Figure 623562DEST_PATH_IMAGE021
为限制运算,表示对
Figure 403299DEST_PATH_IMAGE022
向量的每一个元素,当其大于或者等于1时,限制为1,小于或者等于-1时,限制为-1,
Figure 267349DEST_PATH_IMAGE033
即为第n时间段的情绪感知信息。
作为本发明一个优选的实施例,所述互动对话管理模块300包含DQN对话系统,互动对话管理模块300执行步骤的流程为:感知到对象的当前状态S,将当前状态S输入到DQN对话系统中,计算得到执行A,根据执行A进行互动表达和语音输出;得到新的对象感知,包括反馈r和新状态S_;以新状态S_作为输入到DQN系统中,计算下一步的执行动作,依此循环。在每一次循环中,将{S,A,r,S_}作为知识,存放到存储器中,用于后续学习判断。
本发明实施例中,传统的基于强化学习(DQN)对话系统,主要单独依靠语音内容实现对话,不具备察言观色、情绪表达等能力。这里,我们提出一种结合对象多元情绪感知与互动的DQN对话管理系统,它在传统DQN语音对话的基础上,引入对象多元情绪感知的结果作为系统额外输入量,同时,利用机器人的图像、LED灯和动作互动表达,配合语音输出,从而达到自然交互的效果。
其中,当前状态S:在对话过程中,机器人通过各种传感器,感知识别到的对象的语言文字含义、身份信息、病历、情绪等,可以用序列化的数组表示;
新状态S_:在执行动作A之后,感知到的对象的新的状态信息,可以用序列化的数组表示;
反馈r:在执行动作A之后,感知到的对象的新信息,在这里,以对象的情绪信息、满意度等为主,剔除身份、文字、病历等一般信息;对象的正向情绪信息以及高满意度作为正向反馈,而负面情绪信息作为负反馈。
执行A:指的是机器人自身的语音、动作和情绪表达。包括了语音合成输出、头部显示屏显示、LED灯、头部关节运动等。除了语音输出之外,机器人可以用LED灯、显示屏表情等,来表达机器人的情绪。例如,可用红色代表“愤怒”,粉红色代表“快乐”或“喜悦”,蓝色代表“悲伤”,而在这些颜色之间进行转换表示“困惑”等等。
与传统固定的语音和语气表达有所区别的在于:执行A建模成:
Figure 409618DEST_PATH_IMAGE034
,其中,
Figure 232080DEST_PATH_IMAGE035
表示正常对话系统所要进行的语音输出,
Figure 92589DEST_PATH_IMAGE036
通过机器人的头部LED灯、头部显示屏、头部转动关节进行输出。
进一步的,机器人的
Figure 760331DEST_PATH_IMAGE036
情绪表达,由头部显示屏中表情的连续渐变表达和头部LED灯以及头部转动关节的分状态表达组合而成。
在连续渐变表达方面,以头部显示屏表情为例,设计表情表达向量
Figure 898051DEST_PATH_IMAGE037
Figure 750469DEST_PATH_IMAGE038
其中,y1,y2,...,ym为显示屏的人脸表情的关键特征点(包括嘴角、眉角、眼角等等)偏移于基准值的距离(区分正负号),例如,y1可以是左边嘴角翘起/下移的距离,y2可以是左边眉角翘起/下移的距离等等。一组{y1,y2,...,ym}所表述的特征点,可以依照其位置生成人脸的嘴、鼻、眼、眉毛等关键器官的位置,进而生成对应其特定的人脸表情图像F。
进一步的,基于情绪表达向量Xa,可以直接构建
Figure 239219DEST_PATH_IMAGE039
的人脸表达神经网络G,
Figure 68242DEST_PATH_IMAGE040
,其中,神经网络G可以由人脸表情识别的数据对(Y,X)训练得到。
由此,我们可以得到机器人的
Figure 60469DEST_PATH_IMAGE036
情绪在显示屏表情上的表达:
Figure 224734DEST_PATH_IMAGE041
,对于极端情绪,如愤怒、高兴、疑惑等,运用LED灯和头部动作来表示,例如,可用红色代表“愤怒”,粉红色代表“快乐”或“喜悦”,蓝色代表“悲伤”,而在这些颜色之间进行转换表示“困惑”等等。
本发明实施例中的DQN对话系统,主要采取任务型对话和非任务型对话结合和切换的方式。就导诊机器人而言,任务型对话主要是针对患者执行导诊服务,包括病情询问、挂号推荐、挂号查询等等服务展开;非任务型对话是针对普通问题,采用类似聊天机器人的形式展开。其核心在于,维护一张Q值表,表的维数为:状态数S*动作数A,表中每个数代表在状态s下可以采用动作a可以获得的未来收益的折现和,未来收益的折现和即为Q值,不断的迭代Q值表使其最终收敛,然后根据Q值表我们就可以在每个状态下选取一个最优策略。
实施流程为:首先,机器人感知到对象的当前状态S,将其输入到DQN对话系统中,计算得到执行A,机器人执行A(机器人语音播放、动作和情绪表达),然后感知得到新的对象感知,包括反馈r和新状态S_;下一步,以新状态S_作为输入,到DQN对话系统,计算下一步的执行动作,依此循环。
关于DQN的初始训练:
通过事先采集、人为给定等形式,获取一系列多轮对话以及互动的知识数据:{S,A,r,S_};
初始化Q网络,随机生成其权重
Figure 794255DEST_PATH_IMAGE042
;目标Q网络,随机生成其权重
Figure 803800DEST_PATH_IMAGE043
遍历知识数据,其中包含多组{S,A,r,S_},其局部的连续变化组为(St,At,rt,St+1),计算
Figure 306325DEST_PATH_IMAGE044
Figure 110333DEST_PATH_IMAGE045
表示第j次迭代时使用的结果,它通过
Figure 432730DEST_PATH_IMAGE046
系数调节实现随机探索;
Figure 980386DEST_PATH_IMAGE047
表示通过Q矩阵的当前
Figure 573304DEST_PATH_IMAGE042
,通过输入
Figure 548213DEST_PATH_IMAGE048
计算的结果。通过计算损失函数
Figure 357906DEST_PATH_IMAGE049
,来进行梯度下降算法,实现
Figure 709253DEST_PATH_IMAGE042
更新。最终,通过训练过程中不断的优化权重
Figure 796158DEST_PATH_IMAGE042
,实现一个较优的Q网络,用于实际系统。
在线更新:在机器人执行任务时,在每一步,都将{S,A,r,S_}作为知识,存放到存储器中,每隔一段时间,利用新增加的知识数据,更新Q网络参数;每隔固定的时间,更新目标Q网络。在对话状态跟踪部分,融合患者多元信息作为当前对话状态;在对话策略优化部分,在症状、疾病、科室、医生、时间、路线等槽位的询问动作及确认信息动作基础上加入各个“表情”、“手势”和“点头摇头”的动作。
综上,本发明实施例中的导诊机器人不仅能够捕获患者的声音,还能够通过全方位人体探测器实时获取到患者的表情及动作,从而分析融合多模态信息得到其情绪表达以及相应的信息交互请求,然后基于强化学习做出最优的情感反馈与信息交互。患者可以通过神态、动作和语音来传达信息及需求,不单单是进行语音对话,从而实现了情感表达更加丰富的导诊机器人和患者之间的交流方式。
在对象情绪的建模中,基于反向情绪对,设计高维对象情绪空间,用统一的向量
Figure 332181DEST_PATH_IMAGE050
,来表示不同模式(含语音、表情和动作)识别到的情感。
在传统DQN语音对话的基础上,引入对象多元情绪感知的结果作为系统额外输入量,同时,利用机器人的图像、LED灯和动作互动表达,配合语音输出,从而达到自然交互的效果。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,所述导诊机器人包括:
硬件部分,硬件部分具体包括人体全方位探测器、头部LED灯、头部显示屏、头部转动关节、读卡器和控制运算单元;
对象情绪感知模块,对象情绪感知模块具体包括语音与声纹感知单元、视频图像感知单元和信息融合分析单元,所述声纹感知单元用于基于声纹分析技术提取用户声纹里的情感特征,并利用语音识别技术,识别对象的语音内容,得到语义特征;所述视频图像感知单元用于获取人脸表情特征和人体动作特征;所述信息融合分析单元用于结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息;
互动对话管理模块,用于根据情绪感知信息并利用头部LED灯、头部显示屏以及头部转动关节进行互动表达,并进行语音输出。
2.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,所述结合语义特征、情感特征、人脸表情特征和人体动作特征分析得到用户的情绪感知信息的步骤,具体包括:
对象情绪建模:设置若干个代表性反向情绪对,为每一个反向情绪对,建立区间为[-1,+1]的量化表达,其中,-1表示该情绪对的反面极端情绪,+1表示该情绪对的正面极端情绪;将对象情绪表示为:多个代表性反向情绪对所对应标量x1,x2,...,xn组成的向量
Figure 496938DEST_PATH_IMAGE001
Figure 386396DEST_PATH_IMAGE002
,其中,
Figure 593387DEST_PATH_IMAGE003
表示反向情绪对的个数;
对象情绪的信息融合:将语义特征、情感特征、人脸表情特征和人体动作特征采用贝叶斯网络或者深度学习的方式进行辨识,统一表达成向量
Figure 533267DEST_PATH_IMAGE001
的形式,其中,将语义特征和情感特征表述为
Figure 927340DEST_PATH_IMAGE004
,将人脸表情特征表述为
Figure 745123DEST_PATH_IMAGE005
,将人体动作特征表述为
Figure 806620DEST_PATH_IMAGE006
,对
Figure 684446DEST_PATH_IMAGE004
Figure 565814DEST_PATH_IMAGE006
Figure 62655DEST_PATH_IMAGE005
进行信息融合,得到情绪感知信息。
3.根据权利要求2所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,所述对
Figure 837713DEST_PATH_IMAGE004
Figure 27386DEST_PATH_IMAGE006
Figure 22149DEST_PATH_IMAGE005
进行信息融合,得到情绪感知信息的步骤,具体包括:
获取第n时间段的感知数据为
Figure 57101DEST_PATH_IMAGE007
Figure 827611DEST_PATH_IMAGE008
Figure 47239DEST_PATH_IMAGE009
,计算相关性:
Figure 903200DEST_PATH_IMAGE010
其中,
Figure 600898DEST_PATH_IMAGE011
计算权重:
Figure 491493DEST_PATH_IMAGE012
Figure 882023DEST_PATH_IMAGE013
Figure 959701DEST_PATH_IMAGE014
Figure 225204DEST_PATH_IMAGE015
符号表示融合计算,其融合计算方式如下:
Figure 704726DEST_PATH_IMAGE016
其中:
Figure 266158DEST_PATH_IMAGE017
其中,
Figure 831131DEST_PATH_IMAGE018
为固定阈值,融合结果为:
Figure 870631DEST_PATH_IMAGE019
Figure 735819DEST_PATH_IMAGE020
为限制运算,表示对
Figure 343518DEST_PATH_IMAGE021
向量的每一个元素,当其大于或者等于1时,限制为1,小于或者等于-1时,限制为-1。
4.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,所述互动对话管理模块包含DQN对话系统,互动对话管理模块执行步骤的流程为:感知到对象的当前状态S,将当前状态S输入到DQN对话系统中,计算得到执行A,根据执行A进行互动表达和语音输出;得到新的对象感知,包括反馈r和新状态S_;以新状态S_作为输入到DQN系统中,计算下一步的执行动作,依此循环。
5.根据权利要求4所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,执行A建模成:
Figure 520422DEST_PATH_IMAGE022
,其中,
Figure 504558DEST_PATH_IMAGE023
表示正常对话系统所要进行的语音输出,
Figure 584772DEST_PATH_IMAGE024
表示机器人需要做出的情绪表达,
Figure 628951DEST_PATH_IMAGE023
通过语音合成进行输出,
Figure 168517DEST_PATH_IMAGE024
通过机器人的头部LED灯、头部显示屏、头部转动关节进行输出。
6.根据权利要求5所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,机器人的
Figure 80978DEST_PATH_IMAGE024
情绪表达,由头部显示屏中表情的连续渐变表达和头部LED灯以及头部转动关节的分状态表达组合而成。
7.据权利要求4所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,在每一次循环中,将{S,A,r,S_}作为知识,存放到存储器中,用于后续学习判断。
8.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,所述头部LED灯能够显示多种颜色,通过不同的颜色表示机器人的不同情绪;所述头部显示屏用于展示机器人的表情和交互的图像文字。
9.根据权利要求1所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,所述人体全方位探测器由RGB-D相机、彩色广角相机、麦克风和喇叭阵列组成,用于捕捉患者的神态、动作和语音信息;RGB-D相机安装于头部,能够准确跟踪用户的脸部;彩色广角相机安装于机器人躯干。
10.根据权利要求9所述的基于多元融合信息进行情感反馈及信息交互的导诊机器人,其特征在于,所述视频图像感知单元能够根据近距离的RGB-D图像,识别用户人脸特征标签和人脸表情特征;并根据RGB-D图像和广角镜头图像,基于深度学习的技术,识别用户的连续肢体动作得到人体动作特征。
CN202211402162.9A 2022-11-10 2022-11-10 基于多元融合信息进行情感反馈及信息交互的导诊机器人 Active CN115431288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211402162.9A CN115431288B (zh) 2022-11-10 2022-11-10 基于多元融合信息进行情感反馈及信息交互的导诊机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211402162.9A CN115431288B (zh) 2022-11-10 2022-11-10 基于多元融合信息进行情感反馈及信息交互的导诊机器人

Publications (2)

Publication Number Publication Date
CN115431288A true CN115431288A (zh) 2022-12-06
CN115431288B CN115431288B (zh) 2023-01-31

Family

ID=84253171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211402162.9A Active CN115431288B (zh) 2022-11-10 2022-11-10 基于多元融合信息进行情感反馈及信息交互的导诊机器人

Country Status (1)

Country Link
CN (1) CN115431288B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220591A (zh) * 2017-04-28 2017-09-29 哈尔滨工业大学深圳研究生院 多模态智能情绪感知系统
US20180085928A1 (en) * 2015-04-10 2018-03-29 Vstone Co., Ltd. Robot, robot control method, and robot system
CN108115695A (zh) * 2016-11-28 2018-06-05 沈阳新松机器人自动化股份有限公司 一种情感色彩表达系统及机器人
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN109817329A (zh) * 2019-01-21 2019-05-28 暗物智能科技(广州)有限公司 一种医疗问诊对话系统以及应用于该系统的强化学习方法
CN111368609A (zh) * 2018-12-26 2020-07-03 深圳Tcl新技术有限公司 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN112507094A (zh) * 2020-12-11 2021-03-16 润联软件系统(深圳)有限公司 一种基于强化学习的客服机器人对话方法及其相关组件
CN113658254A (zh) * 2021-07-28 2021-11-16 深圳市神州云海智能科技有限公司 一种处理多模态数据的方法及装置、机器人
CN114995657A (zh) * 2022-07-18 2022-09-02 湖南大学 一种智能机器人的多模态融合自然交互方法、系统及介质
CN115169507A (zh) * 2022-09-08 2022-10-11 华中科技大学 类脑多模态情感识别网络、识别方法及情感机器人

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180085928A1 (en) * 2015-04-10 2018-03-29 Vstone Co., Ltd. Robot, robot control method, and robot system
CN108115695A (zh) * 2016-11-28 2018-06-05 沈阳新松机器人自动化股份有限公司 一种情感色彩表达系统及机器人
CN107220591A (zh) * 2017-04-28 2017-09-29 哈尔滨工业大学深圳研究生院 多模态智能情绪感知系统
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN111368609A (zh) * 2018-12-26 2020-07-03 深圳Tcl新技术有限公司 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN109817329A (zh) * 2019-01-21 2019-05-28 暗物智能科技(广州)有限公司 一种医疗问诊对话系统以及应用于该系统的强化学习方法
CN112507094A (zh) * 2020-12-11 2021-03-16 润联软件系统(深圳)有限公司 一种基于强化学习的客服机器人对话方法及其相关组件
CN113658254A (zh) * 2021-07-28 2021-11-16 深圳市神州云海智能科技有限公司 一种处理多模态数据的方法及装置、机器人
CN114995657A (zh) * 2022-07-18 2022-09-02 湖南大学 一种智能机器人的多模态融合自然交互方法、系统及介质
CN115169507A (zh) * 2022-09-08 2022-10-11 华中科技大学 类脑多模态情感识别网络、识别方法及情感机器人

Also Published As

Publication number Publication date
CN115431288B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
Sheng et al. Multi-task learning for gait-based identity recognition and emotion recognition using attention enhanced temporal graph convolutional network
Du et al. Representation learning of temporal dynamics for skeleton-based action recognition
CN110785767B (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
CN108388876A (zh) 一种图像识别方法、装置以及相关设备
Yang et al. Emotion recognition for multiple context awareness
CN112800998B (zh) 融合注意力机制和dmcca的多模态情感识别方法及系统
CN110110169A (zh) 人机交互方法及人机交互装置
CN110491502A (zh) 显微镜视频流处理方法、系统、计算机设备和存储介质
CN109766840A (zh) 人脸表情识别方法、装置、终端及存储介质
Feng et al. Learn2smile: Learning non-verbal interaction through observation
Chao et al. Audio visual emotion recognition with temporal alignment and perception attention
CN115169507A (zh) 类脑多模态情感识别网络、识别方法及情感机器人
CN115410254A (zh) 一种基于深度学习的多特征表情识别方法
da Silva et al. Facial action unit detection methodology with application in Brazilian sign language recognition
CN115431288B (zh) 基于多元融合信息进行情感反馈及信息交互的导诊机器人
Khorrami How deep learning can help emotion recognition
Rajagopal et al. 3D face expression recognition with ensemble deep learning exploring congruent features among expressions
Das et al. An intelligent approach for predicting emotion using convolution neural network
Nunes Deep emotion recognition through upper body movements and facial expression
Fatima et al. Use of affect context in dyadic interactions for continuous emotion recognition
Wang et al. Learning part-based abstractions for visual object concepts
López-Fernández et al. Knowledge-Driven Dialogue and Visual Perception for Smart Orofacial Rehabilitation
Abeydeera et al. Smart mirror with virtual twin
Lisetti et al. An environment to acknowledge the interface between affect and cognition
Sutar et al. A Comparative Study on Deep Facial Expression Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant