CN113139525B - 一种基于多源信息融合的情感识别方法和人机交互系统 - Google Patents

一种基于多源信息融合的情感识别方法和人机交互系统 Download PDF

Info

Publication number
CN113139525B
CN113139525B CN202110554464.7A CN202110554464A CN113139525B CN 113139525 B CN113139525 B CN 113139525B CN 202110554464 A CN202110554464 A CN 202110554464A CN 113139525 B CN113139525 B CN 113139525B
Authority
CN
China
Prior art keywords
emotion
module
accompanying
mode
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110554464.7A
Other languages
English (en)
Other versions
CN113139525A (zh
Inventor
张静莎
张腾宇
李增勇
李慧媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Danyang Huichuang Medical Equipment Co ltd
Original Assignee
National Research Center for Rehabilitation Technical Aids
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Research Center for Rehabilitation Technical Aids filed Critical National Research Center for Rehabilitation Technical Aids
Priority to CN202110554464.7A priority Critical patent/CN113139525B/zh
Publication of CN113139525A publication Critical patent/CN113139525A/zh
Application granted granted Critical
Publication of CN113139525B publication Critical patent/CN113139525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多源信息融合的情感识别和人机交互系统,包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块,其中:信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息;信号预处理模块,用于对信息采集模块采集到的信号预处理;信号分析模块,用于对信号预处理模块得到的信号进行分析处理;特征融合模块,用于对信号处理模块得到情感特征进行特征融合;情感识别模块,用于根据特征融合模块得到的融合的情感特征进行情感识别;情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块;情感陪护模块,用于根据情感反馈模块反馈的情感状态生成情感陪护模式;人机交互模块,用于根据情感陪护模块生成的情感陪护方案进行人机交互。

Description

一种基于多源信息融合的情感识别方法和人机交互系统
技术领域
本发明涉及服务机器人领域,尤其涉及一种基于多源信息融合的情感识别方法和人机交互系统。
背景技术
我国已成为世界上老年人口最多的国家,人口老龄化问题形势十分严峻。据统计,空巢和独居老人存在心理问题的比例达到60%。因此采取何种手段对其进行情感识别进而进行干预,以减少其孤独感及其他心理疾病的发生,已经成为全社会比较关注和迫切需要解决的问题。若要真正达到对老年人进行情感陪护的功能要求,更好的融入老年人生活,首先要充分理解和辨别老年人的情感变化,根据老年人不同的情感需求进行方式多样的人机交互,从而缓解老年人的孤独感。目前尚无有效识别情感的技术。
为此,本发明提供了一种基于多源信息融合的情感识别方法和人机交互系统。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种基于多源信息融合的情感识别和人机交互系统,包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块,其中:
信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息;
信号预处理模块,用于对信息采集模块采集到的信号预处理;
信号分析模块,用于对信号预处理模块得到的信号进行分析处理;
特征融合模块,用于对信号处理模块得到情感特征进行特征融合;
情感识别模块,用于根据特征融合模块得到的融合的情感特征进行情感识别;
情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块;
情感陪护模块,用于根据情感反馈模块反馈的情感状态推荐情感陪护模式;
人机交互模块,用于根据情感陪护模块生成的情感陪护模式进行人机交互。
所述人机交互系统,其中信号预处理模块进行的信号预处理包括面部图像信号、语音信号和语义信号的预处理,其中,
面部图像信号预处理包括:利用滑动平均窗口的中值滤波器去除面部孤点噪声,保持图像的边缘特性,利用灰度变换进行图像归一化处理,将采集到的面部图像的灰度分布参数统一调整到预定的数值,调整图像灰度分布的均值和均方差分别为0和1;
语音信号预处理包括:利用巴特沃斯带阻滤波器去除语音信号的50HZ工频干扰,基于样条插值和标准差的方法去除伪迹;
语义信号预处理包括:对语义的数据长度进行归一化预处理,设置每个语义信号的序列固定长度为N,对于大于长度N的信号进行剪裁,对于小于长度N的信号进行补零填充。
所述人机交互系统,其中信号分析模块对信号预处理模块得到的信号进行分析处理包括:将预处理后的面部图像信息通过卷积神经网络模型进行特征提取,该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层,全连接层输出为提取的图像情感特征向量XCNN
Figure GDA0003105333750000031
其中,conv2表示卷积运算,WCNN表示卷积核矩阵,valid是卷积的运算类型,X为输入的图像矩阵,BCNN是偏置,
Figure GDA0003105333750000032
表示池化运算;
将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取,输出语音情感特征向量YLSTM
Figure GDA0003105333750000033
其中,σ为激活函数,WLSTM0、WLSTM1为长短时记忆网络输入门和遗忘门的权重,BLSTM0、BLSTM1为长短时记忆网络输入门和遗忘门的偏置,Y为输入的语音信号;
将预处理后语义信号通过长短时记忆网络进行特征提取,输出语义情感特征向量ZLSTM
Figure GDA0003105333750000034
其中,σ为激活函数,WLSTM2、WLSTM3为长短时记忆网络输入门和遗忘门的权重,BLSTM2、BLSTM3为长短时记忆网络输入门和遗忘门的偏置,Z为输入的语义信号。
所述人机交互系统,其中特征融合模块对信号处理模块得到情感特征进行特征融合包括:
对语音情感特征YLSTM、和语义情感特征ZLSTM分别进行最大池化,得到池化后的特征向量
Figure GDA0003105333750000041
采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合,混合交叉熵注意力机制的权重公式为:
Figure GDA0003105333750000042
其中,W是注意力权重向量,
Figure GDA0003105333750000043
分别是是语音情感特征YLSTM、语义情感特征ZLSTM进行一个最大池化后得到的特征向量,score是对齐函数;
加权后的语音语义融合特征为:
Figure GDA0003105333750000044
其中,o表示hardarm相乘,
Figure GDA0003105333750000045
表示这两个特征向量的全连接;
将图像情感特征XCNN=[X1 X2 X3...Xn]与语音语义融合特征语音语义融合特征Cfeature=[C1 C2 C3...Cm]进行全连接融合,得到最终融合特征Dfeature,用矩阵表示为:
Figure GDA0003105333750000046
其中,m、n分别为语音语义融合特征、图像情感特征的维度,N为语音语义融合特征、图像情感特征的数量。
所述人机交互系统,其中情感识别模块根据特征融合模块得到的融合的情感特征进行情感识别包括:
将得到的最终融合特征Dfeature输入到softmax分类器中进行情感识别,s并将情感识别类型分为:负面、中性、正面,识别方式如下:
P(y)=softmax(Wp*Dfeature+bp)
Figure GDA0003105333750000051
其中,Wp、bp是分类器softmax的参数,P是某种情感的预测概率,
Figure GDA0003105333750000052
是预测识别出的情感的概率最大值,通过解码得到识别的情感类型。
所述人机交互系统,其中:情感陪护模块包括情感陪护信息库和智能学习模块,所述情感陪护信息库存储有用户的个人爱好信息,以及存储有与个人爱好信息相匹配的情感陪护模式;所述智能学习模块是预先设计好的智能学习模块,用于自动学习能够使用户情感状态调整变好的情感陪护模式,并自动添加到情感陪护信息库。
所述人机交互系统,其中:智能学习模块根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时,则给一个正向的激励,若某个情感陪护模式使用户的情感由正面变为负面时,则给一个负向的惩罚,智能学习模块的函数表达式为:
Figure GDA0003105333750000053
其中,T为情感陪护模式,qt为当前情感状态,pt为当前被推荐的情感陪护模式,qt+1为下一个时刻采集到的用户情感状态,η为修正系数,rt为奖励系数,j为情感陪护模块启动的次数,m为在第i次情感陪护模块启动时情感陪护模式pt的奖励次数,n为第i次情感陪护模块启动时人机交互反馈的情感陪护模式pt奖励次数,k为第i次情感陪护模块启动时智能学习模块推荐和人机交互反馈的情感陪护模式总次数。
所述人机交互系统,其中:人机交护模块用于显示情感陪护模块推荐的自适应情感陪护模式以及通过语音、文字方式与使用者进行确认当前的某种情感陪护模式使用者是否喜欢。
所述人机交互系统,其中:当某种情感陪护模式的被推荐的概率比较高时,智能学习模块则从云网络平台中搜集类似的情感陪护模式,并通过判断与搜索到的情感陪护模式的相关性,将相关性程度高的情感陪护模式添加到情感陪护信息库中,不断丰富情感陪护信息库,提高情感陪护的准确性。
所述人机交互系统,其中:智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度,将相关性高的情感陪护模式添加到情感陪护信息库中,具体公式如下:
Figure GDA0003105333750000061
Figure GDA0003105333750000062
其中,Vi、Vj分别情感陪护模式中的第i和第j个关键词句,ln(Vi)是Vi词句的集合,Out(Vj)是所有与Vj词句连接的词句集合,Wji是词句Vi、Vj连接的权重,d是阻尼系数,reli表示Vi、Vj分别情感陪护模式中的第i和第j个关键词句的连接度;
Figure GDA0003105333750000071
relx、rely分别表示原情感陪护模式和搜索到的情感阿陪护模式,γ为搜索到的情感陪护模式与原情感陪护模式的相似度,当γ取值为0.8-1时,表明两种情感陪护模式的相似度非常相关,当γ取值为0.5-0.8时,表明两种情感陪护模式的相似度相关,当γ取值为0-0.5时,表明两种情感陪护模式的不相关。
附图说明
图1为本发明基于多源信息融合的情感识别和人机交互系统示意图;
图2为本发明的特征融合流程图;
图3为本发明的自适应人机交互流程图。
具体实施方式
下面结合附图1-3对本发明的具体实施方式进行详细说明。
在下文中,仅描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
如图1所示,本发明的基于多源信息融合的情感识别和人机交互系统包括:信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块,人机交互模块。
信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息。信息采集模块包括:高清摄像头,用于采集面部图像信息;麦克风,用于采集语音信息;语音识别系统,用于对麦克风采集到的语音信箱进行识别,并提取语义信息。
信号预处理模块,用于对信息采集模块采集到的信号进行去伪迹、滤波等预处理。
信号分析模块,用于对信号预处理模块得到的信号进行分析处理,其中包括:利用两层卷积神经网络算法对接收到的面部图像信息进行特征提取,得到面部情感特征;利用长短时记忆网络分别对接收到的语音信息、语义信息进行预处理和特征提取,得到语音情感特征和语义情感特征。
特征融合模块,对信号处理模块得到的面部情感特征、语音情感特征和语义情感特征利用混合交叉熵注意力机制进行特征融合,得到融合后的情感特征组合。
情感识别模块,根据特征融合模块得到情感特征组合,输入到softmax分类器中进行情感识别。
情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块。
情感陪护模块,将情感反馈模块反馈的情感状态,输入到预先建立的智能学习模型中,调整当前情感陪护模式,推荐自适应的情感陪护模式进行情感陪护。
人机交互模块,显示情感陪护模块推荐的自适应情感陪护方案。
如图2所示,面部图像信号、语音信号和语义信号的预处理包括:
面部图像预处理:由于光线、姿态等扰动影响,采集得到的人脸面部图像不可避免的存在一些噪声孤点,利用滑动平均窗口的中值滤波器去除面部孤点噪声,保持图像的边缘特性;利用灰度变换进行图像归一化处理,即将采集到的面部图像的灰度分布参数统一调整到预定的数值,调整图像灰度分布的均值和均方差分别为0和1。
语音信号预处理:利用巴特沃斯带阻滤波器去除语音信号的50HZ工频干扰;基于样条插值和标准差的方法去除伪迹。
语义信号预处理:对语义的数据长度进行归一化预处理,设置每个语义信号的序列固定长度为N,对于大于长度N的信号进行剪裁,对于小于长度N的信号进行补零填充。
如图2所示,面部图像信号、语音信号和语义信号的分析包括:将预处理后的面部图像信息通过卷积神经网络模型进行特征提取,该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层。全连接层输出为提取的图像情感特征向量XCNN
Figure GDA0003105333750000091
其中,conv2表示卷积运算,WCNN表示卷积核矩阵,valid是卷积的运算类型,X为输入的图像矩阵,BCNN是偏置,
Figure GDA0003105333750000092
表示池化运算。
将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取,输出语音情感特征向量YLSTM
Figure GDA0003105333750000101
其中,σ为激活函数,WLSTM0、WLSTM1为长短时记忆网络输入门和遗忘门的权重,BLSTM0、BLSTM1为长短时记忆网络输入门和遗忘门的偏置,Y为输入的语音信号。
将预处理后语义信号通过长短时记忆网络进行特征提取,输出语义情感特征向量ZLSTM
Figure GDA0003105333750000102
其中,σ为激活函数,WLSTM2、WLSTM3为长短时记忆网络输入门和遗忘门的权重,BLSTM2、BLSTM3为长短时记忆网络输入门和遗忘门的偏置,Z为输入的语义信号。
如图2所示特征融合方法,包括:
对语音情感特征YLSTM、和语义情感特征ZLSTM分别进行最大池化,得到池化后的特征向量
Figure GDA0003105333750000103
采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合。语音情感特征和语义情感特征融合更有利于情感状态的识别。处理分析语音和语义信号的长短时记忆网络的输出宽度相同,但是长度不同,基于dot-product注意机制,可得出混合交叉熵注意力机制的权重公式为:
Figure GDA0003105333750000104
其中,W是注意力权重向量,
Figure GDA0003105333750000105
分别是是语音情感特征YLSTM、语义情感特征ZLSTM进行一个最大池化后得到的特征向量,score是对齐函数。
加权后的语音语义融合特征为:
Figure GDA0003105333750000111
其中,o表示hardarm相乘,
Figure GDA0003105333750000112
表示这两个特征向量的全连接。
将图像情感特征XCNN=[X1 X2 X3...Xn]与语音语义融合特征语音语义融合特征Cfeature=[C1 C2 C3...Cm]进行全连接融合,得到最终融合特征Dfeature,用矩阵表示为:
Figure GDA0003105333750000113
其中,m、n分别为语音语义融合特征、图像情感特征的维度,N为语音语义融合特征、图像情感特征的数量。
将得到的最终融合特征Dfeature输入到softmax分类器中进行情感识别。softmax分类器是在开源带标记的情感数据库JAFFE基于上述特征分析融合方式的基础上进行训练好的分类器,并将情感识别类型分为:负面、中性、正面。
P(y)=softmax(Wp*Dfeature+bp)
Figure GDA0003105333750000114
其中,Wp、bp是分类器softmax的参数,P是某种情感的预测概率,
Figure GDA0003105333750000115
是预测识别出的情感的概率最大值,通过解码即可得到识别的情感类型。
情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块。如图3所示,情感陪护模块包括情感陪护信息库和智能学习模块,所述情感陪护信息库存储有用户的个人爱好信息,以及存储有与个人爱好信息相匹配的搞笑短视频、欢快音乐、交流谈心对话等内容的情感陪护模式;所述智能学习模块是预先设计好的智能学习模块,用于自动学习能够使用户情感状态调整变好的情感陪护模式,并自动添加到情感陪护信息库。
情感陪护信息库首次建立是基于对用户的个人爱好信息,比如:爱好音乐、视频、体育、评书等,根据这些爱好信息,通过网络云平台搜索建立一个初步的情感陪护信息库,并不断地通过利用智能学习模块不断的进行添加和更新。
智能学习模块是根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时,则给一个正向的激励,若某个情感陪护模式使用户的情感由正面变为负面时,则给一个负向的惩罚。某种情感陪护模式被推荐的概率表达式为:
Figure GDA0003105333750000121
其中,T为情感陪护模式,qt为当前情感状态,pt为当前被推荐的情感陪护模式,qt+1为下一个时刻采集到的用户情感状态,η为修正系数,rt为奖励系数,j为情感陪护模块启动的次数,m为在第i次情感陪护模块启动时情感陪护模式pt的奖励次数,n为第i次情感陪护模块启动时人机交互反馈的情感陪护模式pt奖励次数,k为第i次情感陪护模块启动时智能学习模块推荐和人机交互反馈的情感陪护模式总次数。
rt系数的分布如下表所示:
Figure GDA0003105333750000131
当某种情感陪护模式的被推荐的概率比较高(例如0.8)时,智能学习模块则从云网络平台中搜集类似的情感陪护模式,并通过判断与搜索到的情感陪护模式的相关性,将相关性程度高的情感陪护模式添加到情感陪护信息库中,不断丰富情感陪护信息库,提高情感陪护的准确性。
智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度,将相关性高的情感陪护模式添加到情感陪护信息库中。具体公式如下:
Figure GDA0003105333750000132
Figure GDA0003105333750000133
其中,Vi、Vj分别情感陪护模式中的第i和第j个关键词句,ln(Vi)是Vi词句的集合,Out(Vj)是所有与Vj词句连接的词句集合,Wji是词句Vi、Vj连接的权重,d是阻尼系数,reli表示Vi、Vj分别情感陪护模式中的第i和第j个关键词句的连接度。
Figure GDA0003105333750000141
relx、rely分别表示原情感陪护模式和搜索到的情感陪护模式,γ为搜索到的情感陪护模式与原情感陪护模式的相似度,当γ取值为0.8-1时,表明两种情感陪护模式的相似度非常相关,当γ取值为0.5-0.8(不含)时,表明两种情感陪护模式的相似度相关,当γ取值为0-0.5(不含)时,表明两种情感陪护模式的不相关。
智能学习模块的具体过程如下:若qt时刻分析得到用户的情感状态是负面时,在当前的情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态仍是负面,则说明情感陪护模式pt是失败的,此时给一个rt系数为负的惩罚系数,并降低该情感配护模式的出现概率;若qt时刻分析得到用户的情感状态是负面时,在当前的情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是中性或者正面,则说明情感陪护模式pt是成功的,此时给一个rt系数为正的奖励系数rt,增加此情感陪护模式出现的概率;若qt时刻分析得到用户的情感状态是中性时,在当前的情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是负面时,则说明情感陪护模式pt失败的,此时给一个rt系数为负的惩罚系数,并降低该情感配护模式的出现概率;若qt时刻分析得到用户的情感状态是中性时,在当前情感陪护模式pt感陪护下,下一个时刻qt+1分析得到用户的情感状态是中性时,则说明情感陪护模式pt没有影响到用户的情感,此时不进行任何处理,若是正面时,则说明情感陪护模式pt是成功的,此时给一个rt系数为正的奖励系数rt;若qt时刻分析得到用户的情感状态是正面时,在当前情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是负面,则说明情感陪护模式pt是失败的,此时给一个rt系数为负的惩罚系数,并降低该情感配护模式的出现概率;若qt时刻分析得到用户的情感状态是正面时,在当前情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是正面,则说明情感陪护模式pt没有影响到用户的情感,此时不进行任何处理。
进一步地,情感陪护模式的推荐过程如下:老人第一次使用该系统时,系统通过语音聊天等方式,记录并保存老人的个人爱好信息,并建立与老人个人爱好相匹配的情感陪护信息库。老人在使用情感陪护系统的过程中,当首次分析判断得到老人的情感状态是负面时,则情感陪护模块启动,并自动推荐情感陪护信息库中的一种陪护模式进行陪护,并在每一种陪护模式结束时,人机交护模块通过语音、文字等方式与老人进行确认当前的某种情感陪护模式老人是否喜欢,如果老人比较喜欢,则将再次给该情感陪护模式叠加一个正向系数奖励,如果老人不喜欢,则将再次给情感陪护模式叠加一个负向系数奖励。智能学习模块综合分析每种情感陪护模式利用两部分的奖励系数进行不断的学习,并分析得到不同情感陪护模式的推荐概率,当老人下次需要情感陪护时,优先推荐情感陪护模式推荐概率高的情感陪护模式。
进一步地,人机交护模块用来显示情感陪护模块推荐的自适应情感陪护模式,比如:当情感陪护模块推荐的是模拟家人进行对话谈心模式时,人机交互模块根据则通过引导式的对话方式模拟家人与其聊天的过程,帮助老人梳理和排解伤心难过的负面情绪,安慰老人;当感陪护模块推荐的是一个搞笑视频的情感陪护模式时,人机交互模块用大屏幕来播放搞笑视频。
本发明的有益效果是:利用该方法和系统,能够通过采集用户的面部图像信息、语音信息以及语义信息,得到用户的情感状态,根据用户的情感状态调整情感陪护模式,并通过智能学习推荐个性化自适应的情感陪护方案,达到对老年人人机互动,实现精准情感陪护,缓解老年人的孤独感。
上述概述仅仅是为了说明的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

Claims (1)

1.一种基于多源信息融合的情感识别和人机交互系统,包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块,其特征在于:
信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息;
信号预处理模块,用于对信息采集模块采集到的信号预处理;
信号分析模块,用于对信号预处理模块得到的信号进行分析处理;
特征融合模块,用于对信号分析模块得到的情感特征进行特征融合;
情感识别模块,用于根据特征融合模块得到的融合的情感特征进行情感识别;
反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块;
情感陪护模块,用于根据反馈模块反馈的情感状态推荐情感陪护模式;
人机交互模块,用于根据情感陪护模块生成的情感陪护模式进行人机交互;
其中信号预处理模块进行的信号预处理包括面部图像信号、语音信号和语义信号的预处理,其中,面部图像信号预处理包括:利用滑动平均窗口的中值滤波器去除面部孤点噪声,保持图像的边缘特性,利用灰度变换进行图像归一化处理,将采集到的面部图像的灰度分布参数统一调整到预定的数值,调整图像灰度分布的均值和均方差分别为0和1;语音信号预处理包括:利用巴特沃斯带阻滤波器去除语音信号的50HZ工频干扰,基于样条插值和标准差的方法去除伪迹;语义信号预处理包括:对语义的数据长度进行归一化预处理,设置每个语义信号的序列固定长度为N,对于大于长度N的信号进行剪裁,对于小于长度N的信号进行补零填充;
信号分析模块对信号预处理模块得到的信号进行分析处理包括:将预处理后的面部图像信息通过卷积神经网络模型进行特征提取,该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层,全连接层输出为提取的图像情感特征向量XCNN
Figure FDA0003485118730000021
其中,conv2表示卷积运算,WCNN表示卷积核矩阵,valid是卷积的运算类型,X为输入的图像矩阵,BCNN是偏置,
Figure FDA0003485118730000022
表示池化运算;
将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取,输出语音情感特征向量YLSTM
Figure FDA0003485118730000023
其中,σ为激活函数,WLSTM0、WLSTM1为长短时记忆网络输入门和遗忘门的权重,BLSTM0、BLSTM1为长短时记忆网络输入门和遗忘门的偏置,Y为输入的语音信号;
将预处理后语义信号通过长短时记忆网络进行特征提取,输出语义情感特征向量ZLSTM
Figure FDA0003485118730000024
其中,σ为激活函数,WLSTM2、WLSTM3为长短时记忆网络输入门和遗忘门的权重,BLSTM2、BLSTM3为长短时记忆网络输入门和遗忘门的偏置,Z为输入的语义信号;
特征融合模块对信号分析模块得到情感特征进行特征融合包括:
对语音情感特征YLSTM、和语义情感特征ZLSTM分别进行最大池化,得到池化后的特征向量
Figure FDA0003485118730000031
采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合,混合交叉熵注意力机制的权重公式为:
Figure FDA0003485118730000032
其中,W是注意力权重向量,
Figure FDA0003485118730000033
分别是是语音情感特征YLSTM、语义情感特征ZLSTM进行一个最大池化后得到的特征向量,score是对齐函数;
加权后的语音语义融合特征为:
Figure FDA0003485118730000034
其中,o表示hardarm相乘,
Figure FDA0003485118730000035
表示这两个特征向量的全连接;
将图像情感特征XCNN=[X1 X2 X3...Xn]与语音语义融合特征Cfeature=[C1 C2C3...Cm]进行全连接融合,得到最终融合特征Dfeature,用矩阵表示为:
Figure FDA0003485118730000036
其中,m、n分别为语音语义融合特征、图像情感特征的维度,N为语音语义融合特征、图像情感特征的数量;
情感识别模块根据特征融合模块得到的融合的情感特征进行情感识别包括:
将得到的最终融合特征Dfeature输入到softmax分类器中进行情感识别,并将情感识别类型分为:负面、中性、正面,识别方式如下:
P(y)=softmax(Wp*Dfeature+bp)
Figure FDA0003485118730000041
其中,Wp、bp是分类器softmax的参数,P是某种情感的预测概率,
Figure FDA0003485118730000042
是预测识别出的情感的概率最大值,通过解码得到识别的情感类型;
情感陪护模块包括情感陪护信息库和智能学习模块,所述情感陪护信息库存储有用户的个人爱好信息,以及存储有与个人爱好信息相匹配的情感陪护模式;所述智能学习模块是预先设计好的智能学习模块,用于自动学习能够使用户情感状态调整变好的情感陪护模式,并自动添加到情感陪护信息库;
智能学习模块根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时,则给一个正向的激励,若某个情感陪护模式使用户的情感由正面变为负面时,则给一个负向的惩罚,智能学习模块的函数表达式为:
Figure FDA0003485118730000043
其中,T为情感陪护模式,qt为当前情感状态,pt为当前被推荐的情感陪护模式,qt+1为下一个时刻采集到的用户情感状态,η为修正系数,rt为奖励系数,j为情感陪护模块启动的次数,m为在第i次情感陪护模块启动时情感陪护模式pt的奖励次数,n为第i次情感陪护模块启动时人机交互反馈的情感陪护模式pt奖励次数,k为第i次情感陪护模块启动时智能学习模块推荐和人机交互反馈的情感陪护模式总次数;
人机交互模块用于显示情感陪护模块推荐的自适应情感陪护模式以及通过语音、文字方式与使用者进行确认当前的某种情感陪护模式使用者是否喜欢;
当某种情感陪护模式的被推荐的概率比较高时,智能学习模块则从云网络平台中搜集类似的情感陪护模式,并通过判断与搜索到的情感陪护模式的相关性,将相关性程度高的情感陪护模式添加到情感陪护信息库中,不断丰富情感陪护信息库,提高情感陪护的准确性;
智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度,将相关性高的情感陪护模式添加到情感陪护信息库中,具体公式如下:
Figure FDA0003485118730000051
Figure FDA0003485118730000052
其中,Vi、Vj分别为情感陪护模式中的第i和第j个关键词句,ln(Vi)是Vi词句的集合,Out(Vj)是所有与Vj词句连接的词句集合,Wji是词句Vi、Vj连接的权重,d是阻尼系数,reli表示Vi和Vj的连接度;
Figure FDA0003485118730000061
relx、rely分别表示原情感陪护模式和搜索到的情感阿陪护模式,γ为搜索到的情感陪护模式与原情感陪护模式的相似度,当γ取值为0.8-1时,表明两种情感陪护模式的相似度非常相关,当γ取值为0.5-0.8时,表明两种情感陪护模式的相似度相关,当γ取值为0-0.5时,表明两种情感陪护模式不相关。
CN202110554464.7A 2021-05-21 2021-05-21 一种基于多源信息融合的情感识别方法和人机交互系统 Active CN113139525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110554464.7A CN113139525B (zh) 2021-05-21 2021-05-21 一种基于多源信息融合的情感识别方法和人机交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110554464.7A CN113139525B (zh) 2021-05-21 2021-05-21 一种基于多源信息融合的情感识别方法和人机交互系统

Publications (2)

Publication Number Publication Date
CN113139525A CN113139525A (zh) 2021-07-20
CN113139525B true CN113139525B (zh) 2022-03-01

Family

ID=76818047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110554464.7A Active CN113139525B (zh) 2021-05-21 2021-05-21 一种基于多源信息融合的情感识别方法和人机交互系统

Country Status (1)

Country Link
CN (1) CN113139525B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147768B (zh) * 2022-07-28 2023-07-04 国家康复辅具研究中心 一种跌倒风险评估方法及系统
CN116946610B (zh) * 2023-09-21 2023-12-12 中科源码(成都)服务机器人研究院有限公司 一种智能仓储系统货物拾取方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090055426A (ko) * 2007-11-28 2009-06-02 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
CN105082150A (zh) * 2015-08-25 2015-11-25 国家康复辅具研究中心 一种基于用户情绪及意图识别的机器人人机交互方法
CN107243905A (zh) * 2017-06-28 2017-10-13 重庆柚瓣科技有限公司 基于养老机器人的情绪自适应系统
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN109101663A (zh) * 2018-09-18 2018-12-28 宁波众鑫网络科技股份有限公司 一种基于互联网的机器人对话系统
CN111079440A (zh) * 2019-12-12 2020-04-28 东南大学 一种基于情感识别的老人陪护机器人子系统
CN111339913A (zh) * 2020-02-24 2020-06-26 湖南快乐阳光互动娱乐传媒有限公司 一种视频中的人物情绪识别方法及装置
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112686048A (zh) * 2020-12-23 2021-04-20 沈阳新松机器人自动化股份有限公司 基于语音、语义、面部表情融合的情绪识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108805089B (zh) * 2018-06-14 2021-06-29 南京云思创智信息科技有限公司 基于多模态的情绪识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090055426A (ko) * 2007-11-28 2009-06-02 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
CN105082150A (zh) * 2015-08-25 2015-11-25 国家康复辅具研究中心 一种基于用户情绪及意图识别的机器人人机交互方法
CN107243905A (zh) * 2017-06-28 2017-10-13 重庆柚瓣科技有限公司 基于养老机器人的情绪自适应系统
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN109101663A (zh) * 2018-09-18 2018-12-28 宁波众鑫网络科技股份有限公司 一种基于互联网的机器人对话系统
CN111079440A (zh) * 2019-12-12 2020-04-28 东南大学 一种基于情感识别的老人陪护机器人子系统
CN111339913A (zh) * 2020-02-24 2020-06-26 湖南快乐阳光互动娱乐传媒有限公司 一种视频中的人物情绪识别方法及装置
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112686048A (zh) * 2020-12-23 2021-04-20 沈阳新松机器人自动化股份有限公司 基于语音、语义、面部表情融合的情绪识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Study on emotion recognition and companion Chatbot using deep neural network;Ming-Che Lee et al.;《Multimedia Tools and Applications》;20200327;第19629-19657页 *

Also Published As

Publication number Publication date
CN113139525A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
Wang et al. Speech emotion recognition with dual-sequence LSTM architecture
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN108805089B (zh) 基于多模态的情绪识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108877801B (zh) 基于多模态情绪识别系统的多轮对话语义理解子系统
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
CN108805088B (zh) 基于多模态情绪识别系统的生理信号分析子系统
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
Schuller Recognizing affect from linguistic information in 3D continuous space
CN113139525B (zh) 一种基于多源信息融合的情感识别方法和人机交互系统
US11837252B2 (en) Speech emotion recognition method and system based on fused population information
Ezzat et al. Sentiment analysis of call centre audio conversations using text classification
Ghai et al. Emotion recognition on speech signals using machine learning
CN115329779A (zh) 一种多人对话情感识别方法
Chiou et al. Feature space dimension reduction in speech emotion recognition using support vector machine
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN111652620A (zh) 一种智能终端交互系统
CN115455136A (zh) 智能数字人营销交互方法、装置、计算机设备及存储介质
CN114927126A (zh) 基于语义分析的方案输出方法、装置、设备以及存储介质
Zhao et al. Transferring age and gender attributes for dimensional emotion prediction from big speech data using hierarchical deep learning
Gasparini et al. Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220802

Address after: 212300 Danyang hi tech Pioneer Park Phase I, South Third Ring Road, Danyang City, Zhenjiang City, Jiangsu Province

Patentee after: DANYANG HUICHUANG MEDICAL EQUIPMENT Co.,Ltd.

Address before: 100176 1 ronghua Middle Road, Daxing District economic and Technological Development Zone, Beijing

Patentee before: NATIONAL RESEARCH CENTER FOR REHABILITATION TECHNICAL AIDS