CN113139525B - 一种基于多源信息融合的情感识别方法和人机交互系统 - Google Patents
一种基于多源信息融合的情感识别方法和人机交互系统 Download PDFInfo
- Publication number
- CN113139525B CN113139525B CN202110554464.7A CN202110554464A CN113139525B CN 113139525 B CN113139525 B CN 113139525B CN 202110554464 A CN202110554464 A CN 202110554464A CN 113139525 B CN113139525 B CN 113139525B
- Authority
- CN
- China
- Prior art keywords
- emotion
- module
- accompanying
- mode
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 60
- 230000003993 interaction Effects 0.000 title claims abstract description 47
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims description 13
- 230000008451 emotion Effects 0.000 claims abstract description 269
- 230000002996 emotional effect Effects 0.000 claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 230000001815 facial effect Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000007935 neutral effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013016 damping Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000474 nursing effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 206010037180 Psychiatric symptoms Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多源信息融合的情感识别和人机交互系统,包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块,其中:信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息;信号预处理模块,用于对信息采集模块采集到的信号预处理;信号分析模块,用于对信号预处理模块得到的信号进行分析处理;特征融合模块,用于对信号处理模块得到情感特征进行特征融合;情感识别模块,用于根据特征融合模块得到的融合的情感特征进行情感识别;情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块;情感陪护模块,用于根据情感反馈模块反馈的情感状态生成情感陪护模式;人机交互模块,用于根据情感陪护模块生成的情感陪护方案进行人机交互。
Description
技术领域
本发明涉及服务机器人领域,尤其涉及一种基于多源信息融合的情感识别方法和人机交互系统。
背景技术
我国已成为世界上老年人口最多的国家,人口老龄化问题形势十分严峻。据统计,空巢和独居老人存在心理问题的比例达到60%。因此采取何种手段对其进行情感识别进而进行干预,以减少其孤独感及其他心理疾病的发生,已经成为全社会比较关注和迫切需要解决的问题。若要真正达到对老年人进行情感陪护的功能要求,更好的融入老年人生活,首先要充分理解和辨别老年人的情感变化,根据老年人不同的情感需求进行方式多样的人机交互,从而缓解老年人的孤独感。目前尚无有效识别情感的技术。
为此,本发明提供了一种基于多源信息融合的情感识别方法和人机交互系统。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种基于多源信息融合的情感识别和人机交互系统,包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块,其中:
信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息;
信号预处理模块,用于对信息采集模块采集到的信号预处理;
信号分析模块,用于对信号预处理模块得到的信号进行分析处理;
特征融合模块,用于对信号处理模块得到情感特征进行特征融合;
情感识别模块,用于根据特征融合模块得到的融合的情感特征进行情感识别;
情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块;
情感陪护模块,用于根据情感反馈模块反馈的情感状态推荐情感陪护模式;
人机交互模块,用于根据情感陪护模块生成的情感陪护模式进行人机交互。
所述人机交互系统,其中信号预处理模块进行的信号预处理包括面部图像信号、语音信号和语义信号的预处理,其中,
面部图像信号预处理包括:利用滑动平均窗口的中值滤波器去除面部孤点噪声,保持图像的边缘特性,利用灰度变换进行图像归一化处理,将采集到的面部图像的灰度分布参数统一调整到预定的数值,调整图像灰度分布的均值和均方差分别为0和1;
语音信号预处理包括:利用巴特沃斯带阻滤波器去除语音信号的50HZ工频干扰,基于样条插值和标准差的方法去除伪迹;
语义信号预处理包括:对语义的数据长度进行归一化预处理,设置每个语义信号的序列固定长度为N,对于大于长度N的信号进行剪裁,对于小于长度N的信号进行补零填充。
所述人机交互系统,其中信号分析模块对信号预处理模块得到的信号进行分析处理包括:将预处理后的面部图像信息通过卷积神经网络模型进行特征提取,该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层,全连接层输出为提取的图像情感特征向量XCNN,
将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取,输出语音情感特征向量YLSTM,
其中,σ为激活函数,WLSTM0、WLSTM1为长短时记忆网络输入门和遗忘门的权重,BLSTM0、BLSTM1为长短时记忆网络输入门和遗忘门的偏置,Y为输入的语音信号;
将预处理后语义信号通过长短时记忆网络进行特征提取,输出语义情感特征向量ZLSTM,
其中,σ为激活函数,WLSTM2、WLSTM3为长短时记忆网络输入门和遗忘门的权重,BLSTM2、BLSTM3为长短时记忆网络输入门和遗忘门的偏置,Z为输入的语义信号。
所述人机交互系统,其中特征融合模块对信号处理模块得到情感特征进行特征融合包括:
采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合,混合交叉熵注意力机制的权重公式为:
加权后的语音语义融合特征为:
将图像情感特征XCNN=[X1 X2 X3...Xn]与语音语义融合特征语音语义融合特征Cfeature=[C1 C2 C3...Cm]进行全连接融合,得到最终融合特征Dfeature,用矩阵表示为:
其中,m、n分别为语音语义融合特征、图像情感特征的维度,N为语音语义融合特征、图像情感特征的数量。
所述人机交互系统,其中情感识别模块根据特征融合模块得到的融合的情感特征进行情感识别包括:
将得到的最终融合特征Dfeature输入到softmax分类器中进行情感识别,s并将情感识别类型分为:负面、中性、正面,识别方式如下:
P(y)=softmax(Wp*Dfeature+bp)
所述人机交互系统,其中:情感陪护模块包括情感陪护信息库和智能学习模块,所述情感陪护信息库存储有用户的个人爱好信息,以及存储有与个人爱好信息相匹配的情感陪护模式;所述智能学习模块是预先设计好的智能学习模块,用于自动学习能够使用户情感状态调整变好的情感陪护模式,并自动添加到情感陪护信息库。
所述人机交互系统,其中:智能学习模块根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时,则给一个正向的激励,若某个情感陪护模式使用户的情感由正面变为负面时,则给一个负向的惩罚,智能学习模块的函数表达式为:
其中,T为情感陪护模式,qt为当前情感状态,pt为当前被推荐的情感陪护模式,qt+1为下一个时刻采集到的用户情感状态,η为修正系数,rt为奖励系数,j为情感陪护模块启动的次数,m为在第i次情感陪护模块启动时情感陪护模式pt的奖励次数,n为第i次情感陪护模块启动时人机交互反馈的情感陪护模式pt奖励次数,k为第i次情感陪护模块启动时智能学习模块推荐和人机交互反馈的情感陪护模式总次数。
所述人机交互系统,其中:人机交护模块用于显示情感陪护模块推荐的自适应情感陪护模式以及通过语音、文字方式与使用者进行确认当前的某种情感陪护模式使用者是否喜欢。
所述人机交互系统,其中:当某种情感陪护模式的被推荐的概率比较高时,智能学习模块则从云网络平台中搜集类似的情感陪护模式,并通过判断与搜索到的情感陪护模式的相关性,将相关性程度高的情感陪护模式添加到情感陪护信息库中,不断丰富情感陪护信息库,提高情感陪护的准确性。
所述人机交互系统,其中:智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度,将相关性高的情感陪护模式添加到情感陪护信息库中,具体公式如下:
其中,Vi、Vj分别情感陪护模式中的第i和第j个关键词句,ln(Vi)是Vi词句的集合,Out(Vj)是所有与Vj词句连接的词句集合,Wji是词句Vi、Vj连接的权重,d是阻尼系数,reli表示Vi、Vj分别情感陪护模式中的第i和第j个关键词句的连接度;
relx、rely分别表示原情感陪护模式和搜索到的情感阿陪护模式,γ为搜索到的情感陪护模式与原情感陪护模式的相似度,当γ取值为0.8-1时,表明两种情感陪护模式的相似度非常相关,当γ取值为0.5-0.8时,表明两种情感陪护模式的相似度相关,当γ取值为0-0.5时,表明两种情感陪护模式的不相关。
附图说明
图1为本发明基于多源信息融合的情感识别和人机交互系统示意图;
图2为本发明的特征融合流程图;
图3为本发明的自适应人机交互流程图。
具体实施方式
下面结合附图1-3对本发明的具体实施方式进行详细说明。
在下文中,仅描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
如图1所示,本发明的基于多源信息融合的情感识别和人机交互系统包括:信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块,人机交互模块。
信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息。信息采集模块包括:高清摄像头,用于采集面部图像信息;麦克风,用于采集语音信息;语音识别系统,用于对麦克风采集到的语音信箱进行识别,并提取语义信息。
信号预处理模块,用于对信息采集模块采集到的信号进行去伪迹、滤波等预处理。
信号分析模块,用于对信号预处理模块得到的信号进行分析处理,其中包括:利用两层卷积神经网络算法对接收到的面部图像信息进行特征提取,得到面部情感特征;利用长短时记忆网络分别对接收到的语音信息、语义信息进行预处理和特征提取,得到语音情感特征和语义情感特征。
特征融合模块,对信号处理模块得到的面部情感特征、语音情感特征和语义情感特征利用混合交叉熵注意力机制进行特征融合,得到融合后的情感特征组合。
情感识别模块,根据特征融合模块得到情感特征组合,输入到softmax分类器中进行情感识别。
情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块。
情感陪护模块,将情感反馈模块反馈的情感状态,输入到预先建立的智能学习模型中,调整当前情感陪护模式,推荐自适应的情感陪护模式进行情感陪护。
人机交互模块,显示情感陪护模块推荐的自适应情感陪护方案。
如图2所示,面部图像信号、语音信号和语义信号的预处理包括:
面部图像预处理:由于光线、姿态等扰动影响,采集得到的人脸面部图像不可避免的存在一些噪声孤点,利用滑动平均窗口的中值滤波器去除面部孤点噪声,保持图像的边缘特性;利用灰度变换进行图像归一化处理,即将采集到的面部图像的灰度分布参数统一调整到预定的数值,调整图像灰度分布的均值和均方差分别为0和1。
语音信号预处理:利用巴特沃斯带阻滤波器去除语音信号的50HZ工频干扰;基于样条插值和标准差的方法去除伪迹。
语义信号预处理:对语义的数据长度进行归一化预处理,设置每个语义信号的序列固定长度为N,对于大于长度N的信号进行剪裁,对于小于长度N的信号进行补零填充。
如图2所示,面部图像信号、语音信号和语义信号的分析包括:将预处理后的面部图像信息通过卷积神经网络模型进行特征提取,该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层。全连接层输出为提取的图像情感特征向量XCNN。
将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取,输出语音情感特征向量YLSTM。
其中,σ为激活函数,WLSTM0、WLSTM1为长短时记忆网络输入门和遗忘门的权重,BLSTM0、BLSTM1为长短时记忆网络输入门和遗忘门的偏置,Y为输入的语音信号。
将预处理后语义信号通过长短时记忆网络进行特征提取,输出语义情感特征向量ZLSTM。
其中,σ为激活函数,WLSTM2、WLSTM3为长短时记忆网络输入门和遗忘门的权重,BLSTM2、BLSTM3为长短时记忆网络输入门和遗忘门的偏置,Z为输入的语义信号。
如图2所示特征融合方法,包括:
采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合。语音情感特征和语义情感特征融合更有利于情感状态的识别。处理分析语音和语义信号的长短时记忆网络的输出宽度相同,但是长度不同,基于dot-product注意机制,可得出混合交叉熵注意力机制的权重公式为:
加权后的语音语义融合特征为:
将图像情感特征XCNN=[X1 X2 X3...Xn]与语音语义融合特征语音语义融合特征Cfeature=[C1 C2 C3...Cm]进行全连接融合,得到最终融合特征Dfeature,用矩阵表示为:
其中,m、n分别为语音语义融合特征、图像情感特征的维度,N为语音语义融合特征、图像情感特征的数量。
将得到的最终融合特征Dfeature输入到softmax分类器中进行情感识别。softmax分类器是在开源带标记的情感数据库JAFFE基于上述特征分析融合方式的基础上进行训练好的分类器,并将情感识别类型分为:负面、中性、正面。
P(y)=softmax(Wp*Dfeature+bp)
情感反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块。如图3所示,情感陪护模块包括情感陪护信息库和智能学习模块,所述情感陪护信息库存储有用户的个人爱好信息,以及存储有与个人爱好信息相匹配的搞笑短视频、欢快音乐、交流谈心对话等内容的情感陪护模式;所述智能学习模块是预先设计好的智能学习模块,用于自动学习能够使用户情感状态调整变好的情感陪护模式,并自动添加到情感陪护信息库。
情感陪护信息库首次建立是基于对用户的个人爱好信息,比如:爱好音乐、视频、体育、评书等,根据这些爱好信息,通过网络云平台搜索建立一个初步的情感陪护信息库,并不断地通过利用智能学习模块不断的进行添加和更新。
智能学习模块是根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时,则给一个正向的激励,若某个情感陪护模式使用户的情感由正面变为负面时,则给一个负向的惩罚。某种情感陪护模式被推荐的概率表达式为:
其中,T为情感陪护模式,qt为当前情感状态,pt为当前被推荐的情感陪护模式,qt+1为下一个时刻采集到的用户情感状态,η为修正系数,rt为奖励系数,j为情感陪护模块启动的次数,m为在第i次情感陪护模块启动时情感陪护模式pt的奖励次数,n为第i次情感陪护模块启动时人机交互反馈的情感陪护模式pt奖励次数,k为第i次情感陪护模块启动时智能学习模块推荐和人机交互反馈的情感陪护模式总次数。
rt系数的分布如下表所示:
当某种情感陪护模式的被推荐的概率比较高(例如0.8)时,智能学习模块则从云网络平台中搜集类似的情感陪护模式,并通过判断与搜索到的情感陪护模式的相关性,将相关性程度高的情感陪护模式添加到情感陪护信息库中,不断丰富情感陪护信息库,提高情感陪护的准确性。
智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度,将相关性高的情感陪护模式添加到情感陪护信息库中。具体公式如下:
其中,Vi、Vj分别情感陪护模式中的第i和第j个关键词句,ln(Vi)是Vi词句的集合,Out(Vj)是所有与Vj词句连接的词句集合,Wji是词句Vi、Vj连接的权重,d是阻尼系数,reli表示Vi、Vj分别情感陪护模式中的第i和第j个关键词句的连接度。
relx、rely分别表示原情感陪护模式和搜索到的情感陪护模式,γ为搜索到的情感陪护模式与原情感陪护模式的相似度,当γ取值为0.8-1时,表明两种情感陪护模式的相似度非常相关,当γ取值为0.5-0.8(不含)时,表明两种情感陪护模式的相似度相关,当γ取值为0-0.5(不含)时,表明两种情感陪护模式的不相关。
智能学习模块的具体过程如下:若qt时刻分析得到用户的情感状态是负面时,在当前的情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态仍是负面,则说明情感陪护模式pt是失败的,此时给一个rt系数为负的惩罚系数,并降低该情感配护模式的出现概率;若qt时刻分析得到用户的情感状态是负面时,在当前的情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是中性或者正面,则说明情感陪护模式pt是成功的,此时给一个rt系数为正的奖励系数rt,增加此情感陪护模式出现的概率;若qt时刻分析得到用户的情感状态是中性时,在当前的情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是负面时,则说明情感陪护模式pt失败的,此时给一个rt系数为负的惩罚系数,并降低该情感配护模式的出现概率;若qt时刻分析得到用户的情感状态是中性时,在当前情感陪护模式pt感陪护下,下一个时刻qt+1分析得到用户的情感状态是中性时,则说明情感陪护模式pt没有影响到用户的情感,此时不进行任何处理,若是正面时,则说明情感陪护模式pt是成功的,此时给一个rt系数为正的奖励系数rt;若qt时刻分析得到用户的情感状态是正面时,在当前情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是负面,则说明情感陪护模式pt是失败的,此时给一个rt系数为负的惩罚系数,并降低该情感配护模式的出现概率;若qt时刻分析得到用户的情感状态是正面时,在当前情感陪护模式pt陪护下,下一个时刻qt+1分析得到用户的情感状态是正面,则说明情感陪护模式pt没有影响到用户的情感,此时不进行任何处理。
进一步地,情感陪护模式的推荐过程如下:老人第一次使用该系统时,系统通过语音聊天等方式,记录并保存老人的个人爱好信息,并建立与老人个人爱好相匹配的情感陪护信息库。老人在使用情感陪护系统的过程中,当首次分析判断得到老人的情感状态是负面时,则情感陪护模块启动,并自动推荐情感陪护信息库中的一种陪护模式进行陪护,并在每一种陪护模式结束时,人机交护模块通过语音、文字等方式与老人进行确认当前的某种情感陪护模式老人是否喜欢,如果老人比较喜欢,则将再次给该情感陪护模式叠加一个正向系数奖励,如果老人不喜欢,则将再次给情感陪护模式叠加一个负向系数奖励。智能学习模块综合分析每种情感陪护模式利用两部分的奖励系数进行不断的学习,并分析得到不同情感陪护模式的推荐概率,当老人下次需要情感陪护时,优先推荐情感陪护模式推荐概率高的情感陪护模式。
进一步地,人机交护模块用来显示情感陪护模块推荐的自适应情感陪护模式,比如:当情感陪护模块推荐的是模拟家人进行对话谈心模式时,人机交互模块根据则通过引导式的对话方式模拟家人与其聊天的过程,帮助老人梳理和排解伤心难过的负面情绪,安慰老人;当感陪护模块推荐的是一个搞笑视频的情感陪护模式时,人机交互模块用大屏幕来播放搞笑视频。
本发明的有益效果是:利用该方法和系统,能够通过采集用户的面部图像信息、语音信息以及语义信息,得到用户的情感状态,根据用户的情感状态调整情感陪护模式,并通过智能学习推荐个性化自适应的情感陪护方案,达到对老年人人机互动,实现精准情感陪护,缓解老年人的孤独感。
上述概述仅仅是为了说明的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
Claims (1)
1.一种基于多源信息融合的情感识别和人机交互系统,包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块,其特征在于:
信息采集模块,用于采集用户的面部图像信息、语音信息以及语义信息;
信号预处理模块,用于对信息采集模块采集到的信号预处理;
信号分析模块,用于对信号预处理模块得到的信号进行分析处理;
特征融合模块,用于对信号分析模块得到的情感特征进行特征融合;
情感识别模块,用于根据特征融合模块得到的融合的情感特征进行情感识别;
反馈模块,用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块;
情感陪护模块,用于根据反馈模块反馈的情感状态推荐情感陪护模式;
人机交互模块,用于根据情感陪护模块生成的情感陪护模式进行人机交互;
其中信号预处理模块进行的信号预处理包括面部图像信号、语音信号和语义信号的预处理,其中,面部图像信号预处理包括:利用滑动平均窗口的中值滤波器去除面部孤点噪声,保持图像的边缘特性,利用灰度变换进行图像归一化处理,将采集到的面部图像的灰度分布参数统一调整到预定的数值,调整图像灰度分布的均值和均方差分别为0和1;语音信号预处理包括:利用巴特沃斯带阻滤波器去除语音信号的50HZ工频干扰,基于样条插值和标准差的方法去除伪迹;语义信号预处理包括:对语义的数据长度进行归一化预处理,设置每个语义信号的序列固定长度为N,对于大于长度N的信号进行剪裁,对于小于长度N的信号进行补零填充;
信号分析模块对信号预处理模块得到的信号进行分析处理包括:将预处理后的面部图像信息通过卷积神经网络模型进行特征提取,该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层,全连接层输出为提取的图像情感特征向量XCNN,
将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取,输出语音情感特征向量YLSTM,
其中,σ为激活函数,WLSTM0、WLSTM1为长短时记忆网络输入门和遗忘门的权重,BLSTM0、BLSTM1为长短时记忆网络输入门和遗忘门的偏置,Y为输入的语音信号;
将预处理后语义信号通过长短时记忆网络进行特征提取,输出语义情感特征向量ZLSTM,
其中,σ为激活函数,WLSTM2、WLSTM3为长短时记忆网络输入门和遗忘门的权重,BLSTM2、BLSTM3为长短时记忆网络输入门和遗忘门的偏置,Z为输入的语义信号;
特征融合模块对信号分析模块得到情感特征进行特征融合包括:
采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合,混合交叉熵注意力机制的权重公式为:
加权后的语音语义融合特征为:
将图像情感特征XCNN=[X1 X2 X3...Xn]与语音语义融合特征Cfeature=[C1 C2C3...Cm]进行全连接融合,得到最终融合特征Dfeature,用矩阵表示为:
其中,m、n分别为语音语义融合特征、图像情感特征的维度,N为语音语义融合特征、图像情感特征的数量;
情感识别模块根据特征融合模块得到的融合的情感特征进行情感识别包括:
将得到的最终融合特征Dfeature输入到softmax分类器中进行情感识别,并将情感识别类型分为:负面、中性、正面,识别方式如下:
P(y)=softmax(Wp*Dfeature+bp)
情感陪护模块包括情感陪护信息库和智能学习模块,所述情感陪护信息库存储有用户的个人爱好信息,以及存储有与个人爱好信息相匹配的情感陪护模式;所述智能学习模块是预先设计好的智能学习模块,用于自动学习能够使用户情感状态调整变好的情感陪护模式,并自动添加到情感陪护信息库;
智能学习模块根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时,则给一个正向的激励,若某个情感陪护模式使用户的情感由正面变为负面时,则给一个负向的惩罚,智能学习模块的函数表达式为:
其中,T为情感陪护模式,qt为当前情感状态,pt为当前被推荐的情感陪护模式,qt+1为下一个时刻采集到的用户情感状态,η为修正系数,rt为奖励系数,j为情感陪护模块启动的次数,m为在第i次情感陪护模块启动时情感陪护模式pt的奖励次数,n为第i次情感陪护模块启动时人机交互反馈的情感陪护模式pt奖励次数,k为第i次情感陪护模块启动时智能学习模块推荐和人机交互反馈的情感陪护模式总次数;
人机交互模块用于显示情感陪护模块推荐的自适应情感陪护模式以及通过语音、文字方式与使用者进行确认当前的某种情感陪护模式使用者是否喜欢;
当某种情感陪护模式的被推荐的概率比较高时,智能学习模块则从云网络平台中搜集类似的情感陪护模式,并通过判断与搜索到的情感陪护模式的相关性,将相关性程度高的情感陪护模式添加到情感陪护信息库中,不断丰富情感陪护信息库,提高情感陪护的准确性;
智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度,将相关性高的情感陪护模式添加到情感陪护信息库中,具体公式如下:
其中,Vi、Vj分别为情感陪护模式中的第i和第j个关键词句,ln(Vi)是Vi词句的集合,Out(Vj)是所有与Vj词句连接的词句集合,Wji是词句Vi、Vj连接的权重,d是阻尼系数,reli表示Vi和Vj的连接度;
relx、rely分别表示原情感陪护模式和搜索到的情感阿陪护模式,γ为搜索到的情感陪护模式与原情感陪护模式的相似度,当γ取值为0.8-1时,表明两种情感陪护模式的相似度非常相关,当γ取值为0.5-0.8时,表明两种情感陪护模式的相似度相关,当γ取值为0-0.5时,表明两种情感陪护模式不相关。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554464.7A CN113139525B (zh) | 2021-05-21 | 2021-05-21 | 一种基于多源信息融合的情感识别方法和人机交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554464.7A CN113139525B (zh) | 2021-05-21 | 2021-05-21 | 一种基于多源信息融合的情感识别方法和人机交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139525A CN113139525A (zh) | 2021-07-20 |
CN113139525B true CN113139525B (zh) | 2022-03-01 |
Family
ID=76818047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110554464.7A Active CN113139525B (zh) | 2021-05-21 | 2021-05-21 | 一种基于多源信息融合的情感识别方法和人机交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139525B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147768B (zh) * | 2022-07-28 | 2023-07-04 | 国家康复辅具研究中心 | 一种跌倒风险评估方法及系统 |
CN116946610B (zh) * | 2023-09-21 | 2023-12-12 | 中科源码(成都)服务机器人研究院有限公司 | 一种智能仓储系统货物拾取方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
CN105082150A (zh) * | 2015-08-25 | 2015-11-25 | 国家康复辅具研究中心 | 一种基于用户情绪及意图识别的机器人人机交互方法 |
CN107243905A (zh) * | 2017-06-28 | 2017-10-13 | 重庆柚瓣科技有限公司 | 基于养老机器人的情绪自适应系统 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN109101663A (zh) * | 2018-09-18 | 2018-12-28 | 宁波众鑫网络科技股份有限公司 | 一种基于互联网的机器人对话系统 |
CN111079440A (zh) * | 2019-12-12 | 2020-04-28 | 东南大学 | 一种基于情感识别的老人陪护机器人子系统 |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112686048A (zh) * | 2020-12-23 | 2021-04-20 | 沈阳新松机器人自动化股份有限公司 | 基于语音、语义、面部表情融合的情绪识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197115B (zh) * | 2018-01-26 | 2022-04-22 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、计算机设备和计算机可读存储介质 |
CN108805089B (zh) * | 2018-06-14 | 2021-06-29 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
-
2021
- 2021-05-21 CN CN202110554464.7A patent/CN113139525B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
CN105082150A (zh) * | 2015-08-25 | 2015-11-25 | 国家康复辅具研究中心 | 一种基于用户情绪及意图识别的机器人人机交互方法 |
CN107243905A (zh) * | 2017-06-28 | 2017-10-13 | 重庆柚瓣科技有限公司 | 基于养老机器人的情绪自适应系统 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN109101663A (zh) * | 2018-09-18 | 2018-12-28 | 宁波众鑫网络科技股份有限公司 | 一种基于互联网的机器人对话系统 |
CN111079440A (zh) * | 2019-12-12 | 2020-04-28 | 东南大学 | 一种基于情感识别的老人陪护机器人子系统 |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112686048A (zh) * | 2020-12-23 | 2021-04-20 | 沈阳新松机器人自动化股份有限公司 | 基于语音、语义、面部表情融合的情绪识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
Study on emotion recognition and companion Chatbot using deep neural network;Ming-Che Lee et al.;《Multimedia Tools and Applications》;20200327;第19629-19657页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113139525A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN111275085B (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
Wang et al. | Speech emotion recognition with dual-sequence LSTM architecture | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN108805089B (zh) | 基于多模态的情绪识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN108877801B (zh) | 基于多模态情绪识别系统的多轮对话语义理解子系统 | |
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
CN108805088B (zh) | 基于多模态情绪识别系统的生理信号分析子系统 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
Schuller | Recognizing affect from linguistic information in 3D continuous space | |
CN113139525B (zh) | 一种基于多源信息融合的情感识别方法和人机交互系统 | |
US11837252B2 (en) | Speech emotion recognition method and system based on fused population information | |
Ezzat et al. | Sentiment analysis of call centre audio conversations using text classification | |
Ghai et al. | Emotion recognition on speech signals using machine learning | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
Chiou et al. | Feature space dimension reduction in speech emotion recognition using support vector machine | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN113823323A (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN111652620A (zh) | 一种智能终端交互系统 | |
CN115455136A (zh) | 智能数字人营销交互方法、装置、计算机设备及存储介质 | |
CN114927126A (zh) | 基于语义分析的方案输出方法、装置、设备以及存储介质 | |
Zhao et al. | Transferring age and gender attributes for dimensional emotion prediction from big speech data using hierarchical deep learning | |
Gasparini et al. | Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220802 Address after: 212300 Danyang hi tech Pioneer Park Phase I, South Third Ring Road, Danyang City, Zhenjiang City, Jiangsu Province Patentee after: DANYANG HUICHUANG MEDICAL EQUIPMENT Co.,Ltd. Address before: 100176 1 ronghua Middle Road, Daxing District economic and Technological Development Zone, Beijing Patentee before: NATIONAL RESEARCH CENTER FOR REHABILITATION TECHNICAL AIDS |