CN113139525A

CN113139525A - 一种基于多源信息融合的情感识别方法和人机交互系统

Info

Publication number: CN113139525A
Application number: CN202110554464.7A
Authority: CN
Inventors: 张静莎; 张腾宇; 李增勇; 李慧媛
Original assignee: National Research Center for Rehabilitation Technical Aids
Current assignee: Danyang Huichuang Medical Equipment Co ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-07-20
Anticipated expiration: 2041-05-21
Also published as: CN113139525B

Abstract

本发明公开了一种基于多源信息融合的情感识别和人机交互系统，包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块，其中：信息采集模块，用于采集用户的面部图像信息、语音信息以及语义信息；信号预处理模块，用于对信息采集模块采集到的信号预处理；信号分析模块，用于对信号预处理模块得到的信号进行分析处理；特征融合模块，用于对信号处理模块得到情感特征进行特征融合；情感识别模块，用于根据特征融合模块得到的融合的情感特征进行情感识别；情感反馈模块，用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块；情感陪护模块，用于根据情感反馈模块反馈的情感状态生成情感陪护模式；人机交互模块，用于根据情感陪护模块生成的情感陪护方案进行人机交互。

Description

一种基于多源信息融合的情感识别方法和人机交互系统

技术领域

本发明涉及服务机器人领域，尤其涉及一种基于多源信息融合的情感识别方法和人机交互系统。

背景技术

我国已成为世界上老年人口最多的国家，人口老龄化问题形势十分严峻。据统计，空巢和独居老人存在心理问题的比例达到60％。因此采取何种手段对其进行情感识别进而进行干预，以减少其孤独感及其他心理疾病的发生，已经成为全社会比较关注和迫切需要解决的问题。若要真正达到对老年人进行情感陪护的功能要求，更好的融入老年人生活，首先要充分理解和辨别老年人的情感变化，根据老年人不同的情感需求进行方式多样的人机交互，从而缓解老年人的孤独感。目前尚无有效识别情感的技术。

为此，本发明提供了一种基于多源信息融合的情感识别方法和人机交互系统。

发明内容

为实现本发明之目的，采用以下技术方案予以实现：

一种基于多源信息融合的情感识别和人机交互系统，包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块，其中：

信息采集模块，用于采集用户的面部图像信息、语音信息以及语义信息；

信号预处理模块，用于对信息采集模块采集到的信号预处理；

信号分析模块，用于对信号预处理模块得到的信号进行分析处理；

特征融合模块，用于对信号处理模块得到情感特征进行特征融合；

情感识别模块，用于根据特征融合模块得到的融合的情感特征进行情感识别；

情感反馈模块，用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块；

情感陪护模块，用于根据情感反馈模块反馈的情感状态推荐情感陪护模式；

人机交互模块，用于根据情感陪护模块生成的情感陪护模式进行人机交互。

所述人机交互系统，其中信号预处理模块进行的信号预处理包括面部图像信号、语音信号和语义信号的预处理，其中，

面部图像信号预处理包括：利用滑动平均窗口的中值滤波器去除面部孤点噪声，保持图像的边缘特性，利用灰度变换进行图像归一化处理，将采集到的面部图像的灰度分布参数统一调整到预定的数值，调整图像灰度分布的均值和均方差分别为0和1；

语音信号预处理包括：利用巴特沃斯带阻滤波器去除语音信号的 50HZ工频干扰，基于样条插值和标准差的方法去除伪迹；

语义信号预处理包括：对语义的数据长度进行归一化预处理，设置每个语义信号的序列固定长度为N，对于大于长度N的信号进行剪裁，对于小于长度N的信号进行补零填充。

所述人机交互系统，其中信号分析模块对信号预处理模块得到的信号进行分析处理包括：将预处理后的面部图像信息通过卷积神经网络模型进行特征提取，该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层，全连接层输出为提取的图像情感特征向量X_CNN，

其中，conv2表示卷积运算，W_CNN表示卷积核矩阵，valid是卷积的运算类型，X为输入的图像矩阵，B_CNN是偏置，

表示池化运算；

将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取，输出语音情感特征向量Y_LSTM，

其中,σ为激活函数，W_LSTM0、W_LSTM1为长短时记忆网络输入门和遗忘门的权重，B_LSTM0、B_LSTM1为长短时记忆网络输入门和遗忘门的偏置，Y为输入的语音信号；

将预处理后语义信号通过长短时记忆网络进行特征提取，输出语义情感特征向量Z_LSTM，

其中,σ为激活函数，W_LSTM2、W_LSTM3为长短时记忆网络输入门和遗忘门的权重，B_LSTM2、B_LSTM3为长短时记忆网络输入门和遗忘门的偏置，Z为输入的语义信号。

所述人机交互系统，其中特征融合模块对信号处理模块得到情感特征进行特征融合包括：

对语音情感特征Y_LSTM、和语义情感特征Z_LSTM分别进行最大池化，得到池化后的特征向量

采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合,混合交叉熵注意力机制的权重公式为：

其中，W是注意力权重向量，

分别是是语音情感特征Y_LSTM、语义情感特征Z_LSTM进行一个最大池化后得到的特征向量，score是对齐函数；

加权后的语音语义融合特征为：

其中，o表示hardarm相乘，

表示这两个特征向量的全连接；

将图像情感特征X_CNN＝[X1 X2 X3 ... Xn]与语音语义融合特征语音语义融合特征C_feature＝[C1 C2 C3 ... Cm]进行全连接融合，得到最终融合特征D_feature，用矩阵表示为：

其中，m、n分别为语音语义融合特征、图像情感特征的维度，N 为语音语义融合特征、图像情感特征的数量。

所述人机交互系统，其中情感识别模块根据特征融合模块得到的融合的情感特征进行情感识别包括：

将得到的最终融合特征D_feature输入到softmax分类器中进行情感识别，s并将情感识别类型分为：负面、中性、正面，识别方式如下：

P(y)＝softmax(W_p*D_feature+b_p)

其中，W_p、b_p是分类器softmax的参数，P是某种情感的预测概率，

是预测识别出的情感的概率最大值，通过解码得到识别的情感类型。

所述人机交互系统，其中：情感陪护模块包括情感陪护信息库和智能学习模块，所述情感陪护信息库存储有用户的个人爱好信息，以及存储有与个人爱好信息相匹配的情感陪护模式；所述智能学习模块是预先设计好的智能学习模块，用于自动学习能够使用户情感状态调整变好的情感陪护模式，并自动添加到情感陪护信息库。

所述人机交互系统，其中：智能学习模块根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时，则给一个正向的激励，若某个情感陪护模式使用户的情感由正面变为负面时，则给一个负向的惩罚，智能学习模块的函数表达式为：

其中，T为情感陪护模式，q_t为当前情感状态，p_t为当前被推荐的情感陪护模式，q_t+1为下一个时刻采集到的用户情感状态，η为修正系数，r_t为奖励系数，j为情感陪护模块启动的次数，m为在第i次情感陪护模块启动时情感陪护模式p_t的奖励次数，n为第i次情感陪护模块启动时人机交互反馈的情感陪护模式p_t奖励次数，k为第i次情感陪护模块启动时智能学习模块推荐和人机交互反馈的情感陪护模式总次数。

所述人机交互系统，其中：人机交护模块用于显示情感陪护模块推荐的自适应情感陪护模式以及通过语音、文字方式与使用者进行确认当前的某种情感陪护模式使用者是否喜欢。

所述人机交互系统，其中：当某种情感陪护模式的被推荐的概率比较高时，智能学习模块则从云网络平台中搜集类似的情感陪护模式，并通过判断与搜索到的情感陪护模式的相关性，将相关性程度高的情感陪护模式添加到情感陪护信息库中，不断丰富情感陪护信息库，提高情感陪护的准确性。

所述人机交互系统，其中：智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度，将相关性高的情感陪护模式添加到情感陪护信息库中，具体公式如下：

其中，V_i、V_j分别情感陪护模式中的第i和第j个关键词句，ln (V_i)是V_i词句的集合，Out(V_j)是所有与Vj词句连接的词句集合， W_ji是词句V_i、V_j连接的权重，d是阻尼系数，rel_i表示V_i、V_j分别情感陪护模式中的第i和第j个关键词句的连接度；

relx、rely分别表示原情感陪护模式和搜索到的情感阿陪护模式，γ为搜索到的情感陪护模式与原情感陪护模式的相似度，当γ取值为0.8-1时，表明两种情感陪护模式的相似度非常相关，当γ取值为0.5-0.8时，表明两种情感陪护模式的相似度相关，当γ取值为 0-0.5时，表明两种情感陪护模式的不相关。

附图说明

图1为本发明基于多源信息融合的情感识别和人机交互系统示意图；

图2为本发明的特征融合流程图；

图3为本发明的自适应人机交互流程图。

具体实施方式

下面结合附图1-3对本发明的具体实施方式进行详细说明。

在下文中，仅描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

如图1所示，本发明的基于多源信息融合的情感识别和人机交互系统包括：信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块，人机交互模块。

信息采集模块，用于采集用户的面部图像信息、语音信息以及语义信息。信息采集模块包括：高清摄像头，用于采集面部图像信息；麦克风，用于采集语音信息；语音识别系统，用于对麦克风采集到的语音信箱进行识别，并提取语义信息。

信号预处理模块，用于对信息采集模块采集到的信号进行去伪迹、滤波等预处理。

信号分析模块，用于对信号预处理模块得到的信号进行分析处理，其中包括：利用两层卷积神经网络算法对接收到的面部图像信息进行特征提取，得到面部情感特征；利用长短时记忆网络分别对接收到的语音信息、语义信息进行预处理和特征提取，得到语音情感特征和语义情感特征。

特征融合模块，对信号处理模块得到的面部情感特征、语音情感特征和语义情感特征利用混合交叉熵注意力机制进行特征融合，得到融合后的情感特征组合。

情感识别模块，根据特征融合模块得到情感特征组合，输入到softmax分类器中进行情感识别。

情感反馈模块，用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块。

情感陪护模块，将情感反馈模块反馈的情感状态，输入到预先建立的智能学习模型中，调整当前情感陪护模式，推荐自适应的情感陪护模式进行情感陪护。

人机交互模块，显示情感陪护模块推荐的自适应情感陪护方案。

如图2所示，面部图像信号、语音信号和语义信号的预处理包括：

面部图像预处理：由于光线、姿态等扰动影响，采集得到的人脸面部图像不可避免的存在一些噪声孤点，利用滑动平均窗口的中值滤波器去除面部孤点噪声，保持图像的边缘特性；利用灰度变换进行图像归一化处理，即将采集到的面部图像的灰度分布参数统一调整到预定的数值，调整图像灰度分布的均值和均方差分别为0和1。

语音信号预处理：利用巴特沃斯带阻滤波器去除语音信号的50HZ 工频干扰；基于样条插值和标准差的方法去除伪迹。

语义信号预处理：对语义的数据长度进行归一化预处理，设置每个语义信号的序列固定长度为N，对于大于长度N的信号进行剪裁，对于小于长度N的信号进行补零填充。

如图2所示，面部图像信号、语音信号和语义信号的分析包括：将预处理后的面部图像信息通过卷积神经网络模型进行特征提取，该神经网络模型包含两个卷积层、两个最大池化层和一个全连接层。全连接层输出为提取的图像情感特征向量X_CNN。

表示池化运算。

将预处理后的语音信号通过长短时记忆网络对音频信号进行时频域特征提取，输出语音情感特征向量Y_LSTM。

其中,σ为激活函数，W_LSTM0、W_LSTM1为长短时记忆网络输入门和遗忘门的权重，B_LSTM0、B_LSTM1为长短时记忆网络输入门和遗忘门的偏置，Y为输入的语音信号。

将预处理后语义信号通过长短时记忆网络进行特征提取，输出语义情感特征向量Z_LSTM。

如图2所示特征融合方法，包括：

采用混合交叉熵注意力机制对语音情感特征和语义情感进行特征融合。语音情感特征和语义情感特征融合更有利于情感状态的识别。处理分析语音和语义信号的长短时记忆网络的输出宽度相同，但是长度不同，基于dot-product注意机制，可得出混合交叉熵注意力机制的权重公式为：

其中，W是注意力权重向量，

分别是是语音情感特征Y_LSTM、语义情感特征Z_LSTM进行一个最大池化后得到的特征向量，score是对齐函数。

加权后的语音语义融合特征为：

其中，o表示hardarm相乘，

表示这两个特征向量的全连接。

将得到的最终融合特征D_feature输入到softmax分类器中进行情感识别。softmax分类器是在开源带标记的情感数据库JAFFE基于上述特征分析融合方式的基础上进行训练好的分类器，并将情感识别类型分为：负面、中性、正面。

P(y)＝softmax(W_p*D_feature+b_p)

是预测识别出的情感的概率最大值，通过解码即可得到识别的情感类型。

情感反馈模块，用于将情感识别模块识别到的用户情感状态反馈到情感陪护模块。如图3所示，情感陪护模块包括情感陪护信息库和智能学习模块，所述情感陪护信息库存储有用户的个人爱好信息，以及存储有与个人爱好信息相匹配的搞笑短视频、欢快音乐、交流谈心对话等内容的情感陪护模式；所述智能学习模块是预先设计好的智能学习模块，用于自动学习能够使用户情感状态调整变好的情感陪护模式，并自动添加到情感陪护信息库。

情感陪护信息库首次建立是基于对用户的个人爱好信息，比如：爱好音乐、视频、体育、评书等，根据这些爱好信息，通过网络云平台搜索建立一个初步的情感陪护信息库，并不断地通过利用智能学习模块不断的进行添加和更新。

智能学习模块是根据当推荐的情感陪护信息库中某个情感陪护模式使用户的情感由负面变为正面时，则给一个正向的激励，若某个情感陪护模式使用户的情感由正面变为负面时，则给一个负向的惩罚。某种情感陪护模式被推荐的概率表达式为：

r_t系数的分布如下表所示：

当某种情感陪护模式的被推荐的概率比较高(例如0.8)时，智能学习模块则从云网络平台中搜集类似的情感陪护模式，并通过判断与搜索到的情感陪护模式的相关性，将相关性程度高的情感陪护模式添加到情感陪护信息库中，不断丰富情感陪护信息库，提高情感陪护的准确性。

智能学习模块通过判断搜索到的情感陪护模式与原情感陪护模式中的情感陪护的连接相似度，将相关性高的情感陪护模式添加到情感陪护信息库中。具体公式如下：

其中，V_i、V_j分别情感陪护模式中的第i和第j个关键词句，ln (V_i)是V_i词句的集合，Out(V_j)是所有与Vj词句连接的词句集合， W_ji是词句V_i、V_j连接的权重，d是阻尼系数，rel_i表示V_i、V_j分别情感陪护模式中的第i和第j个关键词句的连接度。

relx、rely分别表示原情感陪护模式和搜索到的情感陪护模式， γ为搜索到的情感陪护模式与原情感陪护模式的相似度，当γ取值为 0.8-1时，表明两种情感陪护模式的相似度非常相关，当γ取值为 0.5-0.8(不含)时，表明两种情感陪护模式的相似度相关，当γ取值为0-0.5(不含)时，表明两种情感陪护模式的不相关。

智能学习模块的具体过程如下：若q_t时刻分析得到用户的情感状态是负面时，在当前的情感陪护模式p_t陪护下，下一个时刻q_t+1分析得到用户的情感状态仍是负面，则说明情感陪护模式p_t是失败的，此时给一个r_t系数为负的惩罚系数，并降低该情感配护模式的出现概率；若q_t时刻分析得到用户的情感状态是负面时，在当前的情感陪护模式 p_t陪护下，下一个时刻q_t+1分析得到用户的情感状态是中性或者正面，则说明情感陪护模式p_t是成功的，此时给一个r_t系数为正的奖励系数 r_t，增加此情感陪护模式出现的概率；若q_t时刻分析得到用户的情感状态是中性时，在当前的情感陪护模式p_t陪护下，下一个时刻q_t+1分析得到用户的情感状态是负面时，则说明情感陪护模式p_t失败的，此时给一个r_t系数为负的惩罚系数，并降低该情感配护模式的出现概率；若q_t时刻分析得到用户的情感状态是中性时，在当前情感陪护模式 p_t感陪护下，下一个时刻q_t+1分析得到用户的情感状态是中性时，则说明情感陪护模式p_t没有影响到用户的情感，此时不进行任何处理，若是正面时，则说明情感陪护模式p_t是成功的，此时给一个r_t系数为正的奖励系数r_t；若q_t时刻分析得到用户的情感状态是正面时，在当前情感陪护模式p_t陪护下，下一个时刻q_t+1分析得到用户的情感状态是负面，则说明情感陪护模式p_t是失败的，此时给一个r_t系数为负的惩罚系数，并降低该情感配护模式的出现概率；若q_t时刻分析得到用户的情感状态是正面时，在当前情感陪护模式p_t陪护下，下一个时刻 q_t+1分析得到用户的情感状态是正面，则说明情感陪护模式p_t没有影响到用户的情感，此时不进行任何处理。

进一步地，情感陪护模式的推荐过程如下:老人第一次使用该系统时，系统通过语音聊天等方式，记录并保存老人的个人爱好信息，并建立与老人个人爱好相匹配的情感陪护信息库。老人在使用情感陪护系统的过程中，当首次分析判断得到老人的情感状态是负面时，则情感陪护模块启动，并自动推荐情感陪护信息库中的一种陪护模式进行陪护，并在每一种陪护模式结束时，人机交护模块通过语音、文字等方式与老人进行确认当前的某种情感陪护模式老人是否喜欢，如果老人比较喜欢，则将再次给该情感陪护模式叠加一个正向系数奖励，如果老人不喜欢，则将再次给情感陪护模式叠加一个负向系数奖励。智能学习模块综合分析每种情感陪护模式利用两部分的奖励系数进行不断的学习，并分析得到不同情感陪护模式的推荐概率，当老人下次需要情感陪护时，优先推荐情感陪护模式推荐概率高的情感陪护模式。

进一步地，人机交护模块用来显示情感陪护模块推荐的自适应情感陪护模式，比如：当情感陪护模块推荐的是模拟家人进行对话谈心模式时，人机交互模块根据则通过引导式的对话方式模拟家人与其聊天的过程，帮助老人梳理和排解伤心难过的负面情绪，安慰老人；当感陪护模块推荐的是一个搞笑视频的情感陪护模式时，人机交互模块用大屏幕来播放搞笑视频。

本发明的有益效果是：利用该方法和系统，能够通过采集用户的面部图像信息、语音信息以及语义信息，得到用户的情感状态，根据用户的情感状态调整情感陪护模式，并通过智能学习推荐个性化自适应的情感陪护方案，达到对老年人人机互动，实现精准情感陪护，缓解老年人的孤独感。

上述概述仅仅是为了说明的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

Claims

1.一种基于多源信息融合的情感识别和人机交互系统，包括信息采集模块、信号预处理模块、信号分析模块、特征融合模块、情感识别模块、反馈模块、情感陪护模块和人机交互模块，其特征在于：

2.根据权利要求1所述人机交互系统，其特征在于信号预处理模块进行的信号预处理包括面部图像信号、语音信号和语义信号的预处理。