CN112083806B

CN112083806B - 一种基于多模态识别的自学习情感交互方法

Info

Publication number: CN112083806B
Application number: CN202010973218.0A
Authority: CN
Inventors: 刘卓; 邓晓燕; 潘文豪; 潘粤成; 蔡典仑
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-10-26
Anticipated expiration: 2040-09-16
Also published as: CN112083806A

Abstract

本发明公开了一种基于多模态识别的自学习情感交互方法，步骤如下：非接触式通道分别采集语音、人脸和手势信号；对信号进行特征提取，得到信号初步特征；特征输入到双向LSTM层，得到单模态私有信息和多模态交互信息，根据这些信息得到融合特征；基于分类学习算法，结合多模态融合特征和历史情绪状态曲线预测用户情绪，选择交互模式；在交互模式下，根据对话记忆网络给出交互应答；最后，根据交互效果对情绪状态曲线和对话记忆网络进行反馈和优化。本发明允许操作者通过非接触式人机交互接口多通道输入信息，对多模态的融合特征综合考虑，结合情绪历史状态和对话记忆网络，完成交互任务。

Description

一种基于多模态识别的自学习情感交互方法

技术领域

本发明涉及人机交互技术领域，具体涉及一种基于多模态识别的自学习情感交互方法。

背景技术

智能人机交互是人工智能发展的一个重要方向，随着移动互联网的发展，对人机交互的类人化和自然性提出了更高的要求。

目前的交互技术较为单一，多为单纯的文字或语音交互，一些所谓的多模态交互方式只是对多模态特征进行简单的加法操作，是对多个单模态信息的单独处理，没有考虑多模态信息之间的交互作用信息，使得多个模态之间存在歧义，不能实现完整的、无歧义的交互任务。同时，大多数的交互方式没有考虑用户的情绪和心理的连续性和时间累积效应，也没有考虑对话的上下文及语义的连贯性，无自适应和自学习的能力，只能对特定的场景和意图进行交互，无法满足日益增长的交互需求。人的自然交互是离不开情绪变化的，情绪的表达通常是通过语言、视觉和行为动作之间的相互作用共同完成的，同时人的情感具有时变性，对话具有连续性。目前亟待提出一种能够综合考虑多模态之间的交互作用关系，并能适应复杂多变的场景，具有自学习和自适应能力的交互新方法。

发明内容

本发明的目的在于解决交互能力不足的缺陷，提供一种基于多模态识别的自学习情感交互方法，该方法允许操作者通过非接触式人机交互接口多通道输入信息，对多模态的融合特征综合考虑，结合情绪历史状态和对话记忆网络，完成交互任务。

本发明的目的可以通过采取如下技术方案达到：

一种基于多模态识别的自学习情感交互方法，所述的自学习情感交互方法包括以下步骤：

S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手势信息；

S2、提取语音、人脸和手势信号特征，初步得到语音情感特征l、人脸特征f、手势特征h，记N＝{l，f，h}，其中，N是语言情感特征l、人脸特征f、手势特征h信息的集合；

S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向LSTM网络层，得到单模态信息和多模态交互信息，根据单模态信息和多模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特征；

S4、基于XGBOOST学习算法，结合多模态融合特征和情绪历史状态曲线预测用户情绪，选择交互模式；

S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸和手势信号，并分别提取语音情感特征l、人脸特征f、手势特征h，得到情绪状态曲线反馈，并以此进行对话记忆网络优化；

S6、在相应交互模式下，通过优化后的对话记忆网络给出交互应答。

进一步地，所述的步骤S2过程如下：

S21、对采集的语音信息，基于隐马尔可夫模型，提取语音Mel滤波器组倒谱特征，包括短时能量、共振峰、子带能量的短时特征，得到语言情感特征l；

S22、对采集的人脸信息，输入到多层卷积神经网络，用6个5x5的卷积核过滤器进行卷积，得到人脸特征f；

S23、对采集的手势信息，基于手势的Hu矩以及指尖数，输入到BP神经网络，得到手势特征h。

进一步地，所述的步骤S3过程如下：

S31、将语音情感特征l、人脸特征f、手势特征h分别通过私有的双向LSTM网络层进行编码，获得单个模态的内部变化信息，经过私有的双向LSTM网络层向量拼接得到单模态的语音情感表示

人脸表示

和手势表示

S32、将语音情感特征l、人脸特征f、手势特征h分别进行两两组合得到3种双模态信息，将3种双模态信息通过共享的双向LSTM网络层，获得双模态之间的动态交互作用信息，将经过共享的双向LSTM网络层向量拼接得到的双模态组合表示如下：

a₁为语音情感和人脸的双模态组合，经过共享的双向LSTM层得到的语音情感表示

和人脸表示

a₂为语音情感和手势的双模态组合，经过共享的双向LSTM层得到的语音情感表示

和手势表示

a₃为人脸和手势的双模态组合，经过共享的双向LSTM层得到的人脸表示

和手势表示

S33、将语音情感特征l、人脸特征f、手势特征h通过共享的双向LSTM网络层，分别获得3种模态之间的动态交互作用信息，其中，语音情感特征l经过共享的双向LSTM网络层的语音情感表示为

人脸特征f经过共享的双向LSTM网络层的人脸表示为

手势特征h经过共享的双向LSTM网络层的手势表示

S34、将私有的双向LSTM网络层与共享的双向LSTM网络层获得的模态信息融合到一起，通过向量拼接操作，分别获得语音情感模态信息、人脸模态信息以及手势模态信息的表示为：

S35、将语音情感模态信息、人脸模态信息以及手势模态信息进行向量拼接，获得语音情感模态、人脸模态以及手势模态的三模态融合特征表示：

其中，

表示向量拼接。

进一步地，所述的步骤S4过程如下：

S41、通过随机抽样采集人对多种模态信息的情绪识别数据，通过对该数据进行标注，获得多模态情绪识别的类人化识别数据集；

其中，所述的人对多种模态信息的情绪识别数据包括多模态信息特征矩阵F和情绪结果矩阵E，其中，多模态信息特征矩阵F和情绪结果矩阵E的定义分别如下：

将多模态信息特征矩阵F和情绪结果矩阵E合并得到输入矩阵S_i：

样本数据经过标注后导入输出矩阵S_o：

其中，F_i，i＝0,1,2…n为多模态信息的完整融合特征，E_i，i＝0,1,2…n为情绪状态样本数据，C_i，i＝0,1,2…n为交互模式输出标注数据，下标i代表第i个样本数据，n为样本容量；

S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识别数据集训练为一系列CART树，其过程为：

设置CART树的数量和初始权重；

导入一组类人化识别数据集，根据初始权重产生一棵CART树，然后逐渐迭代，每次迭代过程中增加一棵CART树，逐渐形成众多树模型集成的强评估器，导入多组类人化识别数据集，采用boosting式集成学习算法，对权重进行优化，得到基于多模态融合特征的情绪识别网络初步框架；

S43、记录下第n次交互时的情绪识别数据T_n，结合前n-1次情绪识别的历史数据T₁～T_n-1，采取非线性插值的方法，拟合出情绪历史状态曲线；

S44、对于多模态融合特征的情绪识别网络，使其结合情绪历史状态曲线上各点的情绪识别数据，再次使用XGBOOST学习算法重新训练，获得结合多模态特征和情绪历史状态的情绪识别网络；其中，所述的情绪识别网络为三层卷积神经网络，使用3个5x5的卷积核过滤器进行卷积，情绪识别网络的输入为语音情感模态、人脸模态以及手势模态的三模态融合特征，情绪识别网络的输出为情绪识别结果。

进一步地，所述的步骤S5过程如下：

将第n次交互时的情绪识别数据T_n反馈给情绪历史状态，拟合出新的情绪历史状态曲线；将对话内容反馈给对话记忆网络，对话记忆网络重新进行权重处理，实现对话记忆网络的优化，通过此次交互实现数据集更新和网络优化，实现自学习功能。

进一步地，所述的步骤S5过程如下：

S61、将多模态特征输入到经过训练的情绪识别网络，获取情绪识别数据，选择交互模式；

S62、在相应交互模式下，将对话内容输入到对话记忆网络，抽取对话记忆，获得交互应答；其中，所述的对话记忆网络包括输入编码层、记忆更新层、记忆卡、输出层、应答层，分别说明如下：

输入编码层I：输入为文本，该层的输入即整个对话记忆网络的输入，输出为网络中内在向量，该层的输出作为记忆更新层的输入；

记忆更新层G：输入为网络中内在向量，输出为根据内在向量更新后的对话记忆，该层的输出作为记忆卡的输入；

记忆卡M：用于存储对话记忆，记忆更新层可对其进行读、写操作，即数据的双向传输，该层的输出作为输出层的输入；

输出层O：输入为记忆卡中读取的对话记忆，输出为结合特定问题后给出的应答向量，该层的输出作为应答层的输入；

应答层R：输入为应答向量，输出为应答向量对应的文本格式，该层的输出即整个对话记忆网络的输出。

进一步地，所述的多模态情绪识别的类人化识别数据集包括6种不同的情绪，分别是：愤怒、恐惧、厌恶、悲伤、高兴和惊讶。

本发明相对于现有技术具有如下的优点及效果：

1、本发明能够采集非接触的三种模态信息，并综合考虑单模态的内部信息和多模态的交互作用信息，依据多模态的融合特征进行情绪识别出多种情绪。

2、本发明中交互决策根据用户的情绪产生，结合情绪识别结果和情绪历史变化调整对应的情绪交互模式，使得能够高效识别用户的情绪并针对不同情绪给予不同的响应，达到满足用户特定情感需求的目的。

3、本发明根据对话记忆网络产生交互应答，能够使交互有上下文的连贯性，提升交互体验。

4、本发明对情绪状态曲线和对话记忆网络进行实时优化和动态调整，使得能够在对话时提取对话内容和情绪向量进行反馈，具有类人化的自学习和自适应能力。

附图说明

图1是本发明中公开的基于多模态识别的自学习情感交互方法的步骤流程图；

图2是本发明实施例中技术实施路线框图；

图3是本发明实施例中XGBOOST的实施结构图；

图4是本发明实施例中多模态特征融合网络结构图；

图5是本发明实施例中对话记忆网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例具体公开了一种基于多模态识别的自学习情感交互方法，如附图1所示，包括以下步骤：

S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手势信息，如附图2左半部分所示，用到的技术有人脸识别、语音识别和手势识别。人脸识别将人脸图像信号转化为人脸图像信息，语音识别从语音信号提取出语音信息，手势识别将手势图像信号转化为手势信息。

S2、将人脸图像信息、语音信息和手势信息通过多层卷积神经网络处理，如图2右半部分所示，通过情绪分析技术、并在NLP的辅助处理下得到语音情感特征l、人脸特征f、手势特征h，记N＝{l，f，h}，其中，N是语言情感特征l、人脸特征f、手势特征h信息的集合。

该实施例中步骤S2过程如下：

S21、对采集的语音信息，基于隐马尔可夫模型(HMM)，提取语音Mel滤波器组倒谱特征(MFCC)，包括短时能量、共振峰、子带能量的短时特征，得到语言情感特征l；

S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向LSTM网络层，得到单模态信息和多模态交互信息，根据单模态信息和多模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特征，如附图4所示；

该实施例中，步骤S3过程如下：

人脸表示

和手势表示

和人脸表示

和手势表示

和手势表示

人脸特征f经过共享的双向LSTM网络层的人脸表示为

手势特征h经过共享的双向LSTM网络层的手势表示

其中，

表示向量拼接。

将多种模态信息分别通过私有的双向LSTM网络层和共享的双向LSTM网络层，能够得到单个模态的内部信息和多个模态的交互信息，综合考虑了多模态联合对交互情绪的影响，能够准确捕捉语言、视觉和声学行为对情绪表达的影响，显著提高了情绪识别的性能。

S4、基于XGBOOST分类算法，结合融合特征和历史情感曲线预测用户情绪，选择交互模式；

该实施例中，步骤S4过程如下：

S41、通过随机抽样采集人对多种模态信息的情绪识别数据，通过对该数据进行标注，获得多模态情绪识别的类人化识别数据集。

人的情绪识别数据包括多模态信息特征矩阵F和情绪结果矩阵E。其中，多模态信息特征矩阵F和情绪结果矩阵E的定义分别如下：

样本数据经过标注后导入输出矩阵S_o：

其中，F_iii＝0,1,2…n)为多模态信息的完整融合特征，E_iii＝0,1,2…n)为情绪状态样本数据，C_iii＝0,1,2…n)为交互模式输出标注数据，下标i代表第i个样本数据，n为样本容量。

获得的多模态情绪识别的类人化识别数据集包括6种不同的情绪，分别是：愤怒、恐惧、厌恶、悲伤、高兴和惊讶。

S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识别数据集训练为一系列CART树，如附图3所示，其过程为：

设置CART树的数量和初始权重；

导入一组类人化识别数据集，根据初始权重产生一棵CART树，然后逐渐迭代，每次迭代过程中增加一棵CART树，逐渐形成众多树模型集成的强评估器。导入多组类人化识别数据集，采用boosting式集成学习算法，对权重进行优化，得到基于多模态融合特征的情绪识别网络初步框架。

其中，CART是一棵二叉树，每一次分裂会产生两个子节点。

所述的boosting式集成学习算法，过程如下：

通过加法模型将类人化识别数据集中的数据进行线性组合；

进行多轮训练，每一轮训练都提升那些错误率小的数据权重，同时降低错误率高的数据权重；

在每一轮开始时改变类人化识别数据集的权值，通过提高那些在前一轮被分类器错误分类数据的权值，减小前一轮正确分类数据的权值，来使得分类器达到较好的分类效果。

S43、依据情感学的相关理论，考虑人心理变化的时序效应和时间积累效应，记录下第n次交互时的情绪识别数据T_n，结合前n-1次情绪识别的历史数据T₁～T_n-1，采取非线性插值的方法，拟合出情绪历史状态曲线。

S44、对于多模态融合特征的情绪识别网络，使其结合情绪历史状态曲线上各点的情绪识别数据，再次使用XGBOOST学习算法重新训练，获得结合多模态特征和情绪历史状态的情绪识别网络。

其中，情绪识别网络结构如下：

输入：语音情感模态、人脸模态以及手势模态的三模态融合特征

结构：三层卷积神经网络，使用3个5x5的卷积核过滤器进行卷积输出：情绪识别结果

S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸和手势信号，并分别提取语音情感特征l、人脸特征f、手势特征h，得到情绪状态曲线反馈，并以此进行对话记忆网络优化。

该实施例中，步骤S5过程如下：

将第n次交互时的情绪识别数据T_n反馈给历史情绪状态，拟合出新的情绪历史状态曲线；将对话内容反馈给对话记忆网络，I层对对话内容进行编码，G层将其插入到记忆卡M中，对M的内容进行权重处理，实现对话记忆网络的优化。

通过在真实场景下的人机对话交互中不断重复步骤S1到步骤S6，智能终端能够记录用户的交互情绪和对话内容，实现对情绪状态曲线的拟合和对话记忆网络的优化，从而使其具有自学习的能力。

通过对真实场景交互数据的自学习，该方法的情绪识别网络和对话记忆网络更接近于自然人的交互思维，使得交互过程更加自然化，能够针对不同交互场景和交互者的不同情绪实现类人化交互，从而使其具有自适应的能力。

S6、在相应交互模式下，通过对话记忆网络给出交互应答；

该实施例中，步骤S6过程如下：

S61、将多模态特征输入到训练好的情绪识别网络，获得情绪识别结果C,选择交互模式。

S62、对话记忆网络的构建如下：

记忆模型包括一系列记忆单元，由多个数组构成，每个元素保存一句话的记忆。记忆网络结构如附图5：

该网络包括输入编码层、记忆更新层、记忆卡、输出层、应答层，分别说明如下：

输出层O:输入为记忆卡中读取的对话记忆，输出为结合特定问题后给出的应答向量，该层的输出作为应答层的输入；

S63、在跟据情绪识别结果的交互模式C下，将用户对话内容输入到记忆网络，输入层I将其转化为一个频率的向量空间模型。G把对话文本的向量空间模型插到记忆卡M中，将最合适的k个支撑记忆挑出，返回一个长度为k的数组，R层将输出向量编码生成交互应答。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多模态识别的自学习情感交互方法，其特征在于，所述的自学习情感交互方法包括以下步骤：

S6、在相应交互模式下，通过优化后的对话记忆网络给出交互应答；

其中，所述的步骤S2过程如下：

S23、对采集的手势信息，基于手势的Hu矩以及指尖数，输入到BP神经网络，得到手势特征h；

其中，所述的步骤S3过程如下：

人脸表示

和手势表示

和人脸表示

和手势表示

和手势表示

人脸特征f经过共享的双向LSTM网络层的人脸表示为

手势特征h经过共享的双向LSTM网络层的手势表示

其中，⊕表示向量拼接；

其中，所述的步骤S4过程如下：

样本数据经过标注后导入输出矩阵S_o：

设置CART树的数量和初始权重；

S44、对于多模态融合特征的情绪识别网络，使其结合情绪历史状态曲线上各点的情绪识别数据，再次使用XGBOOST学习算法重新训练，获得结合多模态特征和情绪历史状态的情绪识别网络；其中，所述的情绪识别网络为三层卷积神经网络，使用3个5x5的卷积核过滤器进行卷积，情绪识别网络的输入为语音情感模态、人脸模态以及手势模态的三模态融合特征，情绪识别网络的输出为情绪识别结果；

其中，所述的步骤S5过程如下：

将第n次交互时的情绪识别数据T_n反馈给情绪历史状态，拟合出新的情绪历史状态曲线；将对话内容反馈给对话记忆网络，对话记忆网络重新进行权重处理，实现对话记忆网络的优化，通过此次交互实现数据集更新和网络优化，实现自学习功能；

其中，所述的步骤S5过程如下：

2.根据权利要求1所述的一种基于多模态识别的自学习情感交互方法，其特征在于，所述的多模态情绪识别的类人化识别数据集包括6种不同的情绪，分别是：愤怒、恐惧、厌恶、悲伤、高兴和惊讶。