CN114254096A

CN114254096A - 一种基于交互机器人对话的多模态情感预测方法及系统

Info

Publication number: CN114254096A
Application number: CN202111591253.7A
Authority: CN
Inventors: 宋卿; 付瑶; 陈国伟; 张弛; 张鹏洲
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-29

Abstract

本发明公开了一种基于交互机器人对话的多模态情感预测方法及系统。该方法包括：基于用户与交互机器人的对话，构建多模态特征；对多模态特征的模态时序窗口进行调整；将模态时序窗口调整后的多模态特征进行融合；将融合后的多模态特征输入至训练好的神经网络模型中，进行情感类别预测。本发明将对话中产生的文本、语音和视频三种模态进行融合后进行识别，能够更好地识别用户与客服对话交互之间的情感变化，为提升用户满意度，创建有温度有情感的对话机器人提供知识支撑。

Description

一种基于交互机器人对话的多模态情感预测方法及系统

技术领域

本发明涉及情感预测技术领域，特别是涉及一种基于交互机器人对话的多模态情感预测方法及系统。

背景技术

情感是人类在对外界发生事物，接收信息而产生的心理反应，在心理学课程中认为“情绪和情感是人对客观事物所持的态度经验”。在日常的生活中，人们通过面部表情、动作、言语、语调表情等信号传达个体的情感。20世纪ekman等人就将人类的情感分为愤怒、厌恶、恐惧、快乐、悲伤、快乐和惊讶六种基本情感，在后续研究者工作中不仅给出了基本情绪，还给出了二级至三级的情绪，不同的学者有着不同的分类标准，对情绪分类没有统一规格，一般主要有以下两大基本观点：离散模式(categorical emotion states，CES)与连续模式(dimensional emtion space，DES)，两种模式具备不同的分类体系，因此对于情感分析任务而言可在应用场景的情感分析下，筛选有价值的情感类别。而所谓“模态”是德国生理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接受信息的通道，例如人类的视觉、听觉、触觉、味觉、嗅觉等模态。“多模态”这种方式将多种感官获得的信息融合，例如声音、肢体语音、信息载体(文本、图片、音频、视频)等。传统的文本、语音、视频的情感分析算法都建立在单一模态的训练集结合机器学习或深度学习的方法，较为单一，而且孤立地将用户表达的情感信息拆分成单一模态，准确度降低。

发明内容

针对上述问题，本发明提供了一种基于交互机器人对话的多模态情感预测方法及系统。

为实现上述目的，本发明提供了如下方案：

一种基于交互机器人对话的多模态情感预测方法，包括：

基于用户与交互机器人的对话，构建多模态特征；所述多模态特征包括：语音模态情感特征、对话上下文模态特征以及视频模态情感特征；

对多模态特征的模态时序窗口进行调整；

将模态时序窗口调整后的多模态特征进行融合；

将融合后的多模态特征输入至训练好的神经网络模型中，进行情感类别预测。

可选地，所述基于用户与交互机器人的对话，构建多模态特征，具体包括：

通过声学特征工具包抽取对话语音中的声学情感特征并拼接降维，构建语音模态情感特征；

将对话中的当前句以及前三句的文本特征输入到BERT模型，生成用户对话上下文特征向量，构建对话上下文模态特征；

识别对话视频中用户的面部表情，构建视频模态情感特征。

可选地，所述识别对话视频中用户的面部表情，构建视频模态情感特征，具体包括：

抽帧识别对话视频中用户的人脸区域，并切分出用户；

通过FACET面部表情分析系统得到用户的面部情感特征；

对所述面部情感特征进行池化运算，得到当前对话区间内视频模态情感特征。

可选地，所述对多模态特征的模态时序窗口进行调整，具体包括：

通过当前对话文本中的情感词极端当前对话的情感强度；

根据所述情感强度对多模态特征的模态时序窗口进行调整。

可选地，所述通过当前对话文本中的情感词极端当前对话的情感强度，具体包括：

对当前对话文本进行分词；

基于情感词典确定所述分词中的情感词汇；

根据所述情感词汇中消极情感词汇和积极情感词汇的个数，确定当前对话的情感强度。

可选地，利用公开多模态数据集MOSEI作为训练数据对神经网络模型进行训练。

本发明还提供了一种基于交互机器人对话的多模态情感预测系统，包括：

多模态特征构建模块，用于基于用户与交互机器人的对话，构建多模态特征；所述多模态特征包括：语音模态情感特征、对话上下文模态特征以及视频模态情感特征；

调整模块，用于对多模态特征的模态时序窗口进行调整；

融合模块，用于将模态时序窗口调整后的多模态特征进行融合；

情感类别预测模块，用于将融合后的多模态特征输入至训练好的神经网络模型中，进行情感类别预测。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于交互机器人对话的多模态情感预测方法，包括：基于用户与交互机器人的对话，构建多模态特征；对多模态特征的模态时序窗口进行调整；将模态时序窗口调整后的多模态特征进行融合；将融合后的多模态特征输入至训练好的神经网络模型中，进行情感类别预测。本发明将对话中产生的文本、语音和视频三种模态进行融合后进行识别，能够更好地识别用户与客服对话交互之间的情感变化，为提升用户满意度，创建有温度有情感的对话机器人提供知识支撑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于交互机器人对话的多模态情感预测方法的流程图；

图2为本发明实施例基于交互机器人对话的多模态情感预测方法的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-2所示，本发明提供的一种基于交互机器人对话的多模态情感预测方法，包括以下步骤：

步骤101：基于用户与交互机器人的对话，构建多模态特征；所述多模态特征包括：语音模态情感特征、对话上下文模态特征以及视频模态情感特征。

(1)语音(Audio Input)：将wav格式的语音通过liborosa声学特征工具包抽取MFCC、Mel频谱能量动态系数、语速等声学情感特征并拼接降维，构建语音模态情感特征。

Embedding_A＝Librosa(Audio Input)

(2)构建机器人与用户对话上下文向量(Context Embedding)：

考虑在机器人与用户的对话场景下，语音与视频模态中对话的上下句影响直接关联较小，需要预测情感判别的当前句以及前三句的文本特征输入到BERT模型(前三句内容范围包括客服交谈语句)，生成用户对话上下文特征向量，该向量更好的表示对情感分析有效带有上下文语句的文本特征，替代文本模型的对话句向量输入模型。

(3)视频(Vedio Input)：首先抽帧识别对话中说话人脸区域，并切分出对话人，用FACET面部表情分析系统得到面部情感特征对帧级别的特征进行池化运算，计算得到该对话句区间内视频模态的情感特征。

Embedding_V＝FACET(Visual input)

步骤102：对多模态特征的模态时序窗口进行调整。具体包括：通过当前对话文本中的情感词极端当前对话的情感强度；根据所述情感强度对多模态特征的模态时序窗口进行调整。

由于三种模态在对话中对不同句的情感影响的范围不同，语音和视频多数只与当前句强关联，文本与上文两句强关联，因此默认预测当前句的模态选取窗口为：文本-前两句及当句、视频-当句、语音-当句。通过计算文本中情感词(在情感词典中匹配正负)个数获得该句的情感的强度，若超过设定的情感强度的阈值，将在视频、语音模态的特征向量将添加上一句的情感特征，在原本只存放单句的语音、视频模态中添加上一句的模态特征，赋予场景上下文的视频、语音模态特征。

计算过程：

将句子利用iieba分词，将句子切分成单个词语。

结合情感词典获得当前句情感词汇(senti-word)集合。据情感分析算法使用的不同场景调整情感强度的阈值Score，例如本算法主要用于客服服务中，当出现两个以上情感词汇，即可判定为用户情感波动较大。统计句子中消极、积极情感词汇的个数，并汇总

n为与情感词典匹配的单词数目。

设阈值为S，当Score＞S时，当前句的视频、语音模态也选用上一句的模态特征并与当前句的特征进行拼接后池化得到情感波动较强时的情感特征。

步骤103：将模态时序窗口调整后的多模态特征进行融合。

步骤104：将融合后的多模态特征输入至训练好的神经网络模型中，进行情感类别预测。

将三种用户当前句模态情感特征通拼接(concat)后得到三种模态的融合特征，通过最终得到的多模态融合情感特征作为最终的情感Embedding输入，利用公开多模态数据集MOSEI等作为训练数据，选取softmax函数损失函数进训练，从而使得模型可以学习并预测情感类别。

调整模块，用于对多模态特征的模态时序窗口进行调整；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于交互机器人对话的多模态情感预测方法，其特征在于，包括：

对多模态特征的模态时序窗口进行调整；

将模态时序窗口调整后的多模态特征进行融合；

2.根据权利要求1所述的基于交互机器人对话的多模态情感预测方法，其特征在于，所述基于用户与交互机器人的对话，构建多模态特征，具体包括：

识别对话视频中用户的面部表情，构建视频模态情感特征。

3.根据权利要求2所述的基于交互机器人对话的多模态情感预测方法，其特征在于，所述识别对话视频中用户的面部表情，构建视频模态情感特征，具体包括：

抽帧识别对话视频中用户的人脸区域，并切分出用户；

通过FACET面部表情分析系统得到用户的面部情感特征；

4.根据权利要求1所述的基于交互机器人对话的多模态情感预测方法，其特征在于，所述对多模态特征的模态时序窗口进行调整，具体包括：

通过当前对话文本中的情感词极端当前对话的情感强度；

根据所述情感强度对多模态特征的模态时序窗口进行调整。

5.根据权利要求4所述的基于交互机器人对话的多模态情感预测方法，其特征在于，所述通过当前对话文本中的情感词极端当前对话的情感强度，具体包括：

对当前对话文本进行分词；

基于情感词典确定所述分词中的情感词汇；

6.根据权利要求1所述的基于交互机器人对话的多模态情感预测方法，其特征在于，利用公开多模态数据集MOSEI作为训练数据对神经网络模型进行训练。

7.一种基于交互机器人对话的多模态情感预测系统，其特征在于，包括：

调整模块，用于对多模态特征的模态时序窗口进行调整；