CN115017900B

CN115017900B - 一种基于多模态多去偏见的对话情感识别方法

Info

Publication number: CN115017900B
Application number: CN202210435577.XA
Authority: CN
Inventors: 宋大为; 王婧琳; 马放; 戎璐
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2024-05-10
Anticipated expiration: 2042-04-24
Also published as: CN115017900A

Abstract

本发明涉及一种基于多模态多去偏见的对话情感识别方法，属于自然语言处理技术领域。对于文本模态，本发明提出了去除五种类型的偏见，包括词向量表示中的性别、年龄、种族、宗教和性少数群体偏见。同时，本发明将文本去偏方法扩展到视觉模态，并着重去除两类最为典型的视觉偏见：性别和种族偏见。本发明进一步提出了一种基于子空间投影的去偏方法，该方法为每种类型的视觉偏见构建一个子空间，并通过将每个视觉信息对象的特征向量表示投影到相应的子空间来代表视觉表示中的所存在的该种类型的偏见，进而将其去除。相比传统多模态对话情感识别方法，本方法更加注重特殊群体的感受，减少了社会偏见。相比现有的大多去偏方法只去除一种偏见，本发明一次去除了五种，关注的特殊群体更多更广泛。

Description

一种基于多模态多去偏见的对话情感识别方法

技术领域

本发明涉及一种对话情感识别方法，具体涉及一种基于多模态多去偏见的对话情感识别方法，属于自然语言处理技术领域。

背景技术

随着自然语言处理技术的快速发展，多模态对话情感识别任务逐渐成为学术界和工业界的研究热点。

多模态，是指算法使用的数据包含文本、视觉、声音中的两种或三种模态，在自然语言处理任务中需要提取不同模态中独特的信息和模态间关联的信息。对话情感识别是一个分类任务，旨在对输入的一段连续对话进行分类，输出这段对话中每句话的情感。如图1所示，情感识别任务将每句话都打上了“开心”“中立”“惊喜”等标签。这个任务有很多应用，比如在人机对话中，使机器在理解内容的基础上，学习人类的面部表情、语音语调和文字信息，更加关注人类的情感，进行更深入的交流。

人类的语言中充满了无数隐含的偏见和刻板印象，存在于几乎所有数据中，例如新闻、电影和谈话等。这种偏见会伤害特定群体，从而损害他们的权利，例如，“老年人对数字技术不感兴趣”，或者“女性苗条很讨人喜欢”。研究表明，预训练语言模型会学习并强化数据中隐藏的偏见，这种偏见在与人类感受高度相关的对话情感识别任务中更加明显。

鉴于人类情感的表达是多模态的，人类偏见也存在于多模态对话中，例如文本和视觉模态。图1显示了多模态对话数据集中的性别偏见示例：乔伊想到一个漂亮的女护士，当瑞秋说“可爱的护士”时，他露出了微笑，但当瑞秋说“他们是男护士”时，他表现出一脸失望的表情，尽管他的文字反应似乎是中性的。如图1所示，下划线中的句子“可爱的护士”对应的情感是开心，而“男护士”对应的情感是中立，图中人物的表情也体现了这种情感的转变。研究还表明，除了性别偏见和种族偏见，常见的还有年龄偏见、宗教偏见和性少数群体偏见等。为了提倡平等与公平，越来越多的研究者呼吁要减轻甚至去除数据中的偏见。如何去偏见，成为了热门研究课题。

对于去偏见的方法，目前大部分的研究只局限于一种模态，如视觉或文本。在多模态问题上不够充分。此外，现有的去偏模型大多只关注去除一种偏见，如性别或种族。对于多种类的去偏见研究很少，在多模态对话情感识别中，仍然是一项未解决的问题。

发明内容

本发明的目的是针对现有技术存在的不足和缺陷，为了解决在多模态对话情感识别任务中有效去除多类偏见的技术问题，创新性地提出一种基于多模态多去偏见的对话情感识别方法。本方法综合了文本多去偏技术、视觉多去偏技术，以及多模态对话情感识别技术。

本发明的创新点在于：对于文本模态，本发明能够去除至少五种类型的偏见，包括词向量表示中的性别、年龄、种族、宗教和性少数群体偏见。对于视觉模态，将文本去偏方法扩展到视觉表示，并着重去除两种最为典型的视觉偏见：性别偏见和种族偏见。

对于视觉模态的去偏，本发明进一步提出了一种基于子空间投影的去偏方法。该方法为每种类型的偏见构建一个视觉偏见子空间，并通过将视觉表示 (一般为视觉特征向量表示)投影到相应的视觉偏见子空间来代表视觉表示中所存在的该类型的偏见，进而从视觉表示中将该偏见去除。

本发明采用以下技术方案实现。

一种基于多模态多去偏见的对话情感识别方法，包括以下步骤：

步骤1：文本多去偏。

本发明将已有的双硬去偏方法在性别偏见上的应用，进一步拓展至五种偏见，包括性别、种族、宗教、年龄和性少数群体。

所述双硬去偏，是在硬去偏(即从原始的词向量中减去其在偏见子空间上的投影)的基础上，去除了偏见词的词频对偏见效果去除的影响。

具体地，步骤1包括以下步骤：

步骤1.1：输入总词集W的原始词向量这里的词向量表示可以通过GloVe词嵌入模型来获得。然后，计算总词集W的主成分，作为候选的频率向量{u₁…u_d}，

其中，w表示总词集W中的一个单词，为单词w的向量表示，u_d表示总词集W的一个主成分；PCA表示主成分分析操作；/>表示d维实数向量；d表示词向量的维度，其值通常可以取300。

步骤1.2：定义一对偏见对立词。

偏见对立词是所属偏见类型的一对对立词。例如，在性别偏见中，“男人- 女人”是一对偏见对立词。

采用余弦相似度，计算总词集W中的每一个单词w与偏见对立词的相关程度。根据需要，各取若干数量(如前500个、前700个、前1000个均可)作为偏见词集W_m和W_f。

步骤1.3：对每个候选频率向量u_i，分别重复执行以下步骤：

首先，将偏见词集W_m和W_f的词向量w_m和w_f投影到候选频率向量u_i上，并从原词向量中减去，得到去除频率偏见的词向量w′_m和w′_f。然后，对去除频率偏见的词向量w′_m和w′_f进行硬去偏。

定义n对表示偏见差异的词对D₁,D₂,…,令/>μ_i表示第i个图片对的平均特征，D_i表示第i个词对，v表示D_i中的每一个词语，/>表示D_i中每一个词语的特征向量。在此基础上，构建所有偏见词对向量表示的正交表示VC：

其中，T表示转置操作。

偏见子空间B_t为SVD(VC)的第一个矩阵前k个列向量，此处可以取k＝ 1。其中，SVD(VC)表示对VC进行奇异值分解。当k＝1时，偏见子空间只是一个偏见方向

对偏见词集w′_m、w′_f，减去其在偏见子空间B_t上的投影，得到经过去除频率偏见和硬去偏的偏见词的向量表示

之后，对两个偏见词集的词向量进行K-Means聚类，计算聚类准确度a。删除候选频率向量u_i的去偏效果与聚类准确度a成反比，使聚类准确度a 取到最小值的候选频率向量u_k。

最后，处理全体词向量。先去除全体词向量的频率偏见w′：

再对全体词向量进行硬去偏操作(如上所述)，得到的即为输出的去偏词向量表示/>

按上述过程反复操作，将每次的输出作为下一次去偏的输入，每次去除了一种偏见，最后得到减少了所有类型偏见(如性别、种族、宗教、年龄和性少数群体)的词向量表示。

步骤2：视觉多去偏。

本发明，将文本中的硬去偏方法迁移到图像特征表示上，并首次提出了“投影偏见”及其去除方法，如图2所示。此方法适用于所有现有偏见类型。

以两种视觉上最典型的偏见：性别偏见和年龄偏见为例，来具体说明。

具体地，步骤2包括以下步骤：

步骤2.1：提取图片特征。

将原始数据集的视频切分为帧并逐一输入图片，学习其特征(例如通过视觉预训练模型EfficientNet得到的特征)，输出图片的特征向量

步骤2.2：视觉硬去偏。

首先，选取n对包含针对特定类型视觉偏见(例如性别/年龄)的正-反样例对立图片对(例如“男人-女人”图片对为性别偏见正-反样例对立图片对)，设为G₁,G₂,…,其中，E表示图片对集合，G_n表示第n个图片对。

设μ_i为第i个图片对的平均特征，G_i表示第i个图片对，/>表示G_i中每一个图片的特征向量。

视觉偏见子空间VB为SVD(VC)的前k行，取k＝1，VB即为一个向量，表示为VC表示：

其中，SVD表示奇异值分解，T表示转置操作。

然后，将图片特征修正至视觉偏见子空间，其中/>表示向量/>在子空间VB上的投影。

由此得到了经视觉硬去偏的图片的特征向量

步骤2.3：投影去偏。

将步骤2.2得到的图像特征向量作为输入。

具体地，针对年龄和性别偏见，选取四组偏见图片，分别包括老年人V₁、年轻人V₂、男性V₃、女性V₄。计算四个偏见图片集的偏见子空间

其中K∈{1,2,3,4}，V_K表示偏见图片集，/>表示图片特征向量，T为转置操作，/>为外积操作。

然后，对于偏见图片集中的每一张图片对应的特征向量修正其在偏见子空间的投影偏见，得到去偏后的特征向量v′：

其中，×表示投影操作，K∈{1,2,3,4}，表示偏见子空间。

步骤3：多模态对话情感识别。

将前两步的输出以及多模态数据集，作为文本模态和视觉模态的去偏数据表示。应用Transformer，利用去偏的上下文和多模态(文本和视觉)信息预测目标话语的情绪。因为它能够捕获上下文和快速计算。

本步骤中，使用外部情感知识丰富文本表示，使用上下文感知注意机制来有效地结合上下文信息，使用自注意力层和前馈子层进行多模态融合。

具体地，步骤3包括以下步骤：

步骤3.1：双模态编码层处理。

对于文本模态X，用步骤1中去偏的词向量代表每一句话Xⁱ中的词t_i。为了更好学习情感知识的影响，用一个情感向量表示每一句的情感特征

对于视觉模态，将步骤2的结果按照对应顺序传入编码层，记为U_v。

步骤3.2：情感知识注意力层处理。

引用外部情感知识(NRC_VAD，这个数据集对20,000个单词进行了情绪等级的标注，在“积极-消极”“激动-平静”“强烈-轻微”三个层面给出了0到1的赋值)。对于每句话Xⁱ的单词有对应的分数。为了防止情感知识过度影响单词本身在语境中的情感，情感知识权重需乘以一个系数，例如0.5。

对于该句话的情感知识权重g_i，由一个长短期记忆网络(LSTM)和线性层激活。注意力输出为：/>其中，/>表示词t_i的词向量，/>表示句子的情感知识特征向量。

步骤3.3：多头自注意力层和前馈层处理。

多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权。

设输入为U_l、U_a，其中U_l代表文本向量，U_a代表图片特征向量。 Uⁱ表示一段对话中的回复语，即最后一句，记为/>表示Uⁱ的上下文，即Uⁱ的前 M句话，其中n＝j-1,…,j-M。经过多头自注意力层和前馈层学习后的向量表示为/>

将全部拼接后，得到/>经过多头自注意力层和前馈层学习后，输出为Cⁱ。上下文表示Cⁱ和回复语/>经过学习后，其输出为U_m1。

则文本和视觉向量通过多头自注意力层和前馈层后的输出为(U_m1,U_m2)， U_m2即为U_a。

步骤3.4：双模态交叉注意力层和前馈层处理。

双模态交叉注意力层和前馈层的结构如图3所示。为了交叉学习两模态的特征，将基于Transformer网络构建的(Q_m2,K_m1,V_m1)和(Q_m1,K_m2,V_m2)分别作为两个注意力层的输入。两个注意力层的输出为互相包含了对方模态的信息。

其中，Q_m1、Q_m2分别表示文本和图片模态的回复句向量，K_m1、K_m2分别表示文本和图片模态的上下文向量，V_m1、V_m2分别表示文本和图片模态的注意力权值。分别表示两个注意力层的输出。

步骤3.5：双模态融合层处理。

将步骤3.4得到的拼接输入多头自注意力层和前馈层，输出为 Z_m1,m2，再通过归一化(softmax)求出每种情感的概率P，P＝ softmax(Z_m1,m2W+b)，其中W表示可学习的权重，b表示偏置量。

有益效果

本方法，和现有技术相比，具有以下优点：

在多模态对话情感识别任务中，本发明对数据集的文本和视觉模态数据应用了去偏方法。相比传统多模态对话情感识别方法，本方法更加注重特殊群体的感受，减少了社会偏见。相比现有的大多去偏方法只去除一种偏见，本发明一次去除了五种，关注的特殊群体更多更广泛。

同时，本方法进一步提出了图像的投影偏见及其去除方法和图像的硬去偏方法，相比传统的计算机视觉方法。占用运算资源更少。

附图说明

图1是基于多模态对话的情感识别任务的示例。

图2是基于投影偏见的图像去偏示意图。

图3是基于多模态多去偏的对话情感识别算法架构图。

图4是基于双模态交叉注意力层的架构图。

图5是基于多模态多去偏的对话情感识别算法应用效果图。

具体实施方式

下面结合附图和实施例对本发明进一步详细描述。

一种基于多模态多去偏的对话情感识别方法，包括以下步骤：

步骤1：文本多去偏。

本发明将已有的双硬去偏方法在性别偏见上的应用，进一步拓展至五种偏见，包括性别、种族、宗教、年龄和性少数群体。双硬去偏，是在硬去偏(即从原始的词向量中减去其在偏见子空间上的投影)的基础上去除了偏见词的词频对偏见效果去除的影响。

步骤1.1：输入总词集W的原始词向量这里的词向量表示通过GloVe词嵌入模型来获得。然后，计算总词集W的主成分，作为候选的频率向量{u₁…u_d}，

其中，w表示总词集W的一个单词，为单词w的向量表示，u_d表示总词集W的主成分，PCA表示主成分分析操作，/>表示d维实数向量；d表示词向量的维度，通常可以取300。

步骤1.2：定义一对偏见对立词，偏见对立词是所属偏见类型的一对对立词，例如在性别偏见中“男人-女人”是一对偏见对立词，用余弦相似度计算总词集 W中的每一个词w与对立词的相关程度，可以各取前500个作为偏见词集W_m和 W_f。

步骤1.3：对每个候选维度u_i，分别重复以下步骤：

首先，将偏见词集W_m和W_f的词向量w_m和w_f投影到u_i上，并从原词向量中减去，得到去除频率偏见的词向量w′_m和w′_f：

其中，表示u_i的转置向量。

然后，对修正的词向量w′_m和w′_f做硬去偏：先定义n对表示偏见差异的词对 D₁,D₂,…,令/>其中D_i表示第i个词对，/>表示D_i中每一个词语的特征向量。在此基础上构建VC：

偏见子空间B_t为SVD(VC)的第一个矩阵前k个列向量。此处可以取k＝ 1。SVD(VC)表示对VC进行奇异值分解。当k＝1时，偏见子空间只是一个偏见方向

对偏见词集w′_m和w′_f，减去其在B_t上的投影：

其中，表示向量/>在子空间B_t上的投影。

之后，对选定的偏见词的词向量进行K-Means聚类，并计算聚类准确度：

其中，a表示聚类准确度，表示经过去除频率偏见的偏见词向量表示。

由于得到的a接近100％，意味着删除u_i不能改善去偏性。因此，应选使a取到最小值的u_k。

最后，处理全体词向量。先去除全体词向量的频率偏见：

再对全体词向量进行硬去偏操作(如上所述)，得到的即为输出的去偏词向量

按上述过程反复操作，将每次的输出作为下一次去偏的输入，即可逐一去除一种偏见，最后得到减少了所有偏见(性别、种族、宗教、年龄和性少数群体)的词向量表示。

步骤2：视觉多去偏。

步骤2.1：提取图片特征。

将原始数据集的视频切分为帧，每帧大小480×360，逐一输入图片，用EfficientNet学习其特征，输出图片特征向量表示d维实数向量，d表示特征向量的维度，一般取300。V表示原始数据集的特征向量集合。

步骤2.2：视觉硬去偏(Visual Hard Debias)。

设μ_i为第i个图片对的平均特征，其中G_i表示第i个图片对，/>表示G_i中每一个图片的特征向量。

视觉偏见子空间VB为SVD(VC)的第一个矩阵的前k个列向量，此处取k＝ 1，VB即为一个向量，表示为其中VC表示：

其中，SVD表示奇异值分解，T表示转置操作。

然后，将图片特征修正至视觉偏见子空间，修正后的图片特征向量为：表示图片特征向量/>在子空间VB上的投影，计算公式为：/>

步骤2.3：投影去偏(Projection Debias)。

将步骤2.2得到的图像特征表示作为输入。

其中，×表示投影操作，K∈{1,2,3,4}，表示偏见子空间。

步骤3：多模态对话情感识别。

这一步的输入为前两个步骤应用到多模态对话数据集的输出，作为文本模态和视觉模态的去偏数据。如图3所示，包括以下步骤：

步骤3.1：双模态编码层(Unimodal Encoder)处理。

双模态编码层对于文本模态X，用步骤1中去偏的词向量代表每一句话Xⁱ中的词t_i。为了更好学习情感知识的影响，用一个情感向量表示每一句的情感特征

对于视觉模态，将上述步骤2的结果按照对应顺序传入编码层，记为U_v。

步骤3.2：情感知识注意力层(Sentiment Attention)处理。

情感知识注意力层引用外部情感知识(NRC_VAD)，这个数据集对2万个单词进行了情绪等级的标注，在“积极-消极”，“激动-平静”，“强烈-轻微”三个层面给出了0到1的赋值。

对于每句话Xⁱ的单词有对应的分数[V(t₁),V(t₂),…V(t_n)]。为了防止情感知识过度影响单词本身在语境中的情感，应将分数再乘以一个系数，如0.5。情感知识权重g_i，由g_i＝σ(W_gh_i+b_g)激活。其中，h_i是长短期记忆(LSTM) 层的隐藏层输出，W_g是一个可学习的线性变换，b_g是偏置量。因此，注意力输出/>为：

其中，表示词t_i的词向量，/>表示句子的情感知识特征向量。

步骤3.3：多头自注意力层和前馈层(Multi-Head Self-Attention&FF)处理。

设输入为U_l、U_a,其中代表文本向量表示，U_a代表图片特征向量。Uⁱ表示一段对话，记为/>表示Uⁱ的上下文，即Uⁱ的前M句话，其中n＝j- 1,…,j-M。经过多头自注意力层和前馈层学习后的向量表示为/>

其中，将/>变换成h头，d_s＝d/h，L′将h头变换成1头。MH表示多头注意力层，FF表示前馈层：

FF(x)＝max(0,xW₁+b₁)W₂+b₂。

其中，Q表示查询向量，K表示被查询信息与其他信息的相关性向量，V表示被查询信息的向量，x表示多头注意力层的输出，W₁表示最大池化的权重，W₂表示池化后的附加权重，b₁表示最大池化的偏置量，b₂表示池化后的附加偏置量。

将全部拼接后得到/>经过多头自注意力层和前馈层学习后，上下文的向量表示Cⁱ为：

其中，将Uⁱ变换成4头，L′将4头变换成1头。MH表示多头注意力层， FF表示前馈层。

则文本和视觉向量通过多头自注意力层和前馈层后的输出为(U_m1,U_m2)。

步骤3.4：双模态交叉注意力层和前馈层处理。

双模态交叉注意力层和前馈层(Bimodal Cross Attention&FF)的结构如图4 所示。为了交叉学习两模态共有的特征，将(Q_m2,K_m1,V_m1)和(Q_m1,K_m2,V_m2) 分别作为多头交叉注意力层的输入，计算公式见式(1)。两个层的输出为互相包含了对方模态的信息。

步骤3.5：双模态融合层处理。

将步骤3.4得到的拼接输入多头自注意力层和前馈层，回复句表示

其中，和L(Cⁱ)将/>和Cⁱ变换成4维，L′将4头变换成1维。/>表示Uⁱ的第j句话(即最后一句话)的向量表示。

经过最大池化层输出为Z_m1,m2，再通过归一化(softmax)求出每种情感的概率P：P＝softmax(Z_m1,m2W+b)，其中W表示可学习的权重，b表示偏置量。

图5展示了应用去偏方法前后的聚类结果。使用K-Means聚类来验证去偏方法的有效性。

对于每种类型的偏见，计算词嵌入向量与偏见方向的余弦相似度，从大到小排序取前100/500/1000个，来获取原始预训练语言模型(GloVe)或视觉特征表示中最具有偏见的词嵌入向量或图像表示。

然后，将这些向量进行二分类并计算分类精度：准确率越高，词嵌入向量或图像表示中包含的偏见信息就越多。为了可视化分类结果，用分布随机邻域嵌入(tSNE)的方法使高维的词向量和图像表示投射在二维图像上，清晰地表现他们的聚集程度。绘制点越密集，偏见程度越大，绘制点越分散，偏见程度越低，如图5所示，经过去偏后，所有类型的偏见均显示了不同程度的下降。

以上所述为本发明的较佳实施例，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于多模态多去偏见的对话情感识别方法，其特征在于，包括以下步骤：

步骤1：文本多去偏；

步骤1.1：输入总词集W的原始词向量这里的词向量表示可以通过GloVe词嵌入模型来获得；然后，计算总词集W的主成分，作为候选的频率向量{u₁…u_d}，

其中，w表示总词集W中的一个单词，为单词w的向量表示，u_d表示总词集W的一个主成分；PCA表示主成分分析操作；/>表示d维实数向量；d表示词向量的维度；

步骤1.2：定义一对偏见对立词；

偏见对立词是所属偏见类型的一对对立词；采用余弦相似度，计算总词集W中的每一个单词w与偏见对立词的相关程度；根据需要，各取若干数量作为偏见词集W_m和W_f；

步骤1.3：对每个候选频率向量u_i，分别重复执行以下步骤：

首先，将偏见词集W_m和W_f的词向量w_m和w_f投影到候选频率向量u_i上，并从原词向量中减去，得到去除频率偏见的词向量w′_m和w′_f；然后，对去除频率偏见的词向量w′_m和w′_f进行硬去偏；

定义n对表示偏见差异的词对令/>μ_i表示第i个图片对的平均特征，D_i表示第i个词对，v表示D_i中的每一个词语，/>表示D_i中每一个词语的特征向量；在此基础上，构建所有偏见词对向量表示的正交表示VC：

其中，T表示转置操作；

偏见子空间B_t为SVD(VC)的第一个矩阵前k个列向量；其中，SVD(VC)表示对VC进行奇异值分解；

之后，对两个偏见词集的词向量进行K-Means聚类，计算聚类准确度a；删除候选频率向量u_i的去偏效果与聚类准确度a成反比，使聚类准确度a取到最小值的候选频率向量u_k；

最后，处理全体词向量；先去除全体词向量的频率偏见w′：

再对全体词向量进行硬去偏操作，得到的即为输出的去偏词向量表示/>

按上述过程反复操作，将每次的输出作为下一次去偏的输入，每次去除了一种偏见，最后得到减少了所有类型偏见的词向量表示；

步骤2：视觉多去偏；

步骤2.1：提取图片特征；

将原始数据集的视频切分为帧并逐一输入图片，学习其特征，输出图片的特征向量

步骤2.2：视觉硬去偏；

首先，选取n对包含针对特定类型视觉偏见的正-反样例对立图片对，设为其中，E表示图片对集合，G_n表示第n个图片对；

设μ_i为第i个图片对的平均特征，G_i表示第i个图片对，/>表示G_i中每一个图片的特征向量；

其中，SVD表示奇异值分解，T表示转置操作；

然后，将图片特征修正至视觉偏见子空间，其中表示向量/>在子空间VB上的投影；

由此得到了经视觉硬去偏的图片的特征向量

步骤2.3：投影去偏；

将步骤2.2得到的图像特征向量作为输入；

针对年龄和性别偏见，选取四组偏见图片，分别包括老年人V₁、年轻人V₂、男性V₃、女性V₄；计算四个偏见图片集的偏见子空间

其中K∈{1,2,3,4}，V_K表示偏见图片集，/>表示图片特征向量，T为转置操作，为外积操作；

其中，×表示投影操作，K∈{1,2,3,4}，表示偏见子空间；

步骤3：多模态对话情感识别；

将前两步的输出以及多模态数据集，作为文本模态和视觉模态的去偏数据表示；利用去偏的上下文和多模态信息预测目标话语的情绪；

使用外部情感知识丰富文本表示，使用上下文感知注意机制来有效地结合上下文信息，使用自注意力层和前馈子层进行多模态融合。

2.如权利要求1所述的一种基于多模态多去偏见的对话情感识别方法，其特征在于，步骤3包括以下步骤：

步骤3.1：双模态编码层处理；

对于文本模态X，用步骤1中去偏的词向量代表每一句话Xⁱ中的词t_i；

用一个情感向量表示每一句的情感特征

对于视觉模态，将步骤2的结果按照对应顺序传入编码层，记为U_v；

步骤3.2：情感知识注意力层处理；

引用外部情感知识，对于每句话Xⁱ的单词有对应的分数；为了防止情感知识过度影响单词本身在语境中的情感，情感知识权重需乘以一个系数；

对于该句话的情感知识权重g_i，由一个长短期记忆网络LSTM和线性层激活；注意力输出为：/>其中，/>表示词t_i的词向量，/>表示句子的情感知识特征向量；

步骤3.3：多头自注意力层和前馈层处理；

多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权；

设输入为U_l、U_a，其中U_l代表文本向量，U_a代表图片特征向量；Uⁱ表示一段对话中的回复语，即最后一句，记为/>表示Uⁱ的上下文，即Uⁱ的前M句话，其中n＝j-1,…,j-M；经过多头自注意力层和前馈层学习后的向量表示为/>

将全部拼接后，得到/> 经过多头自注意力层和前馈层学习后，输出为Cⁱ；上下文表示Cⁱ和回复语/>经过学习后，其输出为U_m1；

则文本和视觉向量通过多头自注意力层和前馈层后的输出为(U_m1,U_m2)，U_m2即为U_a；

步骤3.4：双模态交叉注意力层和前馈层处理；

将基于Transformer网络构建的(Q_m2,K_m1,V_m1)和(Q_m1,K_m2,V_m2)分别作为两个注意力层的输入；两个注意力层的输出为互相包含了对方模态的信息；

其中，Q_m1、Q_m2分别表示文本和图片模态的回复句向量，K_m1、K_m2分别表示文本和图片模态的上下文向量，V_m1、V_m2分别表示文本和图片模态的注意力权值；分别表示两个注意力层的输出；

步骤3.5：双模态融合层处理；

将步骤3.4得到的拼接输入多头自注意力层和前馈层，输出为Z_m1,m2，再通过归一化(softmax)求出每种情感的概率P，P＝softmax(Z_m1,m2W+b)，其中W表示可学习的权重，b表示偏置量。