CN115017900A - 一种基于多模态多去偏见的对话情感识别方法 - Google Patents

一种基于多模态多去偏见的对话情感识别方法 Download PDF

Info

Publication number
CN115017900A
CN115017900A CN202210435577.XA CN202210435577A CN115017900A CN 115017900 A CN115017900 A CN 115017900A CN 202210435577 A CN202210435577 A CN 202210435577A CN 115017900 A CN115017900 A CN 115017900A
Authority
CN
China
Prior art keywords
bias
word
vector
representing
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210435577.XA
Other languages
English (en)
Other versions
CN115017900B (zh
Inventor
宋大为
王婧琳
马放
戎璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210435577.XA priority Critical patent/CN115017900B/zh
Publication of CN115017900A publication Critical patent/CN115017900A/zh
Application granted granted Critical
Publication of CN115017900B publication Critical patent/CN115017900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态多去偏见的对话情感识别方法,属于自然语言处理技术领域。对于文本模态,本发明提出了去除五种类型的偏见,包括词向量表示中的性别、年龄、种族、宗教和性少数群体偏见。同时,本发明将文本去偏方法扩展到视觉模态,并着重去除两类最为典型的视觉偏见:性别和种族偏见。本发明进一步提出了一种基于子空间投影的去偏方法,该方法为每种类型的视觉偏见构建一个子空间,并通过将每个视觉信息对象的特征向量表示投影到相应的子空间来代表视觉表示中的所存在的该种类型的偏见,进而将其去除。相比传统多模态对话情感识别方法,本方法更加注重特殊群体的感受,减少了社会偏见。相比现有的大多去偏方法只去除一种偏见,本发明一次去除了五种,关注的特殊群体更多更广泛。

Description

一种基于多模态多去偏见的对话情感识别方法
技术领域
本发明涉及一种对话情感识别方法,具体涉及一种基于多模态多去偏见的对话情感识别方法,属于自然语言处理技术领域。
背景技术
随着自然语言处理技术的快速发展,多模态对话情感识别任务逐渐成为学术界和工业界的研究热点。
多模态,是指算法使用的数据包含文本、视觉、声音中的两种或三种模态,在自然语言处理任务中需要提取不同模态中独特的信息和模态间关联的信息。对话情感识别是一个分类任务,旨在对输入的一段连续对话进行分类,输出这段对话中每句话的情感。如图1所示,情感识别任务将每句话都打上了“开心”“中立”“惊喜”等标签。这个任务有很多应用,比如在人机对话中,使机器在理解内容的基础上,学习人类的面部表情、语音语调和文字信息,更加关注人类的情感,进行更深入的交流。
人类的语言中充满了无数隐含的偏见和刻板印象,存在于几乎所有数据中,例如新闻、电影和谈话等。这种偏见会伤害特定群体,从而损害他们的权利,例如,“老年人对数字技术不感兴趣”,或者“女性苗条很讨人喜欢”。研究表明,预训练语言模型会学习并强化数据中隐藏的偏见,这种偏见在与人类感受高度相关的对话情感识别任务中更加明显。
鉴于人类情感的表达是多模态的,人类偏见也存在于多模态对话中,例如文本和视觉模态。图1显示了多模态对话数据集中的性别偏见示例:乔伊想到一个漂亮的女护士,当瑞秋说“可爱的护士”时,他露出了微笑,但当瑞秋说“他们是男护士”时,他表现出一脸失望的表情,尽管他的文字反应似乎是中性的。如图1所示,下划线中的句子“可爱的护士”对应的情感是开心,而“男护士”对应的情感是中立,图中人物的表情也体现了这种情感的转变。研究还表明,除了性别偏见和种族偏见,常见的还有年龄偏见、宗教偏见和性少数群体偏见等。为了提倡平等与公平,越来越多的研究者呼吁要减轻甚至去除数据中的偏见。如何去偏见,成为了热门研究课题。
对于去偏见的方法,目前大部分的研究只局限于一种模态,如视觉或文本。在多模态问题上不够充分。此外,现有的去偏模型大多只关注去除一种偏见,如性别或种族。对于多种类的去偏见研究很少,在多模态对话情感识别中,仍然是一项未解决的问题。
发明内容
本发明的目的是针对现有技术存在的不足和缺陷,为了解决在多模态对话情感识别任务中有效去除多类偏见的技术问题,创新性地提出一种基于多模态多去偏见的对话情感识别方法。本方法综合了文本多去偏技术、视觉多去偏技术,以及多模态对话情感识别技术。
本发明的创新点在于:对于文本模态,本发明能够去除至少五种类型的偏见,包括词向量表示中的性别、年龄、种族、宗教和性少数群体偏见。对于视觉模态,将文本去偏方法扩展到视觉表示,并着重去除两种最为典型的视觉偏见:性别偏见和种族偏见。
对于视觉模态的去偏,本发明进一步提出了一种基于子空间投影的去偏方法。该方法为每种类型的偏见构建一个视觉偏见子空间,并通过将视觉表示 (一般为视觉特征向量表示)投影到相应的视觉偏见子空间来代表视觉表示中所存在的该类型的偏见,进而从视觉表示中将该偏见去除。
本发明采用以下技术方案实现。
一种基于多模态多去偏见的对话情感识别方法,包括以下步骤:
步骤1:文本多去偏。
本发明将已有的双硬去偏方法在性别偏见上的应用,进一步拓展至五种偏见,包括性别、种族、宗教、年龄和性少数群体。
所述双硬去偏,是在硬去偏(即从原始的词向量中减去其在偏见子空间上的投影)的基础上,去除了偏见词的词频对偏见效果去除的影响。
具体地,步骤1包括以下步骤:
步骤1.1:输入总词集W的原始词向量
Figure RE-GDA0003765727490000021
这里的词向量表示可以通过GloVe词嵌入模型来获得。然后,计算总词集W的主成分,作为候选的频率向量{u1…ud},
Figure RE-GDA0003765727490000022
其中,w表示总词集W中的一个单词,
Figure RE-GDA0003765727490000031
为单词w的向量表示,ud表示总词集W的一个主成分;PCA表示主成分分析操作;
Figure RE-GDA0003765727490000032
表示d维实数向量;d表示词向量的维度,其值通常可以取300。
步骤1.2:定义一对偏见对立词。
偏见对立词是所属偏见类型的一对对立词。例如,在性别偏见中,“男人- 女人”是一对偏见对立词。
采用余弦相似度,计算总词集W中的每一个单词w与偏见对立词的相关程度。根据需要,各取若干数量(如前500个、前700个、前1000个均可)作为偏见词集Wm和Wf
步骤1.3:对每个候选频率向量ui,分别重复执行以下步骤:
首先,将偏见词集Wm和Wf的词向量wm和wf投影到候选频率向量ui上,并从原词向量中减去,得到去除频率偏见的词向量w′m和w′f。然后,对去除频率偏见的词向量w′m和w′f进行硬去偏。
定义n对表示偏见差异的词对D1,D2,…,
Figure RE-GDA0003765727490000039
Figure RE-GDA0003765727490000033
μi表示第i个图片对的平均特征,Di表示第i个词对,v表示Di中的每一个词语,
Figure RE-GDA0003765727490000034
表示Di中每一个词语的特征向量。在此基础上,构建所有偏见词对向量表示的正交表示VC:
Figure RE-GDA0003765727490000035
其中,T表示转置操作。
偏见子空间Bt为SVD(VC)的第一个矩阵前k个列向量,此处可以取k= 1。其中,SVD(VC)表示对VC进行奇异值分解。当k=1时,偏见子空间只是一个偏见方向
Figure RE-GDA0003765727490000036
对偏见词集w′m、w′f,减去其在偏见子空间Bt上的投影,得到经过去除频率偏见和硬去偏的偏见词的向量表示
Figure RE-GDA0003765727490000037
之后,对两个偏见词集的词向量
Figure RE-GDA0003765727490000038
进行K-Means聚类,计算聚类准确度a。删除候选频率向量ui的去偏效果与聚类准确度a成反比,使聚类准确度a 取到最小值的候选频率向量uk
最后,处理全体词向量。先去除全体词向量的频率偏见w′:
Figure RE-GDA0003765727490000041
再对全体词向量进行硬去偏操作(如上所述),得到的
Figure RE-GDA0003765727490000042
即为输出的去偏词向量表示
Figure RE-GDA0003765727490000043
按上述过程反复操作,将每次的输出作为下一次去偏的输入,每次去除了一种偏见,最后得到减少了所有类型偏见(如性别、种族、宗教、年龄和性少数群体)的词向量表示。
步骤2:视觉多去偏。
本发明,将文本中的硬去偏方法迁移到图像特征表示上,并首次提出了“投影偏见”及其去除方法,如图2所示。此方法适用于所有现有偏见类型。
以两种视觉上最典型的偏见:性别偏见和年龄偏见为例,来具体说明。
具体地,步骤2包括以下步骤:
步骤2.1:提取图片特征。
将原始数据集的视频切分为帧并逐一输入图片,学习其特征(例如通过视觉预训练模型EfficientNet得到的特征),输出图片的特征向量
Figure RE-GDA00037657274900000413
步骤2.2:视觉硬去偏。
首先,选取n对包含针对特定类型视觉偏见(例如性别/年龄)的正-反样例对立图片对(例如“男人-女人”图片对为性别偏见正-反样例对立图片对),设为G1,G2,…,
Figure RE-GDA00037657274900000414
其中,E表示图片对集合,Gn表示第n个图片对。
设μi为第i个图片对的平均特征,
Figure RE-GDA0003765727490000044
Gi表示第i个图片对,
Figure RE-GDA0003765727490000045
表示Gi中每一个图片的特征向量。
视觉偏见子空间VB为SVD(VC)的前k行,取k=1,VB即为一个向量,表示为
Figure RE-GDA0003765727490000046
VC表示:
Figure RE-GDA0003765727490000047
其中,SVD表示奇异值分解,T表示转置操作。
然后,将图片特征修正至视觉偏见子空间,
Figure RE-GDA0003765727490000048
Figure RE-GDA0003765727490000049
其中
Figure RE-GDA00037657274900000410
表示向量
Figure RE-GDA00037657274900000411
在子空间VB上的投影。
由此得到了经视觉硬去偏的图片的特征向量
Figure RE-GDA00037657274900000412
步骤2.3:投影去偏。
将步骤2.2得到的图像特征向量
Figure RE-GDA0003765727490000051
作为输入。
具体地,针对年龄和性别偏见,选取四组偏见图片,分别包括老年人V1、年轻人V2、男性V3、女性V4。计算四个偏见图片集的偏见子空间
Figure RE-GDA0003765727490000052
Figure RE-GDA0003765727490000053
其中K∈{1,2,3,4},
Figure RE-GDA0003765727490000054
VK表示偏见图片集,
Figure RE-GDA0003765727490000055
表示图片特征向量,T为转置操作,
Figure RE-GDA0003765727490000056
为外积操作。
然后,对于偏见图片集中的每一张图片对应的特征向量
Figure RE-GDA00037657274900000512
修正其在偏见子空间的投影偏见,得到去偏后的特征向量v′:
Figure RE-GDA0003765727490000057
Figure RE-GDA0003765727490000058
其中,×表示投影操作,K∈{1,2,3,4},
Figure RE-GDA0003765727490000059
表示偏见子空间。
步骤3:多模态对话情感识别。
将前两步的输出以及多模态数据集,作为文本模态和视觉模态的去偏数据表示。应用Transformer,利用去偏的上下文和多模态(文本和视觉)信息预测目标话语的情绪。因为它能够捕获上下文和快速计算。
本步骤中,使用外部情感知识丰富文本表示,使用上下文感知注意机制来有效地结合上下文信息,使用自注意力层和前馈子层进行多模态融合。
具体地,步骤3包括以下步骤:
步骤3.1:双模态编码层处理。
对于文本模态X,用步骤1中去偏的词向量代表每一句话Xi中的词ti。为了更好学习情感知识的影响,用一个情感向量表示每一句的情感特征
Figure RE-GDA00037657274900000510
对于视觉模态,将步骤2的结果按照对应顺序传入编码层,记为Uv
步骤3.2:情感知识注意力层处理。
引用外部情感知识(NRC_VAD,这个数据集对20,000个单词进行了情绪等级的标注,在“积极-消极”“激动-平静”“强烈-轻微”三个层面给出了0到1的赋值)。对于每句话Xi的单词
Figure RE-GDA00037657274900000511
有对应的分数。为了防止情感知识过度影响单词本身在语境中的情感,情感知识权重需乘以一个系数,例如0.5。
对于该句话的情感知识权重gi,由一个长短期记忆网络(LSTM)和线性层激活。注意力输出
Figure RE-GDA0003765727490000061
为:
Figure RE-GDA0003765727490000062
其中,
Figure RE-GDA0003765727490000063
表示词ti的词向量,
Figure RE-GDA0003765727490000064
表示句子的情感知识特征向量。
步骤3.3:多头自注意力层和前馈层处理。
多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权。
设输入为Ul、Ua,其中
Figure RE-GDA0003765727490000065
Ul代表文本向量,Ua代表图片特征向量。 Ui表示一段对话中的回复语,即最后一句,记为
Figure RE-GDA0003765727490000066
表示Ui的上下文,即Ui的前 M句话,其中n=j-1,…,j-M。经过多头自注意力层和前馈层学习后的向量表示为
Figure RE-GDA0003765727490000067
将全部
Figure RE-GDA00037657274900000613
拼接后,得到
Figure RE-GDA0003765727490000068
经过多头自注意力层和前馈层学习后,输出为Ci。上下文表示Ci和回复语
Figure RE-GDA0003765727490000069
经过学习后,其输出为Um1
则文本和视觉向量通过多头自注意力层和前馈层后的输出为(Um1,Um2), Um2即为Ua
步骤3.4:双模态交叉注意力层和前馈层处理。
双模态交叉注意力层和前馈层的结构如图3所示。为了交叉学习两模态的特征,将基于Transformer网络构建的(Qm2,Km1,Vm1)和(Qm1,Km2,Vm2)分别作为两个注意力层的输入。两个注意力层的输出为
Figure RE-GDA00037657274900000610
互相包含了对方模态的信息。
其中,Qm1、Qm2分别表示文本和图片模态的回复句向量,Km1、Km2分别表示文本和图片模态的上下文向量,Vm1、Vm2分别表示文本和图片模态的注意力权值。
Figure RE-GDA00037657274900000611
分别表示两个注意力层的输出。
步骤3.5:双模态融合层处理。
将步骤3.4得到的
Figure RE-GDA00037657274900000612
拼接输入多头自注意力层和前馈层,输出为 Zm1,m2,再通过归一化(softmax)求出每种情感的概率P,P= softmax(Zm1,m2W+b),其中W表示可学习的权重,b表示偏置量。
有益效果
本方法,和现有技术相比,具有以下优点:
在多模态对话情感识别任务中,本发明对数据集的文本和视觉模态数据应用了去偏方法。相比传统多模态对话情感识别方法,本方法更加注重特殊群体的感受,减少了社会偏见。相比现有的大多去偏方法只去除一种偏见,本发明一次去除了五种,关注的特殊群体更多更广泛。
同时,本方法进一步提出了图像的投影偏见及其去除方法和图像的硬去偏方法,相比传统的计算机视觉方法。占用运算资源更少。
附图说明
图1是基于多模态对话的情感识别任务的示例。
图2是基于投影偏见的图像去偏示意图。
图3是基于多模态多去偏的对话情感识别算法架构图。
图4是基于双模态交叉注意力层的架构图。
图5是基于多模态多去偏的对话情感识别算法应用效果图。
具体实施方式
下面结合附图和实施例对本发明进一步详细描述。
一种基于多模态多去偏的对话情感识别方法,包括以下步骤:
步骤1:文本多去偏。
本发明将已有的双硬去偏方法在性别偏见上的应用,进一步拓展至五种偏见,包括性别、种族、宗教、年龄和性少数群体。双硬去偏,是在硬去偏(即从原始的词向量中减去其在偏见子空间上的投影)的基础上去除了偏见词的词频对偏见效果去除的影响。
步骤1.1:输入总词集W的原始词向量
Figure RE-GDA0003765727490000071
这里的词向量表示通过GloVe词嵌入模型来获得。然后,计算总词集W的主成分,作为候选的频率向量{u1…ud},
Figure RE-GDA0003765727490000072
其中,w表示总词集W的一个单词,
Figure RE-GDA0003765727490000073
为单词w的向量表示,ud表示总词集W的主成分,PCA表示主成分分析操作,
Figure RE-GDA0003765727490000074
表示d维实数向量;d表示词向量的维度,通常可以取300。
步骤1.2:定义一对偏见对立词,偏见对立词是所属偏见类型的一对对立词,例如在性别偏见中“男人-女人”是一对偏见对立词,用余弦相似度计算总词集 W中的每一个词w与对立词的相关程度,可以各取前500个作为偏见词集Wm和 Wf
步骤1.3:对每个候选维度ui,分别重复以下步骤:
首先,将偏见词集Wm和Wf的词向量wm和wf投影到ui上,并从原词向量中减去,得到去除频率偏见的词向量w′m和w′f
Figure RE-GDA0003765727490000081
Figure RE-GDA0003765727490000082
其中,
Figure RE-GDA0003765727490000083
表示ui的转置向量。
然后,对修正的词向量w′m和w′f做硬去偏:先定义n对表示偏见差异的词对 D1,D2,…,
Figure RE-GDA00037657274900000819
Figure RE-GDA0003765727490000084
其中Di表示第i个词对,
Figure RE-GDA0003765727490000085
表示Di中每一个词语的特征向量。在此基础上构建VC:
Figure RE-GDA0003765727490000086
偏见子空间Bt为SVD(VC)的第一个矩阵前k个列向量。此处可以取k= 1。SVD(VC)表示对VC进行奇异值分解。当k=1时,偏见子空间只是一个偏见方向
Figure RE-GDA0003765727490000087
对偏见词集w′m和w′f,减去其在Bt上的投影:
Figure RE-GDA0003765727490000088
Figure RE-GDA0003765727490000089
其中,
Figure RE-GDA00037657274900000810
表示向量
Figure RE-GDA00037657274900000811
在子空间Bt上的投影。
之后,对选定的偏见词的词向量
Figure RE-GDA00037657274900000812
进行K-Means聚类,并计算聚类准确度:
Figure RE-GDA00037657274900000813
Figure RE-GDA00037657274900000814
其中,a表示聚类准确度,
Figure RE-GDA00037657274900000815
表示经过去除频率偏见的偏见词向量表示。
由于得到的a接近100%,意味着删除ui不能改善去偏性。因此,应选使a取到最小值的uk
最后,处理全体词向量。先去除全体词向量的频率偏见:
Figure RE-GDA00037657274900000816
再对全体词向量进行硬去偏操作(如上所述),得到的
Figure RE-GDA00037657274900000817
即为输出的去偏词向量
Figure RE-GDA00037657274900000818
按上述过程反复操作,将每次的输出作为下一次去偏的输入,即可逐一去除一种偏见,最后得到减少了所有偏见(性别、种族、宗教、年龄和性少数群体)的词向量表示。
步骤2:视觉多去偏。
步骤2.1:提取图片特征。
将原始数据集的视频切分为帧,每帧大小480×360,逐一输入图片,用EfficientNet学习其特征,输出图片特征向量
Figure RE-GDA0003765727490000091
表示d维实数向量,d表示特征向量的维度,一般取300。V表示原始数据集的特征向量集合。
步骤2.2:视觉硬去偏(Visual Hard Debias)。
首先,选取n对包含针对特定类型视觉偏见(例如性别/年龄)的正-反样例对立图片对(例如“男人-女人”图片对为性别偏见正-反样例对立图片对),设为G1,G2,…,
Figure RE-GDA00037657274900000915
其中,E表示图片对集合,Gn表示第n个图片对。
设μi为第i个图片对的平均特征,
Figure RE-GDA0003765727490000092
其中Gi表示第i个图片对,
Figure RE-GDA0003765727490000093
表示Gi中每一个图片的特征向量。
视觉偏见子空间VB为SVD(VC)的第一个矩阵的前k个列向量,此处取k= 1,VB即为一个向量,表示为
Figure RE-GDA0003765727490000094
其中VC表示:
Figure RE-GDA0003765727490000095
其中,SVD表示奇异值分解,T表示转置操作。
然后,将图片特征修正至视觉偏见子空间,修正后的图片特征向量为:
Figure RE-GDA0003765727490000096
表示图片特征向量
Figure RE-GDA0003765727490000097
在子空间VB上的投影,计算公式为:
Figure RE-GDA0003765727490000098
步骤2.3:投影去偏(Projection Debias)。
将步骤2.2得到的图像特征表示
Figure RE-GDA0003765727490000099
作为输入。
具体地,针对年龄和性别偏见,选取四组偏见图片,分别包括老年人V1、年轻人V2、男性V3、女性V4。计算四个偏见图片集的偏见子空间
Figure RE-GDA00037657274900000910
Figure RE-GDA00037657274900000911
其中K∈{1,2,3,4},
Figure RE-GDA00037657274900000912
VK表示偏见图片集,
Figure RE-GDA00037657274900000913
表示图片特征向量,T为转置操作,
Figure RE-GDA00037657274900000914
为外积操作。
然后,对于偏见图片集中的每一张图片对应的特征向量
Figure RE-GDA0003765727490000101
修正其在偏见子空间的投影偏见,得到去偏后的特征向量v′:
Figure RE-GDA0003765727490000102
Figure RE-GDA0003765727490000103
其中,×表示投影操作,K∈{1,2,3,4},
Figure RE-GDA0003765727490000104
表示偏见子空间。
步骤3:多模态对话情感识别。
这一步的输入为前两个步骤应用到多模态对话数据集的输出,作为文本模态和视觉模态的去偏数据。如图3所示,包括以下步骤:
步骤3.1:双模态编码层(Unimodal Encoder)处理。
双模态编码层对于文本模态X,用步骤1中去偏的词向量代表每一句话Xi中的词ti。为了更好学习情感知识的影响,用一个情感向量表示每一句的情感特征
Figure RE-GDA00037657274900001011
对于视觉模态,将上述步骤2的结果按照对应顺序传入编码层,记为Uv
步骤3.2:情感知识注意力层(Sentiment Attention)处理。
情感知识注意力层引用外部情感知识(NRC_VAD),这个数据集对2万个单词进行了情绪等级的标注,在“积极-消极”,“激动-平静”,“强烈-轻微”三个层面给出了0到1的赋值。
对于每句话Xi的单词
Figure RE-GDA0003765727490000105
有对应的分数[V(t1),V(t2),…V(tn)]。为了防止情感知识过度影响单词本身在语境中的情感,应将分数再乘以一个系数,如0.5。情感知识权重gi,由gi=σ(Wghi+bg)激活。其中,hi是长短期记忆(LSTM) 层的隐藏层输出,Wg是一个可学习的线性变换,bg是偏置量。因此,注意力输出
Figure RE-GDA0003765727490000106
为:
Figure RE-GDA0003765727490000107
其中,
Figure RE-GDA0003765727490000108
表示词ti的词向量,
Figure RE-GDA0003765727490000109
表示句子的情感知识特征向量。
步骤3.3:多头自注意力层和前馈层(Multi-Head Self-Attention&FF)处理。
多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权。
设输入为Ul、Ua,其中
Figure RE-GDA00037657274900001010
代表文本向量表示,Ua代表图片特征向量。Ui表示一段对话,记为
Figure RE-GDA0003765727490000111
表示Ui的上下文,即Ui的前M句话,其中n=j- 1,…,j-M。经过多头自注意力层和前馈层学习后的向量表示为
Figure RE-GDA0003765727490000112
Figure RE-GDA0003765727490000113
其中,
Figure RE-GDA0003765727490000114
Figure RE-GDA0003765727490000115
变换成h头,ds=d/h,L′将h头变换成1头。MH表示多头注意力层,FF表示前馈层:
Figure RE-GDA0003765727490000116
FF(x)=max(0,xW1+b1)W2+b2
其中,Q表示查询向量,K表示被查询信息与其他信息的相关性向量,V表示被查询信息的向量,x表示多头注意力层的输出,W1表示最大池化的权重,W2表示池化后的附加权重,b1表示最大池化的偏置量,b2表示池化后的附加偏置量。
将全部
Figure RE-GDA0003765727490000117
拼接后得到
Figure RE-GDA0003765727490000118
经过多头自注意力层和前馈层学习后,上下文的向量表示Ci为:
Figure RE-GDA0003765727490000119
其中,
Figure RE-GDA00037657274900001110
将Ui变换成4头,L′将4头变换成1头。MH表示多头注意力层, FF表示前馈层。
则文本和视觉向量通过多头自注意力层和前馈层后的输出为(Um1,Um2)。
步骤3.4:双模态交叉注意力层和前馈层处理。
双模态交叉注意力层和前馈层(Bimodal Cross Attention&FF)的结构如图4 所示。为了交叉学习两模态共有的特征,将(Qm2,Km1,Vm1)和(Qm1,Km2,Vm2) 分别作为多头交叉注意力层的输入,计算公式见式(1)。两个层的输出为
Figure RE-GDA00037657274900001111
互相包含了对方模态的信息。
其中,Qm1、Qm2分别表示文本和图片模态的回复句向量,Km1、Km2分别表示文本和图片模态的上下文向量,Vm1、Vm2分别表示文本和图片模态的注意力权值。
Figure RE-GDA00037657274900001112
分别表示两个注意力层的输出。
步骤3.5:双模态融合层处理。
将步骤3.4得到的
Figure RE-GDA00037657274900001113
拼接输入多头自注意力层和前馈层,回复句表示
Figure RE-GDA00037657274900001114
Figure RE-GDA0003765727490000121
其中,
Figure RE-GDA0003765727490000122
和L(Ci)将
Figure RE-GDA0003765727490000123
和Ci变换成4维,L′将4头变换成1维。
Figure RE-GDA0003765727490000124
表示Ui的第j句话(即最后一句话)的向量表示。
经过最大池化层输出为Zm1,m2,再通过归一化(softmax)求出每种情感的概率P:P=softmax(Zm1,m2W+b),其中W表示可学习的权重,b表示偏置量。
图5展示了应用去偏方法前后的聚类结果。使用K-Means聚类来验证去偏方法的有效性。
对于每种类型的偏见,计算词嵌入向量与偏见方向的余弦相似度,从大到小排序取前100/500/1000个,来获取原始预训练语言模型(GloVe)或视觉特征表示中最具有偏见的词嵌入向量或图像表示。
然后,将这些向量进行二分类并计算分类精度:准确率越高,词嵌入向量或图像表示中包含的偏见信息就越多。为了可视化分类结果,用分布随机邻域嵌入(tSNE)的方法使高维的词向量和图像表示投射在二维图像上,清晰地表现他们的聚集程度。绘制点越密集,偏见程度越大,绘制点越分散,偏见程度越低,如图5所示,经过去偏后,所有类型的偏见均显示了不同程度的下降。
以上所述为本发明的较佳实施例,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (2)

1.一种基于多模态多去偏见的对话情感识别方法,其特征在于,包括以下步骤:
步骤1:文本多去偏;
步骤1.1:输入总词集W的原始词向量
Figure RE-FDA0003765727480000011
这里的词向量表示可以通过GloVe词嵌入模型来获得;然后,计算总词集W的主成分,作为候选的频率向量{u1…ud},
Figure RE-FDA0003765727480000012
其中,w表示总词集W中的一个单词,
Figure RE-FDA0003765727480000013
为单词w的向量表示,ud表示总词集W的一个主成分;PCA表示主成分分析操作;
Figure RE-FDA0003765727480000014
表示d维实数向量;d表示词向量的维度;
步骤1.2:定义一对偏见对立词;
偏见对立词是所属偏见类型的一对对立词;采用余弦相似度,计算总词集W中的每一个单词w与偏见对立词的相关程度;根据需要,各取若干数量作为偏见词集Wm和Wf
步骤1.3:对每个候选频率向量ui,分别重复执行以下步骤:
首先,将偏见词集Wm和Wf的词向量wm和wf投影到候选频率向量ui上,并从原词向量中减去,得到去除频率偏见的词向量w′m和w′f;然后,对去除频率偏见的词向量w′m和w′f进行硬去偏;
定义n对表示偏见差异的词对
Figure RE-FDA0003765727480000015
Figure RE-FDA0003765727480000016
μi表示第i个图片对的平均特征,Di表示第i个词对,v表示Di中的每一个词语,
Figure RE-FDA0003765727480000017
表示Di中每一个词语的特征向量;在此基础上,构建所有偏见词对向量表示的正交表示VC:
Figure RE-FDA0003765727480000018
其中,T表示转置操作;
偏见子空间Bt为SVD(VC)的第一个矩阵前k个列向量;其中,SVD(VC)表示对VC进行奇异值分解;
对偏见词集w′m、w′f,减去其在偏见子空间Bt上的投影,得到经过去除频率偏见和硬去偏的偏见词的向量表示
Figure RE-FDA0003765727480000019
之后,对两个偏见词集的词向量
Figure RE-FDA00037657274800000110
进行K-Means聚类,计算聚类准确度a;删除候选频率向量ui的去偏效果与聚类准确度a成反比,使聚类准确度a取到最小值的候选频率向量uk
最后,处理全体词向量;先去除全体词向量的频率偏见w′:
Figure RE-FDA0003765727480000021
再对全体词向量进行硬去偏操作,得到的
Figure RE-FDA0003765727480000022
即为输出的去偏词向量表示
Figure RE-FDA0003765727480000023
Figure RE-FDA0003765727480000024
按上述过程反复操作,将每次的输出作为下一次去偏的输入,每次去除了一种偏见,最后得到减少了所有类型偏见的词向量表示;
步骤2:视觉多去偏;
步骤2.1:提取图片特征;
将原始数据集的视频切分为帧并逐一输入图片,学习其特征,输出图片的特征向量
Figure RE-FDA0003765727480000025
步骤2.2:视觉硬去偏;
首先,选取n对包含针对特定类型视觉偏见的正-反样例对立图片对,设为
Figure RE-FDA0003765727480000026
其中,E表示图片对集合,Gn表示第n个图片对;
设μi为第i个图片对的平均特征,
Figure RE-FDA0003765727480000027
Gi表示第i个图片对,
Figure RE-FDA0003765727480000028
表示Gi中每一个图片的特征向量;
视觉偏见子空间VB为SVD(VC)的前k行,取k=1,VB即为一个向量,表示为
Figure RE-FDA0003765727480000029
VC表示:
Figure RE-FDA00037657274800000210
其中,SVD表示奇异值分解,T表示转置操作;
然后,将图片特征修正至视觉偏见子空间,
Figure RE-FDA00037657274800000211
Figure RE-FDA00037657274800000212
其中
Figure RE-FDA00037657274800000213
表示向量
Figure RE-FDA00037657274800000214
在子空间VB上的投影;
由此得到了经视觉硬去偏的图片的特征向量
Figure RE-FDA00037657274800000215
步骤2.3:投影去偏;
将步骤2.2得到的图像特征向量
Figure RE-FDA00037657274800000216
作为输入;
针对年龄和性别偏见,选取四组偏见图片,分别包括老年人V1、年轻人V2、男性V3、女性V4;计算四个偏见图片集的偏见子空间
Figure RE-FDA00037657274800000217
Figure RE-FDA0003765727480000031
其中K∈{1,2,3,4},
Figure RE-FDA0003765727480000032
VK表示偏见图片集,
Figure RE-FDA0003765727480000033
表示图片特征向量,T为转置操作,
Figure RE-FDA0003765727480000034
为外积操作;
然后,对于偏见图片集中的每一张图片对应的特征向量
Figure RE-FDA0003765727480000035
修正其在偏见子空间的投影偏见,得到去偏后的特征向量v′:
Figure RE-FDA0003765727480000036
Figure RE-FDA0003765727480000037
其中,×表示投影操作,K∈{1,2,3,4},
Figure RE-FDA0003765727480000038
表示偏见子空间;
步骤3:多模态对话情感识别;
将前两步的输出以及多模态数据集,作为文本模态和视觉模态的去偏数据表示;利用去偏的上下文和多模态信息预测目标话语的情绪;
使用外部情感知识丰富文本表示,使用上下文感知注意机制来有效地结合上下文信息,使用自注意力层和前馈子层进行多模态融合。
2.如权利要求1所述的一种基于多模态多去偏见的对话情感识别方法,其特征在于,步骤3包括以下步骤:
步骤3.1:双模态编码层处理;
对于文本模态X,用步骤1中去偏的词向量代表每一句话Xi中的词ti
用一个情感向量表示每一句的情感特征
Figure RE-FDA0003765727480000039
对于视觉模态,将步骤2的结果按照对应顺序传入编码层,记为Uv
步骤3.2:情感知识注意力层处理;
引用外部情感知识,对于每句话Xi的单词
Figure RE-FDA00037657274800000310
有对应的分数;为了防止情感知识过度影响单词本身在语境中的情感,情感知识权重需乘以一个系数;
对于该句话的情感知识权重gi,由一个长短期记忆网络LSTM和线性层激活;注意力输出
Figure RE-FDA00037657274800000311
为:
Figure RE-FDA00037657274800000312
其中,
Figure RE-FDA00037657274800000313
表示词ti的词向量,
Figure RE-FDA00037657274800000314
表示句子的情感知识特征向量;
步骤3.3:多头自注意力层和前馈层处理;
多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权;
设输入为Ul、Ua,其中
Figure RE-FDA0003765727480000041
Ul代表文本向量,Ua代表图片特征向量;Ui表示一段对话中的回复语,即最后一句,记为
Figure RE-FDA0003765727480000042
表示Ui的上下文,即Ui的前M句话,其中n=j-1,…,j-M;经过多头自注意力层和前馈层学习后的向量表示为
Figure RE-FDA0003765727480000043
将全部
Figure RE-FDA0003765727480000044
拼接后,得到
Figure RE-FDA0003765727480000045
Figure RE-FDA0003765727480000046
经过多头自注意力层和前馈层学习后,输出为Ci;上下文表示Ci和回复语
Figure RE-FDA0003765727480000047
经过学习后,其输出为Um1
则文本和视觉向量通过多头自注意力层和前馈层后的输出为(Um1,Um2),Um2即为Ua
步骤3.4:双模态交叉注意力层和前馈层处理;
将基于Transformer网络构建的(Qm2,Km1,Vm1)和(Qm1,Km2,Vm2)分别作为两个注意力层的输入;两个注意力层的输出为
Figure RE-FDA0003765727480000048
互相包含了对方模态的信息;
其中,Qm1、Qm2分别表示文本和图片模态的回复句向量,Km1、Km2分别表示文本和图片模态的上下文向量,Vm1、Vm2分别表示文本和图片模态的注意力权值;
Figure RE-FDA0003765727480000049
分别表示两个注意力层的输出;
步骤3.5:双模态融合层处理;
将步骤3.4得到的
Figure RE-FDA00037657274800000410
拼接输入多头自注意力层和前馈层,输出为Zm1,m2,再通过归一化(softmax)求出每种情感的概率P,P=softmax(Zm1,m2W+b),其中W表示可学习的权重,b表示偏置量。
CN202210435577.XA 2022-04-24 2022-04-24 一种基于多模态多去偏见的对话情感识别方法 Active CN115017900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210435577.XA CN115017900B (zh) 2022-04-24 2022-04-24 一种基于多模态多去偏见的对话情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210435577.XA CN115017900B (zh) 2022-04-24 2022-04-24 一种基于多模态多去偏见的对话情感识别方法

Publications (2)

Publication Number Publication Date
CN115017900A true CN115017900A (zh) 2022-09-06
CN115017900B CN115017900B (zh) 2024-05-10

Family

ID=83068089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210435577.XA Active CN115017900B (zh) 2022-04-24 2022-04-24 一种基于多模态多去偏见的对话情感识别方法

Country Status (1)

Country Link
CN (1) CN115017900B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982395A (zh) * 2023-03-20 2023-04-18 北京中科闻歌科技股份有限公司 一种基于量子的媒体信息的情感预测方法、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934341A (zh) * 2017-11-13 2019-06-25 埃森哲环球解决方案有限公司 训练、验证以及监测人工智能和机器学习的模型
CN111753044A (zh) * 2020-06-29 2020-10-09 浙江工业大学 一种基于正则化的去社会偏见的语言模型及应用
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
KR102365433B1 (ko) * 2020-10-23 2022-02-21 서울대학교산학협력단 교차 어텐션 모델 기반 감정 인식 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934341A (zh) * 2017-11-13 2019-06-25 埃森哲环球解决方案有限公司 训练、验证以及监测人工智能和机器学习的模型
CN111753044A (zh) * 2020-06-29 2020-10-09 浙江工业大学 一种基于正则化的去社会偏见的语言模型及应用
KR102365433B1 (ko) * 2020-10-23 2022-02-21 서울대학교산학협력단 교차 어텐션 모델 기반 감정 인식 방법 및 장치
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张新生;高腾;: "多头注意力记忆网络的对象级情感分类", 模式识别与人工智能, no. 11, 15 November 2019 (2019-11-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982395A (zh) * 2023-03-20 2023-04-18 北京中科闻歌科技股份有限公司 一种基于量子的媒体信息的情感预测方法、介质及设备
CN115982395B (zh) * 2023-03-20 2023-05-23 北京中科闻歌科技股份有限公司 一种基于量子的媒体信息的情感预测方法、介质及设备

Also Published As

Publication number Publication date
CN115017900B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
JP6951712B2 (ja) 対話装置、対話システム、対話方法、およびプログラム
Yu et al. On the integration of grounding language and learning objects
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
US11900518B2 (en) Interactive systems and methods
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN110942108B (zh) 人脸图像聚类方法、装置及计算机可读存储介质
CN115329779A (zh) 一种多人对话情感识别方法
CN111949824A (zh) 基于语义对齐的视觉问答方法和系统、存储介质
WO2021003813A1 (zh) 基于神经网络模型的答案生成方法及相关设备
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN111966824B (zh) 一种基于情感相似度注意力机制的文本情感识别方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN115017900B (zh) 一种基于多模态多去偏见的对话情感识别方法
CN111950592B (zh) 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN112541541A (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法
CN116884072A (zh) 一种基于多层级和多尺度注意机制的面部表情识别方法
Gao et al. Chinese fingerspelling sign language recognition using a nine-layer convolutional neural network
CN111222343A (zh) 一种意图识别方法和意图识别装置
CN116109980A (zh) 一种基于视频文本匹配的动作识别方法
Yang et al. Multi-intent text classification using dual channel convolutional neural network
Almana et al. Real-time Arabic Sign Language Recognition using CNN and OpenCV
CN114020917A (zh) 基于自注意力机制与卷积神经网络的新闻文本分类方法
CN116050391B (zh) 基于细分行业纠错词表的语音识别纠错方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant