CN115017900B - 一种基于多模态多去偏见的对话情感识别方法 - Google Patents
一种基于多模态多去偏见的对话情感识别方法 Download PDFInfo
- Publication number
- CN115017900B CN115017900B CN202210435577.XA CN202210435577A CN115017900B CN 115017900 B CN115017900 B CN 115017900B CN 202210435577 A CN202210435577 A CN 202210435577A CN 115017900 B CN115017900 B CN 115017900B
- Authority
- CN
- China
- Prior art keywords
- bias
- word
- vector
- picture
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 146
- 230000000007 visual effect Effects 0.000 claims abstract description 49
- 230000002999 depolarising effect Effects 0.000 claims abstract description 5
- 230000008451 emotion Effects 0.000 claims description 45
- 230000028161 membrane depolarization Effects 0.000 claims description 30
- 230000002902 bimodal effect Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000001568 sexual effect Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 241000347889 Debia Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多模态多去偏见的对话情感识别方法,属于自然语言处理技术领域。对于文本模态,本发明提出了去除五种类型的偏见,包括词向量表示中的性别、年龄、种族、宗教和性少数群体偏见。同时,本发明将文本去偏方法扩展到视觉模态,并着重去除两类最为典型的视觉偏见:性别和种族偏见。本发明进一步提出了一种基于子空间投影的去偏方法,该方法为每种类型的视觉偏见构建一个子空间,并通过将每个视觉信息对象的特征向量表示投影到相应的子空间来代表视觉表示中的所存在的该种类型的偏见,进而将其去除。相比传统多模态对话情感识别方法,本方法更加注重特殊群体的感受,减少了社会偏见。相比现有的大多去偏方法只去除一种偏见,本发明一次去除了五种,关注的特殊群体更多更广泛。
Description
技术领域
本发明涉及一种对话情感识别方法,具体涉及一种基于多模态多去偏见的对话情感识别方法,属于自然语言处理技术领域。
背景技术
随着自然语言处理技术的快速发展,多模态对话情感识别任务逐渐成为学术界和工业界的研究热点。
多模态,是指算法使用的数据包含文本、视觉、声音中的两种或三种模态,在自然语言处理任务中需要提取不同模态中独特的信息和模态间关联的信息。对话情感识别是一个分类任务,旨在对输入的一段连续对话进行分类,输出这段对话中每句话的情感。如图1所示,情感识别任务将每句话都打上了“开心”“中立”“惊喜”等标签。这个任务有很多应用,比如在人机对话中,使机器在理解内容的基础上,学习人类的面部表情、语音语调和文字信息,更加关注人类的情感,进行更深入的交流。
人类的语言中充满了无数隐含的偏见和刻板印象,存在于几乎所有数据中,例如新闻、电影和谈话等。这种偏见会伤害特定群体,从而损害他们的权利,例如,“老年人对数字技术不感兴趣”,或者“女性苗条很讨人喜欢”。研究表明,预训练语言模型会学习并强化数据中隐藏的偏见,这种偏见在与人类感受高度相关的对话情感识别任务中更加明显。
鉴于人类情感的表达是多模态的,人类偏见也存在于多模态对话中,例如文本和视觉模态。图1显示了多模态对话数据集中的性别偏见示例:乔伊想到一个漂亮的女护士,当瑞秋说“可爱的护士”时,他露出了微笑,但当瑞秋说“他们是男护士”时,他表现出一脸失望的表情,尽管他的文字反应似乎是中性的。如图1所示,下划线中的句子“可爱的护士”对应的情感是开心,而“男护士”对应的情感是中立,图中人物的表情也体现了这种情感的转变。研究还表明,除了性别偏见和种族偏见,常见的还有年龄偏见、宗教偏见和性少数群体偏见等。为了提倡平等与公平,越来越多的研究者呼吁要减轻甚至去除数据中的偏见。如何去偏见,成为了热门研究课题。
对于去偏见的方法,目前大部分的研究只局限于一种模态,如视觉或文本。在多模态问题上不够充分。此外,现有的去偏模型大多只关注去除一种偏见,如性别或种族。对于多种类的去偏见研究很少,在多模态对话情感识别中,仍然是一项未解决的问题。
发明内容
本发明的目的是针对现有技术存在的不足和缺陷,为了解决在多模态对话情感识别任务中有效去除多类偏见的技术问题,创新性地提出一种基于多模态多去偏见的对话情感识别方法。本方法综合了文本多去偏技术、视觉多去偏技术,以及多模态对话情感识别技术。
本发明的创新点在于:对于文本模态,本发明能够去除至少五种类型的偏见,包括词向量表示中的性别、年龄、种族、宗教和性少数群体偏见。对于视觉模态,将文本去偏方法扩展到视觉表示,并着重去除两种最为典型的视觉偏见:性别偏见和种族偏见。
对于视觉模态的去偏,本发明进一步提出了一种基于子空间投影的去偏方法。该方法为每种类型的偏见构建一个视觉偏见子空间,并通过将视觉表示 (一般为视觉特征向量表示)投影到相应的视觉偏见子空间来代表视觉表示中所存在的该类型的偏见,进而从视觉表示中将该偏见去除。
本发明采用以下技术方案实现。
一种基于多模态多去偏见的对话情感识别方法,包括以下步骤:
步骤1:文本多去偏。
本发明将已有的双硬去偏方法在性别偏见上的应用,进一步拓展至五种偏见,包括性别、种族、宗教、年龄和性少数群体。
所述双硬去偏,是在硬去偏(即从原始的词向量中减去其在偏见子空间上的投影)的基础上,去除了偏见词的词频对偏见效果去除的影响。
具体地,步骤1包括以下步骤:
步骤1.1:输入总词集W的原始词向量这里的词向量表示可以通过GloVe词嵌入模型来获得。然后,计算总词集W的主成分,作为候选的频率向量{u1…ud},
其中,w表示总词集W中的一个单词,为单词w的向量表示,ud表示总词集W的一个主成分;PCA表示主成分分析操作;/>表示d维实数向量;d表示词向量的维度,其值通常可以取300。
步骤1.2:定义一对偏见对立词。
偏见对立词是所属偏见类型的一对对立词。例如,在性别偏见中,“男人- 女人”是一对偏见对立词。
采用余弦相似度,计算总词集W中的每一个单词w与偏见对立词的相关程度。根据需要,各取若干数量(如前500个、前700个、前1000个均可)作为偏见词集Wm和Wf。
步骤1.3:对每个候选频率向量ui,分别重复执行以下步骤:
首先,将偏见词集Wm和Wf的词向量wm和wf投影到候选频率向量ui上,并从原词向量中减去,得到去除频率偏见的词向量w′m和w′f。然后,对去除频率偏见的词向量w′m和w′f进行硬去偏。
定义n对表示偏见差异的词对D1,D2,…,令/>μi表示第i个图片对的平均特征,Di表示第i个词对,v表示Di中的每一个词语,/>表示Di中每一个词语的特征向量。在此基础上,构建所有偏见词对向量表示的正交表示VC:
其中,T表示转置操作。
偏见子空间Bt为SVD(VC)的第一个矩阵前k个列向量,此处可以取k= 1。其中,SVD(VC)表示对VC进行奇异值分解。当k=1时,偏见子空间只是一个偏见方向
对偏见词集w′m、w′f,减去其在偏见子空间Bt上的投影,得到经过去除频率偏见和硬去偏的偏见词的向量表示
之后,对两个偏见词集的词向量进行K-Means聚类,计算聚类准确度a。删除候选频率向量ui的去偏效果与聚类准确度a成反比,使聚类准确度a 取到最小值的候选频率向量uk。
最后,处理全体词向量。先去除全体词向量的频率偏见w′:
再对全体词向量进行硬去偏操作(如上所述),得到的即为输出的去偏词向量表示/>
按上述过程反复操作,将每次的输出作为下一次去偏的输入,每次去除了一种偏见,最后得到减少了所有类型偏见(如性别、种族、宗教、年龄和性少数群体)的词向量表示。
步骤2:视觉多去偏。
本发明,将文本中的硬去偏方法迁移到图像特征表示上,并首次提出了“投影偏见”及其去除方法,如图2所示。此方法适用于所有现有偏见类型。
以两种视觉上最典型的偏见:性别偏见和年龄偏见为例,来具体说明。
具体地,步骤2包括以下步骤:
步骤2.1:提取图片特征。
将原始数据集的视频切分为帧并逐一输入图片,学习其特征(例如通过视觉预训练模型EfficientNet得到的特征),输出图片的特征向量
步骤2.2:视觉硬去偏。
首先,选取n对包含针对特定类型视觉偏见(例如性别/年龄)的正-反样例对立图片对(例如“男人-女人”图片对为性别偏见正-反样例对立图片对),设为G1,G2,…,其中,E表示图片对集合,Gn表示第n个图片对。
设μi为第i个图片对的平均特征,Gi表示第i个图片对,/>表示Gi中每一个图片的特征向量。
视觉偏见子空间VB为SVD(VC)的前k行,取k=1,VB即为一个向量,表示为VC表示:
其中,SVD表示奇异值分解,T表示转置操作。
然后,将图片特征修正至视觉偏见子空间, 其中/>表示向量/>在子空间VB上的投影。
由此得到了经视觉硬去偏的图片的特征向量
步骤2.3:投影去偏。
将步骤2.2得到的图像特征向量作为输入。
具体地,针对年龄和性别偏见,选取四组偏见图片,分别包括老年人V1、年轻人V2、男性V3、女性V4。计算四个偏见图片集的偏见子空间
其中K∈{1,2,3,4},VK表示偏见图片集,/>表示图片特征向量,T为转置操作,/>为外积操作。
然后,对于偏见图片集中的每一张图片对应的特征向量修正其在偏见子空间的投影偏见,得到去偏后的特征向量v′:
其中,×表示投影操作,K∈{1,2,3,4},表示偏见子空间。
步骤3:多模态对话情感识别。
将前两步的输出以及多模态数据集,作为文本模态和视觉模态的去偏数据表示。应用Transformer,利用去偏的上下文和多模态(文本和视觉)信息预测目标话语的情绪。因为它能够捕获上下文和快速计算。
本步骤中,使用外部情感知识丰富文本表示,使用上下文感知注意机制来有效地结合上下文信息,使用自注意力层和前馈子层进行多模态融合。
具体地,步骤3包括以下步骤:
步骤3.1:双模态编码层处理。
对于文本模态X,用步骤1中去偏的词向量代表每一句话Xi中的词ti。为了更好学习情感知识的影响,用一个情感向量表示每一句的情感特征
对于视觉模态,将步骤2的结果按照对应顺序传入编码层,记为Uv。
步骤3.2:情感知识注意力层处理。
引用外部情感知识(NRC_VAD,这个数据集对20,000个单词进行了情绪等级的标注,在“积极-消极”“激动-平静”“强烈-轻微”三个层面给出了0到1的赋值)。对于每句话Xi的单词有对应的分数。为了防止情感知识过度影响单词本身在语境中的情感,情感知识权重需乘以一个系数,例如0.5。
对于该句话的情感知识权重gi,由一个长短期记忆网络(LSTM)和线性层激活。注意力输出为:/>其中,/>表示词ti的词向量,/>表示句子的情感知识特征向量。
步骤3.3:多头自注意力层和前馈层处理。
多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权。
设输入为Ul、Ua,其中Ul代表文本向量,Ua代表图片特征向量。 Ui表示一段对话中的回复语,即最后一句,记为/>表示Ui的上下文,即Ui的前 M句话,其中n=j-1,…,j-M。经过多头自注意力层和前馈层学习后的向量表示为/>
将全部拼接后,得到/>经过多头自注意力层和前馈层学习后,输出为Ci。上下文表示Ci和回复语/>经过学习后,其输出为Um1。
则文本和视觉向量通过多头自注意力层和前馈层后的输出为(Um1,Um2), Um2即为Ua。
步骤3.4:双模态交叉注意力层和前馈层处理。
双模态交叉注意力层和前馈层的结构如图3所示。为了交叉学习两模态的特征,将基于Transformer网络构建的(Qm2,Km1,Vm1)和(Qm1,Km2,Vm2)分别作为两个注意力层的输入。两个注意力层的输出为互相包含了对方模态的信息。
其中,Qm1、Qm2分别表示文本和图片模态的回复句向量,Km1、Km2分别表示文本和图片模态的上下文向量,Vm1、Vm2分别表示文本和图片模态的注意力权值。分别表示两个注意力层的输出。
步骤3.5:双模态融合层处理。
将步骤3.4得到的拼接输入多头自注意力层和前馈层,输出为 Zm1,m2,再通过归一化(softmax)求出每种情感的概率P,P= softmax(Zm1,m2W+b),其中W表示可学习的权重,b表示偏置量。
有益效果
本方法,和现有技术相比,具有以下优点:
在多模态对话情感识别任务中,本发明对数据集的文本和视觉模态数据应用了去偏方法。相比传统多模态对话情感识别方法,本方法更加注重特殊群体的感受,减少了社会偏见。相比现有的大多去偏方法只去除一种偏见,本发明一次去除了五种,关注的特殊群体更多更广泛。
同时,本方法进一步提出了图像的投影偏见及其去除方法和图像的硬去偏方法,相比传统的计算机视觉方法。占用运算资源更少。
附图说明
图1是基于多模态对话的情感识别任务的示例。
图2是基于投影偏见的图像去偏示意图。
图3是基于多模态多去偏的对话情感识别算法架构图。
图4是基于双模态交叉注意力层的架构图。
图5是基于多模态多去偏的对话情感识别算法应用效果图。
具体实施方式
下面结合附图和实施例对本发明进一步详细描述。
一种基于多模态多去偏的对话情感识别方法,包括以下步骤:
步骤1:文本多去偏。
本发明将已有的双硬去偏方法在性别偏见上的应用,进一步拓展至五种偏见,包括性别、种族、宗教、年龄和性少数群体。双硬去偏,是在硬去偏(即从原始的词向量中减去其在偏见子空间上的投影)的基础上去除了偏见词的词频对偏见效果去除的影响。
步骤1.1:输入总词集W的原始词向量这里的词向量表示通过GloVe词嵌入模型来获得。然后,计算总词集W的主成分,作为候选的频率向量{u1…ud},
其中,w表示总词集W的一个单词,为单词w的向量表示,ud表示总词集W的主成分,PCA表示主成分分析操作,/>表示d维实数向量;d表示词向量的维度,通常可以取300。
步骤1.2:定义一对偏见对立词,偏见对立词是所属偏见类型的一对对立词,例如在性别偏见中“男人-女人”是一对偏见对立词,用余弦相似度计算总词集 W中的每一个词w与对立词的相关程度,可以各取前500个作为偏见词集Wm和 Wf。
步骤1.3:对每个候选维度ui,分别重复以下步骤:
首先,将偏见词集Wm和Wf的词向量wm和wf投影到ui上,并从原词向量中减去,得到去除频率偏见的词向量w′m和w′f:
其中,表示ui的转置向量。
然后,对修正的词向量w′m和w′f做硬去偏:先定义n对表示偏见差异的词对 D1,D2,…,令/>其中Di表示第i个词对,/>表示Di中每一个词语的特征向量。在此基础上构建VC:
偏见子空间Bt为SVD(VC)的第一个矩阵前k个列向量。此处可以取k= 1。SVD(VC)表示对VC进行奇异值分解。当k=1时,偏见子空间只是一个偏见方向
对偏见词集w′m和w′f,减去其在Bt上的投影:
其中,表示向量/>在子空间Bt上的投影。
之后,对选定的偏见词的词向量进行K-Means聚类,并计算聚类准确度:
其中,a表示聚类准确度,表示经过去除频率偏见的偏见词向量表示。
由于得到的a接近100%,意味着删除ui不能改善去偏性。因此,应选使a取到最小值的uk。
最后,处理全体词向量。先去除全体词向量的频率偏见:
再对全体词向量进行硬去偏操作(如上所述),得到的即为输出的去偏词向量
按上述过程反复操作,将每次的输出作为下一次去偏的输入,即可逐一去除一种偏见,最后得到减少了所有偏见(性别、种族、宗教、年龄和性少数群体)的词向量表示。
步骤2:视觉多去偏。
步骤2.1:提取图片特征。
将原始数据集的视频切分为帧,每帧大小480×360,逐一输入图片,用EfficientNet学习其特征,输出图片特征向量表示d维实数向量,d表示特征向量的维度,一般取300。V表示原始数据集的特征向量集合。
步骤2.2:视觉硬去偏(Visual Hard Debias)。
首先,选取n对包含针对特定类型视觉偏见(例如性别/年龄)的正-反样例对立图片对(例如“男人-女人”图片对为性别偏见正-反样例对立图片对),设为G1,G2,…,其中,E表示图片对集合,Gn表示第n个图片对。
设μi为第i个图片对的平均特征,其中Gi表示第i个图片对,/>表示Gi中每一个图片的特征向量。
视觉偏见子空间VB为SVD(VC)的第一个矩阵的前k个列向量,此处取k= 1,VB即为一个向量,表示为其中VC表示:
其中,SVD表示奇异值分解,T表示转置操作。
然后,将图片特征修正至视觉偏见子空间,修正后的图片特征向量为:表示图片特征向量/>在子空间VB上的投影,计算公式为:/>
步骤2.3:投影去偏(Projection Debias)。
将步骤2.2得到的图像特征表示作为输入。
具体地,针对年龄和性别偏见,选取四组偏见图片,分别包括老年人V1、年轻人V2、男性V3、女性V4。计算四个偏见图片集的偏见子空间
其中K∈{1,2,3,4},VK表示偏见图片集,/>表示图片特征向量,T为转置操作,/>为外积操作。
然后,对于偏见图片集中的每一张图片对应的特征向量修正其在偏见子空间的投影偏见,得到去偏后的特征向量v′:
其中,×表示投影操作,K∈{1,2,3,4},表示偏见子空间。
步骤3:多模态对话情感识别。
这一步的输入为前两个步骤应用到多模态对话数据集的输出,作为文本模态和视觉模态的去偏数据。如图3所示,包括以下步骤:
步骤3.1:双模态编码层(Unimodal Encoder)处理。
双模态编码层对于文本模态X,用步骤1中去偏的词向量代表每一句话Xi中的词ti。为了更好学习情感知识的影响,用一个情感向量表示每一句的情感特征
对于视觉模态,将上述步骤2的结果按照对应顺序传入编码层,记为Uv。
步骤3.2:情感知识注意力层(Sentiment Attention)处理。
情感知识注意力层引用外部情感知识(NRC_VAD),这个数据集对2万个单词进行了情绪等级的标注,在“积极-消极”,“激动-平静”,“强烈-轻微”三个层面给出了0到1的赋值。
对于每句话Xi的单词有对应的分数[V(t1),V(t2),…V(tn)]。为了防止情感知识过度影响单词本身在语境中的情感,应将分数再乘以一个系数,如0.5。情感知识权重gi,由gi=σ(Wghi+bg)激活。其中,hi是长短期记忆(LSTM) 层的隐藏层输出,Wg是一个可学习的线性变换,bg是偏置量。因此,注意力输出/>为:
其中,表示词ti的词向量,/>表示句子的情感知识特征向量。
步骤3.3:多头自注意力层和前馈层(Multi-Head Self-Attention&FF)处理。
多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权。
设输入为Ul、Ua,其中代表文本向量表示,Ua代表图片特征向量。Ui表示一段对话,记为/>表示Ui的上下文,即Ui的前M句话,其中n=j- 1,…,j-M。经过多头自注意力层和前馈层学习后的向量表示为/>
其中,将/>变换成h头,ds=d/h,L′将h头变换成1头。MH表示多头注意力层,FF表示前馈层:
FF(x)=max(0,xW1+b1)W2+b2。
其中,Q表示查询向量,K表示被查询信息与其他信息的相关性向量,V表示被查询信息的向量,x表示多头注意力层的输出,W1表示最大池化的权重,W2表示池化后的附加权重,b1表示最大池化的偏置量,b2表示池化后的附加偏置量。
将全部拼接后得到/>经过多头自注意力层和前馈层学习后,上下文的向量表示Ci为:
其中,将Ui变换成4头,L′将4头变换成1头。MH表示多头注意力层, FF表示前馈层。
则文本和视觉向量通过多头自注意力层和前馈层后的输出为(Um1,Um2)。
步骤3.4:双模态交叉注意力层和前馈层处理。
双模态交叉注意力层和前馈层(Bimodal Cross Attention&FF)的结构如图4 所示。为了交叉学习两模态共有的特征,将(Qm2,Km1,Vm1)和(Qm1,Km2,Vm2) 分别作为多头交叉注意力层的输入,计算公式见式(1)。两个层的输出为互相包含了对方模态的信息。
其中,Qm1、Qm2分别表示文本和图片模态的回复句向量,Km1、Km2分别表示文本和图片模态的上下文向量,Vm1、Vm2分别表示文本和图片模态的注意力权值。分别表示两个注意力层的输出。
步骤3.5:双模态融合层处理。
将步骤3.4得到的拼接输入多头自注意力层和前馈层,回复句表示
其中,和L(Ci)将/>和Ci变换成4维,L′将4头变换成1维。/>表示Ui的第j句话(即最后一句话)的向量表示。
经过最大池化层输出为Zm1,m2,再通过归一化(softmax)求出每种情感的概率P:P=softmax(Zm1,m2W+b),其中W表示可学习的权重,b表示偏置量。
图5展示了应用去偏方法前后的聚类结果。使用K-Means聚类来验证去偏方法的有效性。
对于每种类型的偏见,计算词嵌入向量与偏见方向的余弦相似度,从大到小排序取前100/500/1000个,来获取原始预训练语言模型(GloVe)或视觉特征表示中最具有偏见的词嵌入向量或图像表示。
然后,将这些向量进行二分类并计算分类精度:准确率越高,词嵌入向量或图像表示中包含的偏见信息就越多。为了可视化分类结果,用分布随机邻域嵌入(tSNE)的方法使高维的词向量和图像表示投射在二维图像上,清晰地表现他们的聚集程度。绘制点越密集,偏见程度越大,绘制点越分散,偏见程度越低,如图5所示,经过去偏后,所有类型的偏见均显示了不同程度的下降。
以上所述为本发明的较佳实施例,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (2)
1.一种基于多模态多去偏见的对话情感识别方法,其特征在于,包括以下步骤:
步骤1:文本多去偏;
步骤1.1:输入总词集W的原始词向量这里的词向量表示可以通过GloVe词嵌入模型来获得;然后,计算总词集W的主成分,作为候选的频率向量{u1…ud},
其中,w表示总词集W中的一个单词,为单词w的向量表示,ud表示总词集W的一个主成分;PCA表示主成分分析操作;/>表示d维实数向量;d表示词向量的维度;
步骤1.2:定义一对偏见对立词;
偏见对立词是所属偏见类型的一对对立词;采用余弦相似度,计算总词集W中的每一个单词w与偏见对立词的相关程度;根据需要,各取若干数量作为偏见词集Wm和Wf;
步骤1.3:对每个候选频率向量ui,分别重复执行以下步骤:
首先,将偏见词集Wm和Wf的词向量wm和wf投影到候选频率向量ui上,并从原词向量中减去,得到去除频率偏见的词向量w′m和w′f;然后,对去除频率偏见的词向量w′m和w′f进行硬去偏;
定义n对表示偏见差异的词对令/>μi表示第i个图片对的平均特征,Di表示第i个词对,v表示Di中的每一个词语,/>表示Di中每一个词语的特征向量;在此基础上,构建所有偏见词对向量表示的正交表示VC:
其中,T表示转置操作;
偏见子空间Bt为SVD(VC)的第一个矩阵前k个列向量;其中,SVD(VC)表示对VC进行奇异值分解;
对偏见词集w′m、w′f,减去其在偏见子空间Bt上的投影,得到经过去除频率偏见和硬去偏的偏见词的向量表示
之后,对两个偏见词集的词向量进行K-Means聚类,计算聚类准确度a;删除候选频率向量ui的去偏效果与聚类准确度a成反比,使聚类准确度a取到最小值的候选频率向量uk;
最后,处理全体词向量;先去除全体词向量的频率偏见w′:
再对全体词向量进行硬去偏操作,得到的即为输出的去偏词向量表示/>
按上述过程反复操作,将每次的输出作为下一次去偏的输入,每次去除了一种偏见,最后得到减少了所有类型偏见的词向量表示;
步骤2:视觉多去偏;
步骤2.1:提取图片特征;
将原始数据集的视频切分为帧并逐一输入图片,学习其特征,输出图片的特征向量
步骤2.2:视觉硬去偏;
首先,选取n对包含针对特定类型视觉偏见的正-反样例对立图片对,设为其中,E表示图片对集合,Gn表示第n个图片对;
设μi为第i个图片对的平均特征,Gi表示第i个图片对,/>表示Gi中每一个图片的特征向量;
视觉偏见子空间VB为SVD(VC)的前k行,取k=1,VB即为一个向量,表示为VC表示:
其中,SVD表示奇异值分解,T表示转置操作;
然后,将图片特征修正至视觉偏见子空间, 其中表示向量/>在子空间VB上的投影;
由此得到了经视觉硬去偏的图片的特征向量
步骤2.3:投影去偏;
将步骤2.2得到的图像特征向量作为输入;
针对年龄和性别偏见,选取四组偏见图片,分别包括老年人V1、年轻人V2、男性V3、女性V4;计算四个偏见图片集的偏见子空间
其中K∈{1,2,3,4},VK表示偏见图片集,/>表示图片特征向量,T为转置操作,为外积操作;
然后,对于偏见图片集中的每一张图片对应的特征向量修正其在偏见子空间的投影偏见,得到去偏后的特征向量v′:
其中,×表示投影操作,K∈{1,2,3,4},表示偏见子空间;
步骤3:多模态对话情感识别;
将前两步的输出以及多模态数据集,作为文本模态和视觉模态的去偏数据表示;利用去偏的上下文和多模态信息预测目标话语的情绪;
使用外部情感知识丰富文本表示,使用上下文感知注意机制来有效地结合上下文信息,使用自注意力层和前馈子层进行多模态融合。
2.如权利要求1所述的一种基于多模态多去偏见的对话情感识别方法,其特征在于,步骤3包括以下步骤:
步骤3.1:双模态编码层处理;
对于文本模态X,用步骤1中去偏的词向量代表每一句话Xi中的词ti;
用一个情感向量表示每一句的情感特征
对于视觉模态,将步骤2的结果按照对应顺序传入编码层,记为Uv;
步骤3.2:情感知识注意力层处理;
引用外部情感知识,对于每句话Xi的单词有对应的分数;为了防止情感知识过度影响单词本身在语境中的情感,情感知识权重需乘以一个系数;
对于该句话的情感知识权重gi,由一个长短期记忆网络LSTM和线性层激活;注意力输出为:/>其中,/>表示词ti的词向量,/>表示句子的情感知识特征向量;
步骤3.3:多头自注意力层和前馈层处理;
多头自注意力层和前馈层通过上下文和回答句的相似度计算出权重来进行平均加权;
设输入为Ul、Ua,其中Ul代表文本向量,Ua代表图片特征向量;Ui表示一段对话中的回复语,即最后一句,记为/>表示Ui的上下文,即Ui的前M句话,其中n=j-1,…,j-M;经过多头自注意力层和前馈层学习后的向量表示为/>
将全部拼接后,得到/> 经过多头自注意力层和前馈层学习后,输出为Ci;上下文表示Ci和回复语/>经过学习后,其输出为Um1;
则文本和视觉向量通过多头自注意力层和前馈层后的输出为(Um1,Um2),Um2即为Ua;
步骤3.4:双模态交叉注意力层和前馈层处理;
将基于Transformer网络构建的(Qm2,Km1,Vm1)和(Qm1,Km2,Vm2)分别作为两个注意力层的输入;两个注意力层的输出为互相包含了对方模态的信息;
其中,Qm1、Qm2分别表示文本和图片模态的回复句向量,Km1、Km2分别表示文本和图片模态的上下文向量,Vm1、Vm2分别表示文本和图片模态的注意力权值;分别表示两个注意力层的输出;
步骤3.5:双模态融合层处理;
将步骤3.4得到的拼接输入多头自注意力层和前馈层,输出为Zm1,m2,再通过归一化(softmax)求出每种情感的概率P,P=softmax(Zm1,m2W+b),其中W表示可学习的权重,b表示偏置量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210435577.XA CN115017900B (zh) | 2022-04-24 | 2022-04-24 | 一种基于多模态多去偏见的对话情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210435577.XA CN115017900B (zh) | 2022-04-24 | 2022-04-24 | 一种基于多模态多去偏见的对话情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115017900A CN115017900A (zh) | 2022-09-06 |
CN115017900B true CN115017900B (zh) | 2024-05-10 |
Family
ID=83068089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210435577.XA Active CN115017900B (zh) | 2022-04-24 | 2022-04-24 | 一种基于多模态多去偏见的对话情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017900B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982395B (zh) * | 2023-03-20 | 2023-05-23 | 北京中科闻歌科技股份有限公司 | 一种基于量子的媒体信息的情感预测方法、介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934341A (zh) * | 2017-11-13 | 2019-06-25 | 埃森哲环球解决方案有限公司 | 训练、验证以及监测人工智能和机器学习的模型 |
CN111753044A (zh) * | 2020-06-29 | 2020-10-09 | 浙江工业大学 | 一种基于正则化的去社会偏见的语言模型及应用 |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112651448A (zh) * | 2020-12-29 | 2021-04-13 | 中山大学 | 一种面向社交平台表情包的多模态情感分析方法 |
CN113255755A (zh) * | 2021-05-18 | 2021-08-13 | 北京理工大学 | 一种基于异质融合网络的多模态情感分类方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
KR102365433B1 (ko) * | 2020-10-23 | 2022-02-21 | 서울대학교산학협력단 | 교차 어텐션 모델 기반 감정 인식 방법 및 장치 |
-
2022
- 2022-04-24 CN CN202210435577.XA patent/CN115017900B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934341A (zh) * | 2017-11-13 | 2019-06-25 | 埃森哲环球解决方案有限公司 | 训练、验证以及监测人工智能和机器学习的模型 |
CN111753044A (zh) * | 2020-06-29 | 2020-10-09 | 浙江工业大学 | 一种基于正则化的去社会偏见的语言模型及应用 |
KR102365433B1 (ko) * | 2020-10-23 | 2022-02-21 | 서울대학교산학협력단 | 교차 어텐션 모델 기반 감정 인식 방법 및 장치 |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112651448A (zh) * | 2020-12-29 | 2021-04-13 | 中山大学 | 一种面向社交平台表情包的多模态情感分析方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113255755A (zh) * | 2021-05-18 | 2021-08-13 | 北京理工大学 | 一种基于异质融合网络的多模态情感分类方法 |
Non-Patent Citations (1)
Title |
---|
多头注意力记忆网络的对象级情感分类;张新生;高腾;;模式识别与人工智能;20191115(第11期) * |
Also Published As
Publication number | Publication date |
---|---|
CN115017900A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
JP7407968B2 (ja) | 音声認識方法、装置、設備及び記憶媒体 | |
CN111275401B (zh) | 一种基于位置关系的智能面试方法及系统 | |
CN111898670B (zh) | 多模态情感识别方法、装置、设备及存储介质 | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
GB2581943A (en) | Interactive systems and methods | |
CN113065344A (zh) | 一种基于迁移学习和注意力机制的跨语料库情感识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN111782788A (zh) | 一种面向开放域对话系统的情感回复自动生成方法 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN110569869A (zh) | 一种用于多模态情绪检测的特征级融合方法 | |
CN111966824B (zh) | 一种基于情感相似度注意力机制的文本情感识别方法 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN114417097A (zh) | 一种基于时间卷积与自注意力的情感预测方法及系统 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN115017900B (zh) | 一种基于多模态多去偏见的对话情感识别方法 | |
CN114742047A (zh) | 基于最大概率填充和多头注意力机制的文本情感识别方法 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN111222854A (zh) | 基于面试机器人的面试方法、装置、设备及存储介质 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
Chharia et al. | Deep recurrent architecture based scene description generator for visually impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |