CN114154587A - 一种基于互补内容感知的多模态事件检测方法 - Google Patents

一种基于互补内容感知的多模态事件检测方法 Download PDF

Info

Publication number
CN114154587A
CN114154587A CN202111503622.2A CN202111503622A CN114154587A CN 114154587 A CN114154587 A CN 114154587A CN 202111503622 A CN202111503622 A CN 202111503622A CN 114154587 A CN114154587 A CN 114154587A
Authority
CN
China
Prior art keywords
modal
event detection
text
image
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111503622.2A
Other languages
English (en)
Other versions
CN114154587B (zh
Inventor
李伟欣
李建凯
王蕴红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111503622.2A priority Critical patent/CN114154587B/zh
Priority claimed from CN202111503622.2A external-priority patent/CN114154587B/zh
Publication of CN114154587A publication Critical patent/CN114154587A/zh
Application granted granted Critical
Publication of CN114154587B publication Critical patent/CN114154587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及多模态处理技术领域,提供了一种基于互补内容感知的多模态事件检测方法。该方法包括:将经过预处理的包括图像和文本的多模态数据集,随机划分成训练集和验证集;采用图像编码器和文本编码器提取图像和文本的特征,构建多模态图结构;基于多模态图结构,构建多模态事件检测模型;通过多模态事件检测模型损失函数和反向传播算法训练多模态事件检测;将多模态图结构输入至目标多模态事件检测模型,获得多模态事件检测结果。本发明的方案,拓展了多模态事件检测的思路,提高了事件检测的效果,弥补了复杂多模态关系建模不充分的缺陷。

Description

一种基于互补内容感知的多模态事件检测方法
技术领域
本发明涉及多模态处理技术领域,尤其涉及一种基于互补内容感知的多模态事件检测方法。
背景技术
多模态事件检测是指从连续的语料库(例如社交媒体)中自动识别已知事件或未知事件的过程。对于给定的图像和文本,多模态事件检测通过联合挖掘其包含的内容,检测数据所属的事件。由于多模态事件检测可以及时在互联网数据中发现新事件,所以其在应对和处理紧急事件,自动化处理和归类热点新闻以方便人们分析和查阅等方面至关重要。
传统的事件检测技术主要包括基于概率图的文本事件检测方法,基于早期特征拼接和晚期投票的多模态融合方法。基于概率图的文本事件检测方法较为依赖单词频率的统计,忽略了单词之间的联系并且不适用于同时包含图像和文本的数据。基于早期特征拼接的多模态融合方法主要依赖特征提取器对输入的图像和文本特征提取,然后将得到的特征向量拼接后送入指定的分类器判断其所属事件类别。而基于晚期投票的多模态融合方法则是先分别对输入的图像和文本分类,然后综合考虑两者的预测结果,采用投票的方法决定多模态数据所属的事件类别。以上两类基于多模态融合的方法较为简单,没有考虑多模态数据之间的语义联系,所以并不能有效地挖掘多模态的互补信息检测事件。
近年来,深度学习在事件检测领域展现了令人惊喜的前景。亓帆等人于2020年提出一种多模态编码器,将图像和文本编码到同一特征空间,并施加模态内的约束,使隶属同一事件的数据在特征空间内更紧凑。然而,由于缺少对图像和文本语义的建模,这些基于将多模态特征映射到相同空间的方法无法有效利用图像和文本的互补语义检测事件。MahdiAbavisani等人于2020年提出一种基于跨模态注意力的模型,通过抑制模态间负面信息的传递,保留模态间互补信息的方式融合图像和文本数据以检测事件,证明对跨模态的互补语义建模能够有效地识别出图像和文本语义互补的事件。但是这种仅基于多模态融合的方法忽略了同模态之间上下文的信息。在多组多模态数据中,不同组多模态数据对同一个事件描述的视角和内容各不相同,利用这些多视角描述的内容能够得到事件更精确的表示。更具有挑战性的是,在多模态数据中,图像和文本并不总是成对出现,一段文字对应多张图像和一张图像对应多段文本的情况时有发生,而基于深度学习的方法仅针对成对的图像和文本数据建模,并未对多张图像对应多段文字的情况进行研究,无法应对实际场景中图像和文本多对多关系的需求。
因此,挖掘图像和文本的互补信息,引入同模态的上下文和对图像和文本多对多的关联建模能够有效提升多模态事件检测的性能。
发明内容
有鉴于此,本发明提供了一种基于互补内容感知的多模态事件检测方法,以解决现有技术中没有考虑多模态数据之间的语义联系,不能有效地挖掘多模态的互补信息检测事件的问题。
本发明提供了一种基于互补内容感知的多模态事件检测方法,包括:
S1将经过预处理的包括图像和文本的多模态数据集,随机划分成训练集和验证集;
S2基于所述训练集和验证集,采用图像编码器和文本编码器提取图像和文本的特征,构建多模态图结构;
S3基于所述多模态图结构,构建多模态事件检测模型;
S4通过所述多模态事件检测模型的损失函数和反向传播算法训练所述多模态事件检测模型,获得目标多模态事件检测模型;
S5将所述多模态图结构输入至所述目标多模态事件检测模型,获得多模态事件检测结果。
进一步地,所述S2,包括:
基于所述训练集和验证集,采用图像编码器和文本编码器提取图像和文本的特征;
将每个图像或文本看作节点,通过同模态特征之间的相似程度及K近邻算法构建同模态连接的边,通过所述图像和文本之间同时出现的关联关系构建跨模态连接的边;
基于所述同模态连接的边和所述跨模态连接的边,构建多模态图结构。
进一步地,所述S3,包括:
基于所述多模态图结构,上下文建模部分利用预先构建的所述同模态连接的边连接,并提取同模态数据之间的上下文信息,对多模态图中的数据给予同模态的信息补充;
基于所述多模态图结构,跨模态互补信息传播部分利用预先构建的跨模态连接的边连接,并提取互补的跨模态语义信息,对所述多模态图中的数据给予跨模态的信息补充;
基于所述多模态图中的数据给予同模态的信息补充、所述多模态图中的数据给予跨模态的信息补充构成所述多模态事件检测模型。
进一步地,所述上下文建模部分上下文建模部分的构建,包括:
通道注意力模块接收节点特征和所述上下文信息,并计算所述节点特征和所述上下文信息每个通道之间的注意力;
通过对所述节点特征和所述上下文信息的每个通道的注意力打分,获得所述节点特征和所述上下文信息融合特征的结果,并基于所述节点特征和所述上下文信息融合特征的结果,构建所述上下文建模部分;
所述上下文信息和所述上下文信息每个通道之间的注意力的计算式分别如下:
Scontextual=AH
Figure BDA0003403249560000041
其中,A表示图像或者是文本的单模态图的邻接矩阵,H表示所拥有节点
对应的特征矩阵,
Figure BDA0003403249560000042
表示节点特征和上下文信息每个通道之间的注意力,
Figure BDA0003403249560000043
是节点特征,
Figure BDA0003403249560000044
是上下文特征,σ表示Sigmoid激活函数,W1和W2表示维度映射操作,
Figure BDA0003403249560000045
表示偏置向量。
进一步地,所述跨模态互补信息传播部分的构建,包括:
设定基于所述节点特征计算,获得所述同模态的两个节点之间的相似度;
基于所述节点特征的传播,获得跨模态节点之间相似度的传播,并基于所述跨模态节点之间相似度的传播,构建所述跨模态互补信息传播部分。
进一步地,所述上下文信息和所述节点融合特征的结果的计算式如下:
Figure BDA0003403249560000046
其中,
Figure BDA0003403249560000047
通道注意力模块接收节点特征,y表示输入上下文信息,W1和W2表示维度映射操作,
Figure BDA0003403249560000048
是偏置向量,
Figure BDA0003403249560000049
表示融合特征的结果,⊙表示逐元素乘法。
进一步地,所述跨模态互补信息传播部分的构建,包括:
设定基于所述节点特征计算,获得所述同模态的两个节点之间的相似度;
基于所述节点特征的传播,获得跨模态节点之间相似度的传播,并基于所述跨模态节点之间相似度的传播,构建所述跨模态互补信息传播部分。
进一步地,所述跨模态节点之间相似度的传播的近似表达式如下:
Figure BDA00034032495600000410
Figure BDA00034032495600000411
Figure BDA00034032495600000412
Figure BDA0003403249560000051
其中,
Figure BDA0003403249560000052
代表图像模态中第i个节点的特征,
Figure BDA0003403249560000053
表示文本模态中第j个节点的特征,⊙表示逐元素乘法,
Figure BDA0003403249560000054
Figure BDA0003403249560000055
表示相似度传播的参数,Wα,1,Wα,2,
Figure BDA0003403249560000056
Wβ,1,Wβ,2,
Figure BDA0003403249560000057
表示可学习的参数,zi,x和z′j,y是矩阵Z和ZT的第(i,x)和第(j,y)个元素,矩阵
Figure BDA0003403249560000058
表示图像到文本的联系矩阵,
Figure BDA0003403249560000059
为Z的转置表示文本到图像的联系矩阵,l表示相似度传播迭代的次数,起始值为1,
Figure BDA00034032495600000510
Figure BDA00034032495600000511
分别表示第x个文本数据和第y个图像数据在第l-1轮迭代的表示。zi,x和z′j,y分别表示关联矩阵Z的第(i,x)个元素和ZT的第(j,y)个元素,若(i,x)或(j,y)相关联,则其值为1,否则为0。
进一步地,所述S4,包括:
设置模型损失函数,采用反向传播算法,迭代更新优化多模态事件检测模型参数;
采用所述训练集训练多模态事件检测模型,直至所述多模态事件检测模型在所述验证集的损失区域收敛时,获得目标多模态事件检测模型。
进一步地,所述模型损失函数,采用的是交叉熵损失函数。
进一步地,所述交叉熵损失函数,同时计算图像和文本预测结果与目标结果之间的损失以及所述图像和文本预测结果与目标结果之间的损失平均值,其中,损失平均值的计算式如下:
Figure BDA00034032495600000512
Figure BDA00034032495600000513
Figure BDA00034032495600000514
其中,N表示图像或文本的个数,yic表示第i个图像数据的标签,当第i个图像数据标签为c时,yic为1,否则yic为0,M为标签的个数,pic为多模态事件检测方法预测第i个图像数据标签为c的置信度;yjc表示第j个文本数据的标签,当第j个文本数据标签为c时,yjc为1,否则yjc为0,M为标签的个数,pjc为多模态事件检测方法预测第j个文本数据标签为c的置信度;
Figure BDA0003403249560000061
Figure BDA0003403249560000062
分别为图像,文本和多模态事件检测方法的损失。
本发明与现有技术相比存在的有益效果是:
1.本发明提出了基于互补内容感知的多模态事件检测方法,弥补了现有算法对跨模态和上下文互补信息建模不充分的缺陷,拓展了多模态事件检测的思路。
2.本发明提出基于通道注意力的图神经网络建模同模态的上下文信息,这使得图像或文本能够从其同模态的其他数据中获得上下文信息的补充,提高了事件检测的效果。
3.本发明提出了一种基于深度学习的信息传播机制,用于处理图像和文本一对多、多对多的情况,弥补了现有算法对于复杂多模态关系建模不充分的缺陷,适用范围更广。
附图说明
为了更清楚地说明本发明中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明提供的一种基于互补内容感知的多模态事件检测方法的流程图;
图2是本发明提供的构建多模态图结构的流程图;
图3是本发明提供的获得目标多模态事件检测模型的流程图;
图4为基于互补内容感知的多模态事件检测方法流程示意图;
图5是本发明提供的构建多模态结构过程示意图;
图6是本发明提供的模型架构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
下面将结合附图详细说明根据本发明的一种基于互补内容感知的多模态事件检测方法。
图1是本发明公开提供的一种基于互补内容感知的多模态事件检测方法的流程图。
如图1所示,该多模态时间检测方法包括:
S1,将经过预处理的包括图像和文本的多模态数据集,随机划分成训练集和验证集。
将数据集中图像和文本进行预处理,并将包含图像和文本经过预处理的数据集随机分为训练集和验证集。本发明选取多模态事件检测Twitter数据集和多模态事件检测Flicker数据集为验证集。选取上述两个数据集是基于其数据规模大,覆盖全的特点。
S2,基于训练集和验证集,采用图像编码器和文本编码器提取图像和文本的特征,构建多模态图结构。
图2是本发明实施例提供的构建多模态图结构的流程图。
如图2所示,S2包括:
S21,基于训练集和验证集,采用图像编码器和文本编码器提取图像和文本的特征;
S22,将每个图像或文本看作节点,通过同模态特征之间的相似程度及K近邻算法构建同模态连接的边,通过图像和文本之间同时出现的关联关系构建跨模态连接的边;
将每个图像或文本看作节点,S22中同模态连接通过余弦相似度估计样本之间的相似程度,通过K近邻算法选择每个节点相似程度最大的K个同模态内的节点构建同模态连接的边。
S23,基于同模态连接的边和跨模态连接的边,构建多模态图结构。
S3,基于多模态图结构,构建多模态事件检测模型。
基于多模态图结构,上下文建模部分利用预先构建的同模态连接的边连接,并提取同模态数据之间的上下文信息,对多模态图中的数据给予同模态的信息补充。
S31,上下文建模部分的构建,包括:
通道注意力模块接收节点特征和上下文信息,并计算节点特征和上下文信息每个通道之间的注意力;
通过对节点特征和上下文信息的每个通道的注意力打分,获得节点特征和上下文信息融合特征的结果,并基于节点特征和上下文信息融合特征的结果,构建上下文建模部分。
上下文建模部分上下文信息的计算式与节点特征和上下文信息每个通道之间的注意力的计算式分别如下:
Scontextual=AH
Figure BDA0003403249560000081
其中,A表示图像或者是文本的单模态图的邻接矩阵,H所拥有节点对应的特征矩阵,
Figure BDA0003403249560000082
表示节点特征和上下文信息每个通道之间的注意力,
Figure BDA0003403249560000083
是节点特征,
Figure BDA0003403249560000084
是上下文特征,σ表示Sigmoid激活函数,W1和W2表示维度映射操作,
Figure BDA0003403249560000085
表示偏置向量。
上下文信息和节点融合特征的结果的计算式如下:
Figure BDA0003403249560000091
其中,
Figure BDA0003403249560000092
通道注意力模块接收节点特征,
Figure BDA0003403249560000093
表示输入上下文信息,W1和W2表示维度映射操作,
Figure BDA0003403249560000094
是偏置向量,
Figure BDA0003403249560000095
表示融合特征的结果,⊙表示逐元素乘法。
S32,基于多模态图结构,跨模态互补信息传播部分利用预先构建的跨模态连接的边连接,并提取互补的跨模态语义信息,对多模态图中的数据给予跨模态的信息补充;
跨模态互补信息传播部分的构建,包括:
设定基于节点特征计算,获得同模态的两个节点之间的相似度;
基于节点特征的传播,获得跨模态节点之间相似度的传播,并基于跨模态节点之间相似度的传播,构建跨模态互补信息传播部分。
跨模态的跨模态互补信息传播部分用于提取跨模态语义信息,并建模多对多的图像与文本之间的关系。该部分是传统相似度传播到深度学习领域的拓展。对于输入的图像和文本模态的相似度矩阵
Figure BDA0003403249560000096
Figure BDA0003403249560000097
传统相似度传播通过图像和文本之间的关联矩阵传递模态内的相似度信息并迭代l次,这使同模态内相似的节点在另一模态内更相似,在同模态不相似的节点在另一模态的相似度距离更远。其具体公式如下:
P(l)=αP(0)+(1-α)λZQ(l-1)ZT,
Q(l)=βQ(0)+(1-β)λZTP(l-1)Z,
这里
Figure BDA0003403249560000098
表示图像到文本的关联矩阵,
Figure BDA0003403249560000099
为Z的转置表示文本到图像的关联矩阵,α,β和γ为相似度传播的参数。
此处使用矩阵内元素替换原始方程中P,Q可更好地观察每个相似度的变化。注意,l代表相似度传播的迭代次数,这意味着两个节点之间的相似度仅取决于距离最大l步的节点。此处可通过堆叠多个下述等式获得与传统相似度传播一致的结果:
Figure BDA0003403249560000101
Figure BDA0003403249560000102
其中,pi,j是矩阵P的第(i,j)个元素,qi,j是矩阵Q的第(i,j)个元素。同理,zi,x和z′i,x是矩阵Z和ZT的第(i,x)个元素。此处假设同一模态的两个节点之间的相似度可由其特征计算得出。由此,相似度的传播可推广为节点特征的传播。
跨模态节点之间相似度的传播的近似表达式如下:
Figure BDA0003403249560000103
Figure BDA0003403249560000104
Figure BDA0003403249560000105
Figure BDA0003403249560000106
其中,
Figure BDA0003403249560000107
代表图像模态中第i个节点的特征,
Figure BDA0003403249560000108
表示文本模态中第j个节点的特征,⊙表示逐元素乘法,
Figure BDA0003403249560000109
Figure BDA00034032495600001010
表示相似度传播的参数,Wα,1,Wα,2,
Figure BDA00034032495600001011
Wβ,1,Wβ,2,
Figure BDA00034032495600001012
表示可学习的参数,zi,x和z′j,y是矩阵Z和ZT的第(i,x)和第(j,y)个元素,矩阵
Figure BDA00034032495600001013
表示图像到文本的联系矩阵,
Figure BDA00034032495600001014
为Z的转置表示文本到图像的联系矩阵,l表示相似度传播迭代的次数,起始值为1。
Figure BDA00034032495600001015
Figure BDA00034032495600001016
分别表示第x个文本数据和第y个图像数据在第l-1轮迭代的表示。zi,x和z′j,y分别表示关联矩阵Z的第(i,x)个元素和ZT的第(j,y)个元素,若(i,x)或(j,y)相关联,则其值为1,否则为0。
为了防止训练过程中的梯度消失或梯度爆炸现象,此处使用动态的Mean Pooling取代λ。由此,相似度传播的深度拓展版可以通过交替堆叠上式和激活函数构建。本发明使用门控模块计算
Figure BDA0003403249560000111
Figure BDA0003403249560000112
防止传递跨模态的噪声,保持图像和文本特征传递的互补性。
S33,基于多模态图中的数据给予同模态的信息补充、多模态图中的数据给予跨模态的信息补充构成多模态事件检测模型。
S4,通过多模态事件检测模型的损失函数和反向传播算法训练多模态事件检测模型,获得目标多模态事件检测模型。
图3是本发明提供的获得目标多模态事件检测模型的流程图。
如图3所示,S3包括:
S41,设置模型损失函数,采用反向传播算法,迭代更新优化多模态事件检测模型参数。
其中,模型损失函数,采用的是交叉熵损失函数。
交叉熵损失函数,会同时计算图像和文本预测结果与目标结果之间的损失以及图像和文本预测结果与目标结果之间的损失平均值,其中,损失平均值的计算式如下:
Figure BDA0003403249560000113
Figure BDA0003403249560000114
Figure BDA0003403249560000115
其中,N表示图像或文本的个数,yic表示第i个图像数据的标签,当第i个图像数据标签为c时,yic为1,否则yic为0,M为标签的个数,pic为多模态事件检测方法预测第i个图像数据标签为c的置信度;yjc表示第j个文本数据的标签,当第j个文本数据标签为c时,yjc为1,否则yjc为0,M为标签的个数,pjc为多模态事件检测方法预测第j个文本数据标签为c的置信度;
Figure BDA0003403249560000116
Figure BDA0003403249560000117
分别为图像,文本和多模态事件检测方法的损失。
S42,采用训练集训练多模态事件检测模型,直至多模态事件检测模型在验证集的损失区域收敛时,获得目标多模态事件检测模型。
S5,将多模态图结构输入至目标多模态事件检测模型,获得多模态事件检测结果。
将待测试和评估的多模态数据依照步骤S1和S2构建多模态图,将得到的多模态图结构输入到训练所得模型中,模型输出结果即为多模态事件检测结果。
模型训练完成,进行多模态事件检测以验证模型性能,预处理用于测试的图像和文本对并构建多模态图结构,然后将多模态图结构输入训练所得模型中,通过优化迭代之后,模型共训练完成设定数量的轮数,最终报告在测试集表现最好的模型的结果,即获得多模态事件检测结果。
实施例1
本发明的一种具体实施方式如下,一种基于互补内容感知的多模态事件检测方法,其步骤为:
图4为基于互补内容感知的多模态事件检测方法流程示意图。
1.数据集准备。完成数据集选取,数据预处理和数据划分。
1.1本实例选取多模态事件检测Twitter数据集(CrisisMMD)和多模态事件检测Flicker数据集(SED2014)为验证发明的事件检测数据集。
1.2数据预处理包括对图像增强,图像归一化和文本单词处理。具体地,图像增强包括调整大小、随机反转和随机裁剪等,本实例选取调整图像大小为256×256像素和50%概率随机水平反转两种增强方式。文本单词处理包括对大写字母小写化,替换文本中的网页链接为单词“link”。
1.3数据划分依据各数据集给定的标准划分。对于SED2014数据集,随机选取167,020对图像文本用于训练,32,7070对图像文本用于验证,32,799用于测试。对于CrisisMMD数据集,其包含两个多模态事件检测任务:Informativeness任务和HumanitarianCategorization任务。这些任务包含多种设定:
(1)设定A,数据集中只包含图像和文本对,且它们属于相同的事件,用于验证本发明在处理成对的多模态数据中的性能。此设定下Informativeness任务有7,876对图像文本用于训练,553对图像文本用于验证,2,821对图像文本用于测试;此设定下HumanitarianCategorization任务有1,352对图像文本用于训练,540对图像文本用于验证,1,467对图像文本用于测试。
(2)设定A+是在设定A基础上的拓展,用于验证本发明在处理图像和文本拥有复杂对应关系时的性能。此设定仅放宽了图像和文本的对应关系,即允许出现一段文本对应多张图像的情况。在此设定下,Informativeness任务有7,876段文本和8,785张图像用于训练,553段文本和601张图像用于验证,2,821段文本和3,163张图像用于测试;此设定下Humanitarian Categorization任务有1,352段文本和1,485张图像用于训练,540段文本和584张图像用于验证,1,467段文本和1,612张图像用于测试。
(3)设定B放宽了设定A中成对图像文本必须属于相同事件的限制,用于验证本发明在处理不一致的图像和文本数据的性能。此设定下Informativeness任务有12,680对图像文本用于训练,533对图像文本用于验证,2,821对图像文本用于测试。
(4)设定B+同样是在设定B基础上的拓展,同样放宽了图像和文本的对应关系。在此设定下,Informativeness任务有12,680段文本和14,310张图像用于训练,553段文本和626张图片用于验证,2,821段文本和3,161张图像用于测试。
2.构建多模态图结构。完成数据特征提取,建立节点的同模态关联和跨模态关联。
2.1数据集特征提取依据各数据集给定的标准提取。对于CrisisMMD数据集,使用在其训练集微调的DenseNet161和BERT分别提取图像特征和文本特征;对于SED2014数据集,使用预训练的DenseNet161和GloVe模型分别提取图像特征和文本特征。
2.2节点的同模态关联使用余弦相似度和K近邻的算法建立。具体建立方法已在发明内容中讨论,这里不再赘述。对于CrisisMMD数据集中的Informativeness任务,K设置为20;对于Humanitarian Categorization任务,K设置为15。对于SED2014数据集,K设置为15。
2.3跨模态关联使用原始图像和文本间关系建立。在CrisisMMD数据集中,存在一段文本对应多张图像的情况,此处建立文本和图像一对多的关联;在SED数据集中,文本和图像成对出现,此处建立文本和图像对应的关联。
图5是本发明实施例提供的构建多模态结构过程示意图。
3.设计多模态事件检测模型。如图5所示,多模态事件检测模型交替使用基于通道注意力的上下文建模部分和跨模态跨模态互补信息传播部分。具体的模型设计已在发明内容中讨论,这里不再赘述。
图6是本发明实施例提供的模型架构示意图。
4.设计模型训练损失,训练多模态事件检测模型。采用交叉熵损失对模型训练进行约束。具体的约束设计已在发明内容中讨论,这里不再赘述。采用反向传播算法更新优化网络参数权重,直至模型损失区域收敛。在本实例中,图像修复模型训练和评估均在Pytorch平台完成。模型被训练在单个NVIDIA GTX1080TI GPU(11GB),batch size设置为32。使用学习率为2×10-3的Adam优化器优化网络,模型共训练300轮,最终报告在测试集表现最好模型的结果。
5.模型训练完成,进行多模态事件检测,将构建好的多模态图结构输入训练所得模型中,模型输出结果即为检测结果。其中SED2014数据集的准确率为68.58%,Macro-F1为59.39,Weighted-F1为68.24。在CrisisMMD数据集中,模型在Informativeness任务的设定A准确率为90.93%,Macro-F1为89.63%,Weighted-F1为90.92%;设定A+准确率为91.17%,Macro-F1为89.87%,Weighted-F1为91.15%;设定B在图像上的准确率为83.55%,Macro-F1为83.41%,Weighted-F1为83.55%,在文本上的准去率为84.19%,Macro-F1为79.54%,Weighted-F1为84.05%;;设定B+在图像上的准确率为83.87%,Macro-F1为83.78%,Weighted-F1为83.90%,在文本上的准确率为84.62%,Macro-F1为79.67%,Weighted-F1为84.31%。模型在Humanitarian Categorization任务的设定A准确率为92.03%,Macro-F1为80.01%,Weighted-F1为91.93%;设定A+准确率为92.50%,Macro-F1为82.04%,Weighted-F1为92.38%。结果显示,利用本发明可以有效地完成多模态事件检测任务,且在图像和文本一对一,一对多的情况下表现良好。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于互补内容感知的多模态事件检测方法,其特征在于,包括:
S1将经过预处理的包括图像和文本的多模态数据集,随机划分成训练集和验证集;
S2基于所述训练集和验证集,采用图像编码器和文本编码器提取图像和文本的特征,构建多模态图结构;
S3基于所述多模态图结构,构建多模态事件检测模型;
S4通过所述多模态事件检测模型的损失函数和反向传播算法训练所述多模态事件检测模型,获得目标多模态事件检测模型;
S5将所述多模态图结构输入至所述目标多模态事件检测模型,获得多模态事件检测结果。
2.根据权利要求1所述的多模态事件检测方法,其特征在于,所述S2,包括:
基于所述训练集和验证集,采用图像编码器和文本编码器提取图像和文本的特征;
将每个图像或文本看作节点,通过同模态特征之间的相似程度及K近邻算法构建同模态连接的边,通过所述图像和文本之间同时出现的关联关系构建跨模态连接的边;
基于所述同模态连接的边和所述跨模态连接的边,构建多模态图结构。
3.根据权利要求1所述的多模态事件检测方法,其特征在于,所述S3,包括:
基于所述多模态图结构,上下文建模部分部分利用预先构建的所述同模态连接的边连接,并提取同模态数据之间的上下文信息,对多模态图中的数据给予同模态的信息补充;
基于所述多模态图结构,跨模态互补信息传播部分利用预先构建的跨模态连接的边连接,并提取互补的跨模态语义信息,对所述多模态图中的数据给予跨模态的信息补充;
基于所述多模态图中的数据给予同模态的信息补充、所述多模态图中的数据给予跨模态的信息补充构成所述多模态事件检测模型。
4.根据权利要求3所述的多模态事件检测方法,其特征在于,所述上下文建模部分的构建,包括:
通道注意力模块接收节点特征和所述上下文信息,并计算所述节点特征和所述上下文信息每个通道之间的注意力;
通过对所述节点特征和所述上下文信息的每个通道的注意力打分,获得所述节点特征和所述上下文信息融合特征的结果,并基于所述节点特征和所述上下文信息融合特征的结果,构建所述上下文建模部分;
所述上下文信息和所述上下文信息每个通道之间的注意力的计算式分别如下:
Scontextual=AH
Figure FDA0003403249550000021
其中,A表示图像或者是文本的单模态图的邻接矩阵,H表示所拥有节点对应的特征矩阵,
Figure FDA0003403249550000022
表示节点特征和上下文信息每个通道之间的注意力,
Figure FDA0003403249550000023
是节点特征,
Figure FDA0003403249550000024
是上下文特征,σ表示Sigmoid激活函数,W1和W2表示维度映射操作,
Figure FDA0003403249550000025
表示偏置向量。
5.根据权利要求3所述的多模态事件检测方法,其特征在于,所述跨模态互补信息传播部分的构建,包括:
设定基于所述节点特征计算,获得所述同模态的两个节点之间的相似度;
基于所述节点特征的传播,获得跨模态节点之间相似度的传播,并基于所述跨模态节点之间相似度的传播,构建所述跨模态互补信息传播部分。
6.根据权利要求4所述的多模态事件检测方法,其特征在于,所述上下文信息和所述节点融合特征的结果的计算式如下:
Figure FDA0003403249550000031
其中,
Figure FDA0003403249550000032
通道注意力模块接收节点特征,
Figure FDA0003403249550000033
表示输入上下文信息,W1和W2表示维度映射操作,
Figure FDA0003403249550000034
是偏置向量,
Figure FDA0003403249550000035
表示融合特征的结果,⊙表示逐元素乘法。
7.根据权利要求5所述的多模态事件检测方法,其特征在于,所述跨模态节点之间相似度的传播的近似表达式如下:
Figure FDA0003403249550000036
Figure FDA0003403249550000037
Figure FDA0003403249550000038
Figure FDA0003403249550000039
其中,
Figure FDA00034032495500000310
代表图像模态中第i个节点的特征,
Figure FDA00034032495500000311
表示文本模态中第j个节点的特征,⊙表示逐元素乘法,
Figure FDA00034032495500000312
Figure FDA00034032495500000313
表示相似度传播的参数,Wα,1,Wα,2
Figure FDA00034032495500000314
Wβ,1,Wβ,2
Figure FDA00034032495500000315
表示可学习的参数,zi,x和z′j,是矩阵Z和ZT的第(i,x)和第(j,y)个元素,矩阵
Figure FDA00034032495500000316
表示图像到文本的联系矩阵,
Figure FDA00034032495500000317
为Z的转置表示文本到图像的联系矩阵,l表示相似度传播迭代的次数,起始值为1,
Figure FDA00034032495500000318
Figure FDA00034032495500000319
分别表示第x个文本数据和第y个图像数据在第l-1轮迭代的表示。zi,x和z′j,y分别表示关联矩阵Z的第(i,x)个元素和ZT的第(j,y)个元素,若(i,x)或(j,y)相关联,则其值为1,否则为0。
8.根据权利要求1所述的多模态事件检测方法,其特征在于,所述S4,包括:
设置模型损失函数,采用反向传播算法,迭代更新优化多模态事件检测模型参数;
采用所述训练集训练多模态事件检测模型,直至所述多模态事件检测模型在所述验证集的损失区域收敛时,获得目标多模态事件检测模型。
9.根据权利要求8所述的多模态事件检测方法,其特征在于,所述模型损失函数,采用的是交叉熵损失函数。
10.根据权利要求9所述的多模态事件检测方法,其特征在于,所述交叉熵损失函数,同时计算图像和文本预测结果与目标结果之间的损失以及所述图像和文本预测结果与目标结果之间的损失平均值,其中,损失平均值的计算式如下:
Figure FDA0003403249550000041
Figure FDA0003403249550000042
Figure FDA0003403249550000043
其中,N表示图像或文本的个数,yic表示第i个图像数据的标签,当第i个图像数据标签为c时,yic为1,否则yic为0,M为标签的个数,pic为多模态事件检测方法预测第i个图像数据标签为c的置信度;yjc表示第j个文本数据的标签,当第j个文本数据标签为c时,yjc为1,否则yjc为0,M为标签的个数,pjc为多模态事件检测方法预测第j个文本数据标签为c的置信度;
Figure FDA0003403249550000044
Figure FDA0003403249550000045
分别为图像,文本和多模态事件检测方法的损失。
CN202111503622.2A 2021-12-10 一种基于互补内容感知的多模态事件检测方法 Active CN114154587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111503622.2A CN114154587B (zh) 2021-12-10 一种基于互补内容感知的多模态事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111503622.2A CN114154587B (zh) 2021-12-10 一种基于互补内容感知的多模态事件检测方法

Publications (2)

Publication Number Publication Date
CN114154587A true CN114154587A (zh) 2022-03-08
CN114154587B CN114154587B (zh) 2024-07-05

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417097A (zh) * 2020-11-19 2021-02-26 中国电子科技集团公司电子科学研究院 一种用于舆情解析的多模态数据特征提取与关联方法
CN112883229A (zh) * 2021-03-09 2021-06-01 中国科学院信息工程研究所 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN113094533A (zh) * 2021-04-07 2021-07-09 北京航空航天大学 一种基于混合粒度匹配的图文跨模态检索方法
US20210349954A1 (en) * 2020-04-14 2021-11-11 Naver Corporation System and method for performing cross-modal information retrieval using a neural network using learned rank images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210349954A1 (en) * 2020-04-14 2021-11-11 Naver Corporation System and method for performing cross-modal information retrieval using a neural network using learned rank images
CN112417097A (zh) * 2020-11-19 2021-02-26 中国电子科技集团公司电子科学研究院 一种用于舆情解析的多模态数据特征提取与关联方法
CN112883229A (zh) * 2021-03-09 2021-06-01 中国科学院信息工程研究所 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN113094533A (zh) * 2021-04-07 2021-07-09 北京航空航天大学 一种基于混合粒度匹配的图文跨模态检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAHDI ABAVISANI 等: "Multimodal Categorization of Crisis Events in Social Media", 《ARXIV:2004.04917V1》, 10 April 2020 (2020-04-10), pages 1 - 13 *

Similar Documents

Publication Publication Date Title
CN108921051B (zh) 基于循环神经网络注意力模型的行人属性识别网络及技术
CN108229444B (zh) 一种基于整体和局部深度特征融合的行人再识别方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
EP3889836A1 (en) Image description information generation method and device, and electronic device
US11748919B2 (en) Method of image reconstruction for cross-modal communication system and device thereof
CN108230278B (zh) 一种基于生成对抗网络的图像去雨滴方法
CN111291190B (zh) 一种编码器的训练方法、信息检测的方法以及相关装置
CN110929080A (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN109033321B (zh) 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN113642400A (zh) 基于2s-agcn的图卷积动作识别方法、装置及设备
JP2019153092A (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN115830596A (zh) 基于融合金字塔注意力的遥感图像语义分割方法
EP3832542A1 (en) Device and method with sensor-specific image recognition
CN114037056A (zh) 一种生成神经网络的方法、装置、计算机设备和存储介质
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN116452939A (zh) 基于多模态实体融合与对齐的社交媒体虚假信息检测方法
CN116644439A (zh) 一种基于去噪扩散模型的模型安全性评估方法
CN114154587B (zh) 一种基于互补内容感知的多模态事件检测方法
CN114154587A (zh) 一种基于互补内容感知的多模态事件检测方法
CN116597177A (zh) 一种基于双分支并行深度交互协同的多源图像块匹配方法
CN115661539A (zh) 一种嵌入不确定性信息的少样本图像识别方法
CN115620342A (zh) 跨模态行人重识别方法、系统及计算机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant