CN113806564B - 多模态信息性推文检测方法及系统 - Google Patents

多模态信息性推文检测方法及系统 Download PDF

Info

Publication number
CN113806564B
CN113806564B CN202111106298.0A CN202111106298A CN113806564B CN 113806564 B CN113806564 B CN 113806564B CN 202111106298 A CN202111106298 A CN 202111106298A CN 113806564 B CN113806564 B CN 113806564B
Authority
CN
China
Prior art keywords
data
text
image
informative
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111106298.0A
Other languages
English (en)
Other versions
CN113806564A (zh
Inventor
王新刚
吕建东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202111106298.0A priority Critical patent/CN113806564B/zh
Publication of CN113806564A publication Critical patent/CN113806564A/zh
Application granted granted Critical
Publication of CN113806564B publication Critical patent/CN113806564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了多模态信息性推文检测方法及系统,包括:分别提取多模态信息性推文中的图像模态数据特征以及文本模态数据特征;将上述来自不同模态的特征映射到同一数据域中,分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果;将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果。能够综合使用和分析推文中的图像数据与文本数据,能够有效地筛选信息性推文并进行进一步分析。

Description

多模态信息性推文检测方法及系统
技术领域
本发明属于信息处理技术领域,尤其涉及多模态信息性推文检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
近年来,社交媒体的迅速普及,使其成为各种公共事件期间沟通与交流的重要渠道,用户在社交媒体上发布的推文可应用于情感分析、医学研究以及危机信息检测等多个领域,并且,用户发布的海量、实时性的推文发挥着对传统媒体的补充作用,尤以公共危机事件期间为例,用户发布的推文中通常包含基础设施损坏情况、人员伤亡情况以及对该事件的看法,已有研究表明,若能有效地筛选和分析有关危机事件的推文,将对人道主义救援活动的规划与开展起到支撑作用。
人工筛选明显不是一种可行的方案,因此,挑战之一在于如何从海量推文中筛选信息性的推文。推文中通常包含文本与图像两种模态的数据,不同模态之间的数据具有互补信息却又存在一定的异质性差异,已有研究采用单模态的图像数据或文本数据进行推文的筛选与分析,但忽略了多模态数据之间的互补性,也有相当的工作中综合使用推文中的多模态数据进行推文的筛选与分析,但大多集中于研究在不同的数据域中进行融合分析,难以规避数值差异带来的影响且不能有效的捕捉多模态数据的依赖关系,因此另一个挑战在于如何有效的利用推文中的多模态数据。
发明内容
为克服上述现有技术的不足,本发明提供了多模态信息性推文检测方法,用于融合分析推文中的多模态数据。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了多模态信息性推文检测方法,包括:
分别提取多模态信息性推文中的图像模态数据特征以及文本模态数据特征;
将上述来自不同模态的特征映射到同一数据域中,分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果;
将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果。
进一步的技术方案,提取图像模态数据特征之前需要进行预处理:将图像调整为统一大小,之后,使用随机水平翻转与随机垂直翻转对图像数据集进行增广,然后将图像处理为数组之后进行归一化。
进一步的技术方案,预处理步骤之后进行特征提取步骤,具体为:
将经过预处理后的图像数据作为输入进行特征提取,获取图像数据的多通道特征;
之后对多通道特征进行序列信息依赖学习,获取多通道特征之间的相关性;
将最终全连接层的输出作为最终的图像特征。
进一步优选的技术方案,采用ResNet-A对多通道特征进行序列信息依赖学习,包括:
由各个多通道特征分别生成qi,ki,vi矩阵,之后通过计算qi与kj之间的相似性,得到关于qi与kj的权重系数,通过对vj加权求和得到最终的注意力输出hi
将得到的注意力输出进行拍平并使用一层全连接层对得到的特征改变维度。
进一步的技术方案,提取文本模态数据特征之前需要进行预处理:将文本句子中的转发标题用户句柄、以及停用词和标点符号进行删除,之后对句子进行分词操作,最后在每个句子的开头与结尾分别加入设定字符生成经过预处理的文本模态数据。
进一步的技术方案,采用Cycle GAN模型将上述来自不同模态的特征映射到同一数据域中,Cycle GAN模型由生成器和判别器两部分组成;
以图像特征矩阵与文本特征矩阵作为生成器中Bi-LSTM的输入,最后一层的输出施加Self-attention机制获得生成特征矩阵;
将源特征矩阵与生成特征矩阵用于判别器的输入,用于判别。
进一步的技术方案,Cycle GAN模型的损失函数包括生成性损失与循环一致性损失,前者用于保证生成器生成的数据与真实数据同分布,后者用于约束数据映射的一致性。
进一步的技术方案,采用混合融合策略对推文中的多模态数据进行融合,以图像域或文本数据域中的数据为作为输入,使用训练好的生成器将图像数据域或文本数据域中的数据映射到文本数据域或图像域中,得到生成的数据,之后采用早期融合策略将位于文本数据域或图像域下的特征矩阵进行注意力融合,并得到对应的分类决策结果。
第二方面,公开了多模态信息性推文检测系统,包括:
图像特征提取模块,用于提取多模态信息性推文中的图像模态数据特征;
文本特征提取模块,用于提取多模态信息性推文中的文本模态数据特征;
多模态融合模块,用于将上述来自不同模态的特征映射到同一数据域中,分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果;
将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果。
以上一个或多个技术方案存在以下有益效果:
本发明能够将来自不同数据域中的多模态数据映射到同一数据域中融合,在一定程度上缩小了不同模态数据之间的异质性差异所带来的影响,同时能够更好地综合使用各模态之前的互补性信息。能够综合使用和分析推文中的图像数据与文本数据,能够有效地筛选信息性推文并进行进一步分析,为人道主义救援活动的规划与开展提供一定的支撑。
本发明在图像特征提取过程中使用了一种新的特征提取方式,结合使用预训练的CNN模型与Attention机制,能够有效的学习图像多通道特征之前的相关性,能够更有效的提取图像特征。
本发明包括图像特征提取模块、文本特征提取模块以及多模态融合模块,在大型数据集Crisis MMD上的实验验证了该方法的有效性。并在单模态输入的情况下也有着不错的表现。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例MMC-GAN总览图;
图2为本发明实施例图像特征提取模块中的两个改进模型;
图3为本发明实施例文本特征提取模块;
图4为本发明实施例多模态融合模块。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了多模态信息性推文检测方法,用于融合分析推文中的多模态数据,使用预训练的卷积神经网络与Attention机制提取图像模态数据特征,使用语言模型Bert提取文本模态数据特征,使用Cycle-GAN将来自不同模态的特征映射到同一数据域中,最终使用混合融合策略分别对特征矩阵与决策结果进行早期融合与晚期融合。
在具体实施例子中,使用了由Alam等人创建的Crisis MMD数据集,该数据集是一个多模态数据集。通过抓取用户在公共危机事件期间发布的推文,经过筛选得来,其中的公共危机事件囊括了2017年发生在某国的洪水、野火、飓风与地震等事件。推文中包括文字与图像两种模态的数据。原数据集中包含三个分类任务,因其第三个任务仅应用于图像数据,因此,本申请仅考虑前两个多模态任务,其数据集结构及其划分如表1所示。
Task-1:informative
此任务是一个二分类任务,目的是确定数据集中的推文是否有助于识别因灾害而发生损害的区域,是否能为人道主义救援活动提供可用信息。若是,则该条推文视为信息性推文,设Crisis MMD数据集为D,Mi表示数据集中的第i条推文,Mi中包含图像数据vi与文本数据ti,则任务一的函数fTask-1可表示为:
Task-2:Humanitarian Categories
此任务是一个多分类任务,目的在于了解推文的信息类型,共包括受影响的个人、基础设施和公用设施损坏、非人道主义、其他相关信息、救援志愿或捐赠志愿(affected-individuals、infrastructure and utility-damage、not-humanitarian、other-relevant-information、recue-volunteering or donation-effect)五种,为方便起见,将其分别缩写为A、I、N、O、R,则任务二的函数fTask-2可表示为:
表1数据集总览及划分
参见附图2所示,关于图像特征提取:
预处理:为了能够输入到预训练的卷积神经网络中,需将图像的大小统一调整为224×224;为了扩大训练样本并提高模型的泛化性能,使用随机水平翻转与随机垂直翻转对图像数据集进行增广;将图像处理为数组之后在[0,1]的范围内进行归一化,最后得到预处理后的图像数据I。
I={I1,…,Ii,...,In},Ii∈[0,1](3×224×224)
特征提取:针对图像特征提取模块,本发明使用了在ImageNet上经过预训练的ResNet152作为基准模型进行改进,去掉最后的全连接层(full conneacted layer),并将输出尺寸为1×1的AdaptiveAvgPool层更改为输出尺寸为7×7的AdaptiveAvgPool层,将经过预处理后的图像数据进行特征提取,获取图像数据的多通道特征C,其中ci表示其中的单通道特征向量,n表示通道总个数。如下式所示。
C=ResNet-part(I)
C={c1,...ci,...,cn},n=2048,ci∈R7×7
C:多通道特征;ResNet-part:预训练的ResNet152的特征提取部分;Ci:通道特征中的第i个通道。
之后将多通道特征分别采用self-attention(ResNet-A)与LSTM[32]
(ResNet-L)进行序列信息依赖学习,以学习多通道特征C之间的相关性。
1.对于ResNet-A,使用自注意力机制self-attention来学习各个通道内部特征关联,增强有效区域,首先由ci分别生成qi,ki,vi矩阵,之后通过计算qi与kj(j=1,...,n)之间的相似性,并使用softmax函数进行归一化得到权重系数aij,最终通过对vj加权求和得到最终的注意力数值hi,其计算公式如下所示。
qi=Wqci,ki=Wkci,vi=Wvci,i=1,…,n
其中W表示权重矩阵。将得到的注意力数值H={h1,...,hn}输入到Flatten层中进行拍平并使用一层全连接层对得到的特征进行维度调整。输出为最终的图像特征矩阵。
2.对于ResNet-L,使用LSTM来学习多通道特征C中的序列依赖信息,我们使用了1个LSTM层,其中包含49个单元,每个单元中有49个隐藏层,取最后一层隐藏层H={h1,...,hn}作为输出。如下式所示。
{h1,...,hn}=LSTM(C),hi∈R7×7
将得到的隐藏层的输出H={h1,...,hn}输入到Flatten层中进行拍平并使用一层全连接层对得到的特征进行维度调整。
需要说明的是,本申请采用了两种方法提取文本特征,上面采用的是ResNet+selfattention,称为ResNet-A,此处采用的是ResNet+LSTM,称为ResNet-L。
将全连接层的输出作为最终的图像特征,其公式如下,
FI=σ(WIH'+bI),FI∈R1024
其中H'表示经过Flatten层的特征矩阵,WI表示全连接层的权重矩阵,bI表示全连接层的偏置矩阵,σ表示ReLU激活函数,FI表示最终输出的图像特征矩阵也是图像特征提取模块的输出,可表示下式。其中XI代表模块的输入,θI代表模块的参数。
FI=fI(XI;θI)
参见附图3所示,文本特征提取:预处理:为了能够将文本输入到Bert中,需对文本模态的数据进行相应的预处理,首先需将文本句子中的转发标题(如http URLs,RT等)、@username的twitter用户句柄、以及停用词和标点符号进行删除,之后使用Bert Tokenizer对句子进行分词操作,最后在每个句子的开头与结尾分别加入[CLS]与[SEP]字符,生成经过预处理的文本模态数据T={T1,…,Ti,…,TN},其中Ti表示推文集合中的第i条推文,一条推文中包含若干个字符,Ti={t1,…,tj,…,tN},其中tj表示某条推文中第j个位置的字符。
特征提取:近年来,通过在大型语料库上预训练的语言模型在多项NLP任务上都获得了不错的提升,这其中,基于Transformer与Attention机制的Bert脱颖而出,已经成为各种NLP任务中最先进的模型之一。由于在预训练期间预定义的最大长度,Bert适用于诸如推文之类的短文本,因此,在我们的模型中,Bert被用于文本特征提取过程,Bert的参数如下式所示。
BERTBASE:L=12,H=768,A=12,Total Parameters=110M
其中L表示Transformer层数,H表示Transformer内部维度,A表示head的数量,采用Fine-tuning方法进行训练,在Bert的隐藏层输出后添加一层全连接层以改变输出特征的维度。
Bert模型的输入由Token Embeddings、Segment Embeddings、PositionEmbeddings三部分组成,其中Token Embeddings为字符的向量表示,Segment Embeddings是当前词所在句子的索引,Position Embeddings指代当前字符在整个输入中的位置索引,如下式所示。
Token Embeddings={E([CLS]),E(t2),...,E([SEP])}
SegmentEmbeddings={E(A),E(A),...,E(A)}
PositionEmbeddings={E(1),E(2),...,E(N)}
最终输入模型的向量Bert-input表示由它们对应的位置相加,如下式所示。
I(i)=E(ti)+E(A)+E(i)
Bert-input={I(0),...,I(i),...,I(N)}
之后送入Bert中进行特征提取,获取Bert隐藏层输出的句向量H,如下式所示。
H=Bert(Bert-input)
H={h(0),...,h(i),...,h(N)}
将全连接层的输出作为最终的文本特征,如下式所示。
FT=σ(WTH+bT),FT∈R1024
其中WT表示全连接层的权重矩阵,bT表示全连接层的偏置矩阵,σ表示ReLU激活函数,FT表示最终输出的文本特征矩阵也是文本特征提取模块的输出。
多模态融合:
多模态输入:多模态融合模块的输入包括图像特征提取模块输出的图像特征与文本特征提取模块输出的文本特征两部分。如下式所示。
M-input={FI,FT}
Cycle-GAN用于特征映射:本文MMC-GAN模型中采用Cycle GAN进行特征映射,在图4中,实线箭头代表Cycle GAN的数据流向,Cycle GAN模型由生成器{GV,GT}和判别器{Dv,DT}两部分组成,生成器采用10层隐藏单元个数为1024的Bi-LSTM与self-Attention组成,判别器则由一维卷积层与max pooling层组成,以图像特征矩阵FI与文本特征矩阵FT作为生成器中Bi-LSTM的输入,取最后一层的输出施加self-attention机制获得生成特征矩阵{VG,TG}。如下式所示。
{b1,...,bn}=BiLSTM(M-input)
将源特征矩阵与生成特征矩阵输入判别器中进行判别。如下式所示。
{Real,Fake}=Dv(FI,VG)
{Real,Fake}=DT(FT,TG)
Cycle GAN的损失函数包括生成性损失(Adversarial loss)与循环一致性损失(Cycle Consistency loss)两部分,前者用于保证生成器生成的数据与真实数据同分布,后者用于约束数据映射的一致性。对于生成器Gv:T→V及其判别器Dv,其生成性损失函数可表示为
其中V表示图像数据域,T表示文本数据域。同理,生成器GT:V→T及其判别器DT的生成性损失函数可表示LGAN(GT,DT,V,T)。循环一致性损失如下所示。
则整个网络的损失函数为:
L(Gv,GT,Dv,DT)=LGAN(Gv,Dv,T,V)+LGAN(GT,DT,V,T)+λLcyc(Gv,GT)
其中λ是控制生成性损失与循环一致性损失的重要参数,在此将其取值为1,然后通过最大最小化此损失函数即可得到最优的生成器如下式所示。
混合融合过程:本文模型中采用混合融合策略对推文中的多模态数据进行融合,在图4中,虚线箭头表示融合过程中的数据流向,以源图像特征作为输入为例,使用训练好的生成器GT将源图像特征FI映射到文本数据域中,得到生成特征矩阵TG,映射到同一数据域下,可以降低不同模态数据异质性差异所带来的影响。之后采用早期融合策略将位于文本数据域下的特征矩阵{TG,FT}进行注意力融合,并采用softmax得到分类决策结果Result-1,如下式所示。
f1=score1×TG+score2×FT
Result-1=softmax(f1)
其中scorei表示特征矩阵对应的注意力权重,同理可得到在图像数据域下的分类决策结果Result-2,将两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果Result,如下式所示。
Result=w1Result-1+w2Result-2
本发明中将权重各设置为0.5,本模块函数可表示为可表示为下式。其中θM代表模块的参数。
Result=fM({FT,FI};θM)
在大型数据集Crisis MMD上的实验验证了本申请该方法的有效性。并且在模态缺失的情况下也有着不错的表现。
如图1所示,在仅图像模态输入的情况下,本文所提出的ResNet-A明显优于基线模型。
如表2、表3所示,相较于单模态输入与其他工作中的模型,在多模态输入的情况下,各项性能指标优于单模态输入的分类结果,这些结果证实,多模态学习方法能更好的利用模态间的互补信息,提供了对单模态学习方法的进一步性能改进。这项工作中的MMC-GAN模型明显优于其他工作中的结果。
表2对比结果
注:其中T表示仅文本模态数据输入,V表示仅图像模态数据输入,T+V表示多模态数据输入
表3与相关工作结果对比
当然,在具体实施例子中,也可使用其他合理方法来进行图像与文本的特征提取过程,如其他用于图像特征提取预训练的卷积神经网络,用于文本特征提取的语言模型。
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
实施例四
本实施例的目的是提供多模态信息性推文检测系统,包括:
图像特征提取模块,用于提取多模态信息性推文中的图像模态数据特征;
文本特征提取模块,用于提取多模态信息性推文中的文本模态数据特征;
多模态融合模块,用于将上述来自不同模态的特征映射到同一数据域中,分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果;
将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.多模态信息性推文检测方法,其特征是,包括:
分别提取多模态信息性推文中的图像模态数据特征以及文本模态数据特征;
将上述来自不同模态的特征映射到同一数据域中,分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果;
将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果;
在ImageNet上经过预训练的ResNet152作为基准模型进行改进,去掉最后的全连接层,并修改输出尺寸,得到AdaptiveAvgPool层,将经过预处理后的图像数据进行特征提取,获取图像数据的多通道特征;
在得到图像数据的多通道特征后,使用自注意力机制self-attention来学习各个通道内部特征关联,增强有效区域,计算多通道之间的相似性,加权求和得到最终的注意力数值,将得到的注意力数值输入进行拍平使用一层全连接层对得到的特征进行维度调整,输出为最终的图像特征矩阵;
或,
使用LSTM来学习多通道特征中的序列依赖信息,取最后一层隐藏层,将得到的隐藏层的输出拍平使用一层全连接层对得到的特征进行维度调整,将全连接层的输出作为最终的图像特征矩阵;
使用Bert模型对文本特征数据进行提取,将全连接层的输出作为最终的文本特征矩阵;
采用Cycle GAN模型将上述来自不同模的特征映射到同一数据域中,Cycle GAN模型由生成器和判别器两部分组成;
以图像特征矩阵与文本特征矩阵作为生成器中的输入,去掉最后一层的输出施加self-attention机制获得生成后的特征矩阵;
将原始特征矩阵与生成器的输出用于判别器的输入,用于判别;
Cycle GAN模型的损失函数包括生成性损失与循环一致性损失,前者用于保证生成器生成的数据与真实数据同分布,后者用于约束数据映射的一致性。
2.如权利要求1所述的多模态信息性推文检测方法,其特征是,提取图像模态数据特征之前需要进行预处理:将图像调整为统一大小,之后,使用随机水平翻转与随机垂直翻转对图像数据集进行增广,然后将图像处理为数组之后进行归一化。
3.如权利要求2所述的多模态信息性推文检测方法,其特征是,预处理步骤之后进行特征提取步骤,具体为:
将经过预处理后的图像数据作为输入进行特征提取,获取图像数据的多通道特征;
之后对多通道特征进行序列信息依赖学习,获取多通道特征之间的相关性;
将最终全连接层的输出作为最终的图像特征。
4.如权利要求1所述的多模态信息性推文检测方法,其特征是,采用ResNet-A学习多通道特征之间的相关性,包括:
由各个多通道特征分别生成qi,ki,vi矩阵,之后通过计算qi与kj之间的相似性,得到关于qi与kj的权重系数,通过对vj加权求和得到最终的注意力数值hi
将得到的注意力数值进行拍平并使用一层全连接层对得到的特征进行整流。
5.如权利要求1所述的多模态信息性推文检测方法,其特征是,提取文本模态数据特征之前需要进行预处理:将文本句子中的转发标题用户句柄、以及停用词和标点符号进行删除,之后对句子进行分词操作,最后在每个句子的开头与结尾分别加入设定字符生成经过预处理的文本模态数据。
6.如权利要求1所述的多模态信息性推文检测方法,其特征是,采用混合融合策略对推文中的多模态数据进行融合,以图像域或文本数据域中的数据为作为输入,使用训练好的生成器将图像数据域或文本数据域中的数据映射到文本数据域或图像域中,得到生成的数据,之后采用早期融合策略将位于文本数据域或图像域下的特征矩阵进行注意力融合,并得到对应的分类决策结果。
7.基于如权利要求1-6任一项所述方法的多模态信息性推文检测系统,其特征是,包括:
图像特征提取模块,用于提取多模态信息性推文中的图像模态数据特征;
在ImageNet上经过预训练的ResNet152作为基准模型进行改进,去掉最后的全连接层,并修改输出尺寸,得到AdaptiveAvgPool层,将经过预处理后的图像数据进行特征提取,获取图像数据的多通道特征;
文本特征提取模块,用于提取多模态信息性推文中的文本模态数据特征;
多模态融合模块,用于将上述来自不同模态的特征映射到同一数据域中,分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果;
将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果;
采用Cycle GAN模型将上述来自不同模的特征映射到同一数据域中,Cycle GAN模型由生成器和判别器两部分组成;
以图像特征矩阵与文本特征矩阵作为生成器中的输入,去最后一层的输出施加self-attention机制获得生成后的特征矩阵;
将原始特征矩阵与生成器的输出用于判别器的输入,用于判别;
Cycle GAN模型的损失函数包括生成性损失与循环一致性损失,前者用于保证生成器生成的数据与真实数据同分布,后者用于约束数据映射的一致性。
8.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-6任一所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-6任一所述方法的步骤。
CN202111106298.0A 2021-09-22 2021-09-22 多模态信息性推文检测方法及系统 Active CN113806564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111106298.0A CN113806564B (zh) 2021-09-22 2021-09-22 多模态信息性推文检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111106298.0A CN113806564B (zh) 2021-09-22 2021-09-22 多模态信息性推文检测方法及系统

Publications (2)

Publication Number Publication Date
CN113806564A CN113806564A (zh) 2021-12-17
CN113806564B true CN113806564B (zh) 2024-05-10

Family

ID=78939848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111106298.0A Active CN113806564B (zh) 2021-09-22 2021-09-22 多模态信息性推文检测方法及系统

Country Status (1)

Country Link
CN (1) CN113806564B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267003B (zh) * 2022-03-02 2022-06-10 城云科技(中国)有限公司 道路破损检测方法、装置及应用
CN115393678B (zh) * 2022-08-01 2024-04-02 北京理工大学 一种基于图像式中间态的多模态数据融合决策方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN113158875A (zh) * 2021-04-16 2021-07-23 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008842A (zh) * 2019-03-09 2019-07-12 同济大学 一种基于深度多损失融合模型的行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN113158875A (zh) * 2021-04-16 2021-07-23 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统

Also Published As

Publication number Publication date
CN113806564A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
Li et al. Cross-modal attentional context learning for RGB-D object detection
US11663268B2 (en) Method and system for retrieving video temporal segments
CN113806564B (zh) 多模态信息性推文检测方法及系统
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN109711356B (zh) 一种表情识别方法和系统
CN112395979A (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
US20230230198A1 (en) Utilizing a generative neural network to interactively create and modify digital images based on natural language feedback
EP4287144A1 (en) Video behavior recognition method and apparatus, and computer device and storage medium
CN113239825B (zh) 一种复杂场景下高精度烟草甲虫检测方法
US20240177506A1 (en) Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN110659392B (zh) 检索方法及装置、存储介质
CN116758379B (zh) 一种图像处理方法、装置、设备及存储介质
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
Chen et al. Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及系统
CN111858999B (zh) 一种基于分段困难样本生成的检索方法及装置
Akalya devi et al. Multimodal emotion recognition framework using a decision-level fusion and feature-level fusion approach
CN111078854B (zh) 问答预测模型的训练方法及装置、问答预测方法及装置
CN109190556B (zh) 一种公证意愿真实性鉴别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant