CN112148997A - 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 - Google Patents
一种用于灾害事件检测的多模态对抗模型的训练方法和装置 Download PDFInfo
- Publication number
- CN112148997A CN112148997A CN202010791173.5A CN202010791173A CN112148997A CN 112148997 A CN112148997 A CN 112148997A CN 202010791173 A CN202010791173 A CN 202010791173A CN 112148997 A CN112148997 A CN 112148997A
- Authority
- CN
- China
- Prior art keywords
- modal
- social media
- media data
- features
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 120
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 66
- 239000013598 vector Substances 0.000 claims description 46
- 230000003042 antagnostic effect Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006378 damage Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及网络信息分析技术领域,具体涉及一种用于灾害事件检测的多模态对抗模型的训练方法和装置。该方法包括:获取社交媒体数据;抽取所述社交媒体数据的图像特征和文本特征;对所述社交媒体数据的图像特征和文本特征进行预处理;将预处理后的所述社交媒体数据的图像特征和文本特征,输入进多模态对抗模型,更新多模态特征提取单元、信息识别单元和对抗训练单元的参数集。本发明利用多模态特征提取单元和对抗训练单元之间的极大极小博弈,提高了卷积神经网络模型在利用社交媒体数据来检测出灾害事件时的效率和准确度。
Description
技术领域
本发明涉及网络信息分析技术领域,具体涉及一种用于灾害事件检测的多模态对抗模型的训练方法和装置。
背景技术
地震、火灾、洪水等灾害给人们的生活带来了巨大的伤害。一方面使人们的生命、财产遭到严重的损失;另一方面在灾难发生时,给受灾群众的心理也带来创伤。因此,在自然和人为灾害期间,救援组织需要及时向受影响的人们提供援助。但是,由于受灾群众的位置信息有限,对于救援组织而言,这项任务是非常困难的。当前,在突发灾害事件发生时,大量用户倾向于在社交媒体(如微博、推特等)上发布各种信息。受灾群众和目击者通过文本和图像信息在这些平台分享自己的状态,传播人员或设施受损信息并寻求帮助。社交媒体生成的这些数据实时更新且广泛传播,可帮助政府相关部门和救援组织获取可操作的信息以挽救生命和修复基础设施。因此,如何在海量社交媒体数据中检测出与灾害事件相关的信息,成为了突发灾害事件处理中不容忽视的主题。
传统的事件检测方法一般只考虑文本一种模态的信息,然而社交媒体上包含大量图片、文字等多模态信息。较少研究同时使用社交媒体中文本和图片信息检测与突发灾害事件相关内容。此外,突发灾害事件检测的主要挑战在于如何识别与新出现的灾难事件相关的信息。基于机器学习的方法仅能检测出与训练集中已存在的灾害事件相关的信息,而对于训练集中不存在的灾害事件效果较差。这主要是因为这些方法在社交媒体数据中抽取的是特定于灾难事件的特征,这些特征无法在不同灾难事件之间共享,从而影响了对与新兴灾难事件相关信息的检测。
因此,如何高效准确地利用社交媒体数据来检测出灾害事件,是目前亟需解决的技术问题。
发明内容
本发明的目的是提供一种用于灾害事件检测的多模态对抗模型的训练方法和装置,以提高卷积神经网络模型在利用社交媒体数据来检测出灾害事件时的效率和准确度。
本发明实施例提供了以下方案:
第一方面,本发明实施例提供一种用于灾害事件检测的多模态对抗模型的训练方法,所述方法包括:
获取社交媒体数据;
抽取所述社交媒体数据的图像特征和文本特征;
对所述社交媒体数据的图像特征和文本特征进行预处理;
将预处理后的所述社交媒体数据的图像特征和文本特征,输入进多模态对抗模型,以更新所述多模态对抗模型中的多模态特征提取单元、信息识别单元和对抗训练单元的参数集;
其中,所述多模态特征提取单元的输出层为第一全连接层,所述信息识别单元的输入层为第二全连接层,所述对抗训练单元的输入层为第三全连接层;所述第一全连接层分别连接所述第二全连接层和所述第三全连接层;
所述多模态特征提取单元包括图像多模态特征提取层、文本多模态特征提取层和多模态特征连接层;所述图像多模态特征提取层用于提取所述社交媒体数据的图像特征的图像多模态特征;所述文本多模态特征提取层用于提取所述社交媒体数据的文本特征的文本多模态特征;所述多模态特征连接层用于将所述图像多模态特征和所述文本多模态特征连接为所述社交媒体数据的多模态特征;
所述所述信息识别单元包括Softmax层;所述Softmax层用于根据所述社交媒体数据的多模态特征,生成所述社交媒体数据与任何灾害事件无关的概率;所述Softmax层还用于根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集;所述第一损失函数根据所述社交媒体数据与任何灾害事件无关的概率构建;
所述对抗训练单元包括对抗训练层;所述对抗训练层用于根据第二损失函数,更新所述对抗训练单元的参数集;所述第二损失函数根据所述多模态特征提取单元的输出值和所述信息识别单元的识别结果构建。
在一种可能的实施例中,所述提取所述社交媒体数据的图像特征的图像多模态特征,包括:
将所述所述社交媒体数据的图像特征输入进训练好的VGG-19网络模型,获得所述社交媒体数据的图像特征的图像多模态特征。
在一种可能的实施例中,所述提取所述社交媒体数据的文本特征的文本多模态特征,包括:
将所述社交媒体数据的文本特征转化为输入文本;所述输入文本包括字符向量,分段向量和位置向量;
对所述输入文本中的字符向量,分段向量和位置向量按位求和,获得BERT模型的编码层输入量;
利用多头注意力和自注意力机制将所述BERT模型的编码层输入量转化为所述输入文本的隐藏状态集;
根据所述输入文本的隐藏状态集,获取所述社交媒体数据的文本特征的文本多模态特征。
在一种可能的实施例中,所述根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集,包括:
其中,为所述第一损失函数,为期望函数,Yd为表示社交媒体数据x是否与灾害事件有关的标签,p(x)为社交媒体数据x与任何灾害事件无关的概率,θF为所述多模态特征提取单元的参数集,θD为所述信息识别单元的参数集;
在一种可能的实施例中,所述根据第二损失函数,更新所述对抗训练单元的参数集,包括:
在一种可能的实施例中,所述对所述社交媒体数据的图像特征和文本特征进行预处理,包括:
将所述社交媒体数据的图像特征的尺寸转换为设定尺寸,获得预处理后的所述社交媒体数据的图像特征;
去除所述社交媒体数据的文本特征中的非拉丁字符,并将所述社交媒体数据的文本特征中的所有字母转换为小写字母,获得预处理后的所述社交媒体数据的文本特征。
第二方面,本发明实施例提供一种用于灾害事件检测的多模态对抗模型的训练装置,包括:
社交媒体数据获取模块,用于获取社交媒体数据;
特征抽取模块,用于抽取所述社交媒体数据的图像特征和文本特征;
预处理模块,用于对所述社交媒体数据的图像特征和文本特征进行预处理;
第一更新模块,用于将预处理后的所述社交媒体数据的图像特征和文本特征,输入进多模态对抗模型,以更新所述多模态对抗模型中的多模态特征提取单元、信息识别单元和对抗训练单元的参数集;
其中,所述多模态特征提取单元的输出层为第一全连接层,所述信息识别单元的输入层为第二全连接层,所述对抗训练单元的输入层为第三全连接层;所述第一全连接层分别连接所述第二全连接层和所述第三全连接层;
所述多模态特征提取单元包括图像多模态特征提取层、文本多模态特征提取层和多模态特征连接层;所述图像多模态特征提取层用于提取所述社交媒体数据的图像特征的图像多模态特征;所述文本多模态特征提取层用于提取所述社交媒体数据的文本特征的文本多模态特征;所述多模态特征连接层用于将所述图像多模态特征和所述文本多模态特征连接为所述社交媒体数据的多模态特征;
所述所述信息识别单元包括Softmax层;所述Softmax层用于根据所述社交媒体数据的多模态特征,生成所述社交媒体数据与任何灾害事件无关的概率;所述Softmax层还用于根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集;所述第一损失函数根据所述社交媒体数据与任何灾害事件无关的概率构建;
所述对抗训练单元包括对抗训练层;所述对抗训练层用于根据第二损失函数,更新所述对抗训练单元的参数集;所述第二损失函数根据所述多模态特征提取单元的输出值和所述信息识别单元的识别结果构建。
在一种可能的实施例中,所述第一更新模块,包括:
图像多模态特征获取模块,用于将所述所述社交媒体数据的图像特征输入进训练好的VGG-19网络模型,获得所述社交媒体数据的图像特征的图像多模态特征。
在一种可能的实施例中,所述第一更新模块,还包括:
输入文本转化模块,用于将所述社交媒体数据的文本特征转化为输入文本;所述输入文本包括字符向量,分段向量和位置向量;
编码层输入量获取模块,用于对所述输入文本中的字符向量,分段向量和位置向量按位求和,获得BERT模型的编码层输入量;
隐藏状态集转化模块,用于利用多头注意力和自注意力机制将所述BERT模型的编码层输入量转化为所述输入文本的隐藏状态集;
文本多模态特征获取模块,用于根据所述输入文本的隐藏状态集,获取所述社交媒体数据的文本特征的文本多模态特征。
在一种可能的实施例中,所述第一更新模块,还包括:
其中,为所述第一损失函数,为期望函数,Yd为表示社交媒体数据x是否与灾害事件有关的标签,p(x)为社交媒体数据x与任何灾害事件无关的概率,θF为所述多模态特征提取单元的参数集,θD为所述信息识别单元的参数集;
在一种可能的实施例中,所述第一更新模块,还包括:
在一种可能的实施例中,所述预处理模块,包括:
图像预处理模块,用于将所述社交媒体数据的图像特征的尺寸转换为设定尺寸,获得预处理后的所述社交媒体数据的图像特征;
文字与处理模块,用于去除所述社交媒体数据的文本特征中的非拉丁字符,并将所述社交媒体数据的文本特征中的所有字母转换为小写字母,获得预处理后的所述社交媒体数据的文本特征。
第三方面,本发明实施例提供一种用于灾害事件检测的多模态对抗模型的训练设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现第一方面中任一所述的用于灾害事件检测的多模态对抗模型的训练方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时以实现第一方面中任一所述的用于灾害事件检测的多模态对抗模型的训练方法的步骤。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明中多模态对抗模型包括多模态特征提取单元、信息识别单元和对抗训练单元,信息识别单元能够根据第一损失函数更新多模态特征提取单元和信息识别单元的参数集,对抗训练单元能够根据第二损失函数更新对抗训练单元的参数集。一方面,多模态特征提取单元与信息识别单元共同作用最小化损失函数,以提高灾害事件相关信息检测性能。另一方面,多模态特征提取单元试图愚弄对抗训练单元以最大化损失函数,以学习到事件无关特征表示。本发明利用多模态特征提取单元和对抗训练单元之间的极大极小博弈,提高了卷积神经网络模型在利用社交媒体数据来检测出灾害事件时的效率和准确度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用于灾害事件检测的多模态对抗模型的训练方法的流程图;
图2是本发明实施例提供的一种多模态对抗模型的结构示意图;
图3是本发明实施例提供的检测结果对比图;
图4是本发明实施例提供的一种用于灾害事件检测的多模态对抗模型的训练装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明实施例保护的范围。
请参阅图1,图1为本发明实施例提供的用于灾害事件检测的多模态对抗模型的训练方法的流程图,包括步骤11至步骤14。
步骤11,获取社交媒体数据。
具体的,社交媒体数据是指在微博、QQ空间、微信朋友圈、Twitter、Facebook等网络媒体上发布的带有文本和/或图像的数据。通过爬虫可以从社交媒体中收集大量含有文本、图像的社交媒体数据。
步骤12,抽取所述社交媒体数据的图像特征和文本特征。
具体的,由于多模式特征数据的提取技术中,图像特征处理和文本特征处理采用的是不同的技术,因而需要将社交媒体数据中的图像特征和文本特征进行分离,单独进行处理。
步骤13,对所述社交媒体数据的图像特征和文本特征进行预处理。
具体的,通过预处理,使社交媒体数据的图像特征和文本特征模式化和规范化,方便之后对模型的训练。
这里,给出一种较优的预处理方案,具体为:
步骤21,将所述社交媒体数据的图像特征的尺寸转换为设定尺寸,获得预处理后的所述社交媒体数据的图像特征。
具体的,在本实施例中,统一将社交媒体数据的图像特征的尺寸转换224ppi×224ppi大小。
步骤22,去除所述社交媒体数据的文本特征中的非拉丁字符,并将所述社交媒体数据的文本特征中的所有字母转换为小写字母,获得预处理后的所述社交媒体数据的文本特征。
步骤14,将预处理后的所述社交媒体数据的图像特征和文本特征,输入进多模态对抗模型,以更新所述多模态对抗模型中的多模态特征提取单元、信息识别单元和对抗训练单元的参数集。
具体的,多模态对抗模型属于一种MANN多模态对抗神经网络模型(Multi-modalAdversarial Neural Network),具体包括多模态特征提取单元、信息识别单元和对抗训练单元。
图2为本实施例提供的一种较优的多模态对抗模型得结构示意图,多模态特征提取单元的输出层为第一全连接层,信息识别单元的输入层为第二全连接层,对抗训练单元的输入层为第三全连接层;第一全连接层分别连接第二全连接层和第三全连接层,以实现多模态特征提取单元与信息识别单元、对抗训练单元之间的数据传输。下面具体介绍模型中的三个单元。
1、多模态特征提取单元
多模态特征提取单元包括图像多模态特征提取层、文本多模态特征提取层和多模态特征连接层。
图像多模态特征提取层用于提取社交媒体数据的图像特征的图像多模态特征,具体可以使用训练好的Xception,ResNet50,VGG-16和VGG-19等深度卷积神经网络提取社交媒体数据的图像特征的图像多模态特征。
这里,本发明还提供了一种较优的图像多模态特征提取方案,具体为:
步骤31,将所述所述社交媒体数据的图像特征输入进训练好的VGG-19网络模型,获得所述社交媒体数据的图像特征的图像多模态特征。
为确保图像特征向量(即图像多模态特征)具有与文本特征向量(即文本多模态特征)相同的维度,本实施例在VGG-19模型的最后一层之上添加了一个全连接层。令为图像特征向量,d为特征的维度。图像特征提取器中最后一层全连接层可以定义为:
FV=σ(WV·FVGG)
其中σ表示Relu激活函数,WV表示全连接层的权重矩阵,FVGG表示预训练VGG-19模型的输出。
文本多模态特征提取层用于提取社交媒体数据的文本特征的文本多模态特征。
这里,本发明还给出一种较优的利用BERT(Bidirectional EncoderRepresentations from Transformers)模型进行文本多模态特征提取的方案,具体为:
步骤41,将所述社交媒体数据的文本特征转化为输入文本。所述输入文本包括字符向量,分段向量和位置向量。
具体的,T={t1,t2,…,tj,…,tN}表示输入文本,输入的表示是字符向量,分段向量和位置向量的级联。字符向量将每个字符转换为向量表示形式,分段向量用来区分不同的语句,位置向量用来编码词语的位置信息。
步骤42,对所述输入文本中的字符向量,分段向量和位置向量按位求和,获得BERT模型的编码层输入量。
具体的,将三种向量表示按位求和可得E={e1,e2,…,ej,…,eN},并将其作为BERT编码层的输入。
步骤43,利用多头注意力和自注意力机制将所述BERT模型的编码层输入量转化为所述输入文本的隐藏状态集。
具体的,自注意力机制将每个字符转换成查询(Query)、键(Key)和值(Value)。查询、键和值被表示为矩阵Q、K和V,并通过以下公式计算矩阵的输出。
多头注意力在文本中学习不同的连接以增加多样性,并通过以下公式连接并决定最终隐藏状态:
MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
根据隐藏状态hc,获得了输入文本的隐藏状态集H={h1,h2,...,hj,…,hN}。
步骤44,根据所述输入文本的隐藏状态集,获取所述社交媒体数据的文本特征的文本多模态特征。
具体的,BERT模型的最后一层是全连接层,可以表示为:
FT=σ(WT·hc)
多模态特征连接层用于将图像多模态特征和文本多模态特征连接为社交媒体数据的多模态特征。
FM=concat(FV,FT)
FM是多模态特征提取单元的输出,该单元可以表示为fF(X;θF)。X表示输入的社交媒体多模态数据,θF表示该单元的参数集。
2、信息识别单元
信息识别单元还包括两个全连接层和一个Softmax层;Softmax层用于根据社交媒体数据的多模态特征,生成社交媒体数据与任何灾害事件无关的概率。该概率能够用来识别社交媒体信息是否与灾害事件相关,从而形成信息识别单元的识别结果。由于信息识别单元基于多模态特征提取单元,因此多模式特征向量FM是信息识别单元的输入。信息识别单元可以表示为fD(FM;θD),其中θD表示信息识别单元的参数集。假设xj为第j条社交媒体多模态数据,对于xj,信息识别单元的输出是该条数据与任何灾害事件无关的概率:
p(xj)=fD(fF(xj;θF);θD)。
Softmax层还用于根据第一损失函数,更新多模态特征提取单元和信息识别单元的参数集;第一损失函数根据社交媒体数据与任何灾害事件无关的概率构建。
具体的,所述根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集,包括:
其中,为所述第一损失函数,为期望函数,Yd为表示社交媒体数据x是否与灾害事件有关的标签,p(x)为社交媒体数据x与任何灾害事件无关的概率,θF为所述多模态特征提取单元的参数集,θD为所述信息识别单元的参数集。y为社交媒体数据x对应的标签,X为包含有社交媒体数据x的社交媒体数据集。
3、对抗训练单元
与灾害事件相关的社交媒体数据检测的主要挑战来自训练语料库未涵盖的灾害事件。为了识别与新出现的突发灾害事件相关的社交媒体数据,需要模型捕获的特征具有事件无关和可迁移性。最小化损失函数仅有助于识别与训练语料中已存在的灾害事件相关的社交媒体数据。由于此过程学习的是特定于灾害事件的特征、模式或知识(例如,事件的名称),模型泛化性较差。因此,本发明需要抽取可以泛化的特征表示,并且这些特征蕴含不同灾害事件之间的公共信息。为了实现这一目标,学习得到的特征表示必须是事件无关的,并且包含尽可能少的特定于事件的信息。具体来说,本发明引入对抗训练以消除灾害事件特征的独特性。
对抗训练单元包括对抗训练层;对抗训练层用于根据第二损失函数,更新对抗训练单元的参数集;第二损失函数根据多模态特征提取单元的输出值和信息识别单元的识别结果构建。
具体的,所述根据第二损失函数,更新所述对抗训练单元的参数集,包括:
其中,为所述第二损失函数,Ym为表示灾害事件的标签,fF为所述多模态特征提取单元的输出值,fM为所述信息识别单元的识别结果,θM为所述对抗训练单元的参数集。y为社交媒体数据x对应的标签,X为包含有社交媒体数据x的社交媒体数据集。
本发明提出的多模态对抗模型利用对抗训练单元来增强不同事件之间特征表示的相似度,从而学习到事件无关特征。该单元同样由两个全连接层组成,其目的是基于多模态特征将社交媒体数据归类为某一类灾害事件。该单元可以表示为fM(FM;θM),其中θM为该单元的参数集。
这里,综合说明下第一损失函数和第二损失函数是如何训练本发明提出的多模态对抗模型的。
在多模态对抗神经网络模型MANN中,对抗训练是指特征提取单元和对抗训练单元之间的极大极小博弈。一方面,多模态特征提取单元fF(·;θF)与信息识别单元fD(·;θD)共同作用最小化损失函数以提高灾害事件相关信息检测性能。另一方面,多模态特征提取单元fF(·;θF)试图愚弄对抗训练单元以最大化损失函数以学习到事件无关特征表示。此外,对抗训练单元还通过使损失函数最小化来基于多模式特征检测社交媒体数据是否归属于某种灾害事件。三个单元的最终对抗损失函数可以定义为:
上述训练过程中,当相邻两次训练过程中获得的第一损失函数最小值之间的差值和/或第二损失函数最小值之间的差值,在设定阈值以内,即说明训练完成。
本发明经上述训练获得的模型经实际数据测试,能够达到非常好的检测效果。
本发明所提出的方法MANN和基准模型通过实验比较可以验证本发明方法的先进性。基准模型包括仅使用BERT和全连接层的Text-only、仅使用VGG-19和全连接层的Image-only、DMN、att-RNN和仅包括特征提取模块和信息识别模块的MANN-。本发明使用社交媒体灾难事件检测常用的评价指标包括准确率、召回率和F1值对实验结果进行分析。本发明使用从推特平台爬取的开源多模态数据集CrisisMMD中的斯里兰卡洪水事件、加利福尼亚火灾事件、墨西哥地震事件和厄玛飓风事件作为正例数据。对于负例数据,本发明从推特平台收集了8415条包含图片的推文,这些推文被人类标注者识别为与灾难事件无关。本发明随机选择20%条数据作为测试数据集,剩余的数据作为训练数据集。
MANN的多模态特征提取单元使用BERT模型,使用Gelu作为激活函数,hc的维数为768。在文本和图像特征提取器中,全连接层神经元的个数设置为32(d=32)。对于信息识别单元和对抗训练单元,本发明将第一层全连接层神经元的个数设置为64,第二层全连接层神经元的个数设置为32。对于Text-only和Image-only,全连接层神经元的个数设置为32。Dropout概率设置为0.5。检测结果对比如附图3所示,本发明所提出的方法在3个评价指标上均要优于5种基准模型。从而验证了本发明的先进性。
基于与方法同样的发明构思,本发明实施例还提供了一种用于灾害事件检测的多模态对抗模型的训练装置,如图4所示为该装置实施例的结构示意图,所述装置包括:
社交媒体数据获取模块71,用于获取社交媒体数据;
特征抽取模块72,用于抽取所述社交媒体数据的图像特征和文本特征;
预处理模块73,用于对所述社交媒体数据的图像特征和文本特征进行预处理;
第一更新模块74,用于将预处理后的所述社交媒体数据的图像特征和文本特征,输入进多模态对抗模型,以更新所述多模态对抗模型中的多模态特征提取单元、信息识别单元和对抗训练单元的参数集;
其中,所述多模态特征提取单元的输出层为第一全连接层,所述信息识别单元的输入层为第二全连接层,所述对抗训练单元的输入层为第三全连接层;所述第一全连接层分别连接所述第二全连接层和所述第三全连接层;
所述多模态特征提取单元包括图像多模态特征提取层、文本多模态特征提取层和多模态特征连接层;所述图像多模态特征提取层用于提取所述社交媒体数据的图像特征的图像多模态特征;所述文本多模态特征提取层用于提取所述社交媒体数据的文本特征的文本多模态特征;所述多模态特征连接层用于将所述图像多模态特征和所述文本多模态特征连接为所述社交媒体数据的多模态特征;
所述所述信息识别单元包括Softmax层;所述Softmax层用于根据所述社交媒体数据的多模态特征,生成所述社交媒体数据与任何灾害事件无关的概率;所述Softmax层还用于根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集;所述第一损失函数根据所述社交媒体数据与任何灾害事件无关的概率构建;
所述对抗训练单元包括对抗训练层;所述对抗训练层用于根据第二损失函数,更新所述对抗训练单元的参数集;所述第二损失函数根据所述多模态特征提取单元的输出值和所述信息识别单元的识别结果构建。
在一种可能的实施例中,所述第一更新模块74,包括:
图像多模态特征获取模块,用于将所述所述社交媒体数据的图像特征输入进训练好的VGG-19网络模型,获得所述社交媒体数据的图像特征的图像多模态特征。
在一种可能的实施例中,所述第一更新模块,还包括:
输入文本转化模块,用于将所述社交媒体数据的文本特征转化为输入文本;所述输入文本包括字符向量,分段向量和位置向量;
编码层输入量获取模块,用于对所述输入文本中的字符向量,分段向量和位置向量按位求和,获得BERT模型的编码层输入量;
隐藏状态集转化模块,用于利用多头注意力和自注意力机制将所述BERT模型的编码层输入量转化为所述输入文本的隐藏状态集;
文本多模态特征获取模块,用于根据所述输入文本的隐藏状态集,获取所述社交媒体数据的文本特征的文本多模态特征。
在一种可能的实施例中,所述第一更新模块74,还包括:
其中,为所述第一损失函数,为期望函数,Yd为表示社交媒体数据x是否与灾害事件有关的标签,p(x)为社交媒体数据x与任何灾害事件无关的概率,θF为所述多模态特征提取单元的参数集,θD为所述信息识别单元的参数集;
在一种可能的实施例中,所述第一更新模块74,还包括:
在一种可能的实施例中,所述预处理模块73,包括:
图像预处理模块,用于将所述社交媒体数据的图像特征的尺寸转换为设定尺寸,获得预处理后的所述社交媒体数据的图像特征;
文字与处理模块,用于去除所述社交媒体数据的文本特征中的非拉丁字符,并将所述社交媒体数据的文本特征中的所有字母转换为小写字母,获得预处理后的所述社交媒体数据的文本特征。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种用于灾害事件检测的多模态对抗模型的训练设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
本发明实施例中提供的技术方案,至少具有如下技术效果或优点:
本发明实施例中多模态对抗模型包括多模态特征提取单元、信息识别单元和对抗训练单元,信息识别单元能够根据第一损失函数更新多模态特征提取单元和信息识别单元的参数集,对抗训练单元能够根据第二损失函数更新对抗训练单元的参数集。一方面,多模态特征提取单元与信息识别单元共同作用最小化损失函数,以提高灾害事件相关信息检测性能。另一方面,多模态特征提取单元试图愚弄对抗训练单元以最大化损失函数,以学习到事件无关特征表示。本发明实施例利用多模态特征提取单元和对抗训练单元之间的极大极小博弈,提高了卷积神经网络模型在利用社交媒体数据来检测出灾害事件时的效率和准确度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(模块、系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (10)
1.一种用于灾害事件检测的多模态对抗模型的训练方法,其特征在于,所述方法包括:
获取社交媒体数据;
抽取所述社交媒体数据的图像特征和文本特征;
对所述社交媒体数据的图像特征和文本特征进行预处理;
将预处理后的所述社交媒体数据的图像特征和文本特征,输入进多模态对抗模型,以更新所述多模态对抗模型中的多模态特征提取单元、信息识别单元和对抗训练单元的参数集;
其中,所述多模态特征提取单元的输出层为第一全连接层,所述信息识别单元的输入层为第二全连接层,所述对抗训练单元的输入层为第三全连接层;所述第一全连接层分别连接所述第二全连接层和所述第三全连接层;
所述多模态特征提取单元包括图像多模态特征提取层、文本多模态特征提取层和多模态特征连接层;所述图像多模态特征提取层用于提取所述社交媒体数据的图像特征的图像多模态特征;所述文本多模态特征提取层用于提取所述社交媒体数据的文本特征的文本多模态特征;所述多模态特征连接层用于将所述图像多模态特征和所述文本多模态特征连接为所述社交媒体数据的多模态特征;
所述所述信息识别单元包括Softmax层;所述Softmax层用于根据所述社交媒体数据的多模态特征,生成所述社交媒体数据与任何灾害事件无关的概率;所述Softmax层还用于根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集;所述第一损失函数根据所述社交媒体数据与任何灾害事件无关的概率构建;
所述对抗训练单元包括对抗训练层;所述对抗训练层用于根据第二损失函数,更新所述对抗训练单元的参数集;所述第二损失函数根据所述多模态特征提取单元的输出值和所述信息识别单元的识别结果构建。
2.根据权利要求1所述的用于灾害事件检测的多模态对抗模型的训练方法,其特征在于,所述提取所述社交媒体数据的图像特征的图像多模态特征,包括:
将所述所述社交媒体数据的图像特征输入进训练好的VGG-19网络模型,获得所述社交媒体数据的图像特征的图像多模态特征。
3.根据权利要求1所述的用于灾害事件检测的多模态对抗模型的训练方法,其特征在于,所述提取所述社交媒体数据的文本特征的文本多模态特征,包括:
将所述社交媒体数据的文本特征转化为输入文本;所述输入文本包括字符向量,分段向量和位置向量;
对所述输入文本中的字符向量,分段向量和位置向量按位求和,获得BERT模型的编码层输入量;
利用多头注意力和自注意力机制将所述BERT模型的编码层输入量转化为所述输入文本的隐藏状态集;
根据所述输入文本的隐藏状态集,获取所述社交媒体数据的文本特征的文本多模态特征。
4.根据权利要求1所述的用于灾害事件检测的多模态对抗模型的训练方法,其特征在于,所述根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集,包括:
其中,为所述第一损失函数,为期望函数,Yd为表示社交媒体数据x是否与灾害事件有关的标签,p(x)为社交媒体数据x与任何灾害事件无关的概率,θF为所述多模态特征提取单元的参数集,θD为所述信息识别单元的参数集;
6.根据权利要求1所述的用于灾害事件检测的多模态对抗模型的训练方法,其特征在于,所述对所述社交媒体数据的图像特征和文本特征进行预处理,包括:
将所述社交媒体数据的图像特征的尺寸转换为设定尺寸,获得预处理后的所述社交媒体数据的图像特征;
去除所述社交媒体数据的文本特征中的非拉丁字符,并将所述社交媒体数据的文本特征中的所有字母转换为小写字母,获得预处理后的所述社交媒体数据的文本特征。
7.一种用于灾害事件检测的多模态对抗模型的训练装置,其特征在于,包括:
社交媒体数据获取模块,用于获取社交媒体数据;
特征抽取模块,用于抽取所述社交媒体数据的图像特征和文本特征;
预处理模块,用于对所述社交媒体数据的图像特征和文本特征进行预处理;
第一更新模块,用于将预处理后的所述社交媒体数据的图像特征和文本特征,输入进多模态对抗模型,以更新所述多模态对抗模型中的多模态特征提取单元、信息识别单元和对抗训练单元的参数集;
其中,所述多模态特征提取单元的输出层为第一全连接层,所述信息识别单元的输入层为第二全连接层,所述对抗训练单元的输入层为第三全连接层;所述第一全连接层分别连接所述第二全连接层和所述第三全连接层;
所述多模态特征提取单元包括图像多模态特征提取层、文本多模态特征提取层和多模态特征连接层;所述图像多模态特征提取层用于提取所述社交媒体数据的图像特征的图像多模态特征;所述文本多模态特征提取层用于提取所述社交媒体数据的文本特征的文本多模态特征;所述多模态特征连接层用于将所述图像多模态特征和所述文本多模态特征连接为所述社交媒体数据的多模态特征;
所述所述信息识别单元包括Softmax层;所述Softmax层用于根据所述社交媒体数据的多模态特征,生成所述社交媒体数据与任何灾害事件无关的概率;所述Softmax层还用于根据第一损失函数,更新所述多模态特征提取单元和所述信息识别单元的参数集;所述第一损失函数根据所述社交媒体数据与任何灾害事件无关的概率构建;
所述对抗训练单元包括对抗训练层;所述对抗训练层用于根据第二损失函数,更新所述对抗训练单元的参数集;所述第二损失函数根据所述多模态特征提取单元的输出值和所述信息识别单元的识别结果构建。
8.根据权利要求7所述的用于灾害事件检测的多模态对抗模型的训练装置,其特征在于,所述第一更新模块,包括:
图像多模态特征获取模块,用于将所述所述社交媒体数据的图像特征输入进训练好的VGG-19网络模型,获得所述社交媒体数据的图像特征的图像多模态特征。
9.一种用于灾害事件检测的多模态对抗模型的训练设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现权利要求1至6任一所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时以实现权利要求1至6任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010791173.5A CN112148997B (zh) | 2020-08-07 | 2020-08-07 | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010791173.5A CN112148997B (zh) | 2020-08-07 | 2020-08-07 | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112148997A true CN112148997A (zh) | 2020-12-29 |
CN112148997B CN112148997B (zh) | 2023-11-28 |
Family
ID=73888774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010791173.5A Active CN112148997B (zh) | 2020-08-07 | 2020-08-07 | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148997B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516837A (zh) * | 2021-07-21 | 2021-10-19 | 重庆大学 | 一种基于多源信息融合的城市火灾判断方法、系统及其存储介质 |
CN114444506A (zh) * | 2022-01-11 | 2022-05-06 | 四川大学 | 一种融合实体类型的关系三元组抽取方法 |
CN114936285A (zh) * | 2022-05-25 | 2022-08-23 | 齐鲁工业大学 | 基于对抗性多模态自动编码器的危机信息检测方法及系统 |
CN115966061A (zh) * | 2022-12-28 | 2023-04-14 | 上海帜讯信息技术股份有限公司 | 基于5g消息的灾情预警处理方法、系统和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
US20160212163A1 (en) * | 2015-01-16 | 2016-07-21 | The Trustees Of The Stevens Institute Of Technology | Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN110019812A (zh) * | 2018-02-27 | 2019-07-16 | 中国科学院计算技术研究所 | 一种用户自生产内容检测方法和系统 |
CN110163796A (zh) * | 2019-05-29 | 2019-08-23 | 北方民族大学 | 一种无监督多模态对抗自编码的图像生成方法及框架 |
-
2020
- 2020-08-07 CN CN202010791173.5A patent/CN112148997B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
US20160212163A1 (en) * | 2015-01-16 | 2016-07-21 | The Trustees Of The Stevens Institute Of Technology | Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN110019812A (zh) * | 2018-02-27 | 2019-07-16 | 中国科学院计算技术研究所 | 一种用户自生产内容检测方法和系统 |
CN110163796A (zh) * | 2019-05-29 | 2019-08-23 | 北方民族大学 | 一种无监督多模态对抗自编码的图像生成方法及框架 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516837A (zh) * | 2021-07-21 | 2021-10-19 | 重庆大学 | 一种基于多源信息融合的城市火灾判断方法、系统及其存储介质 |
CN113516837B (zh) * | 2021-07-21 | 2022-09-23 | 重庆大学 | 一种基于多源信息融合的城市火灾判断方法、系统及其存储介质 |
CN114444506A (zh) * | 2022-01-11 | 2022-05-06 | 四川大学 | 一种融合实体类型的关系三元组抽取方法 |
CN114444506B (zh) * | 2022-01-11 | 2023-05-02 | 四川大学 | 一种融合实体类型的关系三元组抽取方法 |
CN114936285A (zh) * | 2022-05-25 | 2022-08-23 | 齐鲁工业大学 | 基于对抗性多模态自动编码器的危机信息检测方法及系统 |
CN114936285B (zh) * | 2022-05-25 | 2024-07-12 | 齐鲁工业大学 | 基于对抗性多模态自动编码器的危机信息检测方法及系统 |
CN115966061A (zh) * | 2022-12-28 | 2023-04-14 | 上海帜讯信息技术股份有限公司 | 基于5g消息的灾情预警处理方法、系统和装置 |
CN115966061B (zh) * | 2022-12-28 | 2023-10-24 | 上海帜讯信息技术股份有限公司 | 基于5g消息的灾情预警处理方法、系统和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112148997B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gomez et al. | Exploring hate speech detection in multimodal publications | |
CN112148997A (zh) | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 | |
Vlad et al. | Sentence-level propaganda detection in news articles with transfer learning and BERT-BiLSTM-capsule model | |
CN112221156B (zh) | 数据异常识别方法、装置、存储介质以及电子设备 | |
CN111814454B (zh) | 一种社交网络上的多模态网络欺凌检测模型 | |
CN108427720A (zh) | 系统日志分类方法 | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
CN111368926B (zh) | 图像筛选方法、装置和计算机可读存储介质 | |
CN110830489B (zh) | 基于内容抽象表示的对抗式欺诈网站检测方法及系统 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
CN112138403A (zh) | 交互行为的识别方法和装置、存储介质及电子设备 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN113469214A (zh) | 虚假新闻检测方法、装置、电子设备和存储介质 | |
CN114254102B (zh) | 一种基于自然语言的协同应急响应soar剧本推荐方法 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN115659244A (zh) | 故障预测方法、装置及存储介质 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN113420117B (zh) | 一种基于多元特征融合的突发事件分类方法 | |
CN117521012A (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
CN109508544A (zh) | 一种基于mlp的入侵检测方法 | |
CN115422945A (zh) | 一种融合情感挖掘的谣言检测方法及系统 | |
CN115186079A (zh) | 基于人物画像的业务问题单分类方法及装置 | |
CN113849598A (zh) | 基于深度学习的社交媒体虚假信息检测方法及检测系统 | |
Neela et al. | An Ensemble Learning Frame Work for Robust Fake News Detection | |
Demir | Authorship Authentication of Short Messages from Social Networks Using Recurrent Artificial Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |