CN116089644A - 一种融合多模态特征的事件检测方法 - Google Patents

一种融合多模态特征的事件检测方法 Download PDF

Info

Publication number
CN116089644A
CN116089644A CN202211434313.9A CN202211434313A CN116089644A CN 116089644 A CN116089644 A CN 116089644A CN 202211434313 A CN202211434313 A CN 202211434313A CN 116089644 A CN116089644 A CN 116089644A
Authority
CN
China
Prior art keywords
vector
text
picture
stream
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211434313.9A
Other languages
English (en)
Inventor
胡勇
乔丹诺
刘晓慧
潘亚雄
谢诚
王丹
孙小智
张小卫
何成奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dazhou Vocational And Technical College
Sichuan University
Chengdu Science and Technology Development Center of CAEP
Original Assignee
Dazhou Vocational And Technical College
Sichuan University
Chengdu Science and Technology Development Center of CAEP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dazhou Vocational And Technical College, Sichuan University, Chengdu Science and Technology Development Center of CAEP filed Critical Dazhou Vocational And Technical College
Priority to CN202211434313.9A priority Critical patent/CN116089644A/zh
Publication of CN116089644A publication Critical patent/CN116089644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合多模态特征的事件检测方法,能够有效解决现有技术的不足,包括下述步骤:收集语料并进行预处理,得到待用图片数据和待用文本数据,后导入VilBERT模型中,获取图片各区域的特征向量表示序列V T 和句中单个字的特征向量表示序列W T ,再经VilBERT模型的Co‑Transformer层进行加权处理,而后经各自的Transformer层处理后,输出融合后的图文特征向量;通过CRF层对加权处理后形成的文本向量特征进行BIO标注;SS‑GAN生成器从输入的高斯分布中提取100维噪声向量生成伪示例,而后与真示例共同作为SS‑GAN鉴别器的输入,SS‑GAN鉴别器对真伪进行判断,如果认为是真示例,则需要预测该示例的事件类型。

Description

一种融合多模态特征的事件检测方法
技术领域
本发明涉及事件检测、多模态信息抽取技术等领域,具体的说,是一种融合多模态特征的事件检测方法。
背景技术
手机的大量普及,使得移动端应用,如微博、抖音、公众号等社交平台获得飞速的发展,并且成为人们获取网络信息越来越重要的渠道,也有越来越多的网民愿意在平台上发表自己的看法,发布、转发内容。新浪微博的2022年Q1财报显示,截至一季度末,微博月活跃用户达到5.82亿,同比净增5100万,日活跃用户达到2.52亿,同比净增2200万。数据表明,仅春节晚会相关话题的整体阅读量就超过了200亿,讨论量超过7000万。大量涌入网络的新信息也给社交平台的管理和监控带来挑战,如何快速精确地检索事件,是网络舆情分析与监测的第一步。
自动内容抽取会议(Automatic Content Extraction,ACE)将事件定义为“表明了多个特定元素相互作用而发生的特定事实”,并提出了事件包含的四大元素:触发词、事件类型、事件论元和论元角色。事件检测是事件抽取的第一步,它负责寻找文本中的事件触发词及相应的事件类型,也就是对语句中每个词语判断其是否为事件触发词,如果是则需要预测它所触发的事件类别。事件抽取根据这四种元素的抽取要求可以分解为4个子任务,分别是触发词检测、事件类型分类、论元识别和论元角色匹配任务。其中,触发词检测和事件类型分类合并为事件检测任务。
传统的事件检测通常为单模态事件检测,即特征学习以微博文本、图片为输入,利用深度模型分别学习各自的语义特征。通过这种方法训练出来的模型基础知识并不可靠,如果数据量不足或者有偏差,模型的泛化能力会很差。此外,中文事件检测通常需要先对语料进行分词处理,分词容易出现误差传递,进而导致触发词提取不准确的问题。再者,由于只有少数微博自带用户的“话题”标签,大多数数据为无标签数据,过度依赖标签的训练会消耗大量的人力物力,代价太大。
发明内容
本发明的目的在于提供一种融合多模态特征的事件检测方法,基于生成对抗网络和互注意力机制的神经网络实现,采用VilBERT模型中的Co-Attention机制对图文信息进行交互加权,然后使用CRF模型生成基于远距离的动态字向量的触发词特征,再通过SS-GAN模型引入伪示例,降低模型对带标签数据的依赖。
本发明通过下述技术方案实现:一种融合多模态特征的事件检测方法,包括下述步骤:
1)收集语料并进行预处理,得到待用图片数据和待用文本数据;
2)将待用图片数据导入VilBERT模型的图片流中,对图片的特征进行编码,获取图片各区域的特征向量表示序列VT,且
Figure BDA0003946481890000021
其中,v为图片中各区域向量,T为转置符号,v的下标为区域向量编号;
3)将待用文本数据导入VilBERT模型的文本流中,对文本的特征进行编码,获取句中单个字的特征向量表示序列WT,且
Figure BDA0003946481890000022
并构建独立于图片的多层Transformer,其中,w为字向量,T为转置符号,w的下标为字向量编号;
4)将图片各区域的特征向量表示序列VT和句中单个字的特征向量表示序列WT导入VilBERT模型中,经VilBERT模型的Co-Transformer层进行加权处理,而后经各自的Transformer层处理后,输出融合后的图文特征向量;
5)CRF模型对所有句中单个字的特征向量表示序列WT经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征集进行BIO标注,最终输出有事件BIO标注的图文特征向量,作为真实数据的真示例hCLS;其中,“B”表示为事件触发词的起始,“I”表示为事件触发词的中间,“O”表示为非事件触发词;文本向量特征为字向量、位置向量和分割向量的加和,其中,分割向量为0;
6)SS-GAN生成器从输入的高斯分布中提取100维噪声向量生成伪示例,而后将伪示例与步骤5)的输出(即添加事件标注的图文特征向量,作为真实数据的真示例hCLS,其同时包含带标签和不带标签的数据)共同作为SS-GAN鉴别器的输入,SS-GAN鉴别器进行真伪判断,如果判为真示例,则预测该示例的事件类型。
进一步,为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述步骤1)包括下述具体步骤:
1.1)提取多模态社交数据中的图片数据,并转换为同尺寸,单独存储,形成待用图片数据;
1.2)提取多模态社交数据中的文本数据,删除其中的HTML标签、URL、用户、转发、主题标签;
1.3)对文本数据进行去停用词处理;
1.4)对文本数据中的俚语、俗语、缩略语进行转换,形成待用文本数据;
其中,对于带有话题的多模态社交数据,将话题作为待用图片数据和待用文本数据的标签,否则归为无标签数据。
进一步,为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述步骤2)的具体步骤为:
2.1)对图片数据进行归一化处理,将图片边界区域的左上角和右下角的坐标以及图片区域的覆盖占比作为图片编码的5个维度,实现图片空间位置的编码;
2.2)通过映射将图片编码维数与符号特征的维数相匹配,并进行求和;
2.3)将特定的IMG token作为图片编码的起始,并用带有空间位置编码信息的图片特征的均值池化表征整个图片;
2.4)经Embedding层,获取图片各区域的特征向量表示序列VT,且
Figure BDA0003946481890000041
进一步,为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述步骤3)包括下述具体步骤:
3.1)将待用文本数据导入VilBERT模型的文本流中以特定的CLS作为一个句子的起始,SEP作为语句的分割进行文本数据的分割;
3.2)步骤3.1)的所得经VilBERT模型的Embedding层,形成句中单个字的特征向量表示序列WT,且
Figure BDA0003946481890000042
3.3)将文本流的Transformer层数设置为12,采用BERT Base版本,构建独立于图片的多层Transformer。
进一步,为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述步骤4)包括下述步骤:
4.1)将图片各区域的特征向量表示序列VT和句中单个字的特征向量表示序列WT导入VilBERT模型中;
4.2)VilBERT模型的Co-Transformer层经过权值矩阵分别计算出图片流的VV、KV、QV和文本流的VW、KW、QW,其中VV为图片流的Value向量,KV为图片流的Key向量,QV为图片流的Query向量,VW为文本流的Value向量,KW为文本流的Key向量,QW为文本流的Query向量;
4.3)加权交互:根据文本上下文通过公式
Figure BDA0003946481890000051
给图片区域加权,其中,Z为特征的输出值,i指Co-Transformer层中图片流的迭代层数,Q为Query向量,K为Key向量,V为Value向量,下标V为图片流,下标W为文本流,上标T为转置符号,dk为维度;或者将图片中各区域的信息作为上下文通过公式
Figure BDA0003946481890000052
给文本加权,其中,Z为特征的输出值,j指Co-Transformer层中文本流的迭代层数,Q为Query向量,K为Key向量,V为Value向量,下标V为图片流,下标W为文本流,上标T为转置符号,dk为维度;
4.4)加权交互之后,经由图片流和文本流各自独立的Transformer层处理,输出融合后的图文特征向量;其中图片流的Transformer层数设置为6,文本流的Transformer层数设置为12。
进一步,为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述图片流的VV、KV、QV和文本流的VW、KW、QW通过下述公式计算得到:
Figure BDA0003946481890000061
Figure BDA0003946481890000062
Figure BDA0003946481890000063
Figure BDA0003946481890000064
Figure BDA0003946481890000065
Figure BDA0003946481890000066
其中,下标V表示图片流特征,下标W表示文本流特征,H代表中间表示,W代表权值,i为Co-Transformer层中图片流的迭代层数,j为Co-Transformer层中文本流的迭代层数,Q为Query向量,V为Value向量,K为Key向量。
进一步,为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述步骤5)中:假定句子长度为n,句子序列为X=(x1,x2,……,xn),对应的预测标签序列为Y=(y1,y2,……,yn),预测序列的最终得分为:
Figure BDA0003946481890000067
其中,T表示标签间的转移分数
Figure BDA0003946481890000068
表示每个字到对应yi标签的分数;
由于预测序列有多种可能性,其中只有一种是最符合的,应对所有可能序列做全局归一化,产生原始序列到预测序列的概率:
Figure BDA0003946481890000069
其中,X为输入,y为输出序列中每个字的标签。
进一步,为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述BIO标注流程为:
对于文本向量特征集
Figure BDA0003946481890000071
如果
Figure BDA0003946481890000072
是触发词的一部分,则将第一个字的特征向量标注为B,触发词中的其他字的特征向量标注为I,其中,B和I根据ACE2005标准,划分为8种事件类型中的33种子事件;如果
Figure BDA0003946481890000073
不是触发词的一部分,则标注为O;其中,h为句中单个字的特征向量表示序列WT经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征,w为文本流输出,i为文本向量特征的编号。
进一步的为更好地实现本发明所述的一种融合多模态特征的事件检测方法,特别采用下述设置方式:所述步骤6)的具体步骤为:
6.1)SS-GAN生成器的多层感知机(MLP)从导入的高斯分布N(μ,σ2)中提取100维噪声向量,经多层间距处理生成伪示例hfake,且hfake∈Rd
6.2)将伪示例hfake和真实数据的真示例hCLS混合形成输入示例h*,且h*∈Rd
6.3)SS-GAN鉴别器接收输入示例h*∈Rd,其最后一层softmax激活层输出一个k+1维向量,附带了对示例真伪的辨别信息;
6.4)如果h*为真实数据的真示例,即h*=hCLS,则SS-GAN鉴别器需要在k个类型中判断示例所属的事件类型;如果h*为伪示例,即h*=hfake,则SS-GAN鉴别器需要将所有示例分为k+1类。
本发明与现有技术相比,具有以下优点及有益效果:
本发明提出一种融合多模态特征的神经网络GAN-VilBERT-CRF,来实现对微博平台的事件检测,通过VilBERT模型中的Co-Attention机制融合图文信息,并使用CRF模型实现基于远距离的动态字向量的触发词特征,解决了中文语料库分词难、不准确的问题,细化了事件分类;最终通过SS-GAN模型解决带标签数据较少的问题,从而提升事件检测的效率和精确度。
本发明于生成对抗网络和互注意力机制的神经网络实现,采用VilBERT模型中的Co-Attention机制对图文信息进行交互加权,然后使用CRF模型生成基于远距离的动态字向量的触发词特征,再通过SS-GAN模型引入伪示例,降低模型对带标签数据的依赖(原因在于SS-GAN利用自然图像合成技术,使用推断得出的数据标签,来替换手工标记的真实标签)。
附图说明
图1为事件检测模型图。
图2为神经网络GAN-VilBERT-CRF的模型架构。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
名词解释:
文本流:VilBERT模型中用于处理文本数据的部分。
图片流:VilBERT模型中用于处理图像数据的部分。
GAN-VilBERT-CRF:由SS-GAN、VilBERT、CRF三种网络(模型)拼接而成的神经网络。
VilBERT模型:适用于训练多模态数据的神经网络。
BERT Base版本:BERT的基础版本。
Co-Attention:互注意力机制,同时对多个输入序列进行操作,并共同学习它们的注意力权重,以捕获这些输入之间的交互作用。
Co-Transformer层:VilBERT模型中自带的模块,Transformer层的变体,用于实现Co-Attention功能。
多层Transformer:经由多个Transformer层迭代,随着层数的增加,网络的容量更大,表达能力也更强。
Transformer层:进行Co-Attention、位置信息表达、残差连接与归一化、softmax等操作的模块。
Embedding层:将单词从原先所属的空间映射到新的多维空间中,对向量进行降维。
CRF模型:为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练过程中,这些约束可以通过CRF模型自动学习。
SS-GAN生成器:生成图像以尽可能迷惑鉴别器。如果SS-GAN鉴别器无法区分生成器进行的真实输入和虚假输入,则SS-GAN生成器获胜,并且不对其算法进行任何更改;否则不断更新算法。
SS-GAN鉴别器:接收图像进而鉴别图像的真伪。
SS-GAN模型:带有自我监督的GAN模型。继承了GAN的优势,同时不需要带标签数据。
IMG token:一个图片区域向量的起始标识符。
CLS:一个句子的起始标识符。
SEP:连接符,又为一个句子的结束标识符。
实施例1:
本发明设计出一种融合多模态特征的事件检测方法,包括下述步骤:
1)收集语料并进行预处理,得到待用图片数据和待用文本数据,包括下述具体步骤:
1.1)提取多模态社交数据中的图片数据,并转换为同尺寸,单独存储,形成待用图片数据;
1.2)提取多模态社交数据中的文本数据,删除其中的HTML标签、URL、用户、转发、主题标签;
1.3)对文本数据进行去停用词处理;
1.4)对文本数据中的俚语、俗语、缩略语进行转换,形成待用文本数据;
其中,对于带有话题的多模态社交数据,将话题作为待用图片数据和待用文本数据的标签,否则归为无标签数据。
2)将待用图片数据导入VilBERT模型的图片流中,对图片的特征进行编码,获取图片各区域的特征向量表示序列VT,且
Figure BDA0003946481890000101
其中,v为图片中各区域向量,T为转置符号,v的下标为区域向量编号,包括下述具体步骤:
2.1)对图片数据进行归一化处理,将图片边界区域的左上角和右下角的坐标以及图片区域的覆盖占比作为图片编码的5个维度,实现图片空间位置的编码;
2.2)通过映射将图片编码维数与符号特征的维数相匹配,并进行求和;
2.3)将特定的IMG token作为图片编码的起始,并用带有空间位置编码信息的图片特征的均值池化表征整个图片;
2.4)经Embedding层,获取图片各区域的特征向量表示序列VT,且
Figure BDA0003946481890000111
3)将待用文本数据导入VilBERT模型的文本流中,对文本的特征进行编码,获取句中单个字的特征向量表示序列WT,且
Figure BDA0003946481890000112
并构建独立于图片的多层Transformer,其中,w为字向量,T为转置符号,w的下标为字向量编号,包括下述具体步骤:
3.1)将待用文本数据导入VilBERT模型的文本流中以特定的CLS作为一个句子的起始,SEP作为语句的分割进行文本数据的分割;
3.2)步骤3.1)的所得经VilBERT模型的Embedding层,形成句中单个字的特征向量表示序列WT,且
Figure BDA0003946481890000113
3.3)将文本流的Transformer层数设置为12,采用BERT Base版本,构建独立于图片的多层Transformer。
其中,v为图片中各区域向量,T为转置符号,v的下标为区域向量编号;
4)将图片各区域的特征向量表示序列VT和句中单个字的特征向量表示序列WT导入VilBERT模型中,经VilBERT模型的Co-Transformer层进行加权处理,而后经各自的Transformer层处理后,输出融合后的图文特征向量:
4.1)将图片各区域的特征向量表示序列VT和句中单个字的特征向量表示序列WT导入VilBERT模型中;
4.2)VilBERT模型的Co-Transformer层经过权值矩阵分别通过下述公式计算出图片流的VV、KV、QV和文本流的VW、KW、QW
Figure BDA0003946481890000121
Figure BDA0003946481890000122
Figure BDA0003946481890000123
Figure BDA0003946481890000124
Figure BDA0003946481890000125
Figure BDA0003946481890000126
其中,下标V表示图片流特征,下标W表示文本流特征,H代表中间表示,W代表权值,i为Co-Transformer层中图片流的迭代层数,j为Co-Transformer层中文本流的迭代层数,Q为Query向量,V为Value向量,K为Key向量;VV为图片流的Value向量,KV为图片流的Key向量,QV为图片流的Query向量,VW为文本流的Value向量,KW为文本流的Key向量,QW为文本流的Query向量;
4.3)根据文本上下文通过公式
Figure BDA0003946481890000127
给图片区域加权,其中,Z为特征的输出值,i指Co-Transformer层中图片流的迭代层数,Q为Query向量,K为Key向量,V为Value向量,下标V为图片流,下标W为文本流,上标T为转置符号,dk为维度;或者将图片中各区域的信息作为上下文通过公式
Figure BDA0003946481890000128
给文本加权,其中,Z为特征的输出值,j指Co-Transformer层中文本流的迭代层数,Q为Query向量,K为Key向量,V为Value向量,下标V为图片流,下标W为文本流,上标T为转置符号,dk为维度;
4.4)加权交互之后,经由图片流和文本流各自独立的Transformer层处理,输出融合后的图文特征向量;其中图片流的Transformer层数设置为6,文本流的Transformer层数设置为12。
5)CRF模型对所有句中单个字的特征向量表示序列WT经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征集进行BIO标注,最终输出有事件BIO标注的图文特征向量,作为真实数据的真示例hCLS;其中,“B”表示为事件触发词的起始,“I”表示为事件触发词的中间,“O”表示为非事件触发词;文本向量特征为字向量、位置向量和分割向量的加和,其中,由于输入中只有一个句子,所以分割向量为0;
BIO标注流程为:
对于文本向量特征集
Figure BDA0003946481890000131
如果
Figure BDA0003946481890000132
是触发词的一部分,则将第一个字的特征向量标注为B,触发词中的其他字的特征向量标注为I,其中,B和I根据ACE2005标准,划分为8种事件类型中的33种子事件;如果
Figure BDA0003946481890000133
不是触发词的一部分,则标注为O;其中,h为句中单个字的特征向量表示序列WT经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征,w为文本流输出,i为文本向量特征的编号。
假定句子长度为n,句子序列为X=(x1,x2,……,xn),对应的预测标签序列为Y=(y1,y2,……,yn),预测序列的最终得分为:
Figure BDA0003946481890000134
其中,T表示标签间的转移分数
Figure BDA0003946481890000135
表示每个字到对应yi标签的分数;
由于预测序列有多种可能性,其中只有一种是最符合的,应对所有可能序列做全局归一化,产生原始序列到预测序列的概率:
Figure BDA0003946481890000141
其中,X为输入,y为输出序列中每个字的标签。
6)SS-GAN生成器从输入的高斯分布中提取100维噪声向量生成伪示例,而后将伪示例与步骤5)的输出(即添加事件标注的图文特征向量,作为真实数据的真示例hCLS,其同时包含带标签和不带标签的数据)共同作为SS-GAN鉴别器的输入,SS-GAN鉴别器进行真伪判断,如果判为真示例,则预测该示例的事件类型,包括下述具体步骤:
6.1)SS-GAN生成器的多层感知机(MLP)从导入的高斯分布N(μ,σ2)中提取100维噪声向量,经多层间距处理生成伪示例hfake,且hfake∈Rd
6.2)将伪示例hfake和真实数据的真示例hCLS混合形成输入示例h*,且h*∈Rd
6.3)SS-GAN鉴别器接收输入示例h*∈Rd,其最后一层softmax激活层输出一个k+1维向量,附带了对示例真伪的辨别信息;
6.4)如果h*为真实数据的真示例,即h*=hCLS,则SS-GAN鉴别器需要在k个类型中判断示例所属的事件类型;如果h*为伪示例,即h*=hfake,则SS-GAN鉴别器需要将所有示例分为k+1类。
实施例2:
一种GAN-VilBERT-CRF模型构建方法,包括以下步骤:
步骤1、语料收集并进行预处理,对于自带话题的数据,将话题作为其标签,否则归为无标签数据,形成训练样本集。
步骤2、对步骤1收集的训练样本集进行数据清洗,形成数据集
Figure BDA0003946481890000142
步骤3、切分数据集,将训练样本集按照7:2:1的比例划分为训练集
Figure BDA0003946481890000151
验证集
Figure BDA0003946481890000152
和测试集
Figure BDA0003946481890000153
步骤4、搭建基于VilBERT预训练模型的深度学习网络并加载预训练参数获得训练样本的深度表达:H=VilBERT(S)。
步骤5、在VilBERT预训练模型后添加一层CRF模型,通过考虑标签之间的相邻关系获得全局最优标签序列,计算过程如下:
Figure BDA0003946481890000154
其中,score表示评估分数,T是转换矩阵,
Figure BDA0003946481890000155
表示标签转移分数,
Figure BDA0003946481890000156
表示该字符的第yi个标签的分数。根据评估分数计算序列X到标签y的概率为:
Figure BDA0003946481890000157
其中,X为输入,y为输出序列中每个字的标签。
步骤6、经由CRF模型输出的示例与SS-GAN生成器生成的假示例混合,再交由SS-GAN鉴别器判断真伪,降低模型对标签数据的依赖,优化SS-GAN鉴别器损失和生成器损失。在训练过程中,将每个类别的样本以对数
Figure BDA0003946481890000158
进行复制,以确保每批中都存在一些标记实例,以避免由于对抗性训练的无监督成分而产生差异。
步骤7、进行GAN-VilBERT-CRF模型的训练与测试,使用事件检测的精确度(P)、召回率(R)和F值(F-score)来评估模型的性能:
Figure BDA0003946481890000161
Figure BDA0003946481890000162
Figure BDA0003946481890000163
步骤8、输出GAN-VilBERT-CRF模型。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (9)

1.一种融合多模态特征的事件检测方法,其特征在于:包括下述步骤:
1)收集语料并进行预处理,得到待用图片数据和待用文本数据;
2)将待用图片数据导入VilBERT模型的图片流中,对图片的特征进行编码,获取图片各区域的特征向量表示序列VT,且
Figure FDA0003946481880000011
其中,v为图片中各区域向量,T为转置符号,v的下标为区域向量编号;
3)将待用文本数据导入VilBERT模型的文本流中,对文本的特征进行编码,获取句中单个字的特征向量表示序列WT,且
Figure FDA0003946481880000012
并构建独立于图片的多层Transformer,其中,w为字向量,T为转置符号,w的下标为字向量编号;
4)将图片各区域的特征向量表示序列VT和句中单个字的特征向量表示序列WT导入VilBERT模型中,经VilBERT模型的Co-Transformer层进行加权处理,而后经各自的Transformer层处理后,输出融合后的图文特征向量;
5)CRF模型对所有句中单个字的特征向量表示序列WT经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征集进行BIO标注,最终输出有事件BIO标注的图文特征向量,作为真实数据的真示例hCLS;其中,“B”表示为事件触发词的起始,“I”表示为事件触发词的中间,“O”表示为非事件触发词;文本向量特征为字向量、位置向量和分割向量的加和,其中,分割向量为0;
6)SS-GAN生成器从输入的高斯分布中提取100维噪声向量生成伪示例,而后将伪示例与步骤5)的输出共同作为SS-GAN鉴别器的输入,SS-GAN鉴别器进行真伪判断,如果判为真示例,则预测该示例的事件类型。
2.根据权利要求1所述的一种融合多模态特征的事件检测方法,其特征在于:所述步骤1)包括下述具体步骤:
1.1)提取多模态社交数据中的图片数据,并转换为同尺寸,单独存储,形成待用图片数据;
1.2)提取多模态社交数据中的文本数据,删除其中的HTML标签、URL、用户、转发、主题标签;
1.3)对文本数据进行去停用词处理;
1.4)对文本数据中的俚语、俗语、缩略语进行转换,形成待用文本数据;
其中,对于带有话题的多模态社交数据,将话题作为待用图片数据和待用文本数据的标签,否则归为无标签数据。
3.根据权利要求1或2所述的一种融合多模态特征的事件检测方法,其特征在于:所述步骤2)的具体步骤为:
2.1)对图片数据进行归一化处理,将图片边界区域的左上角和右下角的坐标及图片区域的覆盖占比作为图片编码的5个维度,实现图片空间位置编码;
2.2)通过映射将图片编码维数与符号特征的维数相匹配,并进行求和;
2.3)将特定的IMG token作为图片编码的起始,并用带有空间位置编码信息的图片特征的均值池化表征整个图片;
2.4)经Embedding层,获取图片各区域的特征向量表示序列VT,且
Figure FDA0003946481880000021
4.根据权利要求1或2所述的一种融合多模态特征的事件检测方法,其特征在于:所述步骤3)包括下述具体步骤:
3.1)将待用文本数据导入VilBERT模型的文本流中以特定的CLS作为一个句子的起始,SEP作为语句的分割进行文本数据的分割;
3.2)步骤3.1)的所得经VilBERT模型的Embedding层,形成句中单个字的特征向量表示序列WT,且
Figure FDA0003946481880000022
3.3)将文本流的Transformer层数设置为12,采用BERT Base版本,构建独立于图片的多层Transformer。
5.根据权利要求1或2所述的一种融合多模态特征的事件检测方法,其特征在于:所述步骤4)包括下述步骤:
4.1)将图片各区域的特征向量表示序列VT和句中单个字的特征向量表示序列WT导入VilBERT模型中;
4.2)VilBERT模型的Co-Transformer层经过权值矩阵分别计算出图片流的VV、KV、QV和文本流的VW、KW、QW,其中VV为图片流的Value向量,KV为图片流的Key向量,QV为图片流的Query向量,VW为文本流的Value向量,KW为文本流的Key向量,QW为文本流的Query向量;
4.3)加权交互:根据文本上下文通过公式
Figure FDA0003946481880000031
给图片区域加权,其中,Z为特征的输出值,i指Co-Transformer层中图片流的迭代层数,Q为Query向量,K为Key向量,V为Value向量,下标V为图片流,下标W为文本流,上标T为转置符号,dk为维度;或者将图片中各区域的信息作为上下文通过公式
Figure FDA0003946481880000032
给文本加权,其中,Z为特征的输出值,j指Co-Transformer层中文本流的迭代层数,Q为Query向量,K为Key向量,V为Value向量,下标V为图片流,下标W为文本流,上标T为转置符号,dk为维度;
4.4)加权交互之后,经由图片流和文本流各自独立的Transformer层处理,输出融合后的图文特征向量;其中图片流的Transformer层数设置为6,文本流的Transformer层数设置为12。
6.根据权利要求5所述的一种融合多模态特征的事件检测方法,其特征在于:所述图片流的VV、KV、QV和文本流的VW、KW、QW通过下述公式计算得到:
Figure FDA0003946481880000041
Figure FDA0003946481880000042
Figure FDA0003946481880000043
Figure FDA0003946481880000044
Figure FDA0003946481880000045
Figure FDA0003946481880000046
其中,下标V表示图片流特征,下标W表示文本流特征,H代表中间表示,W代表权值,i为Co-Transformer层中图片流的迭代层数,j为Co-Transformer层中文本流的迭代层数,Q为Query向量,V为Value向量,K为Key向量。
7.根据权利要求1或2所述的一种融合多模态特征的事件检测方法,其特征在于:所述步骤5)中:假定句子长度为n,句子序列为X=(x1,x2,……,xn),对应的预测标签序列为Y=(y1,y2,……,yn),预测序列的最终得分为:
Figure FDA0003946481880000047
其中,T表示标签间的转移分数
Figure FDA0003946481880000048
表示每个字到对应yi标签的分数;
由于预测序列有多种可能性,其中只有一种是最符合的,应对所有可能序列做全局归一化,产生原始序列到预测序列的概率:
Figure FDA0003946481880000049
其中,X为输入,y为输出序列中每个字的标签。
8.根据权利要求1或2所述的一种融合多模态特征的事件检测方法,其特征在于:所述BIO标注流程为:
对于文本向量特征集
Figure FDA0003946481880000051
如果
Figure FDA0003946481880000052
是触发词的一部分,则将第一个字的特征向量标注为B,触发词中的其他字的特征向量标注为I,其中,B和I根据ACE2005标准,划分为8种事件类型中的33种子事件;如果
Figure FDA0003946481880000053
不是触发词的一部分,则标注为O;其中,h为句中单个字的特征向量表示序列WT经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征,w为文本流输出,i为文本向量特征的编号。
9.根据权利要求1或2所述的一种融合多模态特征的事件检测方法,其特征在于:所述步骤6)的具体步骤为:
6.1)SS-GAN生成器的多层感知机从导入的高斯分布N(μ,σ2)中提取100维噪声向量,经多层间距处理生成伪示例hfake,且hfake∈Rd
6.2)将伪示例hfake和真实数据的真示例hCLS混合形成输入示例h*,且h*∈Rd
6.3)SS-GAN鉴别器接收输入示例h*∈Rd,其最后一层softmax激活层输出一个k+1维向量,附带了对示例真伪的辨别信息;
6.4)如果h*为真实数据的真示例,即h*=hCLS,则SS-GAN鉴别器需要在k个类型中判断示例所属的事件类型;如果h*为伪示例,即h*=hfake,则SS-GAN鉴别器需要将所有示例分为k+1类。
CN202211434313.9A 2022-11-16 2022-11-16 一种融合多模态特征的事件检测方法 Pending CN116089644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211434313.9A CN116089644A (zh) 2022-11-16 2022-11-16 一种融合多模态特征的事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211434313.9A CN116089644A (zh) 2022-11-16 2022-11-16 一种融合多模态特征的事件检测方法

Publications (1)

Publication Number Publication Date
CN116089644A true CN116089644A (zh) 2023-05-09

Family

ID=86185687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211434313.9A Pending CN116089644A (zh) 2022-11-16 2022-11-16 一种融合多模态特征的事件检测方法

Country Status (1)

Country Link
CN (1) CN116089644A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041360A (zh) * 2023-06-02 2023-11-10 广州大学 一种基于自监督学习的网络流独立编码方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041360A (zh) * 2023-06-02 2023-11-10 广州大学 一种基于自监督学习的网络流独立编码方法

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111783474A (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN113705218B (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
Wang et al. Positive unlabeled fake news detection via multi-modal masked transformer network
CN114357167B (zh) 基于Bi-LSTM-GCN的多标签文本分类方法和系统
Jiang et al. Hierarchy-dependent cross-platform multi-view feature learning for venue category prediction
CN113535949B (zh) 基于图片和句子的多模态联合事件检测方法
CN116089644A (zh) 一种融合多模态特征的事件检测方法
CN112486467B (zh) 一种双重交互关系和注意力机制的交互式服务推荐方法
Wang et al. Generalised zero-shot learning for entailment-based text classification with external knowledge
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
Li et al. Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning
Fang et al. Multi-modal sarcasm detection based on Multi-Channel Enhanced Fusion model
CN115422920A (zh) 基于bert和gat的裁判文书争议焦点识别方法
Krishna et al. A Deep Parallel Hybrid Fusion Model for disaster tweet classification on Twitter data
CN112101559B (zh) 一种基于机器学习的案件罪名推断方法
Li et al. Short text sentiment analysis based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination