CN116089644A

CN116089644A - 一种融合多模态特征的事件检测方法

Info

Publication number: CN116089644A
Application number: CN202211434313.9A
Authority: CN
Inventors: 胡勇; 乔丹诺; 刘晓慧; 潘亚雄; 谢诚; 王丹; 孙小智; 张小卫; 何成奎
Original assignee: Dazhou Vocational And Technical College; Sichuan University; Chengdu Science and Technology Development Center of CAEP
Current assignee: Dazhou Vocational And Technical College; Sichuan University; Chengdu Science and Technology Development Center of CAEP
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-05-09

Abstract

本发明公开了一种融合多模态特征的事件检测方法，能够有效解决现有技术的不足，包括下述步骤：收集语料并进行预处理，得到待用图片数据和待用文本数据，后导入VilBERT模型中，获取图片各区域的特征向量表示序列V ^T和句中单个字的特征向量表示序列W ^T，再经VilBERT模型的Co‑Transformer层进行加权处理，而后经各自的Transformer层处理后，输出融合后的图文特征向量；通过CRF层对加权处理后形成的文本向量特征进行BIO标注；SS‑GAN生成器从输入的高斯分布中提取100维噪声向量生成伪示例，而后与真示例共同作为SS‑GAN鉴别器的输入，SS‑GAN鉴别器对真伪进行判断，如果认为是真示例，则需要预测该示例的事件类型。

Description

一种融合多模态特征的事件检测方法

技术领域

本发明涉及事件检测、多模态信息抽取技术等领域，具体的说，是一种融合多模态特征的事件检测方法。

背景技术

手机的大量普及，使得移动端应用，如微博、抖音、公众号等社交平台获得飞速的发展，并且成为人们获取网络信息越来越重要的渠道，也有越来越多的网民愿意在平台上发表自己的看法，发布、转发内容。新浪微博的2022年Q1财报显示，截至一季度末，微博月活跃用户达到5.82亿，同比净增5100万，日活跃用户达到2.52亿，同比净增2200万。数据表明，仅春节晚会相关话题的整体阅读量就超过了200亿，讨论量超过7000万。大量涌入网络的新信息也给社交平台的管理和监控带来挑战，如何快速精确地检索事件，是网络舆情分析与监测的第一步。

自动内容抽取会议(Automatic Content Extraction，ACE)将事件定义为“表明了多个特定元素相互作用而发生的特定事实”，并提出了事件包含的四大元素：触发词、事件类型、事件论元和论元角色。事件检测是事件抽取的第一步，它负责寻找文本中的事件触发词及相应的事件类型，也就是对语句中每个词语判断其是否为事件触发词，如果是则需要预测它所触发的事件类别。事件抽取根据这四种元素的抽取要求可以分解为4个子任务，分别是触发词检测、事件类型分类、论元识别和论元角色匹配任务。其中，触发词检测和事件类型分类合并为事件检测任务。

传统的事件检测通常为单模态事件检测，即特征学习以微博文本、图片为输入，利用深度模型分别学习各自的语义特征。通过这种方法训练出来的模型基础知识并不可靠，如果数据量不足或者有偏差，模型的泛化能力会很差。此外，中文事件检测通常需要先对语料进行分词处理，分词容易出现误差传递，进而导致触发词提取不准确的问题。再者，由于只有少数微博自带用户的“话题”标签，大多数数据为无标签数据，过度依赖标签的训练会消耗大量的人力物力，代价太大。

发明内容

本发明的目的在于提供一种融合多模态特征的事件检测方法，基于生成对抗网络和互注意力机制的神经网络实现，采用VilBERT模型中的Co-Attention机制对图文信息进行交互加权，然后使用CRF模型生成基于远距离的动态字向量的触发词特征，再通过SS-GAN模型引入伪示例，降低模型对带标签数据的依赖。

本发明通过下述技术方案实现：一种融合多模态特征的事件检测方法，包括下述步骤：

1)收集语料并进行预处理，得到待用图片数据和待用文本数据；

2)将待用图片数据导入VilBERT模型的图片流中，对图片的特征进行编码，获取图片各区域的特征向量表示序列V^T，且

其中，v为图片中各区域向量，T为转置符号，v的下标为区域向量编号；

3)将待用文本数据导入VilBERT模型的文本流中，对文本的特征进行编码，获取句中单个字的特征向量表示序列W^T，且

并构建独立于图片的多层Transformer，其中，w为字向量，T为转置符号，w的下标为字向量编号；

4)将图片各区域的特征向量表示序列V^T和句中单个字的特征向量表示序列W^T导入VilBERT模型中，经VilBERT模型的Co-Transformer层进行加权处理，而后经各自的Transformer层处理后，输出融合后的图文特征向量；

5)CRF模型对所有句中单个字的特征向量表示序列W^T经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征集进行BIO标注，最终输出有事件BIO标注的图文特征向量，作为真实数据的真示例h_CLS；其中，“B”表示为事件触发词的起始，“I”表示为事件触发词的中间，“O”表示为非事件触发词；文本向量特征为字向量、位置向量和分割向量的加和，其中，分割向量为0；

6)SS-GAN生成器从输入的高斯分布中提取100维噪声向量生成伪示例，而后将伪示例与步骤5)的输出(即添加事件标注的图文特征向量，作为真实数据的真示例h_CLS，其同时包含带标签和不带标签的数据)共同作为SS-GAN鉴别器的输入，SS-GAN鉴别器进行真伪判断，如果判为真示例，则预测该示例的事件类型。

进一步，为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述步骤1)包括下述具体步骤：

1.1)提取多模态社交数据中的图片数据，并转换为同尺寸，单独存储，形成待用图片数据；

1.2)提取多模态社交数据中的文本数据，删除其中的HTML标签、URL、用户、转发、主题标签；

1.3)对文本数据进行去停用词处理；

1.4)对文本数据中的俚语、俗语、缩略语进行转换，形成待用文本数据；

其中，对于带有话题的多模态社交数据，将话题作为待用图片数据和待用文本数据的标签，否则归为无标签数据。

进一步，为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述步骤2)的具体步骤为：

2.1)对图片数据进行归一化处理，将图片边界区域的左上角和右下角的坐标以及图片区域的覆盖占比作为图片编码的5个维度，实现图片空间位置的编码；

2.2)通过映射将图片编码维数与符号特征的维数相匹配，并进行求和；

2.3)将特定的IMG token作为图片编码的起始，并用带有空间位置编码信息的图片特征的均值池化表征整个图片；

2.4)经Embedding层，获取图片各区域的特征向量表示序列V^T，且

进一步，为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述步骤3)包括下述具体步骤：

3.1)将待用文本数据导入VilBERT模型的文本流中以特定的CLS作为一个句子的起始，SEP作为语句的分割进行文本数据的分割；

3.2)步骤3.1)的所得经VilBERT模型的Embedding层，形成句中单个字的特征向量表示序列W^T，且

3.3)将文本流的Transformer层数设置为12，采用BERT Base版本，构建独立于图片的多层Transformer。

进一步，为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述步骤4)包括下述步骤：

4.1)将图片各区域的特征向量表示序列V^T和句中单个字的特征向量表示序列W^T导入VilBERT模型中；

4.2)VilBERT模型的Co-Transformer层经过权值矩阵分别计算出图片流的V_V、K_V、Q_V和文本流的V_W、K_W、Q_W，其中V_V为图片流的Value向量，K_V为图片流的Key向量，Q_V为图片流的Query向量，V_W为文本流的Value向量，K_W为文本流的Key向量，Q_W为文本流的Query向量；

4.3)加权交互：根据文本上下文通过公式

给图片区域加权，其中，Z为特征的输出值，i指Co-Transformer层中图片流的迭代层数，Q为Query向量，K为Key向量，V为Value向量，下标V为图片流，下标W为文本流，上标T为转置符号，d_k为维度；或者将图片中各区域的信息作为上下文通过公式

给文本加权，其中，Z为特征的输出值，j指Co-Transformer层中文本流的迭代层数，Q为Query向量，K为Key向量，V为Value向量，下标V为图片流，下标W为文本流，上标T为转置符号，d_k为维度；

4.4)加权交互之后，经由图片流和文本流各自独立的Transformer层处理，输出融合后的图文特征向量；其中图片流的Transformer层数设置为6，文本流的Transformer层数设置为12。

进一步，为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述图片流的V_V、K_V、Q_V和文本流的V_W、K_W、Q_W通过下述公式计算得到：

其中，下标V表示图片流特征，下标W表示文本流特征，H代表中间表示，W代表权值，i为Co-Transformer层中图片流的迭代层数，j为Co-Transformer层中文本流的迭代层数，Q为Query向量，V为Value向量，K为Key向量。

进一步，为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述步骤5)中：假定句子长度为n，句子序列为X＝(x₁,x₂,……,x_n)，对应的预测标签序列为Y＝(y₁,y₂,……,y_n)，预测序列的最终得分为：

其中，T表示标签间的转移分数

表示每个字到对应y_i标签的分数；

由于预测序列有多种可能性，其中只有一种是最符合的，应对所有可能序列做全局归一化，产生原始序列到预测序列的概率：

其中，X为输入，y为输出序列中每个字的标签。

进一步，为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述BIO标注流程为：

对于文本向量特征集

如果

是触发词的一部分，则将第一个字的特征向量标注为B，触发词中的其他字的特征向量标注为I，其中，B和I根据ACE2005标准，划分为8种事件类型中的33种子事件；如果

不是触发词的一部分，则标注为O；其中，h为句中单个字的特征向量表示序列W^T经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征，w为文本流输出，i为文本向量特征的编号。

进一步的为更好地实现本发明所述的一种融合多模态特征的事件检测方法，特别采用下述设置方式：所述步骤6)的具体步骤为：

6.1)SS-GAN生成器的多层感知机(MLP)从导入的高斯分布N(μ，σ₂)中提取100维噪声向量，经多层间距处理生成伪示例h_fake，且h_fake∈R^d；

6.2)将伪示例h_fake和真实数据的真示例h_CLS混合形成输入示例h_*，且h_*∈R^d；

6.3)SS-GAN鉴别器接收输入示例h_*∈R^d，其最后一层softmax激活层输出一个k+1维向量，附带了对示例真伪的辨别信息；

6.4)如果h_*为真实数据的真示例，即h_*＝h_CLS，则SS-GAN鉴别器需要在k个类型中判断示例所属的事件类型；如果h_*为伪示例，即h_*＝h_fake，则SS-GAN鉴别器需要将所有示例分为k+1类。

本发明与现有技术相比，具有以下优点及有益效果：

本发明提出一种融合多模态特征的神经网络GAN-VilBERT-CRF，来实现对微博平台的事件检测，通过VilBERT模型中的Co-Attention机制融合图文信息，并使用CRF模型实现基于远距离的动态字向量的触发词特征，解决了中文语料库分词难、不准确的问题，细化了事件分类；最终通过SS-GAN模型解决带标签数据较少的问题，从而提升事件检测的效率和精确度。

本发明于生成对抗网络和互注意力机制的神经网络实现，采用VilBERT模型中的Co-Attention机制对图文信息进行交互加权，然后使用CRF模型生成基于远距离的动态字向量的触发词特征，再通过SS-GAN模型引入伪示例，降低模型对带标签数据的依赖(原因在于SS-GAN利用自然图像合成技术，使用推断得出的数据标签，来替换手工标记的真实标签)。

附图说明

图1为事件检测模型图。

图2为神经网络GAN-VilBERT-CRF的模型架构。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述。显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

名词解释：

文本流：VilBERT模型中用于处理文本数据的部分。

图片流：VilBERT模型中用于处理图像数据的部分。

GAN-VilBERT-CRF：由SS-GAN、VilBERT、CRF三种网络(模型)拼接而成的神经网络。

VilBERT模型：适用于训练多模态数据的神经网络。

BERT Base版本：BERT的基础版本。

Co-Attention：互注意力机制，同时对多个输入序列进行操作，并共同学习它们的注意力权重，以捕获这些输入之间的交互作用。

Co-Transformer层：VilBERT模型中自带的模块，Transformer层的变体，用于实现Co-Attention功能。

多层Transformer：经由多个Transformer层迭代，随着层数的增加，网络的容量更大，表达能力也更强。

Transformer层：进行Co-Attention、位置信息表达、残差连接与归一化、softmax等操作的模块。

Embedding层：将单词从原先所属的空间映射到新的多维空间中，对向量进行降维。

CRF模型：为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练过程中，这些约束可以通过CRF模型自动学习。

SS-GAN生成器：生成图像以尽可能迷惑鉴别器。如果SS-GAN鉴别器无法区分生成器进行的真实输入和虚假输入，则SS-GAN生成器获胜，并且不对其算法进行任何更改；否则不断更新算法。

SS-GAN鉴别器：接收图像进而鉴别图像的真伪。

SS-GAN模型：带有自我监督的GAN模型。继承了GAN的优势，同时不需要带标签数据。

IMG token：一个图片区域向量的起始标识符。

CLS：一个句子的起始标识符。

SEP：连接符，又为一个句子的结束标识符。

实施例1：

本发明设计出一种融合多模态特征的事件检测方法，包括下述步骤：

1)收集语料并进行预处理，得到待用图片数据和待用文本数据，包括下述具体步骤：

1.3)对文本数据进行去停用词处理；

其中，v为图片中各区域向量，T为转置符号，v的下标为区域向量编号，包括下述具体步骤：

2.4)经Embedding层，获取图片各区域的特征向量表示序列V^T，且

并构建独立于图片的多层Transformer，其中，w为字向量，T为转置符号，w的下标为字向量编号，包括下述具体步骤：

4)将图片各区域的特征向量表示序列V^T和句中单个字的特征向量表示序列W^T导入VilBERT模型中，经VilBERT模型的Co-Transformer层进行加权处理，而后经各自的Transformer层处理后，输出融合后的图文特征向量：

4.2)VilBERT模型的Co-Transformer层经过权值矩阵分别通过下述公式计算出图片流的V_V、K_V、Q_V和文本流的V_W、K_W、Q_W：

其中，下标V表示图片流特征，下标W表示文本流特征，H代表中间表示，W代表权值，i为Co-Transformer层中图片流的迭代层数，j为Co-Transformer层中文本流的迭代层数，Q为Query向量，V为Value向量，K为Key向量；V_V为图片流的Value向量，K_V为图片流的Key向量，Q_V为图片流的Query向量，V_W为文本流的Value向量，K_W为文本流的Key向量，Q_W为文本流的Query向量；

4.3)根据文本上下文通过公式

5)CRF模型对所有句中单个字的特征向量表示序列W^T经VilBERT模型的Co-Transformer层加权处理后形成的文本向量特征集进行BIO标注，最终输出有事件BIO标注的图文特征向量，作为真实数据的真示例h_CLS；其中，“B”表示为事件触发词的起始，“I”表示为事件触发词的中间，“O”表示为非事件触发词；文本向量特征为字向量、位置向量和分割向量的加和，其中，由于输入中只有一个句子，所以分割向量为0；

BIO标注流程为：

对于文本向量特征集

如果

假定句子长度为n，句子序列为X＝(x₁,x₂,……,x_n)，对应的预测标签序列为Y＝(y₁,y₂,……,y_n)，预测序列的最终得分为：

其中，T表示标签间的转移分数

表示每个字到对应y_i标签的分数；

其中，X为输入，y为输出序列中每个字的标签。

6)SS-GAN生成器从输入的高斯分布中提取100维噪声向量生成伪示例，而后将伪示例与步骤5)的输出(即添加事件标注的图文特征向量，作为真实数据的真示例h_CLS，其同时包含带标签和不带标签的数据)共同作为SS-GAN鉴别器的输入，SS-GAN鉴别器进行真伪判断，如果判为真示例，则预测该示例的事件类型，包括下述具体步骤：

实施例2：

一种GAN-VilBERT-CRF模型构建方法，包括以下步骤：

步骤1、语料收集并进行预处理，对于自带话题的数据，将话题作为其标签，否则归为无标签数据，形成训练样本集。

步骤2、对步骤1收集的训练样本集进行数据清洗，形成数据集

步骤3、切分数据集，将训练样本集按照7：2：1的比例划分为训练集

验证集

和测试集

步骤4、搭建基于VilBERT预训练模型的深度学习网络并加载预训练参数获得训练样本的深度表达：H＝VilBERT(S)。

步骤5、在VilBERT预训练模型后添加一层CRF模型，通过考虑标签之间的相邻关系获得全局最优标签序列，计算过程如下：

其中，score表示评估分数，T是转换矩阵，

表示标签转移分数，

表示该字符的第y_i个标签的分数。根据评估分数计算序列X到标签y的概率为：

其中，X为输入，y为输出序列中每个字的标签。

步骤6、经由CRF模型输出的示例与SS-GAN生成器生成的假示例混合，再交由SS-GAN鉴别器判断真伪，降低模型对标签数据的依赖，优化SS-GAN鉴别器损失和生成器损失。在训练过程中，将每个类别的样本以对数

进行复制，以确保每批中都存在一些标记实例，以避免由于对抗性训练的无监督成分而产生差异。

步骤7、进行GAN-VilBERT-CRF模型的训练与测试，使用事件检测的精确度(P)、召回率(R)和F值(F-score)来评估模型的性能：

步骤8、输出GAN-VilBERT-CRF模型。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。