CN115455970A

CN115455970A - 一种多模态语义协同交互的图文联合命名实体识别方法

Info

Publication number: CN115455970A
Application number: CN202211112121.6A
Authority: CN
Inventors: 王海荣; 钟维幸
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-09

Abstract

本发明针对现有命名实体识别方法主要聚焦于文本数据的实体识别，忽略了现存的大量图片、文本等多模态数据具有语义互补性，提出了一种多模态语义协同交互的图文联合命名实体识别方法，建立了多模态语义协同交互的图文联合命名实体模型(Image‑TextJointnamedentityrecognition，ITJNER)，在ITJNER中加入了图像描述作为额外特征丰富了多模态特征表示，用于过滤从图像特征中引入的噪声并以文本形式总结图像语义信息，还构建了多模态协同交互的多模态语义融合模型，用于加强多模态信息融合并减少图像信息的语义偏差。最后，在TWITTER‑2015和TWITTER‑2017数据集上进行实验，与AdaCAN、UMT、UMGF、Object‑AGBAN等方法相比，本发明的准确率、回召率、F1值分别提高了0.67％、0.95％、0.93％，在Twitter2015数据集上，召回率提高了0.19％。

Description

一种多模态语义协同交互的图文联合命名实体识别方法

技术领域

本发明属于知识挖掘和知识管理技术领域，具体涉及一种多模态语义协同交互的图文联合命名实体识别方法。

背景技术

随着自媒体的广泛应用，致使互联网上的海量数据呈现图像、文本、视频等多模态交融态势，这些数据具有语义互补性，因此，多模态数据的知识抽取和应用成为研究热点，作为基础任务的多模态命名实体识别(multimodal named entity recognition，MNER)方法得到广泛关注。

MNER领域的初期工作旨在将图像信息利用起来以提升命名识别识别的效果，通过将单词与图像区域进行对齐的方式，获取与文本相关的有效视觉上下文。Diego首次在MNER任务中使用了视觉信息，将图文联合命名实体识别带入研究者的视野。其后Zhang等人提出了一种基于双向LSTM模型(BiLSTM)和共注意力机制的自适应共注意网络，这是首个在MNER研究上有突出表现的工作。同年Moon、Lu等人也相继提出自己的MNER方法，前者提出了一个通用的注意力模块用于自适应地降低或增强单词嵌入、字符嵌入和视觉特征权重，后者则提出了一个视觉注意模型，以寻找与文本内容相关的图像区域。在之前工作中仅用单个单词来捕捉视觉注意，该方式对视觉特征的利用存在不足，Arshad等人将自注意机制扩展到捕获两个词和图像区域之间的关系，并引入了门控融合模块，从文本和视觉特征中动态选择信息。但是在MNER中融合文本信息和图像信息时，图像并不是总是有益的，如在Arshad和Lu的工作中均提及了不相关图像所带来的噪声问题，因此如何在MNER中减小无关图像的干扰开始成为研究者的研究重点。

Meysam扩展设计了一个多模态bert来学习图像和文本之间的关系。Sun等人提出了一种用于预测图文相关性的文本图像关系传播模型，其可以帮助消除模态噪声的影响。为了缓解视觉偏差的问题，Yu等人在其模型中加入了实体跨度检测模块来指导最终的预测。而Liu等人则结合贝叶斯神经网络设计了一种不确定性感知的MNER框架，减少无关图像对实体识别的影响。Tian Y等提出了多头层次注意(MHA)来迭代地捕获不同表示子空间中更多的跨模态语义交互。上述方法学习了粗粒度的视觉对象与文本实体之间的关系。但粗粒度特征可能会忽略了细粒度视觉对象与文本实体之间的映射关系，进而导致不同类型实体的错误检测。为此，一些研究开始采用探索细粒度的视觉对象与文本实体之间的关系。Zheng等人提出了一种对抗性门控双线性注意神经网络(AGBAN)，将文本和图像的不同表示映射为共享表示。Wu等提出了一种针对细粒度交互的密集协同注意机制，它将对象级图像信息和字符级文本信息相结合来预测实体。Zhang^[14]提出了一种多模态图融合方法，充分利用了不同模态语义单元之间的细粒度语义。除了直接利用图像的原始信息，一些额外信息加入也有益于MNER任务，如Chen等人在其模型中引入了图像属性和图像知识，Chen等人则研究了使用图像的描述作为丰富MNER的上下文的一种方法。

虽然上述技术，都能实现MNER任务，然而，MNER仍面临两个问题：一是无关的图像信息带来的噪声干扰，二是图文语义交互中有效语义信息的丢失。

发明内容

针对上述存在的问题，本发明提出了一种多模态语义协同交互的图文联合命名实体识别方法，其引入图像描述以增强视觉数据的特征表示，建立多注意力机制耦合的多模态协同交互模块，通过多个跨模态注意力机制实现模态间语义的充分交互并过滤错误图像带来的噪声信息，实现图文联合下命名实体的有效识别。

实现本发明目的的技术解决方案为：

一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，包括以下步骤：

步骤1：数据采集

获取互联网上的推文数据信息，将推文数据表示为图文对集合：

其中，I为图像、S为文本，N为图像-文本数；

步骤2：建立多模态语义协同交互的图文联合命名实体模型

该模型包括多模态特征表示网络和多模态协同交互与序列标注网络，其中多模态特征表示网络用于对图文对进行特征抽取表示，多模态协同交互与序列标注网络用于实现不同特征的语义交互，减少视觉偏差；

步骤3：将推文数据信息输入到多模态语义协同交互的图文联合命名实体模型中，得到得到最终的命名实体识别的标注结果；

步骤4：根据标注结果实现推文数据的多模态命名实体识别。

进一步地，步骤2的具体建立步骤包括：

步骤2.1：建立多模态特征表示网络

步骤2.1.1：将数据集D中的数据进行预处理，对每个输入的文本进行标记处理，得到文本的标记表示向量E；

步骤2.1.2：将文本的标记表示向量E输入到ALBERT模型，进行文本特征提取，得到文本特征T：

T＝ALBERT(E) (2)

其中，T＝[T₀，T₁，T₂，...，T_n+1]为ALBERT模型的输出向量，

为E_i生成的上下文感知特征表示，d是向量的维数；

步骤2.1.3：对数据集D中的图像和图像描述进行特征提取，得到视觉块特征以及图像描述特征；

步骤2.2：建立多模态协同交互与序列标注

步骤2.2.1：基于文本特征、视觉块特征和图像描述特征获取文本隐藏层表示、图像隐藏层表示和图像描述隐藏层表示；

步骤2.2.2：基于多头跨模态注意力机制，利用图像描述隐藏层表示进行文本融合，最终得到描述感知文本表示；

步骤2.2.3：利用图像与描述感知文本做跨模态注意力，最终得到该跨模态注意力层生成的图像感知文本表示；

步骤2.2.4：基于动态视觉门控，得到文本感知视觉表示；

步骤2.3：将图像感知文本表示与文本感知视觉表示进行拼接，得到图像与文本最终融合的隐藏层表示；

步骤2.4：将得到的图像与文本最终融合的隐藏层表示转化为最佳标记序列y＝(y₀,y₁,...,y_n+1)，并增加CRF层标记全局最优序列；

步骤2.5：利用随机梯度下降学习算法训练参数θ，基于参数θ用维特比算法求得所有序列上打分最高的序列，并将其作为最终的命名实体识别的标注结果y^*：

其中，A为图像与文本最终融合的隐藏层表示。

进一步地，步骤2.1.1的具体操作步骤包括：

步骤2.1.1.1：对输入的文本S中不存在的字符使用[UNK]替代；

步骤2.1.1.2：在文本S中的每个句子的开头和结尾分别插入特殊标记[CLS]和[SEP]，得到文本S的标记表示向量E。

进一步地，步骤2.1.3的具体操作步骤包括：

步骤2.1.3.1：将输入的图像缩放为224×224像素大小，并通过随机剪切和归一化对图像进行预处理；

步骤2.1.3.2：将预处理后的图像输入101层的Res2Net-101网络，进行特征提取和表示，最终得到特征抽取后的视觉块特征U：

U＝Res2Net(I),I∈D (3)

其中，I表示预处理后的图像；

步骤2.1.3.3：将视觉块特征U进行线性转换得到V：

其中，

是一个权重矩阵；

步骤2.1.3.4：将V输入图像描述生成模型得到图像描述，再将图像描述输入到ALBERT模型中，得到图像描述特征表示。

进一步地，步骤2.1.3.4所述的图像描述生成模型包括编码器和解码器，解码器中设有多个LSTM单元，其将输入的图像的特征信息向量V输入到LSTM中得到LSTM的隐层状态向量h_i＝R^d，先通过式(5)计算输入图像的注意力权重值c_i：

再经过softmax层得到注意力权重a_i：

其中，W^c,V∈R^k×g,W^c,h∈R^k×d,W^a,V∈R^k是经过模型训练得到的参数矩阵，符号

为两个矩阵向量的加法运算符；

然后通过式(7)得到经注意力处理的视觉输出

最后将视觉输出

转换为自然语言，得到图像描述L：

其中，k是词汇表的大小，n是描述句的长度；L_i代表句子中的第i个单词。

进一步地，步骤2.2.1的具体步骤包括：

步骤2.2.1.1：在得到的文本特征表示T之后增加一个标准自注意力层，得到每个单词的文本隐藏层表示R＝(r₀，r₁，…，r_n+1)，其中

表示生成的文本隐藏层表示；

步骤2.2.1.2：在得到的图像描述特征L和视觉块特征U之后分别一个标准自注意力层，得到图像描述隐藏层表示O和图像隐藏层表示W：

O＝(o₀,o₁,...,o_n+1)

W＝(w₁,w₂,...,w₄₉) (9)

其中，

进一步地，步骤2.2.2的具体步骤包括：

步骤2.2.2.1：将图像描述隐藏层表示

作为查询，将文本隐藏层表示

作为键和值，将m设为多头数：

MHA(O,R)＝W_O[A₁(O,R),...A_m(O,R)]^T (11)

其中，A_i表示跨模态注意力的第i个头，MHA表示多头注意力，m为多头跨模态注意力的最大头数，

和

分别表示查询、键、值和多头注意力的权重矩阵；

步骤2.2.2.2：在多头跨模态注意层输出后堆叠前馈神经网络和层归一化得到描述感知文本表示P＝(p₀,p₁,…,p_n+1)如式(12)-(13)所示：

其中，FFN表示前馈网络，LN表示层归一化，

表示向量中的过渡向量。

进一步地，步骤2.2.3的具体步骤包括：

步骤2.2.3.1：将图像隐藏层表示

作为查询，将描述感知文本表示

作为键和值，在多头跨模态注意层输出后叠加前馈神经网络和层归一化后输出Z＝(z₁,z₂,...z₄₉)；

步骤2.2.3.2：在层归一化后再加入一个跨模态注意力层，以文本隐藏层表示R作为查询，将Z作为键和值，得到该跨模态注意力层生成的最终的图像感知文本表示H＝(h₀,h₁,...,h_n+1)。

进一步地，步骤2.2.4的具体步骤包括：

步骤2.2.4.1：将描述感知文本表示P作为查询，图像隐藏层表示W作为键和值，生成具有单词感知能力的视觉表示Q；

步骤2.2.4.2：通过视觉门控来动态控制每个视觉表示Q的贡献：

g＝σ((W_h)^TH+(Wq)^TQ) (14)

其中，

是权重矩阵，σ是元素级的S型激活函数；

步骤2.2.4.3：根据视觉门控g得到最终的文本感知视觉表示为G＝g·Q。

进一步地，步骤2.4的具体步骤包括：

步骤2.4.1：对于给定的输入句子S及其关联图像V的标签序列y＝(y₀,y₁,...,y_n+1)计算公式为：

其中，score(A、y)为特征得分，由过渡得分和发射得分两部分组成，其中T_yi,yi+1是从标签y_i到标签y_i+1的过渡分数，E_hi,yi是标签y_i的发射分数，

是y_i特有的权重参数，其中C是类数；P(y|S,V)为输出序列y的概率分布即输入句子S对应的标签概率；

步骤2.4.2：为使P(y|S,V)最大，采用对数最大似然估计得到其代价函数：

步骤2.4.3：采用动态规划算法Viterbi求得所有序列上打分最高的序列，并将其作为最终的命名实体识别的标注结果如式(19)所示：

其中，y'代表真实的标记值，Y表示所有可能的标记集合，包括不符合BIOES标记规则的标记序列。

本发明与现有技术相比，具有以下有益效果：

本发明提出了提出了一种多模态语义协同交互的图文联合命名实体识别方法，其以图像描述丰富了多模态特征表示，丰富了图像语义信息的表达，减少了图文交互中有效语义信息的丢失，提出一个将多头跨模态注意力、多头自注意力、门控机制相互耦合的多模态协同交互方法，可以在实现图文语义间有效融合的同时抑制多模态交互中的不完整或错误的语义信息。实验结果表明，本模型有助于提取图文间的共同语义信息且在图文关联度更高的数据中表现更优。

附图说明

图1为本发明所提的图文联合命名实体识别模型的整体架构图；

图2为ALBERT模型结构图；

图3为生成图像描述模型；

图4为多模态协同交互模块结构图；

图5a-图5b分别为Twitter2015和Twitter2017数据集上的实体量对比图；

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

一、多模态语义协同交互的图文联合命名实体模型(ITJNER)

本发明提出的ITJNER模型通过协同表示学习图像、文本的深层特征，使用自注意力、跨模态注意力、门控机制通过协同交互的方式实现跨模态语义交互，并加入条件随机场，利用标签间的依赖关系得到最优的预测标签序列。具体模型如图1所示，从图1可知，ITJNER模型主要包括多模态特征表示(图像信息抽取和文本信息抽取)、多模态协同交互与序列标注两个核心模块。

二、多模态特征表示

对图像与文本进行多模态特征表示是图文联合命名实体识别工作的基础，这同样适用于本发明提出的ITJNER模型。大量研究表明，将文本表示和视觉表示作为多模态特征相结合，可以提高语义提取任务的性能。因此，为方便描述对图文特征抽取表示工作，将图文对数据集形式化地表示为：

其中，I为图像、S为文本，N为图像-文本数；

1、针对文本特征抽取与表示

对文本特征的抽取是命名实体识别任务的基础，更加轻量化且不影响性能，有助于降低后续从算法模型到应用落地的难度，本发明采用了ALBERT模型对文本进行特征提取。

ALBERT是一个轻量级的BERT模型，其参数比BERT-large更少，且效果更好，为了降低参数量和增强语义理解能力，其引入了词嵌入矩阵分解和跨层参数共享策略，并使用SOP(Sentence Order Prediction)任务替换原先的NSP(Next Sentence Prediction)任务。在模型中使用了多层双向Transformer编码器对输入序列进行编码，ALBERT模型结构见图2。从图2可以看出ALBERT模型的核心结构包括：输入层、编码层、输出层，编码层中的每一个Trm对应着一个transformer编码器。

由于图文对数据集D的文本数据中可能存在无用的特殊字符，因此需要对数据集中的数据进行预处理，对每个输入的文本S进行标记处理，对不存在的字符使用[UNK]替代，并分别在每个句子的开头和结尾插入两个特殊的标记即[CLS]和[SEP]。形式上，设S＝[S₀，S₁，S₂，...，S_n+1]为修改后的输入句子，其中S₀和S_n+1对应插入的[CLS]和[SEP]。设E＝[E₀，E₁，E₂，...，E_n+1]为句子S的标记表示，其中E_i为字符向量、分段向量和位置向量的和。将E作为ALBERT编码层的输入。

T＝ALBERT(E) (2)

T＝[T₀，T₁，T₂，...，T_n+1]为ALBERT模型的输出向量，其中

为E_i生成的上下文感知特征表示即文本特征表示，d是向量的维数。

2、图像及图像描述特征的抽取与表示

接下来，在获得文本特征表示的同时对图像与图像描述特征进行特征抽取。为丰富对图像语义特征的表示，本发明加入了图像描述丰富多模态特征，利用图像特征与图像描述特征更好的总结图像语义信息。

(1)图像特征抽取

卷积神经网络(CNN)的多尺度表示能力，可用于提升图像特征的抽取能力，因此本发明采用预训练过的Res2Net来提取图像特征。Res2Net在粒度级别上表示了多尺度特征，并增加了每层的感受野，相比于传统ResNet网络，其在不增加计算复杂度的情况下,提高了网络的特征表示能力。更深层次的网络对视觉任务具有更强的表示能力，故而在综合考虑模型的性能与模型训练效率后，本发明最终选择采用101层的Res2Net-101用于图像特征的提取与表示。

由于不同图文对数据中的图像大小可能不同，因此将图像的大小统一缩放为224×224像素大小，并经随机剪切、归一化等图像预处理方法进行数据增强。然后将预处理后的图像输入Res2Net-101，得到特征抽取后的视觉块特征U，如式(3)所示：

U＝Res2Net(I),I∈D (3)

其中，I表示预处理后的图像，本发明在预训练的Res2Net-101中保留了最后一个卷积层输出以表示每幅图像，通过代码设置，固定经Res2Net进行特征抽取后获得的视觉块特征U＝(u₁，u₂，...，u₄₉)大小为49，其中u_i是第i个视觉块，由2048维向量表示。

在将图文特征(视觉块特征U和文本输出特征T)输入多模态协同交互模块前需保持图文特征向量的维度一致，因此对视觉块特征U应用了线性变换转换得到V＝(v₁，v₂，...，v₄₉)，如式(4)所示：

其中

是一个权重矩阵。

(2)图像描述特征抽取

为了加强图像与文本间的语义融合，本发明加入了图像描述，并将其视为图文间的过渡信息特征，图像描述可以过滤掉从图像特征中引入的噪声，同时也可以更好地总结图像的语义。本发明使用包含视觉注意力的编解码框架的图像描述生成模型来生成图像描述，该描述生成模型如图3所示。

从图3可以看出，本发明使用提取到的视觉块特征U作为长短时记忆网络LSTM的输入，LSTM通过动态地选择图像特征，提取句子内部单词之间的句法特征、单词位置编码信息，学习图像特征与句法特征及单词特征之间的映射关系，同时加入注意力机制赋予不同视觉区域以不同的权重，以此缓解视觉噪声干扰。将由(4)得到的图像的特征信息向量V＝(v₁，v₂，...，v₄₉)，将V输入LSTM得到LSTM的隐层状态向量h_i＝R^d用于计算视觉注意力：

再经过softmax层得到注意力权重：

为两个矩阵向量的加法运算，用于将向量添加到矩阵的每一列中。经式(5)计算得到的输入图像的注意力权重值，然后通过式(7)得到视觉注意力输出

将经注意力处理的视觉输出

用图像语义生成模型转换为自然语言，输出目标为：

再将图像描述L作为输入使用ALBERT编码器，得到C＝[C₀,C₁,C₂,...,C_n+1]，其中

是为L_i生成的上下文表示即图像描述特征表示，d是向量的维数。在得到多模态表示后，将其作为协同交互模块的输入，从而实现多模态特征的语义交互。

三、多模态协同交互与序列标注

多模态协同交互模块，获取图像、文本、图像描述特征，利用图像引导进行文本模态融合、文本引导进行图像模态融合，实现不同特征的语义交互，减少视觉偏差。图4为多模态协同交互模块的具体框架结构，其包括了以文本向量为键值的跨模态注意力、以图像向量为键值的跨模态注意力、以原始文本向量为键值的非标准自注意力、视觉门控机制。

在ALBERT得到的输出后添加一个标准的自注意力层，以获得每个单词的文本隐藏层表示R＝(r₀，r₁，…，r_n+1)，其中

表示生成的文本隐藏层表示。对得到的图像描述特征和视觉块特征添加一个标准自注意力层得到图像描述的隐藏层表示：

O＝(o₀,o₁,...,o_n+1)、W＝(w₁,w₂,...,w₄₉) (9)

其中

表示生成的图像描述隐藏层表示，

表示生成的图像隐藏层表示。

1、图像引导的文本模态融合

如图4左侧所示，为了利用相关图像以学习更好的文本表示，本发明采用多头跨模态注意力机制，首先利用图像描述来引导文本融合，将

作为查询，将

作为键和值，得到跨模态注意力表示：

MHA(O,R)＝W_O[A₁(O,R),...A_m(O,R)]^T (11)

其中，Ai指跨模态注意力的第i个头，m为多头跨模态注意力的最大头数，MHA表示多头注意力，

和

分别表示查询、键、值和多头注意力的权重矩阵。

在跨模态注意层(cross-modal attention)输出后堆叠前馈神经网络(FeedForward)和层归一化(Add&Norm)得到描述感知文本表示P＝(p₀,p₁,…,p_n+1)如式(12)-(13)所示：

其中，FFN表示前馈网络，LN表示层归一化，

表示向量中的过渡向量；

在利用图像描述填补了文本与相关图像间的语义空白后，再利用公式(9)得到的图像特征W与描述感知文本P做跨模态注意力，将

作为查询，将

作为键和值，与文本和图像描述的融合方法相似，叠加前馈神经网络(Feed Forward)和层归一化(Add&Norm)后输出Z＝(z₁,z₂,...z₄₉)，由于以视觉表示作为查询，所以生成的向量z_i都对应于第i个视觉块，而非第i个输入字符，因此另外加入了一个跨模态注意力层，以文本表示R作为查询，将Z作为键和值，得到该跨模态注意力层生成的最终的图像感知文本表示H＝(h₀,h₁,...,h_n+1)。

2、文本引导的图像模态融合

为了将每个单词与其密切相关的视觉块对齐，加入跨模态注意力层为视觉块分配不同的注意力权重。此处与图像引导文本模态的结构相同，区别在于此处将P作为查询，W作为键和值来实现跨模态注意力，从而实现了不同的效果，生成具有单词感知能力的视觉表示，并用Q＝表示(q₀，q₁，……，q_n+1)。

由于相关图像中的一些文本中的某些视觉块可能与单词没有任何关联同时文本中的一些单词如助词、数词等少与视觉块关联，因此，本发明应用一个视觉门控来动态控制每个视觉特征的贡献，式如(14)所示：

g＝σ((W_h)^TH+(Wq)^TQ) (14)

其中

是权重矩阵，σ是元素级的S型激活函数。基于动态视觉门控，得到最终的文本感知视觉表示为G＝g·Q。

在得到经多模态交互模块输出隐藏状态上下文特征向量H、G，本发明将H和G拼接，得到图像与文本最终融合的隐藏层表示A＝(a₀，a₁，…，a_n+1)，其中

3、标签依赖的序列标注

在命名实体识别任务中，输出标签对其邻域有着强依赖性，如I-LOC不会出现在B-PER后。而多模态协同交互只考虑了图文对数据中上下文的信息，并没有考虑到标签间的依赖关系，因此，本发明增加了一个CRF层来标记全局最优序列，并将上述得到的图像与文本最终融合的隐藏层表示A转化为最佳标记序列，CRF可以有效提升此类任务的性能。本发明对给定的输入句子S及其关联图像V的标签序列y＝(y₀,y₁,...,y_n+1)计算如下：

其中，score(A、y)为特征得分，由过渡得分和发射得分两部分组成，其中

是从标签y_i到标签y_i+1的过渡分数，

是标签y_i的发射分数，

是y_i特有的权重参数，其中C是类数。

本发明通过式(15)计算得到正确输出序列y的概率，即输入句子S得到正确对应标签的概率，模型的目标是使得正确标注的序列的概率最大，所以在训练过程中用对数最大似然估计得到该模型的代价函数，如式(18)所示。

采用对数最大似然函数的目的是鼓励模型生成正确的标签序列，因此采用动态规划算法Viterbi求得所有序列上打分最高的序列，并将其作为最终的命名实体识别的标注结果，如式(19)所示：

其中y'代表真实的标记值，Y表示所有可能的标记集合，包括不符合BIOES标记规则的标记序列。

实施例

为验证本文提出的方法，使用python语言，利用pytorch等技术在Ubuntu系统上搭建实验环境，进行实验。

1、数据集选择

本发明选用复旦大学使用Twitter API收集的推文所构建的多模态数据集Twitter2015和伦斯勒理工学院收集的多模态图文命名实体数据集Twitter2017作为数据来源，在Twitter-2015和Twitter-2017两个公共数据集上进行实验，数据集信息如表1所示。

表1数据集详情

Table 1 Data set details

对于实验中比较的每种单模态和多模态方法，考虑到文本数据的实际输入范围，将句子输入的最大长度设置为128，考虑到训练速度的内存大小将批处理大小设置为8。对于本方法，对预训练语言模型的参数设置多遵循原始论文设置。使用ALBERT-Base模型进行文本抽取初始化，使用预训练的101层Res2Net来初始化视觉表示，并在训练中保持大小固定。对于多头自注意力层和多头跨模态注意力层，考虑到训练效率与精度，在经过调整训练后本文使用了12个头和768个隐藏单元。同时经过对超参数多次微调，将学习率、dropout率和权衡参数λ分别设置为5e-5、0.1和0.5可以在两个数据集的开发集上获得最好的性能。

2、实验结果

在Twitter-2015和Twitter-2017上进行实验，并将使用召回率(Recall)、准确率(Pre)、F1值作为实验评价指标，与HBiLSTM-CRF-GVATT、BERT-CRF-GVATT、AdaCAN-CNN-BiLSTM-CRF等12种方法的实验对比结果如表2所示。

表2实验结果

Table 2 Experimental results

3、结果分析

实验结果表明，图文联合方法通常可以获得更好的性能，本方法在Twitter2017数据集上的准确率、回召率、F1值分别提高了0.67％、0.95％、0.93％，在Twitter2015数据集上，召回率提高了0.19％。

对于单模态方法，预训练的方法明显优于传统的神经网络。例如，BERT-CRF在Twitter-2017数据集上Pre、Recall、F1的表现比HiBiLSTM-CRF分别高出0.29％、6.3％、和3.34％，这表明了预训练模型在NER中具有明显的优势。同时在两个数据集使用CRF解码的BERT-CRF的性能略好于BERT，这说明了CRF层对NER的有效性。与单模态方法相比，多模态方法具有更好的性能。例如，就两个数据集上的F1值而言，加入视觉门控注意力GVATT后HBiLSTM-CRF性能提高了1.63％和1.5％。此外，AdaCAN-CNN-BiLSTM-CRF的性能比LSTM+CNN+CR分别好3.54％和2.78％。这表明，结合视觉背景确实有助于完成NER任务。

本发明对数据集的内容进行分析，统计了两个数据集的实体分布状态，通过对比图文间实体分布的不同，从而表现出数据集的图文关联程度，并人工抽样统计了数据集的图文对关联度，如图5所示。从图5可以看出，图像实体与文本实体并不是完全对应的，图像中的实体对象总量一般会多于其对应的文本所含的命名实体数量，这一差别也体现了数据集中图像文本对之间是存在无关联或弱关联情况的。对比数据集的图文内容可知，在Twitter2015中图文无关联或弱关联现象相比Twitter2017更多，因此本发明在Twitter2015数据集上表现略低于Twitter2017。

4、消融实验

为了研究本文图文联合命名实体识别模型中模块的有效性，笔者对模型的核心部件进行了消融实验。如表3所示，图像描述、视觉门控、图像感知文本表示均对模型生效起了重要影响，在去掉图像描述后，模型在Twitter2017数据集上的表现明显变差而在Twitter2015数据集上的表现却并没有下滑甚至略有提升，这佐证了上节的观点即加入图像描述所带来的影响会因图文数据关联度不同而不同，图文间关联度更大的情况下可以为NER任务提供帮助，同时若图文间关联度不足则可能会起到相反的作用。在多模态协同交互模块中，去除图像感知文本表示后性能明显下降，显示它对模型不可或缺的作用。而去除视觉门控也会导致轻微的性能下降，这体现了它对整个模型有着一定的重要性。

表3消融实验

Table 3 Ablation Study

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明专利进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，包括以下步骤：

步骤1：数据采集

其中，I为图像、S为文本，N为图像-文本数；

步骤2：建立多模态语义协同交互的图文联合命名实体模型

步骤4：根据标注结果实现推文数据的多模态命名实体识别。

2.如权利要求1所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2的具体建立步骤包括：

步骤2.1：建立多模态特征表示网络

T＝ALBERT(E) (2)

为E_i生成的上下文感知特征表示，d是向量的维数；

步骤2.2：建立多模态协同交互与序列标注

步骤2.2.4：基于动态视觉门控，得到文本感知视觉表示；

其中，A为图像与文本最终融合的隐藏层表示。

3.如权利要求2所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2.1.1的具体操作步骤包括：

步骤2.1.1.1：对输入的文本S中不存在的字符使用[UNK]替代；

4.如权利要求2所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2.1.3的具体操作步骤包括：

U＝Res2Net(I),I∈D (3)

其中，I表示预处理后的图像；

步骤2.1.3.3：将视觉块特征U进行线性转换得到V：

其中，

是一个权重矩阵；

5.如权利要求4所述的一种多模态语义协同交互的图文联合命名实体识别方法，其特征在于，步骤2.1.3.4所述的图像描述生成模型包括编码器和解码器，解码器中设有多个LSTM单元，其将输入的图像的特征信息向量V输入到LSTM中得到LSTM的隐层状态向量h_i＝R^d，先通过式(5)计算输入图像的注意力权重值c_i：