CN112733533A

CN112733533A - 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法

Info

Publication number: CN112733533A
Application number: CN202011642129.4A
Authority: CN
Inventors: 孙霖; 王跻权; 翁芳胜; 孙宇轩; 郑增威
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30
Anticipated expiration: 2040-12-31
Also published as: CN112733533B

Abstract

本发明涉及一种基于BERT模型及文本‑图像关系传播的多模态命名实体识别方法，包括：步骤1、设计RpBERT，RpBERT为基于文本‑图像关系传播的多模态命名实体识别的BERT模型；步骤2、通过不同的概率门G，进行关系传播；关系传播包括软关系传播和硬关系传播的两种门控传播；步骤2.1、软关系传播：将概率门G的输出视为连续分布，根据文本‑图像关系的强弱对视觉特征进行过滤；步骤2.2、硬关系传播；步骤3、采用多任务学习方式为多模态命名实体识别训练RpBERT。本发明的有益效果是：本发明在实验中深入分析了使用关系传播前后视觉注意的变化。并在多模态命名实体识别的数据集上达到了可达到的最先进的性能。

Description

一种基于BERT模型及文本-图像关系传播的多模态命名实体识别方法

技术领域

本发明属于社交推文的多模态命名实体识别领域，主要涉及在多模态BERT模型中引入了一种文本-图像关系传播的方法，并提出一种多任务算法来训练和验证关系传播对多模态命名实体识别数据集的影响。

背景技术

近年来，社交媒体帖子的多模态命名实体识别受到了关注。Moon等人于2018年在In Proceedings of the 2018Conference of the North American Chapter of theAssociation for Computational Linguistics学术会议上发表的论文《MultimodalNamed Entity Recognition for Short Social Media Posts》中提出了一个模态注意力模块。该模块计算了单词嵌入、字符嵌入和视觉特征的加权模态组合。Lu等人在InProceedings of the 56th Annual Meeting of the Association for ComputationalLinguistic会议上发表论文《Visual attention model for name tagging inmultimodal social media》中提出了一种用视觉注意模型来寻找与文本内容相关的图像区域。通过文本查询向量和区域视觉表征之和的线性投影计算图像区域的注意权重。提取的视觉上下文特征被合并到biLSTM模型的字级输出中。Zhang等人(2018)在In Thirty-Second AAAI Conference on Artificial Intelligence会议上表的论文《Adaptivecoattention network for named entity recognition in tweets》设计了一个自适应共同注意网络(ACN)层，该层位于LSTM和CRF层之间。ACN包含一个门控多模态融合模块，用于学习视觉和语言特征的融合向量；设计了一个过滤门来判断融合特征是否有助于提高每个令牌的标注精度，过滤门的输出分数由sigmoid激活函数计算。Arshad等人在In2019International Conference on Document Analysis and Recognition会议上发表的论文《Aiding Intra-Text Representations with Visual Context for MultimodalNamed Entity Recognition》也提出了每个分词的门控多模态融合表示，门控融合是视觉注意特征和词嵌入对齐特征的加权和。视觉注意特征由VGG-19(VGG-19是由Simonyan和Zisserman在2014发表的论文《Very deep convolutional networks for large-scaleimage recognition》中提出的模型)视觉特征的加权和计算得出，权重是单词查询和图像特征之间的附加注意分数；当视觉线索与文本相关时，图像的整体注意力就不能被提取出来。图2(b)展示了失败的例子，其中不相关的图像提供了误导性的视觉注意并产生了预测误差。

预训练模型BERT在自然语言处理(NLP)中取得了巨大的成功；其中，BERT是Devlin等人在2018年发表的论文《BERT:Pre-training of Deep Bidirectional Transformersfor Language Understanding》中提出的自然语言处理预训练模型，其在多个自然语言处理任务中取得了最先进的性能。最新的基于BERT架构的预训练视觉语言模型层出不穷，如VL-BERT、ViLBERT、VL-BERT、UNITER和LXMERT等。从以下三个方面对现有的视觉语言模型进行总结和比较：

1)结构：VisualBERT、VL-BERT和UNITER的结构与BERT相同，将图像和文本标记组合成一个序列并输入到BERT中以学习上下文嵌入。LXMERT和ViLBERT将视觉和语言处理分成两个流，分别通过跨模态或共注意变换层进行交互。

2)视觉表现：图像特征可以表示为感兴趣区域(RoI)或块区域，所有上述预训练模型都使用Fast R-CNN(用于物体检测)来检测对象和集合的感兴趣区域的特征，RoI检测的目的是降低视觉信息的复杂度，并利用语言线索进行掩蔽区域分类。然而，对于不相关的文本-图像对，视觉特征的不可用性和显著性会增加对语言特征的干扰。此外，对象识别类别有限，许多命名实体没有相应的对象类别，例如公司商标和风景名胜区。

3)预训练任务。这些模型是在COCO caption数据集(由Chen等人于2015年提出的一个大型图文对数据集)或概念性字幕(由Sharma等人于2018年提出的一个大型图文对数据集)等image caption数据集上训练的。预训练任务主要包括：掩模语言建模(MLM)和掩模区域分类(MRC)；ITM任务是一种二进制分类，它将字幕数据集中的对定义为阳性，并将成对示例中的图像或文本替换为其他随机选择的样本作为阴性；假设标题数据集中的文本-图像对具有高度相关性，但这一假设在推特的文本-图像对中无法成立。

视觉特征总是直接与语言特征串联，或者在最新的多模态模型中通过注意权重提取，而不管图像是否对文本的语义有贡献，导致推文的多模态命名实体识别示例失败。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于BERT模型及文本-图像关系传播的多模态命名实体识别方法。

这种基于BERT模型及文本-图像关系传播的多模态命名实体识别方法，包括以下步骤：

步骤1、设计RpBERT，RpBERT为基于文本-图像关系传播的多模态命名实体识别的BERT模型；

步骤1.1、RpBERT的输入序列为：

上式中，T＝{w₁，...，w_n}表示语言特征序列(T＝词嵌入+段嵌入+位置嵌入)；V＝{v₁，...，v_m}表示视觉特征序列，(V＝词嵌入+段嵌入+位置嵌入)；[CLS]表示文本-图像关系分类，[SEP]表示文本和图像特征之间的分离；

步骤1.2、由BERT标记器生成单词标记序列，将一个未知单词分解为多个单词片段标记；

步骤1.3、将视觉特征表示为块区域(最新的视觉语言BERT模型将视觉特征表示为感兴趣区域)，视觉特征由ResNet从图像中提取(ResNet由He等人于2016的论文Deepresidual learning for image recognition中提出)；ResNet中最后一个卷积层的输出尺寸为7×7×d_v，其中7×7表示图像中的49个块区域；将块区域

的提取特征排列成图像块嵌入序列{b₁＝f_1，1W^v，...，b₄₉＝f_7，7W^v}，其中

与BERT的嵌入大小相匹配，当使用ResNet-152时d_v＝2048；根据BERT的实践，标记的输入嵌入是单词标记嵌入(或图像块嵌入)、片段嵌入和位置嵌入的总和。段嵌入从两种类型中学习，其中A表示文本标记，B表示图像块。词性标记的位置嵌入是从句子中的词序来学习的，而视觉标记的位置是相同的；

步骤1.4、将标记[CLS]的输出作为文本-图像关系分类任务一中二进制分类器的输入，并输入到全连接层中；使用图1中所示的概率门G来产生概率[π₀，π₁]，则文本图像相关得分被定义为阳性的概率为：

r＝π₁ (2)

使用相关分数来构造视觉掩模矩阵R：

文本-图像关系通过R ⊙ V传播到RpBERT，其中⊙是按元素的乘法；例如，如果π₁＝0，则放弃所有视觉特征；最后将与视觉线索融合的标记T的输出输入到命名实体识别模型中进行任务二训练；

步骤2、通过不同的概率门G，进行关系传播；关系传播包括软关系传播和硬关系传播的两种门控传播；

步骤2.1、软关系传播：将概率门G的输出视为连续分布，根据文本-图像关系的强弱对视觉特征进行过滤，将概率门G定义为softmax函数：

G_s＝softmax(x) (4)

步骤2.2、硬关系传播；

步骤3、采用多任务学习方式为多模态命名实体识别训练RpBERT，由图1中两个向上的箭头表示。

作为优选，步骤2.2具体包括如下步骤：

步骤2.2.1、将概率门G的输出视为绝对分布，将概率门G定义为：

G_h1＝[softmax(x)＞0.5] (5)

上式中，[.]是艾弗森括号指示符函数，当其参数为真时取值1，否则取0；在概率门G为0时视觉功能被丢弃，或在概率门G为1时视觉功能被选择；由于

是不可微的，本发明在实现代码中将

从计算图中分离出来，并使梯度等于softmax梯度。Jang等人在2017年发布的论文《Categorical Reparameterization with Gumbel-Softmax》中提出使用Gumbel-Softmax来给出分类分布的连续近似。受此启发，本发明将门G定义为硬关系传播的Gumbel-Softmax。

步骤2.2.2、将概率门G定义为：

G_h2＝softmax((x+g)//τ) (6)

上式中，g是从耿贝尔分布采样的噪声，τ是温度参数；当温度接近0时，耿贝尔分布的样本变为一个热样本，Gumbel-Softmax分布与分类分布相同；在训练阶段，使用1到0.1的参数表对温度τ进行退火。

作为优选，步骤3具体包括如下步骤：

步骤3.1、任务一：文本-图像关系分类；使用彭博数据集的图像任务分割进行文本-图像关系分类，这种分类试图确定图像的内容是否提供了文本之外的附加信息；设xi为推文的文本图像对，通过交叉熵计算二元关系分类的损失L：

上式中，p(x)是softmax计算的正确分类的概率；

步骤3.2、任务二：通过关系传播的多模态命名实体识别。

作为优选，步骤3.2具体包括如下步骤：

步骤3.2.1、使用掩模矩阵R来控制加性视觉线索，RpBERT的输入序列是[CLS]T[SEP]R⊙V；为了进行命名实体识别，使用biLSTM-CRF模型(双向长短时记忆网络与条件随机场的结合，普遍作为命名实体识别任务的基线任务使用)作为基线模型，biLSTM-CRF模型由双向LSTM和条件随机场组成(条件随机场是一类常用于模式识别和机器学习的统计建模方法，用于结构化预测。分类器预测单个样本的标签而不考虑“邻近”样本，CRF可以考虑上下文)，biLSTM-CRF模型的输入e_k是单词和字符嵌入的串联；CRF使用每个分词的biLSTM隐藏向量用实体标签标记序列；为了评估RpBERT模型，将连接

作为biLSTM的输入；biLSTM的输入表示为：

步骤3.2.2、对于词汇表外的单词，对BERT标记化子词的输出进行平均；

步骤3.2.3、在biLSTM-CRF中，命名实体标记是根据标准CRF模型进行训练的；输入隐藏的向量模型

对于标签序列，标签序列y的概率为：

上式中，y为标签序列，中Y为句子的所有可能的标签序列，s(H；y)是特征函数建模转换；

步骤3.2.3、任务二计算最小化训练数据的负对数似然：

本发明的有益效果是：本发明在实验中深入分析了使用关系传播前后视觉注意的变化。并在多模态命名实体识别的数据集上达到了可达到的最先进的性能。

附图说明

图1为RpBERT架构图；

图2为多模态命名实体识别的视觉注意示例图；

图3为相关得分r和S_TV之间的分布图；其中图3(a)内的RpBERT不带关系传播，图3(b)内的RpBERT带有关系传播；

图4为使用带有关系推理的RpBERT和不带有关系推理的RpBERT分别测试在以前的工作中五个命名实体识别失败的案例图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

本发明利用一个多模态变量BERT来执行具有不同文本-图像关系的推特中的多模态命名实体识别。像大多数视觉语言的BERT一样，将BERT应用于多模式输入。

作为一种实施例，一个基于文本-图像关系传播的多模态命名实体识别的BERT模型(全文中将此模型简称为RpBERT)，如图1所示；RpBERT将BERT扩展到一个多任务框架，用于多模态命名实体识别的文本-图像关系分类和可视化语言学习。

利用下表1的算法首先执行任务一对彭博(Bloomberg)数据集进行文本-图像关系训练，然后执行任务二训练两个推特数据集上的命名实体识别模型；算法1中θ_RpBERT,θ_ResNet,θ_FCs,θ_biLSTM和θ_CRF分别表示RpBERT、ResNet、FCs、biLSTM和CRF的参数；

表1彭博文本-图像关系数据集中的四种文本-图像关系表

文本与图像的关系	图片增加了推文的语义	文本被表示在图片中	百分比(％)
				R1	√	√	18.5
R2	√	×	25.6
				R3	×	√	21.9
R4	×	×	33.8

上表1中，R1、R2、R3和R4均为文本-图像关系的代号；

本实施例涉及的数据集有：

1)Twitter100k数据集：该数据集由Hu等人于2017提出，由100,000个从推特随机抓取的图像文本对组成。

2)图像关系数据集：在此数据集由Vempala和

-Pietro于2019年提出，作者将推文注释为四种类型的文本-图像关系，如表1所示。

3)复旦大学的MNER Twitter数据集，该数据集由zhang等人于2018年提出：作者使用通过Twitter API收集的推特图像文本对。

4)Snap Research的MNER Twitter数据集由lu等人于2018年提出：实体类型分为人员，位置，组织和其他。

一、实验参数设置：

本实施例在biLSTM CRF中使用300维FastText Crawl单词向量(Mikolov等人在InProceedings of the International Conference on Language Resources andEvaluation会议上发表的论文《Advances in Pre-Training Distributed WordRepresentations》中提出的词向量)；所有图像都将被重塑为224×224的大小，以匹配ResNet的输入大小；本实施例使用ResNet-152来提取视觉特征，并以学习速率1e-4对其进行微调；在基于文本-图像关系传播的多模态命名实体识别的BERT模型中，FC层是一个线性神经网络，之后是一个ReLU激活；RpBERT的结构与BERT相同，从BERT加载预先训练好的权值来初始化RpBERT模型；下表2显示了RpBERT和biLSTMCRF模型中的超参数值。

表2 RpBERT和biLSTMCRF模型中的超参数表

超参数	值
		LSTM隐藏状态大小	256
LSTM+RpBERT隐藏状态大小	1024
		LSTM层数	2
数据批大小	8
		字符嵌入维数	25
学习率	1e-2
		微调RpBERT和ResNet的学习速率	1e-4
剪辑梯度范数	5.0
		优化器	SGD
丢弃率	0.5

二、文本-图像关系分类的性能研究：

下表3显示了RpBERT在Bloomberg数据的测试集上用于文本图像关系分类的性能。在网络结构方面，Lu et al.(2018)将多模态特征表示为LSTM语言特征和InceptionNet(Szegedy等人在2015发表的论文《Going deeper with convolutions》中提出的视觉模型)视觉特征的串联。结果表明，基于BERT的视觉语言模型显著优于Lu等人的方法，在彭博数据的测试集中，RpBERT的F1分数比Lu et al.(2018)提高了7.1％。

表3 RpBERT在Bloomberg数据的测试集上用于文本图像关系分类的性能数据表

下表4给出了实验结果的G_s、

和

表4 F1得分中文本图像关系分类结果表(％)

表4中的带*的缩写现解释如下：

“biLSTM-CRF*”指Lample等人在In Proceedings of the 2016Conference ofNAACL-HLT会议上发表的论文《Neural Architectures for Named Entity Recognition》中提出的方法，后来基本上作为命名实体识别任务的基线模型；

“Zhang等人(2018年)*”指Zhang等人在In Thirty-Second AAAI Conference onArtificial Intelligence会议上表的论文《Adaptive coattention network for namedentity recognition in tweets》中提出的方法；

“Lu等人(2018年)*”指*Lu等人在In Proceedings of the 56th Annual Meetingof the Association for Computational Linguistic会议上发表论文《Visualattention model for name tagging in multimodal social media》中提出的方法只对文本执行。

“biLSTM-CRF+图像且t＝0”意味着视觉特征被放置在词序之前的LSTM开头，类似于(Vinyals等人，2015)。

“BiLSTM-CRF+BERT”是指句子的上下文BERT嵌入被连接成biLSTM-CRF的输入。

“biLSTM-CRF+RpBERT”是指输入文本图像对，并将上下文视觉语言嵌入作为bi-LSTM-CRF的输入，如多任务多模态命名实体识别训练流程所述。

结果表明，在复旦大学和Snap多模态数据库上，最佳的“biLSTM-CRF+RpBERT”比“biLSTM-CRF”分别提高了3.4％和7.3％。就视觉特征的作用而言，“biLSTM-CRF++RpBERT”的增加与“biLSTM-CRF+BERT”相比平均达到1.9％，大于基于biLSTM CRF的多模态模型，如Zhang et al.(2018)和Lu et al.(2018)与biLSTM CRF相比；这表明RpBERT模型可以更好地利用视觉特性来增强推特的上下文。

在下表5中，将性能与最先进的方法(Yu et al.2020)和可用代码的视觉语言预训练模型(如VLBERT(Su et al.2019)和ViLBERT(Lu et al.2019)进行了比较。用学习速率1e-4微调BERT、VL-BERT和ViLBERT进行多模态命名实体识别训练。biLSTM CRF的输入令牌嵌入是原始嵌入和预先训练的上下文嵌入的级联。

表5:RpBERT与其他视觉语言模型性能对比表

	复旦大学数据集	Snap公司数据集
			Arshad等人(2019年)*	72.9	-
Yu等人(2020年)*	73.4	85.3
			biLSTM CRF+VL-BERT	72.2	86.1
biLSTM CRF+BERT	72.0	85.8
			biLSTM CRF+RpBERTbiLSTM CRF+RpBERT+Flair<sub>GsGs</sub>	73.3	87.4

表5中的带*的缩写现解释如下：

“Arshad等人(2019年)*”表示Arshad等人(2019年)在In 2019InternationalConference on Document Analysis and Recognition会议上发表的论文《Aiding Intra-Text Representations with Visual Context for Multimodal Named EntityRecognition》中的方法；

“Yu等人(2020年)*”表示*Yu等人(2020年)在In Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistics会议上发表的论文《Improving Multimodal Named Entity Recognition via Entity Span Detectionwith Unified Multimodal Transformer》中的方法。

三、关系传播对视觉注意的影响：

从表4可以看出，软传播G_s的性能优于硬传播G_h1和G_h2，特别是在Snap公司数据集上平均提高了0.9％。

数据集。在图3中，通过相关得分r和S_TV之间的分布来比较关系传播对视觉注意的影响，其中S_TV为视觉关注的平均总和，定义如下:

其中Att^(l,h)(w_i,v_j)是BERT中的第i个单词和第j个图像块之间的注意是否在第h个头和第l层上。样本来自Snap公司数据集的测试集。与图3(a)中不带关系传播的RpBERT相比，发现RpBERT的S_TV在阴性样本(r<0.5)上降低，而在阳性样本上增加(r>0.5)。

四、烧蚀研究

对比在RpBERT中消除关系传播，或等效地仅执行RpBERT训练任务二时的结果。下表6显示，在没有关系传播的情况下，复旦大学和Snap公司数据集的总体性能分别下降1.3％和1.0％。另外，通过文本-图像关系分类，将测试数据分为“添加图像”和“不添加图像”两组，比较了烧蚀对不同关系类型数据的影响。通过关系传播，所有关系类型的性能都得到了提高。更重要的是，关于“不添加图像”类型，“不带有关系传播”会使F1分数降低较大幅度，复旦大学数据集下降了2.2％，Snap公司数据集下降1.7％。这说明与文本无关的视觉特征对学习视觉语言表征有负面影响。

表6烧蚀关系传播(Rp)时的性能比较表

五、基于注意可视化的案例研究

举例说明了表7中的五个在之前工作中识别失败的实例。这些失败例子的常见原因是视觉注意功能不当。下表显示了RpBERT不使用关系传播和RpBERT使用了关系传播的相关分数r和整体图像注意事项。一个块v_j在所有单词、头部和图层上的整体图像注意力定义如下：

通过下图4中的热力图来可视化整个图像注意

文中还给出了用RpBERT不使用关系传播和RpBERT使用了关系传播的模型测试的命名实体识别结果，并与前人的工作进行了比较。图4和下表7中示例1和2来自snap公司的数据集，示例3、4和5来自复旦大学数据集。所有例子的命名实体识别结果都是正确的。在例1中，RpBERT识别正确，视觉注意对命名实体识别结果没有负面影响。在例2中，视觉上的注意力集中在地面上，导致将“克利夫兰”标记为错误的标签“LOC”。在例3中，“Reddit(一个新闻网站名)”被视觉注意误认为是“组织”。在例5中，“Siri”被错误地标识为“PER”，因为人脸的视觉关注。在例2、3和5中，文本图像对被识别为无关，因为的r值大约为零。在关系传播中，很少有视觉特征被加权到RpBERT的语言特征上，命名实体识别的结果是正确的。在例4中，文本和图像高度相关，即r＝0.997。图片中人被极大的关注到，导致文本中错误的将“谢尔曼山”标记成了人。不带有关系传播的RpBERT将注意力扩展到山景上，这使得对人的关注减少了。关系传播极大地增加了对天空、山体等景物的视觉关注度，增强了对整体画面的理解，产生了“PSD Lesher”的正确标签。

表7使用带有关系推理的RpBERT和不带有关系推理的RpBERT分别测试在以前的工作中五个命名实体识别失败的样例表

上表中，带下标r的标签是正确的，带下标w的标签是错误的；图2还给出了多模态命名实体识别的视觉注意示例，图2(a)为多模态命名实体识别的视觉注意成功案例，对应的文本为“[人收音机头]在四年来的第一场音乐会上提供新旧音乐”，图2(b)为多模态命名实体识别的视觉注意失败案例，对应的文本为“上半场[人凯文·洛夫]和[人凯尔·科弗]的形象不错”。图2中左栏是推特的图像，右栏是推特的图像对应的注意力可视化。

六、结论：

本实施例研究的是当图片与tweet中的文本无关时，多模态学习中的视觉注意特征问题。提出了一种基于文本-图像关系推理的基于关系传播的多模态模型。该模型由文本-图像关系分类和下游神经网络等多个任务训练而成。在实验中给出了文本无关视觉特征对命名实体识别任务负面影响的定量结果，复旦大学数据集下降2.2％，Snap公司数据集下降了1.7％。数值分布和热力图的视觉注意证明了关系传播的改善效果。其他论文中提到的失败案例都被RpBERT很好地解决了。本实施例的模型在多模态命名实体识别数据集上达到了最先进的性能。