CN112733533A - 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 - Google Patents
一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 Download PDFInfo
- Publication number
- CN112733533A CN112733533A CN202011642129.4A CN202011642129A CN112733533A CN 112733533 A CN112733533 A CN 112733533A CN 202011642129 A CN202011642129 A CN 202011642129A CN 112733533 A CN112733533 A CN 112733533A
- Authority
- CN
- China
- Prior art keywords
- text
- propagation
- image
- relationship
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000001902 propagating effect Effects 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000004382 visual function Effects 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000001976 improved effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于BERT模型及文本‑图像关系传播的多模态命名实体识别方法,包括:步骤1、设计RpBERT,RpBERT为基于文本‑图像关系传播的多模态命名实体识别的BERT模型;步骤2、通过不同的概率门G,进行关系传播;关系传播包括软关系传播和硬关系传播的两种门控传播;步骤2.1、软关系传播:将概率门G的输出视为连续分布,根据文本‑图像关系的强弱对视觉特征进行过滤;步骤2.2、硬关系传播;步骤3、采用多任务学习方式为多模态命名实体识别训练RpBERT。本发明的有益效果是:本发明在实验中深入分析了使用关系传播前后视觉注意的变化。并在多模态命名实体识别的数据集上达到了可达到的最先进的性能。
Description
技术领域
本发明属于社交推文的多模态命名实体识别领域,主要涉及在多模态BERT模型中引入了一种文本-图像关系传播的方法,并提出一种多任务算法来训练和验证关系传播对多模态命名实体识别数据集的影响。
背景技术
近年来,社交媒体帖子的多模态命名实体识别受到了关注。Moon等人于2018年在In Proceedings of the 2018Conference of the North American Chapter of theAssociation for Computational Linguistics学术会议上发表的论文《MultimodalNamed Entity Recognition for Short Social Media Posts》中提出了一个模态注意力模块。该模块计算了单词嵌入、字符嵌入和视觉特征的加权模态组合。Lu等人在InProceedings of the 56th Annual Meeting of the Association for ComputationalLinguistic会议上发表论文《Visual attention model for name tagging inmultimodal social media》中提出了一种用视觉注意模型来寻找与文本内容相关的图像区域。通过文本查询向量和区域视觉表征之和的线性投影计算图像区域的注意权重。提取的视觉上下文特征被合并到biLSTM模型的字级输出中。Zhang等人(2018)在In Thirty-Second AAAI Conference on Artificial Intelligence会议上表的论文《Adaptivecoattention network for named entity recognition in tweets》设计了一个自适应共同注意网络(ACN)层,该层位于LSTM和CRF层之间。ACN包含一个门控多模态融合模块,用于学习视觉和语言特征的融合向量;设计了一个过滤门来判断融合特征是否有助于提高每个令牌的标注精度,过滤门的输出分数由sigmoid激活函数计算。Arshad等人在In2019International Conference on Document Analysis and Recognition会议上发表的论文《Aiding Intra-Text Representations with Visual Context for MultimodalNamed Entity Recognition》也提出了每个分词的门控多模态融合表示,门控融合是视觉注意特征和词嵌入对齐特征的加权和。视觉注意特征由VGG-19(VGG-19是由Simonyan和Zisserman在2014发表的论文《Very deep convolutional networks for large-scaleimage recognition》中提出的模型)视觉特征的加权和计算得出,权重是单词查询和图像特征之间的附加注意分数;当视觉线索与文本相关时,图像的整体注意力就不能被提取出来。图2(b)展示了失败的例子,其中不相关的图像提供了误导性的视觉注意并产生了预测误差。
预训练模型BERT在自然语言处理(NLP)中取得了巨大的成功;其中,BERT是Devlin等人在2018年发表的论文《BERT:Pre-training of Deep Bidirectional Transformersfor Language Understanding》中提出的自然语言处理预训练模型,其在多个自然语言处理任务中取得了最先进的性能。最新的基于BERT架构的预训练视觉语言模型层出不穷,如VL-BERT、ViLBERT、VL-BERT、UNITER和LXMERT等。从以下三个方面对现有的视觉语言模型进行总结和比较:
1)结构:VisualBERT、VL-BERT和UNITER的结构与BERT相同,将图像和文本标记组合成一个序列并输入到BERT中以学习上下文嵌入。LXMERT和ViLBERT将视觉和语言处理分成两个流,分别通过跨模态或共注意变换层进行交互。
2)视觉表现:图像特征可以表示为感兴趣区域(RoI)或块区域,所有上述预训练模型都使用Fast R-CNN(用于物体检测)来检测对象和集合的感兴趣区域的特征,RoI检测的目的是降低视觉信息的复杂度,并利用语言线索进行掩蔽区域分类。然而,对于不相关的文本-图像对,视觉特征的不可用性和显著性会增加对语言特征的干扰。此外,对象识别类别有限,许多命名实体没有相应的对象类别,例如公司商标和风景名胜区。
3)预训练任务。这些模型是在COCO caption数据集(由Chen等人于2015年提出的一个大型图文对数据集)或概念性字幕(由Sharma等人于2018年提出的一个大型图文对数据集)等image caption数据集上训练的。预训练任务主要包括:掩模语言建模(MLM)和掩模区域分类(MRC);ITM任务是一种二进制分类,它将字幕数据集中的对定义为阳性,并将成对示例中的图像或文本替换为其他随机选择的样本作为阴性;假设标题数据集中的文本-图像对具有高度相关性,但这一假设在推特的文本-图像对中无法成立。
视觉特征总是直接与语言特征串联,或者在最新的多模态模型中通过注意权重提取,而不管图像是否对文本的语义有贡献,导致推文的多模态命名实体识别示例失败。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于BERT模型及文本-图像关系传播的多模态命名实体识别方法。
这种基于BERT模型及文本-图像关系传播的多模态命名实体识别方法,包括以下步骤:
步骤1、设计RpBERT,RpBERT为基于文本-图像关系传播的多模态命名实体识别的BERT模型;
步骤1.1、RpBERT的输入序列为:
上式中,T={w1,...,wn}表示语言特征序列(T=词嵌入+段嵌入+位置嵌入);V={v1,...,vm}表示视觉特征序列,(V=词嵌入+段嵌入+位置嵌入);[CLS]表示文本-图像关系分类,[SEP]表示文本和图像特征之间的分离;
步骤1.2、由BERT标记器生成单词标记序列,将一个未知单词分解为多个单词片段标记;
步骤1.3、将视觉特征表示为块区域(最新的视觉语言BERT模型将视觉特征表示为感兴趣区域),视觉特征由ResNet从图像中提取(ResNet由He等人于2016的论文Deepresidual learning for image recognition中提出);ResNet中最后一个卷积层的输出尺寸为7×7×dv,其中7×7表示图像中的49个块区域;将块区域的提取特征排列成图像块嵌入序列{b1=f1,1Wv,...,b49=f7,7Wv},其中与BERT的嵌入大小相匹配,当使用ResNet-152时dv=2048;根据BERT的实践,标记的输入嵌入是单词标记嵌入(或图像块嵌入)、片段嵌入和位置嵌入的总和。段嵌入从两种类型中学习,其中A表示文本标记,B表示图像块。词性标记的位置嵌入是从句子中的词序来学习的,而视觉标记的位置是相同的;
步骤1.4、将标记[CLS]的输出作为文本-图像关系分类任务一中二进制分类器的输入,并输入到全连接层中;使用图1中所示的概率门G来产生概率[π0,π1],则文本图像相关得分被定义为阳性的概率为:
r=π1 (2)
使用相关分数来构造视觉掩模矩阵R:
文本-图像关系通过R ⊙ V传播到RpBERT,其中⊙是按元素的乘法;例如,如果π1=0,则放弃所有视觉特征;最后将与视觉线索融合的标记T的输出输入到命名实体识别模型中进行任务二训练;
步骤2、通过不同的概率门G,进行关系传播;关系传播包括软关系传播和硬关系传播的两种门控传播;
步骤2.1、软关系传播:将概率门G的输出视为连续分布,根据文本-图像关系的强弱对视觉特征进行过滤,将概率门G定义为softmax函数:
Gs=softmax(x) (4)
步骤2.2、硬关系传播;
步骤3、采用多任务学习方式为多模态命名实体识别训练RpBERT,由图1中两个向上的箭头表示。
作为优选,步骤2.2具体包括如下步骤:
步骤2.2.1、将概率门G的输出视为绝对分布,将概率门G定义为:
Gh1=[softmax(x)>0.5] (5)
上式中,[.]是艾弗森括号指示符函数,当其参数为真时取值1,否则取0;在概率门G为0时视觉功能被丢弃,或在概率门G为1时视觉功能被选择;由于是不可微的,本发明在实现代码中将从计算图中分离出来,并使梯度等于softmax梯度。Jang等人在2017年发布的论文《Categorical Reparameterization with Gumbel-Softmax》中提出使用Gumbel-Softmax来给出分类分布的连续近似。受此启发,本发明将门G定义为硬关系传播的Gumbel-Softmax。
步骤2.2.2、将概率门G定义为:
Gh2=softmax((x+g)//τ) (6)
上式中,g是从耿贝尔分布采样的噪声,τ是温度参数;当温度接近0时,耿贝尔分布的样本变为一个热样本,Gumbel-Softmax分布与分类分布相同;在训练阶段,使用1到0.1的参数表对温度τ进行退火。
作为优选,步骤3具体包括如下步骤:
步骤3.1、任务一:文本-图像关系分类;使用彭博数据集的图像任务分割进行文本-图像关系分类,这种分类试图确定图像的内容是否提供了文本之外的附加信息;设xi为推文的文本图像对,通过交叉熵计算二元关系分类的损失L:
上式中,p(x)是softmax计算的正确分类的概率;
步骤3.2、任务二:通过关系传播的多模态命名实体识别。
作为优选,步骤3.2具体包括如下步骤:
步骤3.2.1、使用掩模矩阵R来控制加性视觉线索,RpBERT的输入序列是[CLS]T[SEP]R⊙V;为了进行命名实体识别,使用biLSTM-CRF模型(双向长短时记忆网络与条件随机场的结合,普遍作为命名实体识别任务的基线任务使用)作为基线模型,biLSTM-CRF模型由双向LSTM和条件随机场组成(条件随机场是一类常用于模式识别和机器学习的统计建模方法,用于结构化预测。分类器预测单个样本的标签而不考虑“邻近”样本,CRF可以考虑上下文),biLSTM-CRF模型的输入ek是单词和字符嵌入的串联;CRF使用每个分词的biLSTM隐藏向量用实体标签标记序列;为了评估RpBERT模型,将连接作为biLSTM的输入;biLSTM的输入表示为:
步骤3.2.2、对于词汇表外的单词,对BERT标记化子词的输出进行平均;
上式中,y为标签序列,中Y为句子的所有可能的标签序列,s(H;y)是特征函数建模转换;
步骤3.2.3、任务二计算最小化训练数据的负对数似然:
本发明的有益效果是:本发明在实验中深入分析了使用关系传播前后视觉注意的变化。并在多模态命名实体识别的数据集上达到了可达到的最先进的性能。
附图说明
图1为RpBERT架构图;
图2为多模态命名实体识别的视觉注意示例图;
图3为相关得分r和STV之间的分布图;其中图3(a)内的RpBERT不带关系传播,图3(b)内的RpBERT带有关系传播;
图4为使用带有关系推理的RpBERT和不带有关系推理的RpBERT分别测试在以前的工作中五个命名实体识别失败的案例图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
本发明利用一个多模态变量BERT来执行具有不同文本-图像关系的推特中的多模态命名实体识别。像大多数视觉语言的BERT一样,将BERT应用于多模式输入。
作为一种实施例,一个基于文本-图像关系传播的多模态命名实体识别的BERT模型(全文中将此模型简称为RpBERT),如图1所示;RpBERT将BERT扩展到一个多任务框架,用于多模态命名实体识别的文本-图像关系分类和可视化语言学习。
利用下表1的算法首先执行任务一对彭博(Bloomberg)数据集进行文本-图像关系训练,然后执行任务二训练两个推特数据集上的命名实体识别模型;算法1中θRpBERT,θResNet,θFCs,θbiLSTM和θCRF分别表示RpBERT、ResNet、FCs、biLSTM和CRF的参数;
表1彭博文本-图像关系数据集中的四种文本-图像关系表
文本与图像的关系 | 图片增加了推文的语义 | 文本被表示在图片中 | 百分比(%) |
R1 | √ | √ | 18.5 |
R2 | √ | × | 25.6 |
R3 | × | √ | 21.9 |
R4 | × | × | 33.8 |
上表1中,R1、R2、R3和R4均为文本-图像关系的代号;
本实施例涉及的数据集有:
1)Twitter100k数据集:该数据集由Hu等人于2017提出,由100,000个从推特随机抓取的图像文本对组成。
3)复旦大学的MNER Twitter数据集,该数据集由zhang等人于2018年提出:作者使用通过Twitter API收集的推特图像文本对。
4)Snap Research的MNER Twitter数据集由lu等人于2018年提出:实体类型分为人员,位置,组织和其他。
一、实验参数设置:
本实施例在biLSTM CRF中使用300维FastText Crawl单词向量(Mikolov等人在InProceedings of the International Conference on Language Resources andEvaluation会议上发表的论文《Advances in Pre-Training Distributed WordRepresentations》中提出的词向量);所有图像都将被重塑为224×224的大小,以匹配ResNet的输入大小;本实施例使用ResNet-152来提取视觉特征,并以学习速率1e-4对其进行微调;在基于文本-图像关系传播的多模态命名实体识别的BERT模型中,FC层是一个线性神经网络,之后是一个ReLU激活;RpBERT的结构与BERT相同,从BERT加载预先训练好的权值来初始化RpBERT模型;下表2显示了RpBERT和biLSTMCRF模型中的超参数值。
表2 RpBERT和biLSTMCRF模型中的超参数表
超参数 | 值 |
LSTM隐藏状态大小 | 256 |
LSTM+RpBERT隐藏状态大小 | 1024 |
LSTM层数 | 2 |
数据批大小 | 8 |
字符嵌入维数 | 25 |
学习率 | 1e-2 |
微调RpBERT和ResNet的学习速率 | 1e-4 |
剪辑梯度范数 | 5.0 |
优化器 | SGD |
丢弃率 | 0.5 |
二、文本-图像关系分类的性能研究:
下表3显示了RpBERT在Bloomberg数据的测试集上用于文本图像关系分类的性能。在网络结构方面,Lu et al.(2018)将多模态特征表示为LSTM语言特征和InceptionNet(Szegedy等人在2015发表的论文《Going deeper with convolutions》中提出的视觉模型)视觉特征的串联。结果表明,基于BERT的视觉语言模型显著优于Lu等人的方法,在彭博数据的测试集中,RpBERT的F1分数比Lu et al.(2018)提高了7.1%。
表3 RpBERT在Bloomberg数据的测试集上用于文本图像关系分类的性能数据表
表4 F1得分中文本图像关系分类结果表(%)
表4中的带*的缩写现解释如下:
“biLSTM-CRF*”指Lample等人在In Proceedings of the 2016Conference ofNAACL-HLT会议上发表的论文《Neural Architectures for Named Entity Recognition》中提出的方法,后来基本上作为命名实体识别任务的基线模型;
“Zhang等人(2018年)*”指Zhang等人在In Thirty-Second AAAI Conference onArtificial Intelligence会议上表的论文《Adaptive coattention network for namedentity recognition in tweets》中提出的方法;
“Lu等人(2018年)*”指*Lu等人在In Proceedings of the 56th Annual Meetingof the Association for Computational Linguistic会议上发表论文《Visualattention model for name tagging in multimodal social media》中提出的方法只对文本执行。
“biLSTM-CRF+图像且t=0”意味着视觉特征被放置在词序之前的LSTM开头,类似于(Vinyals等人,2015)。
“BiLSTM-CRF+BERT”是指句子的上下文BERT嵌入被连接成biLSTM-CRF的输入。
“biLSTM-CRF+RpBERT”是指输入文本图像对,并将上下文视觉语言嵌入作为bi-LSTM-CRF的输入,如多任务多模态命名实体识别训练流程所述。
结果表明,在复旦大学和Snap多模态数据库上,最佳的“biLSTM-CRF+RpBERT”比“biLSTM-CRF”分别提高了3.4%和7.3%。就视觉特征的作用而言,“biLSTM-CRF++RpBERT”的增加与“biLSTM-CRF+BERT”相比平均达到1.9%,大于基于biLSTM CRF的多模态模型,如Zhang et al.(2018)和Lu et al.(2018)与biLSTM CRF相比;这表明RpBERT模型可以更好地利用视觉特性来增强推特的上下文。
在下表5中,将性能与最先进的方法(Yu et al.2020)和可用代码的视觉语言预训练模型(如VLBERT(Su et al.2019)和ViLBERT(Lu et al.2019)进行了比较。用学习速率1e-4微调BERT、VL-BERT和ViLBERT进行多模态命名实体识别训练。biLSTM CRF的输入令牌嵌入是原始嵌入和预先训练的上下文嵌入的级联。
表5:RpBERT与其他视觉语言模型性能对比表
复旦大学数据集 | Snap公司数据集 | |
Arshad等人(2019年)* | 72.9 | - |
Yu等人(2020年)* | 73.4 | 85.3 |
biLSTM CRF+VL-BERT | 72.2 | 86.1 |
biLSTM CRF+BERT | 72.0 | 85.8 |
biLSTM CRF+RpBERTbiLSTM CRF+RpBERT+Flair<sub>GsGs</sub> | 73.3 | 87.4 |
表5中的带*的缩写现解释如下:
“Arshad等人(2019年)*”表示Arshad等人(2019年)在In 2019InternationalConference on Document Analysis and Recognition会议上发表的论文《Aiding Intra-Text Representations with Visual Context for Multimodal Named EntityRecognition》中的方法;
“Yu等人(2020年)*”表示*Yu等人(2020年)在In Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistics会议上发表的论文《Improving Multimodal Named Entity Recognition via Entity Span Detectionwith Unified Multimodal Transformer》中的方法。
三、关系传播对视觉注意的影响:
从表4可以看出,软传播Gs的性能优于硬传播Gh1和Gh2,特别是在Snap公司数据集上平均提高了0.9%。
数据集。在图3中,通过相关得分r和STV之间的分布来比较关系传播对视觉注意的影响,其中STV为视觉关注的平均总和,定义如下:
其中Att(l,h)(wi,vj)是BERT中的第i个单词和第j个图像块之间的注意是否在第h个头和第l层上。样本来自Snap公司数据集的测试集。与图3(a)中不带关系传播的RpBERT相比,发现RpBERT的STV在阴性样本(r<0.5)上降低,而在阳性样本上增加(r>0.5)。
四、烧蚀研究
对比在RpBERT中消除关系传播,或等效地仅执行RpBERT训练任务二时的结果。下表6显示,在没有关系传播的情况下,复旦大学和Snap公司数据集的总体性能分别下降1.3%和1.0%。另外,通过文本-图像关系分类,将测试数据分为“添加图像”和“不添加图像”两组,比较了烧蚀对不同关系类型数据的影响。通过关系传播,所有关系类型的性能都得到了提高。更重要的是,关于“不添加图像”类型,“不带有关系传播”会使F1分数降低较大幅度,复旦大学数据集下降了2.2%,Snap公司数据集下降1.7%。这说明与文本无关的视觉特征对学习视觉语言表征有负面影响。
表6烧蚀关系传播(Rp)时的性能比较表
五、基于注意可视化的案例研究
举例说明了表7中的五个在之前工作中识别失败的实例。这些失败例子的常见原因是视觉注意功能不当。下表显示了RpBERT不使用关系传播和RpBERT使用了关系传播的相关分数r和整体图像注意事项。一个块vj在所有单词、头部和图层上的整体图像注意力定义如下:
通过下图4中的热力图来可视化整个图像注意文中还给出了用RpBERT不使用关系传播和RpBERT使用了关系传播的模型测试的命名实体识别结果,并与前人的工作进行了比较。图4和下表7中示例1和2来自snap公司的数据集,示例3、4和5来自复旦大学数据集。所有例子的命名实体识别结果都是正确的。在例1中,RpBERT识别正确,视觉注意对命名实体识别结果没有负面影响。在例2中,视觉上的注意力集中在地面上,导致将“克利夫兰”标记为错误的标签“LOC”。在例3中,“Reddit(一个新闻网站名)”被视觉注意误认为是“组织”。在例5中,“Siri”被错误地标识为“PER”,因为人脸的视觉关注。在例2、3和5中,文本图像对被识别为无关,因为的r值大约为零。在关系传播中,很少有视觉特征被加权到RpBERT的语言特征上,命名实体识别的结果是正确的。在例4中,文本和图像高度相关,即r=0.997。图片中人被极大的关注到,导致文本中错误的将“谢尔曼山”标记成了人。不带有关系传播的RpBERT将注意力扩展到山景上,这使得对人的关注减少了。关系传播极大地增加了对天空、山体等景物的视觉关注度,增强了对整体画面的理解,产生了“PSD Lesher”的正确标签。
表7使用带有关系推理的RpBERT和不带有关系推理的RpBERT分别测试在以前的工作中五个命名实体识别失败的样例表
上表中,带下标r的标签是正确的,带下标w的标签是错误的;图2还给出了多模态命名实体识别的视觉注意示例,图2(a)为多模态命名实体识别的视觉注意成功案例,对应的文本为“[人收音机头]在四年来的第一场音乐会上提供新旧音乐”,图2(b)为多模态命名实体识别的视觉注意失败案例,对应的文本为“上半场[人凯文·洛夫]和[人凯尔·科弗]的形象不错”。图2中左栏是推特的图像,右栏是推特的图像对应的注意力可视化。
六、结论:
本实施例研究的是当图片与tweet中的文本无关时,多模态学习中的视觉注意特征问题。提出了一种基于文本-图像关系推理的基于关系传播的多模态模型。该模型由文本-图像关系分类和下游神经网络等多个任务训练而成。在实验中给出了文本无关视觉特征对命名实体识别任务负面影响的定量结果,复旦大学数据集下降2.2%,Snap公司数据集下降了1.7%。数值分布和热力图的视觉注意证明了关系传播的改善效果。其他论文中提到的失败案例都被RpBERT很好地解决了。本实施例的模型在多模态命名实体识别数据集上达到了最先进的性能。
Claims (4)
1.一种基于BERT模型及文本-图像关系传播的多模态命名实体识别方法,其特征在于,包括以下步骤:
步骤1、设计RpBERT,RpBERT为基于文本-图像关系传播的多模态命名实体识别的BERT模型;
步骤1.1、RpBERT的输入序列为:
上式中,T={w1,...,wn}表示语言特征序列;V={v1,...,vm}表示视觉特征序列;[CLS]表示文本-图像关系分类,[SEP]表示文本和图像特征之间的分离;
步骤1.2、由BERT标记器生成单词标记序列,将一个未知单词分解为多个单词片段标记;
步骤1.3、将视觉特征表示为块区域,视觉特征由ResNet从图像中提取;
步骤1.4、将标记[CLS]的输出作为文本-图像关系分类中二进制分类器的输入,并输入到全连接层中;使用概率门G来产生概率[π0,π1],则文本图像得分被定义为阳性的概率为:
r=π1 (2)
使用相关分数来构造视觉掩模矩阵R:
文本-图像关系通过R⊙V传播到RpBERT,其中⊙是按元素的乘法;
步骤2、进行关系传播;关系传播包括软关系传播和硬关系传播的两种门控传播;
步骤2.1、软关系传播:将概率门G的输出视为连续分布,根据文本-图像关系的强弱对视觉特征进行过滤,将概率门G定义为softmax函数:
Gs=soffmax(x) (4)
步骤2.2、硬关系传播;
步骤3、采用多任务学习方式为多模态命名实体识别训练RpBERT。
2.根据权利要求1所述基于BERT模型及文本-图像关系传播的多模态命名实体识别方法,其特征在于,步骤2.2具体包括如下步骤:
步骤2.2.1、将概率门G的输出视为绝对分布,将概率门G定义为:
Gh1=[soffmax(x)>0.5] (5)
上式中,[·]是艾弗森括号指示符函数,当其参数为真时取值1,否则取0;在概率门G为0时视觉功能被丢弃,或在概率门G为1时视觉功能被选择;
步骤2.2.2、将概率门G定义为:
Gh2=softmax((x+g)//τ) (6)
上式中,g是从耿贝尔分布采样的噪声,τ是温度参数;在训练阶段,使用1到0.1的参数表对温度τ进行退火。
4.根据权利要求3所述基于BERT模型及文本-图像关系传播的多模态命名实体识别方法,其特征在于,步骤3.2具体包括如下步骤:
步骤3.2.1、使用掩模矩阵R来控制加性视觉线索,RpBERT的输入序列是[CLS]T[SEP]R⊙V,将输出T表示为使用biLSTM-CRF模型作为基线模型,biLSTM-CRF模型由双向LSTM和条件随机场组成,biLSTM-CRF模型的输入ek是单词和字符嵌入的串联;CRF使用每个分词的biLSTM隐藏向量用实体标签标记序列;将连接作为biLSTM的输入;biLSTM的输入表示为:
步骤3.2.2、对于词汇表外的单词,对BERT标记化子词的输出进行平均;
上式中,y为标签序列,中Y为句子的所有标签序列,s(H;y)是特征函数建模转换;
步骤3.2.3、任务二计算最小化训练数据的负对数似然:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642129.4A CN112733533B (zh) | 2020-12-31 | 2020-12-31 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642129.4A CN112733533B (zh) | 2020-12-31 | 2020-12-31 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733533A true CN112733533A (zh) | 2021-04-30 |
CN112733533B CN112733533B (zh) | 2023-11-07 |
Family
ID=75609159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011642129.4A Active CN112733533B (zh) | 2020-12-31 | 2020-12-31 | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733533B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177961A (zh) * | 2021-06-07 | 2021-07-27 | 傲雄在线(重庆)科技有限公司 | 一种用于印章图文比对的多模态深度模型训练方法 |
CN113408619A (zh) * | 2021-06-21 | 2021-09-17 | 江苏苏云信息科技有限公司 | 语言模型预训练方法、装置 |
CN114120304A (zh) * | 2021-11-25 | 2022-03-01 | 北京百度网讯科技有限公司 | 实体识别方法、装置及计算机程序产品 |
CN114168104A (zh) * | 2021-12-08 | 2022-03-11 | 杭州电子科技大学 | 一种面向视障人群的场景文字交互式理解系统 |
CN114283127A (zh) * | 2021-12-14 | 2022-04-05 | 山东大学 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
CN114399816A (zh) * | 2021-12-28 | 2022-04-26 | 北方工业大学 | 社区火灾风险感知方法及装置 |
CN114549874A (zh) * | 2022-03-02 | 2022-05-27 | 北京百度网讯科技有限公司 | 多目标图文匹配模型的训练方法、图文检索方法及装置 |
CN114580425A (zh) * | 2022-05-06 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
CN114861600A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
CN115659987A (zh) * | 2022-12-28 | 2023-01-31 | 华南师范大学 | 基于双通道的多模态命名实体识别方法、装置以及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004184951A (ja) * | 2002-12-06 | 2004-07-02 | Nippon Telegr & Teleph Corp <Ntt> | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
KR102189373B1 (ko) * | 2019-08-14 | 2020-12-11 | 민 정 고 | 이미지 및 텍스트를 생성하는 장치 및 방법 |
-
2020
- 2020-12-31 CN CN202011642129.4A patent/CN112733533B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004184951A (ja) * | 2002-12-06 | 2004-07-02 | Nippon Telegr & Teleph Corp <Ntt> | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
KR102189373B1 (ko) * | 2019-08-14 | 2020-12-11 | 민 정 고 | 이미지 및 텍스트를 생성하는 장치 및 방법 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
Non-Patent Citations (2)
Title |
---|
丁永胜;张水胜;: "数字图像的二重分块置乱算法", 佳木斯大学学报(自然科学版), no. 02 * |
陈丹;郑增威;: "增量式索引技术在信息搜索引擎中的应用", 现代图书情报技术, no. 06 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177961B (zh) * | 2021-06-07 | 2022-07-01 | 重庆傲雄在线信息技术有限公司 | 一种用于印章图文比对的多模态深度模型训练方法 |
CN113177961A (zh) * | 2021-06-07 | 2021-07-27 | 傲雄在线(重庆)科技有限公司 | 一种用于印章图文比对的多模态深度模型训练方法 |
CN113408619A (zh) * | 2021-06-21 | 2021-09-17 | 江苏苏云信息科技有限公司 | 语言模型预训练方法、装置 |
CN113408619B (zh) * | 2021-06-21 | 2024-02-13 | 江苏苏云信息科技有限公司 | 语言模型预训练方法、装置 |
CN114120304A (zh) * | 2021-11-25 | 2022-03-01 | 北京百度网讯科技有限公司 | 实体识别方法、装置及计算机程序产品 |
CN114120304B (zh) * | 2021-11-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 实体识别方法、装置及计算机程序产品 |
CN114168104A (zh) * | 2021-12-08 | 2022-03-11 | 杭州电子科技大学 | 一种面向视障人群的场景文字交互式理解系统 |
CN114283127A (zh) * | 2021-12-14 | 2022-04-05 | 山东大学 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
CN114283127B (zh) * | 2021-12-14 | 2024-04-23 | 山东大学 | 一种多模态信息指导的医学图像分割系统及图像处理方法 |
CN114399816B (zh) * | 2021-12-28 | 2023-04-07 | 北方工业大学 | 社区火灾风险感知方法及装置 |
CN114399816A (zh) * | 2021-12-28 | 2022-04-26 | 北方工业大学 | 社区火灾风险感知方法及装置 |
CN114549874A (zh) * | 2022-03-02 | 2022-05-27 | 北京百度网讯科技有限公司 | 多目标图文匹配模型的训练方法、图文检索方法及装置 |
CN114549874B (zh) * | 2022-03-02 | 2024-03-08 | 北京百度网讯科技有限公司 | 多目标图文匹配模型的训练方法、图文检索方法及装置 |
CN114580425A (zh) * | 2022-05-06 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
CN114580425B (zh) * | 2022-05-06 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
CN114861600A (zh) * | 2022-07-07 | 2022-08-05 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
CN114861600B (zh) * | 2022-07-07 | 2022-12-13 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
US11972214B2 (en) | 2022-07-07 | 2024-04-30 | Zhejiang Lab | Method and apparatus of NER-oriented chinese clinical text data augmentation |
CN115659987A (zh) * | 2022-12-28 | 2023-01-31 | 华南师范大学 | 基于双通道的多模态命名实体识别方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112733533B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733533A (zh) | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 | |
Sun et al. | RpBERT: a text-image relation propagation-based BERT model for multimodal NER | |
Yang et al. | Exploring deep multimodal fusion of text and photo for hate speech classification | |
CN113255755A (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
Jia et al. | Query prior matters: A MRC framework for multimodal named entity recognition | |
Zhang et al. | Semantic sentence embeddings for paraphrasing and text summarization | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN114925703B (zh) | 一种多粒度文本表示和图文融合的视觉问答方法及系统 | |
CN116432752B (zh) | 一种隐式篇章关系识别模型的构建方法及其应用 | |
CN107797988A (zh) | 一种基于Bi‑LSTM的混合语料命名实体识别方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN116452688A (zh) | 一种基于共同注意力机制的图像描述生成方法 | |
CN115221864A (zh) | 一种多模态假新闻检测方法及系统 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN113807307A (zh) | 一种用于视频多行为识别的多模态联合学习方法 | |
Unal et al. | Visual persuasion in covid-19 social media content: A multi-modal characterization | |
CN115687939B (zh) | 一种基于多任务学习的Mask文本匹配方法及介质 | |
CN113626553B (zh) | 一种基于预训练模型的级联二进制中文实体关系提取方法 | |
CN115293142A (zh) | 一种基于词典增强预训练模型的常识问答方法 | |
CN115481217A (zh) | 一种基于句子成分感知注意力机制的端到端属性级情感分析方法 | |
CN112966499A (zh) | 一种基于自适应融合多注意力网络的问题和答案匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |