CN115796182A

CN115796182A - 一种基于实体级跨模态交互的多模态命名实体识别方法

Info

Publication number: CN115796182A
Application number: CN202211486444.1A
Authority: CN
Inventors: 李思; 赵刚; 龚晓成; 董冠霆; 闫浩龙; 史一栋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-03-14

Abstract

本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法，引入实体范围检测作为辅助任务，以抽取实体特征作为文本和视觉模态信息交互的桥梁，同时，提出了一种基于异构图的实体级跨模态交互网络来挖掘视觉模态中的实体信息，增强文本特征，从而应对多模态命名实体识别任务的特有挑战，并提高多模态命名实体识别的性能；通过使用包含完整语义信息的实体特征与目标特征交互，实现更高效地捕获实体相关视觉信息，提高多模态命名实体识别的准确率；通过将非实体词元排除到跨模态交互过程外，保护非实体词元免受视觉模态噪声的干扰，减少图像噪声干扰导致非实体词元误识别为实体的错误情况发生。

Description

一种基于实体级跨模态交互的多模态命名实体识别方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于实体级跨模态交互的多模态命名实体识别。

背景技术

近年来，随着人工智能领域中机器学习、深度学习等技术的快速发展和计算机算力的逐渐提高，自然语言处理在各个领域中的应用不断深化，例如使用文本翻译技术实现专业领域文献的翻译、使用对话生成技术实现便捷的语音助手服务、使用信息抽取技术从海量数据中抽取关键信息辅助投资决策等。同时随着互联网的发展及互联网用户的增加，其产生的信息量快速增长且呈现出多模态化的趋势，这使得研发高效自动化文本处理技术受到广泛关注。命名实体识别技术，作为自然语言处理的基础任务之一，其发展对于包括关系抽取、事件抽取在内的其他多项自然语言处理技术进步有着关键的作用。

命名实体识别任务旨在从非结构化文本中检测出命名实体，并将其分类到预定义的类别中，如人名、组织名称、地点名称等。由于命名实体承载了文本中的关键语义信息，命名实体识别是以一项很重要的自然语言处理任务，有着广泛的应用场景，例如在对话意图理解中通过抽取用户话语的实体词来帮助对话系统更准确地理解用户需求；又如在类似微博的社交媒体场景中，利用命名实体识别技术抽取出用户发表短文中的重要实体，帮助分析事件热度和舆情等。此外，作为信息抽取的底层任务，命名实体识别是其上层关系抽取、事件抽取、知识图谱构建等任务的基础，命名实体识别的准确性会直接影响到这些上层任务性能的好坏。

命名实体识别任务即通过设计的某种算法或训练好模型，使计算机自动地对输入文本进行处理，将预先定义好类别的命名实体抽取出来。命名实体识别在传统上采用基于规则和领域词典的方法，需要领域专家预先制定词典和匹配规则，以此去匹配输入文本中的实体。为了提高模型对词典中未出现实体的召回率，一些研究者引入了基于统计的机器学习方法，如隐马尔可夫模型、支持向量机、条件随机场等。为了减少构造词典或设计文本特征耗费的大量人力和时间成本，进一步提高模型泛化能力，近年来很多基于深度学习的方法被应用到命名实体识别中并取得了较好的识别性能，如循环神经网络、长短期记忆网络、大规模预训练语言模型BERT等。

随着互联网的发展，信息逐渐呈现出多模态化的趋势，例如用户在社交媒体上发表短文时常常会图文并茂地描述自己的观点等。在这些场景下，图像和文本两个模态信息相互补充，只有结合两个模态的信息才能更好地理解文本的语义，准确识别短文中的实体。然而现有的大部分命名实体识别方法都是基于纯文本的方法，无法考虑到视觉模态提供的上下文信息，导致在社交媒体等多模态场景下的实体识别效果欠佳。为此，近年来有研究者提出了多模态命名实体识别方法，旨在利用图像模态的实体相关信息辅助进行文本命名实体的识别。多模态命名实体识别同时将文本和附图作为模型输入，在获得文本和视觉特征后，对两个模态的特征进行交互和融合获得多模态特征，然后进行命名实体的解码。与纯文本命名实体识别不同，多模态命名实体识别会面临两个特有的挑战：其一，如何捕获有用的实体相关视觉信息；其二，如何避免图像中噪声对识别带来的干扰。

为了应对多模态命名实体识别的特有挑战，一部分方法通过改进跨模态交互和融合机制来捕获更多实体相关的视觉信息；另一部分方法则是通过寻找更好的视觉特征来表示图像，提升实体识别性能。

如图1所示，现有技术之一的“Adaptive Co-Attention Network for NamedEntity Recognition in Tweets”文章中，提到使用自适应共同注意力网络(Adaptive Co-attention Network)来拓展BiLSTM-CRF命名实体识别模型，以学习图像和文本之间的共享语义：

首先，使用16层VGGNet来对输入图像进行编码，取出最后池化层输出的49个512维向量作为图像49个区域的特征，并使用单层感知机将图像特征投影到和文本特征同维度的空间中。其次，使用卷积神经网络获得字符级别的文本特征，再使用双向长短期记忆网络(LSTM)来对文本特征进行序列建模，获得双向语境化的文本特征。第三，将文本和图像特征送入自适应共注意力网络中进行信息交互和融合，依次计算文本引导的图像特征和图像引导的文本特征，并通过门控融合机制获得多模态特征。最后，将文本特征和多模态特征拼接起来，使用条件随机场进行序列标注，解码出命名实体。

如图2所示，现有技术之二的“Object-aware Multimodal Named EntityRecognition in Social Media Posts with Adversarial Learning”文章提出使用视觉目标(Visual Object)作为图像的特征以考虑到视觉对象和实体之间的对应关系，并引入对抗学习(Adversarial Learning)来进一步增强文本和视觉特征：

首先，使用在COCO数据集上预先训练好的Mask RCNN模型检测输入图像中的视觉目标，取出Mask RCNN最后池化层输出中分类概率最高的k个1024维向量作为目标特征，并使用前馈神经网络将目标特征投影到和文本特征同维度的空间中。其次，使用双向长短期记忆网络获得字符级特征，并与基于GloVe的单词级特征拼接作为文本特征，将文本特征再送入到双向长短期记忆网络中以获得双向语境化的文本特征。第三，在训练时将文本特征和视觉目标特征混合送入前馈神经网络，并使用模态分类器进行对抗学习分类以对特征进行增强。最后，将文本特征和视觉目标特征送入门控双线性注意力网络(Gated BilinearAttention Network)中进行信息交互和融合，并使用条件随机场进行序列标注，解码出命名实体。

发明人在研究的过程中发现：对于“Adaptive Co-Attention Network for NamedEntity Recognition in Tweets”、“Object-aware Multimodal Named EntityRecognition in Social Media Posts with Adversarial Learning”现有技术中：

1、在跨模态信息交互时采用词元(Token)级别的交互，直接将词元与图像标注交互割裂了实体的完整语义；

2、将包括非实体词元在内得全部词元与视觉特征交互，使得非实体词元容易受到图像噪声的干扰。

由于上述技术问题导致于现有技术中存在以下缺点：

1、词元级交互割裂了实体语义，捕获实体相关视觉信息的效率较低，图像中的有用信息难以被充分利用，导致最后多模态命名实体识别效果欠佳；

2、将全部词元与视觉特征交互使得非实体词元易受干扰，导致非实体词元易被错误识别为命名实体。

发明内容

为了解决上述技术问题，本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法，引入实体范围检测作为辅助任务，以抽取实体特征作为文本和视觉模态的桥梁，同时，提出了一种基于异构图的实体级跨模态交互网络，使用包含完整实体语义信息的实体特征与视觉目标特征进行交互以充分捕获实体相关的视觉信息，并将非实体词元排除在跨模态交互过程之外以减少其受到的视觉噪声干扰，提高了多模态命名实体识别的性能。

本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法，在模型训练时，该方法包括：

步骤一、将输入文本利用词典进行词元化切分，使用预训练语言模型BERT将文本词元序列映射为向量表示，输入的待命名实体识别文本即数值化为每个词元向量列连接而成的文本编码矩阵；

步骤二、将文本编码矩阵输入到第一个Transformer层，通过多头注意力机制获得语境化词元特征表示，使用线性变换将语境化词元特征表示投影到多模态空间得到投影词元特征；

步骤三、将文本编码矩阵输入到第二个Transformer层，获得实体范围检测子任务的特定词元特征，将特定词元特征和实体范围检测真实标签输入条件随机场(ConditionalRandom Field，CRF)，计算实体范围检测损失函数，并由维特比译码解码得到实体范围检测结果；

步骤四、将投影词元特征根据实体范围检测结果进行最大池化(Max Pooling)，得到实体特征；

步骤五、将输入图像利用DETR模型进行视觉目标检测，检测到的全部视觉目标区域裁剪后与输入图像一起送入ResNet模型进行编码，输入图像即被编码为每个目标向量列连接而成的目标编码矩阵；

步骤六、将目标编码矩阵输入带有ReLU激活函数的多层感知机，将目标编码矩阵投影到多模态空间，得到投影目标特征；

步骤七、将投影词元特征、投影目标特征和实体特征视作词元结点、目标结点、实体结点，使用实体-词元边、实体-目标边、同模态边连接三种结点，得到多模态异构图；

步骤八、将多模态异构图输入跨模态交互网络中，根据每种类型的边进行同模态和跨模态信息的交互和融合，得到多模态词元特征；

步骤九、将多模态词元特征和词元的命名实体识别真实标签输入条件随机场中，计算多模态命名实体识别损失函数；

步骤十、将多模态命名实体识别损失函数和实体范围检测损失函数进行加权求和，得到整体损失函数，使用反向传播算法(Back Propagation,BP)计算梯度，并使用Adam优化器优化整体损失函数更新模型各层权重。

进一步的，非训练情况下，进行多模态命名实体识别时，将步骤十除去，并将步骤三、步骤九予以替换，替换如下：

步骤三、将文本编码矩阵输入到第二个Transformer层，获得实体范围检测子任务的特定词元特征，将其输入条件随机场，使用维特比译码解码得到实体范围检测结果；

步骤九、将多模态词元特征输入条件随机场中，使用维特比译码解码得到多模态命名实体识别结果。

进一步的，所述步骤二中，Transformer层中的多头注意力机制计算如下：

其中，concat是向量拼接操作，head是注意力头数，是权重矩阵，Attention是单头自注意力机制，Q_i、K_i、V_i分别为第i个头的查询矩阵、键矩阵和值矩阵；

其中，单头自注意力机制Attention的计算如下：

Attention(Q,K,V)＝A·V

其中，d是键向量的维度。

进一步的，所述步骤三中，使用条件随机场计算得到实体范围检测损失函数，计算过程如下：

其中，n是样本的个数，Score(Z|X)是预测标签序列的综合得分，

是由标签z_i+1到z_i+1的转移得分，

是由词元特征映射到标签z_i的发射分数。

进一步的，所述步骤八中，跨模态交互网络的信息交互和融合分别沿同模态边、实体-目标边、实体-词元边进行，其中，同模态边交互计算过程如下：

其中，m∈{T,V}，T代表文本模态，V代表图像模态,

是结点在第l层图网络的隐特征，

是第l层图网络结点经过同模态信息交互后的特征；

其中，实体-目标边的跨模态交互计算过程如下：

其中，

是第l层图网络实体结点的特征，

是第l层图网络实体引导的跨模态多头注意力，

和

是可学习的权重矩阵，σ是Sigmoid激活函数，

是第l层图网络跨模态融合比例，

是融入视觉信息后的实体特征；

其中，实体-词元边的信息融合计算过程如下：

其中，

是第l层图网络第j个实体结点特征，

是组成

的词元，

和

是可学习的权重矩阵，

是跨模态融合比例，

是融入视觉信息后的词元特征。

进一步的，所述步骤九中，使用条件随机场计算得到多模态命名实体识别损失函数，计算过程如下：

其中，n是样本的个数，Score(Y|X)是预测标签序列的综合得分，

是由标签y_i到,y_i+1的转移得分，

是由词元特征映射到标签y_i的发射分数。

本发明提供的一种基于实体级跨模态交互的多模态命名实体识别方法，使用实体范围检测作为辅助任务获取实体特征，提出了一种基于异构图的实体级跨模态交互网络挖掘视觉模态中的实体信息以增强文本特征，提高多模态命名实体识别的性能；通过使用包含完整语义信息的实体特征与目标特征交互，实现更高效地捕获实体相关视觉信息；通过将非实体词元排除到跨模态交互过程外，保护非实体词元免受视觉模态噪声的干扰，提高多模态命名实体识别的准确率。

附图说明

图1为自适应共同注意力网络(Adaptive Co-attention Network)示意图；

图2为基于对抗学习(Adversarial Learning)的门控双线性注意力网络(GatedBilinear Attention Network)示意图；

图3为实施例一的流程图；

图4为本发明提供的一种基于实体级跨模态交互的多模态命名实体识别方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。其中，本实施例中出现的缩略语和关键术语定义如下：

BP:Back Propagation反向传播；

CRF:Conditional Random Field条件随机场；

NLP:Natural Language Processing自然语言处理；

ReLU:Rectified Linear Unit线性整流函数，是一种激活函数；

BERT:Bidirectional Encoder Representation from Transformers基于Transformer的双向编码器表示，是一种预训练模型；

BiLSTM:Bi-directional Long Short-Term Memory双向长短期记忆神经网络；

COCO:Common Objects in Context微软图像识别数据集；

GloVe:Global Vectors for Word Representation基于全局统计的词表征模型；

DETR:Detection Transformer：一种基于Transformer的目标检测模型；

Adam:A method for Stochastic Optimizaiton一种随机梯度下降方法。

实施例一

参照图3、4所示，图3，4示出了本发明提供的一种基于实体级跨模态交互的多模态命名实体识别方法，具体的，在模型训练时，该方法包括：

其中，本实施例中设置最大句子长度为128，预训练语言模型BERT是在33亿单词、25亿维基百科和8亿文本语料上预训练后得到的，其中Transformer层数为设置为12，每一个词元的特征向量维度设置为768。

其中，单头自注意力机制Attention的计算如下：

Attention(Q,K,V)＝A·V

其中，d是键向量的维度；

本实施例中，Transformer中多头注意力机制的头数设置为8，Transformer的层数设置为4，采用ReLU函数作为激活函数，引入dropout随机将一部分参数置零，以避免过拟合，投影词元特征的维度为512维。

是由标签z_i+1到z_i+1的转移得分，

是由词元特征映射到标签z_i的发射分数。

本实施例中，Transformer中多头注意力机制的头数设置为8，Transformer的层数设置为4，在获得实体范围检测结果时为避免误差传播，本发明引入Schedule Sampling机制，在训练时逐渐将实体范围检测结果从真实标签转换为实际预测标签。

本实例中，实体特征的维度设置为512。

本实例中，目标检测模型DETR在COCO数据集上进行预训练，ResNet采用152层模型架构，视觉目标特征的维度设置为2048。

本实例中多层感知机的层数设置为3，投影目标表征的维度设置为512。

其中，m∈{T,V}，T代表文本模态，V代表图像模态,

是结点在第l层图网络的隐特征，

是第l层图网络结点经过同模态信息交互后的特征；

其中，实体-目标边的跨模态交互计算过程如下：

其中，

是第l层图网络实体结点的特征，

是第l层图网络实体引导的跨模态多头注意力，

和

是可学习的权重矩阵，σ是Sigmoid激活函数，

是第l层图网络跨模态融合比例，

是融入视觉信息后的实体特征；

其中，实体-词元边的信息融合计算过程如下：

其中，

是第l层图网络第j个实体结点特征，

是组成

的词元，

和

是可学习的权重矩阵，

是跨模态融合比例，

是融入视觉信息后的词元特征。

本实例中，异构图交互网络的层数设置为6，dropout率设置为0.4，图网络隐藏层特征维度设置为256，多头注意力机制头数设置为8。

是由标签y_i到,y_i+1的转移得分，

是由词元特征映射到标签y_i的发射分数。

本实例中，多模态命名实体识别损失函数和实体范围检测损失函数在整体损失函数中的权重均设置为0.5，Adam优化器的学习率设置为0.00003，训练批量大小设置为16，训练迭代轮数设置为50。

一优选实施例，如图3所示，首先将输入句子词元化切分并送入BERT编码，提取一句话中每个词元的特征向量，得到词元向量列连接而成的文本编码矩阵；将文本编码矩阵输入第一个Transformer层，获得语境化词元特征表示，并使用线性变换将其投影到多模态空间得到投影词元特征；将文本编码矩阵输入第二个Transformer层，获得实体范围检测子任务的特定词元特征；在训练过程中，将实体范围检测特定词元特征输入CRF中，计算得到实体范围检测损失函数，并通过维特比译码解码实体范围检测结果；在非训练情况下，将实体范围检测特定词元特征和真实标签输入CRF中，使用维特比译码解码实体范围检测结果；将投影词元特征根据实体范围检测结果进行最大池化，获得实体的特征；将输入图像送入DETR进行目标检测并将图像按照目标区域裁剪，得到视觉目标区域的图像；将目标区域图像和原输入图像一起送入152层ResNet中编码，得到视觉目标特征，并使用多层感知机将目标特征映射到多模态空间，得到投影目标特征；将投影词元特征、投影目标特征、实体特征使用实体-词元边、实体-目标边、同模态边连接得到多模态异构图；将多模态异构图输入跨模态交互网络中，根据三种类型的边进行信息的交互和融合，得到多模态词元特征；在训练过程中，将多模态词元特征和真实标签输入CRF中，计算多模态命名实体识别损失函数，与实体范围检测损失函数加权求和得到总损失函数，使用Adam优化器对总损失函数进行最小优化更新模型参数；在非训练情况下，将将多模态词元特征输入CRF中，使用维特比译码解码得到最终的多模态命名实体识别结果。

本发明实施例一使用实体范围检测作为辅助任务获取实体特征，提出了一种基于异构图的实体级跨模态交互网络挖掘视觉模态中的实体信息以增强文本特征，提高了多模态命名实体识别的性能；通过使用包含完整语义信息的实体特征与目标特征交互，实现了更高效地捕获实体相关视觉信息；通过将非实体词元排除到跨模态交互过程外，保护非实体词元免受视觉模态噪声的干扰，提高了多模态命名实体识别的准确率。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。