CN114386412A

CN114386412A - 一种基于不确定性感知的多模态命名实体识别方法

Info

Publication number: CN114386412A
Application number: CN202011140620.7A
Authority: CN
Inventors: 何小海; 刘露平; 王美玲; 卿粼波; 吴小强; 陈洪刚; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-04-22
Anticipated expiration: 2040-10-22
Also published as: CN114386412B

Abstract

本发明公开了一种基于不确定性感知的多模态命名实体识别方法。包含备选标签生成和标签修正两个步骤。在备选标签生成中，首先使用预训练模型对输入文本进行特征提取，得到包含丰富上下文信息的特征表示；然后将该特征送入贝叶斯神经网络输出备选标签和对应的不确定性。在标签修正阶段，使用预训练模型对文本和图像进行特征提取，得到特征表示；其次提出了一种多模态融合框架，通过多头注意力机制实现文本和图像的特征融合。最后将融合特征送入条件随机场输出修正标签，并用该标签对备选标签进行修正。相比于现有方法，本发明方法能够有效抑制不相关图像引入的噪声，在社交媒体信息挖掘、信息抽取等领域具有广阔应用前景。

Description

一种基于不确定性感知的多模态命名实体识别方法

技术领域

本发明设计了一种基于不确定性感知的多模态命名实体识别方法，属于自然语言处理和计算机视觉领域的交叉。

背景技术

伴随着移动互联网及智能终端的蓬勃发展，社交媒体(如Facebook,Twitter等)迅速发展壮大，已经成为人们保持沟通以及表达个人情感的主要平台。社交媒体平台每天都在产生海量消息，这些海量信息可以用于网络攻击检测、自然灾害预警以及疾病爆发预测等任务。由于社交媒体平台包含的海量信息都是非结构化的，不利于计算机直接进行处理。因此，从社交媒体中自动抽取出重要信息已变得迫切而重要。作为一项基础而又重要的任务，社交媒体上的命名实体识别近年来吸引了广大研究者的关注。通过命名实体识别，可以从海量数据中提取出人物、组织以及地点等重要信息。这些提取出的信息可以为事件检测、热点话题分析等高层任务提供输入。

目前，命名实体识别技术在新闻等较规范数据上已日趋成熟，但在社交媒体上进行命名实体识别依然存在着较大的挑战。这主要体现在如下两方面：(1)相比于新闻类较为规范的文本，社交媒体上的文本数据存在着长度较短及结构不完整等特点，这使得在社交媒体上进行命名实体识别时往往缺乏相应的上下文环境信息。(2)此外，社交媒体上存在着大量“口语化”用语，使得社交媒体上的数据普遍存在着较多的噪声。

为了应对上述挑战，大量研究者开展了深入的研究并提出了相应的解决方案。在早期的方法中，研究者探索了利用社交媒体数据特点来辅助命名实体识别，如利用Twitter的流信息(Li C,Weng J,He Q,et al.TwiNER:named entity recognition in targetedtwitter stream[C]//International ACM SIGIR conference on research&developmentin information retrieval.)。近年来，部分研究者探索了利用社交媒体上丰富的视觉信息来辅助命名实体识别任务，并取得了相应的成功。在社交媒体上所发布的消息中，大部分文本都包含有相应的图片，这些相应配图含有丰富的视觉信息可以辅助用于对文本的理解，同时也为命名实体识别提供了部分上下文环境信息。在这些方法中，研究者首先通过特征提取网络从文本和图片中捕获相应的特征信息，然后设计不同的特征融合框架实现文本和图像特征的多模态融合表示，最后将这些融合后的特征表示用于命名实体识别任务。通过融合视觉信息可以在一定程度上缓解社交媒体上下文环境信息缺失的问题，因此基于多模态特征融合方法有效地提升了社交媒体上命名实体识别任务的性能。

然而，现有的方法只关注于特征融合而忽略了社交媒体上图文不匹配的现象，即用户上传的配图与发布的消息表达的是不同的语义场景。这种现象在社交媒体上较为常见，而这些大量存在的图文不匹配对给现有的多模态融合方法带来的相应的挑战。如果将这些不相关的视觉信息融入到文本特征中，相当于给模型引入了额外的噪声信息，从而使得模型可能产生错误的预判，并最终影响命名实体识别任务的性能。

针对以上问题，本发明提出了一种基于不确定性感知的社交媒体命名实体识别方法。在该方法中，命名实体识别任务被分解为两个步骤：备选标签生成和标签修正。在备选标签生成中，模型只使用文本信息作为输入，然后基于贝叶斯神经网络得到模型的预测输出及相应的不确定性。本发明将模型第一阶段的输出作为备选标签，而模型的不确定性则描述了备选标签是否是足够可信的。在标签修正阶段中，首先构建了一个基于多头注意力机制的多模态融合框架，该框架通过多头注意力机制实现文本和图像的特征的融合，随后将融合后的特征经过线性层进行特征维度转换后送入一个条件随机场得到修正标签。最后将修正标签用于对备选标签中具有较高不确定性的标签进行修正。

该方法创新性地引入模型不确定来衡量是否应该进行有效的多模态特征的融合，使得只有在文本信息不足够时才会融入图片视觉信息，因此可以在一定程度上抑制不相关图片引入的噪声，并进一步提升社交媒体上命名实体识别任务的性能。

发明内容

本发明针对社交媒体上的命名实体识别任务，提出了一种基于不确定性感知的多模态命名实体识别方法。该方法将命名实体识别任务分解两个步骤：备选标签生成和标签修正。在备选标签生成阶段中，本发明构建了基于贝叶斯双向长短记忆网络的命名实体识别框架，该框架只使用文本信息作为输入，经过贝叶斯双向长短记忆网络编码后送入多分类网络得到预测标签信息，同时通过计算标签概率的熵信息来得到预测标签的不确定性。模型标签的不确定性用于指示模型的输出是否是足够可信的。在标签修正阶段中，本发明构建了一个基于多头注意力机制的多模态融合框架，该框架首先使用两个自注意力网络来分别捕获文本和图片的模态内的注意力，然后基于多模态交互网络来捕获两种模态间的注意力，最后经过一个视觉门控网络来进行多模态特征融合。该融合特征被随后送入条件随机场解码后得到修正标签。最后使用修正标签对备选标签中具有较高不确定性的标签进行修正。

本发明通过以下技术方案来实现上述目的：

1、发明所述的社交媒体多模态命名实体识框架如图1所示，其包含贝叶斯神经网络和多模态融合网络两部分。本发明所述的社交媒体多模态命名实体识别方法包含训练和推理两个阶段，在训练阶段按照如下方法进行：

(1)在备选标签生成中，首先利用预训练语言模型BERT对输入的文本进行特征提取，得到包含上丰富下文语义信息的单词特征表示。

(2)将单词特征表示送入贝叶斯双向长短记忆网络模型，对句子进行编码后得到更高层的语义特征，该语义特征随后送入一个全连接层进行特征维度的转换，将每个单词的特征维度转换为实体类别标签的数量。

(3)将步骤(2)中得到特征向量送入一个Softmax分类器中，输出每个单词的类别概率，取概率最大的一个类别作为该单词的标签信息，该标签信息即为备选标签。

(4)在第二阶段中，将输入的文本和图像分别用文本预训练语言模型BERT和图像预训练模型RestNet提取相应的特征向量，为了使文本和图像的特征维度匹配，使用一个线性层对图像特征向量进行维度转换，将其转换到和文特征向量维度一样的大小。

(5)将步骤(4)中获取的文本和图像特征向量分别送入两个多头自注意力机制的网络(A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,L.u.Kaiser,I.Polosukhin,Attention is all you need,in:I.Guyon,U.V.Luxburg,S.Bengio,H.Wallach,R.Fergus,S.Vishwanathan,R.Garnett(Eds.),Advances in NeuralInformation Processing Systems,Curran Associates,Inc.,2017,pp.5998-6008.)，用于捕获文本和图像模态内的特征相关性。

(6)将步骤(5)中输出文本和图像特征向量送入基于多头注意力机制的多模态特征融合网络中，其中文本特征向量作为query向量，图像特征向量分别作为key和value向量，经过多模态融合计算后，得到融合后的多模态特征。

(7)将步骤(6)中得到的多模态特征融合向量和步骤(5)中输出的文本特征向量送入一个视觉门控制网络计算得到视觉特征与每个单词的关联程度系数，本发明称为视觉强度系数，随后将该系数乘以对应的多模态特征向量，输出相应的特征向量表示。

(8)将步骤(7)中得到的特征向量与步骤(5)中得到的文本特性向量相结合后送入线性层进行特征维度转换，将每个单词的特征向量维度转换为实体类别标签的数量。随后经过一个条件随机场网络解码后得到标签的概率信息。

(9)将步骤(3)和步骤(8)中得到的标签概率信息分别和真实标签计算损失，然后将两个损失用于分别优化贝叶斯神经网络和多模态神经网络的参数。

在推理阶段，实体标签预测也分为备选标签生成和标签修正两个阶段，按照如下步骤进行：

(1)在选标签生成中，首先对一个输入句子利用训练步骤(1)中的特征提取模型对输入句子进行特征提取。然后提取的特征重复送入贝叶斯神经网络T次，每次从后验概率分布中采样一个概率，并进行前向传播后计算得到概率输出。经过T次采样后，得到T个概率输出。

(2)将T个概率输出计算平均值，作为相应的标签概率信息，并取概率最大的一个作为单词对应的标签信息。本发明将输出的标签概率信息的计算熵，得到相应的标签不确定性，其中不确定性越高，表示该单词的标签预测信息越有可能出错。

(3)在标签修正阶段，将文本和图像送入多模态特征融合网络得到融合后的特征，随后经过线性层进行特征维度转换后送入条件随机场网络解码得到相应修正标签。

(4)最后使用修正标签对备选标签进行修正，在修正时设定一个合适的阈值，如果第一阶段生成的备选标签的不确定性大于设定的阈值，则将该标签进行修正，否则保留第一阶段生成的标签信息。

具体地步骤(1)中，首先利用BERT预训练模型对输入句子的单词进行向量初始化，其中BERT使用的是bert-base-uncased版本，经过向量初始化后，得到单词的特征向量C＝[c₀,c₁,...,c_n]，每个单词的特征向量维度768维。

在标签修正中，文本特征向量送入一个贝叶斯双向长短记忆网络，该贝叶斯神经网络的参数为一个随机变量ω，其后验概率分布用一个高斯概率分布q_θ(ω)＝N(ω|μ,σ²x)来近似，其中μ为均值，σ为方差。贝叶斯神经网络的层数为1，隐藏层神经元的数量为768。经过贝叶斯神经网络编码后，特征向量被送入一个线性层中进行特征维度的转换，得到新的特征向量T，其中线性层的输入维度大小为768，输出维度为实体标签类别的数量，在本发明方法中为11。上述过程的计算过程表示如下：

T＝Linear(h) (4)

在步骤(3)中，句子中每个单词的特征向量t_i被送入一个softmax层后得到每个单词概率类别p(i)，其中softmax的计算过程如下：

在步骤(4)中，文本和图像分别使用BERT和RestNet预训练网络提取特征，其中BERT使用的是bert-base-uncased版本，每个单词的特征向量为768；而RestNet则使用的RestNet152,取卷积神经网络的最后一层作为输出，每张图片会被表示为7*7个特征向量，每个特征向量的维度为2048。在特征转换中，线性转换层的输入维度为2048，输出维度为768。

在步骤(5)中，采用多头注意力机制来捕获句子间各个单词以及图像各个区域块之间的相关关系，在本发明中，总共采用12个注意力头，每个头隐藏层特征维度为64，在每个注意力头中，首先通过注意力机制得到单词或者图像区域的新的特征表示，其计算过程如下：

其中Q_t,，K_t,，V_t分别由单词的词向量表示经过三个全连接层转换后得到，Q_v,，K_v,，V_v由图像区域块的特征向量经过另外三个全连接层转换后得到。式中d_k等于64。在得到单个头的注意力机制后，将多个多头注意力的输出进行拼接后经过全连接层后得到单词和图像视觉区域块的编码向量表示，计算过程如下所示：

m_t＝MultiHead(Q_t,K_t,V_t)＝concat(head_t1,...,head_th)W_t (8)

m_v＝MultiHead(Q_v,K_v,V_v)＝concat(head_v1,...,head_vh)W_v (9)

为防止梯度消失，多头注意力网络的输出进一步经过一个残差连接和归一化层后得到网络的输出，计算过程如下所示：

h_mt＝LayerNorm(m_t+C) (10)

h_mv＝LayerNorm(m_v+V) (11)

其中C为步骤(4)中输出的文本特征表示，V为步骤(4)中输出的图像特性向量表示。

在步骤(6)中，将经过自注意力网络提取的模态内的文本和图像的特征送入一个多模态特征网络用语捕获模态间的相关关系。该多模态网络仍采用步骤(5)中的多头注意力机制网络，其中文本特征向量作为query向量，图像特征作为key和value向量，计算过程和步骤(5)类似，这里不在详细叙述，本发明将该步骤输出的特征向量定义为P_mv。

在步骤(7)中，将多模态特征向量和步骤(5)输出的文本特征向量送入一个视觉门控网络。该门控网络主要用于计算视觉信息与每个单词关联强度。由于句子中的部分单词和图像中的视觉信息有很少关联，如句子的‘a’,’the’等单词，因此这些单词不需要获得相应的视觉表示。通过门控网络可以计算一个强度系数，本发明称为视觉强度系数，该视觉强度系数表示了视觉特征对文本特征的贡献程度，计算过程如下：

g＝σ(W_T)^Th_mt+(W_v)^TP_mv (12)

在得到视觉强度系数后，将视觉强度系数乘以对应的多模态视觉特征表示，获得最终的多模态视觉特征表示:B＝g*h_mt。

在步骤(8)中，将步骤(7)中获取的多模态视觉特征表示和步骤(5)中获取的文本特征表示结合，并经过一个线性层进行特征维度的转换后得到最终的特征向量表示H。该过程表示如下：

H＝Linear([B；P_mv]) (13)

在步骤(9)中，特征向量经过条件随机场解码输出概率标签信息。

在步骤(10)中，对于贝叶斯神经网络，其使用负证据下界(Evidence lowerbound,ELBO)

损失进行优化，而多模态融合网络则使用交差损失熵进行优化，两个损失函数定义如下：

在公式(14)中，logp(D|ω)为最大释然估计，q_θ(ω)参数的后验概率分布，p(ω)为参数的先验分布，KL为两个分布的相对熵，也称为KL散度(Kullback-Leibler，KL)。在交差损失熵中，y_i为单词i的真实标签，y_i'为单词i的预测概率输出,T为训练时每个批处理的大小，而N为每个句子中的最大单词数量。

在推理阶段的步骤(1)中，采样次数T设置为64，即同一个句子会被重复送入到网络中64次，因此每个单词都会得到64个概率输出。

在推理阶段的步骤(2)中，每个单词的预测概率输出为64次采样的平均，计算公式如下：

而每个标签的不确定性则是每个样本概率类别的熵，计算过程如下：

如果熵越大，则说明该预测越不可信。

在推理阶段的步骤(3)中，将一个新的输入的句子和对应的图片送入到多模态网络中进行特征提取，最后经过线性层进行特征维度转换并经过条件随机场进行得到修正标签。

在推理阶段的步骤(3)中，将用多模态网络输出的修正标签对阶段1中生成的备选标签进行修正，在具体修正的过程中，通过设置一个阈值来指示该标签是否应该被修正，如果阶段1中生成的标签的不确定性大于阈值，则该标签将修正，否则保留第一阶段生成的标签作为做好的预测标签。不确定值阈值的选取与数据集有关，具体选择方式为设定该阈值后，经过上述修正后使得模型能够取得最大的F₁值。

附图说明

图1是本发明提出的网络模型的主要框架。

图2是多模态融合网络的结构。

图3是模型在Twitter-2015和Twitter-2017两个数据集上在不同阈值下的性能变化情况。

具体实施方式

下面结合附图对本发明作进一步说明：

图1是整个网络的结构，其由两部分组成，分别是贝叶斯神经网络和多模态融合网络。贝叶斯神经网络接受文本数据作为输入，其输出包含了每个单词的预测标签以及对应的不确定性。在贝叶斯神经网络中，输入句子首先经过预训练语言模型BERT进行编码，得到初始化向量表示。该向量表示随后输入一个贝叶斯双向长短记忆网络模型，该模型的参数为随机变量，其后验概率分布由服从高斯分布的变量近似。贝叶斯神经网络输出的向量经过一个线性层后送入softmax分类网络得到概率信息。由于神经网络的参数是随机变量，因此其输出也服从概率分布。为了得到每个标签的概率输出，对模型进行T次采样，并将多次采样结果计算平均值后得到标签的概率输出。而模型的不确定值则通过计算概率标签的熵信息得到。在多模态神经网络中，模型将文本和对应的图像首先经过文本预训练模型BERT和图像预训练模型ResNet进行初始特征提取，提取的特征随后送入两个基于自注意力机制的模型用于提取模态内的相关关系，接着文本特征和图像特征被送入一个带视觉门机制的多模态融合网络进行特征融合后得到融合后的特征表示，随后该特征表示经过线性层进行维度转换后送入条件随机场解码输出修正标签。最后将该标签用于对备选标签进行修正，通过设置一个合适的阈值，将不确定性大于阈值的标签进行修正，而不确定性小于阈值的则不进行修正。

图2是多模态融合框架，该框架的输入为经过两个自注意力网络输出的文本和图像的特征，首先经过多头注意力机制的特征融合，其中文本作为query向量，图像特征作为key和value向量，经过多头注意力机制融合后送入一个视觉门控网络来得到视觉强度系数，最后将强度系数乘以对应的特征后得到最后特征表示。

图3是显示的是模型在Twitter-2015和Twitter-2017两个公开数据集上其模型的F₁值随阈值的变化趋势图。其中在阈值为0时，表示模型使用多模态框架输出的修正标签作为输出。从图中可以看出，随着阈值增加，模型的F₁值逐渐增大，这是由于模型的保留了部分第一阶段中生成具有较低不确定性的标签。当阈值不断增大时，模型将主要使用备选标签作为输出，由于该标签缺少视觉信息，因此模型的准确率迅速下降。

表1和表2是本发明在公开数据集Twitter-2015和Twitter-2017上的实验结果，通过实验表明，提出的模型与现有最好的模型相比，其综合评价指标F₁值取得最好的结果。

表1本发明网络模型在Twitter-2015数据集上和其他现有模型的的实验对比结果

表2本发明网络模型在Twitter-2017数据集上和其他现有模型的的实验对比结果

上述实施例只是本发明的较佳实施例，并不是对本发明技术方案的限制，只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案，均应视为落入本发明专利的权利保护范围内。

Claims

1.一种基于不确定性感知的多模态命名实体识别方法，其特征在于，包括以下步骤：

(1)分别使用文本预训练模型BERT-Base-Cased和图像预训练模型ResNet152对输入的文本和图像进行特征提取，其中图像特征向量获取自ResNet152最后一层卷积层的输出；

(2)构建贝叶斯双向长短记忆神经网络，并将文本特征向量输入到贝叶斯神经网络中，输出备选标签及相应的标签不确定性；

(3)构建多模态交互融合框架Multimodal Interaction Model(MIM)，将文本特征和图像特征送入到MIM中，输出多模态融合特征，随后经过一个线性层进行特征维度转换后，输入到条件随机场(Conditional Random Fields)解码网络中输出修正标签；

(4)用修正标签对备选标签进行修正。

2.根据权利要求1所述方法，其特征在于(2)中贝叶斯神经网络的构建和训练方法，具体过程如下：

在双向长短记忆网络(Bi-directional Long Short-Term Memory)的基础上构建贝叶斯神经网络；贝叶斯双层长短记忆网络的参数ω为随机变量，其后验概率p(ω|D)由一个高斯分布q_θ(ω)近似，即q_θ(ω)＝N(μ，σ²)；在贝叶斯神经网络训练过程中，采用负证据下界(Evidence lower bound)损失对参数进行优化，损失函数计算公式如下式所示：

式中，logp(D|ω)为最大释然估计，p(ω)为参数的先验分布，KL为两个分布的相对熵，也称为KL散度(Kullback-Leibler)。

3.根据权利要求1所述的方法，其特征在于(2)中备选标签生成及相应的标签不确定性计算方法，具体过程如下：

对于新输入句子，将其重复输入到贝叶斯神经网络T次，每次从后验概率分布中进行采样得到模型参数

并进行前向传播计算后得到T个特征向量，将这T个特征向量经过一个线性层进行特征维度转换，然后经过softmax得到T个概率输出；将这T个概率输出计算平均值作为最后概率输出，并取概率最大的作为标签类别，计算公式如下式所示：

式中，W_i为模型的待训练参数，h_i为多模态融合后得到的特征向量；标签的不确定性则通过计算各个类别概率的熵信息来得到，计算公式如下式所示：

式中，C为实体类别的数量。

4.根据权利要求1所述的方法，其特征在于(3)中多模态特征融合方法，融合过程如下：

给定文本特征向量C和图像特征向量V，首先将文本特征向量C和图像特征向量V送入两个自注意力网络中，分别计算得到模态内的特征表示：C_i和T_i；然后将C_i和T_i送入基于多头注意力机制的融合框架，其中文本特征向量C_i作为query向量，图像特征向量作为key和value向量，特征融合计算过程如下式所示：

式中，W′_q，W′_k，W′_v均为模型的待训练参数，d_k等于64；经过多模态特征融合后，通过视觉门控网络计算一个强度系数，本发明称为视觉强度系数，该视觉强度系数表示了视觉特征对文本特征的贡献程度，视觉强度系数计算公式如下面公式所示：

g＝σ((W_T)^TC_i+(W_V)^TT_MV) (5)

随后，将该视觉强度系数乘以对应的多模态特征向量即可得到基于视觉引导的文本特征表示B＝g·T_MV，最后将特征向量与文本特征向量C_i通过特征串联函数(concat)进行特征拼接后得到最终的多模态特征表示。

5.根据权利要求1所述的方法，其特征在于(4)中标签的修正过程，标签修正过程如下：

在进行标签修正时，需要选定一个合适的不确定阈值，如果备选标签的中标签的不确定性高于阈值，则使用修正标签进行修正，否则保留备选标签；不确定性阈值的选取与数据集有关，具体选择方式为设定该阈值后，经过上述修正后使得模型能够在数据集上取得最大的F1值。