CN113435203B

CN113435203B - 多模态命名实体识别方法、装置以及电子设备

Info

Publication number: CN113435203B
Application number: CN202111000020.5A
Authority: CN
Inventors: 陈建颖; 薛云; 张政轩; 陈洁海
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-30
Anticipated expiration: 2041-08-30
Also published as: CN113435203A

Abstract

本发明涉及一种多模态命名实体识别方法、装置以及电子设备，该方法包括：获取社交媒体的评论数据，评论数据包括文本和与文本对应的图像，获得上下文表示和图像实体词，输入至多头跨模态注意力机制模型，获得文本向量和图像向量，输入至门控机制模型进行融合，获得多模态融合特征，输入至混合专家系统，获得第一隐藏层向量，输入至自注意力层进行编码，获得第二隐藏层向量，将第一隐藏层向量、第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果，引入词性信息，来消除文本实体的噪声，通过门控机制筛选图像信息，来消除图像的噪声，基于知识库的混合专家系统滤除多模态融合后的噪声，从而提高了命名实体识别精度。

Description

多模态命名实体识别方法、装置以及电子设备

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种多模态命名实体识别方法、装置以及电子设备。

背景技术

命名实体识别是自然语言处理的一个基本问题，其目的在于发现文本中的命名实体以及将命名实体划分到预定义的类别，如人名、地名或组织机构名等。近年来，由于深度学习技术的兴起与成熟，尤其是神经网络在序列标注任务上的成功，基于LSTM-CRF方法在纯文本的命名实体识别任务中取得了令人满意的效果。

然而，使用该方法来处理社交媒体上的帖子仍然存在很多限制。一方面，社交媒体中的文本通常是短文本，文本内容所传达的信息非常少，对命名实体进行分类具有挑战性。另一方面，在大多数情况下，图像对于表达观点是很重要的，也即视觉信息有助于命名实体识别的分类。因此，基于社交网络的多模态数据的名实体识别方法孕育而生。

在传统的多模态命名实体识别方法中，倾向于收集文本和图像两种模态的信息，然后将文本信息和图像信息拼接，整合到多模态命名实体识别神经网络模型中，来处理模态内部以及模态之间的关系。但是，这些传统方法给网络引入了大量的无关信息，导致多模态噪声大、命名实体识别精度低。

发明内容

基于此，本发明的目的在于，提供一种多模态命名实体识别方法、装置以及电子设备，其具有降低噪声、提高命名实体识别精度的优点。

根据本申请实施例的第一方面，提供一种多模态命名实体识别方法，包括如下步骤：

获取社交媒体的评论数据，所述评论数据包括文本和与所述文本对应的图像；

获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示；

将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词；

将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量；

将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征；

将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量；

将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量；

将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果。

根据本申请实施例的第二方面，提供一种多模态命名实体识别装置，包括：

数据获取模块，用于获取社交媒体的评论数据，所述评论数据包括文本和与所述文本对应的图像；

向量获取模块，用于获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示；

特征提取模块，用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词；

向量获得模块，用于将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量；

向量融合模块，用于将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征；

融合特征输入模块，用于将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量；

上下文编码模块，用于将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量；

结果获得模块，用于将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果。

根据本申请实施例的第三方面，提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的多模态命名实体识别方法。

本申请实施例通过获取社交媒体的评论数据，所述评论数据包括文本和与所述文本对应的图像。获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示。将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词。将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征。将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量。将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量。将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果。本发明在多模态命名实体识别任务中引入词性信息，来消除文本实体的噪声；进一步通过门控机制筛选图像信息，来消除图像的噪声；在图像和文本特征融合后通过基于知识库的混合专家系统提取每个实体的专家级特征，从整体上对每个实体进行了选择，从而滤除多模态融合后的噪声，从而降低了多模态命名实体识别过程中的噪声、提高了命名实体识别精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明多模态命名实体识别方法的流程示意图；

图2为本发明多模态命名实体识别方法中S20的流程示意图；

图3为本发明多模态命名实体识别方法中S30的流程示意图；

图4为本发明多模态命名实体识别方法中S40的流程示意图；

图5为本发明多模态命名实体识别方法中S50的程示意图；

图6为本发明多模态命名实体识别方法中S60的程示意图；

图7为本发明多模态命名实体识别方法中S70的程示意图；

图8为本发明多模态命名实体识别方法中S80的程示意图；

图9为本发明多模态命名实体识别装置的结构框图；

图10为本发明多模态命名实体识别装置向量获取模块92的结构框图；

图11为本发明多模态命名实体识别装置特征提取模块93的结构框图；

图12为本发明多模态命名实体识别装置向量获得模块94的结构框图；

图13为本发明多模态命名实体识别装置向量融合模块95的结构框图；

图14为本发明多模态命名实体识别装置融合特征输入模块96的结构框图；

图15为本发明多模态命名实体识别装置上下文编码模块97的结构框图；

图16为本发明多模态命名实体识别装置结果获得模块98的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A 和/或 B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，本发明实施例提供一种多模态命名实体识别方法，包括的步骤如下：

S10.获取社交媒体的评论数据，所述评论数据包括文本和与所述文本对应的图像。

社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。评论数据是社交媒体上的用户分享的意见、见解、经验和观点等等，以图片和文字等形式发布。在本申请实施例中，获取社交媒体推特上发布的用户帖子，所述用户帖子包含一段文本和与所述文本对应的一张图片。

S20.获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示。

在本申请实施例中，双向自注意力模型是BERT（全称为Bidirectional EncoderRepresentation from Transformers）模型，由谷歌技术团队开发，用于编码句子信息。所述BERT模型的输入可以包含一个句子对 (句子 A 和句子 B)，也可以是单个句子。所述文本包括多个句子，所述句子包括多个词语。获取每个词语对应的词性向量、词向量、上下句向量和位置向量，输入至双向自注意力模型进行编码，获得所述文本的上下文表示。

S30.将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词。

在本申请实施例中，掩模区域卷积神经网络模型是Mask R-CNN模型，所述Mask R-CNN模型是在Faster R-CNN的基础上添加了一个预测分割mask的分支，用于多目标检测，能确定图片中各个目标的位置和类别。将所述图像输入至Mask R-CNN模型进行特征提取，识别出所述图像中的图像实体词，所述图像实体词与所述文本中的命名实体相关。

S40.将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。

在本申请实施例中，为了在关联图像的指导下学习更好的单词表示以及为了在关联单词的指导下学习更好的图像表示，将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型做交互注意力，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。

S50.将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征。

在本申请实施例中，所述门控机制模型包括多模态门和过滤门，将所述文本向量和所述图像向量输入至所述多模态门进行融合，所述多模态门来权衡网络分别从图像和文本中考虑了多少信息，即为图像和文本信息的选择分配权重。对于命名实体识别，并不是每一个词的预测都需要引入图像信息。例如，当预测的词性是动词或形容词时，图像特征并不是必须的，这时候引入图像特征反而会带来噪声，因而引入过滤门，滤除多模态融合后的噪声，最终获得所述文本向量和所述图像向量的多模态融合特征。

S60.将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量。

在有些情况下，不同的命名实体类型可能具有相似或相同的上下文、词性和图片信息。例如，句子“Arafat subsequently cancelled a meeting between Israeli andPLO officials”，其中，“Arafat”是个名词，并且在图片中可能同时出现人和组织机构的图像实体词，所以“Arafat”既可能标注为人名实体，也可能被标注为组织机构实体。在本申请实施例中，为了消除多模态融合后的噪声，更有效地利用多模态信息，提取有效信息，引入混合专家系统。将所述多模态融合特征输入至混合专家系统，获得专家级特征和置信度，根据所述专家级特征和所述置信度，获得第一隐藏层向量。

S70.将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量。

由于图像包含的命名实体不全面，与文本中的命名实体有偏差，从而过分强调图像突出的命名实体，忽略了文本中剩余的命名实体。在本申请实施例中，为了减少这种噪声，引入了自注意力Transformer层，将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量，用来提高文本信息的权重。

S80.将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果。

条件随机场（conditional random field，简称CRF），是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。在本申请实施例中，将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果，所述命名识别结果包括预测命名实体的位置BIO信息和类别信息。

应用本发明实施例，通过获取社交媒体的评论数据，所述评论数据包括文本和与所述文本对应的图像。获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示。将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词。将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征。将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量。将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量。将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果。本发明在多模态命名实体识别任务中引入词性信息，来消除文本实体的噪声；进一步通过门控机制筛选图像信息，来消除图像的噪声；在图像和文本特征融合后通过基于知识库的混合专家系统提取每个实体的专家级特征，从整体上对每个实体进行了选择，从而滤除多模态融合后的噪声，从而降低了多模态命名实体识别过程中的噪声、提高了命名实体识别精度。

在一个可选的实施例中，请参阅图2，所述步骤S20，包括S21~S22，具体如下：

S21.获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息，通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量。

词性信息与命名实体息息相关，其中，名词是命名实体的概率远远超过其他词性是命名实体的概率，揭示了名词词性与命名实体的高度相关性。在本申请实施例中，使用斯坦福解析器对文本进行了词性标注，并将词性分为4类，即名词、动词、形容词和其他词性。同时，获取单词信息、上下句信息和位置信息，通过词嵌入表将所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量。

S22.将每个词的所述词性向量、词向量、上下句向量和位置向量求和，输入至双向自注意力模型进行编码，获得所述文本的上下文表示。

在本申请实施例中，基于所述BERT模型，对每个句子进行了预处理，在每个句子的开头添加[CLS]，结尾添加[SEP] ，表示一个句子的开始与结束。若一个句子包含n个单词，所述词性向量为

，所述词向量为

，所述上下句向量为

，由于不需要对句子进行分类，所以上下句向量每个元素为0。对于同一个单词，在句子中的不同位置应该有不同的表示，所述位置向量为

。将每个词的所述词性向量、词向量、上下句向量和位置向量中同一位置上的元素求和，输入至双向自注意力模型进行编码，获得所述文本的上下文表示，所述上下文表示为

。

在一个可选的实施例中，请参阅图3，所述步骤S30，包括S31~S34，具体如下：

S31.将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得多个目标命名实体词的分类得分；

S32.根据所述分类得分对所述目标命名实体词进行从高到低排序，取前k个目标命名实体词构成目标命名实体词集合；

S33.将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表，生成对象嵌入向量；

S34.将所述对象嵌入向量输入至单层感知机，获得与所述上下文表示的维度相同的图像实体词；其中，生成对象嵌入向量的公式为：

为每个所述目标命名实体词，

为所述对象嵌入向量，

表示所述词嵌入表，

；

获得与所述上下文表示相同维度的图像实体词的公式为：

为所述图像实体词，

是

激活函数，

和

为所述单层感知机中可训练的权重参数。

在本申请实施例中，将所述图像输入至Mask RNN模型来识别图像中的目标命名实体词，将分类得分最高的前4个目标命名实体词输入至词嵌入表，生成对象嵌入向量。为了方便与文本向量做交互注意力，使用单层感知机将所述对象嵌入向量映射为与所述文本向量具有相同维度的图像实体词。

在一个可选的实施例中，请参阅图4，所述步骤S40，包括S41~S43，具体如下：

S41.将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层，并以所述图像实体词作为查询向量，所述上下文表示作为键和值，获得图像引导上下文注意力的输出表示；

S42.将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层，并以所述上下文表示作为查询向量，所述图像引导上下文注意力的输出表示作为键和值，获得所述上下文表示对应的文本向量；

S43.将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层，并以所述上下文表示作为查询向量，所述图像实体词作为键和值，获得所述图像实体词对应的图像向量；

其中，获得图像引导上下文注意力的输出表示的公式为：

是所述第一跨模态注意力层的第

个头，

是所述图像实体词，

是所述上下文表示，

是训练一个批次的句子数量，

是所述第一跨模态注意力层的多头注意力的头数，

、

、

和

是所述第一跨模态注意力层的权重参数，

表示转置，

是所述第一跨模态注意力层的

个头的组合，

是所述第一跨模态注意力层的第1个头到第

个头，

是所述图像引导上下文注意力的输出表示，

是

激活函数，

是

激活函数；

获得所述上下文表示对应的文本向量的公式为：

是所述第二跨模态注意力层的第

个头，

是所述第二跨模态注意力层的多头注意力的头数，

、

、

和

是所述第二跨模态注意力层的权重参数，

是所述第二跨模态注意力层的

个头的组合，

是所述第二跨模态注意力层的第1个头到第

个头，

是所述上下文表示对应的文本向量；

获得所述图像实体词对应的图像向量的公式为：

是所述第三跨模态注意力层的第

个头，

是所述第三跨模态注意力层的多头注意力的头数，

、

、

和

是所述第三跨模态注意力层的权重参数，

是所述第三跨模态注意力层的

个头的组合，

是所述第三跨模态注意力层的第1个头到第

个头，

是所述图像实体词对应的图像向量。

由于图像实体词在所述第一跨模态注意力层作为查询向量，生成的图像引导上下文注意力的输出表示

只有4个维度，而所述上下文表示

有n+1个维度，为了使两者维度一致，因而增加了所述第二跨模态注意力层，以所述上下文表示作为查询向量，所述图像引导上下文注意力的输出表示作为键和值，获得所述上下文表示对应的文本向量

。

在一个可选的实施例中，请参阅图5，所述步骤S50，包括S51~S52，具体如下：

S51.将所述文本向量和所述图像向量输入至所述多模态门进行融合，获得所述文本向量和所述图像向量的初始融合特征；

S52.将所述初始融合特征输入至所述过滤门进行过滤，获得所述文本向量和所述图像向量的多模态融合特征；

其中，获得所述文本向量和所述图像向量的初始融合特征的公式为：

是所述图像向量，

是所述文本向量，

、

和

是所述多模态门的权重参数，

和

是所述多模态门的偏置参数，

是所述图像向量

经过

激活函数运算之后生成的新的图像向量，

是所述文本向量

经过

激活函数运算之后生成的新的文本向量，

是sigmoid激活函数，

表示向量的级联，

是所述新的图像向量的多模态门权重系数，

是所述新的文本向量的多模态门权重系数，

是所述文本向量和所述图像向量的初始融合特征；

获得所述文本向量和所述图像向量的多模态融合特征的公式为：

，

和

是所述过滤门的权重参数，

和

是所述过滤门的偏置参数，

是[0，1]范围内的标量，

是过滤门滤除噪声后保留的多模态融合特征，

是所述文本向量和所述图像向量的多模态融合特征。

在本申请实施例中，所述多模态门用于将文本向量和图像向量进行融合，得到多模态融合特征，所述过滤门用于将多模态融合特征进行噪声滤除，从而提高命名实体识别精度。

在一个可选的实施例中，请参阅图6，所述步骤S60，包括S61~S63，具体如下：

S61.构建每个所述多模态融合特征对应的多个专家级特征；

S62.将所述多模态融合特征和所述知识库输入至所述专家门，获得多个所述专家级特征对应的置信度；

S63.将所述专家级特征和所述置信度相乘并求和，获得所述第一隐藏层向量；

其中，构建专家级特征的公式为：

表示每一个所述多模态融合特征

对应的n个所述专家级特征，

是以e为底的指数函数，

表示所述多模态融合特征

经过

激活函数运算之后得到的第一个所述专家级特征，

表示所述多模态融合特征

经过

激活函数运算之后得到的第n个所述专家级特征；

获得置信度的公式为：

是所述混合专家系统的知识库，

表示每一个所述多模态融合特征

对应的n个所述置信度，

表示所述多模态融合特征

经过

激活函数的运算结果，

表示向量的级联，

是

激活函数；

获得所述第一隐藏层向量的公式为：

是所述第一隐藏层向量。

在本申请实施例中，所述混合专家系统包括知识库，所述知识库是通过提取语料库中所有标注为命名实体的单词，利用卷积神经网络CNN提取每种实体词的特征构成。其中，所述语料库为经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料。将多模态融合特征输入至混合专家系统，滤除了同一个实体词可能对应多个命名实体类别的噪声，提高了命名实体的识别精度。

在一个可选的实施例中，请参阅图7，所述步骤S70，包括S71~S72，具体如下：

S71.将所述上下文表示

输入至自注意力层进行编码，获得所述上下文表示对应的隐藏层向量

；

S72.将所述隐藏层向量

的第一个元素

和最后一个元素

去除，获得第二隐藏层向量

。

在本申请实施例中，将所述上下文表示输入至自注意力Transformer层进行编码，获得所述上下文表示对应的隐藏层向量，用于对每个单词进行位置信息BIO的标注，其中，B表示每个单词在命名实体中的开头位置，I表示每个单词在命名实体中的中间和/或结尾位置，O表示不是命名实体。由于跟文本中的第1个单词到第n个单词无关，将所述隐藏层向量的第一个元素和最后一个元素去除，获得第二隐藏层向量。

在一个可选的实施例中，请参阅图8，所述步骤S80，包括S81~S82，具体如下：

S81.将所述第二隐藏层向量与所述预设的概率转换矩阵的乘积，与所述第一隐藏层向量求和，获得第三隐藏层向量；

S82.将所述第三隐藏层向量输入至条件随机场，获得命名实体识别结果；其中，获得第三隐藏层向量公式为：

是所述第二隐藏层向量，

是所述预设的概率转换矩阵，

是所述第一隐藏层向量，

是所述第三隐藏层向量；

获得命名实体识别结果公式为：

是当前句子中每个词的标注结果，

是一个训练批次中所有句子中的词标注结果的集合，

和

是所述条件随机场的权重参数，

和

是所述条件随机场的偏置参数，

是所述命名实体识别结果。

在本申请实施例中，所述预设的概率转换矩阵

表示命名实体的位置信息到类别信息的转换概率，例如，实体词标注为 B只可能转换为B-PER（人名），B-LOC（地名），B-ORG（组织机构名），B-MISC（其他），因而对应的转换概率均预设为0.25。对于位置信息有BIO三类，B、I类均有PER、LOC、ORG以及MISC四种，因而，最终的预测类别y有9种，根据所述命名实体识别结果，可以得到每个单词在整个文本中是否属于实体词的预测概率，以及若为实体词，可以得到该实体词位于命名实体的具体位置以及所属类别的预测概率。

相应于上述方法实施例，请参阅图9，本发明实施例提供一种多模态命名实体识别装置9，包括：

数据获取模块91，用于获取社交媒体的评论数据，所述评论数据包括文本和与所述文本对应的图像；

向量获取模块92，用于获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示；

特征提取模块93，用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词；

向量获得模块94，用于将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量；

向量融合模块95，用于将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征；

融合特征输入模块96，用于将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量；

上下文编码模块97，用于将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量；

结果获得模块98，用于将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果。

可选的，请参阅图10，所述向量获取模块92，包括：

信息获取单元922，用于获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息，通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量；

向量求和单元924，用于将每个词的所述词性向量、词向量、上下句向量和位置向量求和，输入至预训练的双向自注意力模型进行编码，获得所述文本的上下文表示。

可选的，请参阅图11，所述特征获取模块93，包括：

特征提取单元932，用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得多个目标命名实体词的分类得分；

对象排序单元934，用于根据所述分类得分对所述目标命名实体词进行从高到低排序，取前k个目标命名实体词构成目标命名实体词集合；

对象输入单元936，用于将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表，生成对象嵌入向量；

向量输入单元938，用于将所述对象嵌入向量输入至单层感知机，获得与所述上下文表示的维度相同的图像实体词。

可选的，请参阅图12，所述向量获得模块94，包括：

输出表示获得单元942，用于将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层，并以所述图像实体词作为查询向量，所述上下文表示作为键和值，获得图像引导上下文注意力的输出表示；

文本向量获得单元944，用于将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层，并以所述上下文表示作为查询向量，所述图像引导上下文注意力的输出表示作为键和值，获得所述上下文表示对应的文本向量；

图像向量获得单元946，用于将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层，并以所述上下文表示作为查询向量，所述图像实体词作为键和值，获得所述图像实体词对应的图像向量。

可选的，请参阅图13，所述向量融合模块95，包括：

向量融合单元952，用于将所述文本向量和所述图像向量输入至所述多模态门进行融合，获得所述文本向量和所述图像向量的初始融合特征；

特征过滤单元954，用于将所述初始融合特征输入至所述过滤门进行过滤，获得所述文本向量和所述图像向量的多模态融合特征。

可选的，请参阅图14，所述融合特征输入模块96，包括：

专家级特征构建单元962，用于构建每个所述多模态融合特征对应的多个专家级特征；

置信度获得单元964，用于将所述多模态融合特征和所述知识库输入至所述专家门，获得多个所述专家级特征对应的置信度；

隐藏层向量获得单元966，用于将所述专家级特征和所述置信度相乘并求和，获得所述第一隐藏层向量。

可选的，请参阅图15，所述上下文编码模块97，包括：

上下文表示编码单元972，用于将所述上下文表示

；

隐藏层向量去除单元974，用于将所述隐藏层向量

的第一个元素

和最后一个元素

去除，获得第二隐藏层向量

。

可选的，请参阅图16，所述结果获得模块98，包括：

向量矩阵乘积单元982，用于将所述第二隐藏层向量与所述预设的概率转换矩阵的乘积，与所述第一隐藏层向量求和，获得第三隐藏层向量；

识别结果获得单元984，用于将所述第三隐藏层向量输入至条件随机场，获得命名实体识别结果。

本申请还提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述实施例的方法步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

Claims

1.一种多模态命名实体识别方法，其特征在于，包括：

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示，包括：

获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息，通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量；

将每个词的所述词性向量、词向量、上下句向量和位置向量求和，输入至预训练的双向自注意力模型进行编码，获得所述文本的上下文表示。

3.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词，包括：

将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得多个目标命名实体词的分类得分；

根据所述分类得分对所述目标命名实体词进行从高到低排序，取前k个目标命名实体词构成目标命名实体词集合；

将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表，生成对象嵌入向量；

将所述对象嵌入向量输入至单层感知机，获得与所述上下文表示的维度相同的图像实体词；其中，生成对象嵌入向量的公式为：

为每个所述目标命名实体词，

为所述对象嵌入向量，

表示所述词嵌入表，

表示从所述词嵌入表

中查询每个所述目标命名实体词

对应的所述对象嵌入向量

，

；

获得与所述上下文表示相同维度的图像实体词的公式为：

为所述图像实体词，

是

激活函数，

和

为所述单层感知机中可训练的权重参数。

4.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述多头跨模态注意力机制模型包括第一跨模态注意力层、第二跨模态注意力层和第三跨模态注意力层，所述将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量，包括：

将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层，并以所述图像实体词作为查询向量，所述上下文表示作为键和值，获得图像引导上下文注意力的输出表示；

将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层，并以所述上下文表示作为查询向量，所述图像引导上下文注意力的输出表示作为键和值，获得所述上下文表示对应的文本向量；

将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层，并以所述上下文表示作为查询向量，所述图像实体词作为键和值，获得所述图像实体词对应的图像向量；

其中，获得图像引导上下文注意力的输出表示的公式为：

是所述第一跨模态注意力层的第

个头，

是所述图像实体词，

是所述上下文表示，

是训练一个批次的句子数量，

是所述第一跨模态注意力层的多头注意力的头数，

、

、

和

是所述第一跨模态注意力层的权重参数，

表示转置，

是所述第一跨模态注意力层的

个头的组合，

是所述第一跨模态注意力层的第1个头到第

个头，

是所述图像引导上下文注意力的输出表示，

是

激活函数，

是

激活函数；

获得所述上下文表示对应的文本向量的公式为：

是所述第二跨模态注意力层的第

个头，

是所述第二跨模态注意力层的多头注意力的头数，

、

、

和

是所述第二跨模态注意力层的权重参数，

是所述第二跨模态注意力层的

个头的组合，

是所述第二跨模态注意力层的第1个头到第

个头，

是所述上下文表示对应的文本向量；

获得所述图像实体词对应的图像向量的公式为：

是所述第三跨模态注意力层的第

个头，

是所述第三跨模态注意力层的多头注意力的头数，

、

、

和

是所述第三跨模态注意力层的权重参数，

是所述第三跨模态注意力层的

个头的组合，

是所述第三跨模态注意力层的第1个头到第

个头，

是所述图像实体词对应的图像向量。

5.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述门控机制模型包括多模态门和过滤门，所述将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征，包括：

将所述文本向量和所述图像向量输入至所述多模态门进行融合，获得所述文本向量和所述图像向量的初始融合特征；

将所述初始融合特征输入至所述过滤门进行过滤，获得所述文本向量和所述图像向量的多模态融合特征；

是所述图像向量，

是所述文本向量，

、

和

是所述多模态门的权重参数，

和

是所述多模态门的偏置参数，

是所述图像向量

经过

激活函数运算之后生成的新的图像向量，

是所述文本向量

经过

激活函数运算之后生成的新的文本向量，

是sigmoid激活函数，

表示向量的级联，

是所述新的图像向量的多模态门权重系数，

是所述新的文本向量的多模态门权重系数，

是所述文本向量和所述图像向量的初始融合特征；

，

，

和

是所述过滤门的权重参数，

和

是所述过滤门的偏置参数，

是[0，1]范围内的标量，

是所述上下文表示，

是过滤门滤除噪声后保留的多模态融合特征，

是所述文本向量和所述图像向量的多模态融合特征。

6.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述混合专家系统包括专家门和知识库，所述将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量，包括：

构建每个所述多模态融合特征对应的多个专家级特征；

将所述多模态融合特征和所述知识库输入至所述专家门，获得多个所述专家级特征对应的置信度；

将所述专家级特征和所述置信度相乘并求和，获得所述第一隐藏层向量；

其中，构建专家级特征的公式为：

表示每一个所述多模态融合特征

对应的n个所述专家级特征，

是以e为底的指数函数，

表示所述多模态融合特征

经过

激活函数运算之后得到的第一个所述专家级特征，

表示所述多模态融合特征

经过

激活函数运算之后得到的第n个所述专家级特征；

获得置信度的公式为：

是所述混合专家系统的知识库，

表示每一个所述多模态融合特征

对应的n个所述置信度，

表示所述多模态融合特征

经过

激活函数的运算结果，

表示向量的级联，

是

激活函数；

获得所述第一隐藏层向量的公式为：

是所述第一隐藏层向量。

7.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量，包括：

将所述上下文表示

；

将所述隐藏层向量

的第一个元素

和最后一个元素

去除，获得第二隐藏层向量

。

8.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果，包括：

将所述第二隐藏层向量与所述预设的概率转换矩阵的乘积，与所述第一隐藏层向量求和，获得第三隐藏层向量；

将所述第三隐藏层向量输入至条件随机场，获得命名实体识别结果；其中，获得第三隐藏层向量公式为：

是所述第二隐藏层向量，

是所述预设的概率转换矩阵，

是所述第一隐藏层向量，

是所述第三隐藏层向量；

获得命名实体识别结果公式为：

是当前句子中每个词的标注结果，

是一个训练批次中所有句子中的词标注结果的集合，

和

是所述条件随机场的权重参数，

和

是所述条件随机场的偏置参数，

是所述命名实体识别结果。

9.一种多模态命名实体识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1至8中任意一项所述的多模态命名实体识别方法。