CN116258145B

CN116258145B - 多模态命名实体识别方法、装置、设备以及存储介质

Info

Publication number: CN116258145B
Application number: CN202310497576.2A
Authority: CN
Inventors: 薛云; 麦卫兴; 张政轩
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-25
Anticipated expiration: 2043-05-06
Also published as: CN116258145A

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种多模态命名实体识别方法、装置、设备以及存储介质，采用相似度匹配推理，获得图文匹配推理信息，用以指示相关联的图像子区域的比例，实现了图文的整体以及局部匹配，减少无关视觉信息的影响，并且充分利用语义信息以及跨模态信息，构建多模态特征表示，有效的弥合不同模态间的语义鸿沟，提高多模态命名实体识别的精准性以及效率。

Description

多模态命名实体识别方法、装置、设备以及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种多模态命名实体识别方法、装置、设备以及存储介质。

背景技术

随着互联网的发展，社交媒体平台每天产生大量的多模态数据。近年来的研究主要集中在利用深度学习的方法提取和分析文本与图像中的信息，其中就包括多模态命名实体识别。与传统基于纯文本的命名实体识别不同，多模态命名实体识别通过使用图像作为附加输入来辅助命名实体（人名、地名、组织名等）的判断。作为许多综合性任务（多模态机器翻译、视觉对话、多模态情感分析等）不可或缺的基础，多模态命名实体识别已经成为命名实体识别的一个重要研究方向，并应用于带有图文信息的多模态社交帖子中的命名实体检测。

目前的文档级多模态多模态命名实体识别方法中，图像仅仅用来作为句子的补充，然后将句子信息与图像信息拼接，整合到多模态多模态命名实体识别神经网络模型中，来处理模态内部以及模态之间的关系，然而，上述方法存在着一定的局限性，不仅不能去除不相关的视觉信息，而且给神经网络模型引入了大量的无关信息，导致多模态噪声大、多模态命名实体识别精度低。

发明内容

基于此，本发明提供一种多模态命名实体识别方法、装置、设备以及存储介质，其具有降低噪声、提高多模态命名实体识别精度的优点。该技术方法如下：

第一方面，本申请实施例提供了一种多模态命名实体识别方法，包括以下步骤：

获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示；

将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中进行特征提取，获得句子全局特征表示以及图像全局特征表示；

将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，获得内图像矩阵、句子对图像矩阵以及图像对句子矩阵；

将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，其中，所述图文匹配推理信息用于指示相关联的图像子区域的比例；

构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示，将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示；

将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

第二方面，本申请实施例提供了一种多模态命名实体识别装置，包括：

数据获取模块，用于获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

编码模块，用于将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示；

全局特征提取模块，用于将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中进行特征提取，获得句子全局特征表示以及图像全局特征表示；

矩阵构建模块，用于将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，获得内图像矩阵、句子对图像矩阵以及图像对句子矩阵；

匹配推理模块，用于将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，其中，所述图文匹配推理信息用于指示相关联的图像子区域的比例；

跨模态特征提取模块，用于构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示，将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示；

命名实体识别模块，用于将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述的多模态命名实体识别方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的多模态命名实体识别方法的步骤。

在本实施例中，提供一种多模态命名实体识别方法、装置、设备以及存储介质，采用相似度匹配推理，获得图文匹配推理信息，用以指示相关联的图像子区域的比例，实现了图文的整体以及局部匹配，减少无关视觉信息的影响，并且充分利用语义信息以及跨模态信息，构建多模态特征表示，有效的弥合不同模态间的语义鸿沟，提高多模态命名实体识别的精准性以及效率。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的多模态命名实体识别方法的流程示意图；

图2为本申请一个实施例提供的多模态命名实体识别方法中S2的流程示意图；

图3为本申请一个实施例提供的多模态命名实体识别方法中S4的流程示意图；

图4为本申请一个实施例提供的多模态命名实体识别方法中S5的流程示意图；

图5为本申请一个实施例提供的多模态命名实体识别方法中S6的流程示意图；

图6为本申请一个实施例提供的多模态命名实体识别方法中S7的流程示意图；

图7为本申请一个实施例提供的多模态命名实体识别装置的结构示意图；

图8为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述目标实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的多模态命名实体识别方法的流程示意图，包括如下步骤：

S1：获得文档数据以及预设的多模态命名实体识别模型。

本申请的多模态命名实体识别方法的执行主体为多模态命名实体识别方法的识别设备（以下简称识别设备）。

在一个可选的实施例中，识别设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

识别设备获得文档数据，在一个可选的实施例中，所述文档数据源自于社交媒体，其中，社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。文档数据包括了社交媒体上的用户分享的意见、见解、经验和观点等等。

具体地，识别设备可以与所述社交媒体进行连接，获取社交媒体上发布的文档数据，其中，所述文档数据包括句子以及图像，所述图像包括若干个图像子区域，所述句子包括若干个单词，如下所示：

式中，s表示句子，为第i个单词的词向量，n为单词的总数。

词所述标签数据包括句子中各个单词的词性标注，在一个可选的实施例中，识别设备可以采用自然语言处理工具包NLTK，对句子中的每个单词进行词性标注，获得所述标签数据。

识别设备获取预设的多模态命名实体识别模型，其中，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

S2：将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示。

在本实施例中，识别设备将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示。

所述编码模块包括词嵌入模块、目标检测模块、维度变换模块以及独热编码模块。

请参阅图2，图2为本申请一个实施例提供的多模态命名实体识别方法中S2的流程示意图，包括步骤S21~S24，具体如下：

S21：将所述句子输入至所述词嵌入模块中，获得初始句子序列表示。

所述词嵌入模块采用BERT（Bidirectional Encoder Representation fromTransformers）词嵌入模型，用于将句子中若干个单词的向量转换为相应的状态向量。

在本实施例中，识别设备将所述句子输入至所述词嵌入模块中进行编码处理，获得所述句子的初始句子特征表示。

具体地，识别设备将所述句子输入至BERT词嵌入模型中，将句子中的每个单词映射到低维向量空间中，经过查询预训练好的BERT矩阵，获得BERT词嵌入模型输出的所述句子的若干个单词的隐藏层向量，并进行编码处理，获得所述初始句子特征表示，其中，所述初始句子特征表示为：

式中，T为所述初始句子特征表示，为第i个单词的状态向量，/>为第n个单词的状态向量。

S22：将所述图像输入至所述目标检测模块进行目标检测，获得初始图像序列表示。

所述目标检测模块采用Swin Transformer模型，用于多目标检测，能确定图片中与实体有关的预定义对象。

在本实施例中，识别设备将所述图像输入至所述目标检测模块进行目标检测，获得所述图像的初始图像特征表示，其中，所述初始图像序列表示包括若干个图像子区域的状态向量，所述初始图像特征表示为：

式中，O为所述初始图像特征表示，为第j个图像子区域的状态向量，/>为第q个图像子区域的状态向量，q为图像子区域总数。

S23：将所述初始句子序列表示以及初始图像序列表示输入至所述维度变换模块中进行维度变换，获得所述句子序列表示以及图像序列表示。

所述维度变换模块采用MLP（Multilayer Perceptron）多层感知机模型，是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

在本实施例中，识别设备根据所述初始句子特征表示以及初始图像特征表示，使用两个参数不同的多层感知机模型将所述初始句子特征表示和初始图像特征表示映射到相同的维度空间，进行维度变换，获得所述句子特征表示以及图像特征表示，其中，所述句子序列表示为：

式中，X为所述句子序列表示，为第i个单词的状态向量，/>为第n个单词的状态向量。

所述图像序列表示为：

式中，V为所述图像序列表示，为第j个图像子区域的状态向量，/>为第q个图像子区域的状态向量。

S24：将所述标签数据输入至所述独热编码模块中，获得词性序列表示。

在本实施例中，识别设备将所述标签数据输入至所述独热编码模块中，获得词性序列表示，其中，所述词性序列表示包括若干个单词的词性向量，所述词性序列表示为：

式中，P为所述词性序列表示，为第i个单词的词性向量，/>为第n个单词的词性向量。

S3：将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中进行特征提取，获得句子全局特征表示以及图像全局特征表示。

识别设备将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中，分别对所述句子序列表示以及图像序列表示进行平均池化处理，获得句子全局特征表示以及图像全局特征表示/>。

S4：将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，获得内图像矩阵、句子对图像矩阵以及图像对句子矩阵。

在本实施例中，识别设备将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，获得内图像矩阵、句子对图像矩阵以及图像对句子矩阵。

具体地，对于内图像矩阵，考虑到图像中若干个图像子区域的连续性，识别设备根据所述图像序列表示中各个图像子区域的状态向量，构建图像语义图，所述图像语义图包括若干个视觉节点，所述视觉节点上设置有相应位置索引的图像子区域的状态向量，采用无向边的方式，将每个视觉节点与相邻的视觉节点进行连接，构建内图像矩阵。

对于句子对图像矩阵以及图像对句子矩阵，请参阅图3，图3为本申请一个实施例提供的多模态命名实体识别方法中S4的流程示意图，包括步骤S41~S42，具体如下：

S41：根据所述句子序列表示、图像序列表示、图像全局特征表示以及预设的第一多头注意力算法以及第二多头注意力算法，获得若干个单词对各个图像子区域的第一权重信息，以及若干个图像子区域对各个单词的第二权重信息。

在本实施例中，识别设备根据所述句子序列表示、图像序列表示、图像全局特征表示以及预设的第一多头注意力算法，获得若干个单词对各个图像子区域的第一权重信息，其中，所述第一多头注意力算法为：

式中，为第i个单词对第j个图像子区域的第一权重信息，m为注意力的头数，为第u个注意力的第一权重矩阵，/>为第u个注意力的第二权重矩阵，/>为第i个单词的状态向量，/>为图像全局特征表示，/>为第j个图像子区域的状态向量，d为维度参数；

在本实施例中，识别设备根据所述句子序列表示、图像序列表示、图像全局特征表示以及预设的第二多头注意力算法，获得若干个图像子区域对各个单词的第二权重信息，其中，所述第二多头注意力算法为：

式中，为第j个图像子区域对第i个单词的第二权重信息，/>为第u个注意力的第三权重矩阵，/>为第u个注意力的第四权重矩阵。

S42：对所述若干个单词对各个图像子区域的第一权重信息进行归一化处理，获得归一化处理后的若干个单词对各个图像子区域的第一权重信息，进行组合，构建所述句子对图像矩阵，对所述若干个图像子区域对各个单词的第二权重信息进行归一化处理，获得归一化处理后的若干个图像子区域对各个单词的第二权重信息，进行组合，构建所述图像对句子矩阵。

在本实施例中，识别设备采用softmax归一化函数，对所述若干个单词对各个图像子区域的第一权重信息进行归一化处理，获得归一化处理后的若干个单词对各个图像子区域的第一权重信息，进行组合，构建所述句子对图像矩阵。对所述若干个图像子区域对各个单词的第二权重信息进行归一化处理，获得归一化处理后的若干个图像子区域对各个单词的第二权重信息，进行组合，构建所述图像对句子矩阵。

S5：将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示。

在本实施例中，识别设备将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，其中，所述图文匹配推理信息用于指示相关联的图像子区域的比例。

识别设备根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，具体地，识别设备根据所述图文匹配推理信息、图像序列表示以及预设的处理算法，获得处理后的图像序列表示，其中，所述处理算法为：

式中，M为处理后的图像序列表示，为元素排序符号，O为图像序列表示。

请参阅图4，图4为本申请一个实施例提供的多模态命名实体识别方法中S5的流程示意图，包括步骤S51~S56，具体如下：

S51：根据所述句子对图像矩阵中，归一化处理后的若干个单词对各个图像子区域的第一权重信息以及预设的视觉关注向量计算算法，获得若干个单词的视觉关注向量，根据所述句子序列表示、若干个单词的视觉关注向量以及预设的第一相似度向量计算算法，获得若干个单词的第一相似度向量。

在本实施例中，识别设备根据所述句子对图像矩阵中，归一化处理后的若干个单词对各个图像子区域的第一权重信息以及预设的视觉关注向量计算算法，获得若干个单词的视觉关注向量，其中，所述视觉关注向量计算算法为：

式中，为第i个单词的视觉关注向量，q为图像子区域的总数，/>为归一化处理后的第i个单词对第j个图像子区域的第一权重信息；

识别设备根据所述句子序列表示、若干个单词的视觉关注向量以及预设的第一相似度向量计算算法，获得若干个单词的第一相似度向量，其中，所述第一相似度向量计算算法为：

式中，为第i个单词的第一相似度向量，/>为第一可训练权重参数矩阵。

采用对比学习方法，实现节点之间的局部对齐，使得图文对齐模块能够对文本节点以及视觉节点进行更加准确的对齐操作，能够抑制无关视觉信息的影响，提高多模态命名实体识别的精准性以及效率。

S52：根据所述图像对句子矩阵中，归一化处理后的若干个图像子区域对各个单词的第二权重信息以及预设的文本关注向量计算算法，获得若干个图像子区域的文本关注向量，根据所述图像序列表示、若干个图像子区域的文本关注向量以及预设的第二相似度向量计算算法，获得若干个图像子区域的第二相似度向量。

在本实施例中，识别设备根据所述图像对句子矩阵中，归一化处理后的若干个图像子区域对各个单词的第二权重信息以及预设的文本关注向量计算算法，获得若干个图像子区域的文本关注向量，其中，所述文本关注向量计算算法为：

式中，为第j个图像子区域的文本关注向量，n为单词的总数，/>为归一化处理后的第j个图像子区域对第i个单词的第二权重信息。

识别设备根据所述图像序列表示、若干个图像子区域的文本关注向量以及预设的第二相似度向量计算算法，获得若干个图像子区域的第二相似度向量，其中，所述第二相似度向量计算算法为：

式中，为第j个图像子区域的第二相似度向量，/>为第二可训练权重参数矩阵。

采用相似度向量计算的方法，从局部角度出发，通过一个双向的过程获得句子与图像的相互对应关系，即文本对图像过程和图像对文本过程，以确认每个单词和各个图像子区域的匹配关系，用以抑制无关视觉信息的影响，提高多模态命名实体识别的精准性以及效率。

S53：根据所述句子全局特征表示、图像全局特征表示以及预设的第三相似度向量计算算法，获得全局相似度向量。

所述第三相似度向量计算算法为：

式中，为全局相似度向量，/>为第四可训练权重参数矩阵，/>为句子全局特征表示。

在本实施例中，识别设备根据所述句子全局特征表示、图像全局特征表示以及预设的第三相似度向量计算算法，获得全局相似度向量。

S54：将所述若干个单词的第一相似度向量与所述全局相似度向量进行组合，构建句子相似度序列，将若干个图像子区域的第二相似度向量与所述全局相似度向量进行组合，构建图像相似度序列。

在本实施例中，识别设备将所述若干个单词的第一相似度向量与所述全局相似度向量进行组合，构建句子相似度序列，其中，所述句子相似度序列为：

式中，为句子相似度序列。

识别设备将若干个图像子区域的第二相似度向量与所述全局相似度向量进行组合，构建图像相似度序列，其中，所述图像相似度序列为：

式中，为图像相似度序列；

S55：将所述句子相似度序列、图像相似度序列分别输入至预设的多层自注意力层，根据预设的推理算法，获得增强后的句子相似度序列以及图像相似度序列。

所述推理算法为：

式中，为多层自注意力层的第l层的句子相似度序列，/>为多层自注意力层的第l层的图像相似度序列，/>、/>、/>、/>、/>、/>分别为多层自注意力层的第一、第二、第三、第四、第五以及第六可训练权重参数矩阵，ReLU（）为激活函数，softmax（）为归一化函数。

在本实施例中，识别设备将所述句子相似度序列、图像相似度序列分别输入至预设的多层自注意力层，根据预设的推理算法，获得增强后的句子相似度序列以及图像相似度序列。

从全局角度出发，计算句子对应的句子相似度序列，图像对应的图像相似度序列，并采用堆叠多层自注意力层来实现句子相似度序列以及图像相似度序列，实现跨模态匹配衡量的，获得模态特定的增强后的句子相似度序列以及图像相似度序列，能够抑制无关视觉信息的影响，提高多模态命名实体识别的精准性以及效率。

S56：分别从所述增强后的句子相似度序列以及图像相似度序列中，提取全局相似度向量相应的元素，作为句子增强全局相似度向量以及图像增强全局相似度向量，根据所述句子增强全局相似度向量以及图像增强全局相似度向量以及预设的匹配度计算算法，获得匹配度，作为所述图文匹配推理信息。

所述匹配度计算算法为：

式中，r为匹配度，为非线性函数，/>为第三可训练权重参数矩阵，/>为句子增强全局相似度向量，/>为图像增强全局相似度向量。

在本实施例中，识别设备分别从所述增强后的句子相似度序列以及图像相似度序列中，提取全局相似度向量相应的元素，作为句子增强全局相似度向量以及图像增强全局相似度向量，根据所述句子增强全局相似度向量以及图像增强全局相似度向量以及预设的匹配度计算算法，获得匹配度，作为所述图文匹配推理信息。

通过以局部相似、全局相似、跨模态匹配衡量来获得句子与图像的整体和局部匹配关系，即匹配度，根据匹配度，对所述图像序列表示进行处理，获得处理后的图像序列表示，以确定图像中应该保留的图像信息的比例，能够抑制无关视觉信息的影响，提高多模态命名实体识别的精准性以及效率。

S6：构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示，将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示。

在本实施例中，识别设备构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示。

具体地，识别设备根据所述词性序列表示中各个单词的词性向量，构建句子语义图，所述句子语义图包括若干个文本节点，所述文本节点上设置有相应位置索引的单词的词性向量，将所述语义图进行转换，获得语义图特征表示。

识别设备根据所述句子序列表示以及处理后的图像序列表示，构建跨模态图，所述跨模态图包括若干个文本节点以及视觉节点，所述文本节点上设置有相应位置索引的单词的状态向量，所述视觉节点上设置有相应位置索引的图像子区域的状态向量，将所述跨模态图进行转换，获得跨模态图特征表示。

识别设备将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示。

所述跨模态特征提取模块包括多层交互层，请参阅图5，图5为本申请一个实施例提供的多模态命名实体识别方法中S6的流程示意图，包括步骤S61~S64，具体如下：

S61：将所述词性序列表示以及语义图特征表示作为所述多层交互层的首层输入数据，根据预设的第三多头注意力算法，获得注意力权重矩阵，根据所述注意力权重矩阵，构建语义邻接矩阵以及内文本矩阵，将所述内文本矩阵、内图像矩阵、句子对图像矩阵以及图像对句子矩阵进行组合，构建跨模态邻接矩阵。

在本实施例中，识别设备将所述词性序列表示以及语义图特征表示作为所述多层交互层的首层输入数据，根据预设的第三多头注意力算法，获得注意力权重矩阵，根据所述注意力权重矩阵，其中，所述第三多头注意力算法为：

式中，为第l层交互层的第u个注意力的注意力权重矩阵，/>、/>分别为第l层交互层的第u个注意力的第一可训练权重参数矩阵以及第二可训练权重参数矩阵，P为词性序列表示，/>为第l-1层交互层的语义图特征表示；

识别设备根据所述注意力权重矩阵，构建语义邻接矩阵以及内文本矩阵所述语义邻接矩阵为：

式中，为第l层交互层的语义邻接矩阵；

所述内文本矩阵为：

/>

式中，为第l层交互层的内文本矩阵，/>为对第l层交互层的m个注意力的注意力权重矩阵求和结果，/>为/>的第i行第j列的数值；

所述跨模态邻接矩阵为：

式中，为第l层交互层的跨模态邻接矩阵，/>为局部匹配矩阵，为句子对图像矩阵与图像对句子矩阵累加结果，/>为内图像矩阵。

S62：根据所述语义图特征表示、语义邻接矩阵以及预设的第一更新算法，获得更新后的语义图特征表示。

在本实施例中，识别设备根据所述语义图特征表示、语义邻接矩阵以及预设的第一更新算法，获得更新后的语义图特征表示，其中，所述更新后的语义图特征表示包括若干个文本节点对应的状态向量，所述第一更新算法为：

式中，为第l层交互层的语义图特征表示，作为更新后的语义图特征表示，为标准化处理后的语义邻接矩阵，/>为第l层交互层的第一可训练权重参数矩阵，为第l层交互层的第一偏置参数；

S63：根据所述跨模态图特征表示、跨模态邻接矩阵以及预设的第二更新算法，获得更新后的跨模态图特征表示。

在本实施例中，识别设备根据所述跨模态图特征表示、跨模态邻接矩阵以及预设的第二更新算法，获得更新后的跨模态图特征表示，其中，所述更新后的跨模态图特征表示包括若干个文本节点对应的状态向量，所述第二更新算法为：

式中，为第l层交互层的跨模态图特征表示，作为更新后的跨模态图特征表示，/>为标准化处理后的跨模态邻接矩阵，/>为第l层交互层的第二可训练权重参数矩阵，/>为第l层交互层的第二偏置参数。

S64：基于同一个文本节点，将所述更新后的语义图特征表示以及跨模态图特征表示进行拼接处理，获得跨模态特征表示。

在本实施例中，识别设备基于同一个文本节点，将所述更新后的语义图特征表示以及跨模态图特征表示进行拼接处理，获得跨模态特征表示。

通过堆叠多层动态图交互层，执行模态内和模态间的信息交互，对语义图特征表示以及跨模态图特征表示进行特征更新，实现了语义图特征表示以及跨模态图特征表示的动态化，将所述更新后的语义图特征表示以及跨模态图特征表示进行拼接处理，构建动态的跨模态特征表示，避免了由于静态的多模态特征表示不能很好地弥合模态间的语义鸿沟，提高多模态命名实体识别的精准性以及效率。

S7：将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

在本实施例中，识别设备将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

请参阅图6，图6为本申请一个实施例提供的多模态命名实体识别方法中S7的流程示意图，包括步骤S71~S73，具体如下：

S71：构建所述跨模态特征表示对应的标签表示以及标签可能性表示。

在本实施例中，识别设备对所述跨模态特征表示中若干个文本节点进行标签标注处理，构建标签表示，其中，所述标签表示包括若干个文本节点对应的标签向量。

标签向量表现为相应的文本节点的位置信息BIO，其中，B表示每个文本节点在命名实体中的开头位置，I表示每个文本节点在命名实体中的中间和/或结尾位置，O表示该文本节点不是命名实体。

识别设备对所述跨模态特征表示中若干个文本节点进行标签可能性遍历处理，构建标签可能性表示，其中，所述标签可能性表示包括若干个文本节点对应的标签可能性向量。

对于位置信息有BIO三类，而B、I类均有PER、LOC、ORG以及MISC四种类别信息，例如，实体词标注为 B只可能转换为B-PER（人名），B-LOC（地名），B-ORG（组织机构名），B-MISC（其他），标签可能性向量表现为相应的文本节点的位置信息对应的类别信息的可能性概率。

S72：根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量计算算法，获得所述文档数据的命名实体识别概率标量。

所述命名实体识别概率标量算法为：

式中，为所述命名实体识别概率标量，e为文本节点数目，y为所述标签表示，/>为所述标签可能性表示，/>表示第i个文本节点对应的标签向量/>到第i+1个文本节点对应的标签向量/>的转移概率分数，/>表示第i个文本节点对应的标签可能性向量/>到第i+1个文本节点对应的标签可能性向量/>的转移概率分数，/>以及/>分别为所述命名实体识别模块的第一可训练权重参数矩阵、第二可训练权重参数矩阵，/>为所述跨模态特征表示中第i个文本节点对应的状态向量。

在本实施例中，识别设备根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量计算算法，获得所述文档数据的命名实体识别概率标量。

S73：根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果。

所述命名实体算法为：

式中，为所述命名实体识别结果，Y为预设的标签类型集，包括若干种标签类型，为求集合函数。

在本实施例中，识别设备根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果。

请参阅图7，图7为本申请一个实施例提供的多模态命名实体识别装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现多模态命名实体识别方法的全部或一部分，该装置7包括：

数据获取模块71，用于获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

编码模块72，用于将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示；

全局特征提取模块73，用于将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中进行特征提取，获得句子全局特征表示以及图像全局特征表示；

矩阵构建模块74，用于将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，获得内图像矩阵、句子对图像矩阵以及图像对句子矩阵；

匹配推理模块75，用于将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，其中，所述图文匹配推理信息用于指示相关联的图像子区域的比例；

跨模态特征提取模块76，用于构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示，将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示；

命名实体识别模块77，用于将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

在本申请的实施例中，通过数据获取模块，获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；通过编码模块，将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示；通过全局特征提取模块，将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中进行特征提取，获得句子全局特征表示以及图像全局特征表示；通过矩阵构建模块，将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，获得内图像矩阵、句子对图像矩阵以及图像对句子矩阵；通过匹配推理模块，将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，其中，所述图文匹配推理信息用于指示相关联的图像子区域的比例；通过跨模态特征提取模块，构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示，将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示；通过命名实体识别模块，将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。采用相似度匹配推理，获得图文匹配推理信息，用以指示相关联的图像子区域的比例，实现了图文的整体以及局部匹配，减少无关视觉信息的影响，并且充分利用语义信息以及跨模态信息，构建多模态特征表示，有效的弥合不同模态间的语义鸿沟，提高多模态命名实体识别的精准性以及效率。

请参考图8，图8为本申请一个实施例提供的计算机设备的结构示意图，计算机设备8包括：处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83；计算机设备可以存储有多条指令，指令适用于由处理器81加载并执行上述图1至图6所述实施例的方法步骤，具体执行过程可以参见图1至图6所述实施例的具体说明，在此不进行赘述。

其中，处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器82内的指令、程序、代码集或指令集，以及调用存储器82内的数据，执行多模态命名实体识别装置7的各种功能和处理数据，可选的，处理器81可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble LogicArray，PLA）中的至少一个硬件形式来实现。处理器81可集成中央处理器81（CentralProcessing Unit，CPU）、图像处理器81（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器81中，单独通过一块芯片进行实现。

其中，存储器82可以包括随机存储器82（Random Access Memory，RAM），也可以包括只读存储器82（Read-Only Memory）。可选的，该存储器82包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤，具体执行过程可以参见所示图1至图6所述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种多模态命名实体识别方法，其特征在于，包括以下步骤：

获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述句子包括若干个单词，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示，其中，所述句子序列表示包括若干个单词的状态向量，图像序列表示包括若干个图像子区域的状态向量；

将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，根据所述图像序列表示中各个图像子区域的状态向量，构建图像语义图，所述图像语义图包括若干个视觉节点，所述视觉节点上设置有相应位置索引的图像子区域的状态向量，采用无向边的方式，将每个视觉节点与相邻的视觉节点进行连接，构建内图像矩阵；

根据所述句子序列表示、图像序列表示、图像全局特征表示以及预设的第一多头注意力算法以及第二多头注意力算法，获得若干个单词对各个图像子区域的第一权重信息，以及若干个图像子区域对各个单词的第二权重信息，其中，所述第一多头注意力算法为：

式中，为第i个单词对第j个图像子区域的第一权重信息，m为注意力的头数，/>为第u个注意力的第一权重矩阵，/>为第u个注意力的第二权重矩阵，/>为第i个单词的状态向量，/>为图像全局特征表示，/>为第j个图像子区域的状态向量，d为维度参数；

所述第二多头注意力算法为：

式中，为第j个图像子区域对第i个单词的第二权重信息，/>为第u个注意力的第三权重矩阵，/>为第u个注意力的第四权重矩阵；

对所述若干个单词对各个图像子区域的第一权重信息进行归一化处理，获得归一化处理后的若干个单词对各个图像子区域的第一权重信息，进行组合，构建句子对图像矩阵，对所述若干个图像子区域对各个单词的第二权重信息进行归一化处理，获得归一化处理后的若干个图像子区域对各个单词的第二权重信息，进行组合，构建图像对句子矩阵；

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于：所述标签数据包括若干个所述单词的词性标注；所述编码模块包括词嵌入模块、目标检测模块、维度变换模块以及独热编码模块；

所述将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示，包括步骤：

将所述句子输入至所述词嵌入模块中，获得初始句子序列表示，其中，所述初始句子序列表示包括若干个单词的状态向量；

将所述图像输入至所述目标检测模块进行目标检测，获得初始图像序列表示，其中，所述初始图像序列表示包括若干个图像子区域的状态向量；

将所述初始句子序列表示以及初始图像序列表示输入至所述维度变换模块中进行维度变换，获得所述句子序列表示以及图像序列表示；

将所述标签数据输入至所述独热编码模块中，获得词性序列表示，其中，所述词性序列表示包括若干个单词的词性向量。

3.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，包括步骤：

根据所述句子对图像矩阵中，归一化处理后的若干个单词对各个图像子区域的第一权重信息以及预设的视觉关注向量计算算法，获得若干个单词的视觉关注向量，根据所述句子序列表示、若干个单词的视觉关注向量以及预设的第一相似度向量计算算法，获得若干个单词的第一相似度向量，其中，所述视觉关注向量计算算法为：

所述第一相似度向量计算算法为：

式中，为第i个单词的第一相似度向量，/>为第一可训练权重参数矩阵；

根据所述图像对句子矩阵中，归一化处理后的若干个图像子区域对各个单词的第二权重信息以及预设的文本关注向量计算算法，获得若干个图像子区域的文本关注向量，根据所述图像序列表示、若干个图像子区域的文本关注向量以及预设的第二相似度向量计算算法，获得若干个图像子区域的第二相似度向量，其中，所述文本关注向量计算算法为：

式中，为第j个图像子区域的文本关注向量，n为单词的总数，/>为归一化处理后的第j个图像子区域对第i个单词的第二权重信息；

所述第二相似度向量计算算法为：

式中，为第j个图像子区域的第二相似度向量，/>为第二可训练权重参数矩阵；

根据所述句子全局特征表示、图像全局特征表示以及预设的第三相似度向量计算算法，获得全局相似度向量，其中，所述第三相似度向量计算算法为：

式中，为全局相似度向量，/>为第四可训练权重参数矩阵，/>为句子全局特征表示；

将所述若干个单词的第一相似度向量与所述全局相似度向量进行组合，构建句子相似度序列，将若干个图像子区域的第二相似度向量与所述全局相似度向量进行组合，构建图像相似度序列；

将所述句子相似度序列、图像相似度序列分别输入至预设的多层自注意力层，根据预设的推理算法，获得增强后的句子相似度序列以及图像相似度序列，其中，所述推理算法为：

式中，为多层自注意力层的第l层的句子相似度序列，/>为多层自注意力层的第l层的图像相似度序列，/>、/>、/>、/>、/>、/>分别为多层自注意力层的第一、第二、第三、第四、第五以及第六可训练权重参数矩阵，ReLU（）为激活函数，softmax（）为归一化函数；

分别从所述增强后的句子相似度序列以及图像相似度序列中，提取全局相似度向量相应的元素，作为句子增强全局相似度向量以及图像增强全局相似度向量，根据所述句子增强全局相似度向量以及图像增强全局相似度向量以及预设的匹配度计算算法，获得匹配度，作为所述图文匹配推理信息，其中，所述匹配度计算算法为：

4.根据权利要求3所述的多模态命名实体识别方法，其特征在于，所述根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，包括步骤：

根据所述图文匹配推理信息、图像序列表示以及预设的处理算法，获得处理后的图像序列表示，其中，所述处理算法为：

5.根据权利要求4所述的多模态命名实体识别方法，其特征在于：所述跨模态特征提取模块包括多层交互层；

所述将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示，包括步骤：

将所述词性序列表示以及语义图特征表示作为所述多层交互层的首层输入数据，根据预设的第三多头注意力算法，获得注意力权重矩阵，根据所述注意力权重矩阵，构建语义邻接矩阵以及内文本矩阵，将所述内文本矩阵、内图像矩阵、句子对图像矩阵以及图像对句子矩阵进行组合，构建跨模态邻接矩阵，其中，所述第三多头注意力算法为：

所述语义邻接矩阵为：

式中，为第l层交互层的语义邻接矩阵；

所述内文本矩阵为：

所述跨模态邻接矩阵为：

式中，为第l层交互层的跨模态邻接矩阵，/>为局部匹配矩阵，为句子对图像矩阵与图像对句子矩阵累加结果，/>为内图像矩阵；

根据所述语义图特征表示、语义邻接矩阵以及预设的第一更新算法，获得更新后的语义图特征表示，其中，所述更新后的语义图特征表示包括若干个文本节点对应的状态向量，所述第一更新算法为：

式中，为第l层交互层的语义图特征表示，作为更新后的语义图特征表示，/>为标准化处理后的语义邻接矩阵，/>为第l层交互层的第一可训练权重参数矩阵，/>为第l层交互层的第一偏置参数；

根据所述跨模态图特征表示、跨模态邻接矩阵以及预设的第二更新算法，获得更新后的跨模态图特征表示，所述更新后的跨模态图特征表示包括若干个文本节点对应的状态向量，其中，所述第二更新算法为：

式中，为第l层交互层的跨模态图特征表示，作为更新后的跨模态图特征表示，为标准化处理后的跨模态邻接矩阵，/>为第l层交互层的第二可训练权重参数矩阵，/>为第l层交互层的第二偏置参数；

基于同一个文本节点，将所述更新后的语义图特征表示以及跨模态图特征表示进行拼接处理，获得跨模态特征表示。

6.根据权利要求5所述的多模态命名实体识别方法，其特征在于，所述将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果，包括步骤：

构建所述跨模态特征表示对应的标签表示以及标签可能性表示，其中，所述标签表示包括若干个文本节点对应的标签向量，所述标签可能性表示包括若干个文本节点对应的标签可能性向量；

根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量计算算法，获得所述文档数据的命名实体识别概率标量，其中，所述命名实体识别概率标量算法为：

式中，为所述命名实体识别概率标量，e为文本节点数目，y为所述标签表示，/>为所述标签可能性表示，/>表示第i个文本节点对应的标签向量/>到第i+1个文本节点对应的标签向量/>的转移概率分数，/>表示第i个文本节点对应的标签可能性向量到第i+1个文本节点对应的标签可能性向量/>的转移概率分数，/>以及/>分别为所述命名实体识别模块的第一可训练权重参数矩阵、第二可训练权重参数矩阵，/>为所述跨模态特征表示中第i个文本节点对应的状态向量；

根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果，其中，所述命名实体算法为：

7.一种多模态命名实体识别装置，其特征在于，包括：

数据获取模块，用于获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述句子包括若干个单词，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

编码模块，用于将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示，其中，所述句子序列表示包括若干个单词的状态向量，图像序列表示包括若干个图像子区域的状态向量；

矩阵构建模块，用于将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，根据所述图像序列表示中各个图像子区域的状态向量，构建图像语义图，所述图像语义图包括若干个视觉节点，所述视觉节点上设置有相应位置索引的图像子区域的状态向量，采用无向边的方式，将每个视觉节点与相邻的视觉节点进行连接，构建内图像矩阵；

所述第二多头注意力算法为：

8.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的多模态命名实体识别方法的步骤。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的多模态命名实体识别方法的步骤。