CN116484869B

CN116484869B - 多模态命名实体识别方法、装置、设备以及存储介质

Info

Publication number: CN116484869B
Application number: CN202310712306.9A
Authority: CN
Inventors: 胡嘉沛; 梁卓明; 吕一凡; 薛云
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-12-15
Anticipated expiration: 2043-06-16
Also published as: CN116484869A

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种多模态命名实体识别方法，包括：获得文档数据以及预设的多模态命名实体识别模型，将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；将所述图像输入至所述视觉特征提取模块中进行特征提取，获得所述图像对应的视觉特征表示；将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

Description

多模态命名实体识别方法、装置、设备以及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种多模态命名实体识别方法、装置、设备以及存储介质。

背景技术

随着互联网的发展，社交媒体平台每天产生大量的多模态数据。近年来的研究主要集中在利用深度学习的方法提取和分析文本与图像中的信息，其中就包括多模态命名实体识别。与传统基于纯文本的命名实体识别不同，多模态命名实体识别通过使用图像作为附加输入来辅助命名实体（人名、地名、组织名等）的判断。作为许多综合性任务（多模态机器翻译、视觉对话、多模态情感分析等）不可或缺的基础，多模态命名实体识别已经成为命名实体识别的一个重要研究方向，并应用于带有图文信息的多模态社交帖子中的命名实体检测。

发明内容

基于此，本发明提供一种多模态命名实体识别方法、装置、设备以及存储介质，充分利用文本特征信息以及视觉特征信息，构建跨模态特征表示，有效的弥合不同模态间的语义鸿沟，提高多模态命名实体识别的精准性以及效率。该技术方法如下：

第一方面，本申请实施例提供了一种多模态命名实体识别方法，包括以下步骤：

获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块；

将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；

将所述图像输入至所述视觉特征提取模块中进行特征提取，获得所述图像对应的视觉特征表示；

将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；

将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；

将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

第二方面，本申请实施例提供了一种多模态命名实体识别装置，包括：

数据获取模块，用于获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块；

文本特征提取模块，用于将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；

视觉特征提取模块，用于将所述图像输入至所述视觉特征提取模块中进行特征提取，获得所述图像对应的视觉特征表示；

注意力提取模块，用于将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；

跨模态特征提取模块，用于将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；

命名实体识别模块，用于将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述的多模态命名实体识别方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的多模态命名实体识别方法的步骤。

在本实施例中，提供一种多模态命名实体识别方法、装置、设备以及存储介质，充分利用文本特征信息以及视觉特征信息，构建跨模态特征表示，有效的弥合不同模态间的语义鸿沟，提高多模态命名实体识别的精准性以及效率。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的多模态命名实体识别方法的流程示意图；

图2为本申请一个实施例提供的多模态命名实体识别方法中S3的流程示意图；

图3为本申请一个实施例提供的多模态命名实体识别方法中S34的流程示意图；

图4为本申请一个实施例提供的多模态命名实体识别方法中S4的流程示意图；

图5为本申请一个实施例提供的多模态命名实体识别方法中S5的流程示意图；

图6为本申请一个实施例提供的多模态命名实体识别方法中S6的流程示意图；

图7为本申请一个实施例提供的多模态命名实体识别装置的结构示意图；

图8为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述目标实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的多模态命名实体识别方法的流程示意图，包括如下步骤：

S1：获得文档数据以及预设的多模态命名实体识别模型。

本申请的多模态命名实体识别方法的执行主体为多模态命名实体识别方法的识别设备（以下简称识别设备）。

在一个可选的实施例中，识别设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

识别设备获得文档数据，在一个可选的实施例中，所述文档数据源自于社交媒体，其中，社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。文档数据包括了社交媒体上的用户分享的意见、见解、经验和观点等等。

具体地，识别设备可以与所述社交媒体进行连接，获取社交媒体上发布的文档数据，其中，所述文档数据包括句子以及图像，所述句子包括若干个单词，如下所示：

式中，s表示句子，为第i个单词的词向量，n为单词的总数。

词所述标签数据包括句子中各个单词的词性标注，在一个可选的实施例中，识别设备可以采用自然语言处理工具包NLTK，对句子中的每个单词进行词性标注，获得所述标签数据。

识别设备获取预设的多模态命名实体识别模型，其中，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块。

S2：将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示。

所述文本特征提取模块采用BERT（Bidirectional Encoder Representationfrom Transformers）词嵌入模型，用于将句子中若干个单词的向量转换为相应的状态向量。

在本实施例中，识别设备将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示，具体地，识别设备将所述句子输入至BERT词嵌入模型中，将句子中的每个单词映射到低维向量空间中，经过查询预训练好的BERT矩阵，获得BERT词嵌入模型输出的所述句子的若干个单词的隐藏层向量，并进行编码处理，获得所述文本特征表示，其中，所述文本特征表示表示为：

式中，T为所述文本特征表示，为第i个单词的状态向量，/>为第n个单词的状态向量。

S3：将所述图像输入至所述视觉特征提取模块中进行特征提取，获得所述图像对应的视觉特征表示。

所述视觉特征提取模块可以采用目标检测网络，能够针对小尺度图像进行准确的目标检测，其中，所述视觉特征提取模块包括骨干网络（Backbone）以及颈部网络（Neck）。

在本实施例中，识别设备将所述图像输入至所述视觉特征提取模块中进行特征提取，获得所述图像对应的视觉特征表示。

所述骨干网络包括若干个跨阶段融合卷积块CSPResNet，每个跨阶段融合卷积块均包括卷积模块以及特征提取模块，在一个可选的实施例中，所述卷积模块为CBL标准卷积激活模块，所述CBL标准卷积激活模块包括依次相连的Conv层、BN层以及LeakyReLu层，其中，Conv层是卷积层，BN层是批量正则化层，LeakyReLu层为激活层。

请参阅图2，图2为本申请一个实施例提供的多模态命名实体识别方法中S3的流程示意图，包括步骤S31~S34，具体如下：

S31：将所述图像作为所述骨干网络中的首个跨阶段融合卷积块的卷积模块的输入数据，根据预设的卷积算法，获得所述图像的卷积特征表示。

所述卷积算法为：

式中，为卷积特征表示，CBL（）为标准卷积激活函数，LeakyReLu（）为激活函数，BN（）为批量正则化函数，Conv（）为卷积函数，x为输入数据。

在本实施例中，识别设备将所述图像作为所述骨干网络中的首个跨阶段融合卷积块的卷积模块的输入数据，根据预设的卷积算法，获得所述图像的卷积特征表示。

S32：将所述卷积特征表示输入至所述首个跨阶段融合卷积块的特征提取模块中，根据预设的特征提取算法，获得所述首个跨阶段融合卷积块的特征提取模块的输出特征表示。

在本实施例中，识别设备将所述卷积特征表示输入至所述首个跨阶段融合卷积块的特征提取模块中，通过采用两条路径做前向传播，一条路径直接在卷积层做前向传播，根据预设的特征提取算法，获得所述首个跨阶段融合卷积块的特征提取模块的输出特征表示，其中，所述特征提取算法为：

式中，为第一中间输出特征表示，/>为第二中间输出特征表示，R为输出特征表示，ResNet_blocks（）为残差卷积函数，SiLU（）为激活函数，Concat（）为拼接函数。

通过采用不同传播路径进行体征提取，获得的特征信息有助于跨阶段的特征融合，从而提高不同层内的特征可变性。此外，在反向传播过程中通过最小化梯度路径，梯度流传播将变得更加有效，提高命名识别的准确性。

S33：将所述首个跨阶段融合卷积块的特征提取模块的输出特征表示作为下一个跨阶段融合卷积块的卷积模块的输入特征表示，重复上述步骤，获得各个所述跨阶段融合卷积块的输出特征表示，作为所述若干个尺度对应的输出特征表示。

在本实施例中，识别设备将所述首个跨阶段融合卷积块的特征提取模块的输出特征表示作为下一个跨阶段融合卷积块的卷积模块的输入特征表示，重复上述步骤，获得各个所述跨阶段融合卷积块的输出特征表示，作为所述若干个尺度对应的输出特征表示，从而获得多样化分辨率和语义的输出特征表示，提高命名识别的准确性，其中，所述若干个尺度对应的输出特征表示为：

式中，为第1个尺度对应的输出特征表示，/>为第i个尺度对应的输出特征表示，/>为第m个尺度对应的输出特征表示，按照尺度大小，1<i<m。

S34：将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示。

为了增强不同尺寸的视觉目标特征，获得高分辨率、更强的语义信息的输出特征表示，在本实施例中，识别设备将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示。

所述颈部网络包括第一特征融合模块以及第二特征融合模块，其中，所述第一特征融合模块包括依次相连的若干个构建块，请参阅图3，图3为本申请一个实施例提供的多模态命名实体识别方法中S34的流程示意图，包括步骤S341~S342，具体如下：

S341：将所述若干个尺度对应的输出特征表示输入至所述第一特征融合模块，采用上采样方法，根据预设的第一特征融合算法，获得所述跨阶段融合卷积块输出的第一特征融合表示，以及若干个所述构建块输出的第一特征融合表示。

在本实施例中，识别设备将所述若干个尺度对应的输出特征表示输入至所述第一特征融合模块，采用上采样方法，根据预设的第一特征融合算法，获得所述跨阶段融合卷积块输出的第一特征融合表示，以及若干个所述构建块输出的第一特征融合表示，其中，所述第一特征融合算法为：

式中，为所述第一特征融合模块中，跨阶段融合卷积块输出的第一特征融合表示，CSPResNet（）为跨阶段融合卷积函数，/>为所述第一特征融合模块中，第i个构建块输出的第一特征融合表示，Concat（）为拼接函数，UpSample（）为上采样函数。

首先将第m个尺度对应的输出特征表示输入至跨阶段融合卷积块CSPResNet，获得跨阶段融合卷积块CSPResNet输出的第一特征融合表示，然后采用最近邻方法对空间分辨率进行上采样，将跨阶段融合卷积块CSPResNet输出的第一特征融合表示，以及与所述跨阶段融合卷积块CSPResNet输出的第一特征融合表示的通道维度相同的输出特征表示输入至相连的构建块中进行特征融合，获得各个所述构建块的最终输出，作为输出的第一特征融合表示，使得第一特征融合表示融合了两种不同的视觉信息，具有高分辨率的同时，具备更强的语义信息。

S342：从所述若干个构建块输出的第一特征融合表示中，提取目标构建块输出的第一特征融合表示，将所述跨阶段融合卷积块输出的第一特征融合表示以及目标构建块输出的第一特征融合表示输入至所述第二特征融合模块，根据预设的第二特征融合算法，获得所述图像对应的视觉特征表示。

在本实施例中，识别设备从所述若干个构建块输出的第一特征融合表示中，提取目标构建块输出的第一特征融合表示，具体地，由于最后的两个构建块为最底块，其输出的第一特征融合表示更关注目标的局部特征，在一个可选的实施例中，识别设备将最后的两个构建块作为目标构建块，获得最后的两个构建块输出的第一特征融合表示。

识别设备将所述跨阶段融合卷积块输出的第一特征融合表示以及目标构建块输出的第一特征融合表示输入至所述第二特征融合模块，根据预设的第二特征融合算法，获得所述图像对应的视觉特征表示，从而获得更加细腻的视觉特征表示，提高命名识别的精准度，其中，所述第二特征融合算法为：

式中，O为第二特征融合表示，F为所述视觉特征表示，、/>分别为索引为a、b对应的目标构建块输出的第一特征融合表示。

S4：将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示。

由于获得的所述视觉特征表示涉及目标对象和背景信息，在本实施例中，识别设备将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示，通过采用注意力机制，以突出视觉特征表示的显著的目标语义和位置信息，提高命名识别的精准度。

请参阅图4，图4为本申请一个实施例提供的多模态命名实体识别方法中S4的流程示意图，包括步骤S41~S42，具体如下：

S41：根据所述视觉特征表示以及预设的通道注意力矩阵构建算法，获得通道注意力矩阵，根据所述视觉特征表示、通道注意力矩阵以及预设的通道细化特征计算算法，获得通道细化特征表示。

在本实施例中，识别设备根据所述视觉特征表示以及预设的通道注意力矩阵构建算法，获得通道注意力矩阵，其中，所述通道注意力矩阵构建算法为：

式中，为所述通道注意力矩阵，/>为sigmoid激活函数，MLP（）为多层感知器函数，/>为平均池化函数，/>为最大池化函数。

识别设备根据所述视觉特征表示、通道注意力矩阵以及预设的通道细化特征计算算法，获得通道细化特征表示，其中，所述通道细化特征计算算法为：

式中，为所述通道细化特征表示，/>为逐元素乘法符号。

利用特征的通道间关系生成通道注意力矩阵，通道注意力矩阵/>沿空间维度复制并与视觉特征表示相乘，旨在阐明图像中特征的语义信息，进行视觉特征表示的细化，提高命名识别的精准度。

S42：根据所述通道细化特征表示以及预设的空间注意力矩阵构建算法，获得空间注意力矩阵，根据所述通道细化特征表示、空间注意力矩阵以及预设的空间细化特征计算算法，获得空间细化特征表示，作为所述注意力提取后的视觉特征表示。

在本实施例中，识别设备根据所述通道细化特征表示以及预设的空间注意力矩阵构建算法，获得空间注意力矩阵，其中，所述空间注意力矩阵构建算法为：

式中，为所述空间注意力矩阵。

识别设备根据所述通道细化特征表示、空间注意力矩阵以及预设的空间细化特征计算算法，获得空间细化特征表示，作为所述注意力提取后的视觉特征表示，其中，所述空间细化特征计算算法为：

式中，为所述空间细化特征表示。

利用空间之间关系生成空间注意力矩阵，通道空间注意力矩阵/>沿空间维度复制并与通道细化特征表示/>相乘，旨在根据显著目标对象去确定信息部分的位置，进行视觉特征表示的细化，提高命名识别的精准度。

S5：将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示。

在本实施例中，识别设备将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示。

请参阅图5，图5为本申请一个实施例提供的多模态命名实体识别方法中S5的流程示意图，包括步骤S51~S52，具体如下：

S51：根据所述文本特征表示、注意力提取后的视觉特征表示以及预设的跨模态注意力特征计算算法，获得跨模态注意力特征表示。

所述跨模态注意力特征计算算法为：

式中，为Atten为所述跨模态注意力特征表示，softmax（）为归一化指数函数，C为所述文本特征表示，为维度参数。

在本实施例中，识别设备采用自注意力机制，根据所述文本特征表示、注意力提取后的视觉特征表示以及预设的跨模态注意力特征计算算法，获得跨模态注意力特征表示。

S52：根据所述文本特征表示、跨模态注意力特征表示以及预设的跨模态特征计算算法，获得所述跨模态特征表示。

所述跨模态特征计算算法为：

式中，H为所述跨模态特征表示，LN（）为层归一化函数，FFN（）为前馈神经网络函数。

在本实施例中，识别设备根据所述文本特征表示、跨模态注意力特征表示以及预设的跨模态特征计算算法，获得所述跨模态特征表示，其中，所述跨模态特征表示包括若干个文本节点对应的跨模态特征向量，所述文本节点与单词的位置索引对应。

S6：将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

在本实施例中，识别设备将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

请参阅图6，图6为本申请一个实施例提供的多模态命名实体识别方法中S6的流程示意图，包括步骤S61~S63，具体如下：

S61：构建所述跨模态特征表示对应的标签表示以及标签可能性表示。

在本实施例中，识别设备对所述跨模态特征表示中若干个文本节点进行标签标注处理，构建标签表示，其中，所述标签表示包括若干个文本节点对应的标签向量。

标签向量表现为相应的文本节点的位置信息BIO，其中，B表示每个文本节点在命名实体中的开头位置，I表示每个文本节点在命名实体中的中间和/或结尾位置，O表示该文本节点不是命名实体。

识别设备对所述跨模态特征表示中若干个文本节点进行标签可能性遍历处理，构建标签可能性表示，其中，所述标签可能性表示包括若干个文本节点对应的标签可能性向量。

对于位置信息有BIO三类，而B、I类均有PER、LOC、ORG以及MISC四种类别信息，例如，实体词标注为 B只可能转换为B-PER（人名），B-LOC（地名），B-ORG（组织机构名），B-MISC（其他），标签可能性向量表现为相应的文本节点的位置信息对应的类别信息的可能性概率。

S62：根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量算法，获得所述文档数据的命名实体识别概率标量。

所述命名实体识别概率标量算法为：

式中，为所述命名实体识别概率标量，e为文本节点数目，y为所述标签表示，/>为所述标签可能性表示，/>表示第i个文本节点对应的标签向量/>到第i+1个文本节点对应的标签向量/>的转移概率分数，/>表示第i个文本节点对应的标签可能性向量/>到第i+1个文本节点对应的标签可能性向量/>的转移概率分数，/>以及/>分别为所述命名实体识别模块的第一可训练权重参数矩阵、第二可训练权重参数矩阵，/>为所述跨模态特征表示中第i个文本节点对应的状态向量。

在本实施例中，识别设备根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量算法，获得所述文档数据的命名实体识别概率标量。

S63：根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果。

所述命名实体算法为：

式中，为所述命名实体识别结果，Y为预设的标签类型集，包括若干种标签类型，为求集合函数。

在本实施例中，识别设备根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果。

请参阅图7，图7为本申请一个实施例提供的多模态命名实体识别装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现多模态命名实体识别方法的全部或一部分，该装置7包括：

数据获取模块71，用于获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块；

文本特征提取模块72，用于将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；

视觉特征提取模块73，用于将所述图像输入至所述视觉特征提取模块中进行特征提取，获得所述图像对应的视觉特征表示；

注意力提取模块74，用于将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；

跨模态特征提取模块75，用于将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；

命名实体识别模块76，用于将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

在本申请的实施例中，通过数据获取模块，获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块；通过文本特征提取模块，将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；通过视觉特征提取模块，将所述图像输入至所述视觉特征提取模块中进行特征提取，获得所述图像对应的视觉特征表示；通过注意力提取模块，将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；通过跨模态特征提取模块，将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；通过命名实体识别模块，将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。充分利用文本特征信息以及视觉特征信息，构建跨模态特征表示，有效的弥合不同模态间的语义鸿沟，提高多模态命名实体识别的精准性以及效率。

请参考图8，图8为本申请一个实施例提供的计算机设备的结构示意图，计算机设备8包括：处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83；计算机设备可以存储有多条指令，指令适用于由处理器81加载并执行上述图1至图6所述实施例的方法步骤，具体执行过程可以参见图1至图6所述实施例的具体说明，在此不进行赘述。

其中，处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器82内的指令、程序、代码集或指令集，以及调用存储器82内的数据，执行多模态命名实体识别装置7的各种功能和处理数据，可选的，处理器81可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble LogicArray，PLA）中的至少一个硬件形式来实现。处理器81可集成中央处理器81（CentralProcessing Unit，CPU）、图像处理器81（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器81中，单独通过一块芯片进行实现。

其中，存储器82可以包括随机存储器82（Random Access Memory，RAM），也可以包括只读存储器82（Read-Only Memory）。可选的，该存储器82包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤，具体执行过程可以参见所示图1至图6所述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种多模态命名实体识别方法，其特征在于，包括以下步骤：

S1：获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块，所述视觉特征提取模块包括骨干网络以及颈部网络，所述骨干网络包括若干个依次相连的跨阶段融合卷积块，每个跨阶段融合卷积块均包括卷积模块以及特征提取模块；

S2：将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；

S3：将所述图像作为所述骨干网络中的首个跨阶段融合卷积块的卷积模块的输入数据，根据预设的卷积算法，获得所述图像的卷积特征表示，其中，所述卷积算法为：

式中，为卷积特征表示，CBL（）为标准卷积激活函数，LeakyReLu（）为激活函数，BN（）为批量正则化函数，Conv（）为卷积函数，x为输入数据；

S4：将所述卷积特征表示输入至所述首个跨阶段融合卷积块的特征提取模块中，根据预设的特征提取算法，获得所述首个跨阶段融合卷积块的特征提取模块的输出特征表示，其中，所述特征提取算法为：

式中，为第一中间输出特征表示，/>为第二中间输出特征表示，R为输出特征表示，ResNet_blocks（）为残差卷积函数，SiLU（）为激活函数，Concat（）为拼接函数；

S5：将所述首个跨阶段融合卷积块的特征提取模块的输出特征表示作为下一个跨阶段融合卷积块的卷积模块的输入特征表示，重复步骤S3~S4，获得各个所述跨阶段融合卷积块的输出特征表示，作为若干个尺度对应的输出特征表示，其中，所述若干个尺度对应的输出特征表示为：

式中，为第i个尺度对应的输出特征表示，/>为第m个尺度对应的输出特征表示，按照尺度大小，1<i<m；

S6：将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示；

S7：将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；

S8：将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；

S9：将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于：所述颈部网络包括第一特征融合模块以及第二特征融合模块，其中，所述第一特征融合模块包括依次相连的跨阶段融合卷积块以及若干个构建块；

所述将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示，包括步骤：

将所述若干个尺度对应的输出特征表示输入至所述第一特征融合模块，采用上采样方法，根据预设的第一特征融合算法，获得所述跨阶段融合卷积块输出的第一特征融合表示，以及若干个所述构建块输出的第一特征融合表示，其中，所述第一特征融合算法为：

式中，为所述第一特征融合模块中，跨阶段融合卷积块输出的第一特征融合表示，CSPResNet（）为跨阶段融合卷积函数，/>为所述第一特征融合模块中，第i个构建块输出的第一特征融合表示，Concat（）为拼接函数，UpSample（）为上采样函数；

从所述若干个构建块输出的第一特征融合表示中，提取目标构建块输出的第一特征融合表示，将所述跨阶段融合卷积块输出的第一特征融合表示以及目标构建块输出的第一特征融合表示输入至所述第二特征融合模块，根据预设的第二特征融合算法，获得所述图像对应的视觉特征表示，其中，所述第二特征融合算法为：

3.根据权利要求2所述的多模态命名实体识别方法，其特征在于，所述将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示，包括步骤：

根据所述视觉特征表示以及预设的通道注意力矩阵构建算法，获得通道注意力矩阵，根据所述视觉特征表示、通道注意力矩阵以及预设的通道细化特征计算算法，获得通道细化特征表示，其中，所述通道注意力矩阵构建算法为：

式中，为所述通道注意力矩阵，/>为sigmoid激活函数，MLP（）为多层感知器函数，为平均池化函数，/>为最大池化函数；

所述通道细化特征计算算法为：

式中，为所述通道细化特征表示，/>为逐元素乘法符号；

根据所述通道细化特征表示以及预设的空间注意力矩阵构建算法，获得空间注意力矩阵，根据所述通道细化特征表示、空间注意力矩阵以及预设的空间细化特征计算算法，获得空间细化特征表示，作为所述注意力提取后的视觉特征表示，其中，所述空间注意力矩阵构建算法为：

式中，为所述空间注意力矩阵；

所述空间细化特征计算算法为：

式中，为所述空间细化特征表示。

4.根据权利要求3所述的多模态命名实体识别方法，其特征在于，所述将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示，包括步骤：

根据所述文本特征表示、注意力提取后的视觉特征表示以及预设的跨模态注意力特征计算算法，获得跨模态注意力特征表示，其中，所述跨模态注意力特征计算算法为：

式中，为Atten为所述跨模态注意力特征表示，softmax（）为归一化指数函数，C为所述文本特征表示，为维度参数；

根据所述文本特征表示、跨模态注意力特征表示以及预设的跨模态特征计算算法，获得所述跨模态特征表示，其中，所述跨模态特征表示包括若干个文本节点对应的跨模态特征向量，所述跨模态特征计算算法为：

5.根据权利要求4所述的多模态命名实体识别方法，其特征在于，所述将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果，包括步骤：

构建所述跨模态特征表示对应的标签表示以及标签可能性表示，其中，所述标签表示包括若干个文本节点对应的标签向量，所述标签可能性表示包括若干个文本节点对应的标签可能性向量；

根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量算法，获得所述文档数据的命名实体识别概率标量，其中，所述命名实体识别概率标量算法为：

式中，为所述命名实体识别概率标量，e为文本节点数目，y为所述标签表示，/>为所述标签可能性表示，/>表示第i个文本节点对应的标签向量/>到第i+1个文本节点对应的标签向量/>的转移概率分数，/>表示第i个文本节点对应的标签可能性向量到第i+1个文本节点对应的标签可能性向量/>的转移概率分数，/>以及/>分别为所述命名实体识别模块的第一可训练权重参数矩阵、第二可训练权重参数矩阵，/>为所述跨模态特征表示中第i个文本节点对应的状态向量；

根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果，其中，所述命名实体算法为：

6.一种多模态命名实体识别装置，其特征在于，包括：

数据获取模块，用于获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块，所述视觉特征提取模块包括骨干网络以及颈部网络，所述骨干网络包括若干个依次相连的跨阶段融合卷积块，每个跨阶段融合卷积块均包括卷积模块以及特征提取模块；

装置文本特征提取模块，用于将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；

装置视觉特征提取模块，用于将所述图像作为所述骨干网络中的首个跨阶段融合卷积块的卷积模块的输入数据，根据预设的卷积算法，获得所述图像的卷积特征表示，其中，所述卷积算法为：

将所述卷积特征表示输入至所述首个跨阶段融合卷积块的特征提取模块中，根据预设的特征提取算法，获得所述首个跨阶段融合卷积块的特征提取模块的输出特征表示，其中，所述特征提取算法为：

将所述首个跨阶段融合卷积块的特征提取模块的输出特征表示作为下一个跨阶段融合卷积块的卷积模块的输入特征表示，重复执行装置视觉特征提取模块，获得各个所述跨阶段融合卷积块的输出特征表示，作为若干个尺度对应的输出特征表示，其中，所述若干个尺度对应的输出特征表示为：

将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示；

装置注意力提取模块，用于将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；

装置跨模态特征提取模块，用于将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；

装置命名实体识别模块，用于将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

7.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的多模态命名实体识别方法的步骤。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的多模态命名实体识别方法的步骤。