CN116151263A

CN116151263A - 多模态命名实体识别方法、装置、设备以及存储介质

Info

Publication number: CN116151263A
Application number: CN202310442373.3A
Authority: CN
Inventors: 麦卫兴; 薛云; 张政轩
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-05-23
Anticipated expiration: 2043-04-24
Also published as: CN116151263B

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种多模态命名实体识别方法、装置、设备以及存储介质，通过提取句子特征表示以及图像特征表示，进行图文对齐，以增强句子特征表示以及图像特征表示的语义表达能力，并通过构建特征感知多模态矩阵，对特征感知多模态矩阵中的节点信息进行模态内以及模态间的交互，去除与文本无关的视觉噪声，更好地实现了不同模态间信息的交互和融合，提高多模态命名实体识别精度。

Description

多模态命名实体识别方法、装置、设备以及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种多模态命名实体识别方法、装置、设备以及存储介质。

背景技术

随着多媒体社交平台的快速发展，平台上每天都会产生海量的多模态数据，它们在多媒体知识图谱构建、多媒体检索等方面有着不可替代的作用。然而由于在社交媒体上的这些海量数据大多数都是非结构化的，不利于计算机直接进行处理。因此，从社交媒体数据中自动提取出重要且结构化的信息十分有必要，其中在社交媒体上的多模态命名实体识别就是其中一个重要的研究方向。它旨在通过利用图像信息，辅助文本中的每个词进行类别的预测（例如人名、地名、组织名等）。

图像信息的利用作为多模态命名实体识别的一个核心问题之一，现有的方法在处理图像信息方式上，通常采用将整张图像编码为一个特征向量，然而，整图的方法虽然能保留所有的图像信息，但是颗粒度太大，噪声太多。亦或者是将图像平均分割后把每个区域编码为一个特征向量；通过实体检测的方式得到图像中的子图，然后把每个子图编码为一个特征向量。然而，图像平均分割后编码为多个特征向量的方法虽然颗粒度较小，但是这种方法会把图片中完整的实体区域分割开，导致语义不完整。上述方法存在着一定的局限性，导致多模态命名实体识别精度低。

发明内容

基于此，本发明提供一种多模态命名实体识别方法、装置、设备以及存储介质，其具有降低噪声、提高多模态命名实体识别精度的优点。该技术方法如下：

第一方面，本申请实施例提供了一种多模态命名实体识别方法，包括以下步骤：

获得待测文档数据以及预设的多模态命名实体识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，所述多模态命名实体识别模型包括特征提取模块、图文对齐模块、多模态交互模块以及命名实体识别模块；

将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，其中，所述句子特征表示包括若干个单词的状态向量，图像特征表示包括若干个图像子区域的状态向量；

根据所述句子特征表示以及图像特征表示，构建第一特征感知多模态矩阵，其中，所述第一特征感知多模态矩阵包括若干个文本节点对应的状态向量，以及若干个视觉节点对应的状态向量；

将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵；

将所述第二特征感知多模态矩阵输入至所述多模态交互模块中进行节点更新，获得第三特征感知多模态矩阵，提取所述第三特征感知多模态矩阵中若干个文本节点对应的状态向量进行组合，构建所述待测文档数据的文档特征表示；

将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果。

第二方面，本申请实施例提供了一种多模态命名实体识别装置，包括：

数据获取模块，用于获得待测文档数据以及预设的多模态命名实体识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，所述多模态命名实体识别模型包括特征提取模块、图文对齐模块、多模态交互模块以及命名实体识别模块；

特征提取模块，用于将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，其中，所述句子特征表示包括若干个单词的状态向量，图像特征表示包括若干个图像子区域的状态向量；

矩阵构建模块，用于根据所述句子特征表示以及图像特征表示，构建第一特征感知多模态矩阵，其中，所述第一特征感知多模态矩阵包括若干个文本节点对应的状态向量，以及若干个视觉节点对应的状态向量；

图文对齐模块，用于将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵；

节点更新模块，用于将所述第二特征感知多模态矩阵输入至所述多模态交互模块中进行节点更新，获得第三特征感知多模态矩阵，提取所述第三特征感知多模态矩阵中若干个文本节点对应的状态向量进行组合，构建所述待测文档数据的文档特征表示；

命名实体识别模块，用于将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述的多模态命名实体识别方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的多模态命名实体识别方法的步骤。

在本实施例中，提供一种多模态命名实体识别方法、装置、设备以及存储介质，通过提取句子特征表示以及图像特征表示，进行图文对齐，以增强句子特征表示以及图像特征表示的语义表达能力，并通过构建特征感知多模态矩阵，对特征感知多模态矩阵中的节点信息进行模态内以及模态间的交互，去除与文本无关的视觉噪声，更好地实现了不同模态间信息的交互和融合，提高多模态命名实体识别精度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的多模态命名实体识别方法的流程示意图；

图2为本申请一个实施例提供的多模态命名实体识别方法中S2的流程示意图；

图3为本申请另一个实施例提供的多模态命名实体识别方法的流程示意图；

图4为本申请又一个实施例提供的多模态命名实体识别方法的流程示意图；

图5为本申请一个实施例提供的多模态命名实体识别方法中S5的流程示意图；

图6为本申请一个实施例提供的多模态命名实体识别方法中S6的流程示意图；

图7为本申请一个实施例提供的多模态命名实体识别装置的结构示意图；

图8为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述目标实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的多模态命名实体识别方法的流程示意图，包括如下步骤：

S1：获得待测文档数据以及预设的多模态命名实体识别模型。

本申请的多模态命名实体识别方法的执行主体为多模态命名实体识别方法的识别设备（以下简称识别设备）。

在一个可选的实施例中，识别设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

识别设备获得待测文档数据，在一个可选的实施例中，所述待测文档数据源自于社交媒体，其中，社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。文档数据包括了社交媒体上的用户分享的意见、见解、经验和观点等等。

具体地，识别设备可以与所述社交媒体进行连接，获取社交媒体上发布的文档数据，作为待测文档数据，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，如下所示：

式中，s为待测句子的句子序列，

为第i个单词的词向量。

识别设备获取预设的多模态命名实体识别模型，其中，所述多模态命名实体识别模型包括特征提取模块、图文对齐模块、多模态交互模块以及命名实体识别模块。

S2：将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示。

在本实施例中，识别设备将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，其中，所述句子特征表示包括若干个单词的状态向量，图像特征表示包括若干个图像子区域的状态向量。

所述特征提取模块包括词嵌入模块、目标检测模块以及维度变换模块；请参阅图2，图2为本申请一个实施例提供的多模态命名实体识别方法中S2的流程示意图，包括步骤S21~S23，具体如下：

S21：将所述待测句子输入至所述词嵌入模块中进行编码处理，获得所述待测句子的初始句子特征表示。

所述词嵌入模块采用BERT（Bidirectional Encoder Representation fromTransformers）词嵌入模型，用于将待测句子中若干个单词的向量转换为相应的状态向量。

在本实施例中，识别设备将所述待测句子输入至所述词嵌入模块中进行编码处理，获得所述待测句子的初始句子特征表示。

具体地，识别设备将所述待测句子输入至BERT词嵌入模型中，将待测句子中的每个单词映射到低维向量空间中，经过查询预训练好的BERT矩阵，获得BERT词嵌入模型输出的所述待测句子的若干个单词的隐藏层向量，并进行编码处理，获得所述初始句子特征表示，其中，所述初始句子特征表示为：

式中，T为所述初始句子特征表示，

为第i个单词的隐藏层向量，/>

为第n-1个单词的隐藏层向量，n为单词总数。

S22：将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示。

所述目标检测模块采用Swin Transformer模型，用于多目标检测，能确定图片中与实体有关的预定义对象。

在本实施例中，识别设备将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示，其中，所述初始图像特征表示为：

式中，O为所述初始图像特征表示，

为第j个图像子区域的检测向量，/>

为第m-1个图像子区域的检测向量，m为图像子区域总数。

S23：将所述初始句子特征表示以及初始图像特征表示输入至所述维度变换模块中进行维度变换获得所述句子特征表示以及图像特征表示。

所述维度变换模块采用MLP（Multilayer Perceptron）多层感知机模型，是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

在本实施例中，识别设备根据所述初始句子特征表示以及初始图像特征表示，使用两个参数不同的多层感知机模型将所述初始句子特征表示和初始图像特征表示映射到相同的维度空间，进行维度变换，获得所述句子特征表示以及图像特征表示，其中，所述句子特征表示为：

式中，X为所述句子特征表示，

为第i个单词的状态向量，/>

为第n-1个单词的状态向量。

所述图像特征表示为：

式中，V为所述图像特征表示，

为第j个图像子区域的状态向量，/>

为第m-1个图像子区域的状态向量。

请参阅图3，图3为本申请另一个实施例提供的多模态命名实体识别方法的流程示意图，还包括步骤S7：训练所述特征提取模块，所述步骤S7在S2之前，包括步骤S71~S73，具体如下：

S71：获得训练文档数据集。

在本实施例中，识别设备从预设的数据库中，获得训练文档数据集，其中，所述训练文档数据集包括若干个训练文档数据，所述训练文档数据包括训练句子以及训练句子对应的训练图像。

S72：将所述训练文档数据集输入至所述特征提取模块中，获得若干个所述训练文档数据对应的句子特征表示以及图像特征表示，分别对若干个所述训练文档数据对应的句子特征表示以及图像特征表示进行平均池化处理，获得若干个所述训练文档数据的句子全局特征表示以及图像全局特征表示。

在本实施例中，识别设备将所述训练文档数据集输入至所述特征提取模块中，获得若干个所述训练文档数据对应的句子特征表示以及图像特征表示。具体实施例可参考步骤S21~S23，在此不再赘述。

识别设备分别对若干个所述训练文档数据对应的句子特征表示以及图像特征表示进行平均池化处理，获得若干个所述训练文档数据的句子全局特征表示

以及图像全局特征表示/>

。

S73：根据若干个所述训练文档数据的句子全局特征表示、图像全局特征表示以及预设的第一损失函数，对所述特征提取模块进行训练，获得目标特征提取模块。

所述第一损失函数为：

式中，

为第i个训练文档数据的图像对文本损失值，/>

为第i个训练文档数据的文本对图像损失值，/>

为第一损失值，/>

为第i个训练文档数据的图像全局特征表示，/>

为第i个训练文档数据的句子全局特征表示，τ为温度系数，M为批次大小，

为第j个训练文档数据的句子全局特征表示，/>

为超参数，sim（）为余弦函数。

在本实施例中，识别设备采用对比学习方法，根据若干个所述训练文档数据的句子全局特征表示以及图像全局特征表示，构建各个所述训练文档数据的正例输入对以及负例输入对，其中，所述正例输入对包括属于同一个训练文档数据的句子全局特征表示以及图像全局特征表示，所述负例输入对包括不属于同一个训练文档数据的句子全局特征表示以及图像全局特征表示。

根据各个所述训练文档数据的正例输入对、负例输入对以及预设的第一损失函数，通过最大化正例输入对之间的相似度以及最小化负例输入对之间的相似度，获得第一损失值，根据所述第一损失值，对所述特征提取模块进行训练，获得目标特征提取模块，使得目标特征提取模块能够输出更加一致的句子特征表示以及图像特征表示，从而提高多模态命名实体识别的精准性以及效率。

S3：根据所述句子特征表示以及图像特征表示，构建第一特征感知多模态矩阵。

在本实施例中，识别设备根据所述句子特征表示以及图像特征表示，构造初始特征感知多模态图，其中，构建步骤包括节点构造以及边构造。具体地，对于节点构造，识别设备根据所述句子特征表示中若干个单词的状态向量，构建若干个文本节点，每个文本节点对应于所述句子特征表示中的一个单词的状态向量；识别根据图像特征表示中若干个图像子区域的状态向量，构建若干个视觉节点，每个视觉节点对应于所述图像特征表示中的一个图像子区域的状态向量。

对于边构造，识别设备根据若干个文本节点以及图像节点，采用相同模态的节点通过模态内边两两连接，以及不同模态的节点通过模态间边进行连接的方式，构建初始特征感知多模态图的边集合。

识别设备将所述初始特征感知多模态图进行转化，获得第一特征感知多模态矩阵，其中，所述第一特征感知多模态矩阵包括若干个文本节点对应的状态向量，以及若干个视觉节点对应的状态向量。

S4：将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵。

在本实施例中，识别设备将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵，其中，所述图文对齐模块为通过对比学习进行训练构建的网络模型。

请参阅图4，图4为本申请又一个实施例提供的多模态命名实体识别方法的流程示意图，还包括步骤S8：训练所述图文对齐模块，所述步骤S8在S4之前，包括步骤S81~S84，具体如下：

S81：根据若干个所述训练文档数据对应的句子特征表示以及图像特征表示，构建各个所述训练文档数据的第一特征感知多模态矩阵。

在本实施例中，识别设备根据若干个所述训练文档数据对应的句子特征表示以及图像特征表示，构建各个所述训练文档数据的第一特征感知多模态矩阵，具体实施例可参考步骤S3，在此不再赘述。

S82：对于各个所述训练文档数据的第一特征感知多模态矩阵，将所述第一特征感知多模态矩阵中首个文本节点作为目标文本节点，根据所述第一特征感知多模态矩阵中，目标文本节点对应的状态向量、各个视觉节点对应的状态向量以及预设的相似度分数计算算法，获得各个所述训练文档数据对应的，目标文本节点与各个所述视觉节点的相似度分数。

所述相似度分数计算算法为：

式中，S为目标文本节点各个所述视觉节点的相似度分数，softmax（）为归一化函数，

为第c个多头注意力的第一权重矩阵，/>

为目标文本节点对应的状态向量，/>

为视觉节点对应的状态向量，/>

为第c个多头注意力的第二权重矩阵，d为维度参数，

为多头注意力的头数。

在本实施例中，识别设备对于各个所述训练文档数据的第一特征感知多模态矩阵，将所述第一特征感知多模态矩阵中首个文本节点作为目标文本节点，根据所述第一特征感知多模态矩阵中，目标文本节点对应的状态向量、各个视觉节点对应的状态向量以及预设的相似度分数计算算法，获得各个所述训练文档数据对应的，目标文本节点与各个所述视觉节点的相似度分数。

S83：根据各个所述训练文档数据对应的，目标文本节点与各个所述视觉节点的相似度分数，采用快速选择方法，分别对各个所述训练文档数据的第一特征感知多模态矩阵中的若干个所述视觉节点划分为正例视觉节点以及负例视觉节点，获得各个所述训练文档数据对应的正例视觉节点对应的状态向量，以及负例视觉节点对应的状态向量。

在本实施例中，识别设备根据各个所述训练文档数据对应的，目标文本节点与各个所述视觉节点的相似度分数，采用快速选择方法，分别从各个所述训练文档数据的第一特征感知多模态矩阵提取相似度分数最大的前k个视觉节点作为正例视觉节点，其他的视觉节点作为负例视觉节点，获得各个所述训练文档数据对应的若干个正例视觉节点、若干个负例视觉节点，以及正例视觉节点对应的状态向量，以及负例视觉节点对应的状态向量。具体如下：

式中，Pos为正例视觉节点集合，

，

为第k个正例视觉节点。

S84：根据各个所述训练文档数据对应的正例视觉节点对应的状态向量，负例视觉节点对应的状态向量以及预设的第二损失函数，获得各个所述训练文档数据对应的第二损失值，根据各个所述训练文档数据对应的第二损失值，对所述图文对齐模块进行训练，获得目标图文对齐模块。

所述第二损失函数为：

式中，

为局部对齐对比损失值，k为正例视觉节点总数，/>

为第i个正例视觉节点对应的状态向量，/>

为第j个视觉节点对应的状态向量，J为视觉节点总数。

在本实施例中，识别设备根据各个所述训练文档数据对应的正例视觉节点对应的状态向量，负例视觉节点对应的状态向量以及预设的第二损失函数，获得各个所述训练文档数据对应的第二损失值，根据各个所述训练文档数据对应的第二损失值。将各个所述训练文档数据对应的第二损失值进行累加，获得第二损失总值，根据第二损失总值，对所述图文对齐模块进行训练，获得目标图文对齐模块。采用对比学习方法，实现节点之间的局部对齐，使得图文对齐模块能够对文本节点以及视觉节点进行更加准确的对齐操作，有效地弥合模态间语义鸿沟，并且能够抑制无关视觉信息的影响，提高多模态命名实体识别的精准性以及效率。

S5：将所述第二特征感知多模态矩阵输入至所述多模态交互模块中进行节点更新，获得第三特征感知多模态矩阵，提取所述第三特征感知多模态矩阵中若干个文本节点对应的状态向量进行组合，构建所述待测文档数据的文档特征表示。

在本实施例中，识别设备将所述第二特征感知多模态矩阵输入至所述多模态交互模块中进行节点更新，获得第三特征感知多模态矩阵，提取所述第三特征感知多模态矩阵中若干个文本节点对应的状态向量进行组合，构建所述待测文档数据的文档特征表示。

所述多模态交互模块为包含多层交互层的网络模型；请参阅图5，图5为本申请一个实施例提供的多模态命名实体识别方法中S5的流程示意图，包括步骤S51~S53，具体如下：

S51：将所述第二特征感知多模态矩阵作为所述多模态交互模块的首层交互层的输入数据，根据预设的上下文向量计算算法，获得所述多模态交互模块最后一层交互层输出的各个所述文本节点对应的上下文向量，以及各个所述视觉节点对应的上下文向量。

所述上下文向量计算算法为：

式中，

为所述多模态交互模块的第l层交互层的文本节点对应的上下文向量，

为所述多模态交互模块的第l-1层交互层的文本节点对应的状态向量，/>

为所述多模态交互模块的第l-1层交互层的视觉节点对应的状态向量，/>

为所述多模态交互模块的第l层交互层的视觉节点对应的上下文向量，/>

为对数函数，/>

为自注意力函数。

在本实施例中，识别设备将所述第二特征感知多模态矩阵作为所述多模态交互模块的首层交互层的输入数据，根据预设的上下文向量计算算法，获得所述多模态交互模块最后一层交互层输出的各个所述文本节点对应的上下文向量，以及各个所述视觉节点对应的上下文向量。通过在每个交互层中，依次进行模态内和模态间的信息交互以更新所有节点状态，实现了对各个所述文本节点以及视觉节点的语义信息的提取。

S52：根据各个所述文本节点对应的上下文向量，各个所述视觉节点对应的上下文向量以及预设的向量融合算法，获得各个所述文本节点对应的融合向量，以及各个所述视觉节点对应的融合向量。

所述向量融合算法为：

式中，

为第i个文本节点对应的融合向量，/>

为第j个视觉节点对应的融合向量，/>

为第i个文本节点的邻居视觉节点集合，/>

为第i个文本节点的邻居视觉节点集合，/>

、/>

、/>

以及/>

分别为所述多模态交互模块的第l层交互层的第一权重矩阵、第二权重矩阵、第三权重矩阵以及第四权重矩阵，/>

为所述多模态交互模块的第l层交互层的第i个文本节点对应的上下文向量，/>

为所述多模态交互模块的第l层交互层的第j个视觉节点对应的上下文向量，/>

为激活函数，/>

为元素排序符号,表示各向量或矩阵间，对应位置的元素相乘。

在本实施例中，识别设备根据各个所述文本节点对应的上下文向量，各个所述视觉节点对应的上下文向量以及预设的向量融合算法，获得各个所述文本节点对应的融合向量，以及各个所述视觉节点对应的融合向量。通过采用跨模态的门机制来为每个节点融合其跨模态邻居节点的信息，进一步滤除了无关的图像噪声，从而提高多模态命名识别的准确性。

S53：根据各个所述文本节点对应的融合向量，各个所述视觉节点对应的融合向量以及预设的节点更新算法，获得更新后的各个所述文本节点对应的状态向量，以及更新后的各个所述视觉节点对应的融合向量，构建所述第三特征感知多模态矩阵。

所述节点更新算法为：

式中，

为更新后的所述文本节点对应的状态向量，/>

为更新后的所述视觉节点对应的状态向量，/>

为文本节点对应的融合向量，/>

，/>

为视觉节点对应的融合向量，/>

，/>

为卷积函数。

在本实施例中，识别设备根据各个所述文本节点对应的融合向量，各个所述视觉节点对应的融合向量以及预设的节点更新算法，获得更新后的各个所述文本节点对应的状态向量，以及更新后的各个所述视觉节点对应的融合向量，获得第三特征感知多模态矩阵。实现了模态内和模态间的信息交互，提高了多模态命名识别的准确性。

S6：将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果。

在本实施例中，识别设备将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果。

请参阅图6，图6为本申请一个实施例提供的多模态命名实体识别方法中S6的流程示意图，包括步骤S61~S63，具体如下：

S61：构建所述文档特征表示对应的标签表示以及标签可能性表示。

在本实施例中，识别设备对所述文档特征表示中若干个文本节点进行标签标注处理，构建标签表示，其中，所述标签表示包括若干个文本节点对应的标签向量。

标签向量表现为相应的文本节点的位置信息BIO，其中，B表示每个文本节点在命名实体中的开头位置，I表示每个文本节点在命名实体中的中间和/或结尾位置，O表示该文本节点不是命名实体。

识别设备对所述文档特征表示中若干个文本节点进行标签可能性遍历处理，构建标签可能性表示，其中，所述标签可能性表示包括若干个文本节点对应的标签可能性向量。

对于位置信息有BIO三类，而B、I类均有PER、LOC、ORG以及MISC四种类别信息，例如，实体词标注为 B只可能转换为B-PER（人名），B-LOC（地名），B-ORG（组织机构名），B-MISC（其他），标签可能性向量表现为相应的文本节点的位置信息对应的类别信息的可能性概率。

S62：根据所述文档特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量计算算法，获得所述待测句子的命名实体识别概率标量。

所述命名实体识别概率标量算法为：

式中，

为所述命名实体识别概率标量，n为文本节点数目，y为所述标签表示，/>

为所述标签可能性表示，/>

表示第i个文本节点对应的标签向量/>

到第i+1个文本节点对应的标签向量/>

的转移概率分数，/>

表示第i个文本节点对应的标签可能性向量/>

到第i+1个文本节点对应的标签可能性向量/>

的转移概率分数，

以及/>

分别为所述命名实体识别模块的第一可训练权重矩阵、第二可训练权重矩阵，/>

为第i个文本节点对应的状态向量。

在本实施例中，识别设备根据所述文档特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量计算算法，获得所述待测句子的命名实体识别概率标量。

S63：根据所述待测句子的命名实体识别概率标量以及预设的命名实体算法，获得所述待测文档数据的命名实体识别结果。

所述实体识别算法为：

式中，

为所述命名实体识别结果，Y为预设的标签类型集，包括若干种标签类型，

为求集合函数。

在本实施例中，识别设备根据所述待测句子的命名实体识别概率标量以及预设的命名实体算法，获得所述待测文档数据的命名实体识别结果。

请参阅图7，图7为本申请一个实施例提供的多模态命名实体识别装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现多模态命名实体识别方法的全部或一部分，该装置7包括：

数据获取模块71，用于获得待测文档数据以及预设的多模态命名实体识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，所述多模态命名实体识别模型包括特征提取模块、图文对齐模块、多模态交互模块以及命名实体识别模块；

特征提取模块72，用于将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，其中，所述句子特征表示包括若干个单词的状态向量，图像特征表示包括若干个图像子区域的状态向量；

矩阵构建模块73，用于根据所述句子特征表示以及图像特征表示，构建第一特征感知多模态矩阵，其中，所述第一特征感知多模态矩阵包括若干个文本节点对应的状态向量，以及若干个视觉节点对应的状态向量；

图文对齐模块74，用于将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵；

节点更新模块75，用于将所述第二特征感知多模态矩阵输入至所述多模态交互模块中进行节点更新，获得第三特征感知多模态矩阵，提取所述第三特征感知多模态矩阵中若干个文本节点对应的状态向量进行组合，构建所述待测文档数据的文档特征表示；

命名实体识别模块76，用于将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果。

在本申请的实施例中，通过数据获取模块，获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括文本数据、文本数据对应的若干个图像以及若干个图像的标签数据，所述多模态命名实体识别模型包括语义特征提取模块、图像特征提取模块、图文对齐模块、多模态交互模块以及命名实体识别模块；通过语义特征提取模块，将所述文本数据以及若干个图像的标签数据分别输入至所述语义特征提取模块中进行特征提取，获得文本语义特征表示以及图像语义特征表示；通过全局特征提取模块，将所述若干个图像输入至所述图像特征提取模块中进行特征提取，获得图像全局特征表示；通过图文对齐模块，将所述图像语义特征表示以及图像全局特征表示输入至所述图文对齐模块中进行图文对齐，获得图像增强语义特征表示；通过邻接矩阵构建模块，采用自注意力机制，根据所述文本语义特征表示以及图像增强语义特征表示，构建跨模态邻接矩阵；通过特征交互模块，将所述文本语义特征表示、图像增强语义特征表示以及跨模态邻接矩阵输入至所述多模态交互模块中进行特征交互，获得多模态特征表示；通过命名实体识别模块，将所述多模态特征表示以及跨模态邻接矩阵输入至所述命名实体识别模块中进行多模态命名实体识别，获得所述文档数据的多模态命名实体识别结果。通过提取句子特征表示以及图像特征表示，进行图文对齐，以增强句子特征表示以及图像特征表示的语义表达能力，并通过构建特征感知多模态矩阵，对特征感知多模态矩阵中的节点信息进行模态内以及模态间的交互，去除与文本无关的视觉噪声，更好地实现了不同模态间信息的交互和融合，提高多模态命名实体识别精度。

请参考图8，图8为本申请一个实施例提供的计算机设备的结构示意图，计算机设备8包括：处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83；计算机设备可以存储有多条指令，指令适用于由处理器81加载并执行上述图1至图6所述实施例的方法步骤，具体执行过程可以参见图1至图6所述实施例的具体说明，在此不进行赘述。

其中，处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器82内的指令、程序、代码集或指令集，以及调用存储器82内的数据，执行多模态命名实体识别装置7的各种功能和处理数据，可选的，处理器81可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble LogicArray，PLA）中的至少一个硬件形式来实现。处理器81可集成中央处理器81（CentralProcessing Unit，CPU）、图像处理器81（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器81中，单独通过一块芯片进行实现。

其中，存储器82可以包括随机存储器82（Random Access Memory，RAM），也可以包括只读存储器82（Read-Only Memory）。可选的，该存储器82包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤，具体执行过程可以参见所示图1至图6所述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种多模态命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述特征提取模块包括词嵌入模块、目标检测模块以及维度变换模块；

将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，包括步骤：

将所述待测句子输入至所述词嵌入模块中进行编码处理，获得所述待测句子的初始句子特征表示；

将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示；

将所述初始句子特征表示以及初始图像特征表示输入至所述维度变换模块中进行维度变换，获得所述句子特征表示以及图像特征表示。

3.根据权利要求2所述的多模态命名实体识别方法，其特征在于，所述将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示之前，包括步骤：训练所述特征提取模块，所述训练所述特征提取模块，包括步骤：

获得训练文档数据集，其中，所述训练文档数据集包括若干个训练文档数据，所述训练文档数据包括训练句子以及训练句子对应的训练图像；

将所述训练文档数据集输入至所述特征提取模块中，获得若干个所述训练文档数据对应的句子特征表示以及图像特征表示，分别对若干个所述训练文档数据对应的句子特征表示以及图像特征表示进行平均池化处理，获得若干个所述训练文档数据的句子全局特征表示以及图像全局特征表示；

根据若干个所述训练文档数据的句子全局特征表示、图像全局特征表示以及预设的第一损失函数，对所述特征提取模块进行训练，获得目标特征提取模块，其中，所述第一损失函数为：

式中，

为第i个训练文档数据的图像对文本损失值，/>

为第i个训练文档数据的文本对图像损失值，/>

为第一损失值，/>

为第i个训练文档数据的图像全局特征表示，/>

为第i个训练文档数据的句子全局特征表示，τ为温度系数，M为批次大小，/>

为第j个训练文档数据的句子全局特征表示，/>

为超参数，sim（）为余弦函数。

4.根据权利要求3所述的多模态命名实体识别方法，其特征在于，所述将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵之前，包括步骤：训练所述图文对齐模块，所述训练所述图文对齐模块，包括步骤：

根据若干个所述训练文档数据对应的句子特征表示以及图像特征表示，构建各个所述训练文档数据的第一特征感知多模态矩阵；

对于各个所述训练文档数据的第一特征感知多模态矩阵，将所述第一特征感知多模态矩阵中首个文本节点作为目标文本节点，根据所述第一特征感知多模态矩阵中，目标文本节点对应的状态向量、各个视觉节点对应的状态向量以及预设的相似度分数计算算法，获得各个所述训练文档数据对应的，目标文本节点与各个所述视觉节点的相似度分数，其中，所述相似度分数计算算法为：