CN115659987A

CN115659987A - 基于双通道的多模态命名实体识别方法、装置以及设备

Info

Publication number: CN115659987A
Application number: CN202211687997.3A
Authority: CN
Inventors: 张政轩; 薛云; 陈建颖; 麦卫兴
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-01-31
Anticipated expiration: 2042-12-28
Also published as: CN115659987B

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质，在多模态命名实体识别任务中引入对象特征表示以及视觉特征表示，与文本特征表示构建基于对象感知的文本特征表示以及基于视觉感知的文本特征表示，来滤除多模态融合后的噪声，并结合基于对象感知的文本特征表示以及基于视觉感知的文本特征表示进行实体识别，提高了命名实体识别的精度。

Description

基于双通道的多模态命名实体识别方法、装置以及设备

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质。

背景技术

近年来，人们通过社交网络分享日常生活和表达个人观点的情况持续增多。社交平台，如推特，是一个引人注目的来源，每天提供数亿个具有多模态功能的媒体数据。近年来的研究主要集中在利用深度学习的方法提取和分析海量图像和文本中的信息，其中包括多模态命名实体识别。与传统的命名实体识别不同，多模态命名实体识别还利用了图像信息来辅助文本进行命名实体（人名、地方名、组织名等）的判断，目前已成为命名实体识别的重要研究方向，并有效地应用于带有图文信息的多模态社交帖子的检测中。

在传统的多模态命名实体识别方法中，倾向于收集文本和图像两种模态的信息，然后将文本信息和图像信息拼接，整合到多模态命名实体识别神经网络模型中，来处理模态内部以及模态之间的关系。但是，这些传统方法给网络引入了大量的无关信息，导致多模态噪声大、命名实体识别精度低。

发明内容

基于此，本发明提供一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质，其具有降低噪声、提高命名实体识别精度的优点。该技术方法如下：

第一方面，本申请实施例提供了一种基于双通道的多模态命名实体识别方法，包括以下步骤：

获取社交媒体的评论数据以及预设的实体识别模型，其中，所述评论数据包括文本语句和与所述文本语句对应的图像，所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块；

将所述评论数据输入至所述特征提取模块，获得所述文本语句对应的文本特征表示，以及所述图像对应的对象特征表示以及视觉特征表示；

将所述文本特征表示以及对象特征表示进行拼接处理，获得第一多模态特征表示，将所述文本特征表示以及视觉特征表示进行拼接处理，获得第二多模态特征表示；

采用跨模态感知掩码方法，构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵；

将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理，获得基于对象感知的文本特征表示，将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理，获得基于视觉感知的文本特征表示；

将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别，获得实体识别结果，其中，所述实体识别结果包括实体判断结果以及实体类型结果。

第二方面，本申请实施例提供了一种基于双通道的多模态命名实体识别装置，包括：

数据获取模块，用于获取社交媒体的评论数据以及预设的实体识别模型，其中，所述评论数据包括文本语句和与所述文本语句对应的图像，所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块；

特征提取模块，用于将所述评论数据输入至所述特征提取模块，获得所述文本语句对应的文本特征表示，以及所述图像对应的对象特征表示以及视觉特征表示；

特征拼接模块，用于将所述文本特征表示以及对象特征表示进行拼接处理，获得第一多模态特征表示，将所述文本特征表示以及视觉特征表示进行拼接处理，获得第二多模态特征表示；

邻接矩阵构建模块，用于采用跨模态感知掩码方法，构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵；

特征交互模块，用于将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理，获得基于对象感知的文本特征表示，将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理，获得基于视觉感知的文本特征表示；

实体识别模块，用于将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别，获得实体识别结果，其中，所述实体识别结果包括实体判断结果以及实体类型结果。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述的基于双通道的多模态命名实体识别方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于双通道的多模态命名实体识别方法的步骤。

在本实施例中，提供一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质，在多模态命名实体识别任务中引入对象特征表示以及视觉特征表示，与文本特征表示构建基于对象感知的文本特征表示以及基于视觉感知的文本特征表示，来滤除多模态融合后的噪声，并结合基于对象感知的文本特征表示以及基于视觉感知的文本特征表示进行实体识别，提高了命名实体识别的精度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请第一实施例提供的基于双通道的多模态命名实体识别方法的流程示意图；

图2为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S2的流程示意图；

图3为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S4的流程示意图；

图4为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图；

图5为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图；

图6为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S6的流程示意图；

图7为本申请一个实施例提供的基于双通道的多模态命名实体识别装置的结构示意图；

图8为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述目标实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请第一实施例提供的基于双通道的多模态命名实体识别方法的流程示意图，包括如下步骤：

S1：获取社交媒体的评论数据以及预设的实体识别模型。

本申请的基于双通道的多模态命名实体识别方法的执行主体为基于双通道的多模态命名实体识别方法的识别设备（以下简称识别设备）。

在一个可选的实施例中，识别设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

在本实施例中，识别设备可以获取用户输入的社交媒体的评论数据，其中，所述评论数据包括文本语句和与所述文本语句对应的图像。

社交媒体是互联网上基于用户关系的内容生产和交换平台，主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。评论数据是社交媒体上的用户分享的意见、见解、经验和观点等等，以图片和文字等形式发布。

具体地，识别设备可以与所述社交媒体进行连接，获取社交媒体上发布的用户帖子，所述用户帖子包含文本语句和与所述文本语句对应的图像，其中，所述文本语句的表达式为：

式中，S为所述文本语句，

为第n个单词。

识别设备获取预设的实体识别模型，其中，所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块。

S2：将所述评论数据输入至所述特征提取模块，获得所述文本语句对应的文本特征表示，以及所述图像对应的对象特征表示以及视觉特征表示。

在本实施例中，识别设备将所述评论数据输入至所述特征提取模块，获得所述文本语句对应的文本特征表示，以及所述图像对应的对象特征表示以及视觉特征表示。

所述特征提取模块包括句子编码模块、目标检测模块以及视觉定位模块，请参阅图2，图2为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S2的流程示意图，包括步骤S21~S23，具体如下：

S21：将所述文本语句输入至所述句子编码模块中进行句子编码处理，获得所述文本特征表示。

所述文本特征表示包括若干个文本节点对应的文本特征向量。

所述句子编码模块采用BERT（Bidirectional Encoder Representation fromTransformers）词嵌入模型，用于将文本语句中若干个单词的向量转换为相应的隐藏层向量。

在本实施例中，识别设备将所述文本语句输入至所述句子编码模块中进行句子编码处理，获得所述文本特征表示。

具体地，分析设备将所述文本语句分别输入至预设的BERT词嵌入模型中，将文本语句中的每个单词映射到低维向量空间中，经过查询预训练好的BERT矩阵，获得BERT词嵌入模型输出的所述文本语句的若干个实体词的隐藏层向量，将每一个实体词的隐藏层向量作为一个文本节点对应的文本特征向量，并进行编码处理，获得所述文本特征表示，其中，所述文本特征表示为：

式中，X为所述文本特征表示，

为第i个文本节点对应的文本特征向量，

为第n 个文本节点对应的文本特征向量。

S22：将所述图像输入至所述目标检测模块中进行目标检测处理，获得若干个图像实体词，将所述若干个图像实体词输入至所述句子编码模块中进行句子编码处理，获得所述对象特征表示。

所述对象特征表示包括若干个图像节点对应的对象特征向量。

所述目标检测模块为Mask RNN模型，所述Mask RNN模型是在Faster R-CNN的基础上添加了一个预测分割mask的分支，用于多目标检测，能确定图片中与实体有关的预定义对象。

在本实施例中，识别设备将所述图像输入至所述目标检测模块中进行目标检测处理，获得若干个图像实体词，将所述若干个图像实体词输入至所述句子编码模块中进行句子编码处理，获得所述对象特征表示。

具体地，识别设备将图像输入至Mask RCNN模型进行目标检测，获得m个图像实体词，若所述图像实体词的数目大于n个，只考虑前n个图像实体词，并将所述前n个图像实体词输入至BERT词嵌入模型中，获得BERT词嵌入模型输出的若干个图像实体词的隐藏层向量，将每一个图像实体词的隐藏层向量作为一个图像节点对应的对象特征向量，并进行编码处理，获得所述对象特征表示，其中，所述对象特征表示为：

式中，O为所述文本特征表示，

为第i个图像节点对应的对象特征向量，

为第n个图像节点对应的对象特征向量。

S23：将所述图像输入至所述视觉定位模块中进行视觉定位处理，获得所述视觉特征表示。

所述视觉特征表示包括若干个图像节点对应的视觉特征向量。

所述视觉定位模块是一个语言-视觉模型，包括图像分割模块以及卷积处理模块，其中，所述图像分割模块包括用于图像特征提取的Darknet53模型和FPN模型、用于语言特征提取的BERT模型，所述卷积处理模块为CNN模型。

在本实施例中，识别设备将所述图像输入至所述视觉定位模块中进行视觉定位处理，获得所述视觉特征表示。

具体地，识别设备通过预定义实体类型的四个通用词,例如人名、地名、组织名、其他），利用图像分割模块来检测每个名词短语的区域，然后单独分割为若干个名词短语对应的子图像，并将若干个子图像输入至卷积处理模块中，通过152层的ResNet卷积层，获得所述视觉特征表示，其中，所述视觉特征表示为：

式中，V为所述文本特征表示，

为第i个图像节点对应的视觉特征向量，

为第n 个图像节点对应的视觉特征向量。

S3：将所述文本特征表示以及对象特征表示进行拼接处理，获得第一多模态特征表示，将所述文本特征表示以及视觉特征表示进行拼接处理，获得第二多模态特征表示。

在本实施例中，识别设备将所述文本特征表示以及对象特征表示进行拼接处理，获得第一多模态特征表示，将所述文本特征表示以及视觉特征表示进行拼接处理，获得第二多模态特征表示。

具体地，为了对文本节点和图像节点进行相似度的计算，需要将他们投影到维度相同的向量空间。因此，识别设备先利用全连接层，对所述文本特征表示中若干个文本节点对应的文本特征向量，所述对象特征表示中若干个图像节点对应的对象特征向量，以及所述视觉特征表示中若干个图像节点对应的视觉特征向量进行维度变换，并将维度变换处理后的所述文本特征表示以及对象特征表示进行拼接处理，获得第一多模态特征表示，将维度变换处理后的所述文本特征表示以及视觉特征表示进行拼接处理，获得第二多模态特征表示。

S4：采用跨模态感知掩码方法，构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵。

基于拼接处理获得的第一多模态特征表示以及第二多模态特征表示中，因为图像节点可能会出现区域重复的情况，而导致图像节点对应的对象特征向量重复以及视觉特征向量重复，从而影响相关性的判断。

为了降低上述情况带来的负面影响，在本实施例中，识别设备采用跨模态感知掩码方法，构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵。

请参阅图3，图3为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S4的流程示意图，包括步骤S41~S43，具体如下：

S41：将所述第一多模态特征表示以及第二多模态特征表示分别作为输入参数，根据预设的注意力系数计算算法，对所述第一多模态特征表示中，若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算，构建第一节点注意力系数集。

S42：对所述第二多模态特征表示中，若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算，构建第二节点注意力系数集。

所述预设的注意力系数计算算法为：

式中，

为注意力系数，softmax（）为归一化函数，M为输入参数，

为第一可训练权重参数矩阵，

为第二可训练权重参数矩阵，

为维度参数；

在本实施例中，识别设备根据所述第一多模态特征表示以及预设的注意力系数计算算法，对所述第一多模态特征表示中，若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算，构建第一节点注意力系数集，实现两个模态间的信息的深层次特征融合与对齐。

识别设备通过构建文本感知区的方式，对所述第一多模态特征表示中，每个文本节点对应的文本特征向量对其他若干个文本节点对应的文本特征向量进行注意力的计算（即选取一个目标文本节点作为Q，其他文本节点作为K），构建文本-文本连接，获得若干个文本节点与文本节点之间的注意力系数。

识别设备将每个文本节点对应的文本特征向量对若干个图像节点对应的对象特征向量进行注意力的计算（即选取一个目标文本节点作为Q，图像节点作为K），构建文本-图像连接，获得若干个文本节点与图像节点之间的注意力系数。

并且，识别设备通过构建图像感知区的方式，对所述第一多模态特征表示中，将每个图像节点对应的对象特征向量对若干个文本节点对应的文本特征向量进行注意力的计算（即选取一个目标图像节点作为Q，文本节点作为K），构建图像-文本连接，获得若干个图像节点与文本节点之间进行注意力系数。

识别设备根据所述第二多模态特征表示以及预设的注意力系数计算算法，对所述第二多模态特征表示中，若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算，构建第二节点注意力系数集，实现两个模态间的信息的深层次特征融合与对齐。

构建第二节点注意力系数集的具体实施例可以参数构建第一节点注意力系数集的具体实施例，在此不再赘述。

S43：根据所述第一节点注意力系数集、第二节点注意力系数集以及预设的注意力矩阵的对角线元素值，分别构建所述第一邻接矩阵以及第二邻接矩阵。

在本实施例中，识别设备根据所述第一节点注意力系数集、第二节点注意力系数集以及预设的注意力矩阵的对角线元素值，分别构建所述第一邻接矩阵以及第二邻接矩阵。

具体地，识别设备将所述第一节点注意力系数集中的若干个文本节点与文本节点之间的注意力系数、若干个文本节点与图像节点之间的注意力系数以及若干个图像节点与文本节点之间进行注意力系数分别与预设的注意力矩阵的对角线元素值进行相乘，根据相乘的结果来构建所述第一邻接矩阵。

识别设备将所述第二节点注意力系数集中的若干个文本节点与文本节点之间的注意力系数、若干个文本节点与图像节点之间的注意力系数以及若干个图像节点与文本节点之间进行注意力系数分别与预设的注意力矩阵的对角线元素值进行相乘，根据相乘的结果来构建所述第二邻接矩阵。

S5：将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理，获得基于对象感知的文本特征表示，将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理，获得基于视觉感知的文本特征表示。

在本实施例中，识别设备将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理，获得基于对象感知的文本特征表示，将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理，获得基于视觉感知的文本特征表示。

所述第一跨模态交互通道包括第一多层图卷积网络，请参阅图4，图4为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图，包括步骤S51~S52，具体如下：

S51：将所述第一多模态特征表示作为所述第一多层图卷积网络的第一层的输入信息，根据所述第一邻接矩阵以及预设的第一更新算法，获得所述多层图卷积网络的最后一层输出的特征表示，作为更新后的第一多模态特征表示。

所述第一更新算法为：

式中，

为所述第一多层图卷积网络的第l+1层输出的第一多模态特征表示，

为所述第一邻接矩阵，

为所述第一多层图卷积网络的第l层对应的可训练权重参数矩阵；

在本实施例中，识别设备将所述第一多模态特征表示作为所述第一多层图卷积网络的第一层的输入信息，根据所述第一邻接矩阵以及预设的第一更新算法，获得所述多层图卷积网络的最后一层输出的特征表示，作为更新后的第一多模态特征表示。

S52：根据所述第一多模态特征表示以及更新后的第一多模态特征表示，将同一文本节点对应的文本特征向量进行拼接处理，获得第一文本增强特征表示，作为所述基于对象感知的文本特征表示。

在本实施例中，识别设备根据所述第一多模态特征表示以及更新后的第一多模态特征表示，将同一文本节点对应的文本特征向量进行拼接处理，获得第一文本增强特征表示，作为所述基于对象感知的文本特征表示。

所述第二跨模态交互通道包括第二多层图卷积网络，请参阅图5，图5为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图，包括步骤S53~S54，具体如下：

S53：将所述第二多模态特征表示作为所述第二多层图卷积网络的第一层的输入信息，根据所述第二邻接矩阵以及预设的第二更新算法，获得所述第二多层图卷积网络的最后一层输出的特征表示，作为更新后的第二多模态特征表示。

所述第二更新算法为：

式中，

为所述第二多层图卷积网络的第l+1层输出的第二多模态特征表示，

为所述第二邻接矩阵，

为所述第二多层图卷积网络的第l层对应的可训练权重参数矩阵；

在本实施例中，识别设备将所述第二多模态特征表示作为所述第二多层图卷积网络的第一层的输入信息，根据所述第二邻接矩阵以及预设的第二更新算法，获得所述第二多层图卷积网络的最后一层输出的特征表示，作为更新后的第二多模态特征表示。

S54：根据所述第二多模态特征表示以及更新后的第二多模态特征表示，将同一文本节点对应的文本特征向量进行拼接处理，获得第二文本增强特征表示，作为所述基于视觉感知的文本特征表示。

在本实施例中，识别设备根据所述第二多模态特征表示以及更新后的第二多模态特征表示，将同一文本节点对应的文本特征向量进行拼接处理，获得第二文本增强特征表示，作为所述基于视觉感知的文本特征表示。

在本实施例中，通过构建第一跨模态交互通道以及第二跨模态交互通道的双通道结构，来模拟人类大脑处理视觉的“背侧通路”以及“腹侧通路”，能够更有效地利用不同类型的图像信息，即对象信息以及视觉信息。

S6：将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别，获得实体识别结果。

在本实施例中，将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别，获得实体识别结果，其中，所述实体识别结果包括实体判断结果以及实体类型结果。

请参阅图5，图5为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S6的流程示意图，包括步骤S61~S64，具体如下：

S61：构建所述基于对象感知的文本特征表示对应的第一标签表示以及第一标签可能性表示，以及构建所述基于视觉感知的文本特征表示对应的第二标签表示以及第二标签可能性表示。

在本实施例中，识别设备对所述基于对象感知的文本特征表示中若干个文本节点进行标签标注处理，构建第一标签表示，其中，所述第一标签表示包括若干个文本节点对应的第一标签向量。

识别设备对所述基于视觉感知的文本特征表示中若干个文本节点进行标签标注处理，构建第二标签表示，其中，所述第二标签表示包括若干个文本节点对应的第二标签向量。

标签向量表现为相应的文本节点的位置信息BIO，其中，B表示每个文本节点在命名实体中的开头位置，I表示每个文本节点在命名实体中的中间和/或结尾位置，O表示该文本节点不是命名实体。

识别设备对所述基于对象感知的文本特征表示中若干个文本节点进行标签可能性遍历处理，构建第一标签可能性表示，其中，所述第一标签可能性表示包括若干个文本节点对应的第一标签可能性向量。

识别设备对所述基于视觉感知的文本特征表示中若干个文本节点进行标签可能性遍历处理，构建第二标签可能性表示，其中，所述第二标签可能性表示包括若干个文本节点对应的第二标签可能性向量。

对于位置信息有BIO三类，而B、I类均有PER、LOC、ORG以及MISC四种类别信息，例如，实体词标注为 B只可能转换为B-PER（人名），B-LOC（地名），B-ORG（组织机构名），B-MISC（其他），标签可能性向量表现为相应的文本节点的位置信息对应的类别信息的可能性概率。

S62：根据所述基于对象感知的文本特征表示、第一标签表示、第一标签可能性表示以及预设的第一实体识别算法，获得实体判断结果。

所述第一实体识别算法为：

式中，

为所述实体判断结果，n为文本节点数目，i为文本节点的索引，z为所述第一标签表示，

为所述第一标签可能性表示，

表示第i个文本节点对应的第一标签向量

到第i+1个文本节点对应的第一标签向量

的转移概率分数，

表示第i个文本节点对应的第一标签可能性向量

到第i+1个文本节点对应的第一标签可能性向量

的转移概率分数，

以及

分别为所述实体识别模块的第一可训练权重参数矩阵、第二可训练权重参数矩阵，

为第i个文本节点对应的基于对象感知的文本特征向量。

在本实施例中，识别设备根据所述基于对象感知的文本特征表示、第一标签表示、第一标签可能性表示以及预设的第一实体识别算法，获得实体判断结果。

S63：获取概率转换矩阵，根据所述若干个文本节点对应的基于对象感知的文本特征向量、基于视觉感知的文本特征向量、概率转换矩阵以及预设的发射分数计算算法，获得若干个文本节点对应的发射分数。

所述预设的概率转换矩阵

表示命名实体的位置信息到类别信息的转换概率。

在本实施例中，识别设备获取概率转换矩阵，根据所述若干个文本节点对应的基于对象感知的文本特征向量、基于视觉感知的文本特征向量、概率转换矩阵以及预设的发射分数计算算法，获得若干个文本节点对应的发射分数，其中，所述发射分数包括第一发射分数以及第二发射分数，所述发射分数计算算法为：

式中，

为第i个文本节点对应的发射分数，

时，

为第i个文本节点对应的第一发射分数，

时，

为第i个文本节点对应的第二发射分数，

为所述实体识别模块的第三可训练权重参数矩阵，

为第i个文本节点对应的概率转换关系向量，

为所述概率转换矩阵。

S64：根据所述第二标签表示、第二标签可能性表示、若干个文本节点对应的发射分数以及预设的第二实体识别算法，获得实体类型结果。

所述第二实体识别算法为：

式中，

为所述实体判断结果，y为所述第二标签表示，

为所述第二标签可能性表示，

表示第i个文本节点对应的第二标签向量

到第i+1个文本节点对应的第二标签向量

的转移概率分数，

表示第i个文本节点对应的第二标签可能性向量

到第i+1个文本节点对应的第二标签可能性向量

的转移概率分数。

在本实施例中，识别设备根据所述第二标签表示、第二标签可能性表示、若干个文本节点对应的发射分数以及预设的第二实体识别算法，获得实体类型结果。

在一个可选的实施例中，还包括步骤：训练所述实体识别模型，具体如下：

识别设备获取待训练的实体识别模型，以及用户输入的训练样本

，其中，N为批次数目，j表示为第j个批次，

为第j个批次对应的文本语句集，

为第j个批次对应的图像集，

为第j个批次对应的标签集，

为第j个批次对应的标签可能性集，其中，文本语句集包括若干个文本语句，图像集包括所述文本语句集中若干个文本语句对应的图像，所述标签集包括所述文本语句集中若干个文本语句中若干个文本节点对应的位置信息；标签可能性集包括所述文本语句集中若干个文本语句中若干个文本节点对应的类型信息；

将所述训练样本输入至所述待训练的实体识别模型，根据预设的损失函数，获得损失值，根据所述损失值，对所述待训练的实体识别模型进行训练，获得训练好的所述实体识别模型，其中，所述损失函数为：

式中，L为所述损失值，

为预设的超参数。

请参阅图7，图7为本申请一个实施例提供的基于双通道的多模态命名实体识别装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现基于双通道的多模态命名实体识别方法的全部或一部分，该装置7包括：

数据获取模块71，用于获取社交媒体的评论数据以及预设的实体识别模型，其中，所述评论数据包括文本语句和与所述文本语句对应的图像，所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块；

特征提取模块72，用于将所述评论数据输入至所述特征提取模块，获得所述文本语句对应的文本特征表示，以及所述图像对应的对象特征表示以及视觉特征表示；

特征拼接模块73，用于将所述文本特征表示以及对象特征表示进行拼接处理，获得第一多模态特征表示，将所述文本特征表示以及视觉特征表示进行拼接处理，获得第二多模态特征表示；

邻接矩阵构建模块74，用于采用跨模态感知掩码方法，构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵；

特征交互模块75，用于将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理，获得基于对象感知的文本特征表示，将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理，获得基于视觉感知的文本特征表示；

实体识别模块76，用于将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别，获得实体识别结果，其中，所述实体识别结果包括实体判断结果以及实体类型结果。

在本申请的实施例中，通过数据获取模块，获取社交媒体的评论数据以及预设的实体识别模型，其中，所述评论数据包括文本语句和与所述文本语句对应的图像，所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块；通过特征提取模块，将所述评论数据输入至所述特征提取模块，获得所述文本语句对应的文本特征表示，以及所述图像对应的对象特征表示以及视觉特征表示；通过特征拼接模块，将所述文本特征表示以及对象特征表示进行拼接处理，获得第一多模态特征表示，将所述文本特征表示以及视觉特征表示进行拼接处理，获得第二多模态特征表示；通过邻接矩阵构建模块，采用跨模态感知掩码方法，构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵；通过特征交互模块，将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理，获得基于对象感知的文本特征表示，将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理，获得基于视觉感知的文本特征表示；通过实体识别模块，将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别，获得实体识别结果，其中，所述实体识别结果包括实体判断结果以及实体类型结果。在多模态命名实体识别任务中引入对象特征表示以及视觉特征表示，与文本特征表示构建基于对象感知的文本特征表示以及基于视觉感知的文本特征表示，来滤除多模态融合后的噪声，并结合基于对象感知的文本特征表示以及基于视觉感知的文本特征表示进行实体识别，提高了命名实体识别的精度。

请参考图8，图8为本申请一个实施例提供的计算机设备的结构示意图，计算机设备8包括：处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83；计算机设备可以存储有多条指令，指令适用于由处理器81加载并执行上述图1至图6所述实施例的方法步骤，具体执行过程可以参见图1至图6所述实施例的具体说明，在此不进行赘述。

其中，处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器82内的指令、程序、代码集或指令集，以及调用存储器82内的数据，执行基于双通道的多模态命名实体识别装置7的各种功能和处理数据，可选的，处理器81可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble Logic Array，PLA）中的至少一个硬件形式来实现。处理器81可集成中央处理器81（Central Processing Unit，CPU）、图像处理器81（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器81中，单独通过一块芯片进行实现。

其中，存储器82可以包括随机存储器82（Random Access Memory，RAM），也可以包括只读存储器82（Read-Only Memory）。可选的，该存储器82包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤，具体执行过程可以参见所示图1至图6所述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于双通道的多模态命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于双通道的多模态命名实体识别方法，其特征在于：所述特征提取模块包括句子编码模块、目标检测模块以及视觉定位模块；

所述将所述评论数据输入至所述特征提取模块，获得所述文本语句对应的文本特征表示，以及所述图像对应的对象特征表示以及视觉特征表示，包括步骤：

将所述文本语句输入至所述句子编码模块中进行句子编码处理，获得所述文本特征表示，其中，所述文本特征表示包括若干个文本节点对应的文本特征向量；

将所述图像输入至所述目标检测模块中进行目标检测处理，获得若干个图像实体词，将所述若干个图像实体词输入至所述句子编码模块中进行句子编码处理，获得所述对象特征表示，其中，所述对象特征表示包括若干个图像节点对应的对象特征向量；

将所述图像输入至所述视觉定位模块中进行视觉定位处理，获得所述视觉特征表示，其中，所述视觉特征表示包括若干个图像节点对应的视觉特征向量。

3.根据权利要求2所述的基于双通道的多模态命名实体识别方法，其特征在于，所述采用跨模态感知掩码方法，构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵，包括步骤：

将所述第一多模态特征表示以及第二多模态特征表示分别作为输入参数，根据预设的注意力系数计算算法，对所述第一多模态特征表示中，若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算，构建第一节点注意力系数集；

对所述第二多模态特征表示中，若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算，构建第二节点注意力系数集；

所述预设的注意力系数计算算法为：

式中，

为注意力系数，softmax（）为归一化函数，M为输入参数，

为第一可训练权重参数矩阵，

为第二可训练权重参数矩阵，

为维度参数；

根据所述第一节点注意力系数集、第二节点注意力系数集以及预设的注意力矩阵的对角线元素值，分别构建所述第一邻接矩阵以及第二邻接矩阵。

4.根据权利要求2所述的基于双通道的多模态命名实体识别方法，其特征在于：所述第一跨模态交互通道包括第一多层图卷积网络；

所述将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理，获得基于对象感知的文本特征表示，包括步骤：

将所述第一多模态特征表示作为所述第一多层图卷积网络的第一层的输入信息，根据所述第一邻接矩阵以及预设的第一更新算法，获得所述多层图卷积网络的最后一层输出的特征表示，作为更新后的第一多模态特征表示，其中，所述第一更新算法为：

式中，

为所述第一邻接矩阵，

根据所述第一多模态特征表示以及更新后的第一多模态特征表示，将同一文本节点对应的文本特征向量进行拼接处理，获得第一文本增强特征表示，作为所述基于对象感知的文本特征表示。

5.根据权利要求2所述的基于双通道的多模态命名实体识别方法，其特征在于：所述第二跨模态交互通道包括第二多层图卷积网络；

所述将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理，获得基于视觉感知的文本特征表示，包括步骤：

将所述第二多模态特征表示作为所述第二多层图卷积网络的第一层的输入信息，根据所述第二邻接矩阵以及预设的第二更新算法，获得所述第二多层图卷积网络的最后一层输出的特征表示，作为更新后的第二多模态特征表示，其中，所述第二更新算法为：

式中，

为所述第二邻接矩阵，

根据所述第二多模态特征表示以及更新后的第二多模态特征表示，将同一文本节点对应的文本特征向量进行拼接处理，获得第二文本增强特征表示，作为所述基于视觉感知的文本特征表示。

6.根据权利要求5所述的基于双通道的多模态命名实体识别方法，其特征在于，所述将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别，获得实体识别结果，包括步骤：

构建所述基于对象感知的文本特征表示对应的第一标签表示以及第一标签可能性表示，以及构建所述基于视觉感知的文本特征表示对应的第二标签表示以及第二标签可能性表示，其中，所述第一标签表示包括若干个文本节点对应的第一标签向量，所述第一标签可能性表示包括若干个文本节点对应的第一标签可能性向量，所述第二标签表示包括若干个文本节点对应的第二标签向量，所述第二标签可能性表示包括若干个文本节点对应的第二标签可能性向量；

根据所述基于对象感知的文本特征表示、第一标签表示、第一标签可能性表示以及预设的第一实体识别算法，获得实体判断结果，其中，所述第一实体识别算法为：