CN115659987A - 基于双通道的多模态命名实体识别方法、装置以及设备 - Google Patents

基于双通道的多模态命名实体识别方法、装置以及设备 Download PDF

Info

Publication number
CN115659987A
CN115659987A CN202211687997.3A CN202211687997A CN115659987A CN 115659987 A CN115659987 A CN 115659987A CN 202211687997 A CN202211687997 A CN 202211687997A CN 115659987 A CN115659987 A CN 115659987A
Authority
CN
China
Prior art keywords
text
representation
modal
feature representation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211687997.3A
Other languages
English (en)
Other versions
CN115659987B (zh
Inventor
张政轩
薛云
陈建颖
麦卫兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202211687997.3A priority Critical patent/CN115659987B/zh
Publication of CN115659987A publication Critical patent/CN115659987A/zh
Application granted granted Critical
Publication of CN115659987B publication Critical patent/CN115659987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及自然语言处理技术领域,特别涉及一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质,在多模态命名实体识别任务中引入对象特征表示以及视觉特征表示,与文本特征表示构建基于对象感知的文本特征表示以及基于视觉感知的文本特征表示,来滤除多模态融合后的噪声,并结合基于对象感知的文本特征表示以及基于视觉感知的文本特征表示进行实体识别,提高了命名实体识别的精度。

Description

基于双通道的多模态命名实体识别方法、装置以及设备
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质。
背景技术
近年来,人们通过社交网络分享日常生活和表达个人观点的情况持续增多。社交平台,如推特,是一个引人注目的来源,每天提供数亿个具有多模态功能的媒体数据。近年来的研究主要集中在利用深度学习的方法提取和分析海量图像和文本中的信息,其中包括多模态命名实体识别。与传统的命名实体识别不同,多模态命名实体识别还利用了图像信息来辅助文本进行命名实体(人名、地方名、组织名等)的判断,目前已成为命名实体识别的重要研究方向,并有效地应用于带有图文信息的多模态社交帖子的检测中。
在传统的多模态命名实体识别方法中,倾向于收集文本和图像两种模态的信息,然后将文本信息和图像信息拼接,整合到多模态命名实体识别神经网络模型中,来处理模态内部以及模态之间的关系。但是,这些传统方法给网络引入了大量的无关信息,导致多模态噪声大、命名实体识别精度低。
发明内容
基于此,本发明提供一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质,其具有降低噪声、提高命名实体识别精度的优点。该技术方法如下:
第一方面,本申请实施例提供了一种基于双通道的多模态命名实体识别方法,包括以下步骤:
获取社交媒体的评论数据以及预设的实体识别模型,其中,所述评论数据包括文本语句和与所述文本语句对应的图像,所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块;
将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示;
将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示;
采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵;
将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示;
将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,其中,所述实体识别结果包括实体判断结果以及实体类型结果。
第二方面,本申请实施例提供了一种基于双通道的多模态命名实体识别装置,包括:
数据获取模块,用于获取社交媒体的评论数据以及预设的实体识别模型,其中,所述评论数据包括文本语句和与所述文本语句对应的图像,所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块;
特征提取模块,用于将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示;
特征拼接模块,用于将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示;
邻接矩阵构建模块,用于采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵;
特征交互模块,用于将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示;
实体识别模块,用于将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,其中,所述实体识别结果包括实体判断结果以及实体类型结果。
第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述的基于双通道的多模态命名实体识别方法的步骤。
第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于双通道的多模态命名实体识别方法的步骤。
在本实施例中,提供一种基于双通道的多模态命名实体识别方法、装置、设备以及存储介质,在多模态命名实体识别任务中引入对象特征表示以及视觉特征表示,与文本特征表示构建基于对象感知的文本特征表示以及基于视觉感知的文本特征表示,来滤除多模态融合后的噪声,并结合基于对象感知的文本特征表示以及基于视觉感知的文本特征表示进行实体识别,提高了命名实体识别的精度。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本申请第一实施例提供的基于双通道的多模态命名实体识别方法的流程示意图;
图2为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S2的流程示意图;
图3为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S4的流程示意图;
图4为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图;
图5为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图;
图6为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S6的流程示意图;
图7为本申请一个实施例提供的基于双通道的多模态命名实体识别装置的结构示意图;
图8为本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述目标实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参阅图1,图1为本申请第一实施例提供的基于双通道的多模态命名实体识别方法的流程示意图,包括如下步骤:
S1:获取社交媒体的评论数据以及预设的实体识别模型。
本申请的基于双通道的多模态命名实体识别方法的执行主体为基于双通道的多模态命名实体识别方法的识别设备(以下简称识别设备)。
在一个可选的实施例中,识别设备可以是一台计算机设备,可以是服务器,或多台计算机设备联合而成的服务器机群。
在本实施例中,识别设备可以获取用户输入的社交媒体的评论数据,其中,所述评论数据包括文本语句和与所述文本语句对应的图像。
社交媒体是互联网上基于用户关系的内容生产和交换平台,主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。评论数据是社交媒体上的用户分享的意见、见解、经验和观点等等,以图片和文字等形式发布。
具体地,识别设备可以与所述社交媒体进行连接,获取社交媒体上发布的用户帖子,所述用户帖子包含文本语句和与所述文本语句对应的图像,其中,所述文本语句的表达式为:
Figure 658116DEST_PATH_IMAGE001
式中,S为所述文本语句,
Figure 939056DEST_PATH_IMAGE002
为第n个单词。
识别设备获取预设的实体识别模型,其中,所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块。
S2:将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示。
在本实施例中,识别设备将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示。
所述特征提取模块包括句子编码模块、目标检测模块以及视觉定位模块,请参阅图2,图2为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S2的流程示意图,包括步骤S21~S23,具体如下:
S21:将所述文本语句输入至所述句子编码模块中进行句子编码处理,获得所述文本特征表示。
所述文本特征表示包括若干个文本节点对应的文本特征向量。
所述句子编码模块采用BERT(Bidirectional Encoder Representation fromTransformers)词嵌入模型,用于将文本语句中若干个单词的向量转换为相应的隐藏层向量。
在本实施例中,识别设备将所述文本语句输入至所述句子编码模块中进行句子编码处理,获得所述文本特征表示。
具体地,分析设备将所述文本语句分别输入至预设的BERT词嵌入模型中,将文本语句中的每个单词映射到低维向量空间中,经过查询预训练好的BERT矩阵,获得BERT词嵌入模型输出的所述文本语句的若干个实体词的隐藏层向量,将每一个实体词的隐藏层向量作为一个文本节点对应的文本特征向量,并进行编码处理,获得所述文本特征表示,其中,所述文本特征表示为:
Figure 103362DEST_PATH_IMAGE003
式中,X为所述文本特征表示,
Figure 848464DEST_PATH_IMAGE004
为第i个文本节点对应的文本特征向量,
Figure 285262DEST_PATH_IMAGE005
为第n 个文本节点对应的文本特征向量。
S22:将所述图像输入至所述目标检测模块中进行目标检测处理,获得若干个图像实体词,将所述若干个图像实体词输入至所述句子编码模块中进行句子编码处理,获得所述对象特征表示。
所述对象特征表示包括若干个图像节点对应的对象特征向量。
所述目标检测模块为Mask RNN模型,所述Mask RNN模型是在Faster R-CNN的基础上添加了一个预测分割mask的分支,用于多目标检测,能确定图片中与实体有关的预定义对象。
在本实施例中,识别设备将所述图像输入至所述目标检测模块中进行目标检测处理,获得若干个图像实体词,将所述若干个图像实体词输入至所述句子编码模块中进行句子编码处理,获得所述对象特征表示。
具体地,识别设备将图像输入至Mask RCNN模型进行目标检测,获得m个图像实体词,若所述图像实体词的数目大于n个,只考虑前n个图像实体词,并将所述前n个图像实体词输入至BERT词嵌入模型中,获得BERT词嵌入模型输出的若干个图像实体词的隐藏层向量,将每一个图像实体词的隐藏层向量作为一个图像节点对应的对象特征向量,并进行编码处理,获得所述对象特征表示,其中,所述对象特征表示为:
Figure 53498DEST_PATH_IMAGE006
式中,O为所述文本特征表示,
Figure 968364DEST_PATH_IMAGE007
为第i个图像节点对应的对象特征向量,
Figure 833552DEST_PATH_IMAGE008
为第n个 图像节点对应的对象特征向量。
S23:将所述图像输入至所述视觉定位模块中进行视觉定位处理,获得所述视觉特征表示。
所述视觉特征表示包括若干个图像节点对应的视觉特征向量。
所述视觉定位模块是一个语言-视觉模型,包括图像分割模块以及卷积处理模块,其中,所述图像分割模块包括用于图像特征提取的Darknet53模型和FPN模型、用于语言特征提取的BERT模型,所述卷积处理模块为CNN模型。
在本实施例中,识别设备将所述图像输入至所述视觉定位模块中进行视觉定位处理,获得所述视觉特征表示。
具体地,识别设备通过预定义实体类型的四个通用词,例如人名、地名、组织名、其他),利用图像分割模块来检测每个名词短语的区域,然后单独分割为若干个名词短语对应的子图像,并将若干个子图像输入至卷积处理模块中,通过152层的ResNet卷积层,获得所述视觉特征表示,其中,所述视觉特征表示为:
Figure 441251DEST_PATH_IMAGE009
式中,V为所述文本特征表示,
Figure 195318DEST_PATH_IMAGE010
为第i个图像节点对应的视觉特征向量,
Figure 913875DEST_PATH_IMAGE011
为第n 个图像节点对应的视觉特征向量。
S3:将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示。
在本实施例中,识别设备将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示。
具体地,为了对文本节点和图像节点进行相似度的计算,需要将他们投影到维度相同的向量空间。因此,识别设备先利用全连接层,对所述文本特征表示中若干个文本节点对应的文本特征向量,所述对象特征表示中若干个图像节点对应的对象特征向量,以及所述视觉特征表示中若干个图像节点对应的视觉特征向量进行维度变换,并将维度变换处理后的所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将维度变换处理后的所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示。
S4:采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵。
基于拼接处理获得的第一多模态特征表示以及第二多模态特征表示中,因为图像节点可能会出现区域重复的情况,而导致图像节点对应的对象特征向量重复以及视觉特征向量重复,从而影响相关性的判断。
为了降低上述情况带来的负面影响,在本实施例中,识别设备采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵。
请参阅图3,图3为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S4的流程示意图,包括步骤S41~S43,具体如下:
S41:将所述第一多模态特征表示以及第二多模态特征表示分别作为输入参数,根据预设的注意力系数计算算法,对所述第一多模态特征表示中,若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算,构建第一节点注意力系数集。
S42:对所述第二多模态特征表示中,若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算,构建第二节点注意力系数集。
所述预设的注意力系数计算算法为:
Figure 633569DEST_PATH_IMAGE012
式中,
Figure 412170DEST_PATH_IMAGE013
为注意力系数,softmax()为归一化函数,M为输入参数,
Figure 154998DEST_PATH_IMAGE014
为第一可训练 权重参数矩阵,
Figure 677246DEST_PATH_IMAGE015
为第二可训练权重参数矩阵,
Figure 953244DEST_PATH_IMAGE016
为维度参数;
在本实施例中,识别设备根据所述第一多模态特征表示以及预设的注意力系数计算算法,对所述第一多模态特征表示中,若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算,构建第一节点注意力系数集,实现两个模态间的信息的深层次特征融合与对齐。
识别设备通过构建文本感知区的方式,对所述第一多模态特征表示中,每个文本节点对应的文本特征向量对其他若干个文本节点对应的文本特征向量进行注意力的计算(即选取一个目标文本节点作为Q,其他文本节点作为K),构建文本-文本连接,获得若干个文本节点与文本节点之间的注意力系数。
识别设备将每个文本节点对应的文本特征向量对若干个图像节点对应的对象特征向量进行注意力的计算(即选取一个目标文本节点作为Q,图像节点作为K),构建文本-图像连接,获得若干个文本节点与图像节点之间的注意力系数。
并且,识别设备通过构建图像感知区的方式,对所述第一多模态特征表示中,将每个图像节点对应的对象特征向量对若干个文本节点对应的文本特征向量进行注意力的计算(即选取一个目标图像节点作为Q,文本节点作为K),构建图像-文本连接,获得若干个图像节点与文本节点之间进行注意力系数。
识别设备根据所述第二多模态特征表示以及预设的注意力系数计算算法,对所述第二多模态特征表示中,若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算,构建第二节点注意力系数集,实现两个模态间的信息的深层次特征融合与对齐。
构建第二节点注意力系数集的具体实施例可以参数构建第一节点注意力系数集的具体实施例,在此不再赘述。
S43:根据所述第一节点注意力系数集、第二节点注意力系数集以及预设的注意力矩阵的对角线元素值,分别构建所述第一邻接矩阵以及第二邻接矩阵。
在本实施例中,识别设备根据所述第一节点注意力系数集、第二节点注意力系数集以及预设的注意力矩阵的对角线元素值,分别构建所述第一邻接矩阵以及第二邻接矩阵。
具体地,识别设备将所述第一节点注意力系数集中的若干个文本节点与文本节点之间的注意力系数、若干个文本节点与图像节点之间的注意力系数以及若干个图像节点与文本节点之间进行注意力系数分别与预设的注意力矩阵的对角线元素值进行相乘,根据相乘的结果来构建所述第一邻接矩阵。
识别设备将所述第二节点注意力系数集中的若干个文本节点与文本节点之间的注意力系数、若干个文本节点与图像节点之间的注意力系数以及若干个图像节点与文本节点之间进行注意力系数分别与预设的注意力矩阵的对角线元素值进行相乘,根据相乘的结果来构建所述第二邻接矩阵。
S5:将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示。
在本实施例中,识别设备将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示。
所述第一跨模态交互通道包括第一多层图卷积网络,请参阅图4,图4为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图,包括步骤S51~S52,具体如下:
S51:将所述第一多模态特征表示作为所述第一多层图卷积网络的第一层的输入信息,根据所述第一邻接矩阵以及预设的第一更新算法,获得所述多层图卷积网络的最后一层输出的特征表示,作为更新后的第一多模态特征表示。
所述第一更新算法为:
Figure 902746DEST_PATH_IMAGE017
式中,
Figure 929607DEST_PATH_IMAGE018
为所述第一多层图卷积网络的第l+1层输出的第一多模态特征表示,
Figure 255547DEST_PATH_IMAGE019
为所述第一邻接矩阵,
Figure 418675DEST_PATH_IMAGE020
为所述第一多层图卷积网络的第l+1层输出的第一多模态特征表 示,
Figure 539077DEST_PATH_IMAGE021
为所述第一多层图卷积网络的第l层对应的可训练权重参数矩阵;
在本实施例中,识别设备将所述第一多模态特征表示作为所述第一多层图卷积网络的第一层的输入信息,根据所述第一邻接矩阵以及预设的第一更新算法,获得所述多层图卷积网络的最后一层输出的特征表示,作为更新后的第一多模态特征表示。
S52:根据所述第一多模态特征表示以及更新后的第一多模态特征表示,将同一文本节点对应的文本特征向量进行拼接处理,获得第一文本增强特征表示,作为所述基于对象感知的文本特征表示。
在本实施例中,识别设备根据所述第一多模态特征表示以及更新后的第一多模态特征表示,将同一文本节点对应的文本特征向量进行拼接处理,获得第一文本增强特征表示,作为所述基于对象感知的文本特征表示。
所述第二跨模态交互通道包括第二多层图卷积网络,请参阅图5,图5为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S5的流程示意图,包括步骤S53~S54,具体如下:
S53:将所述第二多模态特征表示作为所述第二多层图卷积网络的第一层的输入信息,根据所述第二邻接矩阵以及预设的第二更新算法,获得所述第二多层图卷积网络的最后一层输出的特征表示,作为更新后的第二多模态特征表示。
所述第二更新算法为:
Figure 53235DEST_PATH_IMAGE022
式中,
Figure 415821DEST_PATH_IMAGE023
为所述第二多层图卷积网络的第l+1层输出的第二多模态特征表示,
Figure 433456DEST_PATH_IMAGE024
为所述第二邻接矩阵,
Figure 193601DEST_PATH_IMAGE025
为所述第二多层图卷积网络的第l+1层输出的第二多模态特征表 示,
Figure 929476DEST_PATH_IMAGE026
为所述第二多层图卷积网络的第l层对应的可训练权重参数矩阵;
在本实施例中,识别设备将所述第二多模态特征表示作为所述第二多层图卷积网络的第一层的输入信息,根据所述第二邻接矩阵以及预设的第二更新算法,获得所述第二多层图卷积网络的最后一层输出的特征表示,作为更新后的第二多模态特征表示。
S54:根据所述第二多模态特征表示以及更新后的第二多模态特征表示,将同一文本节点对应的文本特征向量进行拼接处理,获得第二文本增强特征表示,作为所述基于视觉感知的文本特征表示。
在本实施例中,识别设备根据所述第二多模态特征表示以及更新后的第二多模态特征表示,将同一文本节点对应的文本特征向量进行拼接处理,获得第二文本增强特征表示,作为所述基于视觉感知的文本特征表示。
在本实施例中,通过构建第一跨模态交互通道以及第二跨模态交互通道的双通道结构,来模拟人类大脑处理视觉的“背侧通路”以及“腹侧通路”,能够更有效地利用不同类型的图像信息,即对象信息以及视觉信息。
S6:将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果。
在本实施例中,将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,其中,所述实体识别结果包括实体判断结果以及实体类型结果。
请参阅图5,图5为本申请一个实施例提供的基于双通道的多模态命名实体识别方法中S6的流程示意图,包括步骤S61~S64,具体如下:
S61:构建所述基于对象感知的文本特征表示对应的第一标签表示以及第一标签可能性表示,以及构建所述基于视觉感知的文本特征表示对应的第二标签表示以及第二标签可能性表示。
在本实施例中,识别设备对所述基于对象感知的文本特征表示中若干个文本节点进行标签标注处理,构建第一标签表示,其中,所述第一标签表示包括若干个文本节点对应的第一标签向量。
识别设备对所述基于视觉感知的文本特征表示中若干个文本节点进行标签标注处理,构建第二标签表示,其中,所述第二标签表示包括若干个文本节点对应的第二标签向量。
标签向量表现为相应的文本节点的位置信息BIO,其中,B表示每个文本节点在命名实体中的开头位置,I表示每个文本节点在命名实体中的中间和/或结尾位置,O表示该文本节点不是命名实体。
识别设备对所述基于对象感知的文本特征表示中若干个文本节点进行标签可能性遍历处理,构建第一标签可能性表示,其中,所述第一标签可能性表示包括若干个文本节点对应的第一标签可能性向量。
识别设备对所述基于视觉感知的文本特征表示中若干个文本节点进行标签可能性遍历处理,构建第二标签可能性表示,其中,所述第二标签可能性表示包括若干个文本节点对应的第二标签可能性向量。
对于位置信息有BIO三类,而B、I类均有PER、LOC、ORG以及MISC四种类别信息,例如,实体词标注为 B只可能转换为B-PER(人名),B-LOC(地名),B-ORG(组织机构名),B-MISC(其他),标签可能性向量表现为相应的文本节点的位置信息对应的类别信息的可能性概率。
S62:根据所述基于对象感知的文本特征表示、第一标签表示、第一标签可能性表示以及预设的第一实体识别算法,获得实体判断结果。
所述第一实体识别算法为:
Figure 331639DEST_PATH_IMAGE027
式中,
Figure 469359DEST_PATH_IMAGE028
为所述实体判断结果,n为文本节点数目,i为文本节点的索引,z为所 述第一标签表示,
Figure 197144DEST_PATH_IMAGE029
为所述第一标签可能性表示,
Figure 653271DEST_PATH_IMAGE030
表示第i个文本节点对应的第一标签 向量
Figure 124703DEST_PATH_IMAGE031
到第i+1个文本节点对应的第一标签向量
Figure 116930DEST_PATH_IMAGE032
的转移概率分数,
Figure 15616DEST_PATH_IMAGE033
表示第i个文本 节点对应的第一标签可能性向量
Figure 726083DEST_PATH_IMAGE034
到第i+1个文本节点对应的第一标签可能性向量
Figure 470048DEST_PATH_IMAGE035
的 转移概率分数,
Figure 582360DEST_PATH_IMAGE036
以及
Figure 651948DEST_PATH_IMAGE037
分别为所述实体识别模块的第一可训练权重参数矩阵、第二可 训练权重参数矩阵,
Figure 82667DEST_PATH_IMAGE038
为第i个文本节点对应的基于对象感知的文本特征向量。
在本实施例中,识别设备根据所述基于对象感知的文本特征表示、第一标签表示、第一标签可能性表示以及预设的第一实体识别算法,获得实体判断结果。
S63:获取概率转换矩阵,根据所述若干个文本节点对应的基于对象感知的文本特征向量、基于视觉感知的文本特征向量、概率转换矩阵以及预设的发射分数计算算法,获得若干个文本节点对应的发射分数。
所述预设的概率转换矩阵
Figure 895902DEST_PATH_IMAGE039
表示命名实体的位置信息到类别信息的转换概率。
在本实施例中,识别设备获取概率转换矩阵,根据所述若干个文本节点对应的基于对象感知的文本特征向量、基于视觉感知的文本特征向量、概率转换矩阵以及预设的发射分数计算算法,获得若干个文本节点对应的发射分数,其中,所述发射分数包括第一发射分数以及第二发射分数,所述发射分数计算算法为:
Figure 862721DEST_PATH_IMAGE040
式中,
Figure 837630DEST_PATH_IMAGE041
为第i个文本节点对应的发射分数,
Figure 522689DEST_PATH_IMAGE042
时,
Figure 874036DEST_PATH_IMAGE043
为第i个文本节点对应 的第一发射分数,
Figure 898624DEST_PATH_IMAGE044
时,
Figure 841172DEST_PATH_IMAGE045
为第i个文本节点对应的第二发射分数,
Figure 246484DEST_PATH_IMAGE046
为所述实体识 别模块的第三可训练权重参数矩阵,
Figure 604784DEST_PATH_IMAGE047
为第i个文本节点对应的概率转换关系向量,
Figure 280616DEST_PATH_IMAGE048
为 所述概率转换矩阵。
S64:根据所述第二标签表示、第二标签可能性表示、若干个文本节点对应的发射分数以及预设的第二实体识别算法,获得实体类型结果。
所述第二实体识别算法为:
Figure 862907DEST_PATH_IMAGE049
式中,
Figure 256979DEST_PATH_IMAGE050
为所述实体判断结果,y为所述第二标签表示,
Figure 950129DEST_PATH_IMAGE051
为所述第二标签可 能性表示,
Figure 746046DEST_PATH_IMAGE052
表示第i个文本节点对应的第二标签向量
Figure 997774DEST_PATH_IMAGE053
到第i+1个文本节点对应的第 二标签向量
Figure 613563DEST_PATH_IMAGE054
的转移概率分数,
Figure 110403DEST_PATH_IMAGE055
表示第i个文本节点对应的第二标签可能性向量
Figure 760827DEST_PATH_IMAGE056
到第i+1个文本节点对应的第二标签可能性向量
Figure 950500DEST_PATH_IMAGE057
的转移概率分数。
在本实施例中,识别设备根据所述第二标签表示、第二标签可能性表示、若干个文本节点对应的发射分数以及预设的第二实体识别算法,获得实体类型结果。
在一个可选的实施例中,还包括步骤:训练所述实体识别模型,具体如下:
识别设备获取待训练的实体识别模型,以及用户输入的训练样本
Figure 319165DEST_PATH_IMAGE058
,其 中,N为批次数目,j表示为第j个批次,
Figure 354117DEST_PATH_IMAGE059
为第j个批次对应的文本语句集,
Figure 859048DEST_PATH_IMAGE060
为第j个批次对 应的图像集,
Figure 452578DEST_PATH_IMAGE061
为第j个批次对应的标签集,
Figure 42959DEST_PATH_IMAGE062
为第j个批次对应的标签可能性集,其中,文本 语句集包括若干个文本语句,图像集包括所述文本语句集中若干个文本语句对应的图像, 所述标签集包括所述文本语句集中若干个文本语句中若干个文本节点对应的位置信息;标 签可能性集包括所述文本语句集中若干个文本语句中若干个文本节点对应的类型信息;
将所述训练样本输入至所述待训练的实体识别模型,根据预设的损失函数,获得损失值,根据所述损失值,对所述待训练的实体识别模型进行训练,获得训练好的所述实体识别模型,其中,所述损失函数为:
Figure 881602DEST_PATH_IMAGE063
式中,L为所述损失值,
Figure 506618DEST_PATH_IMAGE064
为预设的超参数。
请参阅图7,图7为本申请一个实施例提供的基于双通道的多模态命名实体识别装置的结构示意图,该装置可以通过软件、硬件或两者的结合实现基于双通道的多模态命名实体识别方法的全部或一部分,该装置7包括:
数据获取模块71,用于获取社交媒体的评论数据以及预设的实体识别模型,其中,所述评论数据包括文本语句和与所述文本语句对应的图像,所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块;
特征提取模块72,用于将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示;
特征拼接模块73,用于将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示;
邻接矩阵构建模块74,用于采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵;
特征交互模块75,用于将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示;
实体识别模块76,用于将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,其中,所述实体识别结果包括实体判断结果以及实体类型结果。
在本申请的实施例中,通过数据获取模块,获取社交媒体的评论数据以及预设的实体识别模型,其中,所述评论数据包括文本语句和与所述文本语句对应的图像,所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块;通过特征提取模块,将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示;通过特征拼接模块,将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示;通过邻接矩阵构建模块,采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵;通过特征交互模块,将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示;通过实体识别模块,将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,其中,所述实体识别结果包括实体判断结果以及实体类型结果。在多模态命名实体识别任务中引入对象特征表示以及视觉特征表示,与文本特征表示构建基于对象感知的文本特征表示以及基于视觉感知的文本特征表示,来滤除多模态融合后的噪声,并结合基于对象感知的文本特征表示以及基于视觉感知的文本特征表示进行实体识别,提高了命名实体识别的精度。
请参考图8,图8为本申请一个实施例提供的计算机设备的结构示意图,计算机设备8包括:处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83;计算机设备可以存储有多条指令,指令适用于由处理器81加载并执行上述图1至图6所述实施例的方法步骤,具体执行过程可以参见图1至图6所述实施例的具体说明,在此不进行赘述。
其中,处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分,通过运行或执行存储在存储器82内的指令、程序、代码集或指令集,以及调用存储器82内的数据,执行基于双通道的多模态命名实体识别装置7的各种功能和处理数据,可选的,处理器81可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programble Logic Array,PLA)中的至少一个硬件形式来实现。处理器81可集成中央处理器81(Central Processing Unit,CPU)、图像处理器81(Graphics Processing Unit,GPU)和调制解调器等中的一个或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器81中,单独通过一块芯片进行实现。
其中,存储器82可以包括随机存储器82(Random Access Memory,RAM),也可以包括只读存储器82(Read-Only Memory)。可选的,该存储器82包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。
本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条指令,所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤,具体执行过程可以参见所示图1至图6所述实施例的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (9)

1.一种基于双通道的多模态命名实体识别方法,其特征在于,包括以下步骤:
获取社交媒体的评论数据以及预设的实体识别模型,其中,所述评论数据包括文本语句和与所述文本语句对应的图像,所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块;
将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示;
将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示;
采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵;
将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示;
将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,其中,所述实体识别结果包括实体判断结果以及实体类型结果。
2.根据权利要求1所述的基于双通道的多模态命名实体识别方法,其特征在于:所述特征提取模块包括句子编码模块、目标检测模块以及视觉定位模块;
所述将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示,包括步骤:
将所述文本语句输入至所述句子编码模块中进行句子编码处理,获得所述文本特征表示,其中,所述文本特征表示包括若干个文本节点对应的文本特征向量;
将所述图像输入至所述目标检测模块中进行目标检测处理,获得若干个图像实体词,将所述若干个图像实体词输入至所述句子编码模块中进行句子编码处理,获得所述对象特征表示,其中,所述对象特征表示包括若干个图像节点对应的对象特征向量;
将所述图像输入至所述视觉定位模块中进行视觉定位处理,获得所述视觉特征表示,其中,所述视觉特征表示包括若干个图像节点对应的视觉特征向量。
3.根据权利要求2所述的基于双通道的多模态命名实体识别方法,其特征在于,所述采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵,包括步骤:
将所述第一多模态特征表示以及第二多模态特征表示分别作为输入参数,根据预设的注意力系数计算算法,对所述第一多模态特征表示中,若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算,构建第一节点注意力系数集;
对所述第二多模态特征表示中,若干个文本节点与文本节点之间进行注意力系数计算、若干个文本节点与图像节点之间进行注意力系数计算以及若干个图像节点与文本节点之间进行注意力系数计算,构建第二节点注意力系数集;
所述预设的注意力系数计算算法为:
Figure 56900DEST_PATH_IMAGE001
式中,
Figure 177303DEST_PATH_IMAGE002
为注意力系数,softmax()为归一化函数,M为输入参数,
Figure 894723DEST_PATH_IMAGE003
为第一可训练权重 参数矩阵,
Figure 758774DEST_PATH_IMAGE004
为第二可训练权重参数矩阵,
Figure 776409DEST_PATH_IMAGE005
为维度参数;
根据所述第一节点注意力系数集、第二节点注意力系数集以及预设的注意力矩阵的对角线元素值,分别构建所述第一邻接矩阵以及第二邻接矩阵。
4.根据权利要求2所述的基于双通道的多模态命名实体识别方法,其特征在于:所述第一跨模态交互通道包括第一多层图卷积网络;
所述将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,包括步骤:
将所述第一多模态特征表示作为所述第一多层图卷积网络的第一层的输入信息,根据所述第一邻接矩阵以及预设的第一更新算法,获得所述多层图卷积网络的最后一层输出的特征表示,作为更新后的第一多模态特征表示,其中,所述第一更新算法为:
Figure 333292DEST_PATH_IMAGE006
式中,
Figure 69167DEST_PATH_IMAGE007
为所述第一多层图卷积网络的第l+1层输出的第一多模态特征表示,
Figure 235444DEST_PATH_IMAGE008
为所 述第一邻接矩阵,
Figure 107585DEST_PATH_IMAGE009
为所述第一多层图卷积网络的第l+1层输出的第一多模态特征表示,
Figure 100948DEST_PATH_IMAGE010
为所述第一多层图卷积网络的第l层对应的可训练权重参数矩阵;
根据所述第一多模态特征表示以及更新后的第一多模态特征表示,将同一文本节点对应的文本特征向量进行拼接处理,获得第一文本增强特征表示,作为所述基于对象感知的文本特征表示。
5.根据权利要求2所述的基于双通道的多模态命名实体识别方法,其特征在于:所述第二跨模态交互通道包括第二多层图卷积网络;
所述将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示,包括步骤:
将所述第二多模态特征表示作为所述第二多层图卷积网络的第一层的输入信息,根据所述第二邻接矩阵以及预设的第二更新算法,获得所述第二多层图卷积网络的最后一层输出的特征表示,作为更新后的第二多模态特征表示,其中,所述第二更新算法为:
Figure 324119DEST_PATH_IMAGE011
式中,
Figure 529973DEST_PATH_IMAGE012
为所述第二多层图卷积网络的第l+1层输出的第二多模态特征表示,
Figure 522200DEST_PATH_IMAGE013
为所 述第二邻接矩阵,
Figure 420885DEST_PATH_IMAGE014
为所述第二多层图卷积网络的第l+1层输出的第二多模态特征表示,
Figure 865773DEST_PATH_IMAGE015
为所述第二多层图卷积网络的第l层对应的可训练权重参数矩阵;
根据所述第二多模态特征表示以及更新后的第二多模态特征表示,将同一文本节点对应的文本特征向量进行拼接处理,获得第二文本增强特征表示,作为所述基于视觉感知的文本特征表示。
6.根据权利要求5所述的基于双通道的多模态命名实体识别方法,其特征在于,所述将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,包括步骤:
构建所述基于对象感知的文本特征表示对应的第一标签表示以及第一标签可能性表示,以及构建所述基于视觉感知的文本特征表示对应的第二标签表示以及第二标签可能性表示,其中,所述第一标签表示包括若干个文本节点对应的第一标签向量,所述第一标签可能性表示包括若干个文本节点对应的第一标签可能性向量,所述第二标签表示包括若干个文本节点对应的第二标签向量,所述第二标签可能性表示包括若干个文本节点对应的第二标签可能性向量;
根据所述基于对象感知的文本特征表示、第一标签表示、第一标签可能性表示以及预设的第一实体识别算法,获得实体判断结果,其中,所述第一实体识别算法为:
Figure 577115DEST_PATH_IMAGE016
式中,
Figure 689428DEST_PATH_IMAGE017
为所述实体判断结果,n为文本节点数目,i为文本节点的索引,z为所述第 一标签表示,
Figure 759015DEST_PATH_IMAGE018
为所述第一标签可能性表示,
Figure 956778DEST_PATH_IMAGE019
表示第i个文本节点对应的第一标签向量
Figure 504434DEST_PATH_IMAGE020
到第i+1个文本节点对应的第一标签向量
Figure 674515DEST_PATH_IMAGE021
的转移概率分数,
Figure 147960DEST_PATH_IMAGE022
表示第i个文本节点 对应的第一标签可能性向量
Figure 833019DEST_PATH_IMAGE023
到第i+1个文本节点对应的第一标签可能性向量
Figure 184366DEST_PATH_IMAGE024
的转移 概率分数,
Figure 5691DEST_PATH_IMAGE025
以及
Figure 417081DEST_PATH_IMAGE026
分别为所述实体识别模块的第一可训练权重参数矩阵、第二可训练 权重参数矩阵,
Figure 323857DEST_PATH_IMAGE027
为第i个文本节点对应的基于对象感知的文本特征向量;
获取概率转换矩阵,根据所述若干个文本节点对应的基于对象感知的文本特征向量、基于视觉感知的文本特征向量、概率转换矩阵以及预设的发射分数计算算法,获得若干个文本节点对应的发射分数,其中,所述发射分数包括第一发射分数以及第二发射分数,所述发射分数计算算法为:
Figure 213316DEST_PATH_IMAGE028
式中,
Figure 154727DEST_PATH_IMAGE029
为第i个文本节点对应的发射分数,
Figure 969974DEST_PATH_IMAGE030
时,
Figure 629625DEST_PATH_IMAGE031
为第i个文本节点对应的第一 发射分数,
Figure 322775DEST_PATH_IMAGE032
时,
Figure 118693DEST_PATH_IMAGE033
为第i个文本节点对应的第二发射分数,
Figure 871885DEST_PATH_IMAGE034
为所述实体识别模块 的第三可训练权重参数矩阵,
Figure 753253DEST_PATH_IMAGE035
为第i个文本节点对应的概率转换关系向量,
Figure 187777DEST_PATH_IMAGE036
为所述概 率转换矩阵;
根据所述第二标签表示、第二标签可能性表示、若干个文本节点对应的发射分数以及预设的第二实体识别算法,获得实体类型结果,其中,所述第二实体识别算法为:
Figure 336736DEST_PATH_IMAGE037
式中,
Figure 260830DEST_PATH_IMAGE038
为所述实体判断结果,y为所述第二标签表示,
Figure 629494DEST_PATH_IMAGE039
为所述第二标签可能性 表示,
Figure 664446DEST_PATH_IMAGE040
表示第i个文本节点对应的第二标签向量
Figure 169377DEST_PATH_IMAGE041
到第i+1个文本节点对应的第二标 签向量
Figure 529951DEST_PATH_IMAGE042
的转移概率分数,
Figure 385912DEST_PATH_IMAGE043
表示第i个文本节点对应的第二标签可能性向量
Figure 958976DEST_PATH_IMAGE044
到第i+1个文本节点对应的第二标签可能性向量
Figure 918465DEST_PATH_IMAGE045
的转移概率分数。
7.一种基于双通道的多模态命名实体识别装置,其特征在于,包括:
数据获取模块,用于获取社交媒体的评论数据以及预设的实体识别模型,其中,所述评论数据包括文本语句和与所述文本语句对应的图像,所述实体识别模型包括特征提取模块、第一跨模态交互通道、第二跨模态交互通道以及实体识别模块;
特征提取模块,用于将所述评论数据输入至所述特征提取模块,获得所述文本语句对应的文本特征表示,以及所述图像对应的对象特征表示以及视觉特征表示;
特征拼接模块,用于将所述文本特征表示以及对象特征表示进行拼接处理,获得第一多模态特征表示,将所述文本特征表示以及视觉特征表示进行拼接处理,获得第二多模态特征表示;
邻接矩阵构建模块,用于采用跨模态感知掩码方法,构建与所述第一多模态特征表示相关联的第一邻接矩阵以及与所述第二多模态特征表示相关联的第二邻接矩阵;
特征交互模块,用于将所述第一多模态特征表示以及第一邻接矩阵输入至所述第一跨模态交互通道中进行特征交互处理,获得基于对象感知的文本特征表示,将所述第二多模态特征表示以及第二邻接矩阵输入至所述第二跨模态交互通道中进行特征交互处理,获得基于视觉感知的文本特征表示;
实体识别模块,用于将所述基于对象感知的文本特征表示以及基于视觉感知的文本特征表示输入至所述实体识别模块中进行实体识别,获得实体识别结果,其中,所述实体识别结果包括实体判断结果以及实体类型结果。
8.一种计算机设备,其特征在于,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于双通道的多模态命名实体识别方法的步骤。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于双通道的多模态命名实体识别方法的步骤。
CN202211687997.3A 2022-12-28 2022-12-28 基于双通道的多模态命名实体识别方法、装置以及设备 Active CN115659987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211687997.3A CN115659987B (zh) 2022-12-28 2022-12-28 基于双通道的多模态命名实体识别方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211687997.3A CN115659987B (zh) 2022-12-28 2022-12-28 基于双通道的多模态命名实体识别方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN115659987A true CN115659987A (zh) 2023-01-31
CN115659987B CN115659987B (zh) 2023-03-21

Family

ID=85023517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211687997.3A Active CN115659987B (zh) 2022-12-28 2022-12-28 基于双通道的多模态命名实体识别方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN115659987B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484869A (zh) * 2023-06-16 2023-07-25 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062901A (zh) * 2018-08-14 2018-12-21 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
US20200251097A1 (en) * 2018-08-30 2020-08-06 Boe Technology Group Co., Ltd. Named entity recognition method, named entity recognition equipment and medium
JP2021021978A (ja) * 2019-07-24 2021-02-18 富士ゼロックス株式会社 情報処理装置及びプログラム
CN112733533A (zh) * 2020-12-31 2021-04-30 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
US20210232773A1 (en) * 2020-01-23 2021-07-29 Salesforce.Com, Inc. Unified Vision and Dialogue Transformer with BERT
CN113420557A (zh) * 2021-06-09 2021-09-21 山东师范大学 中文命名实体识别方法、系统、设备及存储介质
CN113435203A (zh) * 2021-08-30 2021-09-24 华南师范大学 多模态命名实体识别方法、装置以及电子设备
CN114491006A (zh) * 2022-01-28 2022-05-13 浙江同善人工智能技术有限公司 参考多模态信息的文本摘要生成方法、电子设备及介质
CN114626441A (zh) * 2022-02-23 2022-06-14 苏州大学 基于视觉对比注意力的隐式多模态匹配方法及系统
CN115455970A (zh) * 2022-09-13 2022-12-09 北方民族大学 一种多模态语义协同交互的图文联合命名实体识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062901A (zh) * 2018-08-14 2018-12-21 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置
US20200251097A1 (en) * 2018-08-30 2020-08-06 Boe Technology Group Co., Ltd. Named entity recognition method, named entity recognition equipment and medium
JP2021021978A (ja) * 2019-07-24 2021-02-18 富士ゼロックス株式会社 情報処理装置及びプログラム
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
US20210232773A1 (en) * 2020-01-23 2021-07-29 Salesforce.Com, Inc. Unified Vision and Dialogue Transformer with BERT
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN112733533A (zh) * 2020-12-31 2021-04-30 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN113420557A (zh) * 2021-06-09 2021-09-21 山东师范大学 中文命名实体识别方法、系统、设备及存储介质
CN113435203A (zh) * 2021-08-30 2021-09-24 华南师范大学 多模态命名实体识别方法、装置以及电子设备
CN114491006A (zh) * 2022-01-28 2022-05-13 浙江同善人工智能技术有限公司 参考多模态信息的文本摘要生成方法、电子设备及介质
CN114626441A (zh) * 2022-02-23 2022-06-14 苏州大学 基于视觉对比注意力的隐式多模态匹配方法及系统
CN115455970A (zh) * 2022-09-13 2022-12-09 北方民族大学 一种多模态语义协同交互的图文联合命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASGARI-CHENAGHLU MEYSAM 等: "A multimodal deep learning approach for named entity recognition from social media" *
冯超 等: "基于层次注意力机制和门机制的属性级别情感分析" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484869A (zh) * 2023-06-16 2023-07-25 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质
CN116484869B (zh) * 2023-06-16 2023-12-15 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN115659987B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
CN116402063B (zh) 多模态讽刺识别方法、装置、设备以及存储介质
US20230082605A1 (en) Visual dialog method and apparatus, method and apparatus for training visual dialog model, electronic device, and computer-readable storage medium
CN113641820A (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN112183747A (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
WO2023029502A1 (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN116089619B (zh) 情感分类方法、装置、设备以及存储介质
CN112100406B (zh) 数据处理方法、装置、设备以及介质
CN113704428B (zh) 智能问诊方法、装置、电子设备及存储介质
CN110598786B (zh) 神经网络的训练方法、语义分类方法、语义分类装置
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN116258145B (zh) 多模态命名实体识别方法、装置、设备以及存储介质
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN116151263B (zh) 多模态命名实体识别方法、装置、设备以及存储介质
CN115659987B (zh) 基于双通道的多模态命名实体识别方法、装置以及设备
CN117633516B (zh) 多模态嘲讽检测方法、装置、计算机设备以及存储介质
CN114708976A (zh) 辅助诊断技术的方法、装置、设备及存储介质
CN115906861B (zh) 基于交互方面信息融合的语句情感分析方法以及装置
CN115905518B (zh) 基于知识图谱的情感分类方法、装置、设备以及存储介质
CN115906863B (zh) 基于对比学习的情感分析方法、装置、设备以及存储介质
CN114547312B (zh) 基于常识知识图谱的情感分析方法、装置以及设备
CN115659951A (zh) 基于标签嵌入的语句情感分析方法、装置以及设备
CN115905524A (zh) 融合句法和语义信息的情感分析方法、装置以及设备
CN115618884A (zh) 基于多任务学习的言论分析方法、装置以及设备
CN116994695A (zh) 报告生成模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant