CN116822515A

CN116822515A - 一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统

Info

Publication number: CN116822515A
Application number: CN202310743423.1A
Authority: CN
Inventors: 孙广路; 李秀娇; 刘昕雨; 逯永健
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-29
Anticipated expiration: 2043-06-21

Abstract

本发明公开了一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统，涉及计算机视觉和自然语言处理技术领域，以克服现有的获取局部视觉信息方法的缺陷。本发明的技术要点包括：设计实体跨度定位视觉区域模块，以根据文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征；设计多模态交互模块，以根据文本特征获取的文本隐藏表示以及视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征；设计条件随机场解码模块，以根据输入的多模态融合特征，输出文本中每个单词的实体标签。本发明同时利用全局和局部两个角度的图片信息来提升性能，减轻了不相关物体图像对多模态命名实体识别的负面影响。

Description

一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统

技术领域

本发明涉及计算机视觉和自然语言处理技术领域，具体涉及一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统。

背景技术

互联网应用迅速普及和发展，给人们的生活带来巨大便利的同时，也无时无刻地产生着海量的数据，其中非结构化自然语言文本数据呈指数增加。在这些海量的文本数据中包含着经济、政治、科技、文化等方面的重要信息，如何在海量的非结构化文本数据中将其所蕴含的重要信息高效、快速地抽取出来，对研究人员来说是一个值得研究的课题。信息抽取是一种从非结构化文本数据中抽取出特定类型的实体、关系和事件等信息的技术，它帮助人们将海量的自然语言文本数据进行分类、提取和重构。命名实体识别是信息提取领域的一项基本任务，它可以自动识别文本中的命名实体，并将其分类为预定义的类别，如人、组织和地点。命名实体识别已被广泛用于许多下游任务，如实体链接和关系提取。

随着社交媒体的快速发展，多模态深度学习被广泛用于从海量多媒体新闻和网络产品信息中进行结构化提取。其中，多模态命名实体识别旨在利用图像作为辅助信息，从文本中识别和分类命名实体。多模态命名实体识别可以借助视觉信息来增强语言表征，从而解决歧义的多义词，因此它可以获得比命名实体识别更好的结果。

尽管先前的工作已经取得了不错的结果，但依然存在着较大的挑战。先前大多数方法要么利用Attention选取局部的视觉区域，要么利用目标检测工具选取视觉对象，将其作为局部视觉信息来提高模型性能。分别存在以下问题：使用Attention的方法，目标是获得与文本相关的视觉区域，而不是与文本中的所有实体相关。此外，当使用注意力提取视觉区域时，注意力会被整个图像分散，而不是完全集中在与文本最相关的视觉区域；使用对象检测的方法，对象检测的识别类别范围有限，因此它可能无法获得数据集定义的类别中的所有对象。此外，通过对象检测获得的视觉区域不一定对应于文本所需要的。总之，这两种方法不仅获得了有价值的视觉信息，而且引入了无关的视觉信息。它们没有充分考虑文本需要哪些视觉区域，并且获取的视觉区域可能是多余的或不足的，导致将非实体识别为实体或错误地预测实体类别。

发明内容

为了解决上述技术缺陷之一，本发明提出一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统。

根据本发明的一方面，提供了一种基于实体跨度定位视觉区域的多模态命名实体识别方法，该方法包括以下步骤：

S1、对于输入的文本和图片，提取对应的文本特征和图片特征；

S2、设计实体跨度定位视觉区域模块：根据所述文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征；

S3、设计多模态交互模块：根据所述文本特征获取的文本隐藏表示以及所述视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征；

S4、设计条件随机场解码模块：根据输入的多模态融合特征，输出文本中每个单词的实体标签。

在其中一种可能的实现方式中，S1中提取文本特征和图片特征的具体过程包括：

将输入文本和图片表示为X′＝{x₁,x₂,...,x_i,...,x_n,x′₁,x′₂,...,x′_i,...,x′_n'}；其中x_i是文本的单词，x_i′是图片描述的单词，n是文本中单词的个数，n'是图片描述中单词的个数；将X′输入到文本预训练模型BERT中，输出文本特征C＝{c₀,c₁,c₂,...,c_i,...,c_n+1}，其中c_i代表x_i的特征；将图片输入到图片预训练模型Swin Transformer中，将最后一层的输出作为图片特征B＝{b₀,b₁,...,b_q}，其中b₀表示整个图像的特征，视觉区域特征{b₁,...,b_q}是由Swin Transformer划分的q个视觉区域特征。

在其中一种可能的实现方式中，S2中根据所述文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征的具体过程包括：

将文本特征C输入自注意力变换器以捕获文本的模态内关系，获得每个文本单词的文本隐藏表示T＝{t₀,t₁,...,t_i,...,t_n+1}，其中t_i表示文本单词x_i的隐藏表示；

将文本隐藏表示T输入条件随机场中，以预测文本的标签序列Z；

基于标签序列Z中的标签，从文本隐藏表示T中选择所有实体对应的实体特征E＝{e₁,e₂,...,e_i,...,e_m}，其中e_i代表第i个实体的特征，m代表输入句子中包含的所有实体的数量；

将视觉区域特征{b₁,...,b_q}作为Q，将实体特征E作为K，使用注意力机制计算每个视觉区域特征与每个实体特征之间的相关性分数，将每个视觉区域特征与所有实体特征的相关性分数求和，获得q个相关性分数和；

选出q个相关性分数和中最大值所对应的视觉区域特征b_c，并确定视觉区域特征b_c的多个邻居视觉区域特征；

将视觉区域特征b_c作为Q，将多个邻居视觉区域特征作为K，使用注意力机制计算视觉区域特征b_c与每个邻居视觉区域特征的相关性分数，选出相关性分数最大值所对应的邻居视觉区域特征b_l；

根据视觉区域特征b_c和其邻居视觉区域特征b_l确定与输入文本中所有实体最相关的视觉区域特征v。

在其中一种可能的实现方式中，S2中确定视觉区域特征b_c的一个或多个邻居视觉区域特征的过程中，将以下标c表示的视觉区域特征b_c所对应区域替换为以行、列坐标表示，并将通过行、列坐标表示计算获得的行距离和列距离小于α的区域所对应的视觉区域特征确定为视觉区域特征b_c的邻居视觉区域特征；其中α的范围为：

在其中一种可能的实现方式中，S2中根据视觉区域特征b_c和其邻居视觉区域特征b_l确定与输入文本中所有实体最相关的视觉区域特征v的具体过程包括：

在以行、列坐标表示的视觉区域特征b_c和其邻居视觉区域特征b_l所对应区域中，选择最小行数、最小列数作为视觉区域特征v的左上部视觉区域特征所对应区域的坐标表示t；使用α作为边长，将坐标表示t的行、列分别加α，得到视觉区域特征v的右下部视觉区域特征所对应区域的坐标表示d；将左上部视觉区域特征所对应区域的坐标表示t和右下部视觉区域特征所对应区域的坐标表示d范围内的视觉区域特征取出，使用取出的视觉区域特征组成一个整体的视觉区域特征v。

在其中一种可能的实现方式中，S3中根据所述文本特征获取的文本隐藏表示以及所述视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征的具体过程包括：

堆叠两个跨模态变换器来执行多模态语义交互：首先将视觉区域特征v作为Q、文本隐藏表示T作为K和V，输入第一个跨模态变换器，输出获得浅层视觉感知的单词表示P；然后将文本隐藏表示T作为Q、浅层视觉感知的单词表示P作为K和V，输入第二个跨模态变换器，输出获得视觉感知的单词表示A；

将文本隐藏表示T作为Q、视觉区域特征v作为K和V，输入另一个跨模态变换器，输出获得单词感知的视觉表示R；

使用门函数g来获得最终的多模态融合特征H，计算过程如下：

H＝concat(A,g·R)

式中，σ表示sigmoid激活函数；W_a,W_q是权重矩阵；concat表示将向量A和g·R进行拼接。

在其中一种可能的实现方式中，S4中根据输入的多模态融合特征，输出文本中每个单词的实体标签的具体过程包括：

将多模态融合特征H输入到条件随机场中，输出文本中每个单词的实体标签序列y_o：

y_o＝argmax_y∈Yp(y|X)

式中，X表示文本序列，y表示文本序列所有预测标签序列Y中的一个标签序列，p(y|X)用于计算每个y是X的标签序列的概率值，argmax函数用于选出最大概率值所对应的标签序列作为最终的标签序列y_o。

根据本发明的另一方面，提供了一种基于实体跨度定位视觉区域的多模态命名实体识别系统，该系统包括：

特征提取模块，其配置成对于输入的文本和图片，提取对应的文本特征和图片特征；

实体跨度定位视觉区域模块，其配置成根据所述文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征；

多模态交互模块，其配置成根据所述文本特征获取的文本隐藏表示以及所述视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征；

条件随机场解码模块，其配置成根据输入的多模态融合特征，输出文本中每个单词的实体标签。

在其中一种可能的实现方式中，所述特征提取模块中提取文本特征和图片特征的具体过程包括：

将输入文本和图片表示为X′＝{x₁,x₂,...,x_i,...,x_n,x′₁,x′₂,...,x′_i,...,x′_n'}；其中x_i是文本的单词，x_i′是图片描述的单词，n是文本中单词的个数，n'是图片描述中单词的个数；将X′输入到文本预训练模型BERT中，输出文本特征C＝{c₀,c₁,c₂,...,c_i,...,c_n+1}，其中c_i代表x_i的特征；将图片输入到图片预训练模型Swin Transformer中，将最后一层的输出作为图片特征B＝{b₀,b₁,...,b_q}，其中b₀表示整个图像的特征，视觉区域特征{b₁,...,b_q}是由SwinTransformer划分的q个视觉区域特征；

所述实体跨度定位视觉区域模块中根据所述文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征的具体过程包括：

在其中一种可能的实现方式中，所述多模态交互模块中根据所述文本特征获取的文本隐藏表示以及所述视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征的具体过程包括：

H＝concat(A,g·R)

式中，σ表示sigmoid激活函数；W_a,W_q是权重矩阵；concat表示将向量A和g·R进行拼接；

所述条件随机场解码模块中根据输入的多模态融合特征，输出文本中每个单词的实体标签的具体过程包括：将多模态融合特征H输入到条件随机场中，输出文本中每个单词的实体标签序列y_o：

y_o＝argmax_y∈Yp(y|X)

本发明的有益技术效果是：

本发明提出一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统，对于输入的文本和图片，提取对应的文本特征和图片特征；设计实体跨度定位视觉区域模块，以根据文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征；设计多模态交互模块，以根据文本特征获取的文本隐藏表示以及视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征；设计条件随机场解码模块，以根据输入的多模态融合特征，输出文本中每个单词的实体标签。本发明在获取与文本中所有实体最相关的视觉区域特征的过程中同时利用全局和局部两个角度的图片信息来提升性能，其中，针对全局图像信息，设计了使用高语义密度的图片描述作为全局图像信息，将图片描述与文本同时输入预训练模型BERT，解决了命名实体和图像之间相关性弱及视觉信息的语义密度稀疏导致提升效果微弱的问题，得到了从图像中学习上下文信息之后的丰富的文本特征；针对局部图片信息，设计了实体跨度定位视觉区域模块，解决了现有的获取局部视觉信息方法的缺陷，减轻了不相关物体图像对多模态命名实体识别的负面影响。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明实施例所述的一种基于实体跨度定位视觉区域的多模态命名实体识别方法的流程示意图；

图2为本发明实施例所述的一种基于实体跨度定位视觉区域的多模态命名实体识别方法的架构图；

图3为本发明实施例所述的一种基于实体跨度定位视觉区域的多模态命名实体识别系统的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

本发明实施例提供了一种基于实体跨度定位视觉区域的多模态命名实体识别方法，如图1所示，该方法包括以下步骤：

为了获得与文本中所有实体相关性最高的视觉区域，本发明首先识别输入文本中的所有实体跨度，再利用实体跨度获取实体特征，并利用实体特征定位与这些实体最相关的视觉区域特征。除此之外，由于图片描述作为高语义密度的视觉信息，可以为文本提供更丰富的上下文信息，并且不会降低模型预测效果。因此，使用图片描述作为全局图像信息，并将其与文本信息同时输入到预训练模型BERT中，使文本从图片描述中学习到丰富的上下文知识。本发明同时利用全局和局部两个角度的图片信息来提升性能。

结合图2对本发明实施例进行详细说明。

在S1中，对于输入的文本和图片，提取对应的文本特征和图片特征；利用文本预训练模型BERT和图片预训练模型Swin Transformer(使用移位窗口的分层视觉变换器)分别提取文本特征和图片特征。

根据本发明实施例，1)提取文本特征：

将输入表示为X′＝{[CLS],x₁,x₂,...,x_n,[SEP],x′₁,x′₂,...,x′_n',[SEP]}；其中x_i是文本的单词，x_i′是图片描述的单词，n是文本中单词的个数，n'是图片描述中单词的个数，[CLS]和[SEP]是BERT的特殊标记，[CLS]用于放在输入文本的开始，[SEP]用于分隔文本和图片描述；将X′输入到文本预训练模型BERT中，输出文本特征C＝{c₀,c₁,c₂,...,c_n+1}，其中c_i代表x_i的特征，d代表单词特征的维度；

2)提取图片特征：

将图片的大小调整为a×a像素；将调整像素大小之后的图片输入到图片预训练模型Swin Transformer(使用移位窗口的分层视觉变换器)，将最后一层的输出作为图片特征B＝{b₀,b₁,...,b_q}，其中b₀表示整个图像的特征，视觉区域特征{b₁,...,b_q}是由SwinTransformer划分的q个图像区域特征，每个区域由D维向量表示。

在S2中，设计实体跨度定位视觉区域模块：根据文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征；实体跨度定位视觉区域模块由两个模块组成：实体跨度识别模块和视觉区域定位模块，首先通过实体跨度识别模块识别输入文本中的所有实体跨度，再通过视觉区域定位模块利用实体跨度获取实体特征，并利用实体特征定位与这些实体最相关的视觉区域特征。

根据本发明实施例，首先，将文本特征C输入自注意力变换器以捕获文本的模态内关系，并获得每个单词的文本隐藏表示T＝{t₀,t₁,...,t_n+1}，其中表示x_i的隐藏表示；

然后，定义跨度标签集Z'＝{B,I,O}，B表示一个实体的开始，I表示实体的内部，O表示没有实体；使用Z＝{z₁,...z_n}来表示标签序列，其中z_i∈Z'；将文本隐藏表示T送到条件随机场中，以预测文本的标签序列Z；

然后，基于标签序列Z中的标签从文本隐藏表示T中选择所有实体对应的特征E＝{e₁,e₂,...,e_m}，其中e_i代表第i个实体的特征，m代表输入句子中包含的所有实体的数量；

然后，将视觉区域特征{b₁,...,b_q}作为Q，将实体特征E＝{e₁,e₂,...,e_m}作为K，使用注意力机制计算每个视觉区域特征与每个实体特征之间的相关性分数计算公式如下：

其中，d_k是键向量K的维度；

然后，将每个视觉区域特征与所有实体特征的相关性分数求和，获得q个相关性分数和；比较每个视觉区域对应的该值，选出最大值所对应的视觉区域特征b_c，计算公式如下：

然后，根据b_c的索引c选出其邻居视觉区域特征，具体方法是：将以下标c表示的视觉区域特征b_c所对应区域替换为以行、列坐标表示，并将通过行、列坐标表示计算获得的行距离和列距离小于α的区域所对应的视觉区域特征确定为视觉区域特征b_c的邻居视觉区域特征；其中α的范围为：

然后，将视觉区域特征b_c作为Q，将每个邻居视觉区域特征作为K，使用注意力机制计算b_c与每个邻居视觉区域特征的相关性分数，选出最大相关性分数所对应的邻居视觉区域特征b_l；

最后，为了保持与大多数原始图像相同的比例，选择一个大小为α×α的矩形视觉区域特征v。首先，通过比较b_c和b_l的相对位置来获得v的左上区域特征b_t的坐标；然后，根据v的边长α确定v的右下区域的坐标。最后，根据左上角和右下角的坐标定位出视觉区域特征v。具体地，在以行、列坐标表示的视觉区域特征b_c和其邻居视觉区域特征b_l所对应区域中，选择最小行数、最小列数作为视觉区域特征v的左上部视觉区域特征所对应区域的坐标表示t；使用α作为边长，将坐标表示t的行、列分别加α，得到视觉区域特征v的右下部视觉区域特征所对应区域的坐标表示d；将左上部视觉区域特征所对应区域的坐标表示t和右下部视觉区域特征所对应区域的坐标表示d范围内的视觉区域特征取出，使用取出的视觉区域特征组成一个整体的视觉区域特征v。

在S3中，设计多模态交互模块：根据文本隐藏表示和视觉区域特征v，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征。

根据本发明实施例，首先，堆叠两个跨模态Transformer(变换器)来执行多模态语义交互，这两个跨模态Transformer层以相同的方式进行内部计算，不同之处在于Q,K和V的来源不同。在第一阶段，将视觉区域特征v作为Q、文本隐藏表示T作为K和V，通过第一个跨模态Transformer得到浅层视觉感知的单词表示P＝{p₀,p₁,...,p_n+1}，计算公式如下：

MA(v,T)＝W'[CA₁(v,T),...,CA_m(v,T)]^T

P'＝LN(v+MA(v,T))

P＝LN(P'+FFN(P'))

其中，CA_i是跨模态的第i个头，分别是Q、K和V的权重矩阵，是多头注意力MA的权重矩阵，LN和FFN分别代表层归一化和前馈网络；在第二阶段，将文本隐藏表示T作为Q、P作为K和V，通过第二个跨模态Transformer输出A＝{a₀,a₁,...,a_n+1}，将此输出作为图像感知的单词表示；

然后，将文本隐藏表示T作为Q、视觉区域特征v作为K和V，通过一个跨模态Transformer输出R＝(r₀,r₁,...,r_n+1)，将此输出作为单词感知的视觉表示；

然后，使用门函数g来获得最终的多模态融合特征H＝{h₀,h₁,...,h_n+1}，计算过程如下：

H＝concat(A,g·R)

其中，A是图像感知的单词表示，R是单词感知的视觉表示，是权重矩阵，σ代表元素sigmoid激活函数；concat表示将向量A和g·R进行拼接。

在S4中，设计条件随机场解码模块：根据输入的多模态融合特征，输出文本中每个单词的实体标签。

根据本发明实施例，将多模态融合特征H输入到条件随机场(Conditional RandomField，CRF)中，输出文本X中的每个单词的实体标签，计算过程如下：

其中S_i(y_i-1,y_i,X)和S_i(y′_i-1,y′_i,X)是预测标签序列y的综合得分；

在训练阶段，通过最大条件似然估计来最大化对数似然L(p(y|X))，计算过程如下：

在解码阶段，通过最大化预测标签序列的分数来输出最终实体标签序列y_o，计算过程如下：

y_o＝argmax_y∈Yp(y|X)

进一步对本发明提出的方法进行实验分析。

实验使用公开的MNER数据集Twitter-2017来评估方法的有效性。数据集由四种类型的实体组成：人物(PER)、地点(LOC)、组织(ORG)和其它(OTHER)，数据集中每个样本都由一对{文本，图像}组成。

使用精确率P(Precision)、召回率R(Recall)和F1值(F1-Score)来衡量命名实体识别任务的预测效果。在分类问题中，将测试集数据的实际命名实体标注与模型预测的命名实体标注进行对比，可得到四种情况：真正例(True Positive，TP)-将真实的实体预测正确的样本数；假反例(False Negative，FN)-将真实的实体预测为非实体的样本数；假正例(False Positive，FP)-将真实的非实体预测为实体的样本数；真反例(True Negative，TN)-将真实的非实体预测为非实体的样本数。由以上四种情况组成的混淆矩阵如表1所示。其中样本总数为TP+FN+FP+TN。

表1混淆矩阵

精确率是模型将真实的实体预测正确的样本数与模型预测出的所有实体数的比值，计算过程如下：

召回率是模型将真实的实体预测正确的样本数与数据集中实体数的比值，计算过程如下：

F1值可以权衡召回率和精确率之间的关系，是两者之间的调和平均，该值在较高时说明模型的总体效果更好，计算过程如下：

表2显示了在Twitter-2017数据集上单模态和多模态方法的总体结果。实验表明，本发明提出的模型与现有最好的模型相比，其综合评价指标F1值优于当前最好的模型。

表2在Twitter-2017上的结果

相比于现有的多模态命名实体识别方法，本发明解决了现有的获取局部视觉信息方法的缺陷，本发明可以获得与文本中所有实体相关性最高的视觉区域作为局部图片信息，并使用图片描述作为全局图片信息，同时利用全局和局部两个角度的图片信息来提升性能。本发明在多模态命名实体识别中取得的效果相比于传统方法更好。

本发明另一实施例提供了一种基于实体跨度定位视觉区域的多模态命名实体识别系统，如图3所示，该系统包括：

本实施例中，优选地，所述特征提取模块中提取文本特征和图片特征的具体过程包括：

本实施例中，优选地，所述实体跨度定位视觉区域模块中根据所述文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征的具体过程包括：

本实施例中，优选地，所述多模态交互模块中根据所述文本特征获取的文本隐藏表示以及所述视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征的具体过程包括：

H＝concat(A,g·R)

本实施例中，优选地，所述条件随机场解码模块中根据输入的多模态融合特征，输出文本中每个单词的实体标签的具体过程包括：将多模态融合特征H输入到条件随机场中，输出文本中每个单词的实体标签序列y_o：

y_o＝argmax_y∈Yp(y|X)

本发明提供的一种基于实体跨度定位视觉区域的多模态命名实体识别方法在电子设备中执行。电子设备可以是任意具有存储和计算能力的设备，其例如可以实现为服务器、工作站等，也可以实现为桌面计算机、笔记本计算机等个人配置的计算机，或者实现为手机、平板电脑、智能可穿戴设备、物联网设备等终端设备，但不限于此。

电子设备包括存储器、处理器以及存储在存储器中的计算机程序。总线用于在存储器和处理器之间进行通信。存储器可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。处理器可以是任何类型的处理，包括但不限于：微处理器、微控制器、数字信息处理器或者它们的任何组合。在电子设备启动运行时，处理器会从存储器中读取计算机程序的指令并执行基于实体跨度定位视觉区域的多模态命名实体识别方法。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，电子设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的基于实体跨度定位视觉区域的多模态命名实体识别方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的优选实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，系统实施例的在此所述的元素是如下系统的例子：该系统用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于实体跨度定位视觉区域的多模态命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于实体跨度定位视觉区域的多模态命名实体识别方法，其特征在于，S1中提取文本特征和图片特征的具体过程包括：

3.根据权利要求2所述的基于实体跨度定位视觉区域的多模态命名实体识别方法，其特征在于，S2中根据所述文本特征和图片特征，输出与输入文本中所有实体最相关的视觉区域特征的具体过程包括：

4.根据权利要求3所述的基于实体跨度定位视觉区域的多模态命名实体识别方法，其特征在于，S2中确定视觉区域特征b_c的一个或多个邻居视觉区域特征的过程中，将以下标c表示的视觉区域特征b_c所对应区域替换为以行、列坐标表示，并将通过行、列坐标表示计算获得的行距离和列距离小于α的区域所对应的视觉区域特征确定为视觉区域特征b_c的邻居视觉区域特征；其中α的范围为：

5.根据权利要求4所述的基于实体跨度定位视觉区域的多模态命名实体识别方法，其特征在于，S2中根据视觉区域特征b_c和其邻居视觉区域特征b_l确定与输入文本中所有实体最相关的视觉区域特征v的具体过程包括：

6.根据权利要求3-5中任一项所述的基于实体跨度定位视觉区域的多模态命名实体识别方法，其特征在于，S3中根据所述文本特征获取的文本隐藏表示以及所述视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征的具体过程包括：

H＝concat(A,g·R)

7.根据权利要求3-5中任一项所述的基于实体跨度定位视觉区域的多模态命名实体识别方法，其特征在于，S4中根据输入的多模态融合特征，输出文本中每个单词的实体标签的具体过程包括：

y_o＝argmax_y∈Yp(y|X)

8.一种基于实体跨度定位视觉区域的多模态命名实体识别系统，其特征在于，包括：

9.根据权利要求8所述的一种基于实体跨度定位视觉区域的多模态命名实体识别系统，其特征在于，所述特征提取模块中提取文本特征和图片特征的具体过程包括：

将输入文本和图片表示为X′＝{x₁,x₂,...,x_i,...,x_n,x′₁,x′₂,...,x′_i,...,x′_n'}；其中x_i是文本的单词，x_i′是图片描述的单词，n是文本中单词的个数，n'是图片描述中单词的个数；将X′输入到文本预训练模型BERT中，输出文本特征C＝{c₀,c₁,c₂,...,c_i,...,c_n+1}，其中c_i代表x_i的特征；将图片输入到图片预训练模型Swin Transformer中，将最后一层的输出作为图片特征B＝{b₀,b₁,...,b_q}，其中b₀表示整个图像的特征，视觉区域特征{b₁,...,b_q}是由Swin Transformer划分的q个视觉区域特征；

10.根据权利要求9所述的一种基于实体跨度定位视觉区域的多模态命名实体识别系统，其特征在于，所述多模态交互模块中根据所述文本特征获取的文本隐藏表示以及所述视觉区域特征，进行文本特征和视觉区域特征之间的跨模态语义交互，输出多模态融合特征的具体过程包括：

H＝concat(A,g·R)

y_o＝argmax_y∈Yp(y|X)