CN117574904A

CN117574904A - 基于对比学习和多模态语义交互的命名实体识别方法

Info

Publication number: CN117574904A
Application number: CN202311638025.XA
Authority: CN
Inventors: 马江涛; 乔亚琼; 王艳军; 晋文朵; 钱慎一; 张帆; 李祖贺; 马宇科; 程佳; 李霆; 李坤霖; 刘博�; 卫梦屹; 孙一帆
Original assignee: Songshan Laboratory; Zhengzhou University of Light Industry; North China University of Water Resources and Electric Power
Current assignee: Songshan Laboratory; Zhengzhou University of Light Industry; North China University of Water Resources and Electric Power
Priority date: 2023-12-02
Filing date: 2023-12-02
Publication date: 2024-02-20

Abstract

本发明提出了一种基于对比学习和多模态语义交互的命名实体识别方法，步骤为：使用MobileViT模型对文本‑图像对的图像进行图像特征提取得到图像表示；使用图像描述生成模型生成图像描述，使用ALBERT模型对文本和图像描述进行文本特征提取得到文本表示；通过对比学习在共享空间中对齐文本表示和图像表示；采用多头跨模态注意力通过图像描述来引导文本融合，给图像表示分配不同的权重进行文本引导的图像模态融合；拼接，到图像与文本的最终融合；将最终融合输入到CRF层使用条件随机场算法进行标签预测得到标签值。本发明实现了文本和图像之间语义信息的有效融合，同时抑制了多模态交互中的不完整或错误的语义信息，提高了预测的准确性。

Description

基于对比学习和多模态语义交互的命名实体识别方法

技术领域

本发明涉及实体识别的技术领域，尤其涉及一种基于对比学习和多模态语义交互的命名实体识别方法。

背景技术

随着社交媒体和互联网上信息传播的多样化，人们获取信息的方式已从传统的单一文本模式转向包括文本、图像、语音和视频在内的多模态方法。用户在社交媒体平台上分享的内容不仅包括文本，还有大量的图像信息。研究者发现，推文中的图像信息可以为文本提供更丰富的语义信息和上下文线索，从而提高命名实体识别的准确性。因此，大量的近期研究开始关注如何使用推文中的图像信息来提高NER模型的准确性，这种方法被称为多模态命名实体识别(MNER)。

MNER的主要目标是从多模态数据中识别和分类命名实体，如人名、地名、组织、日期、时间等。与传统的单模态命名实体识别相比，MNER的优势在于其能够整合来自多个来源的信息，从而提供更为全面和准确的识别结果。MNER能够更好地理解和解析互联网上的复杂信息，并在许多应用场景中发挥重要作用，如主题检测、多媒体搜索、多媒体关系提取以及多模态知识图谱。

MNER旨在利用文本和图像数据，增强命名实体识别的准确性和鲁棒性，从而解决完全依赖文本的方法的局性。它认识到当仅靠文本信息难以区分命名实体时，图像在提供有价值的上下文方面的重要性。传统的基于文本的NER方法经常难以准确确定实体引用，如图1所示，其中实体"Carell"可能指的是一个人或一只小狗。

但是，通过整合相关的图像，MNER可以更有效地识别正确的实体引用。在提供的例子图1的右侧中，包含的图像明确了"Carell"指的是一只狗。如果没有多模态信息，就有可能丧失有价值的内容，并且实体可能不会被正确识别，尤其是在涉及简短和不准确文本的情况下。

现有的工作已经展示了MNER利用多模态信息，特别是来自图像的信息，来增强对比传统基于文本方法的模糊实体的识别的成功。然而，MNER仍然面临两个主要的弱点：

(1)文本模态和图像模态具有不同的表达方式和结构，这使得直接并有效地比较和对齐它们变得具有挑战性。例如，如图2的(a)所示，文本中的实体"Leicester"应与黄色框标出的图像区域对齐，而实体"Gokhan Inler"应与蓝色框标出的图像区域对齐。但是，由于文本和图像在表示方式上的差异，直接比较它们的相似性以进行对齐变得具有挑战性。

(2)无关的视觉信息引入噪声，并干扰了文本和图像的语义融合。多模态数据中的所有视觉信息并不都与文本内容在语义上直接相关。例如，如图2(b)所示，文本中的实体"LeBron"属于目标实体类型，但与蓝框中高亮显示的汽车无关。然而，这辆车占据了图像的一半，为MNER任务引入了干扰和噪声。较小的黄色方框区域有助于将实体"LeBron"识别为PER类别，而与之无关的较大的蓝色方框区域为MNER任务引入了噪声。

命名实体识别(NER)在各种应用领域中都发挥着至关重要的作用。传统的NER任务主要关注文本数据，而多模态命名实体识别(MNER)利用多种数据来源，如图像和文本，进行实体识别和分类。然而，将视觉信息与文本信息对齐仍然是一个具有挑战性的问题。

传统的命名实体识别的目的是检测文本内容中的不同实体，如个人名字、地点和机构。这一领域已经被自然语言处理(NLP)社区广泛研究。根据NER的发展，传统的NER方法可以分为三类：基于规则和词典的方法、基于统计机器学习的方法和基于深度学习的方法。

对于基于规则和词典的NER方法，例如Liu等人提出了一种语义自适应的词典增强方法来解决中文NER模型中的噪声问题，并引入了基于置信度估计的标签区分结构来应对工业场景中的数据不足，从而提高模型性能。这些方法在特定的数据集上表现优异，因为它们有效地利用了语言或领域特定的知识。然而，挑战包括规则开发的高成本和将这些规则移植到其他数据集的困难。在基于统计机器学习的NER领域，Li等人提出了稀疏条件隐马尔科夫模型(Sparse-CHMM)来应对弱监督命名实体识别的挑战。通过训练一个标签模型来聚合来自多个噪声标注功能的注释，他们增强了表现良好的标注功能的权重并减少了表现不佳者的权重，从而在没有真实基准的情况下提高了模型性能。这种方法可以从大量标注数据中自动检测特征和模式，提供更大的适应性。然而，特征工程耗时且复杂，通常需要大量的数据支持。关于基于深度学习的NER方法，Haq等人提出了深度神经方法来自动学习特征，消除了手动特征工程，同时整合了卷积神经网络和词嵌入来处理乌尔都语NER系统中的低频和词汇表外的词。这种技术可以自主地识别数据中的复杂特征和结构，通常产生优越的结果。然而，它们需要大量的标注数据进行训练，模型的训练和推理都可能耗时。

近年来，神经网络技术的迅速进步显著推动了NER研究的进展。近年来，研究者在这一领域取得了重大创新。例如，Li等人提出了一种创新的模块化交互网络(MIN)模型，利用段落级洞察和词级关系配备了一种交互方法，这种模型促进了边界识别和类型预测之间的信息无缝共享，从而提高了NER任务的结果。Geng等人引入了一种新颖的方法，使用平面化的句子格式结合双向二维迭代过程，熟练地识别嵌套实体并理解它们的语义关系。Liu等人引入了一个训练模型，该模型利用了双向编码器来自变换器(BERT)的表示，结合双向长短时记忆网络(BiLSTM)和条件随机场(CRF)，用于从非结构化数据中提取特定实体类别。Bartolini等人提出了COSINER，这是一个用于NER的新颖的数据增强技术。与容易产生噪声的传统方法不同，COSINER利用上下文相似性进行实体提及替换，通过考虑实体通常出现的上下文，该方法使用现有的训练数据优化任务性能。

MNER研究的主要目标是通过利用图像信息来增强文本，将视觉和文本信息合并以提高实体识别性能。Esteves等人开创性地将视觉信息整合到MNER任务中，首次向研究社区提出了联合图像-文本处理的概念。在他们的引领下，Zhang等人提出了一种专门针对推文的自适应协同注意网络策略。与此同时，Lu和Moon等人开发了各自独特的MNER方法，他们的方法引入了一个通用的注意力模块，能够自动调整词嵌入、字符嵌入和视觉特征的权重。相比之下，Moon及其同事专注于设计一个视觉注意模型，旨在识别与文本内容密切相关的图像区域。

然而，这些初步的研究主要使用单个词汇捕获视觉注意力，无疑限制了视觉特征的更广泛应用。正如Alshad等人和Lu等人所强调的，由不相关的图像引入的噪声也增加了复杂性。为应对这些挑战，后续研究涌现了出来。例如，Asgari-Chenaghlu等人提出了一种集成字符、词和图像特征的深度学习方法。Sun等人进一步完善了RpBERT模型，强调了文本与图像之间关系的重要性。Yu等人的RIVA模型集中于理解不同模态之间的关系。与此同时，Liu等人和Tian等人分别提出了旨在最小化不相关图像的干扰并增强跨模态语义交互的策略。深入研究，尽管许多研究主要关注视觉与文本之间的粗粒度关系，但与文本实体的细粒度对齐的视觉元素通常被忽略。为了解决这一差距，Zheng、Wu和Zhang等人各自提供了他们的解决方案。此外，Chen等人探索了如何将额外的图像信息融入MNER。有趣的是，Jiang等人指出了传统MNER方法在处理视觉上下文和视觉偏见方面的缺陷，为了纠正这些问题，他们引入了一个多模态交互模块，并采用了统一的多模态变压器策略，通过利用文本中的实体跨度检测，他们的方法成功地减少了视觉偏见。

总的来说，MNER的性能已经得到了显著的提升。然而，当前的MNER仍然面临两个主要的挑战：首先，由不相关的图像信息造成的噪声干扰；其次，在多模态语义交互中丢失了有效的语义信息。

在近年来，对比学习在机器学习领域已经崭露头角，尤其在自监督学习领域得到了特别的关注和重视。例如，Zou等人介绍了MCCLK，这是一种为知识图谱推荐量身定做的多级交叉视图对比学习方法，通过结合三种不同的图形视角，试图深入提取图形的特征和结构洞察，并加强项目之间的语义连接。Qin等人提出了MCLRec，这是一个通过元学习优化的对比学习模型，融合了数据增强和自适应模型增强。这个模型旨在巧妙地利用数据增强中的有用特征，在元学习的大框架下，希望提高对比的质量和产生更丰富的视图。Sun等人提出了MixCL方法，这是一个对比学习技术，旨在使用混合对比目标增强LMs的知识方向，最小化对话中的欺骗性响应；此外，还研究了硬负面和模型产生的负面的抽样方法。Meng等人提出了MHCCL模型，这是一个为多变量时间序列量身定做的带有掩码的分层对比学习方法，为了解决传统对比技术中遇到的假负面问题，利用各种潜在分区的分层布局来提取语义洞察。

对比学习在许多领域都取得了显著的进展，这导致自然语言处理领域的研究者对其产生了浓厚的兴趣，希望通过这种方法获得更丰富和增强的文本特征表示。例如，Fang等人使用反向翻译来获得原始文本的增强正样本。Giorgi等人使用同一文档中的不同段落作为原始文本段的正样本。Wu等人使用了各种句子级的增强方法来促进噪声不变的句子级特征的学习。Ding等人优化了网络以捕获更精细的视觉特征，并采用对比学习方法来桥接文本和视觉信息。

发明内容

针对大多数现有多模态命名实体识别方法不能很好地对齐图像文本，并且无法有效融合文本与图像之间的语义信息，导致MNER准确率较低的技术问题，本发明提出一种基于对比学习和多模态语义交互的命名实体识别方法(CLMSI)，实现了文本和图像之间语义信息的有效融合，同时抑制了多模态交互中的不完整或错误的语义信息，提高了预测的准确性。

为了达到上述目的，本发明的技术方案是这样实现的：一种基于对比学习和多模态语义交互的命名实体识别方法，其步骤为：

步骤一、多模态特征提取：使用MobileViT模型对数据集中的文本-图像对的图像进行图像特征提取得到图像表示；使用图像描述生成模型对图像特征进行处理生成图像描述，使用ALBERT模型对文本-图像对中文本和图像描述进行文本特征提取得到文本表示；

步骤二、多模态对齐：通过对比学习在共享空间中对齐文本表示和图像表示；

步骤三、多模态语义交互与融合：采用多头跨模态注意力通过图像描述来引导文本融合，给图像表示分配不同的权重进行文本引导的图像模态融合；图像感知的文本表示和文本感知的视觉表示拼接，得到图像与文本的最终融合；

步骤四、标签预测：将图像与文本的最终融合输入到CRF层，使用条件随机场算法进行标签预测，得到标签值。

所述ALBERT模型引入了词嵌入矩阵因子化和跨层参数共享策略，利用多层双向Transformer编码器对输入序列进行编码；所述MobileViT模型是结合Transformers和卷积层的图像处理模型；图像描述生成模型是一个包含视觉注意力的编解码框架的描述生成模型。

所述MobileViT模型首先将输入的图像通过一个3×3标准卷积层提取图像中的局部特征，然后进行2×下采样将局部特征的尺寸缩小一半；使用五个MV2模块进行特征提取，其中步长为1的MV块用于保留更多的空间信息，步长为2的MV块执行2×下采样降低特征图的尺寸；获得的特征图被交替地送入MobileViT块和步长为2的MV2块；应用1×1标准卷积进行通道压缩，执行全局平均池化获得全局图像表示；

所述MobileViT模型的MV2模块包括两个1×1卷积核，在卷积步长设置为2时使用3×3卷积核进行深度可分卷积，当步长设置为1时引入了残差连接；MV2模块对输入数据进行下采样，然后使用卷积操作提取特征，最后上采样数据以保持输入维数；MV2模块的逆操作为：对输入数据进行上采样，然后进行深度可分卷积，最后下采样数据以保持输入维数；所述MobileViT模型的MViT模块包括基于卷积的局部特征提取模块、基于Transformer的全局特征提取模块和特征融合模块；

基于卷积的局部特征提取模块对输入的张量V∈R^H×W×C采用一个3×3和1×1的卷积层得到输出V_L∈R^H×W×d；H、W分别为图像的高、宽，C、d分别为输入、输出图像的通道数；基于Transformer的全局特征提取模块把局部特征V_L∈R^H×W×d切成N等份变成特征Vu∈R^P×N×d，其中，变量P＝hw，hw是每个切片的高和宽，特征Vu是Transformer的输入序列，经过Transformer得到输出特征V_G∈R^P×N×d；再把特征V_G重构成全局特征Vg∈R^H×W×d。

所述图像描述生成模型为长短时记忆网络，长短时记忆网络通过动态地选择图像特征提取句子内部单词之间的句法特征、单词位置编码信息、学习图像特征与句法特征、单词特征之间的映射关系，同时加入注意力机制赋予不同视觉区域不同的权重；

从图像特征提取中获得的视觉块的特征Vu输入长短时记忆网络，长短时记忆网络将图像信息逐字转换为自然语言；

所述文本-图像对中文本进行预处理后输入ALBERT模型，所述预处理包括：输入的文本包括句子S，句子S被分词，不存在的字符被替换为[UNK]，在句子S的开头插入令牌[CLS]，在句子S的结尾插入令牌[SEP]；将句子S的长度固定为n，如果输入的句子的长度大于n，将文本截断为长度n，如果句子的长度小于n，使用令牌[PAD]填充句子扩展到长度n；

给定句子S通过预处理处理获得句子的标记表示E＝[E0,E1,E2,…,En+1]，其中，Ei是通过对字符向量、片段向量和位置向量求和得到的。

所述对比学习的实现方法为：计算整体的文本表示Ts和图像特征的全局特征Vg之间的相似性，使用对比损失函数进行优化使得正样本的特征表示趋近，而负样本的特征表示相互远离，通过迭代训练使文本表示和图像表示更加一致。

所述步骤二的实现方法为：在一批文本-图像对中生成正样本和负样本；对于每个样本，采用两个不同的多层感知机分别应用在文本和图像上，得到投影后的文本表示和图像表示；通过最小化投影后的文本表示和图像表示的对比损失函数来最大化正样本的相似性并最小化负样本的相似性，将所有样本对应的两个损失函数进行相加得到跨模态对齐的最终损失函数，通过最小化最终损失函数使投影后的文本表示和图像表示更加一致

所述生成正样本和负样本的方法为：对于包含K个文本-图像对的文本图像表示(Ts,Vg)，正样本由来自同一文本-图像对的文本表示和图像表示组成，且正样本表示为负样本表示为/>其中，/>代表批次中第a对的文本表示，而/>代表第b对的图像表示；为每一文本-图像对构造K-1个负样本；

每一对样本分别应用具有隐藏层的多层感知机来处理文本表示/>和图像表示/>得到投射后的文本表示/>和投射后的图像表示/>

所述对比损失函数是图像到文本的对比损失函数和文本到图像的对比损失函数；在处理第i个正样本的图像到文本的对比损失函数时，确定正样本的图像嵌入与所有其他样本的文本嵌入之间的距离根据距离计算对比损失函数其中，τ是温度参数；

当为文本到图像计算对比损失函数时，对于第i个正样本，计算正样本的文本嵌入计算正样本的文本嵌入与所有样本的图像嵌入之间的距离：根据距离计算对比损失函数：/>

计算两个对比损失函数并进行加权求和得到最终损失函数：

其中，λ_m∈[0,1]是一个超参数。

所述步骤三的多模态语义交互与融合的实现方法为：根据对齐后的文本表示和图像表示，利用自注意力层分别获得图像描述隐藏层表示和图像隐藏层表示，通过多头跨模态注意力获得最终的图像感知文本表示，通过动态视觉门机制得到最终的文本感知视觉表示，将最终的图像感知文本表示和最终的文本感知视觉表示进行拼接得到隐藏层表示。

所述图像描述通过标准的自注意力层获得图像描述隐藏层表示矩阵O＝(o₀,o₁,o₂,···,o_n+1)；图像的局部特征通过标准的自注意力层获得图像隐藏层表示矩阵W＝(w₀,w₁,···,w_n+1)；文本输入ALBERT模型得到的输出后添加一个标准的自注意力层获得每个词的文本隐藏层表示R＝(r0,r1,…,rn+1)，其中，ri代表生成的文本隐藏层表示；其中，oi∈Rd为生成的图像描述隐藏层表示，wi∈Rd为生成的图像隐藏层表示；

所述多头跨模态注意力的实现方法为：使用图像描述隐藏层表示矩阵O作为查询，文本隐藏层表示R作为键和值，设置注意力头的数量为m；通过计算查询和键的内积来计算注意力值再除以一个标量项的平方根，应用softmax操作，然后与值执行加权求和，得到每个注意力头的跨模态注意力；将来自多个注意力头的跨模态注意力进行串联，并进行线性变换得到整个多头注意力机制表示；使用前馈网络和层归一化进行将图像描述隐藏层表示矩阵O和整个多头注意力机制表示堆叠获得感知文本表示P；再次应用跨模态注意力充分利用来自图像和描述的感知信息：图像隐藏层表示矩阵W用作查询，感知文本表示P用作键和值，经过前馈网络和层归一化堆叠的三个子层后，得到输出矩阵Z；引入了一个额外的跨模态注意力层，文本隐藏层表示R用作查询，输出矩阵Z用作键和值，生成最终的图像感知文本表示H；

对于给定的文本词，通过跨模态注意力为视觉块分配不同的注意力权重，感知文本表示P用作查询，而图像隐藏层表示矩阵W用作键和值，通过文本和视觉信息之间的交互计算注意力为每个词分配适当的权重，通过文本指导的视觉模态融合生成具有单词感知能力的视觉表示Q；

采用视觉门机制动态调整每个视觉块特征的贡献，得到最终的文本感知视觉表示G＝σ((W_h)^TH+(W_q)^TQ)；其中，W_h和W_q均是权重矩阵，σ代表逐元素的sigmoid激活函数；

将最终的图像感知文本表示H和最终的文本感知视觉表示G进行连接，获得隐藏层表示A。

将融合的隐藏层表示A输入CRF层，CRF层利用标签之间的依赖关系使用条件随机场算法获得预测标签的最优序列；CRF层使用句子及图像来预测y的概率：

其中，表示第j个标记的标签yi的发射分数，/>表示从标签y_j到标签y_j+1的转移分数，Z(A)为一个归一化项，通过对所有可能的预测y序列的发射和转移分数求和获得。

MNER任务的损失函数使用对数似然损失函数，对数似然损失函数测量给定的输入句子S和图像I时标签序列y的预测概率与真实标签序列y之间的差异，计算如下：

其中，P(y|S)表示给定句子S的条件下，标签序列y的概率；是对数似然函数；

最终的损失函数包括多模态对齐任务的损失函数和MNER任务的损失函数，即：

使用一个超参数α来调整损失函数中两个任务的权重。

与现有技术相比，本发明的有益效果：

提出了一个多模态语义交互和融合模块，通过图像描述过滤图像特征中的噪声，并以文本形式总结图像的语义信息，从而减少语义偏差并增强多模态融合；提出了一个基于对比学习的多模态对齐模块，将比学习的思想引入多模态对齐任务，来处理不同模态之间在表示形式上的语义差异和不一致，使语义相似的图像-文本表示更接近，而语义不相似的图像-文本表示更加远离。

为了缩小图像-文本模态之间的语义差距，使语义相似的图像-文本表示更接近，而语义不相似的表示进一步远离，将对比学习的思想应用到跨模态对齐任务中，提出了一种基于对比学习的跨模态对齐方法；为了更有效融合多模态信息，充分过滤图像特征引入的噪声，将图像描述作为额外特征以丰富多模态特征，通过以文本形式总结图像语义信息，减少图像信息的语义偏见。在Twitter-2015和Twitter-2017两个著名的MNER基准数据集上进行的大量实验表明了本发明提出方法的有效性，F1分数在两个数据集上分别达到了75.13％和86.56％，分别超过了现有最好方法0.28％和1.05％；进一步消融实验和案例分析也证明了本发明CLMSI的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为多模态命名实体识别示例图。

图2为MNER面临的两大主要弱点的示例图，其中，(a)为图像-文本对齐示例，(b)为噪声影响示例。

图3为本发明的流程图。

图4为本发明的ALBERT模型的结构图。

图5为本发明的MobileViT模型的特征提取流程图。

图6为本发明的图像描述生成模型的流程图。

图7为本发明在Twitter-2015和Twitter-2017数据集实体数量的对比图；其中，(a)为文本实体数量比较，(b)为图像实体数量对比。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图3所示，一种基于对比学习和多模态语义交互的命名实体识别方法(CLMSI)，为了弥合模态间的语义差距，本发明引入了对于多模态对齐的对比学习，对齐文本和图像的单一模态表示，这样语义相似的表示被拉近，而语义不相似的表示被推远；为了融合多模态表示，引入图像描述作为额外的特征来丰富多模态特征表示。图像描述有助于过滤由图像特征引入的噪声，并以文本形式总结图像的语义信息，从而加强多模态信息的融合并减少图像信息中的语义偏见。本发明采用对比学习有效地对齐图像和文本，使它们能够进行比较和融合，本发明所提出的模型为MNER的进一步进展提供了宝贵的见解。本发明尝试使用对比学习来调和文本和视觉模式之间的差异，以实现文本和图像的多模态对齐。本发明的具体实现步骤为：

步骤一、多模态特征提取：使用ALBERT模型进行文本特征提取得到文本表示I，使用MobileViT模型进行图像特征提取得到图像表示，使用一个包含视觉注意力的编解码框架的图像描述生成模型对图像特征进行处理生成图像描述，图像描述文本表示I组成文本表示。

MNER关注使用文本和图像作为输入来解决实体识别的问题。在这个任务中，得到一个句子S和其关联的图像I作为输入。MNER的目标是从句子S中提取一组实体，其中可以包括人、地点、组织等。通过结合文本和视觉信息，本发明的目标是准确地识别和提取这些实体。为了便于描述文本和视觉特征的提取和表示，将文本-图像对的数据集公式化为：

其中，I代表图像，S代表文本(输入的句子)，而N代表图像-文本对的数量。

对图像和文本执行多模态特征表示是MNER任务的基础。在多模态特征提取步骤中，本发明利用两种方法从不同的模态中提取特征，对于文本特征提取，使用ALBERT模型有效地从文本中捕获语义信息。对于图像特征提取，使用MobileViT模型能够从图像中提取视觉特征。

文本特征的提取对于MNER任务至关重要。使用一个轻量级模型而不牺牲性能可以帮助降低将算法模型部署到实际应用中的难度。因此，本发明采用ALBERT模型进行文本特征提取。ALBERT模型是BERT模型的轻量级版本，具有更少的参数并且性能优于BERT-large。为了减少参数数量并增强语义理解，ALBERT模型引入了词嵌入矩阵因子化和跨层参数共享策略。ALBERT模型利用多层双向Transformer编码器对输入序列进行编码。ALBERT模型的核心结构，包括输入层、编码层和输出层，如图4所示。图4中的每个Trm对应一个Transformer编码器。输入层输入序列E0、E1、E2、……、En+1，n为句子的长度，输出层输出T0,T1,T2,…,Tn+1。

由于文本数据中可能存在无关的特殊字符，需要对文本数据进行预处理。每个输入句子S都会被分词，任何不存在的字符都会被替换为[UNK]，在句子的开头插入令牌[CLS]，在句子的结尾插入令牌[SEP]，用于明确地标记句子的开始和结束，有助于模型理解句子的结构和语义。正式地，将修改后的输入句子表示为S＝[S0,S1,S2,…,Sn+1]，其中S0代表在开头插入的令牌[CLS]，Sn+1代表在结尾插入的令牌[SEP]。将输入文本长度固定为n，如果文本长度大于n，将文本截断为长度n，以降低模型的计算复杂度，提高训练的效率。如果文本长度小于n，使用令牌[PAD]填充文本，将文本扩展到长度n。给定句子S，通过处理每个令牌获得句子的标记表示E＝[E0,E1,E2,…,En+1]，其中，Ei是通过对字符向量、片段向量和位置向量求和得到的。字符向量代表令牌本身的语义信息，片段向量代表令牌所属的片段或句子的信息，位置向量代表令牌在句子中的位置信息。通过求这三个向量的和，获得了令牌的综合表示。然后，如公式(2)所示，句子S的标记表示E作为ALBERT编码层的输入：

T＝ALBERT(E) (2)

其中，T＝[T0,T1,T2,…,Tn+1]为ALBERT模型的输出向量，其中，为向量Ei生成的上下文感知表示，d是向量的维数。

此同时，对图像和图像描述特征进行特征提取，以获得它们各自的特征表示。本发明使用MobileViT模型进行图像特征提取。MobileViT模型是一个结合了Transformers和卷积层的图像处理模型，旨在利用Transformers的全局表现力和卷积层在图像特征提取任务中的效率。在参数数量方面，MobileViT模型在各种移动视觉任务中优于轻量级的CNN模型，与数据增强的CNN模型相比，还展示了更好的泛化能力。图5展示了MobileViT模型的结构，推理过程如下：首先将输入的图像通过一个3×3标准卷积层用于提取图像中的局部特征，然后进行2×下采样将特征图的尺寸缩小一半，有助于降低计算复杂度和增加模型的感受野，使其能够捕捉更广泛的上下文信息；接着，使用五个MV2模块进行特征提取，其中步长为1的MV块用于保留更多的空间信息，步长为2的MV块执行2×下采样进一步降低特征图的尺寸。获得的特征图被交替地送入MobileViT块和步长为2的MV2块在保留空间信息的同时逐渐减小特征图的尺寸，以捕捉多尺度的特征；随后，应用1×1标准卷积进行通道压缩；最后，执行全局平均池化以获得预测结果。

MobileViT模型的核心模块是MobileNetV2(MV2)模块和MobileViT(MViT)模块。如图5(A)所示，MV2模块包括两个1×1卷积核，用于改变输入特征的通道，并在卷积步长设置为2时使用一个3×3卷积核进行深度可分卷积。当步长设置为1时，为了防止由过大的输出特征引起的梯度爆炸和消失梯度等问题引入了残差连接，以允许参数在各层之间传播。首先对输入数据进行下采样以减少维数，然后使用卷积操作提取特征，最后上采样数据以保持输入维数的VGG和ResNet等模型不同，MV2模块使用逆操作：首先对输入数据进行上采样，然后进行深度可分卷积以提取特征，最后下采样数据以保持输入维数，从而大大减少了计算和参数开销。如图5(B)所示，MViT模块由三部分组成：基于卷积的局部特征提取模块、基于Transformer的全局特征提取模块和特征融合模块。

局部特征信息表示：对于输入的张量V∈R^H×W×C采用一个3×3和1×1的卷积层得到输出V_L∈R^H×W×d。H、W为图像的高、宽，C、d为输入、输出图像的通道。这一步可以将张量X的局部空间信息映射到特定的维度d中。局部特征指图像中的局部区域或局部细节。在MMNER中，通过MobileViT提取的局部特征表示可以捕获图像中的局部信息，例如实体的外观特征、形状等。这对于实体的局部上下文理解和识别具有重要作用。

全局特征信息表示：首先，把局部特征V_L∈R^H×W×d切成N等份变成特征Vu∈R^P×N×d，其中P＝hw，hw是每个切片的高和宽，特征Vu就是Transformer的输入序列，经过Transformer得到输出特征V_G∈R^P×N×d(与特征Vu尺寸保持一致)。因为维度的一致性，可以再把特征V_G重构成特征Vg∈R^H×W×d(与V_L尺寸保持一致)。全局特征涵盖整个图像的信息，能够提供更广泛的上下文。MobileViT模型提取的全局特征表示能够捕获图像中的整体语境，例如场景背景、整体结构等。在MMNER任务中，全局特征对于理解实体在整个图像中的位置和关系、以及实体之间的全局上下文非常重要。

为了增强图像和文本之间的语义融合，本发明引入图像描述作为图像和文本之间的过渡信息特征。图像描述被视为一种过滤图像特征引入的噪声并更好地总结图像语义的手段。本发明利用具有视觉注意力机制的图像描述生成模型，如图6所示，来生成图像描述。

从图像特征提取中获得的视觉块的特征Vu作为长短时记忆(LSTM)网络的输入，LSTM网络通过动态地选择图像特征提取句子内部单词之间的句法特征、单词位置编码信息、学习图像特征与句法特征、单词特征之间的映射关系，同时加入注意力机制赋予不同视觉区域以不同的权重，以此缓解视觉噪声干扰。将加权图像特征输入LSTM网络，将图像信息逐字转换为自然语言，输出目标为L＝[L₀,L₁,·····,L_n+1]，Li∈R^k，这里，L表示目标序列，由多个词组成，Li表示序列中的第i个词。每个词由一个k维向量表示，其中k表示词汇表的大小。词汇表的大小决定了向量的维度，描述句子的长度决定了目标序列的长度。此外，目标序列L被用作输入，并输入到ALBERT编码器中，得到C＝[C₀,C₁,C₂,…,_Cn+1]，ALBERT编码器是用于文本处理的神经网络模型，将输入序列转化为上下文感知表示。对于每个输入词Li，ALBERT编码器生成一个表示其上下文信息的向量Ci，并且这个向量的维度表示为d。图像描述特征提取有利于减少图像信息的语义偏差，使多模态信息融合更好。

步骤二、多模态对齐：通过对比学习在共享空间中对齐步骤一得到的文本表示和图像表示。

本发明提出了一种基于对比学习的跨模态对齐方法，将对比学习的思想引入到跨模态对齐任务中，旨在缩小图像-文本之间的语义差距形式，这确保了语义上相似的图像-文本表示更接近，而那些语义上不同的表示进一步远离。具体过程为：(1)从一批尺寸为N的文本-图像输入对中生成正样本和负样本；(2)对于每个样本，采用两个不同的MLP(多层感知机)分别应用在文本样本和图像样本上，得到投影后的文本表示和图像表示；(3)通过最小化两个对比损失函数来最大化正样本的相似性并最小化负样本的相似性，即图像到文本的对比损失和文本到图像的对比损失，最终本发明将批次中所有样例对应的两个损失函数进行相加得到跨模态对齐的最终损失函数，通过最小化最终损失函数，文本编码器和图像编码器的表示会更加一致。

多模态对齐放入目的是使用对比学习在表示空间中对齐它们，从而弥合文本和图像模态之间的差距。通过对比学习，本发明CLMSI模型学习文本和图像之间的相关性，实现对应的单模态表示的对齐。多模态对齐使语义相似的图像-文本表示更接近，而语义不相似的图像-文本表示更远，缩小图像-文本模态之间的语义差距，以实现更好的多模态对齐。

首先，计算整体文本的表示Ts和图像的全局表示Vg之间的相似性，目标是理解和测量两种不同模态之间信息的相关性。计算相似性可以使用多种方式，如余弦相似度或点积。其次，使用对比损失函数来驱动模态之间的对齐。从一个批次(batch)的输入对中生成正样例和负样例，对于每对图像-文本样本，计算它们特征表示之间的相似性。正样本(如与给定图像对应的文本描述)之间的距离应尽量小，而负样本(如与给定图像不对应的文本描述)之间的距离应尽量大。通过对比损失函数优化模型使得正样例的特征表示趋近，而负样例的特征表示相互远离。最后，通过迭代训练，模型学习如何使不同模态的特征表示更加一致。例如，目标是微调一个小狗的图像和与“Carell”相关的文本的表示，使它们的表示更接近，同时与不相关的表示远离。通过上述三个基本步骤，可以有效地使不同模态在表示空间中对齐，从而为后续的多模态融合和分析工作提供一个一致的基础。

在第一步中，如表1所示，基于提取的模态特征构造对比样本对。对于一个大小为K的批次，包含文本和图像输入对(Ts,Vg)，具体地说，代表批次中第a对的文本表示，而/>代表第b对的图像表示。在构建训练样本时，定义了正样本和负样本。正样本由来自同一输入对的文本和图像表示组成，表示为/>对于每一对，其文本和图像表示被用作正样本，允许模型学习如何使同一输入对的表示更相似。负样本表示为/>是通过将一对的文本表示与其他对的图像表示组合，或反之，为每一对构造K-1个负样本。这种设计使得模型学习如何区分不同输入对的表示。虽然在正样本中可能存在少数不匹配的对，但大量的负样本在对比学习过程中起到了主导作用及其有效性。根据文献的观察，负样本的数量在对比学习的有效性中起着关键作用，与其性能正相关。

表1对比学习正样本和负样本的生成

在第二步中，对于每一对样本分别独立地应用两个具有隐藏层的多层感知器来处理文本表示/>和图像表示/>从而得到投射后的文本表示/>和投射后的图像表示/> 这些多层感知器由多个层组成，其中一个隐藏层有助于将输入表示转化为维数为d的公共投射空间。

在第三步中，本发明的目标是通过最小化两个对比损失函数来增强正样本之间的相似性并减少负样本之间的相似性。这两个对比损失函数是图像到文本的对比损失函数和文本到图像的对比损失函数。在处理批次中的第i个正样本的图像到文本的对比损失函数时，首先确定该正样本的图像嵌入与所有其他样本的文本嵌入之间的距离，这可以通过计算它们的相似性或距离测量来完成。然后，根据这些距离计算对比损失函数，如公式(3)和公式(4)所示：

其中，τ是温度参数，它是一个超参数。

如公式(5)所示，当为文本到图像任务计算对比损失函数时，对于给定的第i个正样本，第一步是计算正样本的文本嵌入；接下来，计算正样本的文本嵌入与数据集中所有样本的图像嵌入之间的距离。这涉及将正样本的文本嵌入与每个图像样本的嵌入进行比较，以测量它们的相似性或不相似性，如公式(6)所示。通过最小化对比损失函数，可以使正样本的文本嵌入更接近其相应的图像嵌入，从而提高文本到图像任务的匹配性能。

最后，如公式(7)所示，计算两个对比损失值并将它们加权求和以得到最终的损失函数。通过最小化损失函数，使文本编码器和图像编码器的表示更加一致。

其中，λ_m∈[0,1]是一个超参数。通过最小化损失函数，文本编码器和图像编码器的表示将更加一致。

步骤三、多模态语义交互与融合：利用自注意力层分别获得图像描述隐藏层表示和图像隐藏层表示，通过多头跨模态注意力获得最终的图像感知文本表示，通过动态视觉门机制得到最终的文本感知视觉表示，将最终的图像感知文本表示和最终的文本感知视觉表示进行拼接得到隐藏层表示，实现跨模态语义融合。

本发明提出将图像描述作为附加特征来丰富多模态表示，通过将图像的语义信息转化为文本形式，消除图像信息的语义偏差可以有效地减少，并且可以更好地融合多模态信息。具体过程为：(1)使用包含视觉注意力的编解码框架的描述生成模型来生成图像描述；(2)为了利用关联图像来优化文本的表示，采用多头跨模态注意力策略通过图像描述来引导文本融合；(3)通过给视觉部分分配不同的关注权重，将每个单词与其密切相关的视觉块对齐，进行文本引导的图像模态融合；(4)图像感知的文本表示和文本感知的视觉表示后拼接，得到图像与文本的最终融合。在跨模态语义交互与融合中，本发明利用自注意力、跨模态注意力和门控机制等技术实现跨模态语义交互融合；这些机制协同工作，有效地捕获不同模态之间的语义相关性，并在模型中更好地融合多模态信息。

在从ALBERT模型获得的输出之后，添加一个标准的自注意力层，以获得每个词的文本隐藏层表示R＝(r0,r1,…,rn+1)，其中ri代表生成的文本隐藏层表示。对图像描述特征C和视觉块的局部特征V_L用标准的自注意力层，分别获得图像描述和图像的隐藏层表示，如公式(8)和公式(9)所示。

O＝(o₀,o₁,o₂,···,o_n+1) (8)

W＝(w_o,w₂,···,w_n+1) (9)

其中，oi∈Rd为生成的图像描述隐藏层表示，wi∈Rd为生成的图像隐藏层表示。

为了利用上下文图像信息改进文本表示，采用了多头跨模态注意力机制。首先，使用图像描述来指导文本融合过程，使用O作为查询，R作为键和值，并设置头的数量为m。多头跨模态注意力的第t个注意力头表示为At。注意力头通过计算查询和键的内积来计算注意力值，再除以一个标量项的平方根，应用softmax操作，然后与值执行加权求和。具体来说，如公式(10)所示，计算如下进行：

其中，A_t(O,R)是第t个注意力头的跨模态注意力。在这里，O和R分别代表查询和键值，它们都是在特定的维度空间中的向量。softmax是一个激活函数，用于将任何形状的实数向量转换成具有相同形状的实数向量，其元素取值范围在(0,1)之间并且总和为1。在这里，它被用于计算权重。d_k是键的维度，用于缩放点积的大小。在注意力机制中，通常将点积的结果除以以防止点积的结果过大导致梯度过小，影响模型的学习和优化。

整个多头注意力机制表示为MAH，将来自多个头的注意力结果进行串联，并应用一个线性变换。具体来说，如公式(11)所示，计算如下进行：

MAH(O,R)＝W₀[A₁(O,R),······,A_m(O,R)]^T (11)

其中，W_qi、W_ki和W_vi分别是查询、键和值的权重矩阵，这些权重矩阵是在模型训练过程中学习得到的，它们的维度为并且W₀是用于多头注意力中的线性变换的权重矩阵，其维度为/>在跨模态注意力层的输出后，使用前馈网络和层归一化进行堆叠，从而增加了3个额外的子层，以获得感知文本表示P＝(p₀,p₁,…,p_n+1)。具体来说，如公式(12)和公式(13)所示，计算如下进行：

/>

在这个过程中，FFN表示前馈网络，LN表示层归一化，是注意力输出与层归一化后的文本表示。通过利用图像描述来弥合文本和相关图像之间的语义差距，再次应用跨模态注意力，充分利用来自图像和描述的感知信息。其中，图像隐藏层表示矩阵W用作查询，感知文本表示P用作键和值，与文本和图像描述之间的融合方法相似，在堆叠三个子层之后，得到输出矩阵Z＝(z₁,z₂,…,z_n)。由于视觉表示被用作查询，生成的向量z_i对应于第i个图像隐藏层表示矩阵视觉块，而不是第i个输入字符。因此，引入了一个额外的跨模态注意力层，文本表示R用作查询，矩阵Z用作键和值。这个跨模态注意力层生成了最终的图像感知文本表示H＝(h0,h1,…,hn+1)。

为了通过结合文本和视觉信息生成具有词意识的视觉表示，首先使用跨模态注意力层来将每个词与其密切相关的视觉块对齐。这意味着对于给定的文本词，通过跨模态注意力为视觉块分配不同的注意力权重，突出与该词相关的视觉信息。这确保生成的视觉表示与文本的语义含义保持一致。在这种方法中，感知文本表示P用作查询，而图像隐藏层表示矩阵W用作键和值，查询指导注意力分配，而键和值用于构造视觉表示。通过文本和视觉信息之间的交互计算注意力，可以为每个词分配适当的权重，强调与该词相关的视觉信息。最后，通过文本指导的视觉模态融合生成了具有单词感知能力的视觉表示。这种表示可以表示为Q＝(q0,q1,…,qn+1)，其中，qi代表与第i个词对应的视觉表示。这种表示可用于涉及文本理解和视觉感知的任务，从而更好地整合文本和图像信息。

在相关图像中，与文本中某些词对应的某些视觉块可能没有直接的关联。同样地，文本中的某些词，如助词或数字，可能与视觉块的关联较少。因此，本发明采用了一个视觉门机制，以动态调整每个视觉块特征的贡献。具体来说，如公式(14)所示，计算如下进行：

g＝σ((W_h)^TH+(W_q)^TQ) (14)

其中，W_h和W_q均是权重矩阵，σ代表逐元素的sigmoid激活函数。基于动态视觉门机制得到最终的文本感知视觉表示为G＝(g0,g1,…,gn+1)。在获得最终的图像感知文本表示H和最终的文本感知视觉表示G之后，将H和G进行连接，以获得隐藏层表示A＝(a0,a1,…,an+1)，它代表了图像和文本的最终融合。利用文本和图像信息尽可能地进行交互，以提高命名实体识别的准确性。

步骤四、标签预测：将融合的隐藏层表示输入到CRF层，使用条件随机场算法进行标签预测，得到标签值。

最后一步是标签预测。本发明将融合的表示输入到一个CRF层，CRF层利用标签之间的依赖关系使用条件随机场(CRF)算法获得预测标签的最优序列。这使得CLMSI模型能够基于多模态信息和标签之间的关系做出准确的标签预测。

采用CRF解码器来执行NER任务并标记全局最优序列。最终的隐藏表示A被送入标准的CRF层，CRF层使用原始文本S及其相关图像I来预测y的概率。具体来说，如公式(15)和公式(16)所示，计算如下进行：

/>

在这个背景下，表示第j个标记的标签yi的发射分数，这表示考虑到标签yj时与第j个标记相关的特征的重要性。/>表示从标签yj到标签yj+1的转移分数，捕捉相邻标签之间的连续性和转移关系。Z(A)作为一个归一化项，通过对所有可能的预测y序列的发射和转移分数求和获得，确保分数符合概率分布的要求。为了训练这个模型，损失函数使用对数似然损失，对数似然损失测量了给定输入句子S和图像I时标签序列y的预测概率与真实标签序列y之间的差异，如公式(17)所示，计算如下进行：

其中，P(y|S)表示给定输入句子S的条件下，标签序列y的概率；是对数似然函数，它是模型训练过程中需要最大化的目标函数。

总之，本发明基于对比学习和多模态语义交互(CLMSI)的MNER模型包括基于对比学习的多模态对齐任务(MA)和一个有监督学习任务(MNER)。通过联合训练这两个任务来提高模型性能。如公式(18)所示，最终的损失函数由两部分组成：多模态对齐任务的损失函数和MNER任务的损失函数。

使用一个超参数λ(α)来调整损失函数中两个任务的权重，能够在训练过程中平衡两个任务的重要性。通过优化损失函数，可以有效地在多模态数据中识别命名实体。

本发明在两个开放访问的MNER数据集上测试了本发明提出的模型，并将其与其他几种策略进行了比较，将呈现七个子部分，涵盖数据集、评估指标、参数设置、基线方法、主要结果、消融实验和案例研究。

在MNER领域，通常使用Twitter-2015和Twitter-2017数据集。Twitter-2015数据集和Twitter-2017数据集是从Twitter社交媒体平台收集的。Twitter-2015和Twitter-2017数据集主要用于推文中的NER任务。数据集中的每条推文都注明了命名实体的边界和类别。通过结合来自多种模态(如文本和图像)的信息，这些数据集为研究者提供了丰富的资源，以探索多模态数据的特性和挑战，并提出更准确和稳健的方法。表2中，PER、LOC、ORG、MISC是指命名实体识别(NER)任务中常用的四个类别，用于标识文本中的不同类型的命名实体，其中PER表示人名(Person)，LOC表示地点(Location)，ORG表示组织名(Organization)，MISC表示其他杂项类别(Miscellaneous)。Train表示训练集(Trainset)，Dev表示验证集(Dev set)，Test表示测试集(Test set)。

表2MNER数据集Twitter-2015和Twitter-2017

在MNER领域，系统的性能通常使用三个指标来评估：精确度、召回率和F1分数。精确度是正确预测的正实体数量与预测的正实体总数的比率，而召回率是正确预测的正实体数量与实际正实体总数的比率。F1分数是一个综合指标，结合了精确度和召回率，提供了系统性能的整体度量。相关公式如下：

为了测试本发明的方法，在两个公开可用的数据集Twitter-2015和Twitter-2017上进行了实验，使用的是RTX 3090Ti GPU和PyTorch 1.8.1。对于文本特征处理，采用了预训练的"ALBERT"模型，并在训练过程中对其进行了微调。考虑到文本数据的输入限制，将最大句子长度设置为128。对于图像编码，选择了MobileViT模型，为了确保训练效率并考虑到内存限制，将批处理大小设置为8。在多头自注意力和多模态注意力方面，为了在训练效率和准确性之间取得平衡，经过调整，采用了12个头和768个隐藏单元。经过多次调整，为了在两个数据集的验证集上获得最佳结果，将学习率、丢弃率和平衡参数分别设置为5e-5、0.102和0.7，所有参数细节在表3中提供。

表3实验参数设置

基于本发明提出的用于MNER的对比学习和多模态语义交互(CLMSI)方法，引入了图像模态以增强性能。为了证明在实体识别中加入图像模态的方法相对于仅使用文本模态的方法的优越性，首先考虑了五种代表性的基于文本的NER方法进行比较：BiLSTM-CRF模型是一个经典的基线模型，在任务中结合了BiLSTM与CRF，为序列标注任务开启了一个新的篇章。CNN-BiLSTM-CRF模型整合了CNN、BiLSTM和CRF，从字符级特征和词嵌入中获得最佳的预测标签序列。HBiLSTM-CRF模型整合了LSTM用于特征提取，通过BiLSTM进行处理，并通过CRF获得最佳的预测标签序列。BERT-softmax模型在大量文本上进行预训练以学习词表示，并使用带有softmax层的BERT进行分类预测。BERT-CRF模型使用BERT预训练来获得词特征，并通过CRF层优化序列转换关系来增强性能。

此外，作为一种多模态方法，还考虑将本发明与几种MNER方法进行比较，以证明本发明可以实现更好的性能。以下是一些MNER方法：VG这个基于视觉注意力的MNER模型使用ResNet进行图像特征处理，使用BiLSTM和词嵌入处理文本，最后使用门控机制融合这些特征。UMT模型结合了VGGNet-16来提取图像特征和BiLSTM来获取词特征，使用注意力加权融合将它们整合起来，并采用门控机制和CRF层来优化文本序列转换。MT是UMT变体模型移除了辅助模块，但仍然在Transformer架构中使用文本和图像模态处理多模态数据。UAMNer模型是一个MNER模型，旨在解决社交媒体上潜在的图像-文本不匹配的噪声问题，并具有对不确定性的意识。通过双模态图融合，UMGF模型融合文本和视觉信息，并使用图注意力机制进行交互，有效地增强了MNER性能，解决了词汇歧义和噪声问题。

表4.TWITTER-15和TWITTER-17数据集的性能比较(％)

实验数据证实了本发明的优越性。如表2(4)所示，对于Twitter-2015数据集，本发明的精确度、召回率和F1分数分别为74.06％、76.28％和75.13％。对于Twitter-2017数据集，相应的值分别为87.32％、86.75％和86.56％。

在单一模态方法方面，预训练模型显然优于传统的神经网络。例如，BERT-CRF在Twitter-2017数据集上的表现优于HBiLSTM-CRF，精确度、召回率和F1分数分别提高了0.63％、5.41％和3.07％，突显了预训练模型在NER中的显著优势。使用CRF解码的BERT-CRF在性能方面优于使用softmax的BERT，突显了CRF层在NER任务中的作用。当比较单一模态和多模态方法时，多模态方法明显更好，进一步证实了在MNER中整合图像描述的优势。此外，本发明在性能上超越了诸如VG和UMT-BERT-CRF之类的模型，这些模型并未利用图像描述，这表明整合图像描述有助于改善MNER任务的性能。

为了提高本发明在Twitter-2015数据集上的性能，分析了数据集的内容并检查了两个数据集中实体的分布。通过比较文本和图像之间的实体分布的差异，可以反映出数据集中文本和图像之间的关联程度。本发明还手工抽样并统计分析了数据集中文本和图像之间的关联性，如图7所示，可以观察到数据集中文本实体和图像实体的分布之间存在差异。图像中的实体总数通常大于其对应文本中包含的命名实体的数量，这种差异也表明数据集中图像和文本之间存在不相关或弱相关的实例。

在比较数据集的内容时，发现Twitter-2015数据集、中与Twitter-2017相比，有更多的不相关或弱相关的图像-文本对。然而，对于本发明的所提方法，图像描述与图像本身之间存在更高的关联性。因此，在没有或弱相关的图像-文本对中，图像描述与对应的文本之间将存在更大的语义差距，这也意味着在处理过程中引入了不相关的噪声数据。基于这一分析，本发明的所提方法可以用于具有相关图像-文本对的MNER，而对于图像-文本关联性明显不足的情况仍需要进一步改进。

本发明提出了一个新颖的基于对比学习和多模态语义交互(CLMSI)的MNER模型，在Twitter-2015和Twitter-2017数据集上的实验结果表明，对比学习和图像描述的联合使用在本发明的模型中发挥着至关重要的作用，在本发明的模型中的联合效果大于它们各自的效果，从而使本发明的模型超越了最先进的模型。

为了检验本发明提出的CLMSI模型中不同组件的有效性，进行了消融实验以评估模型的基本元素，分别关闭ID模块、关闭MA模块、关闭MF模块，表示为“-ID”、“-MA”和“-MF”。根据表5中的数据发现，图像描述、跨模态对齐和跨模态融合在模型的整体性能上都显示出了显著的影响。当图像描述(ID)被移除时，模型在Twitter-2015数据集上的性能明显下降，F1分数下降了0.31％。在Twitter-2017数据集上，F1分数下降了1.41％，进一步验证了加入图像描述的重要性。当对比学习为基础的多模态对齐(MA)被移除时，F1分数在Twitter-2015数据集上下降了1.89％，在Twitter-2017数据集上下降了1.24％，这表明多模态对齐对于模型的性能是至关重要的。当多模态融合(MF)被移除时，模型的性能显著下降，在Twitter-2015数据集上的F1分数下降了2.15％，在Twitter-2017数据集上下降了2.60％，突显了其在模型中的不可或缺的作用。这进一步证实了多模态融合模块在整个模型中的重要性。

表5CLMSI框架的消融研究数据：

为了深入探究本发明CLMSI模型的有效性，选择了四组示例来展示其性能。如图6所示，BERT-CRF、UMGF和CLMSI在四个测试样本上的预测结果，×和分别√指出错误和正确的预测，命名实体及其对应的类型在文本中突出显示。每组示例都包括一个示例图像、示例文本以及来自三种不同方法的预测结果。为了更好地进行视觉比较，在预测结果中正确的预测后标记了一个√，错误的预测后标记了一个×。

表6案例分析对比表

表8中，第一组示例(a)展示了视觉表示中包含的信息可以帮助确定文本中提到的实体类型。在文本"Carell有一个漂亮的微笑"中，仅基于文本信息很难确定"Carell"的实体类型。如果只考虑文本信息，BERT-CRF模型错误地将实体"Carell"识别为PER。然而，像UMGF和CLMSI这样的多模态模型，通过发现文本和图像之间的关联，正确地将实体"Carell"识别为MISC。

第二组示例(b)展示了CLMSI可以更好地利用文本和图像之间的语义对应关系来提高实体识别的准确性。对于第一个实体"Milan"，它与地理位置"Milan"共享相同的英语单词，BERT-CRF模型错误地将其识别为地点(LOC)。然而，UMGF和CLMSI模型理解了文本和图像之间的语义对应关系，正确地将"Milan"识别为人名(PER)。对于第二个实体"DragonCollege"，BERT-CRF和UMGF模型都错误地将其分类为组织名称(ORG)，而CLMSI模型准确地将其识别为地名(LOC)。

第三组示例(c)展示了当处理文本和图像之间的语义不匹配时，CLMSI模型显示出了鲁棒性和噪声过滤能力。文本表达和一个冲浪场景的视觉描述缺乏语义对齐。视觉噪声导致UMGF模型错误地将"Sydney Opera House"识别为人名(PER)。然而，CLMSI模型在一定程度上具有过滤噪声的能力，正确地将"Sydney Opera House"识别为组织名称(ORG)。

第四组示例(d)突出了CLMSI模型的误识别问题。文本表达了"LeBron"进行公路旅行的想法，这在语义上对应于图像中站在汽车上张开双臂的人。因此，CLMSI认为文本和视觉信息高度相关。然而，图像中主要主题的突出导致了错误地将"Benz"识别为人名(PER)。这表明，在某些情况下，本发明CLMSI模型可能会过度关注图像中的主要主题，而忽视其他重要的上下文信息，导致误识别问题。

多模态信息的普遍存在已经成为各种社交媒体平台上的普遍现象。提高命名实体识别的准确性需要更好的多模态对齐和有效的多模态信息融合。因此，本发明提出了CLMSI模型，这是一个基于对比学习和多模态语义交互的新型命名实体识别模型，可以充分利用图像和文本信息进行多模态对齐和融合。

本发明将对比学习的思想应用到跨模态对齐任务中，以缩小图像-文本模式之间的语义差距，使得语义相似的图像-文本表示更接近，而语义不相似的表示则更远；使用图像描述作为附加特征来丰富多模态特征，并以文本形式总结图像的语义信息；充分过滤了图像特征引入的噪声，并减少了图像信息的语义偏见，更有效地整合多模态信息。

本发明CLMSI首先通过ALBERT模型获得每个词和整个文本的表示，并通过MobileVit模型获得图像的区域和全局表示。同时，CLMSI通过图像描述模型获得图像的文本表示。在多模态对齐中，使用对比学习来缩小表示空间中文本和图像模式之间的差距；CLMSI模型使用自注意、跨模态注意和门控机制来实现跨模态语义交互融合。这些机制共同工作，有效地捕捉不同模式之间的语义相关性，并在模型内部更好地融合多模态信息。最后，CLMSI模型将融合表示提供给CRF层，该层使用标签之间的依赖关系，使用条件随机场算法获得预测标签的最优序列。通过分析多模态数据和标签，本发明CLMSI模型可以准确预测物理标签。

本发明针对现有的NER研究中的噪声影响和文本与图像之间语义融合不足的问题，为了弥合模态之间的语义差距，提出了一种基于对比学习和多模态交互的命名实体识别方法，对比学习策略旨在优化文本和图像的模态表示，将语义相关的模态拉近，同时将语义不一致的模态拉远。为了丰富多模态特征表示与图像描述，并表达图像的语义信息，引入了一种结合多头跨模态注意力、多头自注意力和门机制的多模态协作交互方法，该方法实现了文本和图像之间语义信息的有效融合，同时抑制了多模态交互中的不完整或错误的语义信息。实验结果表明，本发明有助于提取文本和图像之间的共享语义信息，并在文本-图像关联度较高的数据上表现更佳。在未来的工作中，计划提高模型处理文本和图像中不相关数据的能力，以减少不相关数据噪声对模型的影响，从而获得一个更加鲁棒的NER模型，从而提高MNER的有效性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，其步骤为：

2.根据权利要求1所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，所述ALBERT模型引入了词嵌入矩阵因子化和跨层参数共享策略，利用多层双向Transformer编码器对输入序列进行编码；所述MobileViT模型是结合Transformers和卷积层的图像处理模型；图像描述生成模型是一个包含视觉注意力的编解码框架的描述生成模型。

3.根据权利要求2所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，所述MobileViT模型首先将输入的图像通过一个3×3标准卷积层提取图像中的局部特征，然后进行2×下采样将局部特征的尺寸缩小一半；使用五个MV2模块进行特征提取，其中步长为1的MV块用于保留更多的空间信息，步长为2的MV块执行2×下采样降低特征图的尺寸；获得的特征图被交替地送入MobileViT块和步长为2的MV2块；应用1×1标准卷积进行通道压缩，执行全局平均池化获得全局图像表示；

4.根据权利要求3所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，所述图像描述生成模型为长短时记忆网络，长短时记忆网络通过动态地选择图像特征提取句子内部单词之间的句法特征、单词位置编码信息、学习图像特征与句法特征、单词特征之间的映射关系，同时加入注意力机制赋予不同视觉区域不同的权重；

5.根据权利要求1-4中任意一项所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，所述对比学习的实现方法为：计算整体的文本表示Ts和图像特征的全局特征Vg之间的相似性，使用对比损失函数进行优化使得正样本的特征表示趋近，而负样本的特征表示相互远离，通过迭代训练使文本表示和图像表示更加一致；

所述步骤二的实现方法为：在一批文本-图像对中生成正样本和负样本；对于每个样本，采用两个不同的多层感知机分别应用在文本和图像上，得到投影后的文本表示和图像表示；通过最小化投影后的文本表示和图像表示的对比损失函数来最大化正样本的相似性并最小化负样本的相似性，将所有样本对应的两个损失函数进行相加得到跨模态对齐的最终损失函数，通过最小化最终损失函数使投影后的文本表示和图像表示一致。

6.根据权利要求5所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，所述生成正样本和负样本的方法为：对于包含K个文本-图像对的文本图像表示(Ts,Vg)，正样本由来自同一文本-图像对的文本表示和图像表示组成，且正样本表示为负样本表示为/>其中，/>代表批次中第a对的文本表示，而/>代表第b对的图像表示；为每一文本-图像对构造K-1个负样本；

计算两个对比损失函数并进行加权求和得到最终损失函数：

其中，λ_m∈[0,1]是一个超参数。

7.根据权利要求1-4、6中任意一项所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，所述步骤三的多模态语义交互与融合的实现方法为：根据对齐后的文本表示和图像表示，利用自注意力层分别获得图像描述隐藏层表示和图像隐藏层表示，通过多头跨模态注意力获得最终的图像感知文本表示，通过动态视觉门机制得到最终的文本感知视觉表示，将最终的图像感知文本表示和最终的文本感知视觉表示进行拼接得到隐藏层表示。

8.根据权利要求7所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，所述图像描述通过标准的自注意力层获得图像描述隐藏层表示矩阵O＝(o₀,o₁,o₂,···,o_n+1)；图像的局部特征通过标准的自注意力层获得图像隐藏层表示矩阵W＝(w₀,w₁,···,w_n+1)；文本输入ALBERT模型得到的输出后添加一个标准的自注意力层获得每个词的文本隐藏层表示R＝(r0,r1,…,rn+1)，其中，ri代表生成的文本隐藏层表示；其中，oi∈Rd为生成的图像描述隐藏层表示，wi∈Rd为生成的图像隐藏层表示；

9.根据权利要求8所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，将融合的隐藏层表示A输入CRF层，CRF层利用标签之间的依赖关系使用条件随机场算法获得预测标签的最优序列；CRF层使用句子及图像来预测y的概率：

10.根据权利要求9所述的基于对比学习和多模态语义交互的命名实体识别方法，其特征在于，MNER任务的损失函数使用对数似然损失函数，对数似然损失函数测量给定的输入句子S和图像I时标签序列y的预测概率与真实标签序列y之间的差异，计算如下：

使用一个超参数α来调整损失函数中两个任务的权重。