CN115545018A

CN115545018A - 一种多模态多粒度实体识别系统及实体识别方法

Info

Publication number: CN115545018A
Application number: CN202211263174.8A
Authority: CN
Inventors: 赵森栋; 蔡沐祯; 秦兵
Original assignee: Harbin Institute of Technology; People Co Ltd
Current assignee: Harbin Institute of Technology; Konami Sports Club Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-30
Anticipated expiration: 2042-10-14
Also published as: CN115545018B

Abstract

一种多模态多粒度实体识别系统及实体识别方法，本发明涉及实体识别系统及实体识别方法。本发明的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模，导致部分实体识别错误，实体识别准确率低的问题。系统包括：训练集获取模块用于获取训练集；实体识别模型构建模块用于构建实体识别模型；实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型；实体识别模型训练模块用于得到训练好的实体识别模型；预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中，输出标注序列，获得待测的匹配图片和文本中的实体。本发明用于新闻、医疗、军事、农业实体识别领域。

Description

一种多模态多粒度实体识别系统及实体识别方法

技术领域

本发明属于新闻、医疗、军事、农业实体识别领域，具体涉及多模态多粒度实体识别系统及实体识别方法。

背景技术

现实世界中的信息一般以多模态的形式出现，而由于技术问题，多模态研究进展缓慢。近年来由于单模态研究的进步，多模态的研究有了更扎实的基础。

多模态信息抽取是多模态学习与信息抽取技术结合的研究方向。很多研究者采用了深度学习方法从多模态数据中抽取信息，在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升，也从侧面证明了多模态信息抽取研究的必要性。

如何对多模态的数据进行信息抽取，是多模态信息抽取技术的研究目标。当前多模态实体抽取模型中缺少对细粒度图文匹配的建模，当句子中具有多个实体时，一些实体会被图片中无关区域干扰，从而导致部分实体识别错误，因此需要在粗粒度的基础上在当前模型中引入细粒度图文匹配，从而进行多模态多粒度实体识别。

发明内容

本发明的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模，导致部分实体识别错误，实体识别准确率低的问题，而提出一种多模态多粒度实体识别系统及实体识别方法。

一种多模态多粒度实体识别系统包括：

训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块；

训练集获取模块用于获取匹配的图片和文本训练集；

实体识别模型构建模块用于构建实体识别模型；

所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型；

所述VGTR模型为Visual Grounding with Transformer模型；

所述CLIP模型为多模态预训练模型；

多粒度包括粗粒度和细粒度；

多模态多粒度实体识别模型框架为：

图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器，Transformer作为上层编码器，上层编码器称为多模态交互层，多模态交互层外再接一个条件随机场CRF层；

实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练，直至收敛，得到训练好的实体识别模型；

预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中，多模态多粒度实体识别模型输出标注序列，获得待测的匹配图片和文本中的实体。

一种多模态多粒度实体识别方法具体过程为：

步骤一、获取匹配的图片和文本训练集；

步骤二、构建实体识别模型；

所述VGTR模型为Visual Grounding with Transformer模型；

所述CLIP模型为多模态预训练模型；

多粒度包括粗粒度和细粒度；

多模态多粒度实体识别模型框架为：

步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；

步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中，多模态多粒度实体识别模型输出标注序列，获得待测的匹配图片和文本中的实体。

本发明的有益效果为：

对于多模态实体识别，当前研究中缺少对细粒度图文匹配的建模，当句子中具有多个实体时，一些实体会被图片中无关区域干扰，从而导致部分实体识别错误。针对该问题，本发明的方法在粗粒度图文匹配的基础上引入了细粒度图文匹配，提出了一种多模态多粒度实体识别方法。

为了防止模型仅关注图片和文本的细粒度匹配，从而忽略了图文的整体相关性，本发明提出的模型依然保留了图片和文本的粗粒度匹配。这样模型不仅可以学习到多模态的匹配信息，也将细粒度图文匹配和粗粒度图文匹配相结合，从而达到实体识别效果的提升。

附图说明

图1为本发明多模态多粒度实体识别模型训练框架图；

图2为本发明多模态多粒度实体识别模型识别框架图。

具体实施方式

具体实施方式一：本实施方式一种多模态多粒度实体识别系统包括：

训练集获取模块用于获取匹配的图片和文本训练集；

可使用现有的带有实体标注信息的多模态图文数据集，如twitter15和twitter17。

实体识别模型构建模块用于构建实体识别模型；

所述VGTR模型为Visual Grounding with Transformer模型；

所述CLIP模型为多模态预训练模型；

多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本)；

多模态多粒度实体识别模型框架为：

具体实施方式二：本实施方式与具体实施方式一不同的是，所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练，直至收敛，得到训练好的实体识别模型；具体过程为：

步骤三一、获得多模态多粒度实体识别模型损失函数L_CRF；

步骤三二、获得VGTR模型的损失函数L_task1；

步骤三三、获得CLIP模型损失函数L_task2；

步骤三四、重复执行步骤三一、步骤三二、步骤三三，直至收敛，得到训练好的实体识别模型。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤三一中获得多模态多粒度实体识别模型损失函数L_CRF；具体过程为：

将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中，图片经过图片编码器VIT，文本经过文本编码器BERT，将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层，多模态交互层输出结果输入条件随机场CRF层用以计算损失函数L_CRF；

所述损失函数L_CRF的获取方式为：

其中，Z(x)为：

以上两个公式是线性链条件随机场模型的基本形式。式中，y为本发明提出的实体识别模型输出的标注序列，y_i为本发明提出的实体识别模型输出的标注序列的第i个字母，y_i-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母，x为给定输入序列，该标注输入可由多模态图文数据集中的实体标注信息得到；i为序列中字母的序数，k为特征函数t的个数，l为特征函数s的个数；t_k和s_l是特征函数，μ_l和λ_k是对应的权值；Z(x)是规范化因子，求和是在所有可能的输出标注序列上进行的；

t_k是定义在边上的特征函数，称为转移特征，依赖于当前位置y_i和前一个位置y_i-1，s_l是定义在结点上的特征函数，称为状态特征，依赖于当前位置y_i。t_k和s_l都依赖于位置，是局部特征函数。通常，特征函数t_k和s_l取值为1或0：当满足特征条件时取值为1，否则为0。条件随机场完全由特征函数t_k和s_l，和对应的权值μ_l和λ_k确定。该过程可调用python包torchcrf实现。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三二中获得VGTR模型的损失函数L_task1；具体过程为：

将训练集中匹配的图片和文本输入VGTR模型中(完成细粒度查找)，找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得)；

将训练集中匹配的图片和文本输入VGTR模型中，获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵；

根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域，截取出与实体对应的实体-图片区域注意力分布矩阵；

所述VGTR模型为Visual Grounding with Transformer模型；

计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中，多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异，作为VGTR模型的损失函数L_task1(Kullback-Leibler散度)；

所述损失函数L_task1(Kullback-Leibler散度)的获取方式为：

其中，width为VGTR模型输出的实体对应的图片区域宽度，height为VGTR模型输出的实体对应的图片区域高度；x为图片的左下角横坐标(图片横坐标最小值所对应的行号)，y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号)；X_i′j为实体-图片区域注意力分布矩阵第i′行第j列的数值；Y_i′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值；

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤三三中获得CLIP模型损失函数L_task2；具体过程为：

为了防止模型仅仅关注细粒度区域，从而忽略了图文的整体相关性(完成粗粒度查找)；

将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器，输出文本的向量；

计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中，多模态交互层会自动生成文本的向量)的差异，作为CLIP模型损失函数L_task2(Kullback-Leibler散度)；

所述损失函数L_task2(Kullback-Leibler散度)的获取方式为：

其中，seq_len表示文本的长度，D_i″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示；C_i″表示多模态交互层输出的第i″个文本的向量表示；

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式一种多模态多粒度实体识别方法具体过程为：

步骤一、获取匹配的图片和文本训练集；

步骤二、构建实体识别模型；

所述VGTR模型为Visual Grounding withTransformer模型；

所述CLIP模型为多模态预训练模型；

多模态多粒度实体识别模型框架为：

具体实施方式七：本实施方式与具体实施方式六不同的是，所述步骤三中将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；具体过程为：

步骤三一、获得多模态多粒度实体识别模型损失函数L_CRF；

步骤三二、获得VGTR模型的损失函数L_task1；

步骤三三、获得CLIP模型损失函数L_task2；

其它步骤及参数与具体实施方式六相同。

具体实施方式八：本实施方式与具体实施方式六或七不同的是，所述步骤三一中获得多模态多粒度实体识别模型损失函数L_CRF；具体过程为：

所述损失函数L_CRF的获取方式为：

其中，Z(x)为：

其它步骤及参数与具体实施方式六或七相同。

具体实施方式九：本实施方式与具体实施方式六至八之一不同的是，所述步骤三二中获得VGTR模型的损失函数L_task1；具体过程为：

所述VGTR模型为Visual Grounding with Transformer模型；

所述损失函数L_task1(Kullback-Leibler散度)的获取方式为：

其中，width为VGTR模型输出的实体对应的图片区域宽度，height为VGTR模型输出的实体对应的图片区域高度；x为图片的左下角横坐标(图片横坐标最小值所对应的行号)，y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号)；X_i′j为实体-图片区域注意力分布矩阵第i′行第j列的数值；Y_i′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值。

其它步骤及参数与具体实施方式六至八之一相同。

具体实施方式十：本实施方式与具体实施方式六至九之一不同的是，所述步骤三三中获得CLIP模型损失函数L_task2；具体过程为：

所述损失函数L_task2(Kullback-Leibler散度)的获取方式为：

其它步骤及参数与具体实施方式六至九之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

为了解决当前新闻命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模，导致部分新闻实体识别错误，新闻实体识别准确率低的问题，而提出一种多模态多粒度中新闻实体识别方法。

一种多模态多粒度新闻实体识别方法具体过程为：

步骤一、获取匹配的新闻图片和文本训练集；

步骤二、构建实体识别模型；

所述VGTR模型为Visual Grounding withTransformer模型；

所述CLIP模型为多模态预训练模型；

多模态多粒度实体识别模型框架为：

步骤三、将步骤一获取的匹配的新闻图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；

步骤四、将待测的匹配新闻图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中，多模态多粒度实体识别模型输出标注序列，获得待测的匹配新闻图片和文本中的实体。

所述步骤三中将步骤一获取的匹配的新闻图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；具体过程为：

步骤三一、获得多模态多粒度实体识别模型损失函数L_CRF；具体过程为：

将训练集中匹配的新闻图片和文本输入多模态多粒度实体识别模型中，新闻图片经过图片编码器VIT，新闻文本经过文本编码器BERT，将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层，多模态交互层输出结果输入条件随机场CRF层用以计算损失函数L_CRF；

所述损失函数L_CRF的获取方式为：

其中，Z(x)为：

步骤三二、获得VGTR模型的损失函数L_task1；具体过程为：

将训练集中匹配的新闻图片和文本输入VGTR模型中(完成细粒度查找)，找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得)；

将训练集中匹配的新闻图片和文本输入VGTR模型中，获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵；

所述VGTR模型为Visual Grounding with Transformer模型；

所述损失函数L_task1(Kullback-Leibler散度)的获取方式为：

步骤三三、获得CLIP模型损失函数L_task2；具体过程为：

所述损失函数L_task2(Kullback-Leibler散度)的获取方式为：

在twitter15和twitter17数据集上达到了F1值指标为73.27以及84.42的指标。

实施例二：

为了解决当前中文农业命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模，导致部分中文农业实体识别错误，中文农业实体识别准确率低的问题，而提出一种多模态多粒度中文农业实体识别方法。

一种多模态多粒度中文农业实体识别方法具体过程为：

步骤一、获取匹配的中文农业图片和文本训练集；

可使用现有的带有实体标注信息的多模态图文数据集。

步骤二、构建实体识别模型；

所述VGTR模型为Visual Grounding with Transformer模型；

所述CLIP模型为多模态预训练模型；

多模态多粒度实体识别模型框架为：

步骤三、将步骤一获取的匹配的中文农业图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；

步骤四、将待测的匹配中文农业图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中，多模态多粒度实体识别模型输出标注序列，获得待测的匹配中文农业图片和文本中的实体。

所述步骤三中将步骤一获取的匹配的中文农业图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；具体过程为：

将训练集中匹配的中文农业图片和文本输入多模态多粒度实体识别模型中，中文农业图片经过图片编码器VIT，中文农业文本经过文本编码器BERT，将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层，多模态交互层输出结果输入条件随机场CRF层用以计算损失函数L_CRF；

所述损失函数L_CRF的获取方式为：

其中，Z(x)为：

步骤三二、获得VGTR模型的损失函数L_task1；具体过程为：

将训练集中匹配的中文农业图片和文本输入VGTR模型中(完成细粒度查找)，找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得)；

将训练集中匹配的中文农业图片和文本输入VGTR模型中，获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵；

所述VGTR模型为Visual Grounding with Transformer模型；

所述损失函数L_task1(Kullback-Leibler散度)的获取方式为：

步骤三三、获得CLIP模型损失函数L_task2；具体过程为：

所述损失函数L_task2(Kullback-Leibler散度)的获取方式为：

实施例三：

为了解决当前医疗命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模，导致部分医疗实体识别错误，医疗实体识别准确率低的问题，而提出一种多模态多粒度医疗实体识别方法。

一种多模态多粒度医疗实体识别方法具体过程为：

步骤一、获取匹配的医疗图片和文本训练集；

可使用现有的带有实体标注信息的多模态图文数据集。

步骤二、构建实体识别模型；

所述VGTR模型为Visual Grounding with Transformer模型；

所述CLIP模型为多模态预训练模型；

多模态多粒度实体识别模型框架为：

步骤三、将步骤一获取的匹配的医疗图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；

步骤四、将待测的匹配医疗图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中，多模态多粒度实体识别模型输出标注序列，获得待测的匹配医疗图片和文本中的实体。

所述步骤三中将步骤一获取的匹配的医疗图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；具体过程为：

将训练集中匹配的医疗图片和文本输入多模态多粒度实体识别模型中，医疗图片经过图片编码器VIT，医疗文本经过文本编码器BERT，将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层，多模态交互层输出结果输入条件随机场CRF层用以计算损失函数L_CRF；

所述损失函数L_CRF的获取方式为：

其中，Z(x)为：

步骤三二、获得VGTR模型的损失函数L_task1；具体过程为：

将训练集中匹配的医疗图片和文本输入VGTR模型中(完成细粒度查找)，找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得)；

将训练集中匹配的医疗图片和文本输入VGTR模型中，获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵；

所述VGTR模型为Visual Grounding with Transformer模型；

所述损失函数L_task1(Kullback-Leibler散度)的获取方式为：

步骤三三、获得CLIP模型损失函数L_task2；具体过程为：

所述损失函数L_task2(Kullback-Leibler散度)的获取方式为：

实施例四：

为了解决当前军事命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模，导致部分军事实体识别错误，军事实体识别准确率低的问题，而提出一种多模态多粒度军事实体识别方法。

一种多模态多粒度军事实体识别方法具体过程为：

步骤一、获取匹配的军事图片和文本训练集；

可使用现有的带有实体标注信息的多模态图文数据集。

步骤二、构建实体识别模型；

所述VGTR模型为Visual Grounding with Transformer模型；

所述CLIP模型为多模态预训练模型；

多模态多粒度实体识别模型框架为：

步骤三、将步骤一获取的匹配的军事图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；

步骤四、将待测的匹配军事图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中，多模态多粒度实体识别模型输出标注序列，获得待测的匹配军事图片和文本中的实体。

所述步骤三中将步骤一获取的匹配的军事图片和文本训练集输入步骤二构建的实体识别模型进行训练，直至收敛，得到训练好的实体识别模型；具体过程为：

将训练集中匹配的军事图片和文本输入多模态多粒度实体识别模型中，军事图片经过图片编码器VIT，军事文本经过文本编码器BERT，将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层，多模态交互层输出结果输入条件随机场CRF层用以计算损失函数L_CRF；

所述损失函数L_CRF的获取方式为：

其中，Z(x)为：

步骤三二、获得VGTR模型的损失函数L_task1；具体过程为：

将训练集中匹配的军事图片和文本输入VGTR模型中(完成细粒度查找)，找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得)；

将训练集中匹配的军事图片和文本输入VGTR模型中，获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵；

所述VGTR模型为Visual Grounding with Transformer模型；

所述损失函数L_task1(Kullback-Leibler散度)的获取方式为：

步骤三三、获得CLIP模型损失函数L_task2；具体过程为：

所述损失函数L_task2(Kullback-Leibler散度)的获取方式为：

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种多模态多粒度实体识别系统，其特征在于：所述系统包括：

训练集获取模块用于获取匹配的图片和文本训练集；

实体识别模型构建模块用于构建实体识别模型；

所述VGTR模型为Visual Grounding with Transformer模型；

所述CLIP模型为多模态预训练模型；

多粒度包括粗粒度和细粒度；

多模态多粒度实体识别模型框架为：

2.根据权利要求1所述的一种多模态多粒度实体识别系统，其特征在于：所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练，直至收敛，得到训练好的实体识别模型；具体过程为：

步骤三一、获得多模态多粒度实体识别模型损失函数L_CRF；

步骤三二、获得VGTR模型的损失函数L_task1；

步骤三三、获得CLIP模型损失函数L_task2；

3.根据权利要求2所述的一种多模态多粒度实体识别系统，其特征在于：所述步骤三一中获得多模态多粒度实体识别模型损失函数L_CRF；具体过程为：

所述损失函数L_CRF的获取方式为：

其中，Z(x)为：

式中，y为实体识别模型输出的标注序列，y_i为实体识别模型输出的标注序列的第i个字母，y_i-1为实体识别模型输出的标注序列的第i-1个字母，x为给定输入序列；i为序列中字母的序数，k为特征函数t的个数，l为特征函数s的个数；t_k和s_l是特征函数，μ_l和λ_k是对应的权值；Z(x)是规范化因子。

4.根据权利要求3所述的一种多模态多粒度实体识别系统，其特征在于：所述步骤三二中获得VGTR模型的损失函数L_task1；具体过程为：

将训练集中匹配的图片和文本输入VGTR模型中，找到文本句子中每个实体对应的图片区域；

所述VGTR模型为Visual Grounding withTransformer模型；

计算实体-图片区域注意力分布矩阵与多模态交互层输出的文本与图片注意力矩阵的差异，作为VGTR模型的损失函数L_task1；

所述损失函数L_task1的获取方式为：

其中，width为VGTR模型输出的实体对应的图片区域宽度，height为VGTR模型输出的实体对应的图片区域高度；x为图片的左下角横坐标，y为图片的左下角纵坐标；X_i′j为实体-图片区域注意力分布矩阵第i′行第j列的数值；Y_i′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值。

5.根据权利要求4所述的一种多模态多粒度实体识别系统，其特征在于：所述步骤三三中获得CLIP模型损失函数L_task2；具体过程为：

计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量的差异，作为CLIP模型损失函数L_task2；

所述损失函数L_task2的获取方式为：