CN115545018B - 一种多模态多粒度实体识别系统及实体识别方法 - Google Patents

一种多模态多粒度实体识别系统及实体识别方法 Download PDF

Info

Publication number
CN115545018B
CN115545018B CN202211263174.8A CN202211263174A CN115545018B CN 115545018 B CN115545018 B CN 115545018B CN 202211263174 A CN202211263174 A CN 202211263174A CN 115545018 B CN115545018 B CN 115545018B
Authority
CN
China
Prior art keywords
model
entity
text
picture
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211263174.8A
Other languages
English (en)
Other versions
CN115545018A (zh
Inventor
赵森栋
蔡沐祯
秦兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Konami Sports Club Co Ltd
Original Assignee
Harbin Institute of Technology
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, People Co Ltd filed Critical Harbin Institute of Technology
Priority to CN202211263174.8A priority Critical patent/CN115545018B/zh
Publication of CN115545018A publication Critical patent/CN115545018A/zh
Application granted granted Critical
Publication of CN115545018B publication Critical patent/CN115545018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

一种多模态多粒度实体识别系统及实体识别方法,本发明涉及实体识别系统及实体识别方法。本发明的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分实体识别错误,实体识别准确率低的问题。系统包括:训练集获取模块用于获取训练集;实体识别模型构建模块用于构建实体识别模型;实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;实体识别模型训练模块用于得到训练好的实体识别模型;预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,输出标注序列,获得待测的匹配图片和文本中的实体。本发明用于新闻、医疗、军事、农业实体识别领域。

Description

一种多模态多粒度实体识别系统及实体识别方法
技术领域
本发明属于新闻、医疗、军事、农业实体识别领域,具体涉及多模态多粒度实体识别系统及实体识别方法。
背景技术
现实世界中的信息一般以多模态的形式出现,而由于技术问题,多模态研究进展缓慢。近年来由于单模态研究的进步,多模态的研究有了更扎实的基础。
多模态信息抽取是多模态学习与信息抽取技术结合的研究方向。很多研究者采用了深度学习方法从多模态数据中抽取信息,在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升,也从侧面证明了多模态信息抽取研究的必要性。
如何对多模态的数据进行信息抽取,是多模态信息抽取技术的研究目标。当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,当句子中具有多个实体时,一些实体会被图片中无关区域干扰,从而导致部分实体识别错误,因此需要在粗粒度的基础上在当前模型中引入细粒度图文匹配,从而进行多模态多粒度实体识别。
发明内容
本发明的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分实体识别错误,实体识别准确率低的问题,而提出一种多模态多粒度实体识别系统及实体识别方法。
一种多模态多粒度实体识别系统包括:
训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
训练集获取模块用于获取匹配的图片和文本训练集;
实体识别模型构建模块用于构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
一种多模态多粒度实体识别方法具体过程为:
步骤一、获取匹配的图片和文本训练集;
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
本发明的有益效果为:
对于多模态实体识别,当前研究中缺少对细粒度图文匹配的建模,当句子中具有多个实体时,一些实体会被图片中无关区域干扰,从而导致部分实体识别错误。针对该问题,本发明的方法在粗粒度图文匹配的基础上引入了细粒度图文匹配,提出了一种多模态多粒度实体识别方法。
为了防止模型仅关注图片和文本的细粒度匹配,从而忽略了图文的整体相关性,本发明提出的模型依然保留了图片和文本的粗粒度匹配。这样模型不仅可以学习到多模态的匹配信息,也将细粒度图文匹配和粗粒度图文匹配相结合,从而达到实体识别效果的提升。
附图说明
图1为本发明多模态多粒度实体识别模型训练框架图;
图2为本发明多模态多粒度实体识别模型识别框架图。
具体实施方式
具体实施方式一:本实施方式一种多模态多粒度实体识别系统包括:
训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
训练集获取模块用于获取匹配的图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集,如twitter15和twitter17。
实体识别模型构建模块用于构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF
步骤三二、获得VGTR模型的损失函数Ltask1
步骤三三、获得CLIP模型损失函数Ltask2
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤三三中获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式一种多模态多粒度实体识别方法具体过程为:
步骤一、获取匹配的图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集,如twitter15和twitter17。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding withTransformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
具体实施方式七:本实施方式与具体实施方式六不同的是,所述步骤三中将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF
步骤三二、获得VGTR模型的损失函数Ltask1
步骤三三、获得CLIP模型损失函数Ltask2
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
其它步骤及参数与具体实施方式六相同。
具体实施方式八:本实施方式与具体实施方式六或七不同的是,所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
其它步骤及参数与具体实施方式六或七相同。
具体实施方式九:本实施方式与具体实施方式六至八之一不同的是,所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值。
其它步骤及参数与具体实施方式六至八之一相同。
具体实施方式十:本实施方式与具体实施方式六至九之一不同的是,所述步骤三三中获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
其它步骤及参数与具体实施方式六至九之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
为了解决当前新闻命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分新闻实体识别错误,新闻实体识别准确率低的问题,而提出一种多模态多粒度中新闻实体识别方法。
一种多模态多粒度新闻实体识别方法具体过程为:
步骤一、获取匹配的新闻图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集,如twitter15和twitter17。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding withTransformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的新闻图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配新闻图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配新闻图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的新闻图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的新闻图片和文本输入多模态多粒度实体识别模型中,新闻图片经过图片编码器VIT,新闻文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的新闻图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的新闻图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
在twitter15和twitter17数据集上达到了F1值指标为73.27以及84.42的指标。
实施例二:
为了解决当前中文农业命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分中文农业实体识别错误,中文农业实体识别准确率低的问题,而提出一种多模态多粒度中文农业实体识别方法。
一种多模态多粒度中文农业实体识别方法具体过程为:
步骤一、获取匹配的中文农业图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的中文农业图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配中文农业图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配中文农业图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的中文农业图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的中文农业图片和文本输入多模态多粒度实体识别模型中,中文农业图片经过图片编码器VIT,中文农业文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的中文农业图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的中文农业图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
实施例三:
为了解决当前医疗命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分医疗实体识别错误,医疗实体识别准确率低的问题,而提出一种多模态多粒度医疗实体识别方法。
一种多模态多粒度医疗实体识别方法具体过程为:
步骤一、获取匹配的医疗图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的医疗图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配医疗图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配医疗图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的医疗图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的医疗图片和文本输入多模态多粒度实体识别模型中,医疗图片经过图片编码器VIT,医疗文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的医疗图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的医疗图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
实施例四:
为了解决当前军事命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分军事实体识别错误,军事实体识别准确率低的问题,而提出一种多模态多粒度军事实体识别方法。
一种多模态多粒度军事实体识别方法具体过程为:
步骤一、获取匹配的军事图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的军事图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配军事图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配军事图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的军事图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的军事图片和文本输入多模态多粒度实体识别模型中,军事图片经过图片编码器VIT,军事文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的军事图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的军事图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (2)

1.一种多模态多粒度实体识别系统,其特征在于:所述系统包括:
训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
训练集获取模块用于获取匹配的图片和文本训练集;
实体识别模型构建模块用于构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体;
所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF
步骤三二、获得VGTR模型的损失函数Ltask1
步骤三三、获得CLIP模型损失函数Ltask2
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型;
所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
式中,y为实体识别模型输出的标注序列,yi为实体识别模型输出的标注序列的第i个字母,yi-1为实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子;
所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中,找到文本句子中每个实体对应的图片区域;
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visualbranch的注意力矩阵;
根据Visualbranch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Groundingwith Transformer模型;
计算实体-图片区域注意力分布矩阵与多模态交互层输出的文本与图片注意力矩阵的差异,作为VGTR模型的损失函数Ltask1
所述损失函数Ltask1的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标,y为图片的左下角纵坐标;Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
所述步骤三三中获得CLIP模型损失函数Ltask2;具体过程为:
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量的差异,作为CLIP模型损失函数Ltask2
所述损失函数Ltask2的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示。
2.根据权利要求1所述的一种多模态多粒度实体识别系统的实体识别方法,其特征在于:所述方法具体过程为:
步骤一、获取匹配的图片和文本训练集;
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Groundingwith Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体;
所述步骤三中将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF
步骤三二、获得VGTR模型的损失函数Ltask1
步骤三三、获得CLIP模型损失函数Ltask2
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型;
所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
式中,y为实体识别模型输出的标注序列,yi为实体识别模型输出的标注序列的第i个字母,yi-1为实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子;
所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中,找到文本句子中每个实体对应的图片区域;
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visualbranch的注意力矩阵;
根据Visualbranch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Groundingwith Transformer模型;
计算实体-图片区域注意力分布矩阵与多模态交互层输出的文本与图片注意力矩阵的差异,作为VGTR模型的损失函数Ltask1
所述损失函数Ltask1的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标,y为图片的左下角纵坐标;Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
所述步骤三三中获得CLIP模型损失函数Ltask2;具体过程为:
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量的差异,作为CLIP模型损失函数Ltask2
所述损失函数Ltask2的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示。
CN202211263174.8A 2022-10-14 2022-10-14 一种多模态多粒度实体识别系统及实体识别方法 Active CN115545018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211263174.8A CN115545018B (zh) 2022-10-14 2022-10-14 一种多模态多粒度实体识别系统及实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211263174.8A CN115545018B (zh) 2022-10-14 2022-10-14 一种多模态多粒度实体识别系统及实体识别方法

Publications (2)

Publication Number Publication Date
CN115545018A CN115545018A (zh) 2022-12-30
CN115545018B true CN115545018B (zh) 2023-07-28

Family

ID=84736057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211263174.8A Active CN115545018B (zh) 2022-10-14 2022-10-14 一种多模态多粒度实体识别系统及实体识别方法

Country Status (1)

Country Link
CN (1) CN115545018B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341555B (zh) * 2023-05-26 2023-08-04 华东交通大学 命名实体识别方法和系统
CN116842127B (zh) * 2023-08-31 2023-12-05 中国人民解放军海军航空大学 一种基于多源动态数据的自适应辅助决策智能方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543932A (zh) * 2020-01-22 2021-03-23 华为技术有限公司 语义分析方法、装置、设备及存储介质
CN114168780A (zh) * 2021-11-04 2022-03-11 卓尔智联(武汉)研究院有限公司 多模态数据处理方法、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597970B (zh) * 2019-08-19 2023-04-07 华东理工大学 一种多粒度医疗实体联合识别的方法及装置
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN115033670A (zh) * 2022-06-02 2022-09-09 西安电子科技大学 多粒度特征融合的跨模态图文检索方法
CN115080766B (zh) * 2022-08-16 2022-12-06 之江实验室 基于预训练模型的多模态知识图谱表征系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543932A (zh) * 2020-01-22 2021-03-23 华为技术有限公司 语义分析方法、装置、设备及存储介质
CN114168780A (zh) * 2021-11-04 2022-03-11 卓尔智联(武汉)研究院有限公司 多模态数据处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN115545018A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN115545018B (zh) 一种多模态多粒度实体识别系统及实体识别方法
Wu et al. Image-to-markup generation via paired adversarial learning
CN110909673B (zh) 一种基于自然语言描述的行人再识别方法
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
Lin et al. STAN: A sequential transformation attention-based network for scene text recognition
CN111160343A (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN112164067A (zh) 一种基于多模态子空间聚类的医学图像分割方法及装置
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113010656A (zh) 一种基于多模态融合和结构性控制的视觉问答方法
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
Yan et al. ConvMath: a convolutional sequence network for mathematical expression recognition
Xiao et al. An extended attention mechanism for scene text recognition
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN113836929A (zh) 命名实体识别方法、装置、设备及存储介质
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法
Nguyen et al. A brief review of state-of-the-art object detectors on benchmark document images datasets
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN116415587A (zh) 信息处理装置和信息处理方法
Wu et al. From textline to paragraph: a promising practice for Chinese text recognition
Le et al. A hybrid vision transformer approach for mathematical expression recognition
CN113192030B (zh) 一种遥感图像描述生成方法及系统
Zhi et al. A Feature Refinement Patch Embedding-Based Recognition Method for Printed Tibetan Cursive Script

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant