CN115545018A - 一种多模态多粒度实体识别系统及实体识别方法 - Google Patents
一种多模态多粒度实体识别系统及实体识别方法 Download PDFInfo
- Publication number
- CN115545018A CN115545018A CN202211263174.8A CN202211263174A CN115545018A CN 115545018 A CN115545018 A CN 115545018A CN 202211263174 A CN202211263174 A CN 202211263174A CN 115545018 A CN115545018 A CN 115545018A
- Authority
- CN
- China
- Prior art keywords
- model
- entity recognition
- text
- recognition model
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
一种多模态多粒度实体识别系统及实体识别方法,本发明涉及实体识别系统及实体识别方法。本发明的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分实体识别错误,实体识别准确率低的问题。系统包括:训练集获取模块用于获取训练集;实体识别模型构建模块用于构建实体识别模型;实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;实体识别模型训练模块用于得到训练好的实体识别模型;预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,输出标注序列,获得待测的匹配图片和文本中的实体。本发明用于新闻、医疗、军事、农业实体识别领域。
Description
技术领域
本发明属于新闻、医疗、军事、农业实体识别领域,具体涉及多模态多粒度实体识别系统及实体识别方法。
背景技术
现实世界中的信息一般以多模态的形式出现,而由于技术问题,多模态研究进展缓慢。近年来由于单模态研究的进步,多模态的研究有了更扎实的基础。
多模态信息抽取是多模态学习与信息抽取技术结合的研究方向。很多研究者采用了深度学习方法从多模态数据中抽取信息,在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升,也从侧面证明了多模态信息抽取研究的必要性。
如何对多模态的数据进行信息抽取,是多模态信息抽取技术的研究目标。当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,当句子中具有多个实体时,一些实体会被图片中无关区域干扰,从而导致部分实体识别错误,因此需要在粗粒度的基础上在当前模型中引入细粒度图文匹配,从而进行多模态多粒度实体识别。
发明内容
本发明的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分实体识别错误,实体识别准确率低的问题,而提出一种多模态多粒度实体识别系统及实体识别方法。
一种多模态多粒度实体识别系统包括:
训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
训练集获取模块用于获取匹配的图片和文本训练集;
实体识别模型构建模块用于构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
一种多模态多粒度实体识别方法具体过程为:
步骤一、获取匹配的图片和文本训练集;
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
本发明的有益效果为:
对于多模态实体识别,当前研究中缺少对细粒度图文匹配的建模,当句子中具有多个实体时,一些实体会被图片中无关区域干扰,从而导致部分实体识别错误。针对该问题,本发明的方法在粗粒度图文匹配的基础上引入了细粒度图文匹配,提出了一种多模态多粒度实体识别方法。
为了防止模型仅关注图片和文本的细粒度匹配,从而忽略了图文的整体相关性,本发明提出的模型依然保留了图片和文本的粗粒度匹配。这样模型不仅可以学习到多模态的匹配信息,也将细粒度图文匹配和粗粒度图文匹配相结合,从而达到实体识别效果的提升。
附图说明
图1为本发明多模态多粒度实体识别模型训练框架图;
图2为本发明多模态多粒度实体识别模型识别框架图。
具体实施方式
具体实施方式一:本实施方式一种多模态多粒度实体识别系统包括:
训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
训练集获取模块用于获取匹配的图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集,如twitter15和twitter17。
实体识别模型构建模块用于构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;
步骤三二、获得VGTR模型的损失函数Ltask1;
步骤三三、获得CLIP模型损失函数Ltask2;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤三三中获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式一种多模态多粒度实体识别方法具体过程为:
步骤一、获取匹配的图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集,如twitter15和twitter17。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding withTransformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
具体实施方式七:本实施方式与具体实施方式六不同的是,所述步骤三中将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;
步骤三二、获得VGTR模型的损失函数Ltask1;
步骤三三、获得CLIP模型损失函数Ltask2;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
其它步骤及参数与具体实施方式六相同。
具体实施方式八:本实施方式与具体实施方式六或七不同的是,所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
其它步骤及参数与具体实施方式六或七相同。
具体实施方式九:本实施方式与具体实施方式六至八之一不同的是,所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值。
其它步骤及参数与具体实施方式六至八之一相同。
具体实施方式十:本实施方式与具体实施方式六至九之一不同的是,所述步骤三三中获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
其它步骤及参数与具体实施方式六至九之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
为了解决当前新闻命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分新闻实体识别错误,新闻实体识别准确率低的问题,而提出一种多模态多粒度中新闻实体识别方法。
一种多模态多粒度新闻实体识别方法具体过程为:
步骤一、获取匹配的新闻图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集,如twitter15和twitter17。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding withTransformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的新闻图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配新闻图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配新闻图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的新闻图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的新闻图片和文本输入多模态多粒度实体识别模型中,新闻图片经过图片编码器VIT,新闻文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的新闻图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的新闻图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
在twitter15和twitter17数据集上达到了F1值指标为73.27以及84.42的指标。
实施例二:
为了解决当前中文农业命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分中文农业实体识别错误,中文农业实体识别准确率低的问题,而提出一种多模态多粒度中文农业实体识别方法。
一种多模态多粒度中文农业实体识别方法具体过程为:
步骤一、获取匹配的中文农业图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的中文农业图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配中文农业图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配中文农业图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的中文农业图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的中文农业图片和文本输入多模态多粒度实体识别模型中,中文农业图片经过图片编码器VIT,中文农业文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的中文农业图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的中文农业图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
实施例三:
为了解决当前医疗命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分医疗实体识别错误,医疗实体识别准确率低的问题,而提出一种多模态多粒度医疗实体识别方法。
一种多模态多粒度医疗实体识别方法具体过程为:
步骤一、获取匹配的医疗图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的医疗图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配医疗图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配医疗图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的医疗图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的医疗图片和文本输入多模态多粒度实体识别模型中,医疗图片经过图片编码器VIT,医疗文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的医疗图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的医疗图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
实施例四:
为了解决当前军事命名实体识别方法的多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分军事实体识别错误,军事实体识别准确率低的问题,而提出一种多模态多粒度军事实体识别方法。
一种多模态多粒度军事实体识别方法具体过程为:
步骤一、获取匹配的军事图片和文本训练集;
可使用现有的带有实体标注信息的多模态图文数据集。
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的军事图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配军事图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配军事图片和文本中的实体。
所述步骤三中将步骤一获取的匹配的军事图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的军事图片和文本输入多模态多粒度实体识别模型中,军事图片经过图片编码器VIT,军事文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
以上两个公式是线性链条件随机场模型的基本形式。式中,y为本发明提出的实体识别模型输出的标注序列,yi为本发明提出的实体识别模型输出的标注序列的第i个字母,yi-1为本发明提出的实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列,该标注输入可由多模态图文数据集中的实体标注信息得到;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子,求和是在所有可能的输出标注序列上进行的;
tk是定义在边上的特征函数,称为转移特征,依赖于当前位置yi和前一个位置yi-1,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置yi。tk和sl都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0:当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数tk和sl,和对应的权值μl和λk确定。该过程可调用python包torchcrf实现。
步骤三二、获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的军事图片和文本输入VGTR模型中(完成细粒度查找),找到文本句子中每个实体对应的图片区域(将图片和文本对输入VGTR模型中即可获得);
将训练集中匹配的军事图片和文本输入VGTR模型中,获得VGTR模型中GroundEncoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与本发明提出模型的多模态交互层输出的文本与图片注意力矩阵(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本与图片注意力矩阵进行输出)的差异,作为VGTR模型的损失函数Ltask1(Kullback-Leibler散度);
所述损失函数Ltask1(Kullback-Leibler散度)的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标(图片横坐标最小值所对应的行号),y为图片的左下角纵坐标(图片纵坐标最小值所对应的列号);Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值;
步骤三三、获得CLIP模型损失函数Ltask2;具体过程为:
为了防止模型仅仅关注细粒度区域,从而忽略了图文的整体相关性(完成粗粒度查找);
将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;
计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量(训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,多模态交互层会自动生成文本的向量)的差异,作为CLIP模型损失函数Ltask2(Kullback-Leibler散度);
所述损失函数Ltask2(Kullback-Leibler散度)的获取方式为:
其中,seq_len表示文本的长度,Di″表示CLIP模型中的文本编码器输出的第i″个文本的向量表示;Ci″表示多模态交互层输出的第i″个文本的向量表示;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种多模态多粒度实体识别系统,其特征在于:所述系统包括:
训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
训练集获取模块用于获取匹配的图片和文本训练集;
实体识别模型构建模块用于构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding with Transformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
2.根据权利要求1所述的一种多模态多粒度实体识别系统,其特征在于:所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;
步骤三二、获得VGTR模型的损失函数Ltask1;
步骤三三、获得CLIP模型损失函数Ltask2;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
3.根据权利要求2所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
式中,y为实体识别模型输出的标注序列,yi为实体识别模型输出的标注序列的第i个字母,yi-1为实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子。
4.根据权利要求3所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中,找到文本句子中每个实体对应的图片区域;
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding withTransformer模型;
计算实体-图片区域注意力分布矩阵与多模态交互层输出的文本与图片注意力矩阵的差异,作为VGTR模型的损失函数Ltask1;
所述损失函数Ltask1的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标,y为图片的左下角纵坐标;Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值。
6.根据权利要求1所述的一种多模态多粒度实体识别系统的实体识别方法,其特征在于:所述方法具体过程为:
步骤一、获取匹配的图片和文本训练集;
步骤二、构建实体识别模型;
所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
所述VGTR模型为Visual Grounding withTransformer模型;
所述CLIP模型为多模态预训练模型;
多粒度包括粗粒度和细粒度;
多模态多粒度实体识别模型框架为:
图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
7.根据权利要求6所述的一种多模态多粒度实体识别方法,其特征在于:所述步骤三中将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
步骤三一、获得多模态多粒度实体识别模型损失函数LCRF;
步骤三二、获得VGTR模型的损失函数Ltask1;
步骤三三、获得CLIP模型损失函数Ltask2;
步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。
8.根据权利要求7所述的一种多模态多粒度实体识别方法,其特征在于:所述步骤三一中获得多模态多粒度实体识别模型损失函数LCRF;具体过程为:
将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数LCRF;
所述损失函数LCRF的获取方式为:
其中,Z(x)为:
式中,y为实体识别模型输出的标注序列,yi为实体识别模型输出的标注序列的第i个字母,yi-1为实体识别模型输出的标注序列的第i-1个字母,x为给定输入序列;i为序列中字母的序数,k为特征函数t的个数,l为特征函数s的个数;tk和sl是特征函数,μl和λk是对应的权值;Z(x)是规范化因子。
9.根据权利要求8所述的一种多模态多粒度实体识别方法,其特征在于:所述步骤三二中获得VGTR模型的损失函数Ltask1;具体过程为:
将训练集中匹配的图片和文本输入VGTR模型中,找到文本句子中每个实体对应的图片区域;
将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;
根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体-图片区域注意力分布矩阵;
所述VGTR模型为Visual Grounding with Transformer模型;
计算实体-图片区域注意力分布矩阵与多模态交互层输出的文本与图片注意力矩阵的差异,作为VGTR模型的损失函数Ltask1;
所述损失函数Ltask1的获取方式为:
其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标,y为图片的左下角纵坐标;Xi′j为实体-图片区域注意力分布矩阵第i′行第j列的数值;Yi′j为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i′行第j列的数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263174.8A CN115545018B (zh) | 2022-10-14 | 2022-10-14 | 一种多模态多粒度实体识别系统及实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263174.8A CN115545018B (zh) | 2022-10-14 | 2022-10-14 | 一种多模态多粒度实体识别系统及实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545018A true CN115545018A (zh) | 2022-12-30 |
CN115545018B CN115545018B (zh) | 2023-07-28 |
Family
ID=84736057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211263174.8A Active CN115545018B (zh) | 2022-10-14 | 2022-10-14 | 一种多模态多粒度实体识别系统及实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545018B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341555A (zh) * | 2023-05-26 | 2023-06-27 | 华东交通大学 | 命名实体识别方法和系统 |
CN116842127A (zh) * | 2023-08-31 | 2023-10-03 | 中国人民解放军海军航空大学 | 一种基于多源动态数据的自适应辅助决策智能方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597970A (zh) * | 2019-08-19 | 2019-12-20 | 华东理工大学 | 一种多粒度医疗实体联合识别的方法及装置 |
CN112543932A (zh) * | 2020-01-22 | 2021-03-23 | 华为技术有限公司 | 语义分析方法、装置、设备及存储介质 |
CN113283551A (zh) * | 2021-07-22 | 2021-08-20 | 智者四海(北京)技术有限公司 | 多模态预训练模型的训练方法、训练装置及电子设备 |
CN114168780A (zh) * | 2021-11-04 | 2022-03-11 | 卓尔智联(武汉)研究院有限公司 | 多模态数据处理方法、电子设备及存储介质 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN115080766A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于预训练模型的多模态知识图谱表征系统及方法 |
-
2022
- 2022-10-14 CN CN202211263174.8A patent/CN115545018B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597970A (zh) * | 2019-08-19 | 2019-12-20 | 华东理工大学 | 一种多粒度医疗实体联合识别的方法及装置 |
CN112543932A (zh) * | 2020-01-22 | 2021-03-23 | 华为技术有限公司 | 语义分析方法、装置、设备及存储介质 |
CN113283551A (zh) * | 2021-07-22 | 2021-08-20 | 智者四海(北京)技术有限公司 | 多模态预训练模型的训练方法、训练装置及电子设备 |
CN114168780A (zh) * | 2021-11-04 | 2022-03-11 | 卓尔智联(武汉)研究院有限公司 | 多模态数据处理方法、电子设备及存储介质 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN115080766A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于预训练模型的多模态知识图谱表征系统及方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341555A (zh) * | 2023-05-26 | 2023-06-27 | 华东交通大学 | 命名实体识别方法和系统 |
CN116341555B (zh) * | 2023-05-26 | 2023-08-04 | 华东交通大学 | 命名实体识别方法和系统 |
CN116842127A (zh) * | 2023-08-31 | 2023-10-03 | 中国人民解放军海军航空大学 | 一种基于多源动态数据的自适应辅助决策智能方法及系统 |
CN116842127B (zh) * | 2023-08-31 | 2023-12-05 | 中国人民解放军海军航空大学 | 一种基于多源动态数据的自适应辅助决策智能方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115545018B (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Deep label distribution learning with label ambiguity | |
Gao et al. | Reading scene text with fully convolutional sequence modeling | |
Li et al. | Visual question answering with question representation update (qru) | |
Yeh et al. | Interpretable and globally optimal prediction for textual grounding using image concepts | |
Naz et al. | Offline cursive Urdu-Nastaliq script recognition using multidimensional recurrent neural networks | |
Lin et al. | STAN: A sequential transformation attention-based network for scene text recognition | |
CN115545018A (zh) | 一种多模态多粒度实体识别系统及实体识别方法 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
Yang et al. | Dense and tight detection of Chinese characters in historical documents: Datasets and a recognition guided detector | |
Sun et al. | Convolutional multi-directional recurrent network for offline handwritten text recognition | |
Li et al. | Adapting clip for phrase localization without further training | |
Liu et al. | Robust salient object detection for RGB images | |
Zhang et al. | Learning to detect salient object with multi-source weak supervision | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN117746467A (zh) | 一种模态增强和补偿的跨模态行人重识别方法 | |
Farahani et al. | Automatic chart understanding: a review | |
Eunice et al. | Sign2Pose: A Pose-Based Approach for Gloss Prediction Using a Transformer Model | |
Zhang et al. | APLNet: Attention-enhanced progressive learning network | |
Han et al. | Feature and spatial relationship coding capsule network | |
Qin et al. | Scene text image super-resolution via content perceptual loss and criss-cross transformer blocks | |
Xu et al. | Representative feature alignment for adaptive object detection | |
Wu et al. | A neural network model for text detection in chinese drug package insert | |
Li et al. | Stroke extraction of Chinese character based on deep structure deformable image registration | |
Vankadaru et al. | Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI | |
Miah et al. | Multi-stream graph-based deep neural networks for skeleton-based sign language recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |