CN114186080A - 基于语义共享的深度跨模态检索方法及系统 - Google Patents

基于语义共享的深度跨模态检索方法及系统 Download PDF

Info

Publication number
CN114186080A
CN114186080A CN202111381465.2A CN202111381465A CN114186080A CN 114186080 A CN114186080 A CN 114186080A CN 202111381465 A CN202111381465 A CN 202111381465A CN 114186080 A CN114186080 A CN 114186080A
Authority
CN
China
Prior art keywords
model
modal
text
mask
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111381465.2A
Other languages
English (en)
Other versions
CN114186080B (zh
Inventor
杨杨
张初兵
肖亮
杨健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111381465.2A priority Critical patent/CN114186080B/zh
Publication of CN114186080A publication Critical patent/CN114186080A/zh
Application granted granted Critical
Publication of CN114186080B publication Critical patent/CN114186080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义共享的深度跨模态检索方法及系统,属于多模态学习领域,该方法包括如下步骤:提取图片和文本的细粒度特征;使用共享模型学习多模态一致性表示;通过掩码预测和分类预测优化模型;基于模型进行跨模态检索。本发明采用深度自注意力网络作为基本模型,对多模态数据分别提取细粒度特征并使用共享模型在同一语义空间中学习不同模态数据的一致性表示,解决了以往跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题,通过标签预测和掩码预测多任务损失函数对共享深度自注意力网络模型进行参数学习,有效地提升了跨模态检索的精度。

Description

基于语义共享的深度跨模态检索方法及系统
技术领域
本发明属于多模态学习领域,特别涉及一种基于语义共享的深度跨模态检索方法及系统。
背景技术
随着多媒体数据的快速增长,单一模态的检索难以满足当下的数据分析需求,相关跨模态检索算法应运而生。现阶段的跨模态检索聚焦于拟合文本和图片间的关联,主要挑战在于如何度量数据间的内容相似性。传统的跨模态检索算法通常使用多模态数据的全局特征或者局部特征进行相似性计算并使用模态间的一致性损失进行特征约束。经研究发现,现有的跨模态检索算法问题主要为:使用模态间的一致性损失进行特征约束导致了弱模态对强模态的干扰问题,造成检索准确度难以进一步提升。
目前在跨模态检索任务中,对于样本的使用关注点从利用样本的全局信息转变到局部信息,在一定程度上提高了模型的性能,但是并未解决模态一致性损失的干扰问题。
发明内容
本发明为解决传统跨模态检索任务中一致性损失函数对模型的干扰问题,提出了一种基于语义共享的深度跨模态检索方法及系统,使用共享模型在同一语义空间中学习多模态一致性表示代替一致性损失,有效地提升了跨模态检索的精度。
本发明采用的技术方案如下:一种基于语义共享的深度跨模态检索方法,包括如下步骤:
步骤1,提取图片和文本的细粒度特征;
步骤2,使用共享模型学习多模态一致性表示;
步骤3,通过掩码预测和分类预测优化模型;
步骤4,基于模型进行跨模态检索。
进一步的,所述步骤1中,提取图片和文本的细粒度特征表示包括以下步骤:
对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息。
对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息。
对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,以图片为例,公式如下所示:
Figure BDA0003365760080000011
式中
Figure BDA0003365760080000012
以及
Figure BDA0003365760080000013
分别表示输入图片的原始区域特征以及位置特征,ψ12表示为全连接函数,φ为非线性映射函数,得到共享模型最终的输入。
进一步的,所述步骤2中,在模型中使用共享模型学习多模态一致性表示包括以下步骤:
使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
Figure BDA0003365760080000021
其中
Figure BDA0003365760080000022
为样本i的文本或图片细粒度特征集合,作为共享模型
Figure BDA0003365760080000023
的输入,zi为习得的图片或文本的多模态一致性表示。
进一步的,所述步骤3中,在模型中通过掩码预测和分类预测优化模型包括以下步骤:
①使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
Figure BDA0003365760080000024
其中yi为样本标签,N为样本数量,g为分类器,
Figure BDA0003365760080000025
分别为图片和文本的多模态一致性表示。
②对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为
Figure BDA0003365760080000026
Figure BDA0003365760080000027
Figure BDA0003365760080000028
其中m为掩码区域的索引值,vi、wi分别表示第i个图片以及文本实例,
Figure BDA0003365760080000029
分别为图片和文本掩码的区域信息和单词信息(对图片区域和文本单词以15%的概率进行掩码),
Figure BDA00033657600800000210
Figure BDA00033657600800000211
分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,Pgw,Pgv表示对图片以及文本的掩码预测的概率,
Figure BDA00033657600800000212
可以为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;
③使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
本发明还提供一种基于语义共享的深度跨模态检索系统,包括:
特征提取模块,用于提取图片和文本的细粒度特征;
多模态一致性表示模块,用于使用共享模型学习多模态一致性表示;
模型优化模块,用于通过掩码预测和分类预测优化模型;
跨模态检索模块,用于基于模型进行跨模态检索。
本发明采用深度自注意力网络作为基本模型,对多模态数据分别提取细粒度特征,通过共享模型在统一的语义空间学习不同模态数据的统一表示,并使用标签预测和掩码预测优化模型,与现有技术相比,本发明具有以下特征:
首先,本发明使用共享模型学习不同模态数据的一致性表示来解决传统跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题。
其次,本发明使用标签预测和掩码预测多任务损失函数对共享深度自注意力网络进行学习并用作跨模态检索任务。
附图说明
图1为本发明整体流程图。
图2为本发明特征提取细节流程图。
图3为本发明中跨模态检索模型框架图。
具体实施方式
以下结合附图说明本发明的具体实施方式。
如图1所示,本发明公开了一种基于语义共享的深度跨模态检索方法,需要说明的是,本发明的核心步骤是在模型中通过共享模型为不同模态的数据学习一致性嵌入,具体实施方式的描述主要侧重于步骤2和步骤3,步骤1以及步骤4未公开的内容可采用已有技术实现,具体描述如下:
步骤1.提取图片和文本的细粒度特征:
跨模态检索的首要任务是对数据的特征提取,特征提取的优劣与模型最终的检索性能息息相关,如图2所示,本发明对图片和文本分别进行细粒度表征学习得到图片区域和文本单词特征,考虑到深度自注意力网络输入需要序列的位置信息,此处分别计算图文的位置信息编码,并将不同模态特征维度对齐,具体步骤如下:
①对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息。
②对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息,具体形式如下:
Figure BDA0003365760080000041
其中(a1,b1),(a2,b2)分别为图片的左上角和右下角的位置坐标,W,H分别为图片的宽和高,每一个区域的位置信息用五维的向量p表示。
③对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,公式如下所示:
Figure BDA0003365760080000042
ψ12表示为全连接函数,φ为非线性映射函数得到共享模型最终的输入。
步骤2.使用共享模型学习多模态一致性表示:
本发明对文本和图片特征采用共享模型学习不同模态数据的一致性表示来解决传统跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题,使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
Figure BDA0003365760080000043
其中
Figure BDA0003365760080000044
为样本i的文本或图片细粒度特征集合,作为共享模型
Figure BDA0003365760080000045
的输入,zi为习得的图片或文本的多模态一致性表示。
步骤3.通过掩码预测和分类预测优化模型:
本发明使用掩码预测和分类预测任务训练共享模型,以获得多模态数据的一致性表示,具体步骤如下:
①使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
Figure BDA0003365760080000046
其中yi为样本标签,N为样本数量,g为分类器,
Figure BDA0003365760080000047
分别为图片和文本的多模态一致性表示。
②对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为
Figure BDA0003365760080000048
Figure BDA0003365760080000049
Figure BDA00033657600800000410
其中
Figure BDA0003365760080000051
为损失函数,gv,gw为分类器,m为掩码索引,
Figure BDA0003365760080000052
分别为图片和文本的掩码数据,
Figure BDA0003365760080000053
为掩码区域上下文信息。
③使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
步骤4.基于模型进行跨模态检索:
如图3所示,首先对图片以及文本进行区域化的输出处理,其次利用相应的位置信息与掩码信息使用共享模型进行多模态一致性的特征表示的学习,再进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度(比如:欧氏距离,余弦距离等),利用相似度矩阵计算归一化折损累计增益(NDCG)指标评估模型的性能。
本发明还提供一种基于语义共享的深度跨模态检索系统,包括:
①特征提取模块,用于提取图片和文本的细粒度特征;
②多模态一致性表示模块,用于使用共享模型学习多模态一致性表示;
③模型优化模块,用于通过掩码预测和分类预测优化模型;
④跨模态检索模块,用于基于模型进行跨模态检索。
上述模块的具体实现方式与前述的检索方法部分相同,本发明不再赘述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于语义共享的深度跨模态检索方法,其特征在于,包括如下步骤:
步骤1,提取图片和文本的细粒度特征;
步骤2,使用共享模型学习多模态一致性表示;
步骤3,通过掩码预测和分类预测优化模型;
步骤4,基于模型进行跨模态检索。
2.如权利要求1所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤1中,提取图片和文本的细粒度特征,具体为:
对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息;
对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息;
对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,公式如下所示:
Figure FDA0003365760070000011
式中
Figure FDA0003365760070000012
以及
Figure FDA0003365760070000013
分别表示输入图片的原始区域特征以及位置特征,ψ1,ψ2表示为全连接函数,φ为非线性映射函数,得到共享模型最终的输入。
3.如权利要求2所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤2中,在模型中使用共享模型学习多模态一致性表示,具体为:
使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
Figure FDA0003365760070000014
其中
Figure FDA0003365760070000015
为样本i的文本或图片细粒度特征集合,作为共享模型
Figure FDA0003365760070000016
的输入,zi为习得的图片或文本的多模态一致性表示。
4.如权利要求3所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,在模型中通过掩码预测和分类预测优化模型,包括以下步骤:
(1)使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
Figure FDA0003365760070000017
其中yi为样本标签,N为样本数量,g为分类器,
Figure FDA0003365760070000018
分别为图片和文本的多模态一致性表示;
(2)对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为:
Figure FDA0003365760070000021
Figure FDA0003365760070000022
Figure FDA0003365760070000023
其中m为掩码区域的索引值,vi、wi分别表示第i个图片以及文本实例,
Figure FDA0003365760070000024
分别为图片和文本掩码的区域信息和单词信息,
Figure FDA0003365760070000025
分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,Pgw,Pgv表示对图片以及文本的掩码预测的概率,
Figure FDA0003365760070000026
为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;
(3)使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
5.如权利要求4所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,使用共享模型学习多模态一致性特征表示进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度,利用相似度矩阵计算归一化折损累计增益指标评估模型的性能。
6.一种基于语义共享的深度跨模态检索系统,其特征在于,包括:
特征提取模块,用于提取图片和文本的细粒度特征;
多模态一致性表示模块,用于使用共享模型学习多模态一致性表示;
模型优化模块,用于通过掩码预测和分类预测优化模型;
跨模态检索模块,用于基于模型进行跨模态检索。
7.根据权利要求6所述的基于语义共享的深度跨模态检索系统,其特征在于,所述特征提取模块用于实现:
对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息;
对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息;
对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,公式如下所示:
Figure FDA0003365760070000031
式中
Figure FDA0003365760070000032
以及
Figure FDA0003365760070000033
分别表示输入图片的原始区域特征以及位置特征,ψ1,ψ2表示为全连接函数,φ为非线性映射函数,得到共享模型最终的输入。
8.根据权利要求7所述的基于语义共享的深度跨模态检索系统,其特征在于,所述多模态一致性表示模块用于实现:
使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
Figure FDA0003365760070000034
其中
Figure FDA0003365760070000035
为样本i的文本或图片细粒度特征集合,作为共享模型
Figure FDA0003365760070000036
的输入,zi为习得的图片或文本的多模态一致性表示。
9.根据权利要求8所述的基于语义共享的深度跨模态检索系统,其特征在于,所述模型优化模块用于实现:
使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
Figure FDA0003365760070000037
其中yi为样本标签,N为样本数量,g为分类器,
Figure FDA0003365760070000038
分别为图片和文本的多模态一致性表示;
对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为:
Figure FDA0003365760070000039
Figure FDA00033657600700000310
Figure FDA00033657600700000311
其中m为掩码区域的索引值,vi、wi分别表示第i个图片以及文本实例,
Figure FDA00033657600700000312
分别为图片和文本掩码的区域信息和单词信息,
Figure FDA00033657600700000313
分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,Pgw,Pgv表示对图片以及文本的掩码预测的概率,
Figure FDA00033657600700000314
为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;
使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
10.根据权利要求9所述的基于语义共享的深度跨模态检索系统,其特征在于,所述跨模态检索模块用于实现:使用共享模型学习多模态一致性特征表示进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度,利用相似度矩阵计算归一化折损累计增益指标评估模型的性能。
CN202111381465.2A 2021-11-21 2021-11-21 基于语义共享的深度跨模态检索方法及系统 Active CN114186080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111381465.2A CN114186080B (zh) 2021-11-21 2021-11-21 基于语义共享的深度跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111381465.2A CN114186080B (zh) 2021-11-21 2021-11-21 基于语义共享的深度跨模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN114186080A true CN114186080A (zh) 2022-03-15
CN114186080B CN114186080B (zh) 2024-06-11

Family

ID=80602249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111381465.2A Active CN114186080B (zh) 2021-11-21 2021-11-21 基于语义共享的深度跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN114186080B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及系统
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348109A (zh) * 2020-11-18 2021-02-09 浙江树人学院(浙江树人大学) 一种基于度量距离损失框架的半监督学习方法、设备及存储介质
CN112487822A (zh) * 2020-11-04 2021-03-12 杭州电子科技大学 一种基于深度学习的跨模态检索方法
US20210256365A1 (en) * 2017-04-10 2021-08-19 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210256365A1 (en) * 2017-04-10 2021-08-19 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space
CN112487822A (zh) * 2020-11-04 2021-03-12 杭州电子科技大学 一种基于深度学习的跨模态检索方法
CN112348109A (zh) * 2020-11-18 2021-02-09 浙江树人学院(浙江树人大学) 一种基于度量距离损失框架的半监督学习方法、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及系统
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116051859B (zh) * 2023-02-21 2023-09-08 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质

Also Published As

Publication number Publication date
CN114186080B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN108536754A (zh) 基于blstm和注意力机制的电子病历实体关系抽取方法
CN109993197A (zh) 一种基于深度端对端示例差异化的零样本多标签分类方法
CN114186080A (zh) 基于语义共享的深度跨模态检索方法及系统
CN110377744B (zh) 一种舆情分类的方法、装置、存储介质及电子设备
Shen et al. Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network
CN111104973B (zh) 一种基于知识注意力的细粒度图像分类方法
CN112001279B (zh) 基于双重属性信息的跨模态行人重识别方法
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
CN115238690A (zh) 一种基于bert的军事领域复合命名实体识别方法
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN118038299B (zh) 一种无人机场景下基于多模态的开放词集目标检测方法
CN111191033B (zh) 一种基于分类效用的开集分类方法
CN113989822B (zh) 基于计算机视觉和自然语言处理的图片表格内容提取方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
Cao et al. An Improved YOLOv4 Lightweight Traffic Sign Detection Algorithm
CN112329669B (zh) 一种电子档案管理方法
Sankaranarayanan et al. Pre-processing framework with virtual mono-layer sequence of boxes for video based vehicle detection applications
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
CN117172235A (zh) 基于相似度度量的类案判别方法及系统
CN116681975A (zh) 一种基于主动学习的开放集图像识别方法及系统
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN111860441B (zh) 基于无偏深度迁移学习的视频目标识别方法
Cao et al. A multi-label classification method for vehicle video
Lin et al. Metric learning for weather image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant