CN116051943B - 跨模态知识引导的小样本神经网络目标检测方法 - Google Patents

跨模态知识引导的小样本神经网络目标检测方法 Download PDF

Info

Publication number
CN116051943B
CN116051943B CN202211642380.XA CN202211642380A CN116051943B CN 116051943 B CN116051943 B CN 116051943B CN 202211642380 A CN202211642380 A CN 202211642380A CN 116051943 B CN116051943 B CN 116051943B
Authority
CN
China
Prior art keywords
network
category
target
target detection
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211642380.XA
Other languages
English (en)
Other versions
CN116051943A (zh
Inventor
刁文辉
路晓男
冯瑛超
张强
闫志远
李俊希
申志平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202211642380.XA priority Critical patent/CN116051943B/zh
Publication of CN116051943A publication Critical patent/CN116051943A/zh
Application granted granted Critical
Publication of CN116051943B publication Critical patent/CN116051943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种跨模态知识引导的小样本神经网络目标检测方法,包括:构建目标检测模型;获取已标注的样本图像集;将所述样本图像集输入到所述目标检测模型中进行训练,得到训练好的目标检测模型,作为小样本目标检测模型;利用所述小样本目标检测模型对目标图像中的目标的类别和位置进行检测。本发明在现有的神经网络小样本目标检测方法的基础上,引入文本模态知识,通过文本知识提取网络和跨模态知识融合网络将从每个类别的文本描述中提取的高级语义信息与图像特征融合,进而送入检测头部网络实现新类别目标的预测,解决小样本图像数据中类别泛化信息不足的问题,能够提升神经网络小样本目标检测的性能。

Description

跨模态知识引导的小样本神经网络目标检测方法
技术领域
本发明涉及深度神经网络以及计算机视觉领域,特别是涉及一种跨模态知识引导的小样本神经网络目标检测方法。
背景技术
基于深度学习的目标检测模型都需要大量的数据投喂才能获得较好的泛化性能,然而标注大量的数据是十分耗费人力和时间的过程。相反,人类则可以根据新事物的极少样例学会识别新的物体。因此,小样本目标检测被提出。小样本目标检测将在数据量充足的基类数据集上学习的知识迁移到数据量极少的新类数据集上,以提升新类别的检测效果。
神经网络小样本目标检测方法可以分为基于元学习的方法和基于微调的方法。基于元学习的方法受小样本学习的启发,构建包含支撑集和查询集的小样本任务。支撑集由每个类别的k个目标实例构成,查询集是需要检测目标的图片。基于元学习的小样本目标检测方法从支撑集中提取每个类别的原型特征,以用于检测出查询集图像中对应类别的目标。基于微调的小样本目标检测方法则首先在数据丰富的包含基类的数据上训练模型,然后在数据有限的包含新类别的数据集上进行微调,使模型可以检测出新类别的实例。然而,当前的小样本目标检测方法都只在少量的图片中提取信息,当每个类别的图片数量很少时,图片中包含的信息不具有泛化性,模型无法学习到该类别真正的特性。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供一种跨模态知识引导的小样本神经网络目标检测方法,所述方法包括如下步骤:
S100,构建目标检测模型;所述目标检测模型用于基于m个设定类别的文本描述对待检测图像中的目标的所属类别和位置进行检测,所述小样本目标神经网络模型包括特征提取器、候选区域生成网络、文本知识提取网络、跨模态知识融合网络和检测头部网络;其中,每个设定类别的文本描述用于描述对应设定类别的固有属性,并且,任意两个设定类别的文本描述之间的相似度小于设定相似度阈值;
S200,获取已标注的样本图像集;所述样本图像集包括m个设定类别的样本图像,并且属于同一设定类别的样本图像的数量小于设定数量阈值;
S300,将所述样本图像集输入到所述目标检测模型中进行训练,得到训练好的目标检测模型,作为小样本目标检测模型;
S400,利用所述小样本目标检测模型对目标图像中的目标的类别和位置进行检测;
其中,S300具体包括:
S301,将任一样本图像IMGi输入到所述特征提取器中进行特征提取,得到对应的特征图IFi;i的取值为1到n,n为样本图像集中的样本图像数量;
S302,将IFi输入到所述候选区域生成网络中进行候选区域特征提取,得到对应的f(i)个候选区域特征向量;
S303,将第j个设定类别的文本描述输入到所述文本知识提取网络中进文本语义特征提取,得到对应的文本语义特征向量TFj;j的取值为1到m;
S304,将IFi对应的第k个候选区域特征向量IFik和TFj输入到跨模态知识融合网络中进行融合,得到对应的融合特征向量ITFj ik;k的取值为1到f(i);
S305,将ITFj ik输入到检测头部网络中进行检测,得到对应的检测结果;
S306,基于每个样本图像对应的检测结果和设定损失函数获取当前检测模型对应的损失,所述损失包括类别损失和位置损失;
S307,设置C=C+1;如果当前检测模型对应的损失小于设定损失阈值,或者,C>C0,则将当前检测模型作为所述小样本目标检测模型,否则,执行S301;C的初始值为0,C0为设定迭代次数。
本发明至少具有以下有益效果:
本发明在现有的神经网络小样本目标检测方法的基础上,引入文本模态知识,通过文本知识提取网络和跨模态知识融合网络将从每个类别的文本描述中提取的高级语义信息与图像特征融合,进而送入检测头部网络实现新类别目标的预测,解决小样本图像数据中类别泛化信息不足的问题,能够提升神经网络小样本目标检测的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的跨模态知识引导的小样本神经网络目标检测方法的流程图。
图2为示出文本语义特征的示意图。
图3为示出融合特征提取的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的跨模态知识引导的小样本神经网络目标检测方法的流程图。
本发明实施例提供一种跨模态知识引导的小样本神经网络目标检测方法,如图1所示,所述方法可包括如下步骤:
S100,构建目标检测模型;所述目标检测模型用于基于m个设定类别的文本描述对待检测图像中的目标的所属类别和位置进行检测,所述小样本目标神经网络模型包括特征提取器、候选区域生成网络、文本知识提取网络、跨模态知识融合网络和检测头部网络;其中,每个设定类别的文本描述用于描述对应设定类别的固有属性,并且,任意两个设定类别的文本描述之间的相似度小于设定相似度阈值。
在本发明实施例中,目标检测模型可为神经网络模型,例如,Faster RCNN网络结构。本领域技术人员知晓,构建目标检测模型可包括设置模型的初始信息,包括网络参数的初始值、迭代次数C0、损失函数等。
其中,特征提取器可为残差网络。在一个示意性实施例中,可为50层的残差网络。优选,在另一个示意性实施例中,特征提取器可为101层的残差网络,以提取到更多的特征信息。
候选区域生成网络可由三个卷积层依次串联构成,每个卷积层卷积核可为1×1卷积核,每个卷积层的网络参数不同。文本知识提取网络可为门控循环神经网络,如图2所示。
跨模态知识融合网络可由三个卷积层构成,分别为第一卷积层、第二卷积层和第三卷积层,如图3所示。跨模态知识融合网络的每个卷积层卷积核可为1×1卷积核,每个卷积层的网络参数不同。
在本发明实施例中,检测头部网络可由全连接层组成。全连接层的结构可为现有结构。
在本发明实施例中,设定类别可基于实际需要进行设置,可以为大类,也可以为大类中的具体型号,例如,设定类别可包括机场、车辆、储罐、船舶、飞机、波音737等。每个设定类别的文本描述用于描述对应设定类别的固有属性,即能够每个类别的文本描述被设置为能够知晓该类别的固有属性(包括共性和独特性),例如,飞机的文本描述可为:具有一个机身和两个机翼等。任意两个设定类别的文本描述之间具有正交性或者具有基本正交性,即任意两个设定类别的文本描述之间的相似度小于设定相似度阈值,从而能够使得任意两个设定类别能够容易被区分开来。设定相似度阈值可为经验值。任意两个设定类别的文本描述之间的相似度可基于现有的相似度计算方法获取,例如,欧式距离、马氏距离等。
S200,获取已标注的样本图像集;所述样本图像集包括m个设定类别的样本图像,并且属于同一设定类别的样本图像的数量小于设定数量阈值。
在本发明实施例中,样本图像集中可包括n个样本图像,n可基于实际需要进行设置。优选,每个类别对应的样本图像的数量可相同。
每个样本图像中标注了目标的类别和位置。位置可包括目标在图像中的中心坐标和目标在图像中的高度和宽度等。
在本发明实施例中,设定数量阈值可基于实际需要设置,例如,可为小于20的数值。由于每个类别对应的样本图像的数量小于设定数量阈值,所以本发明实施例中训练用的样本为小样本,训练得到的目标检测模型为小样本目标检测模型。
S300,将所述样本图像集输入到所述小样本目标检测模型中进行训练,得到训练好的小样本目标检测模型。
进一步地,S300可具体包括:
S301,将任一样本图像IMGi输入到所述特征提取器中进行特征提取,得到对应的特征图IFi;i的取值为1到n。
在本发明实施例的特征提取器采用101层的残差网络时,IFi为下采样32倍的2048维的特征图。
通过S301,可得到所有样本图像的特征图。
S302,将IFi输入到所述候选区域生成网络中进行候选区域特征提取,得到对应的f(i)个候选区域特征向量。
在本发明实施例中,每个特征图的候选区域特征可为可能包含该特征图中的目标的区域特征。每个候选区域特征向量为将对应的候选区域特征进行池化后得到的2048维的特征向量。
本领域技术人员知晓,将IFi输入到卷积网络中进行候选区域特征提取,得到对应的f(i)个候选区域特征向量可为现有技术。
通过S302,可得到每个特征图的候选区域特征向量。
S303,将第j个设定类别的文本描述输入到所述文本知识提取网络中进文本语义特征提取,得到对应的文本语义特征向量TFj;j的取值为1到m。
如图2所示,每个设定类别的文本描述可通过门控循环神经网络得到对应的文本语义特征向量,在本发明实施例中,为2048维的文本语义特征向量。本领域技术人员知晓,通过门控循环神经网络获取文本描述的文本语义特征可为现有技术。
S304,将IFi对应的第k个候选区域特征向量IFik和TFj输入到跨模态知识融合网络中进行融合,得到对应的融合特征向量ITFj ik;k的取值为1到f(i)。
如图3所示,S304可具体包括:
S3041,将IFik输入到所述第一卷积层中进行特征提取,得到对应的第一特征向量IF1ik
S3042,将TFj输入到所述第二卷积层和所述第三卷积层中进行特征提取,分别得到对应的第二特征向量TF2j和第三特征向量TF3j
S3043,获取融合特征向量ITFj ik=IFik+(IF1ik×TF2j)×TF3j,即首先将图像特征和第二卷积层卷积得到的文本语义特征进行乘法计算,得到一个权重,然后将这个权重与第三卷积层得到的文本语义特征进行乘法计算,对第三卷积层得到的文本语义特征进行调整,以使得其能够更适合融合到图像特征中。
S304的技术效果在于,将文本语义特征融合到图像特征中,能够丰富图像特征中的类别泛化信息。
S305,将ITFj ik输入到检测头部网络中进行检测,得到对应的检测结果。
将ITFj ik输入到由全连接层组成的检测头部网络中后,会得到(m+4)个输出结果,包括对应的目标属于每个类别的概率和在图像中的位置,具体实现可为现有技术。
在本发明实施例中,ITFj ik的检测结果可包括(Pr ik,Gik),Pr ik为ITFj ik对应的样本图像中的目标属于设定类别r的概率,r的取值为1到m,Pr ik=max(P1 ik,P2 ik,…,Pj ik,…,Pm ik),即检测结果中的类别为所有输出结果中的概率最大概率对应的类别。Gik为ITFj ik对应的样本图像中的目标在图像中的位置,Gik=(Xik,Yik,Hik,Wik,),Xik和Yik为ITFj ik对应的样本图像中的目标在图像中的中心点的横坐标和纵坐标,Hik和Wik分别为ITFj ik对应的样本图像中的目标在图像中的高度和宽度。
S306,获基于每个样本图像对应的检测结果和设定损失函数获取当前检测模型对应的损失,所述损失包括类别损失和位置损失。
在本发明实施例中,所述设定损失函数可包括用于计算类别损失的交叉熵损失函数和用于计算位置损失的L1损失函数。当前检测模型的类别损失可为所有样本图像的类别损失之和,当前检测模型的位置损失可为所有样本图像的位置损失之和。每个样本图像对应的类别损失和位置损失可为现有技术,例如,第i个样本图像对应的类别损失可为
Figure BDA0004008045850000061
P1r ik为ITFj ik对应的样本图像中的目标属于设定类别r的真实概率。第i个样本图像对应的位置损失可为/>
Figure BDA0004008045850000062
Gik为ITFj ik对应的样本图像中的目标在图像中的真实位置。
S307,设置C=C+1;如果当前检测模型对应的损失小于设定损失阈值,即类别损失和位置损失均小于设定损失阈值,或者,C>C0,则将当前检测模型作为所述小样本目标检测模型,否则,执行S301;C的初始值为0。
在本发明实施例中,设定损失阈值可为经验值。C0可根据经验进行设置。本领域技术人员知晓,如果训练次数达到C0,但是损失函数还没有收敛,则说明训练参数设置不合理,需要增加训练次数,具体实现方式可为现有技术。
S400,利用所述训练好的小样本目标检测模型对目标图像中的目标的类别和位置进行检测。
进一步地,在本发明实施例中,S400具体可包括:
S401,将目标图像输入到所述特征提取器中进行特征提取,得到对应的图像特征图;
S402,将所述图像特征图输入到所述候选区域生成网络中进行候选区域特征提取,得到对应的H个候选区域特征向量。
S403,将第s个设定类别的文字描述输入到所述文本知识提取网络中进文本语义特征提取,得到对应的文本语义特征向量;s的取值为1到m。
S404,将第t个候选区域特征向量与第s个文本语义特征向量输入到跨模态知识融合网络中进行融合,得到对应的融合特征向量Fts;t的取值为1到H。
S405,将Fts输入到检测头部网络中进行检测,得到目标图像中的目标的类别和位置。
步骤S401至S405的具体实施可参照前述的S301至S305。
本发明实施例提供的跨模态知识引导的小样本神经网络目标检测方法,在使用DIOR数据集作为训练集开展目标检测实验时,由于将文本语义特征融合到图像特征中,与没有融合文本语义特征的检测方法相比,能够提高检索结果的mAP(准确率),如下表1所示:
表1在DIOR数据集上的实验结果
Figure BDA0004008045850000071
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims (10)

1.一种跨模态知识引导的小样本神经网络目标检测方法,其特征在于,所述方法包括如下步骤:
S100,构建目标检测模型;所述目标检测模型用于基于m个设定类别的文本描述对待检测图像中的目标的所属类别和位置进行检测,所述小样本目标神经网络模型包括特征提取器、候选区域生成网络、文本知识提取网络、跨模态知识融合网络和检测头部网络;其中,每个设定类别的文本描述用于描述对应设定类别的固有属性,并且,任意两个设定类别的文本描述之间的相似度小于设定相似度阈值;
S200,获取已标注的样本图像集;所述样本图像集包括m个设定类别的样本图像,并且属于同一设定类别的样本图像的数量小于设定数量阈值;
S300,将所述样本图像集输入到所述目标检测模型中进行训练,得到训练好的目标检测模型,作为小样本目标检测模型;
S400,利用所述小样本目标检测模型对目标图像中的目标的类别和位置进行检测;
其中,S300具体包括:
S301,将任一样本图像IMGi输入到所述特征提取器中进行特征提取,得到对应的特征图IFi;i的取值为1到n,n为样本图像集中的样本图像数量;
S302,将IFi输入到所述候选区域生成网络中进行候选区域特征提取,得到对应的f(i)个候选区域特征向量;
S303,将第j个设定类别的文本描述输入到所述文本知识提取网络中进文本语义特征提取,得到对应的文本语义特征向量TFj;j的取值为1到m;
S304,将IFi对应的第k个候选区域特征向量IFik和TFj输入到跨模态知识融合网络中进行融合,得到对应的融合特征向量ITFj ik;k的取值为1到f(i);
S305,将ITFj ik输入到检测头部网络中进行检测,得到对应的检测结果;
S306,基于每个样本图像对应的检测结果和设定损失函数获取当前检测模型对应的损失,所述损失包括类别损失和位置损失;
S307,设置C=C+1;如果当前检测模型对应的损失小于设定损失阈值,或者,C>C0,则将当前检测模型作为所述小样本目标检测模型,否则,执行S301;C为次数计数器,C的初始值为0,C0为设定迭代次数。
2.根据权利要求1所述的方法,其特征在于,所述特征提取器为残差网络。
3.根据权利要求2所述的方法,其特征在于,所述残差网络的层数为50层或者101层。
4.根据权利要求1所述的方法,其特征在于,所述候选区域生成网络由三个卷积层依次串联构成。
5.根据权利要求4所述的方法,其特征在于,每个卷积层的卷积核为1×1卷积核。
6.根据权利要求1所述的方法,其特征在于,所述文本知识提取网络为门控循环神经网络。
7.根据权利要求1所述的方法,其特征在于,所述跨模态知识融合网络由三个卷积层构成,分别为第一卷积层、第二卷积层和第三卷积层。
8.根据权利要求7所述的方法,其特征在于,S304具体包括:
S3041,将IFik输入到所述第一卷积层中进行特征提取,得到对应的第一特征向量IF1ik
S3042,将TFj输入到所述第二卷积层和所述第三卷积层中进行特征提取,分别得到对应的第二特征向量TF2j和第三特征向量TF3j
S3043,获取融合特征向量ITFj ik=IFik+(IF1ik×TF2j)×TF3j
9.根据权利要求7所述的方法,其特征在于,每个卷积层的卷积核为1×1卷积核。
10.根据权利要求1所述的方法,其特征在于,所述设定损失函数包括用于计算类别损失的交叉熵损失函数和用于计算位置损失的L1损失函数。
CN202211642380.XA 2022-12-20 2022-12-20 跨模态知识引导的小样本神经网络目标检测方法 Active CN116051943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211642380.XA CN116051943B (zh) 2022-12-20 2022-12-20 跨模态知识引导的小样本神经网络目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211642380.XA CN116051943B (zh) 2022-12-20 2022-12-20 跨模态知识引导的小样本神经网络目标检测方法

Publications (2)

Publication Number Publication Date
CN116051943A CN116051943A (zh) 2023-05-02
CN116051943B true CN116051943B (zh) 2023-06-23

Family

ID=86126602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211642380.XA Active CN116051943B (zh) 2022-12-20 2022-12-20 跨模态知识引导的小样本神经网络目标检测方法

Country Status (1)

Country Link
CN (1) CN116051943B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452895B (zh) * 2023-06-13 2023-10-20 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN117132600B (zh) * 2023-10-26 2024-04-16 广东岚瑞新材料科技集团有限公司 基于图像的注塑制品质量检测系统及其方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN115100532A (zh) * 2022-08-02 2022-09-23 北京卫星信息工程研究所 小样本遥感图像目标检测方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN115100532A (zh) * 2022-08-02 2022-09-23 北京卫星信息工程研究所 小样本遥感图像目标检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王旭.面向跨模态检索与分类的多视图神经网络学习方法.中国博士学位论文全文数据库 信息科技辑.2022,I138-271. *

Also Published As

Publication number Publication date
CN116051943A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN116051943B (zh) 跨模态知识引导的小样本神经网络目标检测方法
Lu et al. Object detection based on SSD-ResNet
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN110598029A (zh) 基于注意力转移机制的细粒度图像分类方法
CN107437100A (zh) 一种基于跨模态关联学习的图像位置预测方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN108170823B (zh) 一种基于高层语义属性理解的手绘交互式三维模型检索方法
CN106599824B (zh) 一种基于情感对的gif动画情感识别方法
CN112256904A (zh) 一种基于视觉描述语句的图像检索方法
EP3929800A1 (en) Skill word evaluation method and device, electronic device, and computer readable medium
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
CN109977253A (zh) 一种基于语义和内容的快速图像检索方法及装置
CN116977710A (zh) 一种遥感图像长尾分布目标半监督检测方法
CN113537206B (zh) 推送数据检测方法、装置、计算机设备和存储介质
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN116958740A (zh) 基于语义感知和自适应对比学习的零样本目标检测方法
Anusha et al. Object detection using deep learning
Tian et al. Research on image classification based on a combination of text and visual features
CN115631444A (zh) 一种无人机航拍图像目标检测算法
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
CN110851633B (zh) 一种实现同时定位和哈希的细粒度图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant