CN110555475A - 一种基于语义信息融合的少样本目标检测方法 - Google Patents

一种基于语义信息融合的少样本目标检测方法 Download PDF

Info

Publication number
CN110555475A
CN110555475A CN201910806167.XA CN201910806167A CN110555475A CN 110555475 A CN110555475 A CN 110555475A CN 201910806167 A CN201910806167 A CN 201910806167A CN 110555475 A CN110555475 A CN 110555475A
Authority
CN
China
Prior art keywords
image
semantic
prototype
feature
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910806167.XA
Other languages
English (en)
Inventor
毕盛
黎潇潇
董敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910806167.XA priority Critical patent/CN110555475A/zh
Publication of CN110555475A publication Critical patent/CN110555475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Abstract

本发明公开了一种基于语义信息融合的少样本目标检测方法,包括:1)获取基础数据,包括支持集类别的图像数据、标签、文本描述语句及验证图像;2)提取支持集图像的视觉特征、文本描述语义特征,并分别构造特征原型;3)在视觉特征原型中嵌入文本语义特征原型;4)构建用于嵌入检测器中的基于度量的分类器头;5)构建基于特征金字塔网络FPN主干的目标检测器;6)获取待检测图像并利用构建好的目标检测器进行目标检测。本发明能够融合图像数据的图像特征及文本描述语义特征,利用图像所包含的不同类型信息解决少样本数据不足的问题,有效提高少样本目标检测的准确率。

Description

一种基于语义信息融合的少样本目标检测方法
技术领域
本发明涉及计算机视觉、深度学习、小样本学习的技术领域,尤其是指一种基于语义信息融合的少样本目标检测方法。
背景技术
近年来,目标检测任务在生产生活中应用越来越广泛,用于解决查找目标位置及判断目标物类别的问题。一方面,产业的转型使工业趋向智能化发展,目标检测技术被广泛地应用于行人检测、大型场景识别和缺陷检测等领域。另一方面,RGB图像中包含着丰富的信息,随着技术的发展,视觉传感器成本也越来越低,且目标检测技术在城市治安监控、无人车巡航、病灶检测等方面发挥着重要作用,此外,现实的场景往往较为复杂,且具有光照、遮挡等干扰因素,同类别物体具有不同的形状给目标检测技术的应用带来了很大挑战,因此对目标检测技术进行更深层级的研究具有重大意义。
目前,目标检测技术研究方面主要采用基于深度学习模型的方法,但还面临如下问题:
(1)深度学习模型往往是由数据驱动,需要基于大量的数据集进行训练,但很多应用领域并没有大量的标注数据,或者数据量大但标注成本很高导致无法实际应用。
(2)在图像采集过程中,由于环境、光照、拍摄视角、遮挡以及物体自身的非刚体形变,导致物体在图像中的表观特征具有很大的多样性,对目标检测算法的鲁棒性提出了很高的要求。
(3)对于场景信息、语义信息等图像中的原有信息的利用不充分,造成一些有效信息的缺失。
(4)目前的算法,为保证检测速度,通常减少特征金字塔的图像以减少计算量,导致小目标在特征图上的不到充分训练。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于语义信息融合的少样本目标检测方法,能够融合图像数据的图像特征及文本描述语义特征,利用图像所包含的不同类型信息解决少样本数据不足的问题,有效提高少样本目标检测的准确率。
为实现上述目的,本发明所提供的技术方案为:一种基于语义信息融合的少样本目标检测方法,包括以下步骤:
1)获取基础数据,包括支持集类别的图像数据、标签、文本描述语句及验证图像;
2)提取支持集图像的视觉特征、文本描述语义特征,并分别构造特征原型;
3)在视觉特征原型中嵌入文本语义特征原型;
4)构建用于嵌入检测器中的基于度量的分类器头;
5)构建基于特征金字塔网络FPN主干的目标检测器;
6)获取待检测图像并利用构建好的目标检测器进行目标检测。
在步骤1)中,支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像,所述标签为图像中物体的位置及所属类别,所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句,所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。
在步骤2)中,所述提取支持集图像中各类别的视觉特征、文本描述语义特征,并分别构造特征原型的步骤包括:
2.1)每个包含N个图像示例的支持集C的集合描述为:
C={(x1,L1,s1),...,(xN,LN,sN)}
其中,xi表示图像示例,Li表示其标签,si表示其文本描述语句,下标i=1,2,3,…,N,为索引号;
2.2)基于卷积神经网络CNN提取可视化特征,每个点的卷积运算为:
式中,y为输出的特征映射,p0为每个像素位置,对于卷积核R有R={(-1,-1),(-1,0),…,(0,1),(1,1)},pn为卷积核中每个点的坐标,w(p0)为位置p0的权重,x为输入的原始图像,通过该卷积运算得到其可视化特征向量f(x);
2.3)对每个类别图像示例的特征向量求加权平均值得到其视觉原型V:
式中,Cr为某个类别,f(xi)为原始图像的可视化特征向量,i为索引号;
2.4)利用预先训练好的句子嵌入特征提取器BERT提取该类别的文本语义特征向量f(s),s为类别Cr的文本描述语句;
2.5)基于多层感知机MLP生成该类别图像的语义原型O,根据每个类别的语义特征数确定文本语义原型O的数量k,用于嵌入视觉原型。
在步骤3)中,在视觉特征原型中嵌入文本语义特征原型的步骤包括:
3.1)为每个语义原型Oi添加注意力机制,即在MLP输出层增加一个sigmoid函数计算一个系数αi,使视觉原型的系数为αi,文本语义原型的系数为1-αi
3.2)将视觉原型V与文本语义原型Oi结合得到类别原型P:
其中,k为语义原型的数量,αj为由sigmoid函数计算出的系数,i、j为索引号,其中j=i+1。
在步骤4)中,构建用于嵌入检测器中的基于度量的分类器头的步骤包括:
4.1)将待分类图像输入卷积神经网络CNN得到其特征向量Q;
4.2)计算类别原型P与待分类特征向量Q的余弦距离D:
D=cos<P,Q>
4.3)使用softmax归一化算子将距离D进行归一化作为待分类图像与类别的相似度prob(Q,P):
prob(Q,P)=softmax(D)
4.4)根据待分类图像与类别相似度的大小确定其类别;
4.5)训练时使用每个分支的交叉熵作为损失函数:
其中,Pt为到第t个语义原型时算出的类别原型Pt为到第t个语义原型时算出的类别原型,k为语义原型数量,t为索引号:
式中,V为视觉原型,Oi为文本语义原型,αi、αj均为由sigmoid函数计算出的系数,i、j为索引号,其中j=i+1。
在步骤5)中,构建基于特征金字塔网络FPN主干的目标检测器的步骤包括:
5.1)基于FPN检测器主干在FPN后增加步骤4)的分类器头的线性决策层,作为检测器架构,训练时以分类损失与检测损失之和作为损失函数,检测损失如下:
式中,i*表示当前示例的正确类索引,|·|+表示Relu函数,E为预测类,R为代表类,d为E与R之间的距离,i为类索引和j为示例索引;该损失旨在确定E与正确代表类的最小距离和E与错误代表类的最小距离之间的差值至少有β;
5.2)构建训练数据集,使用公开数据集ImageNet-LOC,包含图像、标签;
5.3)构建一个元学习训练器对上述目标检测器进行训练,每个训练任务由多个少样本检测任务组成,每个少样本检测任务为从训练集随机选择5类,每类随机取一个训练实例,取50个随机查询图像作为验证图像,输入检测器并通过损失函数不断调整提高检测器效果,训练完成后得到一个少样本目标检测器。
在步骤6)中,获取待检测图像并利用构建好的目标检测器进行目标检测的步骤包括:
6.1)将RGB单目视觉传感器接入PC,获取的实时图像使用OpenCV进行降噪预处理操作,并重定义大小为84*84作为待检测图像;
6.2)将待检测图像输入少样本目标检测器进行目标检测,得到检测结果。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次提出将文本语义信息与视觉信息融合用于目标检测技术,突破传统的目标检测算法仅使用视觉信息导致有效信息利用不充分的缺点,与已有少样本目标检测算法相比提高了检测精度。
2、本发明使用基于场景的元学习训练方法,使模型获得通过少样本进行学习的能力,克服训练数据不足的困难。
3、本发明采用两阶段目标检测算法,将检测问题划分为产生候选区域和对区域分类两个阶段,并在分类阶段使用基于度量的方式进行分类,使模型的通用性更强。
4、本发明采用的度量方式为使用加权平均值计算原型,使用余弦距离度量特征与原型间的相似度,相对于传统算法直接使用欧式距离减少了计算步骤从而提高计算速度。
5、本发明基于FPN检测器架构,使用FPN技术构造特征金字塔,可以利用经过top-down模型后的上下文信息,且增加特征映射的分辨率,能够有效处理小目标。
附图说明
图1为本发明方法检测流程示意图。
图2为基于度量的分类器构造过程示意图(包含视觉信息和语义信息的提取过程)。
图3为检测器训练架构图。
具体实施方式
下面结合具体实施例及附图对本发明作进一步说明,但本发明的实施方式不限于此。
如图1至图3所示,本实施例所提供的基于语义信息融合的少样本目标检测方法,使用了RGB单目视觉传感器作为辅助设备,其包括以下步骤:
1)获取基础数据,包括支持集类别的图像数据、标签、文本描述语句及验证图像,其中,所述支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像,所述标签为图像中物体的位置及所属类别,所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句,所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。
2)提取支持集图像的视觉特征、文本描述语义特征,并分别构造特征原型,包括以下步骤:
2.1)每个包含N个图像示例的支持集C的集合描述为:
C={(x1,L1,s1),...,(xN,LN,sN)}
其中,xi表示图像示例,Li表示其标签,si表示其文本描述语句,下标i=1,2,…,N为索引号;
2.2)基于ResNet-12主干网CNN,每个图像具有512个扁平输出的特征,得到图像的可视化特征向量f(x);
2.3)对每个类别图像示例的特征向量求加权平均值得到其视觉原型V:
式中,Cr为某个类别,f(xi)为原始图像的可视化特征向量,i为索引号;
2.4)利用预先训练好的句子嵌入特征提取器BERT提取该类别的文本语义特征向量f(s),s为类别Cr的文本描述语句;
2.5)基于多层感知机MLP生成该类别图像的语义原型O,本实施例中使用具有大小为300的隐藏层和大小为512的输出层的两层MLP,后面跟着一个sigmoid函数用于将注意力系数αi规范到[0,1]范围。每个MLP的隐藏层和输出层之间都包含一个速率为0.7的dropout层。
3)在视觉特征原型中嵌入文本语义特征原型,包括以下步骤;
3.1)为每个语义原型Oi添加注意力机制,即在上述MLP输出层增加一个sigmoid函数计算一个系数αi,使视觉原型的系数为αi,文本语义原型的系数为1-αi
3.2)将视觉原型V与文本语义原型Oi结合得到类别原型P:
其中,k为语义原型的数量,αj为由sigmoid函数计算出的系数,i、j为索引号,其中j=i+1。
4)构建用于嵌入检测器中的基于度量的分类器头,包括以下步骤:
4.1)将待分类图像输入卷积神经网络CNN得到其特征向量Q;
4.2)计算类别原型P与待分类特征向量Q的余弦距离D:
D=cos<P,Q>
4.3)使用softmax归一化算子将距离D进行归一化作为待分类图像与类别的相似度prob(Q,P):
prob(Q,P)=softmax(D)
4.4)根据待分类图像与类别相似度的大小确定其类别。
4.5)训练时使用每个分支的交叉熵作为损失函数:
其中,Pt为到第t个语义原型时算出的类别原型,k为语义原型数量,t为索引号:
式中,V为视觉原型,Oi为文本语义原型,αiαj均为由sigmoid函数计算出的系数,i、j为索引号,其中j=i+1。
5)构建基于特征金字塔网络FPN主干的目标检测器,包括以下步骤:
5.1)基于FPN检测器主干在FPN后增加上述分类器头的线性决策层,作为检测器架构,训练时以分类损失与检测损失之和作为损失函数,检测损失如下:
式中,i*表示当前示例的正确类索引,|·|+表示Relu函数,E为预测类,R为代表类,d为E与R之间的距离,i为类索引和j为示例索引。该损失旨在确定E与正确代表类的最小距离和E与错误代表类的最小距离之间的差值至少有β。
5.2)构建训练数据集,使用公开数据集ImageNet-LOC,包含图像、标签;
5.3)使用WordNet提取ImageNet-LOC中类别的描述。示例如表1:
表1类别文本描述示例
类别标签 描述
Sorrel "A horse of a brownish orange to light brown color"
Consomme "Clear soup usually of beef or veal or chicken"
Bookshop "A shop where books are sold"
5.3)构建一个元学习训练器对上述目标检测器进行训练,本实施例中进行1000轮训练。每一轮中对5-way,1-shot的少样本任务进行500次训练,每次训练取5个随机选择的类,每个类随机取1个训练实例,取50个随机查询图像,这些图像中包含一个或多个属于这些类的实例,输入检测器并通过损失函数不断调整提高检测器效果,目标是检测并正确分类这些实例,训练完成后得到一个少样本目标检测器。
6)获取待检测图像并利用构建好的目标检测器进行目标检测,包括以下步骤:
6.1)将RGB单目视觉传感器接入PC,获取的实时图像使用OpenCV进行降噪等预处理操作,并重定义大小为84*84作为待检测图像;
6.2)将待检测图像输入少样本目标检测器进行目标检测,得到检测结果。
综上所述,在采用以上方案,本发明为少样本目标检测提供了新的方法,将视觉和文本语义信息融合作为提高目标检测精确度的一种有效手段,为少样本目标检测问题提供了一种有效思路,具有研究价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于语义信息融合的少样本目标检测方法,其特征在于,包括以下步骤:
1)获取基础数据,包括支持集类别的图像数据、标签、文本描述语句及验证图像;
2)提取支持集图像的视觉特征、文本描述语义特征,并分别构造特征原型;
3)在视觉特征原型中嵌入文本语义特征原型;
4)构建用于嵌入检测器中的基于度量的分类器头;
5)构建基于特征金字塔网络FPN主干的目标检测器;
6)获取待检测图像并利用构建好的目标检测器进行目标检测。
2.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤1)中,支持集类别的图像数据是指从数据集中获得的用作模型支持集的RGB图像,所述标签为图像中物体的位置及所属类别,所述文本描述语句是指从数据集中获得的对应每个类别物体的文本描述语句,所述验证图像是指从数据集中支持集以外随机获取的用于验证检测器效果的RGB图像。
3.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤2)中,所述提取支持集图像中各类别的视觉特征、文本描述语义特征,并分别构造特征原型的步骤包括:
2.1)每个包含N个图像示例的支持集C的集合描述为:
C={(x1,L1,s1),...,(xN,LN,sN)}
其中,xi表示图像示例,Li表示其标签,si表示其文本描述语句,下标i=1,2,3,…,N,为索引号;
2.2)基于卷积神经网络CNN提取可视化特征,每个点的卷积运算为:
式中,y为输出的特征映射,p0为每个像素位置,对于卷积核R有R={(-1,-1),(-1,0),…,(0,1),(1,1)},pn为卷积核中每个点的坐标,w(p0)为位置p0的权重,x为输入的原始图像,通过该卷积运算得到其可视化特征向量f(x);
2.3)对每个类别图像示例的特征向量求加权平均值得到其视觉原型V:
式中,Cr为某个类别,f(xi)为原始图像的可视化特征向量,i为索引号;
2.4)利用预先训练好的句子嵌入特征提取器BERT提取该类别的文本语义特征向量f(s),s为类别Cr的文本描述语句;
2.5)基于多层感知机MLP生成该类别图像的语义原型O,根据每个类别的语义特征数确定文本语义原型O的数量k,用于嵌入视觉原型。
4.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤3)中,在视觉特征原型中嵌入文本语义特征原型的步骤包括:
3.1)为每个语义原型O添加注意力机制,即在MLP输出层增加一个sigmoid函数计算一个系数αi,使视觉原型的系数为αi,文本语义原型的系数为1-αi
3.2)将视觉原型V与文本语义原型Oi结合得到类别原型P:
式中,k为语义原型的数量,αj为由sigmoid函数计算出的系数,i、j为索引号,其中j=i+1。
5.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤4)中,构建用于嵌入检测器中的基于度量的分类器头的步骤包括:
4.1)将待分类图像输入卷积神经网络CNN得到其特征向量Q;
4.2)计算类别原型P与待分类特征向量Q的余弦距离D:
D=cos<P,Q>
4.3)使用softmax归一化算子将距离D进行归一化作为待分类图像与类别的相似度prob(Q,P):
prob(Q,P)=softmax(D)
4.4)根据待分类图像与类别相似度的大小确定其类别;
4.5)训练时使用每个分支的交叉熵CEloss作为损失函数:
其中,Pt为到第t个语义原型时算出的类别原型,k为语义原型数量,t为索引号:
式中,V为视觉原型,Oi为文本语义原型,αi、αj均为由sigmoid函数计算出的系数,i、j为索引号,其中j=i+1。
6.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤5)中,构建基于特征金字塔网络FPN主干的目标检测器的步骤包括:
5.1)基于FPN检测器主干在FPN后增加步骤4)的分类器头的线性决策层,作为检测器架构,训练时以分类损失与检测损失之和作为损失函数,检测损失如下:
式中,i*表示当前示例的正确类索引,|·|+表示Relu函数,E为预测类,R为代表类,d为E与R之间的距离,i为类索引和j为示例索引;该损失旨在确定E与正确代表类的最小距离和E与错误代表类的最小距离之间的差值至少有β;
5.2)构建训练数据集,使用公开数据集ImageNet-LOC,包含图像、标签;
5.3)构建一个元学习训练器对上述目标检测器进行训练,每个训练任务由多个少样本检测任务组成,每个少样本检测任务为从训练集随机选择5类,每类随机取一个训练实例,取50个随机查询图像作为验证图像,输入检测器并通过损失函数不断调整提高检测器效果,训练完成后得到一个少样本目标检测器。
7.根据权利要求1所述的一种基于语义信息融合的少样本目标检测方法,其特征在于:在步骤6)中,获取待检测图像并利用构建好的目标检测器进行目标检测的步骤包括:
6.1)将RGB单目视觉传感器接入PC,获取的实时图像使用OpenCV进行降噪预处理操作,并重定义大小为84*84作为待检测图像;
6.2)将待检测图像输入少样本目标检测器进行目标检测,得到检测结果。
CN201910806167.XA 2019-08-29 2019-08-29 一种基于语义信息融合的少样本目标检测方法 Pending CN110555475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910806167.XA CN110555475A (zh) 2019-08-29 2019-08-29 一种基于语义信息融合的少样本目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910806167.XA CN110555475A (zh) 2019-08-29 2019-08-29 一种基于语义信息融合的少样本目标检测方法

Publications (1)

Publication Number Publication Date
CN110555475A true CN110555475A (zh) 2019-12-10

Family

ID=68738290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910806167.XA Pending CN110555475A (zh) 2019-08-29 2019-08-29 一种基于语义信息融合的少样本目标检测方法

Country Status (1)

Country Link
CN (1) CN110555475A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553378A (zh) * 2020-03-16 2020-08-18 北京达佳互联信息技术有限公司 图像分类模型训练方法、装置、电子设备及计算机可读存储介质
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法
CN111797893A (zh) * 2020-05-26 2020-10-20 华为技术有限公司 一种神经网络的训练方法、图像分类系统及相关设备
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN112150471A (zh) * 2020-09-23 2020-12-29 创新奇智(上海)科技有限公司 基于少样本的语义分割方法及装置、电子设备、存储介质
CN112270366A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于自适应多特征融合的微小目标检测方法
CN112597278A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN112633419A (zh) * 2021-03-09 2021-04-09 浙江宇视科技有限公司 小样本学习方法、装置、电子设备和存储介质
CN113052185A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于Faster R-CNN的小样本目标检测方法
CN113255829A (zh) * 2021-06-17 2021-08-13 中国科学院自动化研究所 基于深度学习的零样本图像目标检测方法和装置
CN113378936A (zh) * 2021-06-11 2021-09-10 长沙军民先进技术研究有限公司 一种基于Faster RCNN的少样本目标检测方法
CN113420642A (zh) * 2021-06-21 2021-09-21 西安电子科技大学 一种基于类别语义特征重加权的小样本目标检测方法及系统
CN113434722A (zh) * 2021-06-30 2021-09-24 北京市商汤科技开发有限公司 图像分类方法、装置、设备及计算机可读存储介质
CN113723170A (zh) * 2020-05-22 2021-11-30 罗伯特·博世有限公司 危险检测整合架构系统和方法
CN114003292A (zh) * 2021-12-30 2022-02-01 中科亿海微电子科技(苏州)有限公司 一种分支预测方法、装置及处理器核
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN116051943A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨模态知识引导的小样本神经网络目标检测方法
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373518A (zh) * 2008-06-28 2009-02-25 合肥工业大学 图像理解中基于语义信息原型向量构成及序参量重构方法
WO2016043659A1 (en) * 2014-09-15 2016-03-24 Temasek Life Sciences Laboratory Limited Image recognition system and method
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
WO2019146422A1 (ja) * 2018-01-25 2019-08-01 ソニー株式会社 情報処理装置、情報処理方法、プログラムおよびロボット
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373518A (zh) * 2008-06-28 2009-02-25 合肥工业大学 图像理解中基于语义信息原型向量构成及序参量重构方法
WO2016043659A1 (en) * 2014-09-15 2016-03-24 Temasek Life Sciences Laboratory Limited Image recognition system and method
WO2019146422A1 (ja) * 2018-01-25 2019-08-01 ソニー株式会社 情報処理装置、情報処理方法、プログラムおよびロボット
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ELI SCHWARTZ, ET AL: "Baby steps towards few-shot learning with multiple semantics", 《ARXIV:1906.01905V1》 *
JAKE SNELL,ET AL: "Prototypical Networks for Few-shot Learning", 《ARXIV:1703.05175》 *
JIFENG DAI, ET AL: "Deformable Convolutional Networks", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
LEONID KARLINSKY,ET AL: "RepMet: Representative-based metric learning for classification and few-shot object detection", 《ARXIV:1806.04728V3》 *
SCOTT REED,ET AL: "Learning Deep Representations of Fine-Grained Visual Descriptions", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553378A (zh) * 2020-03-16 2020-08-18 北京达佳互联信息技术有限公司 图像分类模型训练方法、装置、电子设备及计算机可读存储介质
CN111553378B (zh) * 2020-03-16 2024-02-20 北京达佳互联信息技术有限公司 图像分类模型训练方法、装置、电子设备及计算机可读存储介质
CN113723170A (zh) * 2020-05-22 2021-11-30 罗伯特·博世有限公司 危险检测整合架构系统和方法
CN111797893A (zh) * 2020-05-26 2020-10-20 华为技术有限公司 一种神经网络的训练方法、图像分类系统及相关设备
CN111859005A (zh) * 2020-07-01 2020-10-30 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法
CN112150471A (zh) * 2020-09-23 2020-12-29 创新奇智(上海)科技有限公司 基于少样本的语义分割方法及装置、电子设备、存储介质
CN112150471B (zh) * 2020-09-23 2023-09-05 创新奇智(上海)科技有限公司 基于少样本的语义分割方法及装置、电子设备、存储介质
CN112270366A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于自适应多特征融合的微小目标检测方法
CN112597278A (zh) * 2020-12-25 2021-04-02 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN112633419A (zh) * 2021-03-09 2021-04-09 浙江宇视科技有限公司 小样本学习方法、装置、电子设备和存储介质
CN113052185A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于Faster R-CNN的小样本目标检测方法
CN113378936A (zh) * 2021-06-11 2021-09-10 长沙军民先进技术研究有限公司 一种基于Faster RCNN的少样本目标检测方法
CN113378936B (zh) * 2021-06-11 2024-03-08 长沙军民先进技术研究有限公司 一种基于Faster RCNN的少样本目标检测方法
CN113255829A (zh) * 2021-06-17 2021-08-13 中国科学院自动化研究所 基于深度学习的零样本图像目标检测方法和装置
CN113255829B (zh) * 2021-06-17 2021-12-07 中国科学院自动化研究所 基于深度学习的零样本图像目标检测方法和装置
CN113420642A (zh) * 2021-06-21 2021-09-21 西安电子科技大学 一种基于类别语义特征重加权的小样本目标检测方法及系统
CN113434722A (zh) * 2021-06-30 2021-09-24 北京市商汤科技开发有限公司 图像分类方法、装置、设备及计算机可读存储介质
CN114003292B (zh) * 2021-12-30 2022-03-15 中科亿海微电子科技(苏州)有限公司 一种分支预测方法、装置及处理器核
CN114003292A (zh) * 2021-12-30 2022-02-01 中科亿海微电子科技(苏州)有限公司 一种分支预测方法、装置及处理器核
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN116051943A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨模态知识引导的小样本神经网络目标检测方法
CN116051943B (zh) * 2022-12-20 2023-06-23 中国科学院空天信息创新研究院 跨模态知识引导的小样本神经网络目标检测方法
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116452895B (zh) * 2023-06-13 2023-10-20 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质

Similar Documents

Publication Publication Date Title
CN110555475A (zh) 一种基于语义信息融合的少样本目标检测方法
Liao et al. Textboxes: A fast text detector with a single deep neural network
Zhang et al. Scale adaptive proposal network for object detection in remote sensing images
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
Zou et al. A robust license plate recognition model based on bi-lstm
CN110807434B (zh) 一种基于人体解析粗细粒度结合的行人重识别系统及方法
Pan et al. A robust system to detect and localize texts in natural scene images
CN103984943B (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN110807422A (zh) 一种基于深度学习的自然场景文本检测方法
CN105574550A (zh) 一种车辆识别方法及装置
CN109101938B (zh) 一种基于卷积神经网络的多标签年龄估计方法
CN106022231A (zh) 一种基于多特征融合的行人快速检测的技术方法
Li et al. Category dictionary guided unsupervised domain adaptation for object detection
CN103793926B (zh) 基于样本重选择的目标跟踪方法
CN102385592B (zh) 图像概念的检测方法和装置
CN111339975A (zh) 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN110659374A (zh) 一种基于神经网络提取车辆特征值及属性的以图搜图方法
CN110348280A (zh) 基于cnn结构神经网络的水书文字识别方法
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
CN112418207B (zh) 一种基于自注意力蒸馏的弱监督文字检测方法
CN113920494A (zh) 一种基于transformer的车牌字符识别方法
Duan et al. Attention enhanced convnet-RNN for Chinese vehicle license plate recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191210