CN111401122B - 一种基于知识分类的复杂目标渐近识别方法及装置 - Google Patents

一种基于知识分类的复杂目标渐近识别方法及装置 Download PDF

Info

Publication number
CN111401122B
CN111401122B CN201911377824.XA CN201911377824A CN111401122B CN 111401122 B CN111401122 B CN 111401122B CN 201911377824 A CN201911377824 A CN 201911377824A CN 111401122 B CN111401122 B CN 111401122B
Authority
CN
China
Prior art keywords
resolution
asymptotic
low
bilinear
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911377824.XA
Other languages
English (en)
Other versions
CN111401122A (zh
Inventor
胡君
贺东华
方标新
韦章兵
贾小月
殷贺琦
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201911377824.XA priority Critical patent/CN111401122B/zh
Publication of CN111401122A publication Critical patent/CN111401122A/zh
Application granted granted Critical
Publication of CN111401122B publication Critical patent/CN111401122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于知识分类的复杂目标渐近识别方法及装置。该方法包括:图像预处理,将原始图像数据集I分为多种级别分辨率的数据集,作为复杂目标渐近识别的基准数据集;将图像批量输入在ImageNet数据集上预训练的VGG‑16网络进行特征提取;将提取到的多种分辨率的特征,进行双线性特征融合计算和三线性特征融合计算;利用融合后的特征预测类别。本方法融合三线性池化和双线性池化的特征,在统一的框架内规划复杂目标的粗粒度任务和细粒度任务。解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考。

Description

一种基于知识分类的复杂目标渐近识别方法及装置
技术领域
本发明属于图像识别领域,涉及细粒度图像识别与检索,具体涉及一种基于知识分类的复杂目标渐近识别方法及装置。
背景技术
近年来,细粒度图像识别与检索已成为视觉计算和信息检索领域的研究热点。虽然图像识别技术在近年来已经取得了很大的发展,但是在细粒度图像识别和检索等方面仍然有诸多技术难点亟需突破。
细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细。不止对计算机,对普通人来说,细粒度图像任务的难度和挑战无疑也更为巨大。
尽管现有的技术很容易甄别外观差异较为明显的对象如:猫与狗,但这些现有技术仍然难以区分外观差异较不明显的对象如:波音737客机与波音747客机,这些子类中对象的识别结果易于被其运动姿态,观察方向以及相对位置所影响。
然而随着人工智能的发展,越来越多的应用场景需要对同一类别下的物体进行更为精细的特征区分,例如:商人对品牌的识别,植物学家对植物的识别等。细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中,识别不同的子类别又存在着巨大的应用需求。例如,在生态保护中,有效识别不同种类的生物,是进行生态研究的重要前提。
与一般的图像分类任务区别基本类别不同,细粒度识别非常具有挑战性。然而在实际生活场景中,当观察者与被观察者距离缩短,被观察者更加接近观察者时,细粒度任务往往与粗粒度任务一起出现。而在此前的工作中,细粒度任务和粗粒度任务的结合常常被忽略。学者们更多的关注于细粒度级别的研究,忽略了伴随的粗粒度任务所提供的特征参考也具有指导意义。
因此,有必要提出一种在统一的框架内规划复杂目标的粗粒度任务和细粒度任务,进而针对细粒度图像识别的方法。
发明内容
本发明解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考的问题。
根据本发明的一个方面,提供一种基于知识分类的复杂目标渐近识别方法,该方法包括:
图像预处理,将原始图像数据集I分为多种级别分辨率的数据集,作为复杂目标渐近识别的基准数据集;
将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取;
将提取到的多种分辨率的特征,进行双线性特征融合计算和三线性特征融合计算;
利用融合后的特征预测类别。
进一步地,将原始图像数据集I定义分为分辨率由高到低的三个图像数据集Ihigh,Imedium,Ilow.。
进一步地,将原始图像数据集的分辨率r定义为高分辨率rhigh,图像数据集确定为Ihigh
逐渐降低原始图像数据集的分辨率来得到另外两种分辨率的图像数据集:
当准确率低于阈值tmed时,根据rmed分辨率,将图像数据集确定为Imedium
当准确率低于阈值tlow时,根据rlow分辨率,将图像数据集确定为llow
进一步地,将三种分辨率的图像与生物分类学一一映射:
Ihigh对应物种,Imedium对应属,Ilow对应科。
进一步地,使用SVM分类算法将图像从高分辨率rhigh种向科级别分类,通过准确率阈值tmed和tlow来进行分类。
进一步地,将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取包括:提取三种分辨率图集的relu5_1,relu5_2,relu5_3特征。
进一步地,双线性特征的结合fA(I)∈Rhw×c和fB(I)∈Rhw×c等于fA(I)TfB(I)∈Rc×c,其中c是特征图的数量,h和w表示特征图的高和宽;
将跨层分解的双线性池化表示为:
其中X表示一层,Y表示另一层,其中和/>是投影矩阵,/>是分类器矩阵,/>是哈达玛乘积,d表示联合嵌入的维度,f是双线性模型的输出,投影矩阵F=I。
进一步地,三线性池化方法表示为:
其中W表示投影矩阵f结合了三个独立的层,其中X表示一层,Y、Z表示另外两层。
进一步地,将三线性特征和三个维度的双线性特征进行融合,计算SoftMax向量,得到预测的结果;
三种损失函数相加为全部的损失函数:
lfull=lhigh+lmedium+llow.
其中,损失函数loss在每个分辨率下定义为:
lhigh=loss(Ihigh),lmedium=loss(Imedium),和llow=loss(Ilow)。
根据本发明的另一方面,提供一种基于知识分类的复杂目标渐近识别装置,该装置包括:存储器,存储有计算机可执行指令;
处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:
图像预处理,将原始图像数据集I分为多种级别分辨率的数据集,作为复杂目标渐近识别的基准数据集;
将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取;
将提取到的多种分辨率的特征,进行双线性特征融合计算和三线性特征融合计算;
利用融合后的特征预测类别。
本发明提出了三线性池化方法,并融合三线性池化和双线性池化的特征,考虑了层间的特征交互,同时避免引入额外的训练参数,更好的捕捉了层间特征关系,跨层的双线性方法效率高、功能强大。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1为本发明基于知识分类的复杂目标渐近识别方法的流程图。
图2为根据本发明实施例的复杂目标渐近识别方法的应用示意图。
图3为本发明在CUB200-2011上预测正确的部分结果。
图4为本发明在CUB200-2011,Stanford Cars和FGVC-Aircrafts数据集上的识别准确率对比。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本发明旨在解决实际生活中复杂目标渐近识别问题,它的目标是在多个分辨率(从低到高)下识别对象的类。为了解决这一问题,本发明提出了一种基于知识分类的复杂目标渐近识别方法。本方法融合三线性池化和双线性池化的特征,在统一的框架内规划复杂目标的粗粒度任务和细粒度任务。解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考。
图1为本发明基于知识分类的复杂目标渐近识别方法的流程图。如图1所示,本发明提出了一种基于知识分类的复杂目标渐近识别方法,该方法包括:
图像预处理,将原始图像数据集I分为多种级别分辨率的数据集,作为复杂目标渐近识别的基准数据集;
将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取;
将提取到的多种分辨率的特征,进行双线性特征融合计算和三线性特征融合计算;
利用融合后的特征预测类别。
首先,进行图像预处理。
将原始图像数据集I定义分为三种级别分辨率(由高到低)的数据集。这样新产生的三个图像数据集Ihigh,Imedium,Ilow.为复杂目标渐近识别的基准数据集。具体而言,这三种分辨率是这样定义的:
首先我们将原始图像的分辨率r定义为高分辨率rhigh,然后使用SVM分类算法将这些图像从高分辨率rhigh种向科级别分类,随后我们逐渐降低原始图像的数据集的分辨率来得到另外两种分辨率。
随着分辨率的降低,物种的分类准确性必然下降。当准确率低于阈值tmed时,即分类器的预测精度不如高分辨率的分类器,我们将该时刻的分辨率定为rmed,根据rmed分辨率,将图像数据集确定为Imedium。然后将目标更改为在属上进行分类。以此类推,重复相同的过程。最后我们还可以得到rlow和llow。因此,这三种分辨率及其对应的数据集可以由两个参数确定:准确率阈值tmed和tlow
在本发明实施例中,实际使用的设置为tmed=0.8,tlow=0.8。进一步,我们将这三种分辨率的图像与生物分类学一一映射。例如,总共200种类。可以合并为113个属以及36个科。原始的分类任务被重新规划为:Ihigh对应200个物种。而Imedium和Ilow用于分类113个属和36个科。得的注意的是,可以使用CNN模型定义这三个分类器,而全部的损失函数可以将这三种损失函数相加。
接下来,将图像批量输入在ImageNet数据集上预训练的VGG-16网络来提取特征。
模型输入图像大小为488×488,投影层参数和归一化指数层参数是随机初始化的,首先保持其他层的参数不变,只训练归一化指数层。接着用步长为8的随机梯度下降,微调整个网络。动量为0.9,权重衰减为5×10-4,学习率为1×10-3,周期性退火为0.5。根据经验,投影层的维度设置为8,192。
值得注意的是,这三个层次的训练是循环的,例如:第一个微调参数在200维的归一化指数层用的是Ihigh的图像,稍后将在113维的归一化指数层用Imedium的图像训练,最后用在Ilow中的36维分类器训练,再返回到最高维度。
本发明使用了标准的数据增强方法。例如:先将原始图像调整为512×S,S为最大边,然后在训练过程中进行随机采样和水平翻转(测试中只包含中心剪裁)。整个模型训练采用端到端的方式。
将提取到的三种分辨率relu5_1,relu5_2,relu5_3特征,进行双线性特征融合计算和三线性特征融合计算。
将图像I作为输入,并利用两个特征函数fA和fB(通常是卷积神经网络的最后一层),从图像中提取这两个特征。一个双线性向量输出是在每个位置输出获得使用矩阵外积:双线性特征的结合fA(I)∈Rhw×c和fB(I)∈Rhw×c等于fA(I)TfB(I)∈Rc×c,其中c是特征图的数量,h和w表示特征图的高和宽。这的注意的是,h×w需要固定,而且c可以从不同的特征函数中选择出来。
本发明中将跨层分解的双线性池化表示为:
其中X,Y,Z为三个不同层,和/>是投影矩阵,是分类器矩阵,/>是哈达玛乘积,d表示联合嵌入的维度,f是双线性模型的输出。
之后,利用本发明提出的三线性池化方法,提取出一个三线性特征。具体的三线性池化方法由X,Y,Z三个不同层来做特征提取。三线性池化方法代替了哈达玛(Hadamard)乘积只结合两层,因此三线性池化方法表示为:
其中f结合了三个独立的层。
最后,利用融合后的特征预测类别。
将三线性特征和三个维度的双线性特征进行融合,计算SoftMax向量,得到预测的结果。其中本发明的损失函数的公式表示为:
lfull=lhigh+lmedium+llow.其中损失函数(loss)在每个分辨率下这样定义:lhigh=loss(Ihigh),lmedium=loss(Imedium),和llow=loss(Ilow)。至此,基于知识分类的复杂目标渐近识别方法介绍完毕。
根据本发明的另一实施方式,提供一种基于知识分类的复杂目标渐近识别装置,该装置包括:存储器,存储有计算机可执行指令;
处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:
图像预处理,将原始图像数据集I分为多种级别分辨率的数据集,作为复杂目标渐近识别的基准数据集;
将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取;
将提取到的多种分辨率的特征,进行双线性特征融合计算和三线性特征融合计算;
利用融合后的特征预测类别。
图2为根据本发明实施例的复杂目标渐近识别方法的应用示意图。如图2所示,以识别金翅雀为例说明本发明的识别方法。
首先将图片按照分辨率分为三类,分别为Ihigh,Imedium,Ilow.。然后在VGG-16网络训练,来提取三种分辨率图像的特征relu5_1,relu5_2,relu5_3。
在三个特征relu5_1,relu5_2,relu5_3基础上进行双线性特征的结合。然后利用跨层分解的双线性池化方法进行双线性特征融合,获得三个双线性特征。
之后利用三线性池化方法,提取出一个三线性特征。
最后,将三线性特征和三个维度的双线性特征进行融合,计算SoftMax向量,得到预测的结果。通过科分类器确定是雀科,通过属分类器确定是金翅雀属,通过种分类器确定是美国金翅雀种。
图3为本发明在CUB200-2011上预测正确的部分结果。CUB200-2011数据集是由加州理工学院在2010年提出的细粒度数据集,也是目前细粒度分类识别研究的基准图像数据集。该数据集共有11788张鸟类图片,包括200种,113属,36科。采用本发明的识别方法,在CUB200-2011数据集中取部分图片进行测试,其中第三行是用可视化工具展示出来的每个错误预测的种类是由HBP算法预测出来的。而在这些类别上我们的MLPH模型预测的都是准确的。
图4为本发明的方法在CUB200-2011,Stanford Cars和FGVC-Aircrafts数据集上的识别准确率对比。Stanford Cars汽车图像数据包含196类共16185张汽车图片。其中8144张为训练数据,8041张为测试数据。每个类别按照年份、制造商、型号进行区分共有196种113属13科。FGVC-Aircrafts数据集是由丰田工大芝加哥分校于2013年提出来的细粒度图像分类和识别研究中经典的基准图像数据集。该飞机类数据集包含10,000张飞机图片,按照制造商、家族、变体三层层次结构,分为100种70属30科。通过对比测试发现,利用本发明的识别方法,识别的准确率显著高于HBP方法的识别率。
本发明在统一的框架内规划复杂目标的粗粒度任务和细粒度任务。解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考。经实验验证,本发明提出的基于知识分类的复杂目标渐近识别方法在公开的CUB200-2011,Stanford Cars和FGVC-Aircrafts数据集上的识别准确率比已有的方法有显著的提高,分别达到最优的准确率。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (8)

1.一种基于知识分类的复杂目标渐近识别方法,其特征在于,该方法包括:
图像预处理,将原始图像数据集I分为多种级别分辨率的数据集,作为复杂目标渐近识别的基准数据集;
将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取;
将提取到的多种分辨率的特征,进行双线性特征融合计算和三线性特征融合计算;
双线性特征的结合fA(I)∈Rhw×c和fB(I)∈Rhw×c等于fA(I)TfB(I)∈Rc×c,其中c是特征图的数量,h和w表示特征图的高和宽;
将跨层分解的双线性池化表示为:
其中X表示一层,Y表示另一层,其中U∈Rhw×d和V∈Rhw×d是投影矩阵,P∈Rd×cc是分类器矩阵,是哈达玛乘积,d表示联合嵌入的维度,f是双线性模型的输出;
三线性池化方法表示为:
其中W∈Rhw×d表示投影矩阵,f结合了三个独立的层,其中X表示一层,Y、Z表示另外两层;
利用融合后的特征预测类别。
2.根据权利要求1所述的基于知识分类的复杂目标渐近识别方法,其特征在于,将原始图像数据集I定义分为分辨率由高到低的三个图像数据集Ihigh,Imedium,Ilow
3.根据权利要求2所述的基于知识分类的复杂目标渐近识别方法,其特征在于,将原始图像数据集的分辨率r定义为高分辨率rhigh,图像数据集确定为Ihigh
逐渐降低原始图像数据集的分辨率来得到另外两种分辨率的图像数据集:
当准确率低于阈值tmed时,根据rmed分辨率,将图像数据集确定为Imedium
当准确率低于阈值tlow时,根据rlow分辨率,将图像数据集确定为llow
4.根据权利要求3所述的基于知识分类的复杂目标渐近识别方法,其特征在于,将三种分辨率的图像与生物分类学一一映射:
Ihigh对应物种,Imedium对应属,Ilow对应科。
5.根据权利要求3所述的基于知识分类的复杂目标渐近识别方法,其特征在于,使用SVM分类算法将图像从高分辨率rhigh种向科级别分类,通过准确率阈值tmed和tlow来进行分类。
6.根据权利要求1所述的基于知识分类的复杂目标渐近识别方法,其特征在于,将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取包括:提取三种分辨率图集的relu5_1,relu5_2,relu5_3特征。
7.根据权利要求1所述的基于知识分类的复杂目标渐近识别方法,其特征在于,将三线性特征和三个维度的双线性特征进行融合,计算SoftMax向量,得到预测的结果;
三种损失函数相加为全部的损失函数:
lfull=lhigh+lmedium+llow.
其中,损失函数loss在每个分辨率下定义为:
lhigh=loss(Ihigh),lmedium=loss(Imedium),和llow=loss(Ilow)。
8.一种基于知识分类的复杂目标渐近识别装置,其特征在于,该装置包括:存储器,存储有计算机可执行指令;
处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:
图像预处理,将原始图像数据集I分为多种级别分辨率的数据集,作为复杂目标渐近识别的基准数据集;
将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取;
将提取到的多种分辨率的特征,进行双线性特征融合计算和三线性特征融合计算;
双线性特征的结合fA(I)∈Rhw×c和fB(I)∈Rhw×c等于fA(I)TfB(I)∈Rc×c,其中c是特征图的数量,h和w表示特征图的高和宽;
将跨层分解的双线性池化表示为:
其中X表示一层,Y表示另一层,其中U∈Rhw×d和V∈Rhw×d是投影矩阵,P∈Rd×cc是分类器矩阵,是哈达玛乘积,d表示联合嵌入的维度,f是双线性模型的输出;
三线性池化方法表示为:
其中W∈Rhw×d表示投影矩阵,f结合了三个独立的层,其中X表示一层,Y、Z表示另外两层;
利用融合后的特征预测类别。
CN201911377824.XA 2019-12-27 2019-12-27 一种基于知识分类的复杂目标渐近识别方法及装置 Active CN111401122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911377824.XA CN111401122B (zh) 2019-12-27 2019-12-27 一种基于知识分类的复杂目标渐近识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911377824.XA CN111401122B (zh) 2019-12-27 2019-12-27 一种基于知识分类的复杂目标渐近识别方法及装置

Publications (2)

Publication Number Publication Date
CN111401122A CN111401122A (zh) 2020-07-10
CN111401122B true CN111401122B (zh) 2023-09-26

Family

ID=71430306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911377824.XA Active CN111401122B (zh) 2019-12-27 2019-12-27 一种基于知识分类的复杂目标渐近识别方法及装置

Country Status (1)

Country Link
CN (1) CN111401122B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380392A (zh) * 2020-11-17 2021-02-19 北京百度网讯科技有限公司 用于分类视频的方法、装置、电子设备及可读存储介质
US11748865B2 (en) 2020-12-07 2023-09-05 International Business Machines Corporation Hierarchical image decomposition for defect detection

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875826A (zh) * 2018-06-15 2018-11-23 武汉大学 一种基于粗细粒度复合卷积的多分支对象检测方法
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN110188816A (zh) * 2019-05-28 2019-08-30 东南大学 基于多流多尺度交叉双线性特征的图像细粒度识别方法
CN110210550A (zh) * 2019-05-28 2019-09-06 东南大学 基于集成学习策略的图像细粒度识别方法
WO2019169816A1 (zh) * 2018-03-09 2019-09-12 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN110263863A (zh) * 2019-06-24 2019-09-20 南京农业大学 基于迁移学习与双线性InceptionResNetV2的细粒度菌类表型识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8207992B2 (en) * 2007-12-07 2012-06-26 University Of Maryland, Baltimore Composite images for medical procedures

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019169816A1 (zh) * 2018-03-09 2019-09-12 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN108875826A (zh) * 2018-06-15 2018-11-23 武汉大学 一种基于粗细粒度复合卷积的多分支对象检测方法
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN110188816A (zh) * 2019-05-28 2019-08-30 东南大学 基于多流多尺度交叉双线性特征的图像细粒度识别方法
CN110210550A (zh) * 2019-05-28 2019-09-06 东南大学 基于集成学习策略的图像细粒度识别方法
CN110263863A (zh) * 2019-06-24 2019-09-20 南京农业大学 基于迁移学习与双线性InceptionResNetV2的细粒度菌类表型识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘尚旺 ; 郜翔 ; .基于深度模型迁移的细粒度图像分类方法.计算机应用.2018,(第08期),全文. *
梁华刚 ; 温晓倩 ; 梁丹丹 ; 李怀德 ; 茹锋 ; .多级卷积特征金字塔的细粒度食物图片识别.中国图象图形学报.2019,(第06期),全文. *

Also Published As

Publication number Publication date
CN111401122A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN109196514B (zh) 图像分类和标记
Wang et al. Joint learning of visual attributes, object classes and visual saliency
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN101877064B (zh) 图像分类方法及图像分类装置
CN111052144A (zh) 借由联合稀疏表示的属性感知零样本机器视觉系统
Zhou et al. Scene classification using multi-resolution low-level feature combination
CN111401122B (zh) 一种基于知识分类的复杂目标渐近识别方法及装置
JPWO2019146057A1 (ja) 学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラム
CN104966052A (zh) 基于属性特征表示的群体行为识别方法
Boutell et al. Multi-label Semantic Scene Classfication
Singh et al. Semantically guided geo-location and modeling in urban environments
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Lou et al. Extracting 3D layout from a single image using global image structures
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
WO2020119624A1 (zh) 一种基于深度学习的类别敏感型边缘检测方法
Yadav et al. An improved deep learning-based optimal object detection system from images
Shuai et al. Regression convolutional network for vanishing point detection
Ali et al. Human-inspired features for natural scene classification
CN116258937A (zh) 基于注意力机制的小样本分割方法、装置、终端及介质
CN113408546B (zh) 基于相互全局上下文注意力机制的单样本目标检测方法
Patil Car damage recognition using the expectation maximization algorithm and mask R-CNN
Anggoro et al. Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm
WO2023082196A1 (zh) 行人属性识别系统及其训练方法、行人属性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant