CN111062441A - 基于自监督机制和区域建议网络的场景分类方法及装置 - Google Patents

基于自监督机制和区域建议网络的场景分类方法及装置 Download PDF

Info

Publication number
CN111062441A
CN111062441A CN201911311035.6A CN201911311035A CN111062441A CN 111062441 A CN111062441 A CN 111062441A CN 201911311035 A CN201911311035 A CN 201911311035A CN 111062441 A CN111062441 A CN 111062441A
Authority
CN
China
Prior art keywords
network
local
scene
features
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911311035.6A
Other languages
English (en)
Inventor
王嘉乐
邹炼
范赐恩
陈丽琼
程谟凡
胡诗咏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911311035.6A priority Critical patent/CN111062441A/zh
Publication of CN111062441A publication Critical patent/CN111062441A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Abstract

本发明公开了一种基于自监督机制和区域建议网络的场景分类方法及装置,属于图像处理领域,该方法包括:获取场景分类的标准数据集,遵循不同标准数据集的划分规则,将数据集按照标签文件划分为训练集和测试集;构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;采用自监督机制对网络的损失函数进行优化设计;使用训练集图片对基网络、区域建议网络以及联合网络的参数进行交替训练;将测试图像输入已经训练好的网络中,获得图像的场景类别。本发明无需任何额外的局部区域标注信息,只需要图像的场景类别层级标签即可,使得网络能够针对不同的数据集进行端到端的学习。

Description

基于自监督机制和区域建议网络的场景分类方法及装置
技术领域
本发明属于图像处理领域,更具体地,涉及一种基于自监督机制和区域建议网络的场景分类方法及装置。
背景技术
近二十年来,信息及互联网技术的飞速发展使得各种类型数据呈现爆炸式增长,图像数据作为多媒体的重要组成部分也随着各类社交网站及软件的推广而激增。场景分类近年来也受到了越来越多的关注,在自动驾驶、图像检索、无人机飞行等领域有着广泛的应用,而如何对场景进行准确分类也就成为了一项具有挑战性的问题。
传统的场景分类方法主要是利用手工设计的特征对图像进行描述,再利用各种监督分类算法对特征进行分类。这类特征往往是从符合人类视觉的特点出发进行设计,关注颜色、结构、纹理、形状等视觉特征,常见的特征有SIFT、HOG、GIST特征等。
随着卷积神经网络的出现,深度学习渐渐取代了这一过程,卷积神经网络更有利于提取图片更深层次的特征,因此越来越多的学者将卷积神经网络用于不同的领域,都取得了巨大的进展,随着SUN、Places等大规模数据集的出现,卷积神经网络也在场景分类领域不断取得突破。
场景分类由于其任务和数据的特殊性,通用的神经网络结构可能无法充分利用场景图像中的语义信息,场景图像一般内容较为复杂,类内差异性也较大,为了充分利用场景内的语义信息,往往需要将全局特征和多尺度的局部区域特征进行融合,共同对场景图像进行描述,而提取局部区域方法的不同也会造成最终分类准确率的不同。
现有场景提取局部区域的方法往往需要对图像进行额外的边框标注,局部边框标注信息作为监督标签指导网络的训练过程,但人工标注的边框信息往往存在两方面的问题:一是标注成本高,对于场景分类这类需要大量图片用于训练的任务来说耗费成本过高;二是人工标注的区域对于场景分类任务来说可能并非最佳的区域,不同于目标检测等任务,在场景分类任务中,决定场景类别的不光是场景中的物体,还与场景中的背景、布局等紧密相关,因此标注的区域往往与最具判别性信息的区域有所偏差。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提出了一种基于自监督机制和区域建议网络的场景分类方法及装置,由此解决现有场景图像提取局部特征需要额外边框标注信息,导致操作困难的技术问题。利用图像自监督信息对局部区域的提取进行指导,提取出更具有判别性的局部区域,提高场景分类的准确率。
为实现上述目的,按照本发明的一个方面,提供了一种基于自监督机制和区域建议网络的场景分类方法,包括:
(1)获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;
(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;
(3)采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;
(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;
(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。
优选地,在步骤(2)中,构建用于提取特征的基网络,包括:
构建用于提取图片深层特征的基网络,其中,对于任一张原始图片,通过所述基网络得到关于所述原始图片的两个中间特征:最后一层卷积层输出的特征图Fp,全局池化层输出的全局特征Fg,并且得到使用所述全局特征进行分类的场景类别概率Rg,Rg为C×1的向量,C表示所述目标场景分类图像数据集中的场景类别的数量。
优选地,在步骤(2)中,构建用于提取局部具有可判别信息区域的区域建议网络,包括:
所述区域建议网络共享所述基网络的特征图Fp,经过一个卷积层使所述特征图Fp变换坐标空间,再经过一个卷积层,输出以所述特征图Fp中每个像素点为中心、尺寸为h×w的局部区域的得分S,其中,h表示该局部区域高度,w表示该局部区域宽度;
根据所述区域建议网络中各局部区域的得分S,使用非极大值抑制得到所述原始图片中最具有判别性信息的M个目标局部区域,将各所述目标局部区域裁剪并调整分辨率后,输入所述基网络中得到全局池化层输出的M个局部特征Fr,并且得到M个局部区域的场景类别概率Rr,Rr为C×1的向量。
优选地,构建用于合并不同尺度特征的联合网络,包括:
所述联合网络由全连接层和softmax组成,将所述全局特征Fg和所述M个局部特征Fr进行联合,得到最终的预测场景类别结果R,R为C×1的向量。
优选地,步骤(3)包括:
(3.1)使用类别分类损失对所述基网络的参数进行修正,其中,所述类别分类损失描述了分别利用全局特征和局部特征进行分类时预测结果与真实类别之间的偏差;
(3.2)使用排序损失对所述区域建议网络的参数进行修正,以反映所述区域建议网络提取的局部区域得分与局部区域判别性之间的一致性关系;
(3.3)对于所述联合网络,设计联合损失表示全局特征和局部特征进行联合之后预测结果与真实类别之间的偏差。
优选地,所述类别分类损失为:
Figure BDA0002324539360000041
其中,Y为真实场景类别,C()为交叉熵损失函数,Rg为由所述基网络得到的场景类别概率,Rr表示由所述区域建议网络得到的场景类别概率,M表示由所述区域建议网络得到的目标局部区域的个数。
优选地,所述排序损失为:
Figure BDA0002324539360000042
其中,M表示由所述区域建议网络得到的目标局部区域的个数,其中,所述区域建议网络输出的M个局部区域得分次序为I=[i1,i2,...,iM],所述基网络预测对应类别概率的次序为J=[j1,j2,...,jM],
Figure BDA0002324539360000043
表示所述区域建议网络输出的第ik个目标局部区域的得分,
Figure BDA0002324539360000044
表示所述区域建议网络输出的第jk个目标局部区域的得分。
优选地,所述联合损失为:Lj=-logC(R,Y),其中,Y为真实场景类别,C()为交叉熵损失函数,R表示所述联合网络得到的最终的预测场景类别结果。
按照本发明的另一个方面,提供了一种基于自监督机制和区域建议网络的场景分类装置,包括:
图片集获取模块,用于获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;
网络构建模块,用于构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;
网络参数修正模块,用于采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;
网络训练模块,用于使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;
场景分类模块,用于将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明设计了一种基于自监督机制的场景区域建议网络训练方法,不需要额外的区域边框标注信息即可提取场景图片中具有判别性的局部区域,各部分网络的参数均可进行端到端的学习。
(2)本发明将场景内的物体、背景等信息综合为局部语义信息进行考虑,能自适应地发现图像中最具有判别性信息的区域,对这些局部区域提取特征之后再与全局特征进行组合能够更好地对图像进行表达,有助于挖掘场景更深层次的语义联系。
附图说明
图1是本发明实施例提供的一种基于自监督机制和区域建议网络的场景分类方法的流程示意图;
图2是本发明实施例提供的一种测试阶段的网络框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明利用自监督机制对区域建议网络进行训练,而无需任何额外的局部区域标注信息,只需要图像的场景类别层级标签即可,使得网络能够针对不同的数据集进行端到端的学习,更适合用于图像内容复杂、难以进行额外精细标注的大型场景图像数据集,同时全局特征和局部区域特征的结合能够进一步挖掘图片中的特征,从而提高场景图像的分类准确率。
如图1所示是本发明实施例公开的一种基于自监督机制和区域建议网络的场景分类方法的流程示意图,具体包括以下步骤:
步骤1:收集或下载网络上公开的数据集,常见的场景分类标准数据集有MIT67、SUN397、Places365等,按照给出的标签文件说明分别将数据集按不同的要求划分为训练集图片和测试集图片,再进行预处理操作。
具体地,以MIT67数据集为例,该数据集一共包含15620张室内场景图片,分为C种类别(C=67)。每种类别下至少包含100张图片,按照标签文件说明,将每类选择80张划分为训练集,每类选择20张划分为测试集,将图片调整为600×600的分辨率,再随机裁剪出448×448分辨率的区域作为网络输入的原始图片。
步骤2:构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络,测试阶段的网络框图如图2所示。
在本发明实施例中,步骤2的具体步骤如下:
步骤2.1:对于步骤1中下载的具有C类场景类别的数据集,为了得到图片的特征表达,构建用于提取图片深层特征的基网络。
作为一种可选的实施方式,可以选用ResNet-152作为基网络提取图片深层特征,对于一张分辨率为448×448的原始图片,通过基网络得到关于图片的两个中间特征:最后一层卷积层输出的尺寸为2048×14×14的特征图Fp,全局池化层输出的尺寸为2048×1×1的全局特征Fg,并且得到使用全局特征进行分类的场景类别概率Rg=[r1,...,ri,...,rc],Rg为C×1的向量。
在本发明实施例中,还可以选用除ResNet-152外的其它网络作为基网络,图像尺寸可以根据实际需要确定,可以选用其它尺寸,具体采用何种网络及何种尺寸的特征图,本发明实施例不做唯一性限定。
步骤2.2:区域建议网络共享基网络的特征图Fp,经过一个卷积核大小为3×3的卷积层使其变换坐标空间,再经过一个卷积核大小为1×1的卷积层,输出以特征图Fp中每个点为中心、尺寸为h×w的局部区域的得分S(本发明实例中设h=128,w=128);
在本发明实施例中,卷积核大小还可以为其它合适的大小,本发明实施例不做唯一性限定。
步骤2.3:根据区域建议网络中各区域的分数,使用非极大值抑制得到原始图片中最具有判别性信息的M个局部区域(本发明实例中设M=3),将局部区域裁剪并调整分辨率至224×224输入基网络中得到全局池化层输出的M个尺寸为2048×1×1的局部特征Fr,并且得到M个局部区域的场景类别概率Rr=[r1,...,ri,...,rc],Rr为C×1的向量;
在本发明实施例中,图像尺寸及分辨率可以根据实际需要确定,本发明实施例不做唯一性限定。
步骤2.4:联合网络由全连接层和softmax组成,将尺寸为2048×1×1的全局特征Fg和M个尺寸为2048×1×1的局部特征Fr进行联合,得到最终的预测结果R=[r1,...,ri,...,rc],R为C×1的向量。
步骤3:采用自监督机制对网络的损失函数进行优化设计,损失函数用于网络的训练过程,利用梯度下降完成对网络参数的更新,损失函数主要包括三个部分,共同作用于三个网络的参数更新。
在本发明实施例中,步骤3的具体步骤如下:
步骤3.1:对于基网络ResNet-152,为了使网络更好的收敛,使用在ImageNet或Places365等数据集上预训练好的ResNet-152模型对基网络进行参数初始化,设计类别分类损失Lc,该损失描述了分别利用全局特征和局部特征进行分类时预测结果与真实类别之间的偏差,其计算公式如下:
Figure BDA0002324539360000081
其中,Y为真实场景类别,C为交叉熵损失函数。
步骤3.2:对于区域建议网络,原始的区域建议网络使用额外的边框标注信息修正区域得分,由于场景图像自身的特殊性,对于一张图片,即使将图片进行局部区域的裁剪,局部区域也应当反应出一定的场景类别信息,在本发明实例中不使用额外的边框标注信息,而是改用排序损失来对区域建议网络的参数进行修正,反映了区域建议网络提取的局部区域得分与局部区域判别性之间的一致性关系;
具体地,若图像的真实类别标签为q,使得区域建议网络输出的M个局部区域的得分S1,S2,...SM与局部区域通过基网络得到的预测概率Rq1,Rq2,...,RqM两者的次序保持一致性。
具体地,若区域建议网络输出的M个局部区域得分次序为I=[i1,i2,...,iM],基网络预测对应类别概率的次序为J=[j1,j2,...,jM],排序损失函数Ls的具体计算公式如下:
Figure BDA0002324539360000082
步骤3.3:对于联合网络,通过全连接层和softmax,将尺寸为2048×1×1的全局特征Fg和M个尺寸为2048×1×1的局部特征Fr输出最终的预测场景类别结果R=[r1,...,ri,...,rc],设计联合损失Lj表示全局特征和局部特征进行联合之后预测结果与真实类别之间的偏差,其计算公式如下:
Lj=-logC(R,Y)
其中,Y为真实场景类别,C为交叉熵损失函数。
步骤3.4:网络最终的总损失函数L为类别损失函数Lc、排序损失函数Ls及联合损失函数Lj三者的加权和(本发明实例中三者权重相同)。
步骤4:使用训练集图片进行训练操作,利用总损失函数根据链式法则及梯度下降法对基网络、区域建议网络以及联合网络的参数进行更新,本质上可以看作是各个网络参数的交替训练。
步骤5:将测试图像输入已经训练好的网络中,得到最终的场景分类概率R=[r1,...,ri,...,rc],该网络使用自监督机制提取了最具有判别性的M个局部区域,结合了测试图像的全局和局部特征共同描述一张图像的场景类别。
在本发明的另一实施例中,还提供了一种基于自监督机制和区域建议网络的场景分类装置,包括:
图片集获取模块,用于获取目标场景分类图像数据集,根据目标场景分类图像数据集的标签文件分别将目标场景分类图像数据集分为训练图片集和测试图片集;
网络构建模块,用于构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;
网络参数修正模块,用于采用自监督机制对网络的损失函数进行优化设计,其中,损失函数包括三个部分,共同作用于基网络、区域建议网络及联合网络的参数更新;
网络训练模块,用于使用训练图片集对基网络、区域建议网络以及联合网络的参数进行交替训练;
场景分类模块,用于将测试图片集输入已经训练好的基网络、区域建议网络以及联合网络中,得到最终的场景分类概率。
其中,各模块的具体实施方式可以参考方法实施例的描述,本发明实施例将不再复述。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于自监督机制和区域建议网络的场景分类方法,其特征在于,包括:
(1)获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;
(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;
(3)采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;
(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;
(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。
2.根据权利要求1所述的方法,其特征在于,在步骤(2)中,构建用于提取特征的基网络,包括:
构建用于提取图片深层特征的基网络,其中,对于任一张原始图片,通过所述基网络得到关于所述原始图片的两个中间特征:最后一层卷积层输出的特征图Fp,全局池化层输出的全局特征Fg,并且得到使用所述全局特征进行分类的场景类别概率Rg,Rg为C×1的向量,C表示所述目标场景分类图像数据集中的场景类别的数量。
3.根据权利要求2所述的方法,其特征在于,在步骤(2)中,构建用于提取局部具有可判别信息区域的区域建议网络,包括:
所述区域建议网络共享所述基网络的特征图Fp,经过一个卷积层使所述特征图Fp变换坐标空间,再经过一个卷积层,输出以所述特征图Fp中每个像素点为中心、尺寸为h×w的局部区域的得分S,其中,h表示该局部区域高度,w表示该局部区域宽度;
根据所述区域建议网络中各局部区域的得分S,使用非极大值抑制得到所述原始图片中最具有判别性信息的M个目标局部区域,将各所述目标局部区域裁剪并调整分辨率后,输入所述基网络中得到全局池化层输出的M个局部特征Fr,并且得到M个局部区域的场景类别概率Rr,Rr为C×1的向量。
4.根据权利要求3所述的方法,其特征在于,构建用于合并不同尺度特征的联合网络,包括:
所述联合网络由全连接层和softmax组成,将所述全局特征Fg和所述M个局部特征Fr进行联合,得到最终的预测场景类别结果R,R为C×1的向量。
5.根据权利要求4所述的方法,其特征在于,步骤(3)包括:
(3.1)使用类别分类损失对所述基网络的参数进行修正,其中,所述类别分类损失描述了分别利用全局特征和局部特征进行分类时预测结果与真实类别之间的偏差;
(3.2)使用排序损失对所述区域建议网络的参数进行修正,以反映所述区域建议网络提取的局部区域得分与局部区域判别性之间的一致性关系;
(3.3)对于所述联合网络,设计联合损失表示全局特征和局部特征进行联合之后预测结果与真实类别之间的偏差。
6.根据权利要求5所述的方法,其特征在于,所述类别分类损失为:
Figure FDA0002324539350000021
其中,Y为真实场景类别,C()为交叉熵损失函数,Rg为由所述基网络得到的场景类别概率,Rr表示由所述区域建议网络得到的场景类别概率,M表示由所述区域建议网络得到的目标局部区域的个数。
7.根据权利要求5所述的方法,其特征在于,所述排序损失为:
Figure FDA0002324539350000031
其中,M表示由所述区域建议网络得到的目标局部区域的个数,其中,所述区域建议网络输出的M个局部区域得分次序为I=[i1,i2,...,iM],所述基网络预测对应类别概率的次序为J=[j1,j2,...,jM],
Figure FDA0002324539350000032
表示所述区域建议网络输出的第ik个目标局部区域的得分,
Figure FDA0002324539350000033
表示所述区域建议网络输出的第jk个目标局部区域的得分。
8.根据权利要求5所述的方法,其特征在于,所述联合损失为:Lj=-log C(R,Y),其中,Y为真实场景类别,C()为交叉熵损失函数,R表示所述联合网络得到的最终的预测场景类别结果。
9.一种基于自监督机制和区域建议网络的场景分类装置,其特征在于,包括:
图片集获取模块,用于获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;
网络构建模块,用于构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;
网络参数修正模块,用于采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;
网络训练模块,用于使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;
场景分类模块,用于将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。
CN201911311035.6A 2019-12-18 2019-12-18 基于自监督机制和区域建议网络的场景分类方法及装置 Pending CN111062441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911311035.6A CN111062441A (zh) 2019-12-18 2019-12-18 基于自监督机制和区域建议网络的场景分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911311035.6A CN111062441A (zh) 2019-12-18 2019-12-18 基于自监督机制和区域建议网络的场景分类方法及装置

Publications (1)

Publication Number Publication Date
CN111062441A true CN111062441A (zh) 2020-04-24

Family

ID=70302384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911311035.6A Pending CN111062441A (zh) 2019-12-18 2019-12-18 基于自监督机制和区域建议网络的场景分类方法及装置

Country Status (1)

Country Link
CN (1) CN111062441A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626149A (zh) * 2020-05-09 2020-09-04 南京邮电大学 一种基于图像显著性和迁移学习的图像场景分类方法
CN111860697A (zh) * 2020-08-05 2020-10-30 天津大学 一种基于局部描述子的批评家驱动的小样本学习方法
CN112241765A (zh) * 2020-10-26 2021-01-19 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN112907138A (zh) * 2021-03-26 2021-06-04 国网陕西省电力公司电力科学研究院 一种从局部到整体感知的电网场景预警分类方法及系统
CN113269224A (zh) * 2021-03-24 2021-08-17 华南理工大学 一种场景图像分类方法、系统及存储介质
CN113837172A (zh) * 2020-06-08 2021-12-24 同方威视科技江苏有限公司 货物图像局部区域处理方法、装置、设备及存储介质
CN114494284A (zh) * 2021-12-29 2022-05-13 电子科技大学 一种基于显式监督区域关系的场景解析模型及方法
CN115546626A (zh) * 2022-03-03 2022-12-30 中国人民解放军国防科技大学 面向数据双重不平衡的降偏场景图生成方法及系统
CN112241765B (zh) * 2020-10-26 2024-04-26 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194318A (zh) * 2017-04-24 2017-09-22 北京航空航天大学 目标检测辅助的场景识别方法
CN108681752A (zh) * 2018-05-28 2018-10-19 电子科技大学 一种基于深度学习的图像场景标注方法
CN110175603A (zh) * 2019-04-01 2019-08-27 佛山缔乐视觉科技有限公司 一种雕刻文字识别方法、系统及存储介质
CN110414561A (zh) * 2019-06-26 2019-11-05 武汉大学 一种适用于机器视觉的自然场景数据集的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194318A (zh) * 2017-04-24 2017-09-22 北京航空航天大学 目标检测辅助的场景识别方法
CN108681752A (zh) * 2018-05-28 2018-10-19 电子科技大学 一种基于深度学习的图像场景标注方法
CN110175603A (zh) * 2019-04-01 2019-08-27 佛山缔乐视觉科技有限公司 一种雕刻文字识别方法、系统及存储介质
CN110414561A (zh) * 2019-06-26 2019-11-05 武汉大学 一种适用于机器视觉的自然场景数据集的构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZE YANG ET.AL: "Learning to Navigate for Fine-Grained Classification", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *
叶子童: "视觉显著性物体检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张传雷 等: "《基于图像分析的植物及其病虫害识别方法研究》", 31 October 2018, 中国经济出版社 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626149A (zh) * 2020-05-09 2020-09-04 南京邮电大学 一种基于图像显著性和迁移学习的图像场景分类方法
CN113837172A (zh) * 2020-06-08 2021-12-24 同方威视科技江苏有限公司 货物图像局部区域处理方法、装置、设备及存储介质
CN111860697A (zh) * 2020-08-05 2020-10-30 天津大学 一种基于局部描述子的批评家驱动的小样本学习方法
CN112241765A (zh) * 2020-10-26 2021-01-19 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN112241765B (zh) * 2020-10-26 2024-04-26 三亚中科遥感研究所 一种基于多尺度卷积和注意力机制的图像分类模型及方法
CN113269224A (zh) * 2021-03-24 2021-08-17 华南理工大学 一种场景图像分类方法、系统及存储介质
CN113269224B (zh) * 2021-03-24 2023-10-31 华南理工大学 一种场景图像分类方法、系统及存储介质
CN112907138B (zh) * 2021-03-26 2023-08-01 国网陕西省电力公司电力科学研究院 一种从局部到整体感知的电网场景预警分类方法及系统
CN112907138A (zh) * 2021-03-26 2021-06-04 国网陕西省电力公司电力科学研究院 一种从局部到整体感知的电网场景预警分类方法及系统
CN114494284B (zh) * 2021-12-29 2023-04-18 电子科技大学 一种基于显式监督区域关系的场景解析模型及方法
CN114494284A (zh) * 2021-12-29 2022-05-13 电子科技大学 一种基于显式监督区域关系的场景解析模型及方法
CN115546626A (zh) * 2022-03-03 2022-12-30 中国人民解放军国防科技大学 面向数据双重不平衡的降偏场景图生成方法及系统
CN115546626B (zh) * 2022-03-03 2024-02-02 中国人民解放军国防科技大学 面向数据双重不平衡的降偏场景图生成方法及系统

Similar Documents

Publication Publication Date Title
CN111062441A (zh) 基于自监督机制和区域建议网络的场景分类方法及装置
EP3951654A1 (en) Image classification model training method, and image processing method and device
Chen et al. Symmetrical dense-shortcut deep fully convolutional networks for semantic segmentation of very-high-resolution remote sensing images
CN112052839B (zh) 图像数据处理方法、装置、设备以及介质
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
US9558268B2 (en) Method for semantically labeling an image of a scene using recursive context propagation
CN108710863A (zh) 基于深度学习的无人机航拍场景语义分割方法及系统
Alidoost et al. A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image
CN112446388A (zh) 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统
CN106096542B (zh) 基于距离预测信息的图像视频场景识别方法
Luo et al. Cross-spatiotemporal land-cover classification from VHR remote sensing images with deep learning based domain adaptation
CN112528862B (zh) 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN108596102A (zh) 基于rgb-d的室内场景物体分割分类器构造方法
CN113256649B (zh) 一种基于深度学习的遥感图像选站选线语义分割方法
Xing et al. Traffic sign recognition using guided image filtering
CN112464766A (zh) 一种农田地头自动识别方法及系统
CN110222718A (zh) 图像处理的方法及装置
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN113435254A (zh) 一种基于哨兵二号影像的耕地深度学习提取方法
Chen et al. Fully automated photogrammetric data segmentation and object information extraction approach for creating simulation terrain
Martins et al. Machine learning and SLIC for tree canopies segmentation in urban areas
Cheng et al. Density map estimation for crowded chicken
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
Lu et al. Optimized training of deep neural network for image analysis using synthetic objects and augmented reality
CN111046861B (zh) 识别红外影像的方法、构建识别模型的方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424