CN111104898A - 基于目标语义和注意力机制的图像场景分类方法及装置 - Google Patents

基于目标语义和注意力机制的图像场景分类方法及装置 Download PDF

Info

Publication number
CN111104898A
CN111104898A CN201911311047.9A CN201911311047A CN111104898A CN 111104898 A CN111104898 A CN 111104898A CN 201911311047 A CN201911311047 A CN 201911311047A CN 111104898 A CN111104898 A CN 111104898A
Authority
CN
China
Prior art keywords
scene
picture
probability
target
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911311047.9A
Other languages
English (en)
Other versions
CN111104898B (zh
Inventor
陈丽琼
邹炼
范赐恩
王嘉乐
程谟凡
裘兆炳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911311047.9A priority Critical patent/CN111104898B/zh
Publication of CN111104898A publication Critical patent/CN111104898A/zh
Application granted granted Critical
Publication of CN111104898B publication Critical patent/CN111104898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于目标语义和注意力机制的图像场景分类方法及装置,属于图像识别领域,包括:收集或下载自然图像场景分类数据集;计算每类场景的目标概率分布;构建融合了通道注意力和空间注意力机制的场景分类网络,在数据集上进行训练,然后利用训练好的网络计算测试图片的类别概率;对于给定的测试图片,利用现有的目标检测网络检测场景图片存在的目标,并结合上一步的结果计算修正系数;用修正系数乘以类别概率,得到最后的场景分类概率,排序后输出最高概率的场景类别。本发明利用注意力机制提取有效特征,抑制无用特征,并且结合了场景的目标语义信息,使得最后的分类结果更加符合真实的场景类别,提高了自然图像场景分类的准确率。

Description

基于目标语义和注意力机制的图像场景分类方法及装置
技术领域
本发明属于图像识别领域,更具体地,涉及一种基于目标语义信息和注意力机制的自然图像场景分类方法及装置。
背景技术
随着互联网技术的迅猛发展以及智能手机、单反相机等移动设备的快速普及,数字图像已经成为一种被广泛利用的信息媒体,能够获取和访问的图像也在成倍增长。场景分类是图像识别领域的研究热点问题,在海量图像的检索与管理、人机交互、智能机器人、医学应用和旅游导航等领域有着广泛的应用。场景是由目标、空间布局、背景和它们之间的关联关系综合而成,是十分抽象的概念。场景分类不同于目标识别,原因在于场景的类别概念具有很强的主观性和复杂性,它不仅仅取决于场景图片中所包含的目标,还由各个语义区域及其层次结构和空间布局所决定。因此,场景分类也面临着更大的挑战,主要表现在以下方面:1)同类场景的类内差异性大,同一类别的场景中大多存在着相似的目标,但是由于光照变化、尺度变化、拍摄角度变化、天气变化等因素可能导致同类场景呈现不同的表现形式或结构布局,存在很大的差异性;2)不同场景类别可能具有较高的相似性,例如地铁站和火车站、机房和办公室都有着相似的外观和布局,在图片数量和场景类别日益增多的情况下,这种类间歧义性导致场景分类的准确率难以大幅提升。
传统的场景分类算法主要采取特征提取+特征聚合+分类的流程,可以分为基于底层特征的方法和基于高层特征的方法。底层特征关注的是颜色、纹理、形状等视觉特征,比较常用的特征描述子有SIFT、HOG、LBP、GIST特征等,常用的特征聚合模块包括视觉词袋模型(Bag of Visual Words,BoVW)、稀疏编码、费舍尔向量(Fisher Vector,FV)和局部聚合描述子向量(Vector of Locally Aggregated Descriptor,VLAD),得到聚合的特征之后输入分类器得到场景类别。论文“Object Bank:A High-Level Image Representation forScene Classification&Semantic Feature Sparsification”从高层语义特征的角度入手,用一系列目标检测子的多尺度响应图为基础构建特征向量,通过识别场景中的目标进一步确定场景的类别,该方法在各类数据集上都有较为理想的表现。
上述方法设计方便,符合人眼的直观感知,但是随着数据量和场景类别的增加,传统方法无法提取深层次的图像特征,而深度学习的方法却十分适合处理海量数据的问题。随着MIT67、SUN397、Places365这些大规模场景分类数据集的出现,越来越多的学者将深度卷积神经网络(Convolutional Neural Networks,CNN)用于场景分类任务,典型的网络结构包括AlexNet、VGGNet、谷歌的Inception系列、ResNet、ResNeXt、SENet等。现有的一些基于深度学习的场景分类专利和论文如下:
1)申请号为CN201910302105.5的发明专利“基于改进残差网络的遥感图像场景分类方法”通过在原始的残差网络最后增加一个conv6卷积层,并适当调整了网络的层数减少网络参数,提高了网络在背景纹理复杂的遥感图像数据集上的分类准确率,但是该方法仅使用了单一的特征表示,在实际应用中泛化能力不强。
2)申请号为CN201910614535.0的发明专利“一种基于尺度注意力网络的遥感图像场景分类方法”提出了一种尺度注意力网络,利用注意力模块产生注意力图用于微调场景分类网络,进一步提高了遥感图像场景分类的精度。虽然注意力模块可以突出主要特征,抑制次要特征,但是该方法没有利用到场景图片包含的目标语义信息。
3)论文“Fusing Object Semantics and Deep Appearance Features for SceneRecognition”是一种针对自然图像的场景分类算法,融合了场景图片的目标语义特征、上下文特征和全局特征,最后将特征串联起来用SVM分类,在多个自然图像场景分类数据集都取得了不错的结果。但是特征提取和分类是分开进行的,导致这种方法不能进行端到端的优化。
由此可知,现有技术中的场景分类方法仍存在一定的局限性。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提出了一种基于目标语义和注意力机制的图像场景分类方法及装置,由此解决现有场景分类方法存在的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于目标语义和注意力机制的图像场景分类方法,包括:
(1)获取自然图像场景分类数据集,并按照所述数据集的标准划分训练集和测试集;
(2)计算所述训练集中每类场景的目标概率分布,以及在场景图片出现某类目标时,该场景图片属于某类场景的后验概率;
(3)构建基于注意力机制的场景分类网络,使用所述训练集对所述场景分类网络进行训练,并给定所述测试集中的待测图片,使用训练好的场景分类网络计算所述待测图片的场景分类概率;
(4)对于所述待测图片,利用预训练好的目标检测网络检测所述待测图片中存在的目标,并结合所述后验概率得到场景的修正系数;
(5)利用所述修正系数乘以所述场景分类概率,得到修正后的场景分类概率,排序后得到具有最高分类概率的场景类别。
优选地,步骤(2)包括:
(2.1)对所述训练集中的每张图片进行滑动取样,将每张图片分为若干图像块;
(2.2)将各图像块输入到预训练好的基网络进行目标识别,得到各图像块的目标类别概率,对所有图像块的目标类别概率进行求和,得到每张图片的目标概率分布,进而得到所述训练集中每类场景的目标概率分布;
(2.3)基于所述训练集中每类场景的目标概率分布得到在图片出现某类目标时,该图片属于某类场景的后验概率。
优选地,由
Figure BDA0002324540280000041
确定第j类场景sj中目标的概率分布,其中,Nj表示所述训练集中第j类场景的图片数量,fo(xi)表示属于第j类场景sj的第i张图片xi的目标概率分布。
优选地,由
Figure BDA0002324540280000042
确定图片出现目标oi时,该图片属于场景sj的后验概率,其中,p(oi|sj)表示p(o|sj)中第i类目标oi的概率值,p(sj)表示第j类场景的先验概率,C表示场景类别数量。
优选地,步骤(3)包括:
(3.1)构建基于注意力机制的场景分类网络,利用所述预训练好的基网络初始化所述场景分类网络,使用所述训练集对所述场景分类网络进行训练;
(3.2)给定所述测试集中的待测图片,利用训练好的场景分类网络对所述待测图片所属的场景类别进行预测,得到每类场景的类别概率。
优选地,步骤(3.1)包括:
使用融合通道注意力和空间注意力的注意力模块嵌入基网络,得到基于注意力机制的场景分类网络,其中,所述注意力模块的输入为原始特征图,经过三个并行的卷积层后,将得到的三个特征图相加,得到中间特征图,所述中间特征图经过通道注意力模块得到第一特征图,经过空间注意力模块得到第二特征图,将所述第一特征图与所述第二特征图相加得到输出特征图;
其中,所述通道注意力模块的输入为所述中间特征图,分别采用最大池化和平均池化对所述中间特征图进行压缩,得到两个通道描述子,然后经过两个全连接层对通道描述子进行激活操作,将得到的结果相加,并将相加后的结果填充到所述中间特征图的大小,作为通道权重。最后将通道权重与所述中间特征图对应位置相乘,得到通道注意力模块的第一特征图;
所述空间注意力模块的输入为所述中间特征图,经过两个并行的膨胀卷积,将两个膨胀卷积后的特征图进行串联操作,再经过一个卷积层,得到空间注意力权重,最后将所述空间注意力权重填充到所述中间特征图的大小后,与所述中间特征图对应位置相乘,得到空间注意力模块的第二特征图。
优选地,步骤(4)包括:
(4.1)对于所述待测图片,利用预训练好的目标检测网络检测所述待测图片中包含的目标类别;
(4.2)基于所述待测图片中包含的目标类别及所述后验概率得到场景的修正系数。
优选地,由
Figure BDA0002324540280000051
j∈[1,C]得到第j类场景sj的修正系数tj,C表示场景类别数量,α(oi)为权重系数,反映所述待测图片中是否包含第i类目标oi,p(sj|oi)表示所述待测图片出现目标oi时,所述待测图片属于场景sj的后验概率。
优选地,步骤(5)包括:
(5.1)由
Figure BDA0002324540280000052
j∈[1,C]得到第j类场景最后的分类概率
Figure BDA0002324540280000053
进而得到每类场景最后的分类概率
Figure BDA0002324540280000054
其中,tj表示第j类场景sj的修正系数,rj表示由所述训练好的场景分类网络对所述待测图片所属的场景类别进行预测,得到的第j类场景的类别概率,C表示场景类别数量;
(5.2)将具有最高分类概率的场景类别作为所述待测图片所属的场景类别预测结果。
按照本发明的另一个方面,提供了一种基于目标语义和注意力机制的图像场景分类装置,包括:
数据集获取模块,用于获取自然图像场景分类数据集,并按照所述数据集的标准划分训练集和测试集;
后验概率获取模块,用于计算所述训练集中每类场景的目标概率分布,以及在场景图片出现某类目标时,该场景图片属于某类场景的后验概率;
场景分类概率获取模块,用于构建基于注意力机制的场景分类网络,使用所述训练集对所述场景分类网络进行训练,并给定所述测试集中的待测图片,使用训练好的场景分类网络计算所述待测图片的场景分类概率;
修正系数获取模块,用于对于所述待测图片,利用预训练好的目标检测网络检测所述待测图片中存在的目标,并结合所述后验概率得到场景的修正系数;
预测模块,用于利用所述修正系数乘以所述场景分类概率,得到修正后的场景分类概率,排序后得到具有最高分类概率的场景类别。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明设计了一种基于注意力机制的场景分类网络,融合了两种注意力机制:通道注意力和空间注意力,有效地增强了有用特征,抑制了无用特征,提高了场景图片的特征表达能力;
(2)本发明为了区分一些相似场景,引入目标检测网络检测场景图片包含的目标,利用目标语义信息计算修正系数,使得最后的分类结果更加接近真实场景,提高了场景分类的准确率。
附图说明
图1是本发明实施例提供的一种方法流程示意图;
图2是本发明实施例提供的一种测试阶段的算法框图;
图3是本发明实施例提供的一种注意力模块结构图;
图4是本发明实施例提供的一种通道注意力模块的结构图;
图5是本发明实施例提供的一种空间注意力模块的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种基于目标语义信息和注意力机制的自然图像场景分类方法及装置,旨在克服场景图片类内差异性大、类间相似性高的困难,充分利用场景图片的目标语义信息优化场景分类结果,提高分类的准确率。
如图1所示是本发明实施例公开的一种基于目标语义信息和注意力机制的自然图像场景分类方法的流程示意图,在图1所示的方法中包括以下步骤:
步骤1:下载公开的数据集,目前比较常用的场景分类数据集有MIT67、SUN397、Places365等,按照数据集官方给出的标准划分训练集和测试集;
步骤2:计算数据集中每类场景的目标概率分布,以及出现某类目标时,场景图片属于某类场景的后验概率;
在本发明实施例中,步骤2的具体步骤如下:
步骤2.1:以步骤1下载的任意一个数据集为例,比如以MIT67数据集为例,该数据集共有15620张图片,包含C类室内场景(C=67),每个类别至少包含100张图片,按照通用的评估标准,每个类别选择80张用于训练,20张用于测试。对训练集的每一张图片进行滑动取样,滑动窗口的大小为k×k(在本发明实施例中设k=128),步长设为d(在本发明实施例中设d=32)。假设单张图片x采样后得到的图像块集合表示为A={a1,...,ai,...,an},其中,ai表示大小为k×k的图像块,n表示图像块的个数;
步骤2.2:下载在ImageNet数据集上训练好的ImageNet-CNN(在本发明实施例中优先选用ResNet-101,也可以选择其他的基网络,如AlexNet、VGGNet、ResNeXt、SENet等网络),将集合A中的图像块输入到ResNet-101进行目标识别,得到n个图像块的分数集合H={h1,...,hi,...,hn},其中hi为1000×1维的向量,表示图像块ai的目标类别概率,对图像x中所有图像块的目标分数向量进行求和,得到单张图像的目标概率分布fo(x),其计算公式如下:
Figure BDA0002324540280000081
步骤2.3:根据步骤2.2的结果计算MIT67训练集中每类场景的目标概率分布,假设数据集中第j类场景sj的所有图片集合表示为
Figure BDA0002324540280000084
其中Nj表示数据集中第j类场景的图片数量,j∈[1,C],则第j类场景sj中目标的多项式分布p(o|sj)计算如下:
Figure BDA0002324540280000082
步骤2.4:假设每类场景的先验概率为p(sj),在本发明实施例中p(sj)=1/C,根据贝叶斯公式推断出现目标oi时场景图片属于场景sj的后验概率,其计算公式如下:
Figure BDA0002324540280000083
其中p(oi|sj)是一个标量,表示p(o|sj)中第i类目标的概率值。
步骤3:构建基于注意力机制的场景分类网络,用下载的公开数据集进行训练,测试阶段的算法框图如图2所示,网络由两个分支组成,上面的分支是场景分类网络,用于给出初步的场景分类概率,下面的分支是目标检测网络,用于计算修正系数,使得预测结果更加接近真实的场景类别。测试时,给定一张待测的场景图片,首先用训练好的场景分类网络计算测试图片的场景类别概率。
在本发明实施例中,步骤3的具体步骤如下:
步骤3.1:构建基于注意力机制的场景分类网络,为了捕获场景图片的类内差异性,设计了一种融合通道注意力和空间注意力的注意力模块,可以方便的嵌入基础网络中,如VGGNet、ResNet、ResNeXt等,用来增强有效的特征以及提取显著目标的语义特征,从而提高场景分类的准确率。
在本发明实施例中选用ResNet101作为场景分类的基础网络,用图3所示的注意力模块替换残差网络每一个Bottleneck中原有的3×3卷积层,得到基于注意力机制的场景分类网络。该模块输入为D×H×W大小的特征图,经过三个并行的卷积层,卷积核的大小分别为1×1,3×3,5×5,将得到的三个特征图相加,得到中间特征图F。F经过通道注意力模块得到特征图Fc,经过空间注意力模块得到特征图Fs,最后的输出特征图等于两个分支的结果相加,计算公式如下:Fo=Fc+Fs
该注意力模块融合了通道注意力和空间注意力,可以有效增强有用特征、抑制无用特征,从而提高场景分类的准确率。
具体地,通道注意力模块的结构如图4所示,输入为D×H×W大小的中间特征图F,分别采用最大池化和平均池化对特征图进行压缩,得到两个D×1×1的通道描述子。然后经过两个全连接层对通道描述子进行激活操作,将得到的结果相加。图4中的Reshape表示将D×1×1大小的通道描述子填充到输入特征图的大小(即D×H×W),作为通道权重,最后将通道权重与中间特征图F对应位置相乘,得到通道注意力模块的特征图Fc
具体地,空间注意力模块的结构如图5所示,输入为D×H×W大小的中间特征图F,分别经过膨胀值为1和2、卷积核大小为3×3、滤波器个数为D/r的膨胀卷积(本发明实施例中设r=16)。采用膨胀卷积是为了增大网络的感受野,卷积后的特征图尺寸为D/r×H×W,将两个膨胀卷积后的特征图进行串联(Concat)操作,再经过一个卷积核大小为1×1的卷积,得到空间注意力权重(尺寸为1×H×W)。最后将权重填充到D×H×W的大小,与中间特征图F对应位置相乘,得到空间注意力模块的特征图Fs
步骤3.2:利用ImageNet或Places365数据集上预训练的ResNet101初始化基于注意力机制的场景分类网络,在训练集上微调,保存训练好的分类网络;
步骤3.3:给定一张测试图片,利用训练好的场景分类网络对场景类别进行预测,得到每类场景类别概率R=[r1,...,rj,...,rC],R为C×1维的向量。
步骤4:对于给定的测试图片,利用目标检测网络检测场景图片存在哪些目标,结合步骤2的结果计算修正系数。
在本发明实施例中,步骤4的具体步骤如下:
步骤4.1:采用在COCO数据集和ImageNet数据集上联合训练的目标检测网络YOLOv2对给定的测试图片进行检测,得到场景图片中包含的目标类别以及位置信息;
步骤4.2:根据步骤4.1的检测结果计算每一类场景的修正系数tj,其计算公式如下:
Figure BDA0002324540280000101
其中,α(oi)为权重系数,反映场景图片中是否包含某类目标。当场景图片中检测到目标oi时,α(oi)取值为α;没有检测到时α(oi)取值为1-α,p(sj|oi)表示步骤2.4中计算得到的后验概率。
步骤5:用步骤4的修正系数乘上步骤3的类别概率,得到最后的场景分类概率,排序后输出具有最高概率的场景类别。
在本发明实施例中,步骤5的具体步骤如下:
步骤5.1:用步骤4.2中每一类场景的修正系数tj乘上步骤3.3中分类网络预测出来的类别概率rj,得到每类场景最后的分类概率
Figure BDA0002324540280000111
其计算公式如下:
Figure BDA0002324540280000112
步骤5.2:对步骤5.1得到的场景分类概率
Figure BDA0002324540280000113
按从大到小排序,输出具有最高概率的场景类别作为预测后的结果。结合了目标语义信息和注意力机制的场景分类网络使得修正后的分类结果更接近真实的场景类别,极大地提高了场景分类的准确率。
在本发明的另一实施例中,还提供了一种基于目标语义和注意力机制的图像场景分类装置,包括:
数据集获取模块,用于获取自然图像场景分类数据集,并按照数据集的标准划分训练集和测试集;
后验概率获取模块,用于计算训练集中每类场景的目标概率分布,以及在场景图片出现某类目标时,该场景图片属于某类场景的后验概率;
场景分类概率获取模块,用于构建基于注意力机制的场景分类网络,使用训练集对场景分类网络进行训练,并给定测试集中的待测图片,使用训练好的场景分类网络计算待测图片的场景分类概率;
修正系数获取模块,用于对于待测图片,利用预训练好的目标检测网络检测待测图片中存在的目标,并结合后验概率得到场景的修正系数;
预测模块,用于利用修正系数乘以场景分类概率,得到修正后的场景分类概率,排序后得到具有最高分类概率的场景类别。
其中,各模块的具体实施方式可以参考方法实施例的描述,本发明实施例将不再复述。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于目标语义和注意力机制的图像场景分类方法,其特征在于,包括:
(1)获取自然图像场景分类数据集,并按照所述数据集的标准划分训练集和测试集;
(2)计算所述训练集中每类场景的目标概率分布,以及在场景图片出现某类目标时,该场景图片属于某类场景的后验概率;
(3)构建基于注意力机制的场景分类网络,使用所述训练集对所述场景分类网络进行训练,并给定所述测试集中的待测图片,使用训练好的场景分类网络计算所述待测图片的场景分类概率;
(4)对于所述待测图片,利用预训练好的目标检测网络检测所述待测图片中存在的目标,并结合所述后验概率得到场景的修正系数;
(5)利用所述修正系数乘以所述场景分类概率,得到修正后的场景分类概率,排序后得到具有最高分类概率的场景类别。
2.根据权利要求1所述的方法,其特征在于,步骤(2)包括:
(2.1)对所述训练集中的每张图片进行滑动取样,将每张图片分为若干图像块;
(2.2)将各图像块输入到预训练好的基网络进行目标识别,得到各图像块的目标类别概率,对所有图像块的目标类别概率进行求和,得到每张图片的目标概率分布,进而得到所述训练集中每类场景的目标概率分布;
(2.3)基于所述训练集中每类场景的目标概率分布得到在图片出现某类目标时,该图片属于某类场景的后验概率。
3.根据权利要求2所述的方法,其特征在于,由
Figure FDA0002324540270000011
确定第j类场景sj中目标的概率分布,其中,Nj表示所述训练集中第j类场景的图片数量,fo(xi)表示属于第j类场景sj的第i张图片xi的目标概率分布。
4.根据权利要求3所述的方法,其特征在于,由
Figure FDA0002324540270000021
确定图片出现目标oi时,该图片属于场景sj的后验概率,其中,p(oi|sj)表示p(o|sj)中第i类目标oi的概率值,p(sj)表示第j类场景的先验概率,C表示场景类别数量。
5.根据权利要求1所述的方法,其特征在于,步骤(3)包括:
(3.1)构建基于注意力机制的场景分类网络,利用所述预训练好的基网络初始化所述场景分类网络,使用所述训练集对所述场景分类网络进行训练;
(3.2)给定所述测试集中的待测图片,利用训练好的场景分类网络对所述待测图片所属的场景类别进行预测,得到每类场景的类别概率。
6.根据权利要求5所述的方法,其特征在于,步骤(3.1)包括:
使用融合通道注意力和空间注意力的注意力模块嵌入基网络,得到基于注意力机制的场景分类网络,其中,所述注意力模块的输入为原始特征图,经过三个并行的卷积层后,将得到的三个特征图相加,得到中间特征图,所述中间特征图经过通道注意力模块得到第一特征图,经过空间注意力模块得到第二特征图,将所述第一特征图与所述第二特征图相加得到输出特征图;
其中,所述通道注意力模块的输入为所述中间特征图,分别采用最大池化和平均池化对所述中间特征图进行压缩,得到两个通道描述子,然后经过两个全连接层对通道描述子进行激活操作,将得到的结果相加,并将相加后的结果填充到所述中间特征图的大小,作为通道权重,最后将通道权重与所述中间特征图对应位置相乘,得到通道注意力模块的第一特征图;
所述空间注意力模块的输入为所述中间特征图,经过两个并行的膨胀卷积,将两个膨胀卷积后的特征图进行串联操作,再经过一个卷积层,得到空间注意力权重,最后将所述空间注意力权重填充到所述中间特征图的大小后,与所述中间特征图对应位置相乘,得到空间注意力模块的第二特征图。
7.根据权利要求1至4任意一项所述的方法,其特征在于,步骤(4)包括:
(4.1)对于所述待测图片,利用预训练好的目标检测网络检测所述待测图片中包含的目标类别;
(4.2)基于所述待测图片中包含的目标类别及所述后验概率得到场景的修正系数。
8.根据权利要求7所述的方法,其特征在于,由
Figure FDA0002324540270000031
j∈[1,C]得到第j类场景sj的修正系数tj,C表示场景类别数量,α(oi)为权重系数,反映所述待测图片中是否包含第i类目标oi,p(sj|oi)表示所述待测图片出现目标oi时,所述待测图片属于场景sj的后验概率。
9.根据权利要求8所述的方法,其特征在于,步骤(5)包括:
(5.1)由
Figure FDA0002324540270000032
j∈[1,C]得到第j类场景最后的分类概率
Figure FDA0002324540270000033
进而得到每类场景最后的分类概率
Figure FDA0002324540270000034
其中,tj表示第j类场景sj的修正系数,rj表示由所述训练好的场景分类网络对所述待测图片所属的场景类别进行预测,得到的第j类场景的类别概率,C表示场景类别数量;
(5.2)将具有最高分类概率的场景类别作为所述待测图片所属的场景类别预测结果。
10.一种基于目标语义和注意力机制的图像场景分类装置,其特征在于,包括:
数据集获取模块,用于获取自然图像场景分类数据集,并按照所述数据集的标准划分训练集和测试集;
后验概率获取模块,用于计算所述训练集中每类场景的目标概率分布,以及在场景图片出现某类目标时,该场景图片属于某类场景的后验概率;
场景分类概率获取模块,用于构建基于注意力机制的场景分类网络,使用所述训练集对所述场景分类网络进行训练,并给定所述测试集中的待测图片,使用训练好的场景分类网络计算所述待测图片的场景分类概率;
修正系数获取模块,用于对于所述待测图片,利用预训练好的目标检测网络检测所述待测图片中存在的目标,并结合所述后验概率得到场景的修正系数;
预测模块,用于利用所述修正系数乘以所述场景分类概率,得到修正后的场景分类概率,排序后得到具有最高分类概率的场景类别。
CN201911311047.9A 2019-12-18 2019-12-18 基于目标语义和注意力机制的图像场景分类方法及装置 Active CN111104898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911311047.9A CN111104898B (zh) 2019-12-18 2019-12-18 基于目标语义和注意力机制的图像场景分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911311047.9A CN111104898B (zh) 2019-12-18 2019-12-18 基于目标语义和注意力机制的图像场景分类方法及装置

Publications (2)

Publication Number Publication Date
CN111104898A true CN111104898A (zh) 2020-05-05
CN111104898B CN111104898B (zh) 2022-03-25

Family

ID=70422349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911311047.9A Active CN111104898B (zh) 2019-12-18 2019-12-18 基于目标语义和注意力机制的图像场景分类方法及装置

Country Status (1)

Country Link
CN (1) CN111104898B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652247A (zh) * 2020-05-28 2020-09-11 大连海事大学 一种基于深度卷积神经网络的双翅目昆虫识别方法
CN111652167A (zh) * 2020-06-09 2020-09-11 四川大学 一种染色体核型图像智能评价方法及系统
CN111667058A (zh) * 2020-06-23 2020-09-15 新疆爱华盈通信息技术有限公司 卷积神经网络的多尺度特征通道的动态选择方法
CN111783797A (zh) * 2020-06-30 2020-10-16 杭州海康威视数字技术股份有限公司 目标检测方法、装置及存储介质
CN112070141A (zh) * 2020-09-01 2020-12-11 燕山大学 一种融合注意力检测的ssvep异步分类方法
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112183414A (zh) * 2020-09-29 2021-01-05 南京信息工程大学 一种基于混合空洞卷积的弱监督遥感目标检测方法
CN112241679A (zh) * 2020-09-14 2021-01-19 浙江理工大学 一种垃圾自动分类的方法
CN112329867A (zh) * 2020-11-10 2021-02-05 宁波大学 一种基于任务驱动的层次注意力网络的mri图像分类方法
CN112395974A (zh) * 2020-11-16 2021-02-23 南京工程学院 一种基于对象间依赖关系的目标置信度矫正方法
CN112417961A (zh) * 2020-10-20 2021-02-26 上海大学 一种基于场景先验知识的海面目标检测方法
CN112434683A (zh) * 2021-01-27 2021-03-02 中国科学院自动化研究所 基于注意力机制的行人属性识别方法、系统、装置
CN112580694A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 基于联合注意力机制的小样本图像目标识别方法及系统
CN112949777A (zh) * 2021-04-16 2021-06-11 泰康保险集团股份有限公司 相似图像确定方法及装置、电子设备和存储介质
CN113128527A (zh) * 2021-06-21 2021-07-16 中国人民解放军国防科技大学 基于变换器模型和卷积神经网络的图像场景分类方法
CN113158738A (zh) * 2021-01-28 2021-07-23 中南大学 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质
CN113537206A (zh) * 2020-07-31 2021-10-22 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN113591741A (zh) * 2021-08-04 2021-11-02 上海英粤汽车科技有限公司 一种垃圾自动分类系统及方法
WO2022002242A1 (zh) * 2020-07-02 2022-01-06 北京灵汐科技有限公司 一种场景识别方法和系统、电子设备、介质
CN114460943A (zh) * 2022-02-10 2022-05-10 山东大学 服务机器人自适应目标导航方法及系统
CN114782797A (zh) * 2022-06-21 2022-07-22 深圳市万物云科技有限公司 房屋场景分类方法、装置、设备及可读存储介质
CN115100432A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 一种小样本目标检测方法、设备及计算机可读存储介质
CN116977905A (zh) * 2023-09-22 2023-10-31 杭州爱芯元智科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN110046575A (zh) * 2019-04-16 2019-07-23 浙江农林大学 基于改进残差网络的遥感图像场景分类方法
US10372991B1 (en) * 2018-04-03 2019-08-06 Google Llc Systems and methods that leverage deep learning to selectively store audiovisual content
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110188635A (zh) * 2019-05-16 2019-08-30 南开大学 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法
CN110414561A (zh) * 2019-06-26 2019-11-05 武汉大学 一种适用于机器视觉的自然场景数据集的构建方法
CN110414377A (zh) * 2019-07-09 2019-11-05 武汉科技大学 一种基于尺度注意力网络的遥感图像场景分类方法
CN110443143A (zh) * 2019-07-09 2019-11-12 武汉科技大学 多分支卷积神经网络融合的遥感图像场景分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10372991B1 (en) * 2018-04-03 2019-08-06 Google Llc Systems and methods that leverage deep learning to selectively store audiovisual content
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110046575A (zh) * 2019-04-16 2019-07-23 浙江农林大学 基于改进残差网络的遥感图像场景分类方法
CN110188635A (zh) * 2019-05-16 2019-08-30 南开大学 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法
CN110414561A (zh) * 2019-06-26 2019-11-05 武汉大学 一种适用于机器视觉的自然场景数据集的构建方法
CN110414377A (zh) * 2019-07-09 2019-11-05 武汉科技大学 一种基于尺度注意力网络的遥感图像场景分类方法
CN110443143A (zh) * 2019-07-09 2019-11-12 武汉科技大学 多分支卷积神经网络融合的遥感图像场景分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANFEI LIU ET.AL: "Scene Classification Based on a Deep Random-Scale Stretched Convolutional Neural Network", 《REMOTE SENSING》 *
王培森: "基于注意力机制的图像分类深度学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652247A (zh) * 2020-05-28 2020-09-11 大连海事大学 一种基于深度卷积神经网络的双翅目昆虫识别方法
CN111652167A (zh) * 2020-06-09 2020-09-11 四川大学 一种染色体核型图像智能评价方法及系统
CN111667058A (zh) * 2020-06-23 2020-09-15 新疆爱华盈通信息技术有限公司 卷积神经网络的多尺度特征通道的动态选择方法
CN111783797A (zh) * 2020-06-30 2020-10-16 杭州海康威视数字技术股份有限公司 目标检测方法、装置及存储介质
CN111783797B (zh) * 2020-06-30 2023-08-18 杭州海康威视数字技术股份有限公司 目标检测方法、装置及存储介质
WO2022002242A1 (zh) * 2020-07-02 2022-01-06 北京灵汐科技有限公司 一种场景识别方法和系统、电子设备、介质
CN113537206B (zh) * 2020-07-31 2023-11-10 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN113537206A (zh) * 2020-07-31 2021-10-22 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN112070141A (zh) * 2020-09-01 2020-12-11 燕山大学 一种融合注意力检测的ssvep异步分类方法
CN112070141B (zh) * 2020-09-01 2024-02-02 燕山大学 一种融合注意力检测的ssvep异步分类方法
CN112241679B (zh) * 2020-09-14 2024-02-20 浙江理工大学 一种垃圾自动分类的方法
CN112241679A (zh) * 2020-09-14 2021-01-19 浙江理工大学 一种垃圾自动分类的方法
CN112183414A (zh) * 2020-09-29 2021-01-05 南京信息工程大学 一种基于混合空洞卷积的弱监督遥感目标检测方法
CN112183645B (zh) * 2020-09-30 2022-09-09 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112417961A (zh) * 2020-10-20 2021-02-26 上海大学 一种基于场景先验知识的海面目标检测方法
CN112417961B (zh) * 2020-10-20 2023-02-10 上海大学 一种基于场景先验知识的海面目标检测方法
CN112329867A (zh) * 2020-11-10 2021-02-05 宁波大学 一种基于任务驱动的层次注意力网络的mri图像分类方法
CN112395974B (zh) * 2020-11-16 2021-09-07 南京工程学院 一种基于对象间依赖关系的目标置信度矫正方法
CN112395974A (zh) * 2020-11-16 2021-02-23 南京工程学院 一种基于对象间依赖关系的目标置信度矫正方法
CN112580694B (zh) * 2020-12-01 2024-04-19 中国船舶重工集团公司第七0九研究所 基于联合注意力机制的小样本图像目标识别方法及系统
CN112580694A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 基于联合注意力机制的小样本图像目标识别方法及系统
CN112434683A (zh) * 2021-01-27 2021-03-02 中国科学院自动化研究所 基于注意力机制的行人属性识别方法、系统、装置
CN113158738A (zh) * 2021-01-28 2021-07-23 中南大学 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质
CN112949777A (zh) * 2021-04-16 2021-06-11 泰康保险集团股份有限公司 相似图像确定方法及装置、电子设备和存储介质
CN112949777B (zh) * 2021-04-16 2023-10-13 泰康保险集团股份有限公司 相似图像确定方法及装置、电子设备和存储介质
CN113128527A (zh) * 2021-06-21 2021-07-16 中国人民解放军国防科技大学 基于变换器模型和卷积神经网络的图像场景分类方法
CN113591741A (zh) * 2021-08-04 2021-11-02 上海英粤汽车科技有限公司 一种垃圾自动分类系统及方法
CN114460943A (zh) * 2022-02-10 2022-05-10 山东大学 服务机器人自适应目标导航方法及系统
CN114460943B (zh) * 2022-02-10 2023-07-28 山东大学 服务机器人自适应目标导航方法及系统
CN114782797A (zh) * 2022-06-21 2022-07-22 深圳市万物云科技有限公司 房屋场景分类方法、装置、设备及可读存储介质
CN115100432A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 一种小样本目标检测方法、设备及计算机可读存储介质
CN115100432B (zh) * 2022-08-23 2022-11-18 浙江大华技术股份有限公司 一种小样本目标检测方法、设备及计算机可读存储介质
CN116977905B (zh) * 2023-09-22 2024-01-30 杭州爱芯元智科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN116977905A (zh) * 2023-09-22 2023-10-31 杭州爱芯元智科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111104898B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN111104898B (zh) 基于目标语义和注意力机制的图像场景分类方法及装置
CN112733749B (zh) 融合注意力机制的实时行人检测方法
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN109978035B (zh) 基于改进的k-means和损失函数的行人检测方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN110533041B (zh) 基于回归的多尺度场景文本检测方法
CN111445459B (zh) 一种基于深度孪生网络的图像缺陷检测方法及系统
CN102385592B (zh) 图像概念的检测方法和装置
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN109934258B (zh) 特征加权和区域整合的图像检索方法
CN111860587A (zh) 一种用于图片小目标的检测方法
CN111310821A (zh) 多视图特征融合方法、系统、计算机设备及存储介质
JP2019185787A (ja) 地理的地域内のコンテナのリモート決定
CN115187844A (zh) 基于神经网络模型的图像识别方法、装置及终端设备
TWI745818B (zh) 視覺定位方法、電子設備及電腦可讀儲存介質
CN115147644A (zh) 图像描述模型的训练和描述方法、系统、设备及存储介质
CN111709317A (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN111354076A (zh) 一种基于嵌入空间的单幅图像三维零件组合式建模方法
CN114743139A (zh) 视频场景检索方法、装置、电子设备及可读存储介质
CN110910497B (zh) 实现增强现实地图的方法和系统
CN111797795A (zh) 一种基于YOLOv3与SSR的行人检测算法
CN113139540B (zh) 背板检测方法及设备
CN113343953B (zh) 一种用于遥感场景识别的fgr-am方法和系统
CN114782983A (zh) 基于改进特征金字塔和边界损失的道路场景行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant