CN110689093B - 一种复杂场景下的图像目标精细分类方法 - Google Patents
一种复杂场景下的图像目标精细分类方法 Download PDFInfo
- Publication number
- CN110689093B CN110689093B CN201911254123.7A CN201911254123A CN110689093B CN 110689093 B CN110689093 B CN 110689093B CN 201911254123 A CN201911254123 A CN 201911254123A CN 110689093 B CN110689093 B CN 110689093B
- Authority
- CN
- China
- Prior art keywords
- characteristic
- block
- features
- ctrenet
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
一种复杂场景下的图像目标精细分类方法,涉及图像精细分类领域。本发明的方法步骤为:(一)图像场景的数据预处理;(二)CTreeNet Block特征重标定;(三)CTreeNet Block与CNN融合;(四)网络结构模型的建立;(五)CTreeNet Block之间的损失计算。同现有技术相比,本发明通过CTreeNet网络结构,不仅显式地建模特征通道之间的相互依赖关系,还采用机器学习特征重标定策略,通过XGBoost算法思想来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前分类任务用处不大的特征,完成对复杂场景中目标的精细分类。
Description
技术领域
本发明涉及图像精细分类领域,特别是复杂场景下的图像目标精细分类。
背景技术
注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。注意力机制,是一种在编码器-解码器结构中使用到的机制,注意力背后的直觉可以用人类的生物系统来做最好地解释。在视觉方面,注意力取决于我们如何对图像的不同区域进行视觉注意,这种方式有助于感知。
从Attention的作用角度出发,分为两类:Spatial Attention 空间注意力(图片)和Temporal Attention时间注意力(序列)。更具实际的应用,也可以将Attention分为SoftAttention和Hard Attention。Soft Attention是所有的数据都会注意,都会计算出相应的注意力权值,不会设置筛选条件。Hard Attention会在生成注意力权重后筛选掉一部分不符合条件的注意力,让注意力权值变小,即可以理解为不再注意这些部分。
Jianlong Fu等人发表在CVPR2017的论文《Look Closer to See Better:Recurrent Attention Convolutional Neural Network for Fine-grained ImageRecognition》中,作者们提出了一个基于 CNN 的注意力机制,叫做 Recurrent AttentionConvolutional Neural Network(RA-CNN),该模型递归地分析局部信息,从局部的信息中提取必要的特征。同时,在 RA-CNN 中的子网络(Sub-Network)中存在分类结构,从不同区域的图片中,都能够得到一个对鸟类种类划分的概率。除此之外,还引入了 Attention 机制,让整个网络结构不仅关注整体信息,还关注局部信息,即 Attention Proposal Sub-Network(APN)。 APN 结构是从整个图片(Full-image)出发,迭代式地生成子区域,并且对这些子区域进行必要的预测,并将子区域所得到的预测结果进行必要的整合,得到整张图片的分类预测概率。
Du Y 等人发表论文《Interaction-aware Spatio-temporal Pyramid AttentionNetworks for Action Classification》,利用PCA提出重要的特征通道,并设计了基于PCA 的新Loss,更好地进行特征交互。
Hu J等人在arXiv发表了论文《Squeeze-and-Excitation Networks》,SENet的核心思想在于通过网络根据Loss去学习特征权重,使得有效的Feature Map权重大,无效或效果小的Feature Map权重小的方式训练模型,提高模型表现能力。
而Hard Attention 需要预测关注的区域,通常使用强化学习来训练,DeepMind的这篇文章《Recurrent Models of Visual Attention》发表于 2014 年。在这篇文章中,作者使用了基于强化学习方法的注意力机制,并且使用收益函数来进行模型的训练。从网络结构来看,不仅从整体来观察图片,也从局部来提取必要的信息。
综上所述,随着分类目标的不断细化,目标的显著性区域才是分类的关键。图像的类别精度越细致,类间差异越细微,往往只能借助于微小的局部差异才能区分出不同的类别。很多工作被提出来从空间维度层面来提升网络的性能,如 Inception 结构中嵌入了多尺度信息,聚合多种不同感受野上的特征来获得性能增益;在 Inside-Outside 网络中考虑了空间中的上下文信息。其中,将Attention 机制引入到空间维度上,在不同目标的分类任务中,让网络自动获得显著性特征并对不同的特征“分配”不同的关注度成为重点。
但是,上述现有技术在一些复杂的实际场景中,由于现实场景多样化,图像目标区域包含背景信息太多,并不能有效地解决目标精细分类的问题,有一定的局限性。样本数量较少的情况下仅依赖于深度学习的方法,在样本库的构建、网络模型的设计、训练方法、网络参数、分类方法上都面临着挑战。从网络结构上讲,要求网络关注全局的特征,更要从全局特征中找到对于分类任务来说更重要的特征,并不断自主学习。此外,在样本不足的情况下,Self-attention深度学习网络无法自动关注分类目标的显著性区域特征,对于显著性区域和非显著性区域特征“一视同仁”,都会影响最终的分类结果。
发明内容
针对上述现有技术中存在的不足,本发明的目的是提供一种复杂场景下的图像目标精细分类方法。通过构建CTreeNet网络结构,不仅显式地建模特征通道之间的相互依赖关系,还采用机器学习特征重标定策略,通过XGBoost算法思想来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前分类任务用处不大的特征,完成对复杂场景中目标的精细分类。
为了达到上述发明目的,本发明的技术方案以如下方式实现。一种复杂场景下的图像目标精细分类方法,步骤为:
(一)图像场景的数据预处理:
在复杂场景中利用检测模型剪取并选择图像170*170作为网络的输入,并对输入的图像数据进行对比度的增强操作。
(二)CTreeNet Block特征重标定:
针对网络的特征通道设计CTreeNet Block,对特征通道计算关注度值的方法为:
XGBoost算法构建树拟合特征,并对特征的重要性进行评判,给出每个特征的得分,该得分就是特征的权重。
(三)CTreeNet Block与CNN融合:
通过训练CTreeNet Block,得到特征的不同权重,再将权重与特征相乘作为融合后的新特征输入网络进行分类,对不同批次的数据得到不同的权重,并通过监督学习的方式,使权重最优。
(四)网络结构模型的建立:
先卷积过滤浅层特征,卷积之后经过CTreeNet Block进行特征重标定,然后再卷积深层特征融合,最后进入分类层。
(五)CTreeNet Block之间的损失计算:
分类损失公式如下:
CTreeNet Block损失公式如下:
本发明由于采用了上述方法步骤,同现有技术相比具有如下优点:
1、样本数量较小的情况下,提出Machine Deep Learning Self-attention(MDL-self-attention),将传统机器学习算法中特征重要性选择转换为深度网络中的Self-attention,提高目标识别的准确度。
2、设计CTreeNet Block利用传统机器学习算法对深度学习特征通道进行重标定,使网络快速准确地关注到显著特征。
3.首次提出利用XGBoost通过在线学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前分类任务用处不大的特征。
下面结合附图和具体实施方式对本发明做进一步说明。
附图说明
图1为本发明中机器学习特征重标定的方法流程图;
图2为本发明中CTreeNet的实现结构示意图;
图3为本发明中网络结构模型的示意图;
图4为采用本发明方法的识别效果图;
图5为采用现有技术方法的识别效果图。
具体实施方式
本发明一种复杂场景下的图像目标精细分类方法,步骤为:
(一)图像场景的数据预处理:
在复杂场景中利用检测模型剪取并选择大小合适的图像170*170作为网络的输入,并对输入的图像数据进行对比度的增强操作。
(二)CTreeNet Block特征重标定:
参看图1,针对网络的特征通道设计CTreeNet Block,对特征通道计算关注度值的方法为:
XGBoost算法构建树拟合特征,并对特征的重要性进行评判,给出每个特征的得分,该得分就是特征的权重。
(三)CTreeNet Block与CNN融合:
通过训练CTreeNet Block,得到特征的不同权重,再将权重与特征相乘作为融合后的新特征输入网络进行分类,对不同批次的数据得到不同的权重,并通过监督学习的方式,使权重最优;
(四)网络结构模型的建立:
参看图3,先卷积过滤浅层特征,卷积之后经过CTreeNet Block进行特征重标定,然后再卷积深层特征融合,最后进入分类层。CTreeNet Block结构可以嵌入已有的网络结构中,保证其灵活性。网络结构的详细信息如表1所示:
表1
(五)CTreeNet Block之间的损失计算:
分类损失公式如下:
CTreeNet Block损失公式如下:
其中,表示类别标签,分别为网络结构中两个CTreeNet Block预测类的值,取值为大于零, 默认0.01。从损失函数可以看出,当更后面的CTreeNet Block网络的大于相邻的前面的CTreeNet Block网络的时,损失较小。模型的训练目标是希望后面的CTreeNet Block网络的预测更准。
参看图4至图5,在判断是否存在暴露垃圾的任务中,采用本发明方法比现有技术更好的利用了每个特征通道的重要程度,从而突显有用特征并抑制了不重要特征,二者的识别结果区别明显。
Claims (1)
1.一种复杂场景下的图像目标精细分类方法,步骤为:
(一)图像场景的数据预处理:
在复杂场景中利用检测模型剪取并选择图像170*170作为网络的输入,并对输入的图像数据进行对比度的增强操作;
(二)CTreeNet Block特征重标定:
针对网络的特征通道设计CTreeNet Block,对特征通道计算关注度值的方法为:
其中,为特征通道第i个值,为叶子节点q的分数,为特征通道第i个
值落在第k棵树中落在的叶子上的权重,为所有树中函数的集合,是特征数目为m的
数据集,需要求的参数就是每棵树的结构和每片叶子的权重,即是求,即;
(三)CTreeNet Block与CNN融合:
通过训练CTreeNet Block,得到特征的不同权重,再将权重与特征相乘作为融合后的新特征输入网络进行分类,对不同批次的数据得到不同的权重,并通过监督学习的方式,使权重最优;
(四)网络结构模型的建立:
先卷积过滤浅层特征,卷积之后经过CTreeNet Block进行特征重标定,然后再卷积深层特征融合,最后进入分类层;
(五)CTreeNet Block之间的损失计算:
分类损失公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911254123.7A CN110689093B (zh) | 2019-12-10 | 2019-12-10 | 一种复杂场景下的图像目标精细分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911254123.7A CN110689093B (zh) | 2019-12-10 | 2019-12-10 | 一种复杂场景下的图像目标精细分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689093A CN110689093A (zh) | 2020-01-14 |
CN110689093B true CN110689093B (zh) | 2020-04-21 |
Family
ID=69117756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911254123.7A Active CN110689093B (zh) | 2019-12-10 | 2019-12-10 | 一种复杂场景下的图像目标精细分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689093B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111110224A (zh) * | 2020-01-17 | 2020-05-08 | 武汉中旗生物医疗电子有限公司 | 一种基于多角度特征提取的心电图分类方法及装置 |
CN111680698A (zh) * | 2020-04-21 | 2020-09-18 | 北京三快在线科技有限公司 | 图像识别方法、装置及图像识别模型的训练方法、装置 |
CN111368848B (zh) * | 2020-05-28 | 2020-08-21 | 北京同方软件有限公司 | 一种复杂场景下的文字检测方法 |
CN111860260B (zh) * | 2020-07-10 | 2024-01-26 | 逢亿科技(上海)有限公司 | 基于fpga的高精度低算量目标检测网络系统 |
CN111860403A (zh) * | 2020-07-28 | 2020-10-30 | 商汤国际私人有限公司 | 场景信息的检测方法和装置、电子设备 |
CN113516513B (zh) * | 2021-07-20 | 2023-04-07 | 重庆度小满优扬科技有限公司 | 数据分析方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN107392241A (zh) * | 2017-07-17 | 2017-11-24 | 北京邮电大学 | 一种基于加权列抽样XGBoost的图像目标分类方法 |
CN109325516A (zh) * | 2018-08-13 | 2019-02-12 | 众安信息技术服务有限公司 | 一种面向图像分类的集成学习方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
US10223611B1 (en) * | 2018-03-08 | 2019-03-05 | Capital One Services, Llc | Object detection using image classification models |
CN108446729A (zh) * | 2018-03-13 | 2018-08-24 | 天津工业大学 | 基于卷积神经网络的鸡蛋胚胎分类方法 |
CN109784347B (zh) * | 2018-12-17 | 2022-04-26 | 西北工业大学 | 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法 |
CN110188635B (zh) * | 2019-05-16 | 2021-04-30 | 南开大学 | 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法 |
CN110443143B (zh) * | 2019-07-09 | 2020-12-18 | 武汉科技大学 | 多分支卷积神经网络融合的遥感图像场景分类方法 |
CN110458249B (zh) * | 2019-10-10 | 2020-01-07 | 点内(上海)生物科技有限公司 | 一种基于深度学习与概率影像组学的病灶分类系统 |
-
2019
- 2019-12-10 CN CN201911254123.7A patent/CN110689093B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN107392241A (zh) * | 2017-07-17 | 2017-11-24 | 北京邮电大学 | 一种基于加权列抽样XGBoost的图像目标分类方法 |
CN109325516A (zh) * | 2018-08-13 | 2019-02-12 | 众安信息技术服务有限公司 | 一种面向图像分类的集成学习方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110689093A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689093B (zh) | 一种复杂场景下的图像目标精细分类方法 | |
CN110188635B (zh) | 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法 | |
Höferlin et al. | Inter-active learning of ad-hoc classifiers for video visual analytics | |
CN107527318B (zh) | 一种基于生成对抗式网络模型的发型更换方法 | |
CN110533097A (zh) | 一种图像清晰度识别方法、装置、电子设备及存储介质 | |
Weinstein | Scene‐specific convolutional neural networks for video‐based biodiversity detection | |
CN108647625A (zh) | 一种表情识别方法及装置 | |
CN108416314B (zh) | 图片重要人脸检测方法 | |
CN111291809A (zh) | 一种处理装置、方法及存储介质 | |
Gupta et al. | Artificial plant optimization algorithm to detect infected leaves using machine learning | |
CN110020582A (zh) | 基于深度学习的人脸情绪识别方法、装置、设备及介质 | |
Opitz et al. | Object recognition and image segmentation: the Feature Analyst® approach | |
CN113761259A (zh) | 一种图像处理方法、装置以及计算机设备 | |
Shu et al. | Learning with privileged information for photo aesthetic assessment | |
CN107944398A (zh) | 基于深度特征联合表示图像集人脸识别方法、装置和介质 | |
CN110782448A (zh) | 渲染图像的评价方法及装置 | |
Carballal et al. | Transfer learning features for predicting aesthetics through a novel hybrid machine learning method | |
CN117079195B (zh) | 一种基于图像视频的野生动物识别方法和系统 | |
CN113297936A (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN108596121A (zh) | 一种基于上下文和结构建模的人脸关键点检测方法 | |
Bergum et al. | Automatic in-situ instance and semantic segmentation of planktonic organisms using Mask R-CNN | |
CN115630361A (zh) | 一种基于注意力蒸馏的联邦学习后门防御方法 | |
Li et al. | Assessing and improving intelligent physical education approaches using modified cat swarm optimization algorithm | |
CN113569081A (zh) | 图像识别方法、装置、设备及存储介质 | |
Tamboli et al. | A generic structure of object classification using genetic programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |