CN110689093B

CN110689093B - 一种复杂场景下的图像目标精细分类方法

Info

Publication number: CN110689093B
Application number: CN201911254123.7A
Authority: CN
Inventors: 董小栋; 赵英; 郑全新; 张磊; 刘阳; 孟祥松; 邓家勇; 江龙; 赵海波
Original assignee: Beijing Tongfang Software Co Ltd
Current assignee: Beijing Tongfang Software Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-21
Anticipated expiration: 2039-12-10
Also published as: CN110689093A

Abstract

一种复杂场景下的图像目标精细分类方法，涉及图像精细分类领域。本发明的方法步骤为：（一）图像场景的数据预处理；（二）CTreeNet Block特征重标定；（三）CTreeNet Block与CNN融合；（四）网络结构模型的建立；（五）CTreeNet Block之间的损失计算。同现有技术相比，本发明通过CTreeNet网络结构，不仅显式地建模特征通道之间的相互依赖关系，还采用机器学习特征重标定策略，通过XGBoost算法思想来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前分类任务用处不大的特征，完成对复杂场景中目标的精细分类。

Description

一种复杂场景下的图像目标精细分类方法

技术领域

本发明涉及图像精细分类领域，特别是复杂场景下的图像目标精细分类。

背景技术

注意力模型（Attention Model）被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。注意力机制，是一种在编码器-解码器结构中使用到的机制，注意力背后的直觉可以用人类的生物系统来做最好地解释。在视觉方面，注意力取决于我们如何对图像的不同区域进行视觉注意，这种方式有助于感知。

从Attention的作用角度出发，分为两类：Spatial Attention 空间注意力(图片)和Temporal Attention时间注意力(序列)。更具实际的应用，也可以将Attention分为SoftAttention和Hard Attention。Soft Attention是所有的数据都会注意，都会计算出相应的注意力权值，不会设置筛选条件。Hard Attention会在生成注意力权重后筛选掉一部分不符合条件的注意力，让注意力权值变小，即可以理解为不再注意这些部分。

Jianlong Fu等人发表在CVPR2017的论文《Look Closer to See Better:Recurrent Attention Convolutional Neural Network for Fine-grained ImageRecognition》中，作者们提出了一个基于 CNN 的注意力机制，叫做 Recurrent AttentionConvolutional Neural Network（RA-CNN），该模型递归地分析局部信息，从局部的信息中提取必要的特征。同时，在 RA-CNN 中的子网络（Sub-Network）中存在分类结构，从不同区域的图片中，都能够得到一个对鸟类种类划分的概率。除此之外，还引入了 Attention 机制，让整个网络结构不仅关注整体信息，还关注局部信息，即 Attention Proposal Sub-Network（APN）。 APN 结构是从整个图片（Full-image）出发，迭代式地生成子区域，并且对这些子区域进行必要的预测，并将子区域所得到的预测结果进行必要的整合，得到整张图片的分类预测概率。

Du Y 等人发表论文《Interaction-aware Spatio-temporal Pyramid AttentionNetworks for Action Classification》，利用PCA提出重要的特征通道，并设计了基于PCA 的新Loss，更好地进行特征交互。

Hu J等人在arXiv发表了论文《Squeeze-and-Excitation Networks》，SENet的核心思想在于通过网络根据Loss去学习特征权重，使得有效的Feature Map权重大，无效或效果小的Feature Map权重小的方式训练模型，提高模型表现能力。

而Hard Attention 需要预测关注的区域，通常使用强化学习来训练，DeepMind的这篇文章《Recurrent Models of Visual Attention》发表于 2014 年。在这篇文章中，作者使用了基于强化学习方法的注意力机制，并且使用收益函数来进行模型的训练。从网络结构来看，不仅从整体来观察图片，也从局部来提取必要的信息。

综上所述，随着分类目标的不断细化，目标的显著性区域才是分类的关键。图像的类别精度越细致，类间差异越细微，往往只能借助于微小的局部差异才能区分出不同的类别。很多工作被提出来从空间维度层面来提升网络的性能，如 Inception 结构中嵌入了多尺度信息，聚合多种不同感受野上的特征来获得性能增益；在 Inside-Outside 网络中考虑了空间中的上下文信息。其中，将Attention 机制引入到空间维度上，在不同目标的分类任务中，让网络自动获得显著性特征并对不同的特征“分配”不同的关注度成为重点。

但是，上述现有技术在一些复杂的实际场景中，由于现实场景多样化，图像目标区域包含背景信息太多，并不能有效地解决目标精细分类的问题，有一定的局限性。样本数量较少的情况下仅依赖于深度学习的方法，在样本库的构建、网络模型的设计、训练方法、网络参数、分类方法上都面临着挑战。从网络结构上讲，要求网络关注全局的特征，更要从全局特征中找到对于分类任务来说更重要的特征，并不断自主学习。此外，在样本不足的情况下，Self-attention深度学习网络无法自动关注分类目标的显著性区域特征，对于显著性区域和非显著性区域特征“一视同仁”，都会影响最终的分类结果。

发明内容

针对上述现有技术中存在的不足，本发明的目的是提供一种复杂场景下的图像目标精细分类方法。通过构建CTreeNet网络结构，不仅显式地建模特征通道之间的相互依赖关系，还采用机器学习特征重标定策略，通过XGBoost算法思想来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前分类任务用处不大的特征，完成对复杂场景中目标的精细分类。

为了达到上述发明目的，本发明的技术方案以如下方式实现。一种复杂场景下的图像目标精细分类方法，步骤为：

（一）图像场景的数据预处理：

在复杂场景中利用检测模型剪取并选择图像170*170作为网络的输入，并对输入的图像数据进行对比度的增强操作。

（二）CTreeNet Block特征重标定：

针对网络的特征通道设计CTreeNet Block，对特征通道计算关注度值的方法为：

1)输入图像经过卷积后的特征图记为

，经过

卷积

顺着空间维度进行特征压缩，将卷积后为

，的特征转换为一个大小为

的向量；

2) 再将

向量经过

，操作转为

；

3) 对输入的特征

采用XGBoost算法思想对其进行

筛选或者打分，经过

计算关注度值。

XGBoost算法构建树拟合特征，并对特征的重要性进行评判，给出每个特征的得分，该得分就是特征的权重。

记

为

，

值的个数记为T，原始公式：

(1)

其中，

为特征通道第i个值，

为叶子节点q

的分数，

为特征通道第i个值落在第k棵树中落在的叶子上的权重，

为所有树中函数的集合，

是特征数目为m的数据集，需要求的参数就是每棵树的结构和每片叶子的权重，即是求

，即

。

CTreeNet Block在训练过程中寻找最优参数空间

，设定一个基分类器

，利用贪心算法获取优化公式(2)目标函数，使得每次增加，L都变小：

(2)

其中，

表示L对

的一阶偏导，

表示L对

的二阶偏导，由于每个

都对应着一个叶子结点

，用

来代替一个

定义

为叶子节点j中的样本集合。

对(2)式

求偏导，并令其为零，则可以得到该目标函数的最优权重：

(3)

即每棵树叶子节点的权重，也就是通道特征的关注度值

，代表每个特征通道值经过选择后的重要性；

4) 然后通过

操作，即元素相乘法加权到先前的特征上；

5) 最后经过

操作完成在通道维度上的对原始特征的重标定，公式如下：

(4)

其中

之后需Relu激活，利用Sigmoid函数对

进行归一化，最后经过

操作与原有特征图进行元素相乘。

（三）CTreeNet Block与CNN融合：

通过训练CTreeNet Block，得到特征的不同权重，再将权重与特征相乘作为融合后的新特征输入网络进行分类，对不同批次的数据得到不同的权重，并通过监督学习的方式，使权重最优。

（四）网络结构模型的建立：

先卷积过滤浅层特征，卷积之后经过CTreeNet Block进行特征重标定，然后再卷积深层特征融合，最后进入分类层。

（五）CTreeNet Block之间的损失计算：

分类损失公式如下：

(5)

其中，

为输入特征，

为网络预测目标的标签，

为对应目标的真实标签。

CTreeNet Block损失公式如下：

(6)

其中，

表示类别标签，

分别为网络结构中两个CTreeNet Block预测

类的值，margin取值为大于零。

本发明由于采用了上述方法步骤，同现有技术相比具有如下优点：

1、样本数量较小的情况下，提出Machine Deep Learning Self-attention(MDL-self-attention)，将传统机器学习算法中特征重要性选择转换为深度网络中的Self-attention，提高目标识别的准确度。

2、设计CTreeNet Block利用传统机器学习算法对深度学习特征通道进行重标定，使网络快速准确地关注到显著特征。

3.首次提出利用XGBoost通过在线学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前分类任务用处不大的特征。

下面结合附图和具体实施方式对本发明做进一步说明。

附图说明

图1为本发明中机器学习特征重标定的方法流程图；

图2为本发明中CTreeNet的实现结构示意图；

图3为本发明中网络结构模型的示意图；

图4为采用本发明方法的识别效果图；

图5为采用现有技术方法的识别效果图。

具体实施方式

本发明一种复杂场景下的图像目标精细分类方法，步骤为：

（一）图像场景的数据预处理：

在复杂场景中利用检测模型剪取并选择大小合适的图像170*170作为网络的输入，并对输入的图像数据进行对比度的增强操作。

（二）CTreeNet Block特征重标定：

参看图1，针对网络的特征通道设计CTreeNet Block，对特征通道计算关注度值的方法为：

1)输入图像经过卷积后的特征图记为

，经过

卷积

顺着空间维度进行特征压缩，将卷积后为

的特征转换为一个大小为

的向量；

2) 再将

向量经过

操作转为

；

3) 对输入的特征

采用XGBoost算法思想对其进行

筛选或者打分，经过

计算关注度值。

记

为

，

值的个数记为T，原始公式：

(1)

其中，

为特征通道第i个值，

为叶子节点q

的分数，

为特征通道第i个值落在第k棵树中落在的叶子上的权重，

为所有树中函数的集合，

，即

。

CTreeNet Block在训练过程中寻找最优参数空间

，设定一个基分类器

(2)

其中，

表示L对

的一阶偏导，

表示L对

的二阶偏导，由于每个

都对应着一个叶子结点

，用

来代替一个

定义

为叶子节点j中的样本集合。

对(2)式

求偏导，并令其为零，则可以得到该目标函数的最优权重：

(3)

即每棵树叶子节点的权重，也就是通道特征的关注度值

，代表每个特征通道值经过选择后的重要性；

4) 然后通过

操作，即元素相乘法加权到先前的特征上；

5) 最后经过

操作完成在通道维度上的对原始特征的重标定，公式如下：

(4)

其中

之后需Relu激活，利用Sigmoid函数对

进行归一化，最后经过

操作与原有特征图进行元素相乘。

（三）CTreeNet Block与CNN融合：

通过训练CTreeNet Block，得到特征的不同权重，再将权重与特征相乘作为融合后的新特征输入网络进行分类，对不同批次的数据得到不同的权重，并通过监督学习的方式，使权重最优；

（四）网络结构模型的建立：

参看图3，先卷积过滤浅层特征，卷积之后经过CTreeNet Block进行特征重标定，然后再卷积深层特征融合，最后进入分类层。CTreeNet Block结构可以嵌入已有的网络结构中，保证其灵活性。网络结构的详细信息如表1所示：

表1

（五）CTreeNet Block之间的损失计算：

分类损失公式如下：

(5)

其中，

为输入特征，

为网络预测目标的标签，

为对应目标的真实标签。

CTreeNet Block损失公式如下：

(6)

其中，

表示类别标签，

分别为网络结构中两个CTreeNet Block预测

类的值，取值为大于零，默认0.01。从

损失函数可以看出，当更后面的CTreeNet Block网络的

大于相邻的前面的CTreeNet Block网络的

时，损失较小。模型的训练目标是希望后面的CTreeNet Block网络的预测更准。

参看图4至图5，在判断是否存在暴露垃圾的任务中，采用本发明方法比现有技术更好的利用了每个特征通道的重要程度，从而突显有用特征并抑制了不重要特征，二者的识别结果区别明显。

Claims

1.一种复杂场景下的图像目标精细分类方法，步骤为：

（一）图像场景的数据预处理：

在复杂场景中利用检测模型剪取并选择图像170*170作为网络的输入，并对输入的图像数据进行对比度的增强操作；

（二）CTreeNet Block特征重标定：

1）输入图像经过卷积后的特征图记为 X，经过

卷积

顺着空间维度进行特征压缩，将卷积后为

的特征转换为一个大小为

的向量；

2）再将

向量经过

操作转为

；

3）对输入的特征

采用XGBoost算法思想对其进行筛选或者打分，经过

计算关注度值， XGBoost算法构建树拟合特征，并对特征的重要性进行评判，给出每个特征的得分，该得分就是特征的权重；

记

为

，

值的个数记为T，原始公式；

(1)

其中，

为特征通道第i个值，

为叶子节点q的分数，

为特征通道第i个值落在第k棵树中落在的叶子上的权重，

为所有树中函数的集合，

，即

；

CTreeNet Block在训练过程中寻找最优参数空间

，设定一个基分类器

，利用贪心算法获取优化公式(2)目标函数，使得每次增加，L都变小；

(2)

其中，

表示L对

的一阶偏导，

表示L对

的二阶偏导，由于每个

都对应着一个叶子结点

，用

来代替一个

，定义

为叶子节点中的样本集合，对(2)式

求偏导，并令其为零，则可以得到该目标函数的最优权重：

(3)

即每棵树叶子节点的权重，也就是通道特征的关注度值

，代表每个特征通道值经过选择后的重要性；

4）然后通过

操作，即元素相乘法加权到先前的特征上；

5）最后经过

操作完成在通道维度上的对原始特征的重标定，公式如下：

(4)

其中

之后需Relu激活，利用Sigmoid函数对

进行归一化，最后经过

操作与原有特征图进行元素相乘；

（三）CTreeNet Block与CNN融合：

（四）网络结构模型的建立：

先卷积过滤浅层特征，卷积之后经过CTreeNet Block进行特征重标定，然后再卷积深层特征融合，最后进入分类层；

（五）CTreeNet Block之间的损失计算：

分类损失公式如下：

(5)

其中，

为输入特征，

为网络预测目标的标签，

为对应目标的真实标签，CTreeNet Block损失公式如下，

(6)

其中，

表示类别标签，

分别为网络结构中两个CTreeNet Block预测

类的值， margin取值为大于零。