CN111126494A

CN111126494A - 基于各向异性卷积的图像分类方法及系统

Info

Publication number: CN111126494A
Application number: CN201911360305.2A
Authority: CN
Inventors: 李文娟; 李兵; 胡卫明; 潘健; 原春锋; 吴昊昊
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111126494B

Abstract

本发明涉及深度学习与图像分类领域，具体涉及一种基于各向异性卷积的图像分类方法及系统，目的在于解决当图像分辨率低、物体尺度和形态多变等情况下难以保证物体分类识别的精度的问题。本发明的图像分类方法包括：步骤A1，根据设定的标准图像大小，将训练图像与待分类图像都进行预处理；步骤A2，利用利用损失函数与预处理后的训练样本对神经网络进行训练优化，其中，神经网络包括各向异性卷积层；步骤A3，利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。本发明的神经网络能快速提取判别性特征因子，准确锁定图像中的物体轮廓，较好应对小图像、多形变等分类难题，从而充分挖掘了图像的空间信息，提高了物体分类的准确度。

Description

基于各向异性卷积的图像分类方法及系统

技术领域

本发明涉及深度学习与图像分类领域，具体涉及一种基于各向异性卷积的图像分类方法及系统。

背景技术

随着计算机视觉的发展，尤其是深度学习网络模型的推广，图像分类技术取得了很大的进步，而且在现实中得到了很广泛的应用。但是图像分类技术仍会遇到很大的困难，例如当图像分辨率低、物体尺度和形态多变等情况下，难以保证物体分类识别的精度。

因此，希望提出一种新的深度学习网络结构，该网络配备高性能特征提取模块，能快速提取判别性特征因子，准确锁定图像中的物体轮廓，较好应对小图像、多形变等分类难题。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于各向异性卷积的图像分类方法及系统，提高了物体分类的准确度。

本发明的一方面，涉及一种基于各向异性卷积的图像分类方法，所述方法包括：

步骤A1，根据设定的标准图像大小，将训练图像与待分类的图像进行预处理；

步骤A2，利用损失函数与预处理后的训练图像对神经网络进行训练优化，其中，所述神经网络包括各向异性卷积层；

步骤A3，利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。

优选地，所述神经网络的训练步骤包括：

步骤B1，对网络参数进行初始化操作；

步骤B2，将预处理后的训练图像输入所述神经网络，提取图像的特征信息，进而得到图像对应的分类标签；

步骤B3，基于所述损失函数计算所述分类标签和训练图像的实际类别标签之间的误差；

步骤B4，若误差不在预期范围内，则进行参数更新，转至步骤B2，直至将误差控制在所述预期范围内，得到训练好的所述神经网络。

优选地，所述各向异性卷积层用于根据下式实现图像或特征图X到特征图Y的线性变换：

其中，W代表卷积权重；p₀表示图像或特征图X中的任意一点0的坐标；l₀为该点对应的最优尺度因子；Δp_n为所述最优尺度因子对应的形状因子，为偏置项；{p_n|n＝1，2，…，N}，枚举Q中的N个位置，N＝|Q|，一个3×3的卷积中，Q定义为：

Q＝{(a，b)|a∈[-1，0，1]，b∈[-1，0，1]}

其中，a和b为坐标值。

优选地，训练时p₀点的所述最优尺度因子与对应的形状因子的获取方法包括：

在不同尺度基础上获取对应的形状因子，由对应多种尺度的卷积变换提取多尺度关键特征，探测当前尺度下物体的轮廓响应，根据最大激活响应来选择p₀点的所述最优尺度因子与对应的形状因子；

其中，p₀表示图像或特征图X中的任意一点0的坐标。

优选地，“在不同尺度基础上获取对应的形状因子，由对应多种尺度的卷积变换提取多尺度关键特征，探测当前尺度下物体的轮廓响应，根据最大激活响应来选择p₀点的所述最优尺度因子与对应的形状因子”的步骤具体包括：

根据下式遍历尺度因子与形状因子在一定范围内的所有取值组合，进而获取所述最优尺度因子与形状因子：

其中，

为尺度因子l的候选集；s为预设的尺度因子个数；max代表最大值融合变换，用于根据各种尺度下提取得到的特征图，选取极大值激活得到输入图像中的目标物体位置与轮廓；Δp_nl为与尺度因子l对应的形状因子，且

Δp_nl∈{(c，d)|0≤c＜l，0≤d＜l}

其中，c和d为坐标值。

优选地，所述预设的尺度因子个数为s＝3；

采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息，尺度因子1、2和4对应的卷积核感受野大小分别为3×3、5×5和9×9。

优选地，所述预处理包括：

对图像进行数据扩增处理；

对数据扩增处理后的图像进行裁剪，规范成设定的标准图像大小。

优选地，所述损失函数为softmax。

优选地，所述形状因子设置为八边形，用于探测从中间点出发往八个方向的轮廓边界，探测范围在当前尺度到两倍尺度的区域环内。

优选地，所述神经网络包括：

一个普通的3×3卷积层、四个子网络、一个平均池化层，以及一个全连接层；

其中一个所述子网络包括：两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层；其余三个所述子网络均包括：三个普通的3×3卷积层和一个最大池化层；

优选地，四个所述子网络按照数据输出的方向依次为：第一子网络、第二子网络、第三子网络和第四子网络；

其中，所述第一子网络、所述第二子网络和所述第四子网络均包括：三个普通的3×3卷积层和一个最大池化层；所述第三子网络包括：两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层。

本发明的另一方面，提出一种基于各向异性卷积的图像分类系统，所述系统包括：

预处理模块，用于根据设定的标准图像大小，将训练图像与待分类的图像进行预处理；

训练模块，用于利用损失函数与预处理后的训练图像对神经网络进行训练优化，其中，所述神经网络包括各向异性卷积层；

分类模块，用于利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。

优选地，所述训练模块包括：

初始化单元，用于对网络参数进行初始化操作；

特征提取与分类单元，用于将预处理后的训练图像输入所述神经网络，提取图像的特征信息，进而得到图像对应的分类标签；

损失计算单元，用于基于所述损失函数计算所述分类标签和训练图像的实际类别标签之间的误差；

控制与参数更新单元，用于判断误差是否在预期范围内，若不在所述预期范围内则进行参数更新，并依次调用所述特征提取与分类单元以及所述损失计算单元，直至将误差控制在所述预期范围内，得到训练好的所述神经网络。

Q＝{(a，b)|a∈[-1，0，1]，b∈[-1，0，1]}

其中，a和b为坐标值。

优选地，所述训练模块还包括：

最优值获取单元：配置为在不同尺度基础上获取对应的形状因子，由对应多种尺度的卷积变换提取多尺度关键特征，探测当前尺度下物体的轮廓响应，根据最大激活响应来选择p₀点的所述最优尺度因子与对应的形状因子；

其中，p₀表示图像或特征图X中的任意一点0的坐标。

优选地，所述最优值获取单元具体配置为：

根据下式遍历尺度因子与形状因子的所有取值组合，进而获取所述最优尺度因子与形状因子：

其中，

Δp_nl∈{(c，d)|0≤c＜l，0≤d＜l}

其中，c和d为坐标值。

优选地，所述预设的尺度因子个数为s＝3；

优选地，所述神经网络包括：

与最接近的现有技术相比，本发明具有如下有益效果：

本发明提出的基于各向异性卷积的图像分类方法，利用了一种新的深度学习网络结构，即文中提到的“神经网络”，该网络能快速提取判别性特征因子，准确锁定图像中的物体轮廓，较好应对小图像、多形变等分类难题。充分了挖掘图像的空间信息，提高了物体分类的准确度。

附图说明

图1是本发明的基于各向异性卷积的图像分类方法实施例的主要步骤示意图；

图2是本发明实施例中对神经网络进行训练的主要步骤示意图；

图3是本发明实施例中各向异性卷积层的结构示意图；

图4是本发明实施例中用于图像分类的神经网络的主要结构示意图；

图5是本发明的基于各向异性卷积的图像分类系统实施例的主要结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅仅是为了便于描述，而不是指示或暗示所述装置、元件或参数的相对重要性，因此不能理解为对本发明的限制。

本发明在Caffe框架下实现，整个网络的训练过程采用一个NVIDIA TITAN X GPU。基本设计思路如下：

根据尺度探测作用，构造不同尺度因子的卷积形式，相当于设置不同膨胀系数的膨胀卷积，以实现感受野的快速无损失变化；通常根据输入图像或特征图的大小，可选择设置尺度因子个数为2或者3，即尺度因子序列为1和2或者1、2和4。根据形状因子作用，在不同尺度基础上，构造形状因子，来寻找感受野领域规定范围内的轮廓响应，相当于当前尺度的可变形边缘学习；尺度因子变化和形状因子学习共同实现对整个图像点的遍历，即感受野覆盖整个图像。避免关键信息的丢失；最终的特征提取实现是由多个尺度形状探测图的非极大值抑制实现，相当于多个尺度特征通道的最大值融合。取最大值保证重要特征信息及学习方法的流通，删减了作用较小的激活响应。保证了输入和输出的大小匹配，这使得各向异性卷积可嵌入使用到任何一个网络中。

图1是本发明的基于各向异性卷积的图像分类方法实施例的主要步骤示意图。如图1所示，本实施例的图像分类方法包括步骤A1至A3：

在步骤A1中，根据设定的标准图像大小，将训练图像与待分类的图像进行预处理。

其中，预处理包括：对图像进行数据扩增处理；对数据扩增处理后的图像进行裁剪，规范成设定的标准图像大小。

在步骤A2中，利用损失函数与预处理后的训练图像对神经网络进行训练优化，其中，神经网络包括各向异性卷积层。

在步骤A3中，利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。

本实施例中，损失函数为softmax。

图2是本发明实施例中对神经网络进行训练的主要步骤示意图。本发明在Caffe框架下实现，整个网络的训练过程采用一个NVIDIA TITAN X GPU。如图2所示，该训练过程包括步骤B1至B4：

步骤B1，对网络参数进行初始化操作；

步骤B2，将预处理后的训练图像输入神经网络，提取图像的特征信息，进而得到图像对应的分类标签；

步骤B3，基于损失函数计算分类标签和训练图像的实际类别标签之间的误差；

步骤B4，若误差不在预期范围内，则进行参数更新，转至步骤B2，直至损失函数收敛，即误差控制在预期范围内，得到训练好的神经网络。

图3是本发明实施例中各向异性卷积层的结构示意图。如图3所示，各向异性卷积层通过将不同尺度的卷积分支结合，实现对图像的多尺度多形状探测分析。本实施例中，预设的尺度因子个数为s＝3；采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息，尺度因子l＝1、l＝2、l＝4对应的卷积核感受野大小分别为3×3、5×5和9×9。

具体地，本实施例中各向异性卷积层用于实现图像或特征图X到特征图Y的线性变换，如公式(1)所示：

其中，W代表卷积权重；p₀表示图像或特征图X中的任意一点0的坐标；l₀为该点对应的最优尺度因子；Δp_n为最优尺度因子对应的形状因子，为偏置项；{p_n|n＝1，2，…，N}，枚举Q中的N个位置，N＝|Q|，一个3×3的卷积中，Q的定义如公式(2)所示：

Q＝[(a，b)|a∈[-1，0，1]，b∈[-1，0，1]} (2)

其中，a和b为坐标值。

进一步地，训练时p₀点的最优尺度因子与对应的形状因子的获取方法包括：

在不同尺度基础上获取对应的形状因子，由对应多种尺度的卷积变换提取多尺度关键特征，探测当前尺度下物体的轮廓响应，根据最大激活响应来选择p₀点的最优尺度因子与对应的形状因子。即根据公式(3)所示方法遍历尺度因子与形状因子的所有取值组合，进而获取最优尺度因子与形状因子：

其中，

为尺度因子l的候选集；s为预设的尺度因子个数；max代表最大值融合变换，用于根据各种尺度下提取得到的特征图，选取极大值激活得到输入图像中的目标物体位置与轮廓；Δp_nl为与尺度因子l对应的形状因子，且Δp_nl的取值范围如公式(4)所示：

Δp_nl∈{(c，d)|0≤c＜l，0≤d＜l} (4)

其中，c和d为坐标值。

形状因子设置为八边形，用于探测从中间点出发往八个方向的轮廓边界，探测范围在当前尺度到两倍尺度的区域环内。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

图4是本发明实施例中用于图像分类的神经网络的主要结构示意图。如图4所示，本实施例的神经网络为结合各向异性卷积的VGG网络，即其中一层的普通卷积被改为各向异性卷积。本实施例中涉及的VGG基础网络结构与常用的结构略有差异，去掉了开始的一个最大池化层(Global Max Pooling)，将最后一个最大池化层改为全局平均池化层(GlobalAverage Pooling)，并且去掉了后三个全连接层的前两个，只保留最后一个全连接层来得到最终特征向量，这种修改使其更适合各向异性卷积与当前任务。

按照数据输出的方向，本实施例的神经网络从前到后依次包括：一个普通的3×3卷积层、四个子网络、一个平均池化层，以及一个全连接层。

本实施例中，四个子网络依次为：第一子网络、第二子网络、第三子网络和第四子网络；其中，第一子网络、第二子网络和第四子网络均包括：三个普通的3×3卷积层和一个最大池化层。第三子网络包括：两个普通的3×3卷积层、一个各向异性卷积层(即图4中用虚线框围起来的部分)以及一个最大池化层。

需要说明的是，各向异性卷积网络可以替换网络中的任意一个普通的卷积层，根据性质，一般设置在中后位置较好，有利于保存空间重要信息。本实施例中将各向异性卷积层设置在第三子网络中是经测试后确定的一种优选的实施方式。

基于与方法实施例相同的技术构思，本发明还提供了一种基于各向异性卷积的图像分类系统，下面进行具体说明。

图5是本发明的基于各向异性卷积的图像分类系统实施例的主要结构示意图。如图5所示，本实施例的图像分类系统1包括：预处理模块10、训练模块20和分类模块30。

其中，预处理模块10用于根据设定的标准图像大小，将训练图像与待分类的图像进行预处理；训练模块20用于利用损失函数与预处理后的训练图像对神经网络进行训练优化，其中，神经网络包括各向异性卷积层；分类模块30用于利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。

具体地，训练模块20包括：初始化单元21、特征提取与分类单元22、损失计算单元23、控制与参数更新单元24、最优值获取单元25。

其中，初始化单元21用于对参数进行初始化操作；特征提取与分类单元22用于将预处理后的训练图像输入神经网络，提取图像的特征信息，进而得到图像对应的分类标签；损失计算单元23用于根据损失函数计算分类标签和训练图像的实际类别标签之间的误差；控制与参数更新单元24用于判断误差是否在预期范围内，若否则进行参数更新，继续提取特征和分类，直至损失函数收敛，得到训练好的神经网络；最优值获取单元25配置为在不同尺度基础上获取对应的形状因子，由对应多种尺度的卷积变换提取多尺度关键特征，探测当前尺度下物体的轮廓响应，根据最大激活响应来选择p₀点的最优尺度因子与对应的形状因子。其中，p₀表示图像或特征图X中的任意一点0的坐标。

具体地，最优值获取单元25根据公式(3)遍历尺度因子与形状因子的所有取值组合，进而获取所述最优尺度因子与形状因子。

本实施例中，各向异性卷积层用于根据公式(1)实现图像或特征图X到特征图Y的线性变换。

本实施例中，预设的尺度因子个数为s＝3；采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息，尺度因子1、2和4对应的卷积核感受野大小分别为3×3、5×5和9×9。

本实施例中的神经网络包括：一个普通的3×3卷积层、四个子网络、一个平均池化层，以及一个全连接层。其中一个子网络包括：两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层；其余三个子网络均包括：三个普通的3×3卷积层和一个最大池化层；

具体地，四个子网络按照数据输出的方向依次为：第一子网络、第二子网络、第三子网络和第四子网络。其中，第一子网络、第二子网络和第四子网络均包括：三个普通的3×3卷积层和一个最大池化层；第三子网络包括：两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于各向异性卷积的图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于各向异性卷积的图像分类方法，其特征在于，所述神经网络的训练步骤包括：

步骤B1，对网络参数进行初始化操作；

步骤B4，若误差不在预期范围，则进行参数更新，并转至步骤B2，直至将误差控制在所述预期范围内，得到训练好的所述神经网络。

3.根据权利要求2所述的基于各向异性卷积的图像分类方法，其特征在于，所述各向异性卷积层用于根据下式实现图像或特征图X到特征图Y的线性变换：

Q＝{(a，b)|a∈[-1，0，1]，b∈[-1，0，1]}

其中，a和b为坐标值。

4.根据权利要求3所述的基于各向异性卷积的图像分类方法，其特征在于，训练时p₀点的所述最优尺度因子与对应的形状因子的获取方法包括：

其中，p₀表示图像或特征图X中的任意一点0的坐标。

5.根据权利要求4所述的基于各向异性卷积的图像分类方法，其特征在于，“在不同尺度基础上获取对应的形状因子，由对应多种尺度的卷积变换提取多尺度关键特征，探测当前尺度下物体的轮廓响应，根据最大激活响应来选择p₀点的所述最优尺度因子与对应的形状因子”的步骤具体包括：

其中，

Δp_nl∈{(c，d)|0≤c＜l，0≤d＜l}

其中，c和d为坐标值。

6.根据权利要求5所述的基于各向异性卷积的图像分类方法，其特征在于，所述预设的尺度因子个数为s＝3；

7.根据权利要求1-6中任一项所述的基于各向异性卷积的图像分类方法，其特征在于，所述预处理包括：

对图像进行数据扩增处理；

8.根据权利要求1-6中任一项所述的基于各向异性卷积的图像分类方法，其特征在于，所述损失函数为softmax。

9.根据权利要求3-6中任一项所述的基于各向异性卷积的图像分类方法，其特征在于，所述形状因子设置为八边形，用于探测从中间点出发往八个方向的轮廓边界，探测范围在当前尺度到两倍尺度的区域环内。

10.根据权利要求1-6中任一项所述的基于各向异性卷积的图像分类方法，其特征在于，所述神经网络包括：

其中一个所述子网络包括：两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层；其余三个所述子网络均包括：三个普通的3×3卷积层和一个最大池化层。

11.根据权利要求10所述的基于各向异性卷积的图像分类方法，其特征在于，四个所述子网络按照数据输出的方向依次为：第一子网络、第二子网络、第三子网络和第四子网络；

12.一种基于各向异性卷积的图像分类系统，其特征在于，所述系统包括：

13.根据权利要求12所述的基于各向异性卷积的图像分类系统，其特征在于，所述训练模块包括：

初始化单元，用于对网络参数进行初始化操作；

14.根据权利要求13所述的基于各向异性卷积的图像分类系统，其特征在于，所述各向异性卷积层用于根据下式实现图像或特征图X到特征图Y的线性变换：

Q＝{(a，b)|a∈[-1，0，1]，b∈[-1，0，1]}

其中，a和b为坐标值。

15.根据权利要求14所述的基于各向异性卷积的图像分类系统，其特征在于，所述训练模块还包括：

其中，p₀表示图像或特征图X中的任意一点0的坐标。

16.根据权利要求15所述的基于各向异性卷积的图像分类系统，其特征在于，所述最优值获取单元具体配置为：

其中，

Δp_nl∈{(c，d)|0≤c＜l，0≤d＜l}

其中，c和d为坐标值。

17.根据权利要求16所述的基于各向异性卷积的图像分类系统，其特征在于，所述预设的尺度因子个数为s＝3；

18.根据权利要求12-17中任一项所述的基于各向异性卷积的图像分类系统，其特征在于，所述神经网络包括：

19.根据权利要求18所述的基于各向异性卷积的图像分类系统，其特征在于，四个所述子网络按照数据输出的方向依次为：第一子网络、第二子网络、第三子网络和第四子网络；