CN110097136A

CN110097136A - 基于神经网络的图像分类方法

Info

Publication number: CN110097136A
Application number: CN201910385096.0A
Authority: CN
Inventors: 冯斌
Original assignee: Hangzhou Zhuxiang Digital Technology Co Ltd
Current assignee: Hangzhou Zhuxiang Digital Technology Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-06

Abstract

本发明公开了一种基于神经网络的图像分类方法，包含以下步骤：建立循环注意力卷积神经网络；训练循环注意力卷积神经网络；获取待分类图片；对待分类图片进行预处理；将预处理后的待分类图片输入到训练后的循环注意力卷积神经网络；循环注意力卷积神经网络自动识别出待分类图片的类别。本发明的有益之处在于提供的基于神经网络的图像分类方法采用循环注意力神经网络，一方面准确定位到图片中具有判别力的关键区域，另一方面要能从那些关键区域中提取有效的纹理特征信息，这两方面是相互促进，所以在训练网络的时候采取了交替循环训练，即不断循环进行关键区域定位和特征提取，根据最终提取出的关键有效的信息对图片进行分类。

Description

基于神经网络的图像分类方法

技术领域

本发明涉及一种基于神经网络的图像分类方法。

背景技术

目前，建筑行业工程师搜索参考图片寻找灵感时主要靠搜索相似类型的图片，这就需要大量的不同类别的图片以供参考，人工地对图片打标签分类以供浏览耗时又耗力。

现有智能图像分类是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读，但现有的图像分类方法判断不够精准，经常造成判断错误，影响工作效率。

发明内容

本发明提供了一种基于神经网络的图像分类方法，采用如下的技术方案：

一种基于神经网络的图像分类方法，包含以下步骤：建立循环注意力卷积神经网络；训练循环注意力卷积神经网络；获取待分类图片；对待分类图片进行预处理；将预处理后的待分类图片输入到训练后的循环注意力卷积神经网络；循环注意力卷积神经网络自动识别出待分类图片的类别。

进一步地，循环注意力卷积神经网络包含3个尺度子网络，每个尺度子网络的网络结构相同，且每个尺度子网络的参数不同。

进一步地，每个尺度子网络包含分类网络和注意力建议网络；分类网络用于提取输入的待分类图片的特征并根据提取出的特征对待分类图片进行分类；注意力建立网络基于分类网络提取出的特征得到注意力区域；注意力建立网络将注意力区域从图片中裁剪出来后将其放大并作为下一个尺度子网络的输入。

进一步地，分类网络包括卷积层、全连接层和softmax层；其中，卷积层用于提取待分类图片的特征；全连接层和softmax层用于根据提取出的特征对待分类图片进行分类。

进一步地，循环注意力卷积神经网络自动识别出待分类图片的类别的具体方法为：融合不同尺度子网络的输出结果得出待分类图片的类别。

进一步地，训练循环注意力卷积神经网络的具体方法为：获取训练图片；对每个训练图片进行人工分类；对训练图片进行预处理；将预处理后的训练图片输入循环注意力卷积神经网络进行训练。

进一步地，对训练图片进行预处理的具体方法为：将训练图片灰度化；对训练图片进行几何变换；对训练图片进行图像增强。

进一步地，对训练图片进行几何变换的具体方法包含平移、转置、旋转、缩放。

进一步地，对训练图片进行图像增强的具体方法为采用高通滤波器增强图像中的有用信息。

进一步地，对待分类图片进行预处理的具体方法为：将待分类图片灰度化；对待分类图片进行几何变换以将待分类图片的像素格式及大小调整成与预处理后的训练图片相同；对待分类图片进行图像增强。

本发明的有益之处在于提供的基于神经网络的图像分类方法采用循环注意力神经网络，一方面准确定位到图片中具有判别力的关键区域，另一方面要能从那些关键区域中提取有效的纹理特征信息，这两方面是相互促进，所以在训练网络的时候采取了交替循环训练，即不断循环进行关键区域定位和特征提取，根据最终提取出的关键有效的信息对图片进行分类。

附图说明

图1是本发明的基于神经网络的图像分类方法的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示为本发明的一种基于神经网络的图像分类方法，采用循环注意力神经网络(Recurrent Attention Convolutional Neural Network，简称RA-CNN)，一方面准确定位到图片中具有判别力的关键区域，另一方面要能从那些关键区域中提取有效的纹理特征信息，这两方面是相互促进，所以在训练网络的时候采取了交替循环训练，即不断循环进行关键区域定位和特征提取，根据最终提取出的关键有效的信息对图片进行分类打。

具体而言，基于神经网络的图像分类方法包含以下步骤：S1：建立循环注意力卷积神经网络。S2：训练循环注意力卷积神经网络。S3：获取待分类图片。S4：对待分类图片进行预处理。S5：将预处理后的待分类图片输入到训练后的循环注意力卷积神经网络。S6：循环注意力卷积神经网络自动识别出待分类图片的类别。

对于S1：建立循环注意力卷积神经网络。

在本发明中，循环注意力卷积神经网络在网络结构设计上主要包含3个尺度子网络，每个尺度子网络的网络结构都相同，只是网络参数不一样。在每个尺度子网络中包含分类网络和注意力建议网络。其中，分类网络用于提取输入的待分类图片的特征并根据提取出的特征对待分类图片进行分类。注意力建立网络基于分类网络提取出的特征进行训练得到注意力区域。注意力建立网络将注意力区域从图片中裁剪出来后将其放大并作为下一个尺度子网络的输入，在本发明中，对裁剪出来的图片通过双线性插值的方法进行放大。这样重复进行3次就能得到3个尺度子网络的输出结果，通过融合不同尺度子网络的结果能达到更好的效果。

多尺度子网络在训练过程中可以逐渐聚焦到关键区域，能更加准确，同时，针对分类网络和注意力建议网络设计两个loss，通过固定一个网络的参数训练另一个网络的参数来达到交替训练。

3个不同尺度子网络的卷积层从输入图像中提取特征，根据提取到的特征，一方面传给全连接层和softmax层去预测该图片的类别概率，另一方面通过注意力建议网络得到注意力区域。这两个方面的操作分别为task1和task2,其中，task1做分类，task2做区域检测，

task1对应公式(1)：

P(X)＝f(Wc * X) (1)

task2对应公式：

[Tx,Ty,Tl]＝g(Wc * X) (2)

其中，X表示图片，Wc就是指的每个尺度子网络中的卷积层参数，用来从输入图像中提取特征，Wc*X就是最后提取到的特征，f()函数是全连接层和softmax层，用来将学习到的特征映射成类别概率，也就是P(X)，g()函数也就是注意力建议网络，通过两个全连接层实现，其中最后一个全连接层的输出channel是3，分别对应Tx、Ty、Tl，其中，Tx、Ty、Tl用于表示裁剪出的注意力区域的坐标。

接下来看看损失函数，损失函数主要包含两部分，如下列公式(3)所示。一部分是L_cls，也就是分类的损失，Y^(s)表示预测的类别概率，Y^*表示真实类别。L_rank表示pairwiseranking loss，第一个尺度子网络和第二个尺度子网络构成一个L_rank，同样第二个尺度子网络和第三个尺度子网络构成另一个L_rank。在训练这个网络的时候采取的是损失函数交替训练的策略。

其中，L_rank公式为公式(4)：

输入中p_t ^(s)中的t表示真实标签类别，s表示尺度子网络，比如p_t ⁽²⁾表示第二个尺度子网络的真实标签概率。从L_rank损失函数可以看出，当更后面的尺度子网络的p_t大于相邻的前面的尺度子网络的p_t时，损失较小，模型的训练目标是希望更后面的尺度子网络的预测更准。margin参数在本算法中设置为0.05。通过固定一个网络的参数训练另一个网络的参数来达到交替训练的目的，这二者之间本身就是相互促进，在最小化损失函数的情况下求得各个网络层的参数并保存，生成分类打标签模型。

在本实施例中，循环注意力卷积神经网络在网络结构设计上主要包含3个尺度子网络，可以理解的是，根据实际需要，可以调节尺度子网络的数量以调节循环注意力卷积神经网络的识别精度。

对于S2：训练循环注意力卷积神经网络。

训练循环注意力卷积神经网络的具体方法为：获取训练图片。对每个训练图片进行人工分类。对训练图片进行预处理。将预处理后的训练图片输入循环注意力卷积神经网络进行训练。

其中，对训练图片进行预处理的具体方法为：将训练图片灰度化。对训练图片进行几何变换。对训练图片进行图像增强。

灰度化是指将彩色图像转化成为灰度图像的过程。读取图片每个像素点的值，彩色图像中的每个像素的颜色有R、G、B三个分量决定，而每个分量有255个值可取，这样一个像素点可以有1600多万(255*255*255)的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像，其一个像素点的变化范围为255种，所以在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。像素点矩阵中的每一个像素点都满足下面的关系：R＝G＝B，此时的这个值叫做灰度值。采取实现方法：取每个像素点的R、G、B三个分量的平均值。

图像几何变换又称为图像空间变换，主要包含具体方法包含平移、转置、旋转、缩放等技术手段。通过平移、转置、旋转、缩放等几何变换图像进行处理，用于改正图像采集系统的系统误差和仪器位置(成像角度、透视关系乃至镜头自身原因)的随机误差，同时也将每张图片大小重置为统一格式，方便训练时读取图片。

图像增强采用高通滤波器增强图像中的有用信息，可以是一个失真的过程，目的是要改善图像的视觉效果，针对给定图像的应用场合，有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果，满足某些特殊分析的需要。

通过以上手段对训练图片进行预处理后输入通过步骤S1建立的循环注意力卷积神经网络对其进行训练，求得各个网络层的参数并保存。

S3：获取待分类图片。

通过步骤S1和S2得到了可以自动对图片进行分类的循环注意力卷积神经网络，当需要对图片进行分类时，首先通过人工或其他手段获取待分类图片。

S4：对待分类图片进行预处理。

获取到待分类图片后，需要对待分类图片进行预处理，该预处理的具体方法为：将待分类图片灰度化。对待分类图片进行几何变换以将待分类图片的像素格式及大小调整成与预处理后的训练图片相同。对待分类图片进行图像增强。

其中，灰度化、几何变换和图像增强的具体手段与S2中介绍的方法相同，其中，对待分类图片进行几何变换需要以将待分类图片的像素格式及大小调整成与预处理后的训练图片相同。

S5：将预处理后的待分类图片输入到训练后的循环注意力卷积神经网络。

通过步骤S4对待分类图片进行预处理后，将待分类图片输入到循环注意力卷积神经网络进行分析。

S6：循环注意力卷积神经网络自动识别出待分类图片的类别。

循环注意力卷积神经网络通过分析后识别出待分类图片的类别，并对该待分类图片打上分类标签。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于神经网络的图像分类方法，其特征在于，所述基于神经网络的图像分类方法包含以下步骤：

建立循环注意力卷积神经网络；

训练所述循环注意力卷积神经网络；

获取待分类图片；

对所述待分类图片进行预处理；

将预处理后的所述待分类图片输入到训练后的所述循环注意力卷积神经网络；

所述循环注意力卷积神经网络自动识别出所述待分类图片的类别。

2.根据权利要求1所述的基于神经网络的图像分类方法，其特征在于，

所述循环注意力卷积神经网络包含3个尺度子网络，每个所述尺度子网络的网络结构相同，且每个所述尺度子网络的参数不同。

3.根据权利要求2所述的基于神经网络的图像分类方法，其特征在于，

每个所述尺度子网络包含分类网络和注意力建议网络；

所述分类网络用于提取输入的所述待分类图片的特征并根据提取出的特征对所述待分类图片进行分类；

所述注意力建立网络基于所述分类网络提取出的特征得到注意力区域；

所述注意力建立网络将注意力区域从所述图片中裁剪出来后将其放大并作为下一个所述尺度子网络的输入。

4.根据权利要求3所述的基于神经网络的图像分类方法，其特征在于，

所述分类网络包括卷积层、全连接层和softmax层；

其中，所述卷积层用于提取所述待分类图片的特征；

所述全连接层和所述softmax层用于根据提取出的特征对所述待分类图片进行分类。

5.根据权利要求4所述的基于神经网络的图像分类方法，其特征在于，

所述循环注意力卷积神经网络自动识别出所述待分类图片的类别的具体方法为：融合不同所述尺度子网络的输出结果得出所述待分类图片的类别。

6.根据权利要求1所述的基于神经网络的图像分类方法，其特征在于，

训练所述循环注意力卷积神经网络的具体方法为：

获取训练图片；

对每个所述训练图片进行人工分类；

对所述训练图片进行预处理；

将预处理后的所述训练图片输入所述循环注意力卷积神经网络进行训练。

7.根据权利要求6所述的基于神经网络的图像分类方法，其特征在于，

对所述训练图片进行预处理的具体方法为：

将所述训练图片灰度化；

对所述训练图片进行几何变换；

对所述训练图片进行图像增强。

8.根据权利要求7所述的基于神经网络的图像分类方法，其特征在于，

对所述训练图片进行几何变换的具体方法包含平移、转置、旋转、缩放。

9.根据权利要求8所述的基于神经网络的图像分类方法，其特征在于，

对所述训练图片进行图像增强的具体方法为采用高通滤波器增强图像中的有用信息。

10.根据权利要求9所述的基于神经网络的图像分类方法，其特征在于，

对所述待分类图片进行预处理的具体方法为：

将所述待分类图片灰度化；

对所述待分类图片进行几何变换以将所述待分类图片的像素格式及大小调整成与所述预处理后的所述训练图片相同；

对所述待分类图片进行图像增强。