CN110457511B

CN110457511B - 基于注意力机制和生成对抗网络的图像分类方法及系统

Info

Publication number: CN110457511B
Application number: CN201910758505.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2022-12-06
Anticipated expiration: 2039-08-16
Also published as: CN110457511A

Abstract

本发明公开了基于注意力机制和生成对抗网络的图像分类方法及系统，包括：从互联网获取商家上传的各种类型的证件照图像并存储；预处理获取的证件照图像；在生成对抗网络中引入注意力机制，构建改进的生成对抗网络；基于预处理后的证件照图像生成训练集，利用训练集训练改进的生成对抗网络；利用训练后的网络对待分类的证件照图像进行分类；本方法及系统利用生成对抗网络解决人为因素引入的图像噪声问题，利用注意力机制降低深度神经网络的冗杂度，提高运算效率，缩短计算时间。

Description

基于注意力机制和生成对抗网络的图像分类方法及系统

技术领域

本发明涉及图像处理领域，具体地，涉及基于注意力机制和生成对抗网络的图像分类方法及系统。

背景技术

随着互联网的发展，网络餐饮市场规模越来越大，相关部门对网络餐饮服务店铺的监管需求愈发迫切。不同于线下监管可采用实地考察、分时分地区抽查等方式，网络餐饮店铺的监管往往仅能基于商家上传的各类经营许可证加以监管。但受手机等便携设备分辨率、拍摄角度、光照以及上传压缩等影响，传统的图像分类技术并不能做到接近100%的准确率。虽然利用深度学习技术对图像进行分类已有广泛研究，但是不同数据集图像之间明暗度、图像分辨率的变化对图像分类结果的影响一直是现有单一深度学习模型难以解决的问题。这些噪声对图像分类的准确率影响极大，甚至同一张图像在改变少数像素点之后会被模型识别为不同类型。生成对抗网络利用噪声生成逼真的图像，并用判别网络辨别其真假，这样使得其对噪声问题不敏感，但是目前没有有效的训练方式能够使其对图像进行分类。有鉴于此，特提出本申请。

发明内容

本发明提供了一种基于注意力机制和生成对抗网络的图像分类方法及系统，本发明的目的在于利用生成对抗网络解决人为因素引入的图像噪声对图像分类结果的影响问题，利用注意力机制降低深度神经网络的冗杂度，提高运算效率，缩短计算时间。

为实现上述发明目的，本发明一方面提供了基于注意力机制和生成对抗网络的图像分类方法，所述方法包括：

从互联网获取商家上传的各种类型的证件照图像并存储；

预处理获取的证件照图像；

在生成对抗网络中引入注意力机制，构建改进的生成对抗网络；

基于预处理后的证件照图像生成训练集，利用训练集训练改进的生成对抗网络；

利用训练后的网络对待分类的证件照图像进行分类。

本发明方法采用生成对抗网络进行训练，使得网络在噪声干扰下依然具有较高的识别能力；并且本发明方法在生成器和编码器网络中引入注意力机制，使网络在分类时更关注重要区域的信息（如证件名字），在保证准确率基本不变的前提下，网络参数比其他常见分类网络少了一个数量级，同时分类速度也极大提高。

本发明采用新颖的设计，在同一个网络中训练分类模块和判别模块却不影响图像生成的质量。此外，注意力机制的引入大大减少网络的冗杂度，能以很浅的模型深度达到其他大型分类网络类似的效果，最终在2 万张图像测试中准确率达到99.39%。

进一步的，证件照图像的预处理包括：

将不同尺寸的证件照图像统一到相同尺寸，既能加快网络的训练速度，又能通过批处理降低极个别图像的噪声影响；

按照预设比例旋转变换每种类型的证件照图像，获得不同角度下的该类型证件照图像；

在图像采样时，根据不同类型证件照图像的数量进行平衡采样，以确保生成的数据集中各类型证件照图像的数量一致，可以平衡网络对各类样本的偏好。

进一步的，所述方法还包括：基于预处理后的证件照图像生成验证集和测试集，利用验证集和测试集分别验证和测试改进的生成对抗网络。

进一步的，本方法的数据获取方式具体包括：利用爬虫技术，从各大网络餐饮网站获取商家的各类证件照图像，包括6 个类别：食品经营许可证、食品流通许可证、食品服务许可证、营业执照、三小证件照、其他证件照，将获取的各类证件照图像分成训练集、验证集、测试集，并存储在云端服务器。

进一步的，本方法在利用训练集训练改进的生成对抗网络之后，以及利用训练后的网络对待分类的证件照图像进行分类之前，还包括步骤：

使用批梯度下降和目标函数更新改进的生成对抗网络的参数；

调整改进的生成对抗网络的超参数，在保持符合预设要求学习率的前提下寻求编码器Encoder 网络和生成器Generator 网络交替次数的平衡，使得在保证生成质量的前提下，让Encoder 网络关注到生成过程中注意力位置，并在分类过程中也加入注意力，提高分类质量。

进一步的，使用批梯度下降和目标函数更新改进的生成对抗网络的编码器E 和生成器G，包括：

，

其中，ρ是两个向量的Pearson相关系数；E和G分别表示使目标函数最小化的编码器和生成器；z和x分别表示噪声向量和图像输入；T是将向量映射成标量的函数；f、g和h均为计算损失的函数；loss_CrossEntropy表示编码器输出的分类向量与真实类别的交叉熵；λ为平衡 Pearson相关系数正则化项的超参数；x~p(x)表示输入编码器E的图像数据服从正态分布；z~p(z)表示输入编码器E的噪声向量服从正态分布；z~q(z)表示输入生成器G的图像数据服从正态分布；

，

其中，avg和std分别表示特征向量的均值和标准差；z和z^分别表示特征向量和真实类别编码的one-hot向量，cos(.)表示两个向量的余弦相似度；Pearson系数范围在[-1,1]之间，两个向量线性相关度越高，Pearson 系数值越大。由于Pearson 系数与原判别器优化目标函数的变化空间无关，能够同时训练和优化分类网络和判别网络且不较大干扰原函数变化的自由度。

进一步的，改进的生成对抗网络先利用生成网络解码和上采样随机采样的噪声得到一张和需要生成的目标图像大小一致的伪图，再经由判别网络判断其真伪，两者互为对抗学习；在生成对抗网络中引入注意力机制使得生成网络和判别网络均能更关注证件照图像预设重要区域的特征。

进一步的，证件照图像预设重要区域包括：证件照名称、颁发证件照的日期和有效期、证件照二维码和中华人民共和国国徽。

进一步的，在生成对抗网络中引入的注意力机制为：利用Pearson 相关系数计算每个特征图层和其余特征图层的相似度，每个特征图层能够看作分类目标的一部分，Pearson 相关系数的大小与该部分的特征和其余部分特征相关度的大小成正比，引入的注意力机制关注证件照图像预设重要区域的特征。

另一方面，本发明还提供了基于注意力机制和生成对抗网络的图像分类系统，所述系统包括：

数据获取与存储模块，用于从互联网获取商家上传的各种类型的证件照图像并存储；

所述数据获取与存储模块包括：图像获取单元，用于从各大网络餐饮网站获取商家的各类证件照图像，包括6个类别：食品经营许可证、食品流通许可证、食品服务许可证、营业执照、三小证件照、其他证件照，将获取的各类证件照图像分成训练集、验证集、测试集，并存储在云端服务器；

预处理模块，用于预处理获取的证件照图像；

所述预处理模块包括：

尺寸调整单元，用于将不同尺寸的证件照图像统一到相同的尺寸；

角度调整单元，用于按照预设比例旋转变换每种类型的证件照图像，获得不同角度下的该类型证件照图像；

图像采样单元，用于根据不同类型证件照图像的数量进行平衡采样，以确保生成的数据集中各类型证件照图像的数量一致；

对抗网络生成模块，用于在生成对抗网络中引入注意力机制，构建改进的生成对抗网络；

所述对抗网络生成模块包括：

对抗网络更新单元，用于使用批梯度下降和目标函数更新改进的生成对抗网络的编码器E和生成器G：

，

，

其中，avg和std分别表示特征向量的均值和标准差；z和z^分别表示特征向量和真实类别编码的one-hot向量，cos(.)表示两个向量的余弦相似度；Pearson系数范围在[-1,1]之间，两个向量线性相关度越高，Pearson 系数值越大。由于Pearson 系数与原判别器优化目标函数的变化空间无关，能够同时训练和优化分类网络和判别网络且不较大干扰原函数变化的自由度；

参数调整模块，用于调整改进的生成对抗网络的超参数，在保持符合预设要求学习率的前提下寻求编码器Encoder网络和生成器Generator网络交替次数的平衡；

训练模块，用于基于预处理后的证件照图像生成训练集，利用训练集训练改进的生成对抗网络；

图像分类模块，用于利用训练后的改进的生成对抗网络对待分类的证件照图像进行分类。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明采用生成对抗网络进行训练，使得网络在噪声干扰下依然具有较高的识别能力；

本发明在生成器网络和编码器网络中引入注意力机制，使网络在分类时更关注预设重要区域的信息，在保证准确率基本不变的前提下，网络参数比其他常见分类网络少一个数量级，同时分类速度也极大提高；

本发明能够在同一个网络中训练分类模块和判别模块且不影响生成图像的质量，注意力机制的引入大大减少网络的冗杂度，能以很浅的模型深度达到其他大型分类网络的效果，最终在2万张图像测试中准确率达到99.39%。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明中GAAC（Generative Adversarial Attention Classifier）网络结构的结构示意图；

图2是本发明中Attention Block结构的结构示意图；

图3是本发明中基于注意力机制和生成对抗网络的图像分类方法的流程示意图；

图4是本发明中基于注意力机制和生成对抗网络的图像分类系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图3，本发明提供了基于注意力机制和生成对抗网络的图像分类方法，所述方法包括：

步骤1：从互联网获取商家上传的各种类型的证件照图像并存储；

步骤2：预处理步骤1获取的证件照图像；

步骤3：在生成对抗网络中引入注意力机制，构建改进的生成对抗网络；

步骤4：基于预处理后的证件照图像生成训练集，利用训练集训练改进的生成对抗网络；

步骤5：基于训练后的网络对待分类的证件照图像进行分类。

其中，本方法中的步骤3可以在步骤1和步骤2之前，在具体实际的应用中可灵活调整。

本发明的目的可以通过GAAC（Generative Adversarial Attention Classifier）的神经网络实现。

其中，在具体实施过程中，本发明的图像分类方法具体包括：

步骤1：数据采集和存储，利用爬虫技术，从各大网络餐饮网站获取商家上传的各种证件照图像（食品经营许可证、食品流通许可证、食品服务许可证、营业执照、三小证件照、其他证件照），共6个大类，分成训练集、验证集、测试集，并存储在云端服务器。

步骤2：图像预处理：1) 为了能够使用批处理训练图像，将不同大小不同分辨率的图像统一Resize 到相同大小（256*256）。这样既能加快网络的训练速度，又能通过批处理降低极个别图像的噪声影响。2) 按照预设比例旋转变换每种类型证件照图像，让模型能适应从不同角度拍摄的证件照图像。3) 平衡采样，绝大部分网络餐饮商家都会上传营业执照，而三小证件照和其他类别相对较少，这使得模型学习的参数偏向营业执照的特征。为了解决样本类别不平衡问题，根据各类别样本数量进行平衡采样，平衡网络模型对各类样本的偏好。

步骤 3：网络模型结构基于DCGAN 和OGAN 改进和设计，使得对抗生成判别器网络既能判断生成器生成图像的真伪又能充当编码器对图像进行分类(如图1 所示)。

GAAC 网络先利用生成网络（Generator Network）解码和上采样随机采样的噪声得到一张和需要生成的目标图像大小一致的伪图，再经由判别网络（DiscriminatorNetwork）判断其真伪，两者互为对抗学习。整个网络在生成器生成图像越来越逼真，判别器判别真伪能力越来越强时趋于收敛。该网络创新之处在于在传统生成对抗网络中引入注意力机制（图1 中的Attention Block）使得生成网络和判别网络都能更关注证件照图像最重要区域的特征，从而提高生成质量和分类准确率。该网络中使用的注意力机制由图2 所示。另一创新是在不影响生成图像质量的前提下让判别器网络可以输出特征向量进行图像分类。

Pearson 相关系数用于计算每个特征图层和其余特征图层的相似度，因为每个特征图层以看作分类目标的一部分，Pearson 相关系数越大说明该部分的特征与其余部分特征越相似，即特征共性越高，如国徽、证照名称、证照抬头等，多关注这些特征能够大大提高网络的分类效率和准确率。

步骤 4：使用批梯度下降和目标函数（公式1）来更新改进的生成对抗网络的编码器E和生成器G：

，

，

步骤5：调整超参数，在保持较大学习率的前提下寻求Encoder 网络和Generator网络交替次数的平衡。使得生成质量不错的前提下，让Encoder 关注到生成过程中注意力位置，并在分类过程中也加入注意力提高分类质量。

步骤6：利用预处理后的图像数据训练构建的网络；

步骤7：利用训练后的网络对待分类的证件照图像进行分类。

请参考图4，本发明实施例还提供了基于注意力机制和生成对抗网络的图像分类系统，所述系统包括：

数据获取与存储单元，用于从互联网获取商家上传的各种类型的证件照图像并存储；

预处理单元，用于预处理获取的证件照图像；改进的生成对抗网络构建单元，用于在生成对抗网络中引入注意力机制，构建改进的生成对抗网络；

训练单元，用于基于预处理后的证件照图像生成训练集，利用训练集训练改进的生成对抗网络；

图像分类单元，用于利用训练后的网络对待分类的证件照图像进行分类。

其中，本发明中的原始数据来源于美团外卖、饿了么、大众点评等网络餐饮平台商家提供合法经营的各类证照。其中食品流通许可证550 张，营业执照24473 张，其他类别证件2043张，三小证件照 2277 照，餐饮服务许可证1346 张，食品经营许可证13539 张用于训练集。

测试集包含以上6 个类别的证照共18101 张。

证件照图像通常包含几个重要信息，如证件照名称，颁发证件照的日期和有效期，证件照二维码以及中华人民共和国国徽。引入注意力机制和对抗训练明显提高了生成网络生成的假证图中上述几个区域的重构质量，使得编码器即判别网络在对真假两张图像进行分类时也会‘刻意’关注这些重要区域，大大提高网络效率，在几乎同等准确率的前提下比传统网络拥有更浅的模型深度和更少的参数。分类速度也极大提高，达到了60fps（一秒钟分类60 张图）以上。在18101 张测试图像上，本发明的模型准确率达到99.39%。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于注意力机制和生成对抗网络的图像分类方法，其特征在于，所述方法包括：

S1：从互联网获取商家上传的各种类型的证件照图像并存储，包括以下步骤：

利用爬虫技术，从各大网络餐饮网站获取商家的各类证件照图像，包括6个类别：食品经营许可证、食品流通许可证、食品服务许可证、营业执照、三小证件照、其他证件照，将获取的各类证件照图像分成训练集、验证集、测试集，并存储在云端服务器；

S2：预处理获取的证件照图像，包括以下步骤：

将不同尺寸的证件照图像统一到相同的尺寸；

在图像采样时，根据不同类型证件照图像的数量进行平衡采样，以确保生成的数据集中各类型证件照图像的数量一致；

S3：在生成对抗网络中引入注意力机制，构建改进的生成对抗网络；

S4：使用批梯度下降和目标函数更新改进的生成对抗网络的参数，包括：

使用批梯度下降和目标函数更新改进的生成对抗网络的编码器E和生成器G：

，

其中，ρ是两个向量的Pearson相关系数；E和G分别表示使目标函数最小化的编码器和生成器；z和x分别表示噪声向量和图像输入；T是将向量映射成标量的函数；f、g和h均为计算损失的函数；loss_CrossEntropy表示编码器输出的分类向量与真实类别的交叉熵；λ为平衡Pearson相关系数正则化项的超参数；

，

其中，avg和std分别表示特征向量的均值和标准差；z和z^分别表示特征向量和真实类别编码的one-hot向量，cos(.)表示两个向量的余弦相似度；

S5：调整改进的生成对抗网络的超参数，在保持符合预设要求学习率的前提下寻求编码器Encoder网络和生成器Generator网络交替次数的平衡；

S6：基于预处理后的证件照图像生成训练集、验证集和测试集，利用训练集训练改进的生成对抗网络，利用验证集和测试集分别验证和测试改进的生成对抗网络；

S7；利用训练后的网络对待分类的证件照图像进行分类。

2.根据权利要求1所述的基于注意力机制和生成对抗网络的图像分类方法，其特征在于，所述方法还包括：基于预处理后的证件照图像生成验证集和测试集，利用验证集和测试集分别验证和测试改进的生成对抗网络。

3.根据权利要求1 所述的基于注意力机制和生成对抗网络的图像分类方法，其特征在于，改进的生成对抗网络先利用生成网络解码和上采样随机采样的噪声得到一张和需要生成的目标图像大小一致的伪图，再经由判别网络即编码器判断其真伪，两者互为对抗学习；在生成对抗网络中引入注意力机制使得生成网络和判别网络均能更关注证件照图像预设重要区域的特征。

4.根据权利要求3所述的基于注意力机制和生成对抗网络的图像分类方法，其特征在于，证件照图像预设重要区域包括：证件照名称、颁发证件照的日期和有效期、证件照二维码和中华人民共和国国徽。

5.根据权利要求3所述的基于注意力机制和生成对抗网络的图像分类方法，其特征在于，在生成对抗网络中引入注意力机制为：利用Pearson相关系数用于计算每个特征图层和其余特征图层的相似度，将每个特征图层看作分类目标的一部分，Pearson相关系数的大小与该部分的特征和其余部分特征的相关度大小成正比，引入的注意力机制关注证件照图像预设重要区域的特征。