CN111461264B

CN111461264B - 基于生成对抗网络的具有可伸缩性模块化图像识别方法

Info

Publication number: CN111461264B
Application number: CN202010448712.5A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 仲耀晖
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-06-13
Anticipated expiration: 2040-05-25
Also published as: CN111461264A

Abstract

本发明公开一种基于生成对抗网络的具有可伸缩性模块化图像识别方法，将图像数据按类别进行整理，有N个类别就将其分为N类，每类中只包含相同类别的图像数据；根据类别个数N准备N个生成对抗网络模型；训练第i个类别的图像数据，i∈{1,2,...,N}；训练生成对抗网络G_i，直到生成对抗网络生成的图像数据与原数据集图像数据的相似度达到预设值；固定生成对抗网络中判别器D_i的参数，按梯度逆方向训练生成器G_i；固定生成对抗网络中生成器G_i的参数，训练判别器D_i，直到训练完成；对所有类别图像数据重复步骤3至步骤5，直到N个判别器训练完成；将N个判别器并联排列组合成判别器组；将图片输入到判别器组，每个判别器将对图片输出预测结果；计算最终预测结果。

Description

基于生成对抗网络的具有可伸缩性模块化图像识别方法

技术领域

本发明涉及一种基于生成对抗网络的具有可伸缩性模块化图像识别方法，用于各种规模、数量的图像识别任务，具体属于图像识别分类技术领域。

背景技术

随着计算机信息技术的发展和深度学习的崛起，越来越多的计算机视觉领域里的图像分类识别任务使用深度学习进行处理。其中，深度神经网络是用于处理图像分类识别任务应用最为广泛的方法。但是在使用深度神经网络处理工业界实际任务时我们依旧会面临许多问题。目前常用的对图像数据的识别方式为深度神经网络和支持向量机。

一、深度学习。深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。在深度学习算法的常规运用中，普遍的方案为根据单独的深度学习网络训练模型，然后再调用模型进行识别。但是这样会产生以下几个问题：1)模型十分复杂，难以根据当前任务进行修改，需要研究人员拥有丰富的经验和技巧，在实际环境中难以满足。2)对于不同规模的任务，单个模型无法针对任务规模进行调整，造成资源浪费。3)深度神经网络无法识别负样本数据。

二、支持向量机。在机器学习中，支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。在解决图像分类问题中，另外一个常用的做法为使用多个支持向量机，每个支持向量机负责一个分类的识别，但同样支持向量机具有以下缺点：1)支持向量机对大规模训练样本难以实施。由于支持向量机是借助二次规划来求解支持向量，而求解二次规划将涉及m阶矩阵的计算(m为样本的个数)，当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。2)用支持向量机解决多分类问题存在困难。经典的支持向量机算法只给出了二类分类的算法，而在数据挖掘的实际应用中，一般要解决多类的分类问题。

发明内容

发明目的：为克服现有图像分类识别技术的缺陷，本发明提出了一种基于生成对抗网络的具有可伸缩性模块化图像识别方法，能够根据具体图像分类任务按需构建分类器，且能够识别负样本，可以对硬件资源进行灵活调配，大幅降低图像分类算法所占用的硬件资源，并且大幅提升对负样本敏感任务的可用性。

技术方案：一种基于生成对抗网络的具有可伸缩性模块化图像识别方法，包括以下步骤：

步骤1：将图像数据按类别进行整理，有N个类别就将其分为N类，每类中只包含相同类别的图像数据。

步骤2：根据类别个数N准备N个生成对抗网络模型。

步骤3：训练第i个类别的图像数据，i∈{1,2,...,N}；训练生成器G_i，直到生成对抗网络训练完成，生成器G_i损失函数的计算方式为最小化

其中，x～P_r为从真实图像数据集取出的样本，x～P_g为从生成的图像数据集中取出的样本，D为判别器。

步骤4：固定生成对抗网络中判别器D_i的参数，按梯度逆方向训练生成器G_i，训练长度为将输入图像数据遍历一遍，生成器G_i损失函数的计算方式为最大化

步骤5：固定生成对抗网络中生成器G_i的参数，训练判别器D_i，直到训练完成，判别器D_i损失函数的计算方式为最小化

步骤6：对所有类别图像数据重复步骤3至步骤5，直到N个判别器训练完成。

步骤7：将N个判别器并联排列组合成判别器组。

步骤8：当图片输入到判别器组时，每个判别器将对图片输出预测结果。

步骤9：计算最终预测结果：若只有一个判别器将其标注为正样本，则将其归入该判别器所代表的类别；若多个判别器将其标注为正样本或者没有判别器将其标注为正样本，则将其归入负样本。

所述的步骤3、4、5中训练所使用的优化器为RMSProp优化器。

在工业界使用深度神经网络处理图像识别任务时，由于深度神经网络模型针对如ImageNet大型数据集所设计，其中包含1000种分类数据，而实际任务可能只需要识别分类数量相对较小的任务，这样便导致深度神经网络模型相对于具体的任务而言占用过多的资源，且深度神经网络不具备识别负样本的能力。而使用SVM进行识别，识别的正确率大幅低于神经网络，且训练相对困难。

相比较传统的深度学习算法模型动则几百兆的体积而言，本发明方法有更高的可伸缩性模块化的特点。由于单个模型的体积大约为20MB，对于分类个数相对较小的任务，本发明最终的磁盘占用和计算消耗相比较传统的深度学习算法模型有大幅的缩减。并可以根据任务的复杂性，快速对模型进行修改，相比较传统的深度学习算法模型要容易得多。相比较传统的支持向量机而言，结合深度学习算法的组件，有更强的识别能力，并且无需对单个模型进行调整，部署实现更加容易。

附图说明

图1是图像识别方法的流程图；

图2是图像识别模型训练流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本实例需要识别数据流中的银行卡、身份证和纸张三种类别的图像数据。

如图2所示，训练图像识别模型，具体包括如下步骤：

步骤1：将图像数据按类别进行整理，分为银行卡、身份证、纸张三个类别，每个类别中只包含对应类别的图像数据；

步骤2：根据类别个数3准备3个生成对抗网络模型。

步骤3：训练第i个类别的图像数据，i∈{1,2,3}。训练生成对抗网络G_i，直到生成对抗网络训练完成，生成器G_i损失函数的计算方式为最小化

其中，x～P_r为从真实图像数据集取出的样本，x～P_g为从生成的图像数据集中取出的样本，D为判别器；

步骤5:固定生成对抗网络中生成器G_i的参数，训练判别器D_i，直到训练完成，判别器D_i损失函数的计算方式为最小化

步骤6：对所有类别图像数据重复步骤3至步骤5，直到3个判别器训练完成；

步骤7：将3个判别器并联排列组合成判别器组。

如图1所示，图像识别方法为，将图片输入到判别器组，每个判别器将对图片输出预测结果；若只有一个判别器将其标注为正样本，则将其归入该判别器所代表的类别；若多个判别器将其标注为正样本或者没有判别器将其标注为正样本，则将其归入负样本。