CN111461264A - 基于生成对抗网络的具有可伸缩性模块化图像识别方法 - Google Patents

基于生成对抗网络的具有可伸缩性模块化图像识别方法 Download PDF

Info

Publication number
CN111461264A
CN111461264A CN202010448712.5A CN202010448712A CN111461264A CN 111461264 A CN111461264 A CN 111461264A CN 202010448712 A CN202010448712 A CN 202010448712A CN 111461264 A CN111461264 A CN 111461264A
Authority
CN
China
Prior art keywords
training
discriminator
countermeasure network
image recognition
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010448712.5A
Other languages
English (en)
Other versions
CN111461264B (zh
Inventor
俞扬
詹德川
周志华
仲耀晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010448712.5A priority Critical patent/CN111461264B/zh
Publication of CN111461264A publication Critical patent/CN111461264A/zh
Application granted granted Critical
Publication of CN111461264B publication Critical patent/CN111461264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据;根据类别个数N准备N个生成对抗网络模型;训练第i个类别的图像数据,i∈{1,2,...,N};训练生成对抗网络Gi,直到生成对抗网络生成的图像数据与原数据集图像数据的相似度达到预设值;固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi;固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成;对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成;将N个判别器并联排列组合成判别器组;将图片输入到判别器组,每个判别器将对图片输出预测结果;计算最终预测结果。

Description

基于生成对抗网络的具有可伸缩性模块化图像识别方法
技术领域
本发明涉及一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,用于各种规模、数量的图像识别任务,具体属于图像识别分类技术领域。
背景技术
随着计算机信息技术的发展和深度学习的崛起,越来越多的计算机视觉领域里的图像分类识别任务使用深度学习进行处理。其中,深度神经网络是用于处理图像分类识别任务应用最为广泛的方法。但是在使用深度神经网络处理工业界实际任务时我们依旧会面临许多问题。目前常用的对图像数据的识别方式为深度神经网络和支持向量机。
一、深度学习。深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。在深度学习算法的常规运用中,普遍的方案为根据单独的深度学习网络训练模型,然后再调用模型进行识别。但是这样会产生以下几个问题:1)模型十分复杂,难以根据当前任务进行修改,需要研究人员拥有丰富的经验和技巧,在实际环境中难以满足。2)对于不同规模的任务,单个模型无法针对任务规模进行调整,造成资源浪费。3)深度神经网络无法识别负样本数据。
二、支持向量机。在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。在解决图像分类问题中,另外一个常用的做法为使用多个支持向量机,每个支持向量机负责一个分类的识别,但同样支持向量机具有以下缺点:1)支持向量机对大规模训练样本难以实施。由于支持向量机是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。2)用支持向量机解决多分类问题存在困难。经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。
发明内容
发明目的:为克服现有图像分类识别技术的缺陷,本发明提出了一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,能够根据具体图像分类任务按需构建分类器,且能够识别负样本,可以对硬件资源进行灵活调配,大幅降低图像分类算法所占用的硬件资源,并且大幅提升对负样本敏感任务的可用性。
技术方案:一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,包括以下步骤:
步骤1:将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据。
步骤2:根据类别个数N准备N个生成对抗网络模型。
步骤3:训练第i个类别的图像数据,i∈{1,2,...,N};训练生成器Gi,直到生成对抗网络训练完成,生成器Gi损失函数的计算方式为最小化
Figure BDA0002506750200000021
Figure BDA0002506750200000022
其中,x~Pr为从真实图像数据集取出的样本,x~Pg为从生成的图像数据集中取出的样本,D为判别器。
步骤4:固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi,训练长度为将输入图像数据遍历一遍,生成器Gi损失函数的计算方式为最大化
Figure BDA0002506750200000023
步骤5:固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成,判别器Di损失函数的计算方式为最小化
Figure BDA0002506750200000024
步骤6:对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成。
步骤7:将N个判别器并联排列组合成判别器组。
步骤8:当图片输入到判别器组时,每个判别器将对图片输出预测结果。
步骤9:计算最终预测结果:若只有一个判别器将其标注为正样本,则将其归入该判别器所代表的类别;若多个判别器将其标注为正样本或者没有判别器将其标注为正样本,则将其归入负样本。
所述的步骤3、4、5中训练所使用的优化器为RMSProp优化器。
在工业界使用深度神经网络处理图像识别任务时,由于深度神经网络模型针对如ImageNet大型数据集所设计,其中包含1000种分类数据,而实际任务可能只需要识别分类数量相对较小的任务,这样便导致深度神经网络模型相对于具体的任务而言占用过多的资源,且深度神经网络不具备识别负样本的能力。而使用SVM进行识别,识别的正确率大幅低于神经网络,且训练相对困难。
相比较传统的深度学习算法模型动则几百兆的体积而言,本发明方法有更高的可伸缩性模块化的特点。由于单个模型的体积大约为20MB,对于分类个数相对较小的任务,本发明最终的磁盘占用和计算消耗相比较传统的深度学习算法模型有大幅的缩减。并可以根据任务的复杂性,快速对模型进行修改,相比较传统的深度学习算法模型要容易得多。相比较传统的支持向量机而言,结合深度学习算法的组件,有更强的识别能力,并且无需对单个模型进行调整,部署实现更加容易。
附图说明
图1是图像识别方法的流程图;
图2是图像识别模型训练流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本实例需要识别数据流中的银行卡、身份证和纸张三种类别的图像数据。
如图2所示,训练图像识别模型,具体包括如下步骤:
步骤1:将图像数据按类别进行整理,分为银行卡、身份证、纸张三个类别,每个类别中只包含对应类别的图像数据;
步骤2:根据类别个数3准备3个生成对抗网络模型。
步骤3:训练第i个类别的图像数据,i∈{1,2,3}。训练生成对抗网络Gi,直到生成对抗网络训练完成,生成器Gi损失函数的计算方式为最小化
Figure BDA0002506750200000031
其中,x~Pr为从真实图像数据集取出的样本,x~Pg为从生成的图像数据集中取出的样本,D为判别器;
步骤4:固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi,训练长度为将输入图像数据遍历一遍,生成器Gi损失函数的计算方式为最大化
Figure BDA0002506750200000032
步骤5:固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成,判别器Di损失函数的计算方式为最小化
Figure BDA0002506750200000033
步骤6:对所有类别图像数据重复步骤3至步骤5,直到3个判别器训练完成;
步骤7:将3个判别器并联排列组合成判别器组。
如图1所示,图像识别方法为,将图片输入到判别器组,每个判别器将对图片输出预测结果;若只有一个判别器将其标注为正样本,则将其归入该判别器所代表的类别;若多个判别器将其标注为正样本或者没有判别器将其标注为正样本,则将其归入负样本。

Claims (7)

1.一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,训练图像识别模型,利用图像识别模型识别图像;所述训练图像识别模型包括以下步骤:
步骤1:将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据;
步骤2:根据类别个数N准备N个生成对抗网络模型;
步骤3:训练第i个类别的图像数据,i∈{1,2,...,N};训练训练生成器Gi,直到生成对抗网络训练完成;
步骤4:固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi
步骤5:固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成;
步骤6:对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成;
步骤7:将N个判别器并联排列组合成判别器组。
2.根据权利要求1所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,利用所述图像识别模型识别图像:
将图片输入到判别器组,每个判别器将对图片输出预测结果;计算最终预测结果。
3.根据权利要求1所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,所述的步骤3、4和5中,训练所使用的优化器为RMSProp优化器。
4.根据权利要求1所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,所述步骤3中,生成器Gi损失函数的计算方式为最小化
Figure FDA0002506750190000011
Figure FDA0002506750190000012
其中,x~Pr为从真实图像数据集取出的样本,x~Pg为从生成的图像数据集中取出的样本,D为判别器。
5.根据权利要求1所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,所述步骤4中,生成器Gi损失函数的计算方式为最大化
Figure FDA0002506750190000013
6.根据权利要求1所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,所述步骤5中,判别器Di损失函数的计算方式为最小化
Figure FDA0002506750190000014
7.根据权利要求2所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,计算最终预测结果的具体过程为:若只有一个判别器将其标注为正样本,则将其归入该判别器所代表的类别;若多个判别器将其标注为正样本或者没有判别器将其标注为正样本,则将其归入负样本。
CN202010448712.5A 2020-05-25 2020-05-25 基于生成对抗网络的具有可伸缩性模块化图像识别方法 Active CN111461264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010448712.5A CN111461264B (zh) 2020-05-25 2020-05-25 基于生成对抗网络的具有可伸缩性模块化图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010448712.5A CN111461264B (zh) 2020-05-25 2020-05-25 基于生成对抗网络的具有可伸缩性模块化图像识别方法

Publications (2)

Publication Number Publication Date
CN111461264A true CN111461264A (zh) 2020-07-28
CN111461264B CN111461264B (zh) 2023-06-13

Family

ID=71679843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010448712.5A Active CN111461264B (zh) 2020-05-25 2020-05-25 基于生成对抗网络的具有可伸缩性模块化图像识别方法

Country Status (1)

Country Link
CN (1) CN111461264B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269045A (zh) * 2021-04-28 2021-08-17 南京大学 自然场景下中文艺术字检测识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242096A (zh) * 2017-07-01 2019-01-18 英特尔公司 用于训练深度神经网络的技术
CN109948693A (zh) * 2019-03-18 2019-06-28 西安电子科技大学 基于超像素样本扩充和生成对抗网络高光谱图像分类方法
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN110163082A (zh) * 2019-04-02 2019-08-23 腾讯科技(深圳)有限公司 一种图像识别网络模型训练方法、图像识别方法及装置
CN111046900A (zh) * 2019-10-25 2020-04-21 重庆邮电大学 基于局部流形正则化的半监督生成对抗网络图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242096A (zh) * 2017-07-01 2019-01-18 英特尔公司 用于训练深度神经网络的技术
CN109948693A (zh) * 2019-03-18 2019-06-28 西安电子科技大学 基于超像素样本扩充和生成对抗网络高光谱图像分类方法
CN110163082A (zh) * 2019-04-02 2019-08-23 腾讯科技(深圳)有限公司 一种图像识别网络模型训练方法、图像识别方法及装置
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法
CN111046900A (zh) * 2019-10-25 2020-04-21 重庆邮电大学 基于局部流形正则化的半监督生成对抗网络图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王格格等: "基于半监督学习的多层感知器生成对抗网络", 《小型微型计算机系统》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269045A (zh) * 2021-04-28 2021-08-17 南京大学 自然场景下中文艺术字检测识别方法

Also Published As

Publication number Publication date
CN111461264B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
Prashanth et al. Handwritten devanagari character recognition using modified lenet and alexnet convolution neural networks
CN109271521A (zh) 一种文本分类方法及装置
US20070065003A1 (en) Real-time recognition of mixed source text
Boufenar et al. An artificial immune system for offline isolated handwritten arabic character recognition
Raj et al. Helmet violation processing using deep learning
Surinta et al. A comparison of feature and pixel-based methods for recognizing handwritten bangla digits
JP2008159056A (ja) 画像中に生じる特徴の生成モデルによる分類
WO2020023760A1 (en) System and method for clustering products by combining attribute data with image recognition
CN102156885A (zh) 基于级联式码本生成的图像分类方法
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
Cheekati et al. Telugu handwritten character recognition using deep residual learning
Ahsan et al. A machine learning approach for Bengali handwritten vowel character recognition
CN111461264B (zh) 基于生成对抗网络的具有可伸缩性模块化图像识别方法
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
Boulid et al. Spatial and textural aspects for Arabic handwritten characters recognition
CN110765809A (zh) 一种面部表情分类方法、装置和情感智能机器人
Kaur et al. Performance evaluation of various feature selection techniques for offline handwritten Gurumukhi place name recognition
Jabde et al. Offline Handwritten Multilingual Numeral Recognition Using CNN
Abuhammad et al. Emotional faces in the wild: Feature descriptors for emotion classification
Gummaraju et al. Performance Comparison of Machine Learning Models for Handwritten Devanagari Numerals Classification
Singh et al. A Literature Survey on Handwritten Character Recognition
Jhanjhi et al. Adaptive Auto-encoder for Extraction of Arabic Text: invariant, font, and segment
Sunitha et al. Text Identification of handwritten using Deep Learning
Shinde et al. A literature review on: handwritten character recognition using machine learning algorithms
Ramlan et al. Comparison of Deep Learning Model Performance for Handwritten Character Recognition of Schoolchildren

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant