CN111461264A - 基于生成对抗网络的具有可伸缩性模块化图像识别方法 - Google Patents
基于生成对抗网络的具有可伸缩性模块化图像识别方法 Download PDFInfo
- Publication number
- CN111461264A CN111461264A CN202010448712.5A CN202010448712A CN111461264A CN 111461264 A CN111461264 A CN 111461264A CN 202010448712 A CN202010448712 A CN 202010448712A CN 111461264 A CN111461264 A CN 111461264A
- Authority
- CN
- China
- Prior art keywords
- training
- discriminator
- countermeasure network
- image recognition
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013135 deep learning Methods 0.000 description 11
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据;根据类别个数N准备N个生成对抗网络模型;训练第i个类别的图像数据,i∈{1,2,...,N};训练生成对抗网络Gi,直到生成对抗网络生成的图像数据与原数据集图像数据的相似度达到预设值;固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi;固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成;对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成;将N个判别器并联排列组合成判别器组;将图片输入到判别器组,每个判别器将对图片输出预测结果;计算最终预测结果。
Description
技术领域
本发明涉及一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,用于各种规模、数量的图像识别任务,具体属于图像识别分类技术领域。
背景技术
随着计算机信息技术的发展和深度学习的崛起,越来越多的计算机视觉领域里的图像分类识别任务使用深度学习进行处理。其中,深度神经网络是用于处理图像分类识别任务应用最为广泛的方法。但是在使用深度神经网络处理工业界实际任务时我们依旧会面临许多问题。目前常用的对图像数据的识别方式为深度神经网络和支持向量机。
一、深度学习。深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。在深度学习算法的常规运用中,普遍的方案为根据单独的深度学习网络训练模型,然后再调用模型进行识别。但是这样会产生以下几个问题:1)模型十分复杂,难以根据当前任务进行修改,需要研究人员拥有丰富的经验和技巧,在实际环境中难以满足。2)对于不同规模的任务,单个模型无法针对任务规模进行调整,造成资源浪费。3)深度神经网络无法识别负样本数据。
二、支持向量机。在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。在解决图像分类问题中,另外一个常用的做法为使用多个支持向量机,每个支持向量机负责一个分类的识别,但同样支持向量机具有以下缺点:1)支持向量机对大规模训练样本难以实施。由于支持向量机是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。2)用支持向量机解决多分类问题存在困难。经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。
发明内容
发明目的:为克服现有图像分类识别技术的缺陷,本发明提出了一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,能够根据具体图像分类任务按需构建分类器,且能够识别负样本,可以对硬件资源进行灵活调配,大幅降低图像分类算法所占用的硬件资源,并且大幅提升对负样本敏感任务的可用性。
技术方案:一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,包括以下步骤:
步骤1:将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据。
步骤2:根据类别个数N准备N个生成对抗网络模型。
步骤3:训练第i个类别的图像数据,i∈{1,2,...,N};训练生成器Gi,直到生成对抗网络训练完成,生成器Gi损失函数的计算方式为最小化 其中,x~Pr为从真实图像数据集取出的样本,x~Pg为从生成的图像数据集中取出的样本,D为判别器。
步骤6:对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成。
步骤7:将N个判别器并联排列组合成判别器组。
步骤8:当图片输入到判别器组时,每个判别器将对图片输出预测结果。
步骤9:计算最终预测结果:若只有一个判别器将其标注为正样本,则将其归入该判别器所代表的类别;若多个判别器将其标注为正样本或者没有判别器将其标注为正样本,则将其归入负样本。
所述的步骤3、4、5中训练所使用的优化器为RMSProp优化器。
在工业界使用深度神经网络处理图像识别任务时,由于深度神经网络模型针对如ImageNet大型数据集所设计,其中包含1000种分类数据,而实际任务可能只需要识别分类数量相对较小的任务,这样便导致深度神经网络模型相对于具体的任务而言占用过多的资源,且深度神经网络不具备识别负样本的能力。而使用SVM进行识别,识别的正确率大幅低于神经网络,且训练相对困难。
相比较传统的深度学习算法模型动则几百兆的体积而言,本发明方法有更高的可伸缩性模块化的特点。由于单个模型的体积大约为20MB,对于分类个数相对较小的任务,本发明最终的磁盘占用和计算消耗相比较传统的深度学习算法模型有大幅的缩减。并可以根据任务的复杂性,快速对模型进行修改,相比较传统的深度学习算法模型要容易得多。相比较传统的支持向量机而言,结合深度学习算法的组件,有更强的识别能力,并且无需对单个模型进行调整,部署实现更加容易。
附图说明
图1是图像识别方法的流程图;
图2是图像识别模型训练流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本实例需要识别数据流中的银行卡、身份证和纸张三种类别的图像数据。
如图2所示,训练图像识别模型,具体包括如下步骤:
步骤1:将图像数据按类别进行整理,分为银行卡、身份证、纸张三个类别,每个类别中只包含对应类别的图像数据;
步骤2:根据类别个数3准备3个生成对抗网络模型。
步骤3:训练第i个类别的图像数据,i∈{1,2,3}。训练生成对抗网络Gi,直到生成对抗网络训练完成,生成器Gi损失函数的计算方式为最小化其中,x~Pr为从真实图像数据集取出的样本,x~Pg为从生成的图像数据集中取出的样本,D为判别器;
步骤6:对所有类别图像数据重复步骤3至步骤5,直到3个判别器训练完成;
步骤7:将3个判别器并联排列组合成判别器组。
如图1所示,图像识别方法为,将图片输入到判别器组,每个判别器将对图片输出预测结果;若只有一个判别器将其标注为正样本,则将其归入该判别器所代表的类别;若多个判别器将其标注为正样本或者没有判别器将其标注为正样本,则将其归入负样本。
Claims (7)
1.一种基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,训练图像识别模型,利用图像识别模型识别图像;所述训练图像识别模型包括以下步骤:
步骤1:将图像数据按类别进行整理,有N个类别就将其分为N类,每类中只包含相同类别的图像数据;
步骤2:根据类别个数N准备N个生成对抗网络模型;
步骤3:训练第i个类别的图像数据,i∈{1,2,...,N};训练训练生成器Gi,直到生成对抗网络训练完成;
步骤4:固定生成对抗网络中判别器Di的参数,按梯度逆方向训练生成器Gi;
步骤5:固定生成对抗网络中生成器Gi的参数,训练判别器Di,直到训练完成;
步骤6:对所有类别图像数据重复步骤3至步骤5,直到N个判别器训练完成;
步骤7:将N个判别器并联排列组合成判别器组。
2.根据权利要求1所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,利用所述图像识别模型识别图像:
将图片输入到判别器组,每个判别器将对图片输出预测结果;计算最终预测结果。
3.根据权利要求1所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,所述的步骤3、4和5中,训练所使用的优化器为RMSProp优化器。
7.根据权利要求2所述的基于生成对抗网络的具有可伸缩性模块化图像识别方法,其特征在于,计算最终预测结果的具体过程为:若只有一个判别器将其标注为正样本,则将其归入该判别器所代表的类别;若多个判别器将其标注为正样本或者没有判别器将其标注为正样本,则将其归入负样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010448712.5A CN111461264B (zh) | 2020-05-25 | 2020-05-25 | 基于生成对抗网络的具有可伸缩性模块化图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010448712.5A CN111461264B (zh) | 2020-05-25 | 2020-05-25 | 基于生成对抗网络的具有可伸缩性模块化图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461264A true CN111461264A (zh) | 2020-07-28 |
CN111461264B CN111461264B (zh) | 2023-06-13 |
Family
ID=71679843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010448712.5A Active CN111461264B (zh) | 2020-05-25 | 2020-05-25 | 基于生成对抗网络的具有可伸缩性模块化图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461264B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269045A (zh) * | 2021-04-28 | 2021-08-17 | 南京大学 | 自然场景下中文艺术字检测识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242096A (zh) * | 2017-07-01 | 2019-01-18 | 英特尔公司 | 用于训练深度神经网络的技术 |
CN109948693A (zh) * | 2019-03-18 | 2019-06-28 | 西安电子科技大学 | 基于超像素样本扩充和生成对抗网络高光谱图像分类方法 |
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
CN110163082A (zh) * | 2019-04-02 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像识别网络模型训练方法、图像识别方法及装置 |
CN111046900A (zh) * | 2019-10-25 | 2020-04-21 | 重庆邮电大学 | 基于局部流形正则化的半监督生成对抗网络图像分类方法 |
-
2020
- 2020-05-25 CN CN202010448712.5A patent/CN111461264B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242096A (zh) * | 2017-07-01 | 2019-01-18 | 英特尔公司 | 用于训练深度神经网络的技术 |
CN109948693A (zh) * | 2019-03-18 | 2019-06-28 | 西安电子科技大学 | 基于超像素样本扩充和生成对抗网络高光谱图像分类方法 |
CN110163082A (zh) * | 2019-04-02 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像识别网络模型训练方法、图像识别方法及装置 |
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
CN111046900A (zh) * | 2019-10-25 | 2020-04-21 | 重庆邮电大学 | 基于局部流形正则化的半监督生成对抗网络图像分类方法 |
Non-Patent Citations (1)
Title |
---|
王格格等: "基于半监督学习的多层感知器生成对抗网络", 《小型微型计算机系统》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269045A (zh) * | 2021-04-28 | 2021-08-17 | 南京大学 | 自然场景下中文艺术字检测识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111461264B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Prashanth et al. | Handwritten devanagari character recognition using modified lenet and alexnet convolution neural networks | |
CN109271521A (zh) | 一种文本分类方法及装置 | |
US20070065003A1 (en) | Real-time recognition of mixed source text | |
Boufenar et al. | An artificial immune system for offline isolated handwritten arabic character recognition | |
Raj et al. | Helmet violation processing using deep learning | |
Surinta et al. | A comparison of feature and pixel-based methods for recognizing handwritten bangla digits | |
JP2008159056A (ja) | 画像中に生じる特徴の生成モデルによる分類 | |
WO2020023760A1 (en) | System and method for clustering products by combining attribute data with image recognition | |
CN102156885A (zh) | 基于级联式码本生成的图像分类方法 | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
Cheekati et al. | Telugu handwritten character recognition using deep residual learning | |
Ahsan et al. | A machine learning approach for Bengali handwritten vowel character recognition | |
CN111461264B (zh) | 基于生成对抗网络的具有可伸缩性模块化图像识别方法 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
Boulid et al. | Spatial and textural aspects for Arabic handwritten characters recognition | |
CN110765809A (zh) | 一种面部表情分类方法、装置和情感智能机器人 | |
Kaur et al. | Performance evaluation of various feature selection techniques for offline handwritten Gurumukhi place name recognition | |
Jabde et al. | Offline Handwritten Multilingual Numeral Recognition Using CNN | |
Abuhammad et al. | Emotional faces in the wild: Feature descriptors for emotion classification | |
Gummaraju et al. | Performance Comparison of Machine Learning Models for Handwritten Devanagari Numerals Classification | |
Singh et al. | A Literature Survey on Handwritten Character Recognition | |
Jhanjhi et al. | Adaptive Auto-encoder for Extraction of Arabic Text: invariant, font, and segment | |
Sunitha et al. | Text Identification of handwritten using Deep Learning | |
Shinde et al. | A literature review on: handwritten character recognition using machine learning algorithms | |
Ramlan et al. | Comparison of Deep Learning Model Performance for Handwritten Character Recognition of Schoolchildren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |