CN111325809B - 一种基于双对抗网络的外观图像生成方法 - Google Patents
一种基于双对抗网络的外观图像生成方法 Download PDFInfo
- Publication number
- CN111325809B CN111325809B CN202010082696.2A CN202010082696A CN111325809B CN 111325809 B CN111325809 B CN 111325809B CN 202010082696 A CN202010082696 A CN 202010082696A CN 111325809 B CN111325809 B CN 111325809B
- Authority
- CN
- China
- Prior art keywords
- network
- image
- generation
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供基于双对抗网络的外观图像生成方法,包括以下步骤:S1.选取训练网络的图像数据集;S2.图像缩放;S3.提取图像Hog特征;S4.训练双对抗网络;S5.生成数据;S6.扩充数据集。本发明在生成网络输入时加入训练数据的Hog特征,由于加入的特征信息有类似标签的效果,使网络尽可能更高概率的生成与训练数据有关的图像;相比于使用一组对抗网络生成数据,本发明通过再增加编码网络与鉴别网络的对抗,使得生成网络更好地捕捉训练数据的分布,提高生成质量;本发明所述的方法还可以进行特征提取,网络训练时编码网络目的是重构随机噪声和图像的Hog特征的组合形式,当网络训练成功后,编码网络可以用来提取图像的特征。
Description
技术领域
本发明涉及人工智能领域,特别是外观专利图像的生成技术,主要针对外观专利图像的特点,解决专利图像集中存在的不均匀问题。
背景技术
近年来,知识产权保护越来越受到国家高度的重视,知识产权已经成为我国经济高质量发展的重要战略资源之一。同时,随着人工智能的发展,智能化检索成为知识产权领域中提升执法效率的重要途径之一。然而训练越高效的神经网络用于检索,其对训练数据的数量和完备性要求就越高,实验已表明,神经网络的性能与训练数据的完备性程正相关。
外观专利图像集往往存在明显的数据不均匀问题,从而影响专利检索的效果。为了解决这一问题,最可靠的方法是通过人工对类别较少的图像进行再次采集,以补充该类图像,但是这种方法效率低下,且成本巨大。还有一种方法是通过生成模型学习少量类别图像的分布,就能对该类图像进行增强。作为生成模型之一的生成对抗网络在学习图像的高维分布效果表现显著,通过两个神经网络的对抗训练,使得其中一个网络学习高维分布。
目前,在图像的生成上,更多的是基于一组对抗网络的图像生成,但该方法生成的外观专利图像模糊,无法有效地解决外观专利图像集中存在的数据不均匀问题。因此,本发明利用双对抗网络提高生成质量,从而有效地解决图像集中存在的数据不均匀问题。
发明内容
为了解决现有外观专利图像集中存在的数据不均匀问题,本发明提出了一种基于双对抗网络的外观专利图像生成方法。虽然本发明是针对外观专利图像的生成方法,但其核心方法可以推广到其他的类似数据。
为解决上述技术问题,本发明的技术方案如下:
一种基于双对抗网络的外观图像生成方法,包括以下步骤:
S1.选取训练网络的图像数据集;
在数据库中选取图像作为网络的训练数据;
S2.图像缩放;
在不影响外观专利图中物体的前提下,对训练数据中的每张图像进行缩放;
S3.提取图像Hog特征;
分别对步骤S2后的每张图像提取该图像的Hog特征;
S4.训练双对抗网络;
用训练数据、Hog特征、随机噪声训练双对抗网络;
S5.生成数据;
输入待扩充类别图像的Hog特征和随机噪声的组合形式,获得该类图像的生成数据;更换类别图像,可以获得不同类别图像的生成数据;
S6.扩充数据集;
将生成的图像放大到原尺寸,使得其与原数据集中的图像大小相同。
在一种优选方案中,所述的图像数据库为外观专利图像数据库。
在一种优选方案中,所述双对抗网络包括两部分,一组对抗网络包括生成网络G和判别网络D;另一组对抗网络包括编码网络E和鉴别网络M。
在一种优选方案中,所述的生成网络G包含一个全连接层、3个反卷积层和一个卷积层,其输入训练数据的Hog特征h和随机噪声z的组合形式,输出生成数据;所述的判别网络D的输入为生成数据和训练数据,输出判断值,该网络包含4个卷积层和一个全连接层。
在一种优选方案中,所述的编码网络E的输入为生成数据,输出向量h′和向量z′的组合形式,该网络包含4个卷积层和一个全连接层;所述的鉴别网络M输入向量h和向量h′,输出鉴别值,该网络包含4个全连接层;其中输出向量h′和向量z′分别与h维数、z维数相同。
在一种优选方案中,所述生成网络G、判别网络D、编码网络E和鉴别网络M均采用谱归一化方法稳定训练。
在一种优选方案中,所述步骤S4中训练采用交替更新网络方式,分别固定生成网络G、编码网络E和鉴别网络M的参数更新判别网络D的参数,固定判别网络D、编码网络E和鉴别网络M的参数更新生成网络G的参数,固定生成网络G、判别网络D和编码网络E的参数更新鉴别网络M的参数,固定生成网络G、判别网络D和鉴别网络M的参数更新编码网络E的参数。
训练过程中还包括以下要点:
训练采用交替更新网络方式,固定网络G、M、E的参数更新网络D的参数,固定网络D、M、E的参数更新网络G的参数,固定网络D、G、E的参数更新网络M的参数,固定网络G、D、M的参数更新网络E的参数;
随机噪声和训练数据的Hog特征的组合形式输入网络G时,该组合形式是在随机噪声的末尾衔接训练数据的Hog特征,每个网络在前向传播时每层的权重矩阵都会进行谱归一化操作。
本发明训练生成对抗网络时使用的稳定方法来自SN-GAN,SN-GAN是对生成对抗网络中判别网络进行Lipschiz约束达到稳定训练的目的。本发明对每个网络使用SN-GAN中的稳定方法,目的是稳定训练每个网络。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的基于双对抗网络的外观图像生成方法在生成网络输入时加入训练数据的Hog特征,由于加入的特征信息有类似标签的效果,相较于只输入随机噪声会有更好的生成指示,从而使网络尽可能更高概率的生成与训练数据有关的图像;相比于使用一组对抗网络生成数据,本发明通过再增加编码网络与鉴别网络的对抗,使得生成网络更好地捕捉训练数据的分布,提高生成质量;本发明所述的方法还可以进行特征提取,网络训练时编码网络目的是重构随机噪声和图像的Hog特征的组合形式,当网络训练成功后,编码网络可以用来提取图像的特征。
附图说明
图1是本发明提供的基于双对抗网络的外观图像生成方法的流程图;
图2是本发明的生成网络模型示意图;
图3是本发明的判别网络模型示意图;
图4是本发明的编码网络模型示意图;
图5是本发明的鉴别网络模型示意图;
图6是本发明的双对抗网络结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种基于双对抗网络的外观图像生成方法,如图1所示,包括以下步骤:
S1.选取训练网络的图像数据集;
在数据库中选取图像作为网络的训练数据;
S2.图像缩放;
在不影响外观专利图中物体的前提下,对训练数据中的每张图像进行缩放;
S3.提取图像Hog特征;
分别对步骤S2后的每张图像提取该图像的Hog特征;
S4.训练双对抗网络;
用训练数据、Hog特征、随机噪声训练双对抗网络;
S5.生成数据;
输入待扩充类别图像的Hog特征和随机噪声的组合形式,获得该类图像的生成数据;更换类别图像,可以获得不同类别图像的生成数据;
S6.扩充数据集;
将生成的图像放大到原尺寸,使得其与原数据集中的图像大小相同。
在一种优选方案中,所述的图像数据库为外观专利图像数据库。
在一种优选方案中,如图2-5所示,所述双对抗网络包括两部分,一组对抗网络包括生成网络G和判别网络D;另一组对抗网络包括编码网络E和鉴别网络M。
在一种优选方案中,所述的生成网络G包含一个全连接层、3个反卷积层和一个卷积层,其输入训练数据的Hog特征h和随机噪声z的组合形式,输出生成数据;所述的判别网络D的输入为生成数据和训练数据,输出判断值,该网络包含4个卷积层和一个全连接层。
在一种优选方案中,所述的编码网络E的输入为生成数据,输出向量h′和向量z′的组合形式,该网络包含4个卷积层和一个全连接层;所述的鉴别网络M输入向量h和向量h′,输出鉴别值,该网络包含4个全连接层;其中输出向量h′和向量z′分别与h维数、z维数相同。
在一种优选方案中,所述生成网络G、判别网络D、编码网络E和鉴别网络M均采用谱归一化方法稳定训练。
在一种优选方案中,所述步骤S4中训练采用交替更新网络方式,分别固定生成网络G、编码网络E和鉴别网络M的参数更新判别网络D的参数,固定判别网络D、编码网络E和鉴别网络M的参数更新生成网络G的参数,固定生成网络G、判别网络D和编码网络E的参数更新鉴别网络M的参数,固定生成网络G、判别网络D和鉴别网络M的参数更新编码网络E的参数。
训练过程中还包括以下要点,如图6所示:
训练采用交替更新网络方式,固定网络G、M、E的参数更新网络D的参数,固定网络D、M、E的参数更新网络G的参数,固定网络D、G、E的参数更新网络M的参数,固定网络G、D、M的参数更新网络E的参数;
随机噪声和训练数据的Hog特征的组合形式输入网络G时,该组合形式是在随机噪声的末尾衔接训练数据的Hog特征,每个网络在前向传播时每层的权重矩阵都会进行谱归一化操作。
本发明训练生成对抗网络时使用的稳定方法来自SN-GAN,SN-GAN是对生成对抗网络中判别网络进行Lipschiz约束达到稳定训练的目的。本发明对每个网络使用SN-GAN中的稳定方法,目的是稳定训练每个网络。
实施例2
一种基于双对抗网络的外观专利图像生成方法,如图1-6所示,包括以下几个步骤:
S1.选取外观专利图像集中数量少的十个类别,每类随机选取2000张图像,共两万张图像作为训练数据集。
S2.图像缩放;
将步骤S1选取的外观专利图像从原始尺寸224*224*3缩放至48*48*3,实验测得将图像缩放并不会影响到外观专利图像的生成,并能节省训练时间。
S3.提取Hog特征;
对每张训练图像提取100维的Hog特征作为该图像的近似标签,共得到20000个Hog特征标签。
S4.训练双对抗网络;
用图像数据和其对应的Hog特征、还有服从正态分布的随机噪声训练双对抗网络。
为了确保结果具有良好的视觉效果,本网络使用如下的损失函数:
固定网络G、M、E的参数更新网络D的参数时优化的损失为
LD=Ex~p[logD(x)]+Ex′~q[log(1-D(x′))]
其中x表示训练图像,x′表示生成图像,p表示训练图像的分布,q表示生成图像的分布。
固定网络D、M、E的参数更新网络G的参数时优化的损失为
固定网络D、G、E的参数更新网络M的参数时优化的损失为
其中qh′表示h′服从的分布,h′来自于网络E的部分输出。
固定网络G、D、M的参数更新网络E的参数时优化的损失为
每次训练随机选取一批数据作为网络的输入,训练过程采用ADAM优化算法,经过10万次的迭代网络达到收敛。
S5.使用训练成功的生成网络生成图像;
通过向训练好的生成网络输入其中一个类别图像的Hog特征和随机噪声的组合形式,就可以获得该类图像的生成图像。
S6.扩充数据集;
将生成的48*48*3图像放大至原尺寸224*224*3,用来扩充该类别的图像集。
本发明可以通过改变生成网络输入的Hog特征生成不同类别的图像,对于生成后的图像需要经过人工鉴定,生成质量高的图像可以作为扩充数据,以增加少量类别图像的数量,解决外观专利图像集中存在的数据不均匀问题。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于双对抗网络的外观图像生成方法,其特征在于,包括以下步骤:
S1.选取训练网络的图像数据集;
在数据库中选取图像作为网络的训练数据;
S2.图像缩放;
在不影响外观专利图中物体的前提下,对训练数据中的每张图像进行缩放;
S3.提取图像Hog特征;
分别对步骤S2后的每张图像提取该图像的Hog特征;
S4.训练双对抗网络;
用训练数据、Hog特征、随机噪声训练双对抗网络;
S5.生成数据;
输入待扩充类别图像的Hog特征和随机噪声的组合形式,获得该类图像的生成数据;更换类别图像,可以获得不同类别图像的生成数据;
S6.扩充数据集;
将生成的图像放大到原尺寸,使得其与原数据集中的图像大小相同。
2.根据权利要求1所述的基于双对抗网络的外观图像生成方法,其特征在于,所述的图像数据库为外观专利图像数据库。
3.根据权利要求2所述的基于双对抗网络的外观图像生成方法,其特征在于,所述双对抗网络包括两部分,一组对抗网络包括生成网络G和判别网络D;另一组对抗网络包括编码网络E和鉴别网络M。
4.根据权利要求3所述的基于双对抗网络的外观图像生成方法,其特征在于,所述的生成网络G包含一个全连接层、3个反卷积层和一个卷积层,其输入训练数据的Hog特征h和随机噪声z的组合形式,输出生成数据;所述的判别网络D的输入为生成数据和训练数据,输出判断值,该网络包含4个卷积层和一个全连接层。
5.根据权利要求4所述的基于双对抗网络的外观图像生成方法,其特征在于,所述的编码网络E的输入为生成数据,输出向量h′和向量z′的组合形式,该网络包含4个卷积层和一个全连接层;所述的鉴别网络M输入向量h和向量h′,输出鉴别值,该网络包含4个全连接层;其中输出向量h′和向量z′分别与h维数、z维数相同。
6.根据权利要求5所述的基于双对抗网络的外观图像生成方法,其特征在于,所述生成网络G、判别网络D、编码网络E和鉴别网络M均采用谱归一化方法稳定训练。
7.根据权利要求3所述的基于双对抗网络的外观图像生成方法,其特征在于,所述步骤S4中训练采用交替更新网络方式,分别固定生成网络G、编码网络E和鉴别网络M的参数更新判别网络D的参数,固定判别网络D、编码网络E和鉴别网络M的参数更新生成网络G的参数,固定生成网络G、判别网络D和编码网络E的参数更新鉴别网络M的参数,固定生成网络G、判别网络D和鉴别网络M的参数更新编码网络E的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082696.2A CN111325809B (zh) | 2020-02-07 | 2020-02-07 | 一种基于双对抗网络的外观图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082696.2A CN111325809B (zh) | 2020-02-07 | 2020-02-07 | 一种基于双对抗网络的外观图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325809A CN111325809A (zh) | 2020-06-23 |
CN111325809B true CN111325809B (zh) | 2021-03-12 |
Family
ID=71172635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010082696.2A Active CN111325809B (zh) | 2020-02-07 | 2020-02-07 | 一种基于双对抗网络的外观图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325809B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506770A (zh) * | 2017-08-17 | 2017-12-22 | 湖州师范学院 | 糖尿病视网膜病变眼底照相标准图像生成方法 |
CN110110745A (zh) * | 2019-03-29 | 2019-08-09 | 上海海事大学 | 基于生成对抗网络的半监督x光图像自动标注 |
CN110555811A (zh) * | 2019-07-02 | 2019-12-10 | 五邑大学 | 一种sar图像数据增强方法、装置及存储介质 |
CN110728727A (zh) * | 2019-09-03 | 2020-01-24 | 天津大学 | 一种低剂量能谱ct投影数据的恢复方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423850B2 (en) * | 2017-10-05 | 2019-09-24 | The Climate Corporation | Disease recognition from images having a large field of view |
US11157782B2 (en) * | 2017-11-16 | 2021-10-26 | International Business Machines Corporation | Anomaly detection in multidimensional time series data |
CN109934116B (zh) * | 2019-02-19 | 2020-11-24 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN110728654B (zh) * | 2019-09-06 | 2023-01-10 | 台州学院 | 一种基于深度残差神经网络的管道自动检测和分类方法 |
-
2020
- 2020-02-07 CN CN202010082696.2A patent/CN111325809B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506770A (zh) * | 2017-08-17 | 2017-12-22 | 湖州师范学院 | 糖尿病视网膜病变眼底照相标准图像生成方法 |
CN110110745A (zh) * | 2019-03-29 | 2019-08-09 | 上海海事大学 | 基于生成对抗网络的半监督x光图像自动标注 |
CN110555811A (zh) * | 2019-07-02 | 2019-12-10 | 五邑大学 | 一种sar图像数据增强方法、装置及存储介质 |
CN110728727A (zh) * | 2019-09-03 | 2020-01-24 | 天津大学 | 一种低剂量能谱ct投影数据的恢复方法 |
Non-Patent Citations (4)
Title |
---|
ADVERSARIAL FEATURE LEARNING;Jeff Donahue等;《arXiv:1605.09782v7 [》;20170403;全文 * |
DGANS:基于双重生成式对抗网络的稳健图像隐写模型;竺乐庆等;《通信学报》;20200131;第41卷(第1期);全文 * |
DualGAN: Unsupervised Dual Learning for Image-to-Image Translation;Zili Yi等;《arXiv:1704.02510v4 [cs.CV]》;20181009;全文 * |
基于语义分类的外观专利图像快速检索系统;李旭明等;《计算机工程与应用》;20110725;第48卷(第16期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111325809A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121975B (zh) | 一种联合原始数据和生成数据的人脸识别方法 | |
CN111340122A (zh) | 一种多模态特征融合的文本引导图像修复方法 | |
CN109800785B (zh) | 一种基于自表达相关的数据分类方法和装置 | |
CN110569033A (zh) | 一种数字化交易类智能合约基础代码生成方法 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN113343974B (zh) | 考虑模态间语义距离度量的多模态融合分类优化方法 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN114332569B (zh) | 基于注意力机制的低扰动对抗攻击方法 | |
CN113076549B (zh) | 一种基于新型U-Net结构生成器的对抗网络图像隐写方法 | |
CN109101999A (zh) | 基于支持向量机的协神经网络可信决策方法 | |
CN113191445A (zh) | 基于自监督对抗哈希算法的大规模图像检索方法 | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
CN113688715A (zh) | 面部表情识别方法及系统 | |
CN111325809B (zh) | 一种基于双对抗网络的外观图像生成方法 | |
CN115809702B (zh) | Acgan模型构建方法、图像生成方法及服装设计方法 | |
Pedrycz et al. | A decomposition of fuzzy relations | |
CN110059189B (zh) | 一种游戏平台消息的分类系统及方法 | |
CN116051924B (zh) | 一种图像对抗样本的分治防御方法 | |
CN113434668B (zh) | 一种基于模型融合的深度学习文本分类方法及系统 | |
CN114139709A (zh) | 基于图神经网络的电力专业知识图谱自动补全方法 | |
CN114692867A (zh) | 一种结合高阶结构和注意力机制的网络表示学习算法 | |
CN114386966A (zh) | 一种基于深度学习的区块链加密货币地址身份识别方法 | |
CN113177599A (zh) | 一种基于gan的强化样本生成方法 | |
CN112785613A (zh) | 一种智能炉膛火焰图像识别方法 | |
CN115909316B (zh) | 一种面向数据不均匀场景的轻量化端到端车牌识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |