CN112836755A - 基于深度学习的样本图像生成方法及其系统 - Google Patents

基于深度学习的样本图像生成方法及其系统 Download PDF

Info

Publication number
CN112836755A
CN112836755A CN202110162777.8A CN202110162777A CN112836755A CN 112836755 A CN112836755 A CN 112836755A CN 202110162777 A CN202110162777 A CN 202110162777A CN 112836755 A CN112836755 A CN 112836755A
Authority
CN
China
Prior art keywords
image
category
image set
model
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110162777.8A
Other languages
English (en)
Other versions
CN112836755B (zh
Inventor
范小龙
叶锦
乔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202110162777.8A priority Critical patent/CN112836755B/zh
Publication of CN112836755A publication Critical patent/CN112836755A/zh
Application granted granted Critical
Publication of CN112836755B publication Critical patent/CN112836755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了基于深度学习的样本图像生成方法及其系统,方法包括:获取原始图像集合,原始图像集合包含多个类别的图像;对原始图像集合进行主题类别计算,获取各个类别的主题图像集合;对主题图像集合进行预处理;根据预处理后的主题图像集合构建各个类别的图像生成模型;对各个类别的图像生成模型进行联合训练学习,获取各个类别的生成图像集合;对生成图像集合进行图像校验。本发明针对现有的图像生成技术中,生成图像的精度无法满足实际需求的缺陷,提出了基于深度学习的样本图像生成方法及其系统,基于深度学习网络对图像进行自动化生成,能有效提高生成图像的精度,同时兼顾了生成图像的多样性和稳定性,具有较高的实用价值。

Description

基于深度学习的样本图像生成方法及其系统
技术领域
本发明涉及图像处理领域,具体而言,涉及基于深度学习的样本图像生成方法及其系统。
背景技术
传统的图像生成方法,通常采用旋转、剪切、加噪音、颜色变化等方法对图像进行简单的处理,只是对图像做了简单的增强变换,并不能对图像细节,例如图像纹理、细节轮廓等做精细化的变换,也很难直接多风格多样式的扩充原始图像。
基于MUNIT的图像生成方法采用了内容和样式两种编码器,来对图像的样式和风格分别编码学习,可以进行同类别图像间的样式的转换学习,真正实现图像之间多模态风格的转换。但是该方法只能应用于相似品类图像的学习,如果直接应用于跨品类的图像生成,生成图像的也会出现多种干扰模糊等低质情况。
基于深度学习的CycleGAN图像生成方法由两个经过对抗损失和循环重构损失训练的残差转换网络组成。但该方法很难直接生成更多模态多样式的图像样本,即使对输入图像加入更多干扰也不能直接产生更多模态的图像内容。
因此,目前的深度学习图像生成或图像翻译技术,由于其方法本身存在相似类别的多模态转换限制,如果直接采用全类别的图像直接进行生成,所生成的图像精度,无法直接满足实际生成任务的精度需求。此外,传统的图像生成方法的样式单一,无法满足生成图像对风格样式的需求。
发明内容
基于现有技术存在的问题,本发明提供了一种基于深度学习的样本图像生成方法及其系统。具体方案如下:
一种基于深度学习的样本图像生成方法,包括如下步骤:
图像获取:获取原始图像集合,所述原始图像集合包含多个类别的图像;
图像分类:对所述原始图像集合进行主题类别计算,获取各个类别的主题图像集合;
模型构建:基于所述主题图像集合构建各个类别的图像生成模型;;
图像生成:对各个类别的所述图像生成模型进行联合训练学习,获取各个类别的生成图像集合。
在一个具体的实施例中,所述图像分类具体包括:
在所述原始图像集合中选取预设比例的图像进行标注获取第一标签图像,根据所述第一标签图像构建品类图像集合,结合深度卷积模型构建初始分类模型;
通过所述初始分类模型对所述原始图像集合中除所述第一标签图像以外的图像进行分类,将分类结果正确的图像作为第二标签图像,并将所述第二标签图像划分到所述品类图像集合;
根据所述品类图像集合对所述初始分类模型进行迭代训练,直至满足迭代停止条件,将迭代停止后的初始分类模型作为第一分类模型;
通过所述第一分类模型对所述原始图像集合进行分类,获取各个类别的主题图像集合,通过计算图像之间的相似度获取各个类别的相似图像阈值。通过构建分类模型,可以高效准确的对图像进行分类,分类效果好。
在一个具体的实施例中,所述图像生成具体包括:
每个类别的所述图像生成模型根据所述相似图像阈值,选择其它类别的所述主题图像集合进行联合训练学习;
每个类别的所述图像生成模型根据该类别的所述主题图像集合进行训练;
各个类别的所述图像生成模型生成图像,获取各个类别的生成图像集合。
在图像生成模型训练初期阶段对多品类相似图像进行联合训练学习,使得模型有更多模态的生成,到训练后期只采用子主题图像进行训练,提升了生成图像的稳定性,兼顾了生成图像的多样性和稳定性。
在一个具体的实施例中,在所述图像生成之后,还包括:
将所述生成图像集合作为第三标签图像,并将所述第三标签图像划分至所述品类图像集合,所述初始分类模型根据所述品类图像集合进行迭代训练;
在训练初期,根据所述第一标签图像对所述初始分类模型进行微调;
在训练中期,根据所述第二标签图像对所述初始分类模型进行泛化性处理;
在训练后期,根据所述第三标签图像对所述初始分类模型进行精度提升。
将生成的图像作为样本对分类模型进行训练,提高了分类模型的训练样本数。
在一个具体的实施例中,所述主题类别计算的误差表达式为:
L=a0Llabeled+a1Lgan+a2Lunlabeled
其中,L为总误差,Llabeled为所述第一标签图像的误差,a0为Llabeled的权重因子,Lgan为所述第二标签图像的误差,a1为Lgan的权重因子,Lunlabeled为所述第三标签图像的误差,a2为Lunlabeled的权重因子。
在一个具体的实施例中,在所述模型构建和所述图像生成中,基于MUNIT算法构建所述图像生成模型,通过内容编码器和样式编码器进行图像多模态的学习,实现对所述图像生成模型的训练。
在一个具体的实施例中,在所述图像分类之后、所述模型构建之前,还包括:对所述主题图像集合进行边缘提取,将RGB图像转为边缘图像。预处理可根据选择的图像生成算法进行适应性改变。
在一个具体的实施例中,在所述图像生成之后,还包括对所述生成图像集合进行图像校验,所述图像校验包括对图像进行颜色直方图、清晰度、分类类别、图像细节的评估指标计算。图像生成后,对生成图像集合进行图像校验,对生成图像的颜色、清晰度、质量等的归类分析,最终使得生成结果可控可选。
一种基于深度学习的样本图像生成系统,包括:
图像获取单元:用于获取原始图像集合,所述原始图像集合包含多个类别的图像;
图像分类单元:用于对所述原始图像集合进行主题类别计算,获取各个类别的主题图像集合;
生成模型获取单元:用于根据所述主题图像集合构建各个类别的图像生成模型;
图像生成单元:用于对各个类别的所述图像生成模型进行联合训练学习,获取各个类别的生成图像集合。
在一个具体的实施例中,所述系统还包括,
预处理单元:用于对所述主题图像集合进行图像预处理,包括将RGB图像转换为边缘图像;
图像校验单元:用于对所述生成图像集合进行图像校验。
在一个具体的实施例中,所述图像分类单元包括:
模型构建单元:用于在所述原始图像集合中选取预设比例的图像进行标注获取第一标签图像,根据所述第一标签图像构建品类图像集合,结合深度卷积模型构建初始分类模型;
初始分类单元:用于通过所述初始分类模型对所述原始图像集合中除所述第一标签图像以外的图像进行分类,将分类结果正确的图像作为第二标签图像,并将所述第二标签图像划分到所述品类图像集合;
模型获取单元:用于根据所述品类图像集合对所述初始分类模型进行迭代训练,直至满足迭代停止条件,将迭代停止后的初始分类模型作为第一分类模型;
分类单元:用于通过所述第一分类模型对所述原始图像集合进行分类,获取各个类别的主题图像集合,通过计算图像之间的相似度获取各个类别的相似图像阈值;
和/或所述图像生成单元具体包括:
联合训练单元,用于对所述图像生成模型进行联合训练,每个类别的所述图像生成模型根据所述相似图像阈值选择其它类别的所述主题图像集合进行联合训练学习;
主题训练单元,用于根据该类别的所述主题图像集合对所述图像生成模型进行训练;
生成图像获取单元,用于根据各个类别的所述图像生成模型生成图像,获取各个类别的生成图像集合。
本发明具有如下有益效果:
本发明针对现有技术中图像生成方法在对多类别图像处理时,生成图像精度低的问题,提出了基于深度学习的样本图像生成方法及其系统。
通过人工标记的方法结合分类模型对图像进行分类,分类模型的分类效果好,分类精度高,鲁棒性和稳定性相较于传统的图像生成方法有极大的提升。
根据样本的充足与否,选择合适的分类方式,样本不充足时扩充样本数据提升分类效果,样本充足时无需扩展数据分类速度快,用户可根据实际情况进行选择。
各个类别的图像生成模型根据图像之间的相似阈值进行判断,选择合适的类别进行联合学习,采用了内容和样式的两种编码器进行图像多模态的学习,实现了图像之间多风格的自动迁移,提升了生成图像的泛化性效果。
在图像生成模型训练初期阶段对多品类相似图像进行联合训练学习,使得模型有更多模态的生成,到训练后期只采用子主题图像进行训练,提升了生成图像的稳定性,兼顾了生成图像的多样性和稳定性。
图像生成后,对生成图像集合进行图像校验,对生成图像的颜色、清晰度、质量等的归类分析,最终使得生成结果可控可选。
一种基于深度学习的样本图像生成系统,将该方法模块化,形成一种具体的系统,使其更具备实用性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例1的样本图像生成方法流程图;
图2是本发明实施例2的样本图像生成方法流程图;
图3是本发明实施例2的样本图像生成方法效果示意图;
图4是本发明实施例2的生成图像示意图;
图5是本发明实施例3的模块图。
附图标记:
1-图像获取单元;2-图像分类单元;3-预处理单元;4-生成模型获取单元;5-图像生成单元;6-图像校验单元;21-模型构建单元;22-初始分类单元;23-模型获取单元;24-分类单元;51-联合训练单元;52-主题训练单元;53-生成图像获取单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请文件中涉及的“类别”为图像所属的种类,如女装类、男装类、鞋类、瓶杯类等商品类别。目前的深度学习图像生成或图像翻译技术,由于其方法本身存在相似类别的多模态转换限制,只能处理相似类别的图像,如男装类和女装类,男鞋类和女鞋类这种商品类别相似或相同,而无法处理鞋子和服装这种图像种类存在极大差异的图像。如果直接采用多类别甚至全品类的图像直接进行生成,所生成的图像精度,无法直接满足实际生成任务的精度需求。此外,本申请文件中提到的子主题图像,为某一类图像生成模型对应的主题图像集合中的图像。
本发明针对现有技术中存在的图像类别与图像精度无法兼容的问题,提出了基于深度学习的样本图像生成方法及其系统,能够对多个类别的图像进行处理,生成包含多个类别图像的风格和内容的图像,且生成图像的精度高,风格样式多样,图像生成稳定,生成图像的精度效果可进行自动化评测,并应用于多个不同的领域。
实施例1
本实施例提出了一种基于深度学习的样本图像生成方法,流程步骤如说明书附图1所述,具体方案如下:
S1、获取原始图像集合,原始图像集合包含多个类别的图像;
S2、对原始图像集合进行主题类别计算,获取各个类别的主题图像集合;
S3、根据主题图像集合构建各个类别的图像生成模型;
S4、对各个类别的图像生成模型进行联合训练学习,获取各个类别的生成图像集合。
在本实施例中,原始图像集合包含多个类别的图像,如女装类、男装类、鞋类、瓶杯类等具体商品类别图像。其中,原始图像中的类别数越多,生成的图像样式越多样。
本实施例通过构建分类模型对原始图像集合进行主题类别计算。其中,主题类别计算包括主题分类以及相似阈值计算两部分,主题分类主要通过构建并训练分类模型实现。
在一个具体的实施例中,基于卷积神经网络构建分类模型,结合人工标记图像和分类结果对分类模型进行迭代训练,直到满足迭代停止条件。传统的图像生成方法对于图像主题的分类主要采用人工标记图像的方式实现,或采用大量标签图像来建立监督模型学习实现主题类别的高精度分类。人工标记的方法无法使用于图像数据量的方案,监督模型需要大量的标签图像作为样本图像进行训练,因此,传统的图像生成方法在图像数量极大的情况下极为耗费人力。
S2的主题类别计算主要包括如下步骤:
S21、在原始图像集合中选取预设比例的图像进行标注获取第一标签图像,根据第一标签图像构建品类图像集合,结合深度卷积模型构建初始分类模型;
S22、通过初始分类模型对原始图像集合中除第一标签图像以外的图像进行分类,将分类结果正确的图像作为第二标签图像,并将第二标签图像划分到品类图像集合;
S23、初始分类模型根据品类图像集合进行迭代训练,直至满足迭代停止条件,将迭代停止后的初始分类模型作为第一分类模型;
S24、通过第一分类模型对原始图像集合进行分类,获取各个类别的主题图像集合,通过计算图像之间的相似度获取各个类别的相似图像阈值。
该方法通过人工标注图像,获取第一标签图像,利用第一标签图像构建初始分类模型。初始分类模型在分类精度上存在一定的缺陷,需要对其进行迭代训练。利用初始分类模型对原始图像集合中的其他样本图像进行分类,其他样本图像为在原始图像集合中除人工标注的第一标签图像之外的图像。选取分类结果正确的图像作为第二标签图像,将第二标签图像划分到品类图像集合中。品类图像集合中还包括第一标签图像,集合中的图像都是分类结果正确的图像,主要作为样本对初始分类模型进行迭代训练。初始分类模型根据品类图像集合中的图像数据进行迭代训练,直到满足迭代停止条件,获取迭代停止后的初始分类模型,作为第一分类模型。第一分类模型的分类精度和召回率基本符合需求,且泛化能力高。通过第一分类模型对原始图像集合中的图像进行分类,分类精度高。
其中,S3根据主题图像集合构建各个类别的图像生成模型。S4对各个类别的图像生成模型进行联合训练学习,获取各个类别的生成图像集合。S3和S4构成样本生成,本实施例主要采用基于MUNIT的方法进行图像样本生成。基于MUNIT的方法是一种基于深度学习的多模式无监督图像到图像的翻译方法,其对图像分别采用了内容和样式的两种编码器进行图像多模态的学习,最终实现了图像之间的多风格的自动迁移,从而达到生成多样式图像的目的。对于简单的图像任务也可以选择CycleGAN方法来替代。
在生成算法学习过程中,本实施例采用了多主题图像联合学习的方法来进行生成图像多样式和稳定性的提升。多主题图像之间联合学习的方法,在训练初期阶段会对多品类相似图像进行联合训练学习,使得模型有更多模态的生成;到迭代后期只采用主要主题图像的训练,进行生成稳定性的提升。具体的步骤如下:
S41、每个类别的所述图像生成模型根据相似图像阈值,选择其它类别的主题图像集合进行联合训练学习;
S42、每个类别的图像生成模型根据该类别的主题图像集合进行训练;
S43、各个类别的图像生成模型生成图像,获取各个类别的生成图像集合。
多主题图像之间联合学习的方法,在训练初期阶段会对多品类相似图像进行联合训练学习,使得模型有更多模态的生成;到迭代后期只采用子主题图像进行训练,进行生成稳定性的提升。联合学习更好的兼顾了生成图像的多样性和稳定性。
本实施例提供了一种基于深度学习的样本图像生成方法,提升了商品样本图像生成结果的精确度及多样性,
实施例2
本实施例在实施例1的基础上,提出了一种基于深度学习的样本图像生成方法,流程步骤如说明书附图2所述,具体方案如下:
S1、获取原始图像集合,原始图像集合包含多个类别的图像;
S2、对原始图像集合进行主题类别计算,获取各个类别的主题图像集合;
S3、对主题图像集合进行预处理;
S4、根据预处理后的主题图像集合构建各个类别的图像生成模型;
S5、对各个类别的图像生成模型进行联合训练学习,获取各个类别的生成图像集合;
S6、对生成图像集合进行图像校验。
在本实施例中,原始图像集合包含多个类别的图像,如女装类、男装类、鞋类、瓶杯类等具体商品类别图像。其中,原始图像中的类别数越多,生成的图像样式越多样。在实际应用中,用户可选取内容、样式符合期待的图像,组成原始图像集合。例如,用户想要获取女装类图像中的图案应用到瓶杯类图像中,传统的图像生成方法无法处理这类跨类别的图像处理,采用本实施例提出的方法,只需选取女装类图像和瓶杯图像作为原始图像集合中的主要内容,即可实现两类图像的样式、内容融合。效果示意图如说明书附图3所示。
其中,S2对原始图像集合进行主题类别计算,获取各个类别的主题图像集合,
本实施例通过构建分类模型对原始图像集合进行主题类别计算。其中,主题类别计算包括主题分类以及相似阈值计算两部分,主题分类主要通过构建并训练分类模型实现。
在一个具体的实施例中,基于卷积神经网络构建分类模型,结合人工标记图像和分类结果对分类模型进行迭代训练,直到满足迭代停止条件。传统的图像生成方法对于图像主题的分类主要采用人工标记图像的方式实现,或采用大量标签图像来建立监督模型学习实现主题类别的高精度分类。人工标记的方法无法使用于图像数据量的方案,监督模型需要大量的标签图像作为样本图像进行训练,因此,传统的图像生成方法在图像数量极大的情况下极为耗费人力。
本实施例的主题分类方法可根据样本图像的数量进行选择。在样本数据充分的情况下,虽不用扩展数据来进行学习,但需要更多的人工标注样本,获取足够的第一标签图像,才能保证分类模型的分类精度。
样本数据充分的情况下,S2的主题类别计算主要包括如下步骤:
S21、在原始图像集合中选取预设比例的图像进行标注获取第一标签图像,根据第一标签图像构建品类图像集合,结合深度卷积模型构建初始分类模型;
S22、通过初始分类模型对原始图像集合中除第一标签图像以外的图像进行分类,将分类结果正确的图像作为第二标签图像,并将第二标签图像划分到品类图像集合;
S23、初始分类模型根据品类图像集合进行迭代训练,直至满足迭代停止条件,将迭代停止后的初始分类模型作为第一分类模型;
S24、通过第一分类模型对原始图像集合进行分类,获取各个类别的主题图像集合,通过计算图像之间的相似度获取各个类别的相似图像阈值。
该方法通过人工标注图像,获取第一标签图像,利用第一标签图像构建初始分类模型。初始分类模型在分类精度上存在一定的缺陷,需要对其进行迭代训练。利用初始分类模型对原始图像集合中的其他样本图像进行分类,其他样本图像为在原始图像集合中除人工标注的第一标签图像之外的图像。选取分类结果正确的图像作为第二标签图像,将第二标签图像划分到品类图像集合中。品类图像集合中还包括第一标签图像,集合中的图像都是分类结果正确的图像,主要作为样本对初始分类模型进行迭代训练。初始分类模型根据品类图像集合中的图像数据进行迭代训练,直到满足迭代停止条件,获取迭代停止后的初始分类模型,作为第一分类模型。第一分类模型的分类精度和召回率基本符合需求,且泛化能力高。通过第一分类模型对原始图像集合中的图像进行分类,分类精度高。
在样本数据不充分的情况下,需要扩展样本数据,提升分类模型的分类效果,同时避免人为标注过多数据。在上述方法的基础上,将S5获取的生成图像集合作为第三标签图像,划分到品类图像集合中,以此扩充品类图像集合中的样本数据。初始分类模型根据品类图像集合进行迭代训练。
具体地,首先在原始图像集合中进行少量类别图像标注作为第一标签图像,再结合深度卷积模型建立基准的初始分类模型,对其余图像进行初步的分类,挑选分类结果可信的图像作为第二标签图像。然后对于人工和算法筛选出的少批量图像进行后续S3-S6的图像生成,快速扩充新的类别样本图像,再将生成的图像进行迭代训练,提升分类模型的精度,最终采用半监督的方法实现一个高精度的主题分类模型。该方法的误差表达式为:
L=a0Llabeled+a1Lgan+a2Lunlabeled
其中,L为总误差,Llabeled为第一标签图像的误差,a0为Llabeled的权重因子,Lgan为第二标签图像的误差,a1为Lgan的权重因子,
Figure BDA0002937194280000131
为第三标签图像的误差,a2为Lunlabeled的权重因子。
Llabeled:采用人工标注的第一标签图像的误差loss进行学习,该权重a0在模型学习初期较高,迭代到后期该权重逐渐减小,以便引入更多外部数据特征进行学习更多泛化能力,提升模型的分类精度和召回率。
Lgan:采用多主题多样式生成的伪标签样本图像(第二标签图像)的误差loss进行学习,该权重a1在模型学习初期可为0,迭代到中后期该权重逐渐增大,以便引入更多扩展特征进行学习到更多泛化能力,提升模型分类精度和召回率。
Lunlabeled:采用随机采用的无标签图像(第三标签图像)的预测伪标签作为标签,并学习该类无标签图像的误差loss,该权重a2在模型学习初期为0,迭代到后期该权重逐渐增大,以便引入更多扩展特征进行学习到更多泛化能力,提升模型分类精度和召回率。
在训练初期,采用预训练深度卷积网络,主要根据第一标签图像对初始分类模型进行微调,a0的权重在前期是最大的,随着训练的进行,权重逐渐减小。到训练中期,a1的权重逐渐增大,引入第二标签图像的误差,进一步提升模型的泛化性;在训练后期,a2的权重逐渐增大,引入当前模型预测结果作为无标签数据的伪标签。一般样本不是特别充分的情况下,采用该方法整体分类精度对比可提升5%以上,对于充分样本更侧重分类的稳定性和鲁棒性。
在对各图像进行主题类的分类识别时,也进行了各个类别图像之间相似度的计算,最终计算获得类和类之间的相似图像阈值,为S5的图像联合学习提供基础判别阈值。
此外,在图像复杂度较低的时候可以使用,还可采用聚类方法进行主题类别计算。主题分类的方法可以根据不同场景和图像任务复杂度选择不同的方法。
其中,S3主要对主题图像集合进行预处理。预处理包括对图像进行基础的处理,如图像边缘提取等,在本实施例中,由于选用基于MUNIT的方法进行图像生成,因此需要对图像进行边缘处理,将原始的RGB彩色图像转为边缘图像。本实施例采用Canny算子来进行自动化的商品图像边缘提取后,再进行多风格样本学习生成。此外,还可采用Sobel算子、Laplace算子等边缘提取算法,可按照不同的图像类别选择不同的边缘提取方法。图像边缘处理仅需要简单的简笔边缘画边便可实现生成多种风格的图像,只给出边缘图便可以自动生成颜色、纹理等多风格图像,使图像自动生成多样式的彩色样式图像。
其中,S4根据预处理后的主题图像集合构建各个类别的图像生成模型。S5对各个类别的图像生成模型进行联合训练学习,获取各个类别的生成图像集合。S4和S5构成样本生成,本实施例主要采用基于MUNIT的方法进行图像样本生成。基于MUNIT的方法是一种基于深度学习的多模式无监督图像到图像的翻译方法,其对图像分别采用了内容和样式的两种编码器进行图像多模态的学习,最终实现了图像之间的多风格的自动迁移,从而达到生成多样式图像的目的。对于简单的图像任务也可以选择CycleGAN方法来替代。
在生成算法学习过程中,本实施例采用了多主题图像联合学习的方法来进行生成图像多样式和稳定性的提升。多主题图像之间联合学习的方法,在训练初期阶段会对多品类相似图像进行联合训练学习,使得模型有更多模态的生成;到迭代后期只采用主要主题图像的训练,进行生成稳定性的提升。具体的步骤如下:
S51、每个类别的所述图像生成模型根据相似图像阈值,选择其它类别的主题图像集合进行联合训练学习;
S52、每个类别的图像生成模型根据该类别的主题图像集合进行训练;
S53、各个类别的图像生成模型生成图像,获取各个类别的生成图像集合。
其中,多主题图像联合学习是一种可选的生成图像学习方法,主要对数据训练样本进行改进,进一步提升了图像生成模型中生成样式的泛化能力。现有技术在进行图像对抗生成时对于同批次的图像会进行不断的迭代学习,这样可保证图像生成的样式较稳定,但图像的多样性缺失。只在一种主题类别下进行生成样式学习,会导致生成的图像样式只能局限在该主题图像的样式类别中。所以在生成时,依据类别间的相似度,可以选择其他类别的图像进行交叉图像的联合学习以达到提升生成图像的泛化性效果,且生成图像的多样式效果较好。例如,学习生成女鞋类图像,在学习的过程中也可以加入男鞋类的图像进行生成学习,这样使得女鞋类别的生成也可能出现男鞋类似的设计风格,达到多主题类别的联合学习的效果。
多主题图像之间联合学习的方法,在训练初期阶段会对多品类相似图像进行联合训练学习,使得模型有更多模态的生成;到迭代后期只采用子主题图像进行训练,进行生成稳定性的提升。联合学习更好的兼顾了生成图像的多样性和稳定性。
其中,S6对生成图像集合进行图像校验。对于生成图像进行相关评估指标的计算,譬如进行颜色直方图、清晰度(包含熵、交叉熵、峰值信噪比、平均梯度、SSIM等)、分类类别等。现有图像生成方法的图像生成结果为随机态,在颜色、纹理、清晰度等方面结果都不可控。本实施例通过对每张生成图像进行相关细节的描述和评价,便于后续应用场景的选择,使得生成结果可控可选。
生成的多样式图像进行校验精确分类后,可以接入不同的应用场景,包括提升图像分类精度、用于图像辅助设计等等,具备较大的实用价值,应用及推广价值极高。生成图像可直接用于分类模型的样本扩充,提升模型的分类精度;还可以应用于商品图像的多样推荐给用户展示,供用户选择;还可以提供多样式多风格的设计图像供设计人员进行选择适用。生成的图像如说明书附图4所示。
本实施例提供了一种基于深度学习的样本图像生成方法,提升了商品样本图像生成结果的精确度及多样性,是一种对前沿的深度学习图像生成方法的集成创新和应用,也是一种通用的解决图像生成效果差精度差等问题的图像处理方法,可有效使图像生成方法真正得到落地和应用,是一种工程级别的解决方案。通过人工标记的方法结合分类模型对图像进行分类,分类模型的分类效果好,分类精度高,鲁棒性和稳定性相较于传统的图像生成方法有极大的提升。根据样本的充足与否,选择合适的分类方式,样本不充足时扩充样本数据提升分类效果,样本充足时无需扩展数据分类速度快,用户可根据实际情况进行选择。各个类别的图像生成模型根据图像之间的相似阈值进行判断,选择合适的类别进行联合学习,采用了内容和样式的两种编码器进行图像多模态的学习,实现了图像之间多风格的自动迁移,提升了生成图像的泛化性效果。在图像生成模型训练初期阶段对多品类相似图像进行联合训练学习,使得模型有更多模态的生成,到训练后期只采用子主题图像进行训练,提升了生成图像的稳定性,兼顾了生成图像的多样性和稳定性。图像生成后,对生成图像集合进行图像校验,对生成图像的颜色、清晰度、质量等的归类分析,最终使得生成结果可控可选。
实施例3
本实施例在实施例1和2的基础上,将实施例2提出的一种基于深度学习的样本图像生成方法模块化,形成一种基于深度学习的样本图像生成系统,各模块示意图如说明书附图5所述。具体方案如下:
一种基于深度学习的样本图像生成系统,依次包括图像获取单元1、图像分类单元2、预处理单元3、生成模型获取单元4、图像生成单元5和图像校验单元6。
图像获取单元1:用于获取原始图像集合,原始图像集合包含多个类别的图像。用户可将图像导入图像获取单元1,也可利用图像获取单元1在互联网采集图像,包括使用爬虫进行数据图像爬取。
图像分类单元2:用于对原始图像集合进行主题类别计算,获取各个类别的主题图像集合。图像分类单元2连接图像获取单元1,接收图像获取单元1发送的原始图像集合。图像分类单元2通过构建分类模型,并利用样本数据进行训练,最终获取高精度的分类模型对原始图像集合中的图像进行分类,获取各个类别的主题图像集合。
预处理单元3:用于对主题图像集合进行预处理。预处理单元3主要对图像分类单元2的主题图像集合进行预处理,预处理包括边缘处理等。在本实施例中,预处理单元3主要对图像进行边缘提取,将RGB彩色图像转为边缘图像,本模块对图像采用Canny算子来进行自动化的商品图像边缘提取。
生成模型获取单元4:用于根据预处理后的主题图像集合构建各个类别的图像生成模型。主要采用基于MUNIT的方法,构建图像生成模型。
图像生成单元5:用于对各个类别的图像生成模型进行联合训练学习,获取各个类别的生成图像集合。对图像生成模型进行训练,在训练初期阶段对多品类相似图像进行联合训练学习,使模型有更多模态的生成。到迭代后期采用子主题图像进行训练,实现生成稳定性的提升。
图像校验单元6:用于对生成图像集合进行图像校验。通过图像校验单元6对生成的图像结果进行相关评估指标的计算,譬如进行颜色直方图、清晰度(包含熵、交叉熵、峰值信噪比、平均梯度、SSIM等)、分类类别等。对每张生成的图像可进行相关细节的描述和评价,便于后续应用场景的选择。
其中,图像分类单元2包括模型构建单元21、初始分类单元22、模型获取单元23、分类单元24。
模型构建单元21:用于在原始图像集合中选取预设比例的图像进行标注获取第一标签图像,根据第一标签图像构建品类图像集合,结合深度卷积模型构建初始分类模型。
初始分类单元22:用于通过初始分类模型对原始图像集合中除所述第一标签图像以外的图像进行分类,将分类结果正确的图像作为第二标签图像,并将第二标签图像划分到品类图像集合。
模型获取单元23:用于根据品类图像集合对初始分类模型进行迭代训练,直至满足迭代停止条件,将迭代停止后的初始分类模型作为第一分类模型。
分类单元24:用于通过第一分类模型对原始图像集合进行分类,获取各个类别的主题图像集合,通过计算图像之间的相似度获取各个类别的相似图像阈值。
其中,图像生成单元具体包括联合训练单元51、主题训练单元52和生成图像获取单元53。
联合训练单元51,用于对图像生成模型进行联合训练,每个类别的图像生成模型根据相似图像阈值,选择其它类别的主题图像集合进行联合训练学习。
主题训练单元52,用于根据该类别的主题图像集合对图像生成模型进行训练。
生成图像获取单元53,用于根据各个类别的图像生成模型生成图像,获取各个类别的生成图像集合。
本实施例在实施例1的基础上,提出了一种基于深度学习的样本图像生成系统,将实施例1的方法模块化,形成一种具体的系统,使其更具备实用性。
本发明针对现有技术中图像生成方法在对多类别图像处理时,生成图像精度低的问题,提出了基于深度学习的样本图像生成方法及其系统。通过人工标记的方法结合分类模型对图像进行分类,分类模型的分类效果好,分类精度高,鲁棒性和稳定性相较于传统的图像生成方法有极大的提升。根据样本的充足与否,选择合适的分类方式,样本不充足时扩充样本数据提升分类效果,样本充足时无需扩展数据分类速度快,用户可根据实际情况进行选择。各个类别的图像生成模型根据图像之间的相似阈值进行判断,选择合适的类别进行联合学习,采用了内容和样式的两种编码器进行图像多模态的学习,实现了图像之间多风格的自动迁移,提升了生成图像的泛化性效果。在图像生成模型训练初期阶段对多品类相似图像进行联合训练学习,使得模型有更多模态的生成,到训练后期只采用子主题图像进行训练,提升了生成图像的稳定性,兼顾了生成图像的多样性和稳定性。图像生成后,对生成图像集合进行图像校验,对生成图像的颜色、清晰度、质量等的归类分析,最终使得生成结果可控可选。基于深度学习的样本图像生成系统,将该方法模块化,形成一种具体的系统,使其更具备实用性。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (11)

1.一种基于深度学习的样本图像生成方法,其特征在于,包括,
图像获取:获取原始图像集合,所述原始图像集合包含多个类别的图像;
图像分类:对所述原始图像集合进行主题类别计算,获取各个类别的主题图像集合;
模型构建:基于所述主题图像集合构建各个类别的图像生成模型;
图像生成:对各个类别的所述图像生成模型进行联合训练学习,获取各个类别的生成图像集合。
2.根据权利要求1所述的方法,其特征在于,所述图像分类具体包括:
在所述原始图像集合中选取预设比例的图像进行标注获取第一标签图像,根据所述第一标签图像构建品类图像集合,结合深度卷积模型构建初始分类模型;
通过所述初始分类模型对所述原始图像集合中除所述第一标签图像以外的图像进行分类,将分类结果正确的图像作为第二标签图像,并将所述第二标签图像划分到所述品类图像集合;
根据所述品类图像集合对所述初始分类模型进行迭代训练,直至满足迭代停止条件,将迭代停止后的初始分类模型作为第一分类模型;
通过所述第一分类模型对所述原始图像集合进行分类,获取各个类别的主题图像集合,通过计算图像之间的相似度获取各个类别的相似图像阈值。
3.根据权利要求2所述的方法,其特征在于,所述图像生成具体包括:
每个类别的所述图像生成模型根据所述相似图像阈值,选择其它类别的所述主题图像集合进行联合训练学习;
每个类别的所述图像生成模型根据该类别的所述主题图像集合进行训练;
各个类别的所述图像生成模型生成图像,获取各个类别的生成图像集合。
4.根据权利要求2所述的方法,其特征在于,在所述图像生成之后,还包括:
将所述生成图像集合作为第三标签图像,并将所述第三标签图像划分至所述品类图像集合,所述初始分类模型根据所述品类图像集合进行迭代训练;
在训练初期,根据所述第一标签图像对所述初始分类模型进行微调;
在训练中期,根据所述第二标签图像对所述初始分类模型进行泛化性处理;
在训练后期,根据所述第三标签图像对所述初始分类模型进行精度提升。
5.根据权利要求4所述的方法,其特征在于,所述主题类别计算的误差表达式为:
L=a0Llabeled+a1Lgan+a2Lunlabeled
其中,L为总误差,Llabeled为所述第一标签图像的误差,a0为Llabeled的权重因子,Lgan为所述第二标签图像的误差,a1为Lgan的权重因子,Lunlabeled为所述第三标签图像的误差,a2为Lunlabeled的权重因子。
6.根据权利要求1所述的方法,其特征在于,在所述模型构建和所述图像生成中,基于MUNIT算法构建所述图像生成模型,通过内容编码器和样式编码器进行图像多模态的学习,实现对所述图像生成模型的训练。
7.根据权利要求6所述的方法,其特征在于,在所述图像分类之后、所述模型构建之前,还包括:对所述主题图像集合进行边缘提取,将RGB图像转为边缘图像。
8.根据权利要求1所述的方法,其特征在于,在所述图像生成之后,还包括:
对所述生成图像集合进行图像校验,所述图像校验包括对图像进行颜色直方图、清晰度、分类类别、图像细节的评估指标计算。
9.一种基于深度学习的样本图像生成系统,其特征在于,包括,
图像获取单元:用于获取原始图像集合,所述原始图像集合包含多个类别的图像;
图像分类单元:用于对所述原始图像集合进行主题类别计算,获取各个类别的主题图像集合;
生成模型获取单元:用于根据所述主题图像集合构建各个类别的图像生成模型;
图像生成单元:用于对各个类别的所述图像生成模型进行联合训练学习,获取各个类别的生成图像集合。
10.根据权利要求9所述的系统,其特征在于,还包括,
预处理单元:用于对所述主题图像集合进行图像预处理,包括将RGB图像转换为边缘图像;
图像校验单元:用于对所述生成图像集合进行图像校验。
11.根据权利要求10所述的系统,其特征在于,所述图像分类单元包括:
模型构建单元:用于在所述原始图像集合中选取预设比例的图像进行标注获取第一标签图像,根据所述第一标签图像构建品类图像集合,结合深度卷积模型构建初始分类模型;
初始分类单元:用于通过所述初始分类模型对所述原始图像集合中除所述第一标签图像以外的图像进行分类,将分类结果正确的图像作为第二标签图像,并将所述第二标签图像划分到所述品类图像集合;
模型获取单元:用于根据所述品类图像集合对所述初始分类模型进行迭代训练,直至满足迭代停止条件,将迭代停止后的初始分类模型作为第一分类模型;
分类单元:用于通过所述第一分类模型对所述原始图像集合进行分类,获取各个类别的主题图像集合,通过计算图像之间的相似度获取各个类别的相似图像阈值;
和/或所述图像生成单元具体包括:
联合训练单元,用于对所述图像生成模型进行联合训练,每个类别的所述图像生成模型根据所述相似图像阈值选择其它类别的所述主题图像集合进行联合训练学习;
主题训练单元,用于根据该类别的所述主题图像集合对所述图像生成模型进行训练;
生成图像获取单元,用于根据各个类别的所述图像生成模型生成图像,获取各个类别的生成图像集合。
CN202110162777.8A 2021-02-05 2021-02-05 基于深度学习的样本图像生成方法及其系统 Active CN112836755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110162777.8A CN112836755B (zh) 2021-02-05 2021-02-05 基于深度学习的样本图像生成方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110162777.8A CN112836755B (zh) 2021-02-05 2021-02-05 基于深度学习的样本图像生成方法及其系统

Publications (2)

Publication Number Publication Date
CN112836755A true CN112836755A (zh) 2021-05-25
CN112836755B CN112836755B (zh) 2024-04-16

Family

ID=75932432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110162777.8A Active CN112836755B (zh) 2021-02-05 2021-02-05 基于深度学习的样本图像生成方法及其系统

Country Status (1)

Country Link
CN (1) CN112836755B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554062A (zh) * 2021-06-25 2021-10-26 北京百度网讯科技有限公司 多分类模型的训练方法、设备和存储介质
CN113643406A (zh) * 2021-08-12 2021-11-12 北京的卢深视科技有限公司 图像生成方法、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229543A (zh) * 2017-12-22 2018-06-29 中国科学院深圳先进技术研究院 图像分类模型设计方法及装置
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN108629367A (zh) * 2018-03-22 2018-10-09 中山大学 一种基于深度网络增强服装属性识别精度的方法
US20200027002A1 (en) * 2018-07-20 2020-01-23 Google Llc Category learning neural networks
CN111344697A (zh) * 2018-07-18 2020-06-26 深圳码隆科技有限公司 用于机器视觉模型的基于复杂度的渐进式训练
CN111709470A (zh) * 2020-06-08 2020-09-25 北京百度网讯科技有限公司 图像生成方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229543A (zh) * 2017-12-22 2018-06-29 中国科学院深圳先进技术研究院 图像分类模型设计方法及装置
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN108629367A (zh) * 2018-03-22 2018-10-09 中山大学 一种基于深度网络增强服装属性识别精度的方法
CN111344697A (zh) * 2018-07-18 2020-06-26 深圳码隆科技有限公司 用于机器视觉模型的基于复杂度的渐进式训练
US20200027002A1 (en) * 2018-07-20 2020-01-23 Google Llc Category learning neural networks
CN111709470A (zh) * 2020-06-08 2020-09-25 北京百度网讯科技有限公司 图像生成方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YU QIAO ET AL.: "Attention-Guided Hierarchical Structure Aggregation for Image Matting", 《CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 31 December 2020 (2020-12-31), pages 13673 - 13682 *
李志欣;周韬;张灿龙;马慧芳;赵卫中;: "利用对抗网络改进多标记图像分类", 《计算机辅助设计与图形学学报》, vol. 32, no. 1, 31 January 2020 (2020-01-31), pages 16 - 26 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554062A (zh) * 2021-06-25 2021-10-26 北京百度网讯科技有限公司 多分类模型的训练方法、设备和存储介质
CN113554062B (zh) * 2021-06-25 2023-08-01 北京百度网讯科技有限公司 多分类模型的训练方法、设备和存储介质
CN113643406A (zh) * 2021-08-12 2021-11-12 北京的卢深视科技有限公司 图像生成方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112836755B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN109801256B (zh) 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN110807757B (zh) 基于人工智能的图像质量评估方法、装置及计算机设备
CN107194371B (zh) 基于层次化卷积神经网络的用户专注度识别方法及系统
CN111695633B (zh) 基于rpf-cam的低照度目标检测方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
Li et al. Globally and locally semantic colorization via exemplar-based broad-GAN
WO2020077940A1 (en) Method and device for automatic identification of labels of image
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN112927209B (zh) 一种基于cnn的显著性检测系统和方法
CN111724400B (zh) 视频自动抠像方法及系统
CN112347964B (zh) 一种基于图网络的行为检测方法及装置
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112836755A (zh) 基于深度学习的样本图像生成方法及其系统
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
KR20210100267A (ko) 정확도가 향상된 콘볼루션 신경망 기반 분류 장치 및 방법
CN112329793B (zh) 基于结构自适应和规模自适应感受野的显著性检测方法
CN115984323A (zh) 基于空频域均衡的双级融合rgbt跟踪算法
CN112767277B (zh) 一种基于参考图像的深度特征排序去模糊方法
Qu et al. Low illumination enhancement for object detection in self-driving
Ji et al. A two-stage multi-focus image fusion framework robust to image mis-registration
CN111259923A (zh) 一种基于改进三维r-cnn算法的多目标检测方法
Bhavani et al. Robust 3D face recognition in unconstrained environment using distance based ternary search siamese network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant