CN113628101A - 基于gan网络结构的三阶段瓷砖图像生成方法 - Google Patents
基于gan网络结构的三阶段瓷砖图像生成方法 Download PDFInfo
- Publication number
- CN113628101A CN113628101A CN202110925286.4A CN202110925286A CN113628101A CN 113628101 A CN113628101 A CN 113628101A CN 202110925286 A CN202110925286 A CN 202110925286A CN 113628101 A CN113628101 A CN 113628101A
- Authority
- CN
- China
- Prior art keywords
- style
- image
- tile
- gan
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000000919 ceramic Substances 0.000 title description 17
- 239000013598 vector Substances 0.000 claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000003321 amplification Effects 0.000 claims abstract description 12
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种基于GAN网络结构三阶段瓷砖图像生成方法。首先输入特征向量,并通过多尺度梯度风格生成对抗网络,转化为灰度图像块输出;其次根据输入的样图生成特征向量,并基于KNN最近邻算法在风格池中寻找最具符合条件的纹理合成生成对抗网络模型,将灰度图像块输入到该对抗网络模型中,生成瓷砖风格图像;最后基于双三次插值算法对瓷砖风格图像进行图像放大和裁剪,实现对最终瓷砖图像的生成。本发明相较于基于GAN网络模型一步生成瓷砖图像,瓷砖图片训练和生成过程中,计算资源的开销得以降低。另外,本发明能够增强对瓷砖风格图片输出的可控性,能够生成多样化、个性化的瓷砖图片,其输出结果符合人们对特定风格类别瓷砖的预期。
Description
技术领域
本发明涉及图像生成领域,提出了一种基于GAN网络结构的三阶段瓷砖图像生成方法,该方法能够快速地生成多样化瓷砖图像,生成图像符合人的直观感受,对工业瓷砖图像设计具有很好的参考意义。
背景技术
随着人工智能的快速发展,越来越多相关的技术相继被提出。作为实现人工智能的主要方法,机器学习需要基于已有数据集的特性,对未知的数据进行预测。根据数据集是否含有标签属性,可将机器学习分为监督学习、无监督学习和半监督学习三大类。
目前在机器学习中,已有很多关于图像生成的方法。在无监督学习领域,Kingma和Welling提出变分自编码器模型,模型包含AutoEncoder和AutoDecoder模块,用于训练图像与编码后的向量之间的双向关系,并对编码后的向量基于高斯分布进行随机扰动,在已有图片的基础上生成更多相似的图片,以增加图像的多样性。他们的模型在手写数字图片的生成中得到了很好的应用。Oord等人提出了Pixel CNN,一种基于门控结构的网络结构,通过在门控单元中,构建垂直和水平之间的卷积神经网络,根据图片先前出现的像素点预测出未知像素点的像素值,他们曾成功地运用此网络将一张缺失图像信息地图片进行复原。随着Goodfellow等人创造地应用博弈论思想,提出生成式对抗网络(GAN网络),越来越多地学者深入其中,将GAN网络结构快速渗透到图像生成领域。Karras等人提出ProGAN网络结构,他们在原有的GAN网络结构的基础上进行改进:他们基于循序渐进的思想,在生成器和判别器结构中,设计出循序渐进的卷积网络模块,在图像生成的过程中从低分辨率到高分辨率逐渐被放大,在图像判别的过程中从高分别率到低分辨率逐渐缩小,最终得到判别结果。实验证明,他们的网络结构能够基于已有数据集生成花卉、名人等具有特定分布的图片。在之后的研究中,他对ProGAN网络结构进一步改进,提出了StyleGAN网络结构。通过引入Ada-in模块,将输入的向量转换成样式控制向量,控制特定卷积层特征图的输出,从而参与影响生成器的生成过程。他们通过实验结果证明,该网络结构能够有效地减轻特征纠缠现象。Zhou等人设计了一种纹理合成的对抗网络结构,对于原始纹理图像,输入到由特定的卷积和残差模块所构成的生成器,生成出长宽放大两倍后的图像,图像放大的同时,纹理信息更为丰富。作为在网络训练过程中还训练了一种损失函数,包含风格损失、内容损失和判别损失,使得生成图像和真实图像更加纹理、风格上更加接近。他们在各种类型的纹理图片上进行实验,并取得良好效果。
然而,工业瓷砖图像具有文件容量大、纹理多样且丰富的特点,通过机器学习、深度学习模型直接对瓷砖图像进行生成,需要消耗大量的时间和计算资源,并且缺乏可控性,很难对输出瓷砖图片颜色以及花纹样式直接进行外部控制,因此目前很少有方法很难直接应用到工业瓷砖纹理图像生成这一具体应用领域当中。
发明内容
本发明的目的在于解决现有技术中针对工业瓷砖纹理图像生成技术中存在的问题,通过比较上述现有技术中方法的特点,提出了一种基于GAN网络结构三阶段瓷砖图像生成方法,该方法结合了两类图像生成GAN网络的优势。首先,通过多尺度梯度风格生成对抗网络,将输入的特征向量转化为灰度图像块输出;其次,根据输入的样图生成特征向量,并基于KNN最近邻算法在风格池中寻找最具符合条件的纹理合成生成对抗网络模型,将灰度图像块输入到该对抗网络模型中,生成瓷砖风格图像;最后,基于双三次插值算法对瓷砖风格图像进行图像放大和裁剪,实现对最终瓷砖图像的生成。
本发明的技术方案步骤如下:
一种基于GAN网络结构三阶段瓷砖图像生成方法,所述方法包含如下步骤:
S1、以若干128维的向量作为输入,通过预先训练的多尺度梯度风格生成对抗网络(Multi-Scale Gradient Style GAN),生成若干大小为256*256像素的灰度图像块发送给用户端供用户挑选指定,并根据用户端反馈的指定结果对应选择其中一张作为瓷砖内容图像;
S2、根据指定的瓷砖风格样图,生成12维的特征向量,特征向量由瓷砖风格样图中R、G、B三个通道的像素值平均值以及瓷砖风格样图对应的灰度图像的灰度共生矩阵的9项纹理统计量组成;获取由风格池中不同的风格图像基于纹理合成生成对抗网络(Non-Stationary Gradient Style GAN)训练的瓷砖风格模型,并计算瓷砖风格样图的特征向量和风格池中所有风格图像对应特征向量之间的余弦相似度,取相似度最高的前M张风格图像发送给用户端供用户挑选指定,并根据用户端反馈的最符合用户要求的风格图像指定结果,选择出该指定的风格图像对应的最佳瓷砖风格模型;
S3、将S1中得到的瓷砖内容图像转换为三通道图像输入至S2选出的最佳瓷砖风格模型中,输出大小为512*512像素的瓷砖风格图像,并将输出的瓷砖风格图像再次作为所述最佳瓷砖风格模型的输入,再重复迭代k-1次,最终生成大小为(256*2k)*(256*2k)像素的瓷砖风格图像;
S4、将S3中最终生成的瓷砖风格图像,基于双三次插值图像放大算法进行图像放大,并对放大后的图像发送给用户端进行感兴趣区域的图像裁切,生成最终瓷砖图像。
作为优选,所述步骤S1中,灰度图像块的生成过程如下:
首先,生成一系列128维特征向量v1,其中v1=[v1,1,v1,2,…,v1,128]T,v1,t∈[0,1],1≤t≤128;然后,针对每一个特征向量v1,通过多尺度梯度风格生成对抗网络MSGS-GAN,生成大小为256*256像素的灰度图像块I(0)=MSGS-GAN(v1);不同的特征向量v1输出的灰度图像块内容也不同。
作为优选,所述步骤S2的具体过程如下:
S21、获取用户指定输入的风格样图S,并将风格样图S转化成12维的特征向量v2=[v2,1,v2,2,v2,3,v2,4,v2,5,v2,6,v2,7,v2,8,v2,9,v2,10,v2,11,v2,12],特征向量中每一个分量计算方法如下:
S211、计算风格样图S中R、G、B三个通道的像素值平均值得到v2,1~v2,3,其中:
R通道像素值平均值为:
G通道像素值平均值为:
B通道像素值平均值为:
式中:S(i,j,1)、S(i,j,2)、S(i,j,3)分别表示R通道、G通道、B通道的图形中[i,j]位置的像素值;
S212、将风格样图S进行灰度化转换,得到大小m*n*3且灰度值范围为0~255灰度化风格样图,然后计算该灰度化风格样图的灰度共生矩阵,并将其归一化形成大小256*256且取值范围0~1的矩阵P,分别计算矩阵P的9项纹理统计量作为v2,4~v2,12,其中:
均值为:
方差为:
标准差为:
同质度为:
对比度为:
非相似性为:
熵为:
角二阶矩为:
相关性为:
式中:P(i,j)表示矩阵P中第i行第j列的元素值;
S22、针对风格池中的每一张风格图像,按照与风格样图S相同的方法计算12维的特征向量va,并利用该风格图像基于纹理合成生成对抗网络(Non-Stationary GradientStyle GAN)训练对应的瓷砖风格模型;
S23、计算风格样图S的特征向量v2与风格池中每一张风格图像的特征向量va之间的余弦相似度,余弦相似度计算公式如下:
S24、对余弦相似度计算结果按照从大到小的顺序进行排序,取相似度最高的前M张风格图像发送给用户端供用户指定最符合用户要求的风格图像,根据用户端指定的一张最符合用户要求的风格图像T,选择该风格图像T对应的瓷砖风格模型作为最佳瓷砖风格模型NSGS-GANa。
进一步的,所述的参数M为3。
作为优选,所述步骤S3的具体过程如下:
S31、初始化k=1,将步骤S1生成的灰度图像块I(0)输入至步骤S2选出的最佳瓷砖风格模型NSGS-GANa中,生成图像块I(1):
I(1)=NSGS-GANa(I(0))
S32、再使k=k+1,将生成图像块I(k-1)作为最佳瓷砖风格模型NSGS-GANa的输入,输出大小为I(k-1)两倍的图像块I(k),公式如下:
I(k)=NSGS-GANa(I(k-1))
S33、将S32的操作再重复K-2次,生成图幅大小为(256*2K)*(256*2K)的瓷砖风格图像I(K)。
作为优选,所述步骤S4的具体过程如下:
S41、将瓷砖风格图像I(K),基于双三次插值图像放大函数Bicubic_interpolation(·)进行放大,得到放大图像I*,公式如下:
I*=Bicubic_interpolation(I(k))
S42、在用户端对放大后的图像I*,根据感兴趣的区域进行图像裁切,生成最终的瓷砖图像I。
相对于现有技术而言,本发明的有益效果如下:
本发明结合了多尺度梯度风格生成对抗网络和纹理合成生成对抗网络两大网络的特点,实现了对瓷砖图像的生成。相较于直接基于GAN网络模型一步法生成瓷砖图像,本发明将瓷砖图像生成的过程分为瓷砖图像块生成、瓷砖风格图像生成、图像放大与裁切这三个阶段,每个阶段起到独特优势作用,从而在训练和生成瓷砖图像的过程中,降低了计算资源的开销,并且更快地生成大体积的瓷砖图像,具有普适性。
此外,本发明在瓷砖图像风格生成过程中加入了瓷砖风格样图匹配搜索机制,将输入的瓷砖风格样图转化成特征向量,并基于KNN算法选择最具符合条件的纹理合成生成对抗网络模型,生成该类型的瓷砖图片,增强对瓷砖风格图片输出的可控性,其输出结果符合人们对该风格类别瓷砖的预期。
附图说明
图1为种基于GAN网络结构的三阶段瓷砖图像生成方法的算法流程图。
图2为部分灰度图像块(256*256像素)样本。
图3为一种生成瓷砖图像样本示例图。
图4为一种生成瓷砖图像样本示例图。
图5为一种生成瓷砖图像样本示例图。
图6为一种生成瓷砖图像样本示例图。
图7为一种生成瓷砖图像样本示例图。
图8为一种生成瓷砖图像样本示例图。
具体实施方式
下面结合附图,对本发明的具体实施方案进一步详细描述。
在本发明的一个较佳实施例中,提供了一种基于GAN网络结构的三阶段瓷砖图像生成方法,其具体过程如图1所示,可分为三个阶段:
第一阶段是图像块的生成,该阶段生成的图形块可作为瓷砖内容图像,即指定了瓷砖中纹理的基本样式。
第二阶段是瓷砖风格图像的生成,该阶段基于前述的瓷砖内容图像,通过在风格池中选出最符合用户要求的风格图像,进而确定能够形成此类风格化图像的最佳瓷砖风格模型,并利用该最佳瓷砖风格模型对瓷砖内容图像进行风格化,形成即带有指定瓷砖纹理又具有指定风格样式的瓷砖风格图像。
第三阶段是图像放大与裁剪,因为实际的瓷砖图像本身就比较大,用模型直接生成尺寸较大的瓷砖风格图像会有一些局限性,因此该阶段中需要借助图像放大算法对上一阶段生成的瓷砖风格图像进行放大,使用户能够从放大图像中根据喜好选出局部图像作为最终的瓷砖图像。
下面对本发明中基于GAN网络结构的三阶段瓷砖图像生成方法的三个阶段具体实现过程进行详细描述,其具体步骤可参加以下S1~S4所示。
步骤S1、以若干128维的向量作为输入,通过预先训练的多尺度梯度风格生成对抗网络(Multi-Scale Gradient Style GAN),生成若干大小为256*256像素的灰度图像块发送给用户端供用户挑选指定,并根据用户端反馈的指定结果对应选择其中一张作为瓷砖内容图像。
本发明中,所谓的用户端是指供用户与本发明的生成算法进行交互的设备,在实际工业应用中可以是手机、PAD等移动设备或者工业控制设备的触摸屏、显示器等,只要能够输入用户指令即可。
另外,多尺度梯度风格生成对抗网络的均网络结构属于现有技术,对此不再赘述。
在本实施例中,上述步骤S1中灰度图像块的生成过程如下:
首先,生成一系列128维特征向量v1,其中v1=[v1,1,v1,2,…,v1,128]T,v1,t∈[0,1],1≤t≤128;然后,针对每一个特征向量v1,通过多尺度梯度风格生成对抗网络MSGS-GAN,生成大小为256*256像素的灰度图像块I(0),其公式如下:
I(0)=MSGS-GAN(v1)
该128维特征向量v1中,特征向量v1的取值发生变化,最终输出的灰度图像块内容也会发生变化。因此,可通过简单改变特征向量v1中的向量值v1,t,生成不同的灰度图像块,而不同的灰度图像块对应于不同的瓷砖纹理。用户可根据生成的不同纹理的灰度图像块进行挑选,选出符合自身要求的灰度图像块作为后续风格网络的内容图像。
在本实施例中,如图2所示为一部分第一阶段中生成的作为瓷砖内容图像的图像块,可见本发明通过多尺度梯度风格生成对抗网络可以生成纹理样式多样的瓷砖内容图像,大大提高了用户对于纹理样式的选择余地。
步骤S2、根据指定的瓷砖风格样图,生成12维的特征向量,特征向量由瓷砖风格样图中R、G、B三个通道的像素值平均值以及瓷砖风格样图对应的灰度图像的灰度共生矩阵的9项纹理统计量组成;获取由风格池中不同的风格图像基于纹理合成生成对抗网络(Non-Stationary Gradient Style GAN)训练的瓷砖风格模型,并计算瓷砖风格样图的特征向量和风格池中所有风格图像对应特征向量之间的余弦相似度,取相似度最高的前M张风格图像发送给用户端供用户挑选指定,并根据用户端反馈的最符合用户要求的风格图像指定结果,选择出该指定的风格图像对应的最佳瓷砖风格模型。
所谓风格池,是指由一系列不同风格样式的风格图像组成的集合。每一张风格图像R均可以训练一个纹理合成生成对抗网络,使其能够将不同的内容图像都按照对应的风格图像R的风格样式进行风格化。纹理合成生成对抗网络是指用于实现纹理合成的生成对抗网络,基本模块包含生成器(可由残差模块组成)和判别器(可采用VGG-19),通过风格损失、L1损失和对抗损失进行训练。生成对抗网络的具体网络结构和训练方法也属于现有技术,对此不再赘述。
在本实施例中,上述步骤S2的具体实现过程如下:
S21、用户可实现通过用户端指定一张符合自身要求的风格样图S并输入本发明的算法中,算法获取用户指定输入的风格样图S,并将风格样图S转化成12维的特征向量v2=[v2,1,v2,2,v2,3,v2,4,v2,5,v2,6,v2,7,v2,8,v2,9,v2,10,v2,11,v2,12],特征向量中每一个分量计算方法如下:
S211、计算风格样图S中R、G、B三个通道的像素值平均值得到v2,1~v2,3,其中:
R通道像素值平均值为:
G通道像素值平均值为:
B通道像素值平均值为:
式中:S(i,j,1)、S(i,j,2)、S(i,j,3)分别表示R通道、G通道、B通道的图形中[i,j]位置的像素值;
S212、将风格样图S进行灰度化转换,得到大小m*n*3且灰度值范围为0~255灰度化风格样图,然后计算该灰度化风格样图的灰度共生矩阵,并将其归一化形成大小256*256且取值范围0~1的矩阵P,分别计算矩阵P的9项纹理统计量作为v2,4~v2,12,其中:
均值为:
方差为:
标准差为:
同质度为:
对比度为:
非相似性为:
熵为:
角二阶矩为:
相关性为:
式中:P(i,j)表示矩阵P中第i行第j列的元素值;
S22、针对风格池中的每一张风格图像,按照与风格样图S相同的方法计算12维的特征向量va,并利用该风格图像基于纹理合成生成对抗网络(Non-Stationary GradientStyle GAN)训练对应的瓷砖风格模型;
S23、基于KNN最近邻算法,计算风格样图S的特征向量v2与风格池中每一张风格图像的特征向量va之间的余弦相似度,余弦相似度计算公式如下:
S24、对余弦相似度计算结果按照从大到小的顺序进行排序,取相似度最高的前M张风格图像发送给用户端供用户指定最符合用户要求的风格图像,根据用户端指定的一张最符合用户要求的风格图像T,选择该风格图像T对应的瓷砖风格模型作为最佳瓷砖风格模型NSGS-GANa。
在将风格图像发送给用户端时,具体发送的风格图像数量M可根据实际情况调整,本实施例中参数M设置为3,即发送3张风格图像给用户,由其选择其中最符合自身对风格样式要求的一张作为最终指定的风格图像T。通过这种相似度计算结合用户指定的方法,既可以快速匹配与目标样式类似的风格图像,又给予了用户一定的选择空间,防止算法匹配中难免出现的差异。
步骤S3、将步骤S1中得到的瓷砖内容图像重复叠加三层从而转换为三通道图像,输入至步骤S2选出的最佳瓷砖风格模型中,输出大小为512*512像素的瓷砖风格图像,并将输出的瓷砖风格图像再次作为所述最佳瓷砖风格模型的输入,再重复迭代k-1次,最终生成图幅大小为(256*2k)*(256*2k)像素的瓷砖风格图像。
在本实施例中,上述步骤S3的具体过程如下:
S31、初始化k=1,将步骤S1生成的灰度图像块I(0)输入至步骤S2选出的最佳瓷砖风格模型NSGS-GANa中,生成图像块I(1):
I(1)=NSGS-GANa(I(0))
S32、再使k=k+1,将生成图像块I(k-1)作为最佳瓷砖风格模型NSGS-GANa的输入,输出大小为I(k-1)两倍的图像块I(k),公式如下:
I(k)=NSGS-GANa(I(k-1))
S33、将S32的操作再重复K-2次,生成图幅大小为(256*2K)*(256*2K)的瓷砖风格图像I(K)。需注意的是,该图像为三通道图像,因此其实际尺寸为(256*2K)*(256*2K)*3。
每经过一次S32的操作,新生成的瓷砖风格图像I(k)长宽大小为原始瓷砖风格图像I(k-1)长宽大小的两倍,因此风格图像内容更加丰富。上述S33的重复迭代过程中,由于S32本身已执行1次,因此整个过程中S32总共被执行了K-1次。具体输入最佳瓷砖风格模型NSGS-GANa的总次数K可根据实际进行优化,次数越多风格图像内容越丰富。
步骤S4、将步骤S3中最终生成的瓷砖风格图像,基于双三次插值图像放大算法进行图像放大,并对放大后的图像发送给用户端进行感兴趣区域的图像裁切,生成最终瓷砖图像。
在本实施例中,上述步骤S4的具体过程如下:
S41、将瓷砖风格图像I(K),基于双三次插值图像放大函数Bicubic_interpolation(·)进行放大,得到放大图像I*,公式如下:
I*=Bicubic_interpolation(I(k))
S42、在用户端对放大后的图像I*,根据感兴趣的区域进行图像裁切,生成最终的瓷砖图像I。
本实施例中按照上述S1~S4的方法,给出了一系列基于不同风格样图和瓷砖内容图像(256*256像素)生成的最终瓷砖图像(放大4倍后8192*8192像素),如图3~图8所示为其中一部分个样例。由此可见,本发明能够增强对瓷砖风格图片输出的可控性,能够生成多样化、个性化的瓷砖图片,其输出结果符合人们对特定风格类别瓷砖的预期。而且实验表明,本发明相较于基于GAN网络模型一步生成瓷砖图像,瓷砖图片训练和生成过程中,计算资源的开销得以降低。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (6)
1.一种基于GAN网络结构三阶段瓷砖图像生成方法,其特征在于,所述方法包含如下步骤:
S1、以若干128维的向量作为输入,通过预先训练的多尺度梯度风格生成对抗网络(Multi-Scale Gradient Style GAN),生成若干大小为256*256像素的灰度图像块发送给用户端供用户挑选指定,并根据用户端反馈的指定结果对应选择其中一张作为瓷砖内容图像;
S2、根据指定的瓷砖风格样图,生成12维的特征向量,特征向量由瓷砖风格样图中R、G、B三个通道的像素值平均值以及瓷砖风格样图对应的灰度图像的灰度共生矩阵的9项纹理统计量组成;获取由风格池中不同的风格图像基于纹理合成生成对抗网络(Non-Stationary Gradient Style GAN)训练的瓷砖风格模型,并计算瓷砖风格样图的特征向量和风格池中所有风格图像对应特征向量之间的余弦相似度,取相似度最高的前M张风格图像发送给用户端供用户挑选指定,并根据用户端反馈的最符合用户要求的风格图像指定结果,选择出该指定的风格图像对应的最佳瓷砖风格模型;
S3、将S1中得到的瓷砖内容图像转换为三通道图像输入至S2选出的最佳瓷砖风格模型中,输出大小为512*512像素的瓷砖风格图像,并将输出的瓷砖风格图像再次作为所述最佳瓷砖风格模型的输入,再重复迭代k-1次,最终生成大小为(256*2k)*(256*2k)像素的瓷砖风格图像;
S4、将S3中最终生成的瓷砖风格图像,基于双三次插值图像放大算法进行图像放大,并对放大后的图像发送给用户端进行感兴趣区域的图像裁切,生成最终瓷砖图像。
2.根据权利要求1所述的基于GAN网络结构三阶段瓷砖图像生成方法,其特征在于,所述步骤S1中,灰度图像块的生成过程如下:
首先,生成一系列128维特征向量v1,其中v1=[v1,1,v1,2,…,v1,128]T,v1,t∈[0,1],1≤t≤128;然后,针对每一个特征向量v1,通过多尺度梯度风格生成对抗网络MSGS-GAN,生成大小为256*256像素的灰度图像块I(0)=MSGS-GAN(v1);不同的特征向量v1输出的灰度图像块内容也不同。
3.根据权利要求1所述的基于GAN网络结构三阶段瓷砖图像生成方法,其特征在于,所述步骤S2的具体过程如下:
S21、获取用户指定输入的风格样图S,并将风格样图S转化成12维的特征向量v2=[v2,1,v2,2,v2,3,v2,4,v2,5,v2,6,v2,7,v2,8,v2,9,v2,10,v2,11,v2,12],特征向量中每一个分量计算方法如下:
S211、计算风格样图S中R、G、B三个通道的像素值平均值得到v2,1~v2,3,其中:
R通道像素值平均值为:
G通道像素值平均值为:
B通道像素值平均值为:
式中:S(i,j,1)、S(i,j,2)、S(i,j,3)分别表示R通道、G通道、B通道的图形中[i,j]位置的像素值;
S212、将风格样图S进行灰度化转换,得到大小m*n*3且灰度值范围为0~255灰度化风格样图,然后计算该灰度化风格样图的灰度共生矩阵,并将其归一化形成大小256*256且取值范围0~1的矩阵P,分别计算矩阵P的9项纹理统计量作为v2,4~v2,12,其中:
均值为:
方差为:
标准差为:
同质度为:
对比度为:
非相似性为:
熵为:
角二阶矩为:
相关性为:
式中:P(i,j)表示矩阵P中第i行第j列的元素值;
S22、针对风格池中的每一张风格图像,按照与风格样图S相同的方法计算12维的特征向量va,并利用该风格图像基于纹理合成生成对抗网络(Non-Stationary Gradient StyleGAN)训练对应的瓷砖风格模型;
S23、计算风格样图S的特征向量v2与风格池中每一张风格图像的特征向量va之间的余弦相似度,余弦相似度计算公式如下:
S24、对余弦相似度计算结果按照从大到小的顺序进行排序,取相似度最高的前M张风格图像发送给用户端供用户指定最符合用户要求的风格图像,根据用户端指定的一张最符合用户要求的风格图像T,选择该风格图像T对应的瓷砖风格模型作为最佳瓷砖风格模型NSGS-GANa。
4.根据权利要求3所述的基于GAN网络结构三阶段瓷砖图像生成方法,其特征在于,所述的参数M为3。
5.根据权利要求1所述的基于GAN网络结构三阶段瓷砖图像生成方法,其特征在于,所述步骤S3的具体过程如下:
S31、初始化k=1,将步骤S1生成的灰度图像块I(0)输入至步骤S2选出的最佳瓷砖风格模型NSGS-GANa中,生成图像块I(1):
I(1)=NSGS-GANa(I(0))
S32、再使k=k+1,将生成图像块I(k-1)作为最佳瓷砖风格模型NSGS-GANa的输入,输出大小为I(k-1)两倍的图像块I(k),公式如下:
I(k)=NSGS-GANa(I(k-1))
S33、将S32的操作再重复K-2次,生成图幅大小为(256*2K)*(256*2K)的瓷砖风格图像I(K)。
6.根据权利要求1所述的基于GAN网络结构三阶段瓷砖图像生成方法,其特征在于,所述步骤S4的具体过程如下:
S41、将瓷砖风格图像I(K),基于双三次插值图像放大函数Bicubic_interpolation(·)进行放大,得到放大图像I*,公式如下:
I*=Bicubic_interpolation(I(k))
S42、在用户端对放大后的图像I*,根据感兴趣的区域进行图像裁切,生成最终的瓷砖图像I。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925286.4A CN113628101B (zh) | 2021-08-12 | 2021-08-12 | 基于gan网络结构的三阶段瓷砖图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925286.4A CN113628101B (zh) | 2021-08-12 | 2021-08-12 | 基于gan网络结构的三阶段瓷砖图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628101A true CN113628101A (zh) | 2021-11-09 |
CN113628101B CN113628101B (zh) | 2023-11-24 |
Family
ID=78384952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110925286.4A Active CN113628101B (zh) | 2021-08-12 | 2021-08-12 | 基于gan网络结构的三阶段瓷砖图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628101B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820742A (zh) * | 2022-04-01 | 2022-07-29 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 基于二值化和形态学的瓷砖纹理特征提取方法 |
CN114943640A (zh) * | 2022-06-10 | 2022-08-26 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 基于gan网络结构的两阶段瓷砖图像风格化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548208A (zh) * | 2016-10-28 | 2017-03-29 | 杭州慕锐科技有限公司 | 一种照片图像快速智能风格化方法 |
CN109117880A (zh) * | 2018-08-06 | 2019-01-01 | 广东工业大学 | 基于小波包分解选择系数加权重构的瓷砖图像分类算法 |
CN111862274A (zh) * | 2020-07-21 | 2020-10-30 | 有半岛(北京)信息科技有限公司 | 生成对抗网络训练方法、图像风格迁移方法及装置 |
-
2021
- 2021-08-12 CN CN202110925286.4A patent/CN113628101B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548208A (zh) * | 2016-10-28 | 2017-03-29 | 杭州慕锐科技有限公司 | 一种照片图像快速智能风格化方法 |
CN109117880A (zh) * | 2018-08-06 | 2019-01-01 | 广东工业大学 | 基于小波包分解选择系数加权重构的瓷砖图像分类算法 |
CN111862274A (zh) * | 2020-07-21 | 2020-10-30 | 有半岛(北京)信息科技有限公司 | 生成对抗网络训练方法、图像风格迁移方法及装置 |
Non-Patent Citations (1)
Title |
---|
李君艺;尧雪娟;李海林;: "基于感知对抗网络的图像风格迁移方法研究", 合肥工业大学学报(自然科学版), no. 05 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820742A (zh) * | 2022-04-01 | 2022-07-29 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 基于二值化和形态学的瓷砖纹理特征提取方法 |
CN114943640A (zh) * | 2022-06-10 | 2022-08-26 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 基于gan网络结构的两阶段瓷砖图像风格化方法 |
CN114943640B (zh) * | 2022-06-10 | 2024-05-31 | 杭州电子科技大学上虞科学与工程研究院有限公司 | 基于gan网络结构的两阶段瓷砖图像风格化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113628101B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489412B (zh) | 用于使用神经网络生成基本逼真图像的语义图像合成 | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
CN110097609B (zh) | 一种基于样本域的精细化绣花纹理迁移方法 | |
CN113628101B (zh) | 基于gan网络结构的三阶段瓷砖图像生成方法 | |
CN111429340A (zh) | 一种基于自注意力机制的循环图像翻译方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN110473195B (zh) | 一种可自动定制的医学病灶检测架构及方法 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN113449612B (zh) | 一种基于子流型稀疏卷积的三维目标点云识别的方法 | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN116543076A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Feng et al. | An automatically layer-wise searching strategy for channel pruning based on task-driven sparsity optimization | |
CN110222222B (zh) | 基于深层主题自编码模型的多模态检索方法 | |
CN110866866A (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
Jin et al. | Fusion of remote sensing images based on pyramid decomposition with Baldwinian Clonal Selection Optimization | |
Hao et al. | Architecture self-attention mechanism: Nonlinear optimization for neural architecture search | |
WO2022127603A1 (zh) | 一种模型处理方法及相关装置 | |
Mathur et al. | Recoloring Grayscale Images using GAN | |
Ding et al. | Research on the Application of Improved Attention Mechanism in Image Classification and Object Detection. | |
Dai et al. | Two-dimensional broad learning system for data analytic | |
CN111882563B (zh) | 一种基于方向性全卷积网络的语义分割方法 | |
Tayari et al. | Investigating Efficient Compression Models to Accelerate Deep Neural Networks | |
CN117635982B (zh) | 一种基于深度学习的面向遥感图像的路网匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |