CN113129240B - 一种工业包装字符的去运动模糊方法 - Google Patents
一种工业包装字符的去运动模糊方法 Download PDFInfo
- Publication number
- CN113129240B CN113129240B CN202110543088.1A CN202110543088A CN113129240B CN 113129240 B CN113129240 B CN 113129240B CN 202110543088 A CN202110543088 A CN 202110543088A CN 113129240 B CN113129240 B CN 113129240B
- Authority
- CN
- China
- Prior art keywords
- image
- channel
- convolution
- network
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004806 packaging method and process Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 19
- 238000000926 separation method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 claims description 6
- 238000006731 degradation reaction Methods 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 229910052709 silver Inorganic materials 0.000 claims description 2
- 239000004332 silver Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/337—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种工业包装字符的去运动模糊方法,包括如下步骤:1)数据获取;2)构建生成器模型;3)构建判别器模型;4)优化损失函数;5)参数配准,训练模型。这种方法复原得到的图像质量较好,纹理细节得到保留,耗时少,满足工业领域实际应用的需求。
Description
技术领域
本发明涉及运动模糊图像的复原研究,属于工业应用下的机器视觉领域的图像复原技术,具体是一种工业包装字符的去运动模糊方法。
背景技术
运动模糊图像的复原研究是工业自动化应用、目标检测、缺陷检测、图形仿真等领域的热点问题。随着深度学习在机器视觉应用领域的更新发展,去运动模糊的图像复原技术难点聚焦于实用价值和可操作性。许多研究学者围绕该问题也开展了大量的研究,目前基于深度学习的去运动模糊图像复原方法也取得了一定的进展。例如,有学者使用卷积神经网络进行模糊图像的复原研究,被认为将卷积神经网络应用于去模糊研究的开山之作。该方法使用卷积神经网络来估计模糊核,将得到的模糊核集置于马尔可夫随机场模型中来推测理论运动模糊方向和宽度(Sun J,Cao W,Xu Z,et al.Learning a ConvolutionalNeural Network for Non-uniform Motion Blur Removal[C]//2015IEEE Conference onComputer Vision and Pattern Recognition(CVPR).IEEE,2015.)。随后,部分学者提出了基于多尺度深度卷积神经网络的去模糊方法,抛弃了先估计模糊核再估计模糊图像的策略,直接采用从粗到细三个尺度融合的卷积神经网络将模糊图像进行复原(Nah S,Kim TH,Lee K M.Deep multi-scale convolutional neural network for dynamic scenedeblurring[C]//Proceedings of the IEEE conference on computer vision andpattern recognition(CVPR),2017,1(2):3-12.)。另外,学者Kupyn提出了基于条件对抗网络和内容损失实现运动去模糊的端到端学习方法,为解决运动模糊图像复原提供了新的思路(Kupyn O,Budzan V,Mykhailych M,et al.DeblurGAN:Blind Motion DeblurringUsing Conditional Adversarial Networks[J].Research Gate,2018.)。
对包装字符图像的缺陷检测和信息识别往往是通过工业相机来获取的。由于工业相机的细微抖动以及定时拍摄频率与流水线运动速率存在差异,在获取图像时会采集到运动模糊的目标图像。为避免人为判别和重置采集带来的时间成本,对获取到的运动模糊图像的复原工作成为重置采集的新思路。单张字符图像的去运动模糊复原研究能否符合工业应用的标准,关键在于算法的精度和速度。综合而言,现有的基于卷积神经网络的去运动模糊复原研究方法中,一个缺点是针对动态场景下单张图像去运动模糊的复原耗时过长,不符合工业应用要求,所以耗时问题是决定能否将其部署在工业领域实际应用场景下的重要考量因素;另一个缺点是字符运动模糊图像的纹理细节在复原过程中未能得到保障,且通过卷积网络生成的图像容易出现不均匀的重叠,复原质量不佳。采用Kupyn的方法得到的运动模糊复原图像便会出现大面积甚至是全图的不均匀重叠,在由低分辨率复原图像通过去卷积层转换为高分辨率图像时,如果卷积步长无法整除卷积核的尺寸,得到的高分辨率生成图像便会出现明暗块。
发明内容
本发明的目的是针对现有技术中存在的不足,而提供一种工业包装字符的去运动模糊方法。这种方法复原得到的图像质量较好,纹理细节得到保留,耗时少,满足工业领域实际应用的需求。
实现本发明目的的技术方案是:
一种工业包装字符的去运动模糊方法,包括如下步骤:
1)数据获取:数据集包括两种来源,一种是直接使用现有GoPro数据集,另外一种是在工业相机下对流水线上包装字符的实际拍摄图像,其中GoPro数据集提供了取自各种场景的1048对720p质量的模糊和清晰图像,然后对数据集进行以下处理:
1.1)图像对的匹配:由于数据获取需要以模糊-清晰对的形式一一对应,所以需要将两部分数据集中的图像来源均处理为图像对:
(1)首先对流水线上包装字符的实际拍摄图像添加运动模糊,具体使用numpy库和cv2库内置函数控制模糊核的方向和大小来完成,将方向angle置为0,模糊核大小degree分别取2、3、4、5进行扩增;
(2)然后对上述模糊图像和真实清晰图像进行图像裁剪为720p;
(3)最后将两份数据集图像对纵向合并,划分训练集和测试集,训练集和测试集比例为90%、10%;
1.2)数据操作函数的准备:包括数据集路径的读取,数据及图像的格式归一化、读取和存放、顺序的打乱、尺寸的裁剪,其中尺寸裁剪为适于生成对抗网络模型计算的256p,以及参数量的判断;
2)构建生成器模型:生成器接受噪声作为输入并生成样本,其目标是生成让判别器无法从真实样本区分出的生成样本,构建生成器模型主要包括以下三个步骤:
2.1)构建下采样模块:首先经过1*1conv、7*7conv完成通道的扩增,摒弃使用两个尺寸大小为3的卷积核对图像进行下采样的方式,选择更适用于工业应用领域的深度可分离卷积,即3*3Depthwise Convolution与逐点卷积即1*1Pointwise Convolution拼接的方式完成图像下采样,前两个卷积后采用ReLU6激活函数,最后一层的逐点卷积后不使用激活函数,每次卷积操作步长设为strides=2,将感受野扩大4倍;
2.2)构建特征提取块:进入残差层的图像尺寸大小为64p*64p,特征通道为channels=256,若对输入图像直接进行整体特征提取,计算量和参数量都较大,计算量计算公式为:
MAC=Cin*kernel_size*kernel_size*Hout*Wout*Cout,
为了优化网络,降低运算时间使其更满足于工业领域的实际应用,对特征通道进行通道分离和通道混洗,以减小Cin来降低MAC,依据轻量级网络设计原理理念,首先使用1*1卷积操作进行图像的信息聚合,再接通道分离,设group_numbers=4,即将特征通道均分为拼接的4组,对每一组代表的特征通道进行不同的提取操作,其中第一组:不做任何操作,以获取低维尺度信息;第二组:进行一次3*3卷积操作,获得相对的高维信息;第三组:将原始信息与前一组信息相加,再进行3*3卷积操作,整合相邻两个通道信息;第四组:将第三组整合到的高维信息与原始信息的低维信息相加,再进行3*3卷积操作,为节约时间成本,分离通道的卷积操作不进行归一化和激活函数操作,仅在前后两个信息聚合层添加实例标准层和ReLU激活层,设进入通道复用层的输入为X,输出为Y,根据参数的值group_numbers设置可以划分为m个子集,每个通道的输入为Xm,输出设为Ym,当m=1时,Ym=Xm;每个通道的输入都有对应卷积操作,用C(Xm)表示,因为第一个通道直接输出低维信息,可表述为C(x1)=0,第二个通道的信息独立卷积,后续的通道信息进行通道复用,然后将分离的各通道信息拼接输出,即首尾两个信息聚合层分别用Cdown(x)、Cup(Y)表示,保留跳跃连接来解决当模型层数增加到某种程度,模型的效果不增反降的退化问题,在常规情况下的残差层都以ResNet方式进行堆叠,采用跳跃连接方式解决模型退化问题,可表示为:
y=C(x)+x,特征提取块的三个阶段可用公式表示为:
X=Cdown(x);
y=Cup(Y)+x;
整个特征提取层采用堆叠的方式进行特征提取重建,堆叠量设为9,为避免再没风格特征提取块上通道复用卷积可能带来的某部分通道的尺度信息过于单一化,在相邻特征提取块拼接处执行通道混洗操作来保证通道信息的提取均衡;
2.3)构建上采样模块:采取双线性插值法和卷积操作实现重建图像尺寸和通道的转换,通过直接采用双线性插值对图像进行放大处理来达到上采样的目的,在插值算法之后再使用普通卷积层实现图像特征通道匹配,重复操作两次后将重建图像尺寸转换为256p输出,其中双线性插值算法的思想可以简述为:用原图像的四个特征点来估算重建新图像的一个点,在两个方向上进行三次的单线性插值运算,若求新图像标,则须知原图像Q11、Q12、Q21、Q22四个点的坐标,在x轴上进行两次单线性插值运算,即利用Q11和Q21两点求R1坐标,利用Q21、Q22两点求R2坐标:
将求得的R1、R2两点坐标进行单线性插值运算,求得重建图像的P点坐标:
本技术方案方法采用的上采样方法规避掉因反卷积操作导致的重建图像的不均匀重叠现象,从视觉效果上更满足于视觉识别体验,对工业包装字符图像的去运动模糊重建具有重要作用,为后续可以进行的字符识别、缺陷识别等工业视觉检测提供了基础信息;
3)构建判别器模型:判别器网络的目标是来自生成器网络的生成样本和真实样本,并区分出生成样本和真实样本因进入对抗网络的数据集图像尺寸会被预处理为256p,所以判别器将图像以256×256的标准分割成Patch块,在每一个Patch块上加入梯度惩罚来判断生成样本是否清晰,求出Patch的平均值,并设置0.5作为阈值进行区分,判别器网络模型是一个分辨率递减的卷积过程,最终输出一张单通道的特征图,该过程可以细分为三个阶段:
(1)将256p、channels=3的特征图下采样两倍,并将通道扩展到64;
(2)三次下采样操作,每一次的下采样的步长strides=2,特征图通道以此被拓展到128、256、512,每一次下采样卷积操作后跟着实例归一化层和LeakyReLU激活层,其中斜率α=0.2;
(3)将16*16、channels=512的特征图卷积一次后将特征通道降为channels=1,本阶段使用sigmoid激活函数;
4)优化损失函数:在训练阶段,引入判别网络以对抗方式训练生成器网络和判别器网络,以优化损失函数,生成对抗网络的目标参数可以表述为:
其中G表示生成器,D表示判别器,x表示样本,pdata表示真实样本集,pG表示生成样本集,参数λ=10,表示梯度惩罚项,这一项对于工业包装字符图像去运动模糊是至关重要的,因为它可以在支持构建生成器网络时选用轻量级的神经网络框架结构,在判别器函数中添加梯度惩罚项能够提高模型的训练速度,这与本技术方案应用于工业机器视觉中的速度需要是一致的,同时可以使得判别器网络放缓更新梯度,有助于整个生成对抗网络收敛到相对平稳的状态,有效解决了梯度消失爆炸问题,损失函数来源有两部分:
(1)对抗损失:
(2)感知损失:
使用感知损失函数的目的是找到生成图像和清晰图像间的特征映射差异,实验发现较低层网络提取的特征图侧重于简单的特征(如边缘、颜色),有利于保留图像的纹理细节,符合重建运动模糊的工业包装字符图像纹理细节的需要,所以本技术方案在计算特征欧式距离时参数设为i=3、j=3,即经过预训练的VGG19网络中第三次池化操作的第三个经过激活的卷积层获得的特征映射,
故总损失(α=100)可以表示为:
5)参数配准,训练模型:
按照上述步骤构建生成器网络、判别器网络、预训练的VGG1g网络以及对应的损失函数,并将数据集图像对按照步骤1.2)加载进网络模型中并训练模型,其中网络模型采用深度学习框架TensorFlow-gpu,训练模型时使用Adam求解器,通过实验并结合经验进行参数调整,以使模型性能达到最优,训练参数具体设置如下所示:
learningrate=10-4、decaystep=150、patchsize=256;
模型训练在配备有Inter Xeon Silver 4110@2.60GHZ以及NVIDIA Quadro P4000的计算机上进行;
训练结束之后,通过图像存储路径查看测试集重建图像,得到最终的去运动模糊复原图像。
与现有方法相较,本技术方案具有以下3个特征:
(1)轻量化网络。第一,在下采样过程中摒弃传统的3*3卷积,采用深度卷积和逐点卷积结合的方式完成目标图像的四倍下采样;具体形式为:3*3Depthwise Convolution+1*1Pointwise Convolution+1*1Pointwise Convolution,此方式旨在压缩模型下采样的计算量,满足工业应用的时间需要。第二,在特征提取层中采用通道分离拼接和多尺度融合优化策略,减少不必要的归一化层和激活函数,同时将计算量和参数量的运算结构由整体相乘变为局部相乘再相加的方式。同时灵活使用1*1卷积降低输入图像的维度,节约后续卷积操作的计算成本。
(2)注重纹理细节的保留。一方面通过特征融合保护图像纹理细节,利用通道分支策略对不同通道的特征图进行相应卷积,将得到的分支信息进行拼接来保障通道一致,然后利用通道混洗策略充分融合不同分支通道的信息,有利于图像信息的操作均衡。另一方面,利用跳跃连接的方式将下采样浅层特征传递到上采样模块,有助于保留更多的图像细节信息,在文本图像纹理细节复原中尤为重要。
(3)使用插值算法和卷积完成上采样,避免重建图像出现明暗重叠现象。在经过特征提取层后,输出的尺寸往往会缩小,在本文设计的生成器模型中,特征提取后的图像像素尺寸变为原来的1/4。为避免上采样方式中反卷积参数配置不当引起的棋盘效应,本文设计使用双线性插值法先将输出尺寸进行扩增,再通过正常卷积完成通道转换保证一致性。重复操作两次将尺寸恢复到256p。采用上述策略进行工业包装字符的去运动模糊复原得到的图像质量较好,纹理细节得到保留,耗时少,满足工业领域实际应用的需求。
这种方法复原得到的图像质量较好,纹理细节得到保留,耗时少,满足工业领域实际应用的需求。
附图说明
图1为实施例深度可分离卷积下采样结构图;
图2为实施例中特征提取模块通道复用原理示意图;
图3为实施例中双线性插值原理示意图;
图4为实施例中工业字符数据集,degree=3时,去运动模糊效果对比图;
图5为实施例中工业字符数据集,degree=4时,去运动模糊效果对比图;
图6为实施例中工业字符数据集,degree=5时,去运动模糊效果对比图;
图7为实施例中GoPro数据集,去运动模糊效果对比图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
一种工业包装字符的去运动模糊方法,包括如下步骤:
1)数据获取:数据集包括两种来源,一种是直接使用现有GoPro数据集,另外一种是在工业相机下对流水线上包装字符的实际拍摄图像,其中GoPro数据集提供了取自各种场景的1048对720p质量的模糊和清晰图像,然后对数据集进行以下处理,本例采用公共GoPro数据集:
1.1)图像对的匹配:由于数据获取需要以模糊-清晰对的形式一一对应,所以需要将两部分数据集中的图像来源均处理为图像对:
(1)首先对流水线上包装字符的实际拍摄图像添加运动模糊,具体使用numpy库和cv2库内置函数控制模糊核的方向和大小来完成,将方向angle置为0,模糊核大小degree分别取2、3、4、5进行扩增;
(2)然后对上述模糊图像和真实清晰图像进行图像裁剪为720p;
(3)最后将两份数据集图像对纵向合并,划分训练集和测试集,训练集和测试集比例为90%、10%
1.2)数据操作函数的准备:包括数据集路径的读取,数据及图像的格式归一化、读取和存放、顺序的打乱、尺寸的裁剪,其中尺寸裁剪为适于生成对抗网络模型计算的256p,以及参数量的判断;
2)构建生成器模型:生成器接受噪声作为输入并生成样本,其目标是生成让判别器无法从真实样本区分出的生成样本,构建生成器模型主要包括以下三个步骤:
2.1)构建下采样模块:首先经过1*1conv、7*7conv完成通道的扩增,摒弃使用两个尺寸大小为3的卷积核对图像进行下采样的方式,选择更适用于工业应用领域的深度可分离卷积,即3*3Depthwise Convolution与逐点卷积即1*1Pointwise Convolution拼接的方式完成图像下采样,前两个卷积后采用ReLU6激活函数,最后一层的逐点卷积后不使用激活函数,每次卷积操作步长设为strides=2,将感受野扩大4倍,下采样模块模型如图1所示;
2.2)构建特征提取块:进入残差层的图像尺寸大小为64p*64p,特征通道为channels=256,若对输入图像直接进行整体特征提取,计算量和参数量都较大,计算量计算公式为:
MAC=Cin*kernel_size*kernel_size*Hout*Wout*Cout,
为了优化网络,降低运算时间使其更满足于工业领域的实际应用,对特征通道进行通道分离和通道混洗,以减小Cin来降低MAC,依据轻量级网络设计原理理念,首先使用1*1卷积操作进行图像的信息聚合,再接通道分离,设group_numbers=4,即将特征通道均分为拼接的4组,对每一组代表的特征通道进行不同的提取操作,其中第一组:不做任何操作,以获取低维尺度信息;第二组:进行一次3*3卷积操作,获得相对的高维信息;第三组:将原始信息与前一组信息相加,再进行3*3卷积操作,整合相邻两个通道信息;第四组:将第三组整合到的高维信息与原始信息的低维信息相加,再进行3*3卷积操作,为节约时间成本,分离通道的卷积操作不进行归一化和激活函数操作,仅在前后两个信息聚合层添加实例标准层和ReLU激活层,设进入通道复用层的输入为x,输出为Y,根据参数的值group_numbers设置可以划分为m个子集,每个通道的输入为Xm,输出设为Ym,当m=1时,Ym=Xm;每个通道的输入都有对应卷积操作,用C(Xm)表示,因为第一个通道直接输出低维信息,可表述为C(x1)=0,第二个通道的信息独立卷积,后续的通道信息进行通道复用,然后将分离的各通道信息拼接输出,即首尾两个信息聚合层分别用Cdown(x)、Cup(Y)表示,保留跳跃连接来解决当模型层数增加到某种程度,模型的效果不增反降的退化问题,在常规情况下的残差层都以ResNet方式进行堆叠,采用跳跃连接方式解决模型退化问题,可表示为:
y=C(x)+x,特征提取块的三个阶段可用公式表示为:
X=Cdown(x);
y=Cup(Y)+x;
如图2所示,整个特征提取层采用堆叠的方式进行特征提取重建,堆叠量设为9,为避免再没风格特征提取块上通道复用卷积可能带来的某部分通道的尺度信息过于单一化,在相邻特征提取块拼接处执行通道混洗操作来保证通道信息的提取均衡;
2.3)构建上采样模块:采取双线性插值法和卷积操作实现重建图像尺寸和通道的转换,通过直接采用双线性插值对图像进行放大处理来达到上采样的目的,在插值算法之后再使用普通卷积层实现图像特征通道匹配,重复操作两次后将重建图像尺寸转换为256p输出,其中双线性插值算法的思想可以简述为:用原图像的四个特征点来估算重建新图像的一个点,在两个方向上进行三次的单线性插值运算,如图3所示,若求新图像标,则须知原图像Q11、Q12、Q21、Q22四个点的坐标,在x轴上进行两次单线性插值运算,即利用Q11和Q21两点求R1坐标,利用Q21、Q22两点求R2坐标:
将求得的R1、R2两点坐标进行单线性插值运算,求得重建图像的P点坐标:
本例方法采用的上采样方法规避掉因反卷积操作导致的重建图像的不均匀重叠现象,从视觉效果上更满足于视觉识别体验,对工业包装字符图像的去运动模糊重建具有重要作用,为后续可以进行的字符识别、缺陷识别等工业视觉检测提供了基础信息;
3)构建判别器模型:判别器网络的目标是来自生成器网络的生成样本和真实样本,并区分出生成样本和真实样本,因进入对抗网络的数据集图像尺寸会被预处理为256p,所以判别器将图像以256×256的标准分割成Patch块,在每一个Patch块上加入梯度惩罚来判断生成样本是否清晰,求出Patch的平均值,并设置0.5作为阈值进行区分,判别器网络模型是一个分辨率递减的卷积过程,最终输出一张单通道的特征图,该过程可以细分为三个阶段:
(1)将256p、channels=3的特征图下采样两倍,并将通道扩展到64;
(2)三次下采样操作,每一次的下采样的步长strides=2,特征图通道以此被拓展到128、256、512,每一次下采样卷积操作后跟着实例归一化层和LeakyReLU激活层,其中斜率α=0.2;
(3)将16*16、channels=512的特征图卷积一次后将特征通道降为channels=1,本阶段使用sigmoid激活函数;
4)优化损失函数:在训练阶段,引入判别网络以对抗方式训练生成器网络和判别器网络,以优化损失函数,生成对抗网络的目标参数可以表述为:
其中G表示生成器,D表示判别器,x表示样本,pdata表示真实样本集,pG表示生成样本集,参数λ=10,表示梯度惩罚项,这一项对于工业包装字符图像去运动模糊是至关重要的,因为它可以在支持构建生成器网络时选用轻量级的神经网络框架结构,在判别器函数中添加梯度惩罚项能够提高模型的训练速度,这与本例应用于工业机器视觉中的速度需要是一致的,同时可以使得判别器网络放缓更新梯度,有助于整个生成对抗网络收敛到相对平稳的状态,有效解决了梯度消失爆炸问题,损失函数来源有两部分:
(1)对抗损失:
(2)感知损失:
使用感知损失公式的目的是找到生成图像和清晰图像间的特征映射差异,实验发现较低层网络提取的特征图侧重于简单的特征(如边缘、颜色),有利于保留图像的纹理细节,符合重建运动模糊的工业包装字符图像纹理细节的需要,所以本例在计算特征欧式距离时参数设为i=3、j=3,即经过预训练的VGG19网络中第三次池化操作的第三个经过激活的卷积层获得的特征映射,
故总损失(α=100)可以表示为:
5)参数配准,训练模型:
按照上述步骤构建生成器网络、判别器网络、预训练的VGG19网络以及对应的损失函数,并将数据集图像对按照步骤1.2)加载进网络模型中并训练模型,其中网络模型采用深度学习框架TensorFlow-gpu,训练模型时使用Adam求解器,通过实验并结合经验进行参数调整,以使模型性能达到最优,训练参数具体设置如下所示:
learningrate=10-4、decaystep=150、patchsize=256;
实验环境具体设置如表1所示:
表1实验环境参数表
训练结束之后,通过图像存储路径查看测试集重建图像,得到最终的去运动模糊复原图像,如图4、图5、图6、图7所示的对比图像所示。
Claims (1)
1.一种工业包装字符的去运动模糊方法,其特征在于,包括如下步骤:
1)数据获取:数据集包括两种来源,一种是直接使用现有GoPro数据集,另外一种是在工业相机下对流水线上包装字符的实际拍摄图像,其中GoPro数据集提供了取自各种场景的1048对720p质量的模糊和清晰图像,然后对数据集进行以下处理:
1.1)图像对的匹配:由于数据获取需要以模糊-清晰对的形式一一对应,所以需要将两部分数据集中的图像来源均处理为图像对:
(1)首先对流水线上包装字符的实际拍摄图像添加运动模糊,具体使用numpy库和cv2库内置函数控制模糊核的方向和大小来完成,将方向angle置为0,模糊核大小degree分别取2、3、4、5进行扩增;
(2)然后对上述模糊图像和真实清晰图像进行图像裁剪为720p;
(3)最后将两份数据集图像对纵向合并,划分训练集和测试集,训练集和测试集比例为90%、10%
1.2)数据操作函数的准备:包括数据集路径的读取,数据及图像的格式归一化、读取和存放、顺序的打乱、尺寸的裁剪,其中尺寸裁剪为适于生成对抗网络模型计算的256p,以及参数量的判断;
2)构建生成器模型:生成器接受噪声作为输入并生成样本,其目标是生成让判别器无法从真实样本区分出的生成样本,构建生成器模型主要包括以下三个步骤:
2.1)构建下采样模块:首先经过1*1conv、7*7conv完成通道的扩增,摒弃使用两个尺寸大小为3的卷积核对图像进行下采样的方式,选择更适用于工业应用领域的深度可分离卷积,即3*3Depthwise Convolution与逐点卷积即1*1Pointwise Convolution拼接的方式完成图像下采样,前两个卷积后采用ReLU6激活函数,最后一层的逐点卷积后不使用激活函数,每次卷积操作步长设为strides=2,将感受野扩大4倍;
2.2)构建特征提取块:进入残差层的图像尺寸大小为64p*64p,特征通道为channels=256,若对输入图像进行直接整体特征提取,计算量和参数量都较大,计算量计算公式为:
MAC=Cin*kernel_size*kernel_size*Hout*Wout*Cout,
为了优化网络,降低运算时间使其更满足于工业领域的实际应用,对特征通道进行通道分离和通道混洗,以减小Cin来降低MAC,依据轻量级网络设计原理理念,首先使用1*1卷积操作进行图像的信息聚合,再接通道分离,设group_numbers=4,即将特征通道均分为拼接的4组,对每一组代表的特征通道进行不同的提取操作,其中第一组:不做任何操作,以获取低维尺度信息;第二组:进行一次3*3卷积操作,获得相对的高维信息;第三组:将原始信息与前一组信息相加,再进行3*3卷积操作,整合相邻两个通道信息;第四组:将第三组整合到的高维信息与原始信息的低维信息相加,再进行3*3卷积操作,为节约时间成本,分离通道的卷积操作不进行归一化和激活函数操作,仅在前后两个信息聚合层添加实例标准层和ReLU激活层,设进入通道复用层的输入为x,输出为Y,根据参数的值group_numbers设置可以划分为m个子集,每个通道的输入为Xm,输出设为Ym,当m=1时,Ym=Xm;每个通道的输入都有对应卷积操作,用C(Xm)表示,因为第一个通道直接输出低维信息,可表述为C(x1)=0,第二个通道的信息独立卷积,后续的通道信息进行通道复用,然后将分离的各通道信息拼接输出,即首尾两个信息聚合层分别用Cdown(x)、Cup(Y)表示,保留跳跃连接来解决当模型层数增加到某种程度,模型的效果不增反降的退化问题,在常规情况下的残差层都以ResNet方式进行堆叠,采用跳跃连接方式解决模型退化问题,可表示为:
y=C(x)+x,
特征提取块的三个阶段可用公式表示为:
X=Cdown(x);
y=Cup(Y)+x;
整个特征提取层采用堆叠的方式进行特征提取重建,堆叠量设为9,为避免再没风格特征提取块上通道复用卷积可能带来的某部分通道的尺度信息过于单一化,在相邻特征提取块拼接处执行通道混洗操作来保证通道信息的提取均衡;
2.3)构建上采样模块:采取双线性插值法和卷积操作实现重建图像尺寸和通道的转换,通过直接采用双线性插值对图像进行放大处理来达到上采样的目的,在插值算法之后再使用普通卷积层实现图像特征通道匹配,重复操作两次后将重建图像尺寸转换为256p输出,其中双线性插值算法的思想可以简述为:用原图像的四个特征点来估算重建新图像的一个点,在两个方向上进行三次的单线性插值运算,若求新图像标,则须知原图像Q11、Q12、Q21、Q22四个点的坐标,在x轴上进行两次单线性插值运算,即利用Q11和Q21两点求R1坐标,利用Q21、Q22两点求R2坐标:
将求得的R1、R2两点坐标进行单线性插值运算,求得重建图像的P点坐标:
3)构建判别器模型:判别器网络的目标是来自生成器网络的生成样本和真实样本,并区分出生成样本和真实样本,因进入对抗网络的数据集图像尺寸会被预处理为256p,所以判别器将图像以256×256的标准分割成Patch块,在每一个Patch块上加入梯度惩罚来判断生成样本是否清晰,求出Patch的平均值,并设置0.5作为阈值进行区分,判别器网络模型是一个分辨率递减的卷积过程,最终输出一张单通道的特征图,该过程可以细分为三个阶段:
(1)将256p、channels=3的特征图下采样两倍,并将通道扩展到64;
(2)三次下采样操作,每一次的下采样的步长strides=2,特征图通道以此被拓展到128、256、512,每一次下采样卷积操作后跟着实例归一化层和LeakyReLU激活层,其中斜率α=0.2;
(3)将16*16、channels=512的特征图卷积一次后将特征通道降为channels=1,本阶段使用sigmoid激活函数;
4)优化损失函数:在训练阶段,引入判别网络以对抗方式训练生成器网络和判别器网络,以优化损失函数,生成对抗网络的目标参数可以表述为:
其中G表示生成器,D表示判别器,x表示样本,pdata表示真实样本集,pG表示生成样本集,参数λ=10,表示梯度惩罚项,损失函数来源有两部分:
(1)对抗损失:
(2)感知损失:
计算特征欧式距离时参数设为i=3、j=3,即经过预训练的VGG19网络中第三次池化操作的第三个经过激活的卷积层获得的特征映射,
故总损失α=100可以表示为:
5)参数配准,训练模型:
按照上述步骤构建生成器网络、判别器网络、预训练的VGG19网络以及对应的损失函数,并将数据集图像对按照步骤1.2)加载进网络模型中并训练模型,其中网络模型采用深度学习框架TensorFlow-gpu,训练模型时使用Adam求解器,然后进行参数调整,以使模型性能达到最优,训练参数具体设置如下所示:
learningrate=10-4、decaystep=150、patchsize=256;
网络模型训练在配备有Inter Xeon Silver 4110@2.60GHZ以及NVIDIA Quadro P4000的计算机上进行;
训练结束之后,通过图像存储路径查看测试集重建图像,得到最终的去运动模糊复原图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110543088.1A CN113129240B (zh) | 2021-05-19 | 2021-05-19 | 一种工业包装字符的去运动模糊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110543088.1A CN113129240B (zh) | 2021-05-19 | 2021-05-19 | 一种工业包装字符的去运动模糊方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113129240A CN113129240A (zh) | 2021-07-16 |
CN113129240B true CN113129240B (zh) | 2023-07-25 |
Family
ID=76782332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110543088.1A Active CN113129240B (zh) | 2021-05-19 | 2021-05-19 | 一种工业包装字符的去运动模糊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129240B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113570493A (zh) * | 2021-07-26 | 2021-10-29 | 京东数科海益信息科技有限公司 | 一种图像生成方法及装置 |
CN113780132B (zh) * | 2021-08-31 | 2023-11-24 | 武汉理工大学 | 一种基于卷积神经网络的车道线检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035149A (zh) * | 2018-03-13 | 2018-12-18 | 杭州电子科技大学 | 一种基于深度学习的车牌图像去运动模糊方法 |
CN111199522A (zh) * | 2019-12-24 | 2020-05-26 | 重庆邮电大学 | 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法 |
CN111861894A (zh) * | 2019-04-25 | 2020-10-30 | 上海理工大学 | 基于生成式对抗网络的图像去运动模糊方法 |
CN112435187A (zh) * | 2020-11-23 | 2021-03-02 | 浙江工业大学 | 一种基于聚集残差生成对抗网络的单图像盲去运动模糊方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473147A (zh) * | 2018-05-09 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种视频去模糊方法和装置 |
-
2021
- 2021-05-19 CN CN202110543088.1A patent/CN113129240B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035149A (zh) * | 2018-03-13 | 2018-12-18 | 杭州电子科技大学 | 一种基于深度学习的车牌图像去运动模糊方法 |
CN111861894A (zh) * | 2019-04-25 | 2020-10-30 | 上海理工大学 | 基于生成式对抗网络的图像去运动模糊方法 |
CN111199522A (zh) * | 2019-12-24 | 2020-05-26 | 重庆邮电大学 | 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法 |
CN112435187A (zh) * | 2020-11-23 | 2021-03-02 | 浙江工业大学 | 一种基于聚集残差生成对抗网络的单图像盲去运动模糊方法 |
Non-Patent Citations (1)
Title |
---|
残差分离卷积神经网络的图像去运动模糊技术;刘平;刘传才;张佳洛;;计算机与数字工程(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113129240A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2017101166A4 (en) | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks | |
Li et al. | Underwater image enhancement via medium transmission-guided multi-color space embedding | |
Raman et al. | Reconstruction of high contrast images for dynamic scenes | |
CN113129240B (zh) | 一种工业包装字符的去运动模糊方法 | |
CN110910486A (zh) | 室内场景光照估计模型、方法、装置、存储介质以及渲染方法 | |
CN109712165B (zh) | 一种基于卷积神经网络的同类前景图像集分割方法 | |
CN109389667B (zh) | 一种基于深度学习的高效全局光照明绘制方法 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
WO2021063119A1 (en) | Method and apparatus for image processing, terminal | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN110958469A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN111681198A (zh) | 一种形态学属性滤波多模融合成像方法、系统及介质 | |
CN115272437A (zh) | 一种基于全局与局部特征的图像深度估计方法及装置 | |
CN112581423A (zh) | 一种基于神经网络的汽车表面缺陷的快速检测方法 | |
Gao et al. | Learning to Incorporate Texture Saliency Adaptive Attention to Image Cartoonization. | |
Mun et al. | Texture preserving photo style transfer network | |
CN116452900A (zh) | 一种基于轻量级神经网络的目标检测方法 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 | |
CN115423697A (zh) | 图像修复方法、终端及计算机存储介质 | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
Polasek et al. | Vision UFormer: Long-range monocular absolute depth estimation | |
CN114373110A (zh) | 对输入图像进行目标检测的检测方法、设备及其相关产品 | |
CN108364273B (zh) | 一种空间域下的多聚焦图像融合的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |