CN114049251A - 一种用于ai视频分析的模糊图像超分辨率重建方法及装置 - Google Patents
一种用于ai视频分析的模糊图像超分辨率重建方法及装置 Download PDFInfo
- Publication number
- CN114049251A CN114049251A CN202111022598.0A CN202111022598A CN114049251A CN 114049251 A CN114049251 A CN 114049251A CN 202111022598 A CN202111022598 A CN 202111022598A CN 114049251 A CN114049251 A CN 114049251A
- Authority
- CN
- China
- Prior art keywords
- image
- residual
- network
- features
- recursive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 43
- 230000004913 activation Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000008034 disappearance Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000011161 development Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 230000017074 necrotic cell death Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000005286 illumination Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种用于AI视频分析的模糊图像超分辨率重建方法及装置,提出的多尺度特征提取及融合网络能够得到不同尺度下的浅层图像特征,增加图像特征的丰富度;采用多路径递归残差网络模型,可以很好地学习LR图像和HR图像之间的高频残差特征,首先,不同路径之间的信息可以相互共享,使得网络能够自适应地检测不同尺度的图像特征。其次,每一条路径可以从不同路径的梯度中受益,更加有助于图像特征信息的传播和梯度流动,以缓解训练过程中梯度的消失问题,提高训练效果和图像重建性能;采用的自门控Swish激活函数,有助于解决随着网络层数加深会出现过拟合问题,使得图像超分辨率重建有着较好的性能。
Description
技术领域
本发明涉及视频图像处理领域,具体涉及一种用于AI视频分析的模糊图像超分辨率重建方法及装置。
背景技术
智能视频分析广泛应用在周界安防、金融行业监控、监所监控、商场客流统计等方方面面。其主要用来实现区域检测、物品遗留、人脸识别、人数统计、车辆特征识别等功能。但是实际环境中光照不均匀或弱光环境、遮挡背景等都会导致采集到的视频图像模糊,造成视频图像采集终端采集到的图像分辨率较低,整体成像质量较差,严重影响了后续的智能视频分析阶段。因此,对由光照不均或弱光和遮挡导致的模糊图像进行重建以获得清晰的高分辨率图像一直是当前各个行业AI视频分析至关重要的环节。
图像超分辨率重建技术的主要目的是利用一幅或多幅低分辨率图像估计一幅高分辨率图像,通过学习由实例构建的数据库中低分辨率和高分辨率图像块之间的映射,恢复图像丢失的高频细节。目前,图像超分辨率重建是前沿热门领域,吸引了越来越多的学者参与研究,并发表了众多有意义的工作。随着计算机的计算能力的提升,卷积神经网络不断朝着更深的网络发展,模型深度的增加伴随着性能的提升,因此,深度学习成为当下的研究热点,同样,在超分辨率重建领域,基于深度学习的单幅图像超分辨率重建方法也已经成为当下的研究热点。研究人员提出了很多模型,例如:SRCNN、VDSR等等,也都在图像超分辨率重建上面取得了较好的性能。
目前图像超分辨率重建技术仍存在如下的缺陷:第一,目前的主要研究几乎都是在单一尺度下对LR图像进行特征提取,忽略了不同尺度下的图像细节信息即浅层图像特征,重建过程中没能充分利用低分辨率图像的浅层图像特征,从而导致重建图像质量差,不利于复杂的纹理细节特征重建。第二,目前的研究都倾向于使用更深层次的网络模型来提高重建性能,然而盲目地增加网络的深度并不能有效地改善网络,并且随着网络深度的增加,需要训练的参数数目越来越多,导致对计算复杂度和存储空间的需求也增加,训练过程中出现的问题越来越多,比如梯度消失或梯度爆炸等问题,从而导致网络模型的学习速率降低,模型的训练难度提升。第三,目前的多数基于卷积神经网络的单幅图像超分辨率(SISR)方法使用的激活函数是ReLU激活函数,随着网络层数加深会出现过拟合问题,映射关系会变差,导致图像重建性能变差。
发明内容
本发明针对上述背景技术中提出的现有图像超分辨率重建技术存在的缺陷,提出一种用于AI视频分析的模糊图像超分辨率重建方法及装置,能够对在光照不均或低光照环境下或者拍摄角度问题所拍摄到的模糊图像提取更多更好的图像特征和充分利用这些图像特征,以提高图像超分辨率重建的性能,从而提升AI视频分析能力。
一种用于AI视频分析的模糊图像超分辨率重建方法,包括如下步骤:
步骤1,建立多尺度特征提取融合网络,由多尺度特征提取单元和特征融合层组成,通过多尺度特征提取融合网络在原始低分辨率图像上进行特征提取,即输入是原始的LR图像,并且在其中每个卷积层的后面设置激活层,使用自门控Swish激活函数;在深度学习中,多使用ReLU作为激活函数;
步骤2,在多尺度特征提取融合网络的基础上,构建多路径递归残差网络模型来学习LR图像和HR图像之间的高频残差特征;多路径递归残差网络模型中,使用多路径模式下的局部残差学习和递归学习相结合的策略来提取图像的深层特征;每一层的输入都叠加了前面所有层的输出,将所有相同映射大小的特征图连接起来,从不同路径提取的特征不仅会在网络的尾部融合,而且在网络的前向传输过程中融合,将不同尺度的浅层和深层局部图像特征向网络深处传递,学习图像特征;
步骤3,使用反卷积重建和全局跳跃连接来重建最终的超分辨率图像。
进一步的,步骤1中,多尺度特征提取融合递归残差网络中,多尺度特征提取单元分别使用尺寸大小为3*3、5*5和7*7的卷积核同时提取LR图像的特征信息,提取不同尺度的浅层局部图像特征,分别得到16、32、和64幅特征图;特征融合层基于DenseNet网络的思想,采用Concat的方式来融合不同尺度的信息,通过扩展其通道数来合并,不更改任何原始像素值。
进一步的,步骤1中,所述自门控Swish激活函数为:
f(x)=x·sigmoid(βx)
式中,β为可训练的参数。当Swish函数处于x<0时,随着x不断减小,梯度无限接近于0,避免出现神经元坏死、不被激活的情况,抑制过拟合的出现。
进一步的,步骤2中,多路径递归残差网络模型由递归残差特征提取块RRFEB和多级特征融合块MFFB两部分组成;假设分别使用X和Y表示整个递归残差网络的输入和输出,即多尺度特征提取及融合单元的输出,X作为所有RRFEB、MFFB和随后的全局残差学习单元的输入;在多路径递归残差网络中,使用N个RRFEB级联来反复提取LR图像和HR图像之间的残差特征,所有RRFEB单元的输出表示为:
F1=fRRFEB(X)
F2=fRRFEB(X,F1)
F3=fRRFEB(X,F2)
···
FN=fRRFEB(X,FN-1)
其中,fRRFEB(·)为递归残差特征提取功能,X,F1,F2,...FN是相应的输入;
引入多级特征融合块MFFB重用层次特征,并输出最终的残差特征,MFFB的输出表示为:
fN+1=fMFFB(X,F1,F2,...,FN)
其中,fMFFNB(·)表示多级特征融合功能;
使用长跳过连接将特征提取单元提取的浅层特征X与各个递归残差块输出的特征进行融合,融合局部和全局特征,其中长跳过连接提供互补的上下文信息。
进一步的,步骤2中,所述递归残差特征提取块RRFEB是使用两个残差单元级联构成,再通过对多个RRFEB进行级联构成递归残差提取网络,提取具有不同感受野的多级残差特征;
假设残差单元的输入为xl,输出为xl+1,则残差单元的结构表示为:
xl+1=xl+F(xl,wl)
F(xl,wl)=w1σ(wl-1,xl-1)
其中wl、wl-1为权重,σ(·)为激活函数,F(x)为卷积函数;则任意残差单元的输出表示为:
对于标准的卷积网络来说,任意单元的输出为:
设损失函数为E,则根据链式传播求导法得到:
进一步的,步骤2中,递归残差特征提取块RRFEB采用多路径结构来传输不同卷积层之间的图像特征,每一层的输入都叠加了前面所有层的输出,叠加所有残差块的输出得到递归残差特征提取块最终的输出;残差网络的结构表示为:
xl+1=g(xl)=F(xl,w)+x0
x0=f0(x)
其中g(xl)残差单元的函数,x0是递归块中第一层卷积的结果,f0(x)为激活函数;
在残差单元中引入了递归思想,所有递归单元内相同位置的残差块共享权重。同时在递归残差网络结构中,使用零填充操作确保卷积之后的输出图像和输入图像大小一致,避免由于卷积运算导致的图像边缘信息丢失。
进一步的,步骤2中,MFFB模块将多尺度特征提取的浅层图像特征和递归残差提取块提取的多级残差特征进行特征融合,输出最终的深层残差特征。
进一步的,步骤2中,多路径递归残差网络模型采用密集跳过连接的方法,将所有RRFEB提取的多级残差特征和多尺度特征提取单元提取的浅层特征进行融合,并将融合后的特征和浅层图像特征相加形成全局残差学习来提取LR图像和HR图像之间的残差特征,最终输入重建网络进行图像的重建。
进一步的,步骤3中,反卷积层的内核大小设置为3*3,对于重建因子*2和*3,在放大过程中仅使用一层反卷积层,输出通道为8个目标大小的特征;对于重建因子*4,使用两个连续的*2反卷积层,第一层输出32幅特征图像,而第二层的输出仍为8幅特征图像;经过升频处理后,再使用一个标准3*3*1的卷积层充分探索最佳的高阶特征,为高质量的图像重建提取有用信息,然后再使用全局跳过连接的方式进行最终的图像超分辨率图像。
一种使用所述的用于AI视频分析的模糊图像超分辨率重建方法的装置,包括视频采集模块,PC端控制模块,用于图像超分辨率重建的Hi3516AV200图像处理开发模块和显示模块;
所述视频采集模块通过PAL连接至Hi3516AV200图像处理开发模块,所述PC控制端模块通过RS485连接至Hi3516AV200图像处理开发模块,所述Hi3516AV200图像处理开发模块通过PAL连接至显示模块;
视频图像采集模块采用CCD工业相机来采集实时图像,通过PAL接口将工业相机采集到的实时图像传输到图像运算处理平台,即Hi3516AV200图像处理开发模块上;
PC端控制模块运行控制管理系统,控制图像处理开发模块进行图像超分辨率重建,并且控制显示模块来显示经图像处理开发模块处理后的高分辨率图像;
Hi3516AV200图像处理开发模块进行图像超分辨率重建;
显示模块用来显示经过图像超分重建后的高分辨率图像。
本发明达到的有益效果为:
(1)本发明提出的多尺度特征提取及融合网络能够得到不同尺度下的浅层图像特征,可以增加图像特征的丰富度;
(2)本发明采用多路径递归残差网络模型,可以很好地学习LR图像和HR图像之间的高频残差特征,首先,不同路径之间的信息可以相互共享,使得网络能够自适应地检测不同尺度的图像特征。其次,每一条路径可以从不同路径的梯度中受益,更加有助于图像特征信息的传播和梯度流动,以缓解训练过程中梯度的消失问题,提高训练效果和图像重建性能。
(3)本发明采用的自门控Swish激活函数,有助于解决随着网络层数加深会出现过拟合问题,使得图像超分辨率重建有着较好的性能。
附图说明
图1为本发明实施例中的用于AI视频分析的模糊图像超分辨率重建装置的结构图。
图2为本发明实施例中的多尺度特征融合递归残差网络模型模型结构图。
图3为本发明实施例中的多尺度特征提取单元结构图。
图4为本发明实施例中的ReLU激活函数图。
图5为本发明实施例中的Swish激活函数图。
图6为本发明实施例中的多路径递归残差网络结构图。
图7为本发明实施例中的残差单元内部结构图图。
图8为本发明实施例中的多级特征融合块MFFB的内部结构图。
图9为本发明实施例中的不同重建因子对应的反卷积网络结构图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明提出了一种用于AI视频分析的模糊图像超分辨率重建方法及装置,其主要目的是能够对在光照不均或低光照环境下或者拍摄角度问题所拍摄到的模糊图像提取更多更好的图像特征和充分利用这些图像特征,以提高图像超分辨率重建的性能,从而提升AI视频分析能力。所述装置,如图1所示,包括视频采集模块,PC端控制模块,用于图像超分辨率重建的Hi3516AV200图像处理开发板和显示模块,其结构示意图如图1所示。图像超分辨率重建方法由多尺度特征提取、多路径递归残差网络的非线性映射和反卷积重建网络三部分组成,如图2。
在单幅图像超分辨率重建中,经常采用加深网络深度的方法来提高模型的重建性能,但是通过这种简单的直接堆叠层的方式有很严重的缺陷,首先更深或更大的网络需要训练大量的参数,需要更多的训练技巧,并且网络容易过拟合,其次会导致整个模型的计算复杂度急剧上升,例如在深度计算机视觉网络中,如果采用卷积层的简单链式堆叠,其中任何卷积层滤波器数量的均匀增加,都会导致整个模型计算量的二阶增加。更糟糕的是,随着网络深度的增加,图像特征信息在传输过程中逐渐消失,如何充分有效地提取和利用LR图像的特征,对高分辨率图像的重建质量至关重要。
由于不同感受野的卷积核可以获取不同的上下文信息,不同尺寸卷积核的并行提取无疑会增加图像特征的丰富度。本发明提出了一种多尺度特征提取及融合网络(Multi-scalefeatureextractionandfusion,MFEF),由多尺度特征提取单元和特征融合层组成,网络结构如图3所示。
多尺度特征提取单元分别使用尺寸大小为3*3、5*5和7*7的卷积核同时提取LR图像的特征信息,提取不同尺度的浅层局部图像特征,分别得到16、32、和64幅特征图。由于多尺度特征提取单元是使用三个尺寸大小不同的卷积核进行特征提取的,因此需要使用特征融合层进行特征融合。一种常用的图像特征融合方式是像ResNet网络一样采用element-wiseadd方法进行特征融合,但是由于不同大小的卷积核提取的特征具有不同的感受野大小,因此将它们简单地添加在一起可能会削弱分层信息的有效性。基于DenseNet网络的思想,采用Concat的方式来融合不同尺度的信息,通过扩展其通道数来合并它们,而无需更改任何原始像素值。由于每个分支分别生成16、32、64幅特征图,因此在融合后获得112幅特征图。此外,在特征融合后使用1*1的卷积层将通道维数降到输入的维数,作为递归残差网络的输入,从而降低计算复杂度。
本特征提取网络是直接在原始低分辨率图像上进行特征提取,即输入是原始的LR图像,并且在每个卷积层的后面设置了激活层,本文选用自门控Swish激活函数。在深度学习中,多使用ReLU作为激活函数,因为ReLU函数的梯度只有0,1两种可能,函数表达式如式(5.1)所示,有稳定的梯度变化,而且ReLU只需要一个阈值来激活,在一个特别大的梯度训练时,当参数更新之后,此神经元梯度变为0,永远不会被激活,就会使得数据流在训练时发生关闭现象,函数图像如图4所示。
f(x)=max(0,x)
针对ReLU函数的不足,改用一种自门控激活形式Swish作为激活函数,由于ReLU函数在x<0时梯度为0,Swish激活函数在x<0时具备非单调、稀疏、平滑的特性,如图6所示,即使在x无限小时梯度也不会为0,因此保证了每个神经元都被激活,可以更好地学习低分辨率图像和高分辨率图像之间的映射关系,而且ReLU函数需要多个标量作为输入,而Swish只需要单个标量作为输入,避免了参数的数量和容量,加快了训练模型的收敛速度,Swish函数为:
f(x)=x·sigmoid(βx)
式中,β为可训练的参数。当Swish函数处于x<0时,随着x不断减小,梯度无限接近于0,避免出现神经元坏死、不被激活的情况,抑制过拟合的出现。
本发明构建了一个多路径递归残差网络模型来学习LR图像和HR图像之间的高频残差特征。不同于以往的研究,本文的递归残差网络模型中,使用的是多路径模式下的局部残差学习和递归学习相结合的策略来提取图像的深层特征(LR和HR之间的高频残差信息)。在多路径模式下,为了确保网络中各个层之间的最大信息流,每一层的输入都叠加了前面所有层的输出,通过该方式将所有相同映射大小的特征图连接起来,从不同路径提取的特征不仅会在网络的尾部融合,而且会在网络的前向传输过程中融合,其结合了残差块和多路径链接的优点,将不同尺度的浅层和深层局部图像特征向网络深处传递,学习到更多的图像特征,提升最终图像的重建质量。这种多路径的方式有以下两个优点:首先,不同路径之间的信息可以相互共享,使得网络能够自适应地检测不同尺度的图像特征。其次,每一条路径可以从不同路径的梯度中受益,更加有助于图像特征信息的传播和梯度流动,以缓解训练过程中梯度的消失问题。多路径递归残差网络模型由递归残差特征提取块(Recursiveresidualfeatureextractionblock,RRFEB)和多级特征融合块(Multi-levelfeaturefusionblock,MFFB)两部分组成,其结构如图6所示。
假设分别使用X和Y表示整个递归残差网络的输入(多尺度特征提取及融合单元的输出)和输出,X作为所有RRFEB、MFFB和随后的全局残差学习单元的输入。在多路径递归残差网络中,使用N个RRFEB级联来反复提取LR图像和HR图像之间的残差特征,所有RRFEB单元的输出可以表示为:
F1=fRRFEB(X)
F2=fRRFEB(X,F1)
F3=fRRFEB(X,F2)
···
FN=fRRFEB(X,FN-1)
其中,fRRFEB(·)为递归残差特征提取功能,X,F1,F2,...FN是相应的输入。
然后引入多级特征融合块MFFB重用层次特征,并输出最终的残差特征,MFFB的输出表示为:
fN+1=fMFFB(X,F1,F2,...,FN)
其中,fMFFNB(·)表示多级特征融合功能。
最后使用长跳过连接将特征提取单元提取的浅层特征X与各个递归残差块输出的特征进行融合,融合局部和全局特征,其中长跳过连接可以提供互补的上下文信息。
本发明所提出的递归残差特征提取块RRFEB是使用两个残差单元级联构成,再通过对多个RRFEB进行级联构成递归残差提取网络,提取具有不同感受野的多级残差特征。残差单元结构如图7所示。
假设残差单元的输入为xl,输出为xl+1,则残差单元的结构可以表示为:
xl+1=xl+F(xl,wl)
F(xl,wl)=w1σ(wl-1,xl-1)
其中wl、wl-1为权重,σ(·)为激活函数,F(x)为卷积函数。则任意残差单元的输出可以表示为:
但是对于标准的卷积网络来说,任意单元的输出为:
残差单元的前向特征传输是线性的,残差单元的输出等于输入和残差单元的结果,而对于卷积网络来说,卷积运算是非线性的,都是连乘操作,计算量急剧增加,所以残差单元可以减少计算量,有助于网络的收敛,并且反向传输可以解决传输过程中的梯度消失问题。假设损失函数为E,则根据链式传播求导法则可以得到:
残差单元的顺序堆叠可以加快网络中的信息流动,减轻网络的训练难度,避免出现过拟合现象。在此基础上,递归残差特征提取块采用多路径结构来传输不同卷积层之间的图像特征,每一层的输入都叠加了前面所有层的输出,叠加所有残差块的输出得到递归残差特征提取块最终的输出。相比以链的方式直接叠加,这种多路径模式可以充分提取不同尺度的浅层和深层局部图像特征。残差网络的结构可表示为:
xl+1=g(xl)=F(xl,w)+x0
x0=f0(x)
其中g(xl)残差单元的函数,x0是递归块中第一层卷积的结果,f0(x)为激活函数。
并且在残差单元中引入了递归思想,所有递归单元内相同位置的残差块共享权重。同时在递归残差网络结构中,使用零填充操作确保卷积之后的输出图像和输入图像大小一致,避免由于卷积运算导致的图像边缘信息丢失。
多级特征融合块MFFB的内部结构如图8所示,MFFB模块将多尺度特征提取的浅层图像特征和递归残差提取块提取的多级残差特征进行特征融合,输出最终的深层残差特征。
本发明的多路径递归残差网络模型采用密集跳过连接的方法,将所有RRFEB提取的多级残差特征和多尺度特征提取单元提取的浅层特征进行融合,并将融合后的特征和浅层图像特征相加形成全局残差学习来提取LR图像和HR图像之间的残差特征,最终输入重建网络进行图像的重建。
对于单幅图像的超分辨率重建问题,虽然LR图像丢失了其对应的HR图像中包含的一些高频信息,但LR图像和超分辨率SR输出的图像仍是高度相关的。因此,如何充分利用从输入图像中提取的所有特征来重建高质量的SR图像至关重要。这里我使用一种简单的结构来重建最终的超分辨率图像,反卷积重建和全局跳跃连接。使用反卷积层来进行超分辨率重建的优势如下:首先网络的输入使用原始的LR图像,网络的训练都是在LR图像上进行卷积运算,避免网络的输入为插值后的图像,从而减少计算量,降低计算复杂度。其次提取的低分辨率图像的纹理信息在高分辨率图像的重建中起着很大的作用,可以推断出HR图像更多的纹理细节。
反卷积层的内核大小设置为3*3,对于重建因子*2和*3,在放大过程中仅使用一层反卷积层,输出通道为8个目标大小的特征。对于重建因子*4,使用两个连续的*2反卷积层,第一层输出32幅特征图像,而第二层的输出仍为8幅特征图像,如图9所示。经过升频处理后,再使用一个标准3*3*1的卷积层充分探索最佳的高阶特征,为高质量的图像重建提取有用信息,然后再使用全局跳过连接的方式进行最终的图像超分辨率图像。
本发明提出了一种新颖的策略,首先使用双三次插值法对LR图像进行上采样,然后生成所需大小尺寸的辅助图像,随后将辅助图像添加到网络元素的输出中形成全局残差学习,进行图像超分辨率的重建。使用跳过连接大大加快了训练收敛速度,并提高了重建精度。
本发明中,为了解决单一尺度的特征提取没有充分提取图像细节信息的问题,本发明提出了一种新的多尺度特征提取及融合单元,用于提取和融合不同尺度下的浅层图像特征,使其具有更强的表现力,并通过多条交织路径进行融合,实现精确的局部特征表达,最大限度的利用了LR图像特征。
本发明创新性的将多尺度特征融合提取单元与递归残差结构相结合,提出了基于多尺度特征融合递归残差网络重建模型。递归结构的加入,不仅可以控制训练参数的数量,而且可以增加网络的感受野,从而提升了模型的重建性能。同时,采用多路径模式下的局部残差方式充分提取不同尺度的浅层和深层局部图像特征,解决了由于网络模型深度加深而导致的图像特征消失问题,有助于学习更加复杂的纹理细节,加快了训练过程中的梯度反向传播。
本发明在重建过程中,图像的放大主要是通过反卷积层和直接线性插值来实现的,在图像重建之前,使用跳过连接将插值后的LR图像馈送到网络,形成全局残差学习,将原始图像用作目标图像重建,提高了重建质量和重建效率。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (10)
1.一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:所述方法包括如下步骤:
步骤1,建立多尺度特征提取融合网络,由多尺度特征提取单元和特征融合层组成,通过多尺度特征提取融合网络在原始低分辨率图像上进行特征提取,即输入是原始的LR图像,并且在其中每个卷积层的后面设置激活层,使用自门控Swish激活函数;在深度学习中,多使用ReLU作为激活函数;
步骤2,在多尺度特征提取融合网络的基础上,构建多路径递归残差网络模型来学习LR图像和HR图像之间的高频残差特征;多路径递归残差网络模型中,使用多路径模式下的局部残差学习和递归学习相结合的策略来提取图像的深层特征;每一层的输入都叠加了前面所有层的输出,将所有相同映射大小的特征图连接起来,从不同路径提取的特征不仅会在网络的尾部融合,而且在网络的前向传输过程中融合,将不同尺度的浅层和深层局部图像特征向网络深处传递,学习图像特征;
步骤3,使用反卷积重建和全局跳跃连接来重建最终的超分辨率图像。
2.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤1中,多尺度特征提取融合递归残差网络中,多尺度特征提取单元分别使用尺寸大小为3*3、5*5和7*7的卷积核同时提取LR图像的特征信息,提取不同尺度的浅层局部图像特征,分别得到16、32、和64幅特征图;特征融合层基于DenseNet网络的思想,采用Concat的方式来融合不同尺度的信息,通过扩展其通道数来合并,不更改任何原始像素值。
3.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤1中,所述自门控Swish激活函数为:
f(x)=x·sigmoid(βx)
式中,β为可训练的参数;当Swish函数处于x<0时,随着x不断减小,梯度无限接近于0,避免出现神经元坏死、不被激活的情况,抑制过拟合的出现。
4.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤2中,多路径递归残差网络模型由递归残差特征提取块RRFEB和多级特征融合块MFFB两部分组成;
假设分别使用X和Y表示整个递归残差网络的输入和输出,即多尺度特征提取及融合单元的输出,X作为所有RRFEB、MFFB和随后的全局残差学习单元的输入;在多路径递归残差网络中,使用N个RRFEB级联来反复提取LR图像和HR图像之间的残差特征,所有RRFEB单元的输出表示为:
F1=fRRFEB(X)
F2=fRRFEB(X,F1)
F3=fRRFEB(X,F2)
···
FN=fRRFEB(X,FN-1)
其中,fRRFEB(·)为递归残差特征提取功能,X,F1,F2,...FN是相应的输入;
引入多级特征融合块MFFB重用层次特征,并输出最终的残差特征,MFFB的输出表示为:
fN+1=fMFFB(X,F1,F2,...,FN)
其中,fMFFNB(·)表示多级特征融合功能;
使用长跳过连接将特征提取单元提取的浅层特征X与各个递归残差块输出的特征进行融合,融合局部和全局特征,其中长跳过连接提供互补的上下文信息。
5.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤2中,所述递归残差特征提取块RRFEB是使用两个残差单元级联构成,再通过对多个RRFEB进行级联构成递归残差提取网络,提取具有不同感受野的多级残差特征;
假设残差单元的输入为xl,输出为xl+1,则残差单元的结构表示为:
xl+1=xl+F(xl,wl)
F(xl,wl)=w1σ(wl-1,xl-1)
其中wl、wl-1为权重,σ(·)为激活函数,F(x)为卷积函数;则任意残差单元的输出表示为:
对于标准的卷积网络来说,任意单元的输出为:
设损失函数为E,则根据链式传播求导法得到:
6.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤2中,递归残差特征提取块RRFEB采用多路径结构来传输不同卷积层之间的图像特征,每一层的输入都叠加了前面所有层的输出,叠加所有残差块的输出得到递归残差特征提取块最终的输出;残差网络的结构表示为:
xl+1=g(xl)=F(xl,w)+x0
x0=f0(x)
其中g(xl)残差单元的函数,x0是递归块中第一层卷积的结果,f0(x)为激活函数;
在残差单元中引入了递归思想,所有递归单元内相同位置的残差块共享权重;同时在递归残差网络结构中,使用零填充操作确保卷积之后的输出图像和输入图像大小一致,避免由于卷积运算导致的图像边缘信息丢失。
7.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤2中,MFFB模块将多尺度特征提取的浅层图像特征和递归残差提取块提取的多级残差特征进行特征融合,输出最终的深层残差特征。
8.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤2中,多路径递归残差网络模型采用密集跳过连接的方法,将所有RRFEB提取的多级残差特征和多尺度特征提取单元提取的浅层特征进行融合,并将融合后的特征和浅层图像特征相加形成全局残差学习来提取LR图像和HR图像之间的残差特征,最终输入重建网络进行图像的重建。
9.根据权利要求1所述的一种用于AI视频分析的模糊图像超分辨率重建方法,其特征在于:步骤3中,反卷积层的内核大小设置为3*3,对于重建因子*2和*3,在放大过程中仅使用一层反卷积层,输出通道为8个目标大小的特征;对于重建因子*4,使用两个连续的*2反卷积层,第一层输出32幅特征图像,而第二层的输出仍为8幅特征图像;经过升频处理后,再使用一个标准3*3*1的卷积层充分探索最佳的高阶特征,为高质量的图像重建提取有用信息,然后再使用全局跳过连接的方式进行最终的图像超分辨率图像。
10.一种使用权利要求1-9其中任一项所述的用于AI视频分析的模糊图像超分辨率重建方法的装置,其特征在于:所述装置包括视频图像模块,PC端控制模块,用于图像超分辨率重建的Hi3516AV200图像处理开发模块和显示模块;
所述视频图像模块通过PAL连接至Hi3516AV200图像处理开发模块,所述PC控制端模块通过RS485连接至Hi3516AV200图像处理开发模块,所述Hi3516AV200图像处理开发模块通过PAL连接至显示模块;
视频图像采集模块采用CCD工业相机来采集实时图像,通过PAL接口将工业相机采集到的实时图像传输到图像运算处理平台,即Hi3516AV200图像处理开发模块上;
PC端控制模块运行控制管理系统,控制图像处理开发模块进行图像超分辨率重建,并且控制显示模块来显示经图像处理开发模块处理后的高分辨率图像;
Hi3516AV200图像处理开发模块进行图像超分辨率重建;
显示模块:用来显示经过图像超分重建后的高分辨率图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022598.0A CN114049251A (zh) | 2021-09-01 | 2021-09-01 | 一种用于ai视频分析的模糊图像超分辨率重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022598.0A CN114049251A (zh) | 2021-09-01 | 2021-09-01 | 一种用于ai视频分析的模糊图像超分辨率重建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049251A true CN114049251A (zh) | 2022-02-15 |
Family
ID=80205178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111022598.0A Pending CN114049251A (zh) | 2021-09-01 | 2021-09-01 | 一种用于ai视频分析的模糊图像超分辨率重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049251A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170916A (zh) * | 2022-09-06 | 2022-10-11 | 南京信息工程大学 | 一种多尺度特征融合的图像重建方法及系统 |
CN117934286A (zh) * | 2024-03-21 | 2024-04-26 | 西华大学 | 一种轻量级图像超分辨率方法、装置及其电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232653A (zh) * | 2018-12-12 | 2019-09-13 | 天津大学青岛海洋技术研究院 | 快速轻型超分辨率重建密集残差网络 |
CN111339890A (zh) * | 2020-02-20 | 2020-06-26 | 中国测绘科学研究院 | 基于高分辨率遥感影像提取新增建设用地信息的方法 |
WO2021042270A1 (zh) * | 2019-09-03 | 2021-03-11 | 中山大学 | 基于双流多路径递归残差网络的压缩伪影去除方法 |
-
2021
- 2021-09-01 CN CN202111022598.0A patent/CN114049251A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232653A (zh) * | 2018-12-12 | 2019-09-13 | 天津大学青岛海洋技术研究院 | 快速轻型超分辨率重建密集残差网络 |
WO2021042270A1 (zh) * | 2019-09-03 | 2021-03-11 | 中山大学 | 基于双流多路径递归残差网络的压缩伪影去除方法 |
CN111339890A (zh) * | 2020-02-20 | 2020-06-26 | 中国测绘科学研究院 | 基于高分辨率遥感影像提取新增建设用地信息的方法 |
Non-Patent Citations (2)
Title |
---|
程德强;蔡迎春;陈亮亮;宋玉龙;: "边缘修正的多尺度卷积神经网络重建算法", 激光与光电子学进展, no. 09, 28 March 2018 (2018-03-28) * |
董咪: "基于卷积神经网络的单幅图像超分辨率重建算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 1, 15 January 2021 (2021-01-15), pages 1 - 2 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170916A (zh) * | 2022-09-06 | 2022-10-11 | 南京信息工程大学 | 一种多尺度特征融合的图像重建方法及系统 |
CN115170916B (zh) * | 2022-09-06 | 2023-01-31 | 南京信息工程大学 | 一种多尺度特征融合的图像重建方法及系统 |
CN117934286A (zh) * | 2024-03-21 | 2024-04-26 | 西华大学 | 一种轻量级图像超分辨率方法、装置及其电子设备 |
CN117934286B (zh) * | 2024-03-21 | 2024-06-04 | 西华大学 | 一种轻量级图像超分辨率方法、装置及其电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Recursive neural network for video deblurring | |
CN111161150B (zh) | 一种基于多尺度注意级联网络的图像超分辨率重建方法 | |
Tran et al. | GAN-based noise model for denoising real images | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111754438B (zh) | 基于多分支门控融合的水下图像复原模型及其复原方法 | |
Chen et al. | Cross parallax attention network for stereo image super-resolution | |
CN110689482A (zh) | 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法 | |
CN110070489A (zh) | 一种基于视差注意力机制的双目图像超分辨方法 | |
CN112837224A (zh) | 一种基于卷积神经网络的超分辨率图像重建方法 | |
CN114049251A (zh) | 一种用于ai视频分析的模糊图像超分辨率重建方法及装置 | |
CN113052814B (zh) | 基于Retinex和注意力机制的暗光图像增强方法 | |
CN112215755A (zh) | 一种基于反投影注意力网络的图像超分辨率重建方法 | |
CN111612703A (zh) | 一种基于生成对抗网络的图像盲去模糊方法 | |
Kim et al. | Deeply aggregated alternating minimization for image restoration | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
Ma et al. | Flexible and generalized real photograph denoising exploiting dual meta attention | |
CN112017116B (zh) | 基于非对称卷积的图像超分辨率重建网络及其构建方法 | |
CN112581423A (zh) | 一种基于神经网络的汽车表面缺陷的快速检测方法 | |
CN111861886A (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN114170286A (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN114463176B (zh) | 基于改进esrgan的图像超分辨重建方法 | |
Wang et al. | Image super-resolution via lightweight attention-directed feature aggregation network | |
CN114612456A (zh) | 一种基于深度学习的钢坯自动语义分割识别方法 | |
CN115860113B (zh) | 一种自对抗神经网络模型的训练方法及相关装置 | |
CN116485654A (zh) | 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |