发明内容
发明目的:一个目的是提出一种基于残差网络与动态卷积网络模型融合的方法,以解决现有技术存在的上述问题。进一步目的是提出一种实现上述方法的系统。
技术方案:一种基于残差网络与动态卷积网络模型融合的方法,包括以下步骤:
步骤1、组建图像集,用于模型对真实场景中有用信息的学习;
步骤2、构建学习训练网络,将获得的训练集放入学习网络中,进行网络训练;其中所述学习网络为非局部深度残差网络、双路径动态卷积网络及深度监督双路径动态卷积网络;
步骤3、对生成对应网络学习的结果集进行网络模型融合,并在融合过程中利用crop-ensemble方法;其中所述网络模型融合为非局部深度残差网络、双路径动态卷积网络和深度监督双路径动态卷积网络模型的融合,具体为通过将所有网络集成到一个代码框架下,利用求均值操作实现;其中所述crop-ensemble方法为剪裁增强方法,用于避免在剪切,合并图片时在接缝处产生伪影的情况;
步骤4、获得最终处理过的图像结果。
在进一步的实施例中,所述步骤2进一步为:学习训练网络中所述的非局部深度残差网络为改进的深度残差网络,其特征为在深度残差网络的深层特征开始之前添加了一个非局部模块来使用领域信息;
非局部模块接收输入X′(H×W×C),并将其变成两个维度的输入X(HW×C),其中非局部操作为:
其中i是输出位置上的索引,其输出计算的是相似信息,j是枚举所有可能的位置;输入的x为一个特征信号,y是和x尺寸一样的输出信号,函数f表示一个i和所有j计算的一个标量代表两者之间的相关性,一元函数g为计算输入信号所有位置j的输入信号;g(x)=Wgxj其中Wg表示1×1卷积,C(x)表示将最终得到的相关信息进行归一化;
其中f(xi,xj)、C(x)如下:
式中θ(xi)Tφ(xj)表示点乘相似性,其中θ(xi)=Wθxi,φ(xj)=Wφxj,Wθ、Wφ为1×1卷积,归一化因子如上C(x)时,输入变为
y=soffmax(xTWθWφx)g(x)
即输出表示为
z=Wzy+x
其中Wz表示1×1卷积,+x表示残差学习;网络中的基本残差结构中第k个残差块的输出为:
Rk=Conv(ReLU(Conv(Rk-1)))
其中,Rk-1表示前一层残差块的输出;
非局部深度残差网络整个模型结构分为5个子模块即:浅层特征提取模块、非局部模块、深层特征提取模块、上采样模块、重建模块;其中浅层特征提取模块由一层卷积层组成,深层特征提取模块由40个残差块组成,最后加上了一个全局残差;上采样模块使用的是亚像素卷积;重构模块使用的是两层卷积层。
在进一步的实施例中,所述步骤3进一步为:对生成对应网络学习的结果集进行网络模型融合;其中所述网络模型融合为非局部深度残差网络、双路径动态卷积网络和深度监督双路径动态卷积网络模型的融合,具体为通过将所有网络集成到一个代码框架下,利用求均值操作实现;
crop-ensemble方法为剪切增强方法,可有效减少图片剪裁过程中在接缝处产生伪影的情况,其实现方式为:
首先,执行程序接受用户在程序执行前设定的一个图像增强次数,且次数的大于预定值;其次,执行程序接受crop-ensemble指令,将当前图像小块以正常的方式输入网络中,通过旋转90度使得被网络增强一次,并同时记录每个小块被旋转的度数,当网络完成一次增强后,图像小块会被转回到正常位置;再次,将获得的所有结果进行叠加再取其平均;最后,执行程序再将若干个图像小块拼接成完成的大图;
其中所述小块旋转结果流程实现为:
y0=G(x′0)
y1=G(x′1)
其中,yi表示被网络超分辨率处理一次后,并且被旋转回正常位置的图像小块,n为用户设定的用于执行程度识别的图像增强系数,R为最终输出的图像小块;
crop-ensemble模块中还包含有shave-ensemble功能,即镜像翻转功能,其中除了镜像翻转的次数外,用户还可以设定用于图像小块进行镜像翻转的轴和轴的相对位置,该轴的方向可以是水平、竖直或者两者同时存在;shave-ensemble功能的实现方式为:首先,执行程序在接收到镜像翻转指令后,按照设定的轴方向和相对位置对图像小块进行翻转;然后,执行程序再将翻转后的图像小块置入网络进行上采样;最后,对完成所有翻转后的结果进行叠加和求平均值,并将结果作为该小块的最终输出;
使用的模型融合方式的流程为将所有网络集成到一个代码框架下,做融合时只需运行一个程序,且所有的图片不进行二次读取,在每个模型输出结果时进行累加后求均值,不需将每个算法的结果存储下来后在进行二次读取。
一种基于残差网络与动态卷积网络模型融合的系统,包括
用于构建训练集的第一模块,该模块通过组建图像集,用于模型对真实场景中有用信息的学习。
用于实现网络的学习训练的第二模块,该模块通过构建学习训练网络,将获得的训练集放入学习网络中,进行网络训练。其中所述学习网络为非局部深度残差网络、双路径动态卷积网络及深度监督双路径动态卷积网络;学习训练网络中所述的非局部深度残差网络为改进的深度残差网络,其特征为在深度残差网络的深层特征开始之前添加了一个非局部模块来使用领域信息。
非局部模块接收输入X′(H×W×C),将其变成两个维度的输入X(HW×C),其中非局部操作为:
其中i是输出位置上的索引,其输出计算的是相似信息,j是枚举所有可能的位置;输入的x为一个特征信号,y是和x尺寸一样的输出信号,函数f表示一个i和所有j计算的一个标量代表两者之间的相关性,一元函数g为计算输入信号所有位置j的输入信号;g(x)=Wgxj其中Wg表示1×1卷积,C(x)表示将最终得到的相关信息进行归一化;
其中f(xi,xj)、C(x)如下:
式中θ(xi)Tφ(xj)表示点乘相似性,其中θ(xi)=Wθxi,φ(xj)=Wφxj,Wθ、Wφ为1×1卷积,归一化因子如上C(x)时,输入变为
y=soffmax(xTWθWφx)g(x)
即输出表示为
z=Wzy+x
其中Wz表示1×1卷积,+x表示残差学习;网络中的基本残差结构中第k个残差块的输出为:
Rk=Conv(ReLU(Conv(Rk-1)))
其中,Rk-1表示前一层残差块的输出;
非局部深度残差网络整个模型结构分为5个子模块即:浅层特征提取模块、非局部模块、深层特征提取模块、上采样模块、重建模块;其中浅层特征提取模块由一层卷积层组成,深层特征提取模块由40个残差块组成,最后加上了一个全局残差;上采样模块使用的是亚像素卷积;重构模块使用的是两层卷积层。
用于处理数据获得结果的第三模块,该模块对生成对应网络学习的结果集进行网络模型融合;其中所述网络模型融合为非局部深度残差网络、双路径动态卷积网络和深度监督双路径动态卷积网络模型的融合,具体为通过将所有网络集成到一个代码框架下,利用求均值操作实现;
crop-ensemble方法为剪裁增强方法,可有效减少图片剪裁拼接过程中在接缝处产生伪影的情况,其实现方式为:
首先,执行程序接受用户在程序执行前设定的一个图像增强次数,且次数的设定不能太小;其次,执行程序接受crop-ensemble指令,将当前图像小块以正常的方式输入网络中,通过旋转90度使得被网络增强一次,并同时记录每个小块被旋转的度数,当网络完成一次增强后,图像小块会被转回到正常位置;再次,将获得的所有结果进行叠加再取其平均;最后,执行程序再将若干个图像小块拼接成完成的大图;
其中所述小块旋转结果流程实现为:
y0=G(x′0)
y1=G(x′1)
其中,yi表示被网络超分辨率处理一次后,并且被旋转回正常位置的图像小块,n为用户设定的用于执行程度识别的图像增强系数,R为最终输出的图像小块;
crop-ensemble模块中还包含有shave-ensemble功能,即镜像翻转功能,其中除了镜像翻转的次数外,用户还可以设定用于图像小块进行镜像翻转的轴和轴的相对位置,该轴的方向可以是水平、竖直或者两者同时存在;shave-ensemble功能的实现方式为:首先,执行程序在接收到镜像翻转指令后,按照设定的轴方向和相对位置对图像小块进行翻转;然后,执行程序再将翻转后的图像小块置入网络进行上采样;最后,对完成所有翻转后的结果进行叠加和求平均值,并将结果作为该图像小块的最终输出;
使用的模型融合方式的流程为将所有网络集成到一个代码框架下,做融合时只需运行一个程序,且所有的图片不进行二次读取,在每个模型输出结果时进行累加后求均值,不需将每个算法的结果存储下来后在进行二次读取。
用于呈现结果的第四模块。
有益效果:本发明提出了一种基于残差网络与动态卷积网络模型融合的方法及系统,通过非局部深度残差网络对真实场景信息进行学习,然后利用模型融合的方法,将非局部残差网络与双路径动态卷积网络用这种方法进行融合,最后在融合过程中使用剪裁增强方法crop-ensemble,实现在减少运算时间复杂度和空间复杂度的同时,达到远高于单独模型结果的目标。
具体实施方式
申请人认为,在图像超分辨率提升和图像去噪声的现有技术发展中,真实场景超分和传统超分的区别在于真实场景中存在着较为复杂的降质方式,在低分辨率图像中会存在较多的噪声以及一定程度上的模糊,使得算法在学习的过程中可以使用的有用信息急剧减少。由于不同的算法都是写在不同的代码框架下,需要多个算法的结果进行融合时只能单独把每个算法都跑一遍,,增加了运算时的时间复杂度和空间复杂度。
为解决现有技术存在的问题,本发明提出了一种非局部深度残差网络与双路径动态卷积网络模型融合的方法及实现该方法的系统,该方法通过非局部深度残差网络对真实场景信息进行学习,然后利用模型融合的方法,将非局部残差网络与双路径动态卷积网络用这种方法进行融合,最后在融合过程中使用剪裁增强方法crop-ensemble,实现在减少运算时间复杂度和空间复杂度的同时,达到远高于单独模型结果的目标。
下面通过实施例,并结合附图对本方案做进一步具体说明。
在本申请中,我们提出了一种基于残差网络与动态卷积网络模型融合的方法及系统,所述方法具体为包括以下步骤:
步骤1、组建图像集,用于模型对真实场景中有用信息的学习。
步骤2、构建学习训练网络,将获得的训练集放入学习网络中,进行网络训练;其中所述学习网络为非局部深度残差网络、双路径动态卷积网络及深度监督双路径动态卷积网络。
步骤3、对生成对应网络学习的结果集进行网络模型融合,并在融合过程中利用crop-ensemble方法;其中所述网络模型融合为非局部深度残差网络、双路径动态卷积网络和深度监督双路径动态卷积网络模型的融合,具体为通过将所有网络集成到一个代码框架下,利用求均值操作实现;其中所述crop-ensemble方法为剪裁增强方法,用于避免在剪切图片时在接缝处产生伪影的情况。
步骤4、获得最终处理过的图像结果并呈现。
由于针对图片被输入网络时对图像大小的限定,所以需对其输入图像进行剪裁,所以在步骤一中需进一步将图片剪裁设定为大小是448*448像素的图像小块。
目前较多的算法都只是通过叠加残差层来提取特征,此方式过于简单且提取到的有效特征较少,本发明在步骤二实现的过程中提出了构建深度非局部残差超分网络,该网络主要改进的是在深度残差网络的深层特征开始之前添加了一个非局部模块来使用邻域信息,从而一定程度上缓解低分辨率图像上可提取特征较少的问题。
其中涉及的非局部模块为对于输入的X′(H×W×C),先将其变成两个维度的输入X(HW×C),其中非局部操作为:
其中i是输出位置上的索引,其输出计算的是相似信息,j是枚举所有可能的位置;输入的x为一个特征信号,y是和x尺寸一样的输出信号,函数f表示一个i和所有j计算的一个标量代表两者之间的相关性,一元函数g为计算输入信号所有位置j的输入信号;g(x)=Wgxj其中Wg表示1×1卷积,C(x)表示将最终得到的相关信息进行归一化;
其中f(xi,xj)、C(x)如下:
式中θ(xi)Tφ(xj)表示点乘相似性,其中θ(xi)=Wθxi,φ(xj)=Wφxj,Wθ、Wφ为1×1卷积,归一化因子如上C(x)时,输入变为
y=softmax(xTWθWφx)g(x)
即输出表示为
z=Wzy+x
其中Wz表示1×1卷积,+x表示残差学习;网络中的基本残差结构中第k个残差块的输出为:
Rk=Conv(ReLU(Conv(Rk-1)))
其中,Rk-1表示前一层残差块的输出;
非局部深度残差网络整个模型结构分为5个子模块即:浅层特征提取模块、非局部模块、深层特征提取模块、上采样模块、重建模块;其中浅层特征提取模块由一层卷积层组成,深层特征提取模块由40个残差块组成,最后加上了一个全局残差;上采样模块使用的是亚像素卷积,对于给定的输入X(H×W×C*R^2),经过亚像素卷积进行重新排列得到新的输出Y(H*R×H*R×C),其中R表示放大因子,最大程度上降低了所需算力。重构模块使用的则是两层卷积层。
现有的模型融合方式浪费时间和空间的缺陷,步骤三中我们在设计代码框架时,对于不同网络模型的导入设置了极大的便利,即在一次运行时就加载多个不同的模型,并且可以直接对所有的结果进行求均值操作而不需要进行存储之后再读取再求平均。这样的设计将所有网络集成到了一个代码框架下,融合时仅需运行一个程序,从而减少运行不同代码框架的时间;且本发明提出的融合过程中,所有的图片都不需要进行二次读取,在每个模型输出结果时就可以进行累加再求均值而不需要将每个算法的结果存储下来后续再进行二次读取,既节省了存储时间也节省了存储空间。
为清楚说明本申请模型融合的具体过程,下面采用一实施例进行说明。
针对提升提出真实世界图像超分效果,本发明使用非局部深度残差网络,双路径动态卷积网络和深度监督双路径动态卷积网络进行模型融合的方式。融合流程如图1所示,在模型训练阶段,几种模型可以分开训练,再分开生成各自结果。几种模型各自的结果都生成好之后,本发明采用将不同结果中同一张图像上的对应像素点求和再求算术平均值的方式,来获取模型融合后的结果。下表1所示为使用了模型与未使用模型融合的PSNR,SSIM对比。
表1使用了模型融合与未使用模型融合的PSNR,SSIM对比表
经过对比可以发现,模型融合后的图像在局部地区线条更加明显,对比度更加出色,这也是融合后PSNR和SSIM都有所提高的原因。
为了使最终获得的结果呈现非局部深度残差网络,双路径动态卷积网络以及深度监督双路径动态卷积网络的特点,在融合过程中本发明还提出实现了crop-ensemble增强方法,其可以有效避免在剪切图片时在接缝处产生的伪影。该方法的实现流程如下:
crop-ensemble方法为剪裁增强方法,可有效减少图片剪裁拼接过程中在接缝处产生伪影的情况,其实现方式为:
首先,执行程序接受用户在程序执行前设定的一个图像增强次数,该数字最好能被4整除,且次数的设定不能太小,因为图像小块在网络中每次会被旋转90度,其设置的次数可具体为300、400、600等。
其次,执行程序接受crop-ensemble指令,将当前图像小块以正常的方式输入网络中,在用户给定的次数内,通过每旋转90度使得被网络增强一次,并同时记录每个小块被旋转的度数。
x′0=x0
x′1=Rot90°(x′0)
x′2=Rot90°(x′1)
…
其中x0表示被按照正常方向输入网络的图像小块,Rot90°表示顺时针旋转90度的操作,x′i表示旋转的结果。
当网络完成一次增强后,图像小块会被转回到正常位置;再次,将获得的所有结果进行叠加再取其平均,该过程如下所示:
y0=G(x′0)
y1=G(x′1)
其中,yi表示被网络超分辨率处理一次后,并且被旋转回正常位置的图像小块,n为用户设定的用于执行程度识别的图像增强系数,R为最终输出的图像小块;最后,执行程序再将若干个图像小块拼接成完成的大图,确保每个图像小块都会得到一个比只增强一次更好的结果。
这种方法可以更好的防止不同图像小块间有色差,边缘处理不佳,局部信息丢失,条纹图案处理不佳等问题。当最终所有小块被拼接到一起时组成一张完整的大图时,使用了本发明提出的crop-ensemble增强方法的效果会有肉眼可见的提升。如下表2所示,两种结果使用的是同一个图片测试集,包含20张真实场景的图片。
表2使用了crop-ensemble和未使用crop-ensemble的PSNR、SSIM对比表
|
峰值信噪比PSNR |
结构相似性SSIM |
未使用crop-ensemble |
27.4057 |
0.7789 |
使用了crop-ensemble |
27.7940 |
0.7912 |
同时我们还发现使用我们的crop-ensemble方法时,每次处理的图像块的尺寸越大,最终的完整大图效果会更好PSNR和SSIM等计算机视觉领域的常见指标也会得到显著提升。其实验结果数据如下表3所示。
表3不同图像块尺寸的PSNR、SSIM对比表
图像块尺寸 |
峰值信噪比PSNR |
结构相似性SSIM |
450*450 |
32.251 |
0.9143 |
300*300 |
32.243 |
0.9082 |
crop-ensemble模块中还包含有shave-ensemble功能,即镜像翻转功能,其中除了镜像翻转的次数外,用户还可以设定用于图像小块进行镜像翻转的轴和轴的相对位置,该轴的方向可以是水平、竖直或者两者同时存在;shave-ensemble功能的实现方式为:首先,执行程序在接收到镜像翻转指令后,按照设定的轴方向和相对位置对图像小块进行翻转;然后,执行程序再将翻转后的图像小块置入网络进行上采样;最后,对完成所有翻转后的结果进行叠加和求平均值,并将结果作为该小块的最终输出。实验表明,翻转次数越多,且翻转轴的位置小于图像块1/2时,效果更佳。
将crop-ensemble和shave-ensemble配合使用,对于图像的超分辨率效果提升具有显著影响;并且对于任意深度学习模型而言,只需稍加改动便可同样使用本发明提出的方法,其普适性是很符合当前技术发展及应用的。同时本发明的方法在具体实施过程中,细节参数可调,可以做到适应不同的硬件设备,为计算机视觉领域发展提供动力。
基于上述方法,可以构建一种用于实现上述方法的系统,包括:
用于构建训练集的第一模块,该模块通过组建图像集,用于模型对真实场景中有用信息的学习。由于针对图片被输入网络时对图像大小的限定,所以需对其输入图像进行剪裁,所以在步骤一中需进一步将图片剪裁设定为大小是448*448像素的图像小块。
用于实现网络的学习训练的第二模块,该模块通过构建学习训练网络,将获得的训练集放入学习网络中,进行网络训练。其中所述学习网络为非局部深度残差网络、双路径动态卷积网络及深度监督双路径动态卷积网络;学习训练网络中所述的非局部深度残差网络为改进的深度残差网络,其特征为在深度残差网络的深层特征开始之前添加了一个非局部模块来使用领域信息。
非局部模块为对于输入的X′(H×W×C),将其变成两个维度的输入X(HW×C),其中非局部操作为:
其中i是输出位置上的索引,其输出计算的是相似信息,j是枚举所有可能的位置;输入的x为一个特征信号,y是和x尺寸一样的输出信号,函数f表示一个i和所有j计算的一个标量代表两者之间的相关性,一元函数g为计算输入信号所有位置j的输入信号;g(x)=Wgxj其中Wg表示1×1卷积,C(x)表示将最终得到的相关信息进行归一化;
其中f(xi,xj)、C(x)如下:
式中θ(xi)Tφ(xj)表示点乘相似性,其中θ(xi)=Wθxi,φ(xj)=Wφxj,Wθ、Wφ为1×1卷积,归一化因子如上C(x)时,输入变为
y=soffmax(xTWθWφx)g(x)
即输出表示为
z=Wzy+x
其中Wz表示1×1卷积,+x表示残差学习;网络中的基本残差结构中第k个残差块的输出为:
Rk=Conv(ReLU(Conv(Rk-1)))
其中,Rk-1表示前一层残差块的输出;
非局部深度残差网络整个模型结构分为5个子模块即:浅层特征提取模块、非局部模块、深层特征提取模块、上采样模块、重建模块;其中浅层特征提取模块由一层卷积层组成,深层特征提取模块由40个残差块组成,最后加上了一个全局残差;上采样模块使用的是亚像素卷积;重构模块使用的是两层卷积层。
用于处理数据获得结果的第三模块,该模块对生成对应网络学习的结果集进行网络模型融合;其中所述网络模型融合为非局部深度残差网络、双路径动态卷积网络和深度监督双路径动态卷积网络模型的融合,具体为通过将所有网络集成到一个代码框架下,利用求均值操作实现;
crop-ensemble方法为剪裁增强方法,可有效减少图片剪裁拼接过程中在接缝处产生伪影的情况,其实现方式为:
首先,执行程序接受用户在程序执行前设定的一个图像增强次数,且次数的设定不能太小;其次,执行程序接受crop-ensemble指令,将当前图像小块以正常的方式输入网络中,通过旋转90度使得被网络增强一次,并同时记录每个小块被旋转的度数,当网络完成一次增强后,图像小块会被转回到正常位置;再次,将获得的所有结果进行叠加再取其平均;最后,执行程序再将若干个图像小块拼接成完成的大图;
其中所述小块旋转结果流程实现为:
y0=G(x′0)
y1=G(x′1)
其中,yi表示被网络超分辨率处理一次后,并且被旋转回正常位置的图像小块,n为用户设定的用于执行程度识别的图像增强系数,R为最终输出的图像小块;
crop-ensemble模块中还包含有shave-ensemble功能,即镜像翻转功能,其中除了镜像翻转的次数外,用户还可以设定用于图像小块进行镜像翻转的轴和轴的相对位置,该轴的方向可以是水平、竖直或者两者同时存在;shave-ensemble功能的实现方式为:首先,执行程序在接收到镜像翻转指令后,按照设定的轴方向和相对位置对图像小块进行翻转;然后,执行程序再将翻转后的图像小块置入网络进行上采样;最后,对完成所有翻转后的结果进行叠加和求平均值,并将结果作为该图像小块的最终输出;
使用的模型融合方式的流程为将所有网络集成到一个代码框架下,做融合时只需运行一个程序,且所有的图片不进行二次读取,在每个模型输出结果时进行累加后求均值,不需将每个算法的结果存储下来后在进行二次读取。
用于呈现结果的第四模块。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。