CN113469884A

CN113469884A - 基于数据仿真的视频超分辨方法、系统、设备及存储介质

Info

Publication number: CN113469884A
Application number: CN202110800420.8A
Authority: CN
Inventors: 林格; 全绍军
Original assignee: Longse Technology Co ltd; Sun Yat Sen University
Current assignee: Longse Technology Co ltd; Sun Yat Sen University
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-01

Abstract

本发明公开了一种基于数据仿真的视频超分辨方法。包括：采集高分辨率视频与低分辨率目标视频；对低分辨率目标视频的模糊核、噪声进行采样；利用模糊核对高分辨率视频进行模糊并添加噪声，构建出仿真视频数据集；构建超分辨率网络模型，并利用仿真视频数据集进行训练；利用训练好的超分辨率网络模型对低分辨率目标视频进行超分辨重建，生成需要的超分辨率视频。本发明还公开了一种基于数据仿真的视频超分辨系统、计算机设备及计算机可读存储介质。本发明通过数据仿真的方法，采用对抗生成网络以及统计的方式对目标低分辨率数据集的特征进行采样和估计，能生成更加符合实际条件的低分辨率视频的训练数据，提高了超分辨率的效果。

Description

基于数据仿真的视频超分辨方法、系统、设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于数据仿真的视频超分辨方法、基于数据仿真的视频超分辨系统、计算机设备及计算机可读存储介质。

背景技术

分辨率指的是一张图像所包含的像素数量，分辨率越高则图像越清晰，包含的内容和细节信息也就越多。超分辨率重建技术指的是通过算法从低分辨率图像中获取对应的高分辨率图像，还原或者增加图像细节，使得图像更符合人类的视觉感知。随着科学技术的进步和生产力的发展，智能设备普及率得到进一步提高，每天都会因此产生数以万计的视频数据，人们也能随时随地观看视频，视频已经成为了日常生活中接触最多，信息量最为丰富的信息载体。因此，研究如何通过低分辨率的视频获取到高分辨率的高清视频有非常重要的现实意义。此外，视频超分辨在视频监控、遥感成像、医疗诊断同样有着非常广泛的研究价值。

目前的现有技术之一是Shi等的《Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network》所提出的ESPCN的单图像超分辨重建方法，利用了像素重组的上采样方式，即图像在经过数个卷积层后得到放大倍数平方通道，且大小与原图大小一致的特征图，随后对这些特征图进行重新排列，每一个通道特征图像素点代表了重建后的高分辨率图像对应位置的一个像素点，最终合并得到对应放大倍数的高分辨率图像。该方法对单图像的处理效率高，且像素重组的思路也被广泛应用于后续的其他超分辨方法中。视频可以看作是多帧图像的集合，因此可以利用现有的单图像超分辨方法对视频所有帧进行重建。该方法的缺点是：由于视频数据的特点，帧与帧之间通常是连续的运动变化过程，具有相似性，视频的抖动可以看作是对同一场景的不同位置采样，能为超分辨重建提供更多的信息，例如，同一场景下的多帧图像可以用于去除随机噪声。单独地对视频所有帧进行超分辨重建，没有利用到帧与帧之间的关系信息，导致单图像超分辨直接应用在视频数据上时效果不理想。

目前的现有技术之二是Wang等的《EDVR:Video restoration withenhanceddeformable convolutional networks》提出的EDVR的视频超分辨重建方法，主要包括两个关键模块：金字塔层叠变形(PCD)对齐模块以及时空注意力(TSA)融合模块，用于解决视频超分辨率多帧对齐以及剧烈晃动的问题。EDVR首先将视频转化为图像序列，每次将数帧作为网络的输入，并将其中一帧作为关键帧，通过PCD对齐模块将相邻帧对齐到关键帧，然后对齐后的帧经过TSA融合模块得到融合特征，最后通过重建模块利用像素重组的方式将融合特征重建为残差图，并与关键帧的双线性插值法得到的上采样结果进行逐像素的相加得到重建后的一帧。重复这个过程直到视频所有帧都完成超分辨率重建。该方法的缺点是：采用REDS作为训练集，该数据集通过对视频中每一帧进行双三次插值下采样构成低分辨率的成对训练数据，然而由于现实中低分辨率视频并不是通过理想的双三次插值法下采样获取得到的，而且双三次插值法会造成图像的高频信息丢失，凸显低频信息，这使得训练数据低分辨率和高分辨率之间产生了较大的偏差，因此该方法在同样采用双三次插值法构造的训练集中有明显的重建效果，而直接应用到真实的视频应用中重建效果却不明显。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于数据仿真的视频超分辨方法、系统、设备及存储介质。本发明解决的主要问题，是针对现有的视频超分辨率重建方法中，训练所用到的成对的视频数据集与真实应用场景下偏差较大、通过插值法生成的低分辨率视频与直接采集并对其进行超分的低分辨率视频不相似的不足，如何通过数据仿真构建出更满足真实场景下的训练数据。

为了解决上述问题，本发明提出了一种基于数据仿真的视频超分辨方法，所述方法包括：

采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集；

采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样，采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样；

利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊，并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声，构建出仿真视频数据集；

构建视频超分辨率网络模型，并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练；

利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建，生成需要的超分辨率视频。

优选地，所述采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样，具体为：

采用生成对抗网络的方法，训练生成器网络和判别器网络，其中生成器网络用于模拟模糊核卷积操作，而判别器网络用于判断应用模糊操作前后图像是否保持了域一致性，即是否属于同一个数据分布；

将所述低分辨率目标视频数据集作为训练数据，每轮训练从所述低分辨率目标视频数据集中采样一张图像作为生成器网络的输入，经过生成器网络处理后得到宽和高为原图像大小一半的伪结果，从伪结果和原图像中裁剪出64×64大小的区域，作为判别器网络的输入；

判别器网络的目标为区分出伪结果和裁剪结果，而生成器网络的目标为生成出数据分布与原图一致的下采样伪结果；

经过训练过程后，得到训练完成的生成器网络，该生成器网络整个网络的变换为线性变换，因此其经过线性变换即为模糊核，然后重复上述步骤多次，获得多个模糊核。

优选地，所述采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样，具体为：

通过在所述低分辨率目标视频数据集中采样的一张图像中直接截取一个图像块，通过对该图像块方差和均值进行计算，如果方差较小则认为该图像块不包含边缘和细节，属于背景或者内容，随后将该图像块所有像素值减去均值，则该图像块可以看作是一个噪声的采样；

重复上述步骤多次，获得多个噪声。

优选地，所述利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊，并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声，构建出仿真视频数据集，具体为：

从所述高分辨率视频数据集中随机选取一个视频，并抽取出图像序列，对序列中所有图像，裁剪出256×256大小的图像块作为训练数据中的标签；

从所述多个模糊核中随机选取一个模糊核，并采用该模糊核作为卷积核，对所述抽取出的高分辨率视频图像序列进行卷积操作后得到同源的经过2倍下采样的图像序列，重复2次得到64×64大小的低分辨率图像块作为低分辨率训练数据；

从多个噪声中随机选取一个噪声，通过放大和复制填充得到64×64大小的图像块，通过叠加的方式增加到所述低分辨率图像块中；

重复以上步骤多次，获得仿真的低分辨率视频数据集，与所述高分辨率视频数据集一起构成成对的视频训练数据集。

优选地，所述构建视频超分辨率网络模型，并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练，具体为：

采用改进的EDVR模型作为视频超分辨的网络模型，包括帧对齐模块、时空注意力融合模块和图像重建模块，其中帧对齐模块以及时空注意力融合模块沿用EDVR的设置；

每次输入网络模型的为5帧，中间帧作为关键帧，其余作为相邻帧，制作大小为5×64×64×3的张量，表示5帧64×64大小的彩色图像，特别地，视频的前2帧以及最后2帧仍然采用前5帧作为输入，输入的张量在依次通过所述帧对齐模块和所述时空注意力融合模块后获得对齐的特征；

构建图像重建模块，在EDVR模型残差块堆叠的基础上增加了一条新的通路，具体为，输入特征为N通道，左分支首先经过1×1的卷积层将特征降维到N/2，然后经过20个残差块进行运算，每个残差块由两个3×3的卷积层组成，并通过残差连接将前一次运算的结果对位相加，最后通过1×1的卷积层对信息进行整合，右分支为新的通路，同样经过1×1的卷积层进行降维到N/2，与左分支最后得到的张量进行拼接即得到输出的特征，其中每个卷积层后都有Leakly RELU作为激活函数。

为了使网络模型参数收敛，训练时采用平均平方误差作为损失函数，即将所述高分辨率视频数据集中的图像与本视频超分辨率网络模型计算出的高分辨图像逐像素相减后取平方，随后对图像大小取平均，损失误差的计算公式如下：

L＝y-f(x))^2/64×64，

其中，x表示低分辨率图像块，y表示高分辨率图像块，f表示视频超分辨率网络模型。

优选地，所述利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建，生成需要的超分辨率视频，具体为：

将所述低分辨率目标视频抽取为图像序列，将相邻的每5帧作为所述视频超分辨率网络模型的输入，计算得到1帧高分辨率结果，重复这个过程直到所有图像帧都被重建完成，最后将高分辨率图像序列转换成视频得到需要的超分辨率视频。

相应地，本发明还提供了一种基于数据仿真的视频超分辨系统，包括：

视频采集单元，用于采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集；

特征采样单元，用于采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样，采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样；

仿真视频生成单元，用于利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊，并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声，构建出仿真视频数据集；

模型训练单元，用于构建视频超分辨率网络模型，并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练；

视频重建单元，用于利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建，生成需要的超分辨率视频。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述基于数据仿真的视频超分辨方法的步骤。

相应地，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于数据仿真的视频超分辨方法的步骤。

实施本发明，具有如下有益效果：

本发明通过数据仿真的方法，采用对抗生成网络以及统计的方式对目标低分辨率数据集的特征进行采样和估计，能够生成更加符合实际条件的低分辨率视频的训练数据，提高网络模型的适用性。本发明通过对现有视频超分辨率方法进行改进，在EDVR重建模块的基础上增加了额外的通路，增强了重建网络的效率，提高了超分辨率的效果。

附图说明

图1是本发明实施例的基于数据仿真的视频超分辨方法的总体流程图；

图2是本发明实施例的低分辨率视频特征采集流程图；

图3是本发明实施例的视频超分辨率网络模型中构建图像重建模块示意图；

图4是本发明实施例的基于数据仿真的视频超分辨系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于数据仿真的视频超分辨方法的总体流程图，如图1所示，该方法包括：

S1，采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集；

S2，采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样，采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样；

S3，利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊，并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声，构建出仿真视频数据集；

S4，构建视频超分辨率网络模型，并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练；

S5，利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建，生成需要的超分辨率视频。

步骤S1，具体如下：

S1-1，采用高清摄像头采集高分辨率视频数据，也可以直接利用现有的视频超分辨率数据集的高分辨率图像序列作为高清视频数据集，该数据集作为数据仿真的参考，因此质量越高则后续超分辨率效果越好。

S1-2，收集目标低分辨率视频数据集，可以采用手机摄像头或实际应用环境中的低清监控摄像头等获取真实的低分辨率视频，该数据集作为超分辨率重建方法处理的对象。

S1-3，要求视频为同一场景下连续变化的实拍视频，即要求没有出现场景转换，相邻的视频帧差距不能太大。本实施例中利用OpenCV将所有视频数据切分为png格式的图像序列。

步骤S2，如图2所示，具体如下：

S2-1，图像退化的过程可以通过以下的模型表示：

LR＝(HR★K)↓+N

其中LR表示低分辨率图像，HR表示高分辨图像，★表示卷积操作，↓表示下采样，K表示模糊核，N表示噪声。

为了构建符合真实场景的成对的高分辨率-低分辨率训练数据，本方法通过从收集的低分辨率数据中估计出一般性特征，即保证域一致的模糊核以及在低分辨率数据中普遍存在的噪声，通过这些一般性特征利用现有的高清视频数据集仿真出真实的低分辨率数据集作为训练数据。

S2-2，首先采用类似对抗生成网络的方法，训练一个生成器网络和判别器网络。其中生成器网络的作用为模拟模糊核卷积操作，而判别器网络为判断应用模糊操作前后图像是否保持了域一致性，即是否属于同一个数据分布。经过这个训练过程后，可以获得从低分辨率数据中估计的模糊核K。具体而言，将S1的低分辨率图像序列数据全部作为训练数据，每轮训练从低分辨率数据集中采样一张图像，记作I_L，将I_L作为生成网络的输入，经过生成网络处理后得到宽和高为I_L原图像大小一半的伪结果，从伪结果和I_L中裁剪出64×64大小的区域，作为判别器网络的输入。判别器网络的目标为区分出伪结果和裁剪结果，而生成器网络的目标为生成出数据分布与原图一致的下采样伪结果。

本实施例中，生成器为一个线性的神经网络，包含了5个隐藏层，每个隐藏层包括了一个卷积层，卷积核的大小分别为7×7、5×5、3×3、1×1以及1×1，通道数均为128，步长和填充设置为保持原图大小，最后一层通过1×1的卷积核，步长为2，填充为0进行下采样得到原图宽和高都减少为原来一半的伪结果。此外卷积操作后没有设置一般的激活层，因此整个神经网络的变换为线性变换。并且，这些卷积层可以等价于一个13×13的卷积核，通过将一个13×13，中心点为1，其余为0的张量输入到该线性网络，输出的结果即为等价的13×13的卷积核。判别器网络为3层隐藏层的神经网络，每层均由128个3×3大小，步长为1，填充为1的卷积核、批量标准化层(BatchNormalization)以及Leakly ReLU层(LeaklyRectified Linear Unit)组成。经过判别器网络后得到类别概率特征图。

为了使网络模型参数收敛，通过以下最小最大化目标函数进行优化：

其中G表示生成器网络，D表示判别器网络，x表示从I_L中截取的部分区域。

此外需要对生成的模糊核k进行以下约束：

argmin_k|1-∑k_i,j|+|∑k_i,j*L_i,j|+|∑k_i,j-k_bicubic|，

k_i,j表示模糊核在坐标(i,j)上的值，L_i,j表示距离中心点的对数距离。第一项表示核所有值的和为1，这使得经过模糊核卷积操作后，图像的均值不发生变化。第二项表示核的值集中于中心点，边缘趋向于0。第三项表示核与双三次插值法的距离。

S2-3，随后对噪声Ν进行估计，由于噪声存在于全局，且背景部分细节较少，因此通过在低分辨率图I_L中直接截取一个13×13大小的图像块，通过对图像块方差和均值进行计算，如果方差较小则认为该图像块不包含边缘和细节，属于背景或者内容，随后将图像块所有像素值减去均值，则这个图像块可以看作是一个噪声的采样。

S2-4，通过多次重复S2-2以及S2-3步骤，获得多个模糊核K和噪声N的采样，本实施例中对模糊核以及噪声分别采样200次。

步骤S3，具体如下：

S3-1，从S1所采集的高分辨率视频数据集中随机选取一个视频，并抽取出图像序列，对序列中所有图像，裁剪出256×256大小的图像块作为训练数据中的标签。

S3-2，从S2所采样的模糊核中随机选取一个模糊核，并采用该模糊核作为卷积核，对高分辨率训练数据进行卷积操作后得到同源的经过2倍下采样图像序列，重复两次得到64×64大小的低分辨率图像块作为低分辨率训练数据。

S3-3，从S2所采样的噪声中随机选取一个噪声块，通过放大和复制填充得到64×64大小的图像块，通过叠加的方式增加到低分辨率图像块中。

S3-4，本实施例中，重复以上步骤10000次，获得仿真的低分辨率视频数据集，与高分辨率视频数据集一起构成成对的视频训练数据集。

步骤S4，具体如下：

S4-1，采用改进的EDVR模型作为视频超分辨的网络模型，包括帧对齐模块、时空注意力融合模块和图像重建模块，其中帧对齐模块以及时空注意力融合模块沿用EDVR的设置，本方法主要对图像重建模块进行了改进。

S4-2，每次输入网络的为5帧，中间帧作为关键帧，其余作为相邻帧，制作为大小5×64×64×3的张量，表示5帧64×64大小的彩色图像。特别地，视频的前2帧以及最后2帧仍然采用前5帧作为输入。输入的张量在依次通过帧对齐模块和时空注意力融合模块后获得对齐的特征。

S4-3，构建图像重建模块，如图3所示，本发明在原方法残差块堆叠的基础上增加了一条新的通路。具体为，输入特征为N通道，左分支首先经过1×1的卷积层将特征降维到N/2，然后经过20个残差块进行运算，每个残差块由两个3×3的卷积层组成，并通过残差连接将前一次运算的结果对位相加，最后通过1×1的卷积层对信息进行整合。右分支为新的通路，同样经过1×1的卷积层进行降维到N/2，与左分支最后得到的张量进行拼接即得到输出的特征。本发明中N为64，每个卷积层后都有Leakly RELU作为激活函数。

S4-4，为了使网络模型参数收敛，训练时采用平均平方误差作为损失函数，即将高分辨率视频数据集中的图像与本视频超分辨率网络模型计算出的图像逐像素相减后取平方，随后对图像大小取平均。具体的损失误差的计算公式如下：

L＝(y-f(x))^2/(64×64)，

其中，x表示低分辨率图像块，y表示高分辨率图像块，f表示视频超分辨率网络模型。本实施例中利用Adam作为优化器，超参数设置为0.9和0.999，学习率设置为0.0001。

步骤S5，具体如下：

将S1中采集的目标低分辨率视频数据抽取为图像序列，将相邻的每5帧作为网络的输入，计算得到1帧高分辨率结果，重复这个过程直到所有图像帧都被重建完成。最后，本实施例中通过OpenCV将图像序列转换成avi格式的视频。

相应地，本发明还提供了一种基于数据仿真的视频超分辨系统，如图4所示，包括：

视频采集单元1，用于采集高分辨率视频数据集以及待进行超分辨处理的低分辨率目标视频数据集；

特征采样单元2，用于采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样，采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样；

仿真视频生成单元3，用于利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊，并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声，构建出仿真视频数据集；

模型训练单元4，用于构建视频超分辨率网络模型，并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练；

视频重建单元5，用于利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建，生成需要的超分辨率视频。

因此，本发明通过数据仿真的方法，采用对抗生成网络以及统计的方式对目标低分辨率数据集的特征进行采样和估计，能够生成更加符合实际条件的低分辨率视频的训练数据，提高网络模型的适用性。本发明通过对现有视频超分辨率方法进行改进，在EDVR重建模块的基础上增加了额外的通路，增强了重建网络的效率，提高了超分辨率的效果。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述基于数据仿真的视频超分辨方法的步骤。同时，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于数据仿真的视频超分辨方法的步骤。

以上对本发明实施例所提供的基于数据仿真的视频超分辨方法、系统、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于数据仿真的视频超分辨方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于数据仿真的视频超分辨方法，其特征在于，所述采用生成对抗网络对所述低分辨率目标视频数据集的模糊核进行采样，具体为：

3.如权利要求1所述的一种基于数据仿真的视频超分辨方法，其特征在于，所述采用统计的方法对所述低分辨率目标视频数据集的噪声进行采样，具体为：

重复上述步骤多次，获得多个噪声。

4.如权利要求1所述的一种基于数据仿真的视频超分辨方法，其特征在于，所述利用所述采样得到的模糊核对所述高分辨率视频数据集进行模糊，并利用所述采样得到的噪声对所述高分辨率视频数据集添加噪声，构建出仿真视频数据集，具体为：

5.如权利要求1所述的一种基于数据仿真的视频超分辨方法，其特征在于，所述构建视频超分辨率网络模型，并利用所述仿真视频数据集对该视频超分辨率网络模型进行训练，具体为：

构建图像重建模块，在EDVR模型残差块堆叠的基础上增加了一条新的通路，具体为，输入特征为N通道，左分支首先经过1×1的卷积层将特征降维到N/2，然后经过20个残差块进行运算，每个残差块由两个3×3的卷积层组成，并通过残差连接将前一次运算的结果对位相加，最后通过1×1的卷积层对信息进行整合，右分支为新的通路，同样经过1×1的卷积层进行降维到N/2，与左分支最后得到的张量进行拼接即得到输出的特征，其中每个卷积层后都有Leakly RELU作为激活函数：

L＝(y-f(x))^2/(64×64)，

6.如权利要求1所述的一种基于数据仿真的视频超分辨方法，其特征在于，所述利用训练好的视频超分辨率网络模型对所述低分辨率目标视频数据集进行超分辨重建，生成需要的超分辨率视频，具体为：

7.一种基于数据仿真的视频超分辨系统，其特征在于，所述系统包括：

8.如权利要求7所述的一种基于数据仿真的视频超分辨系统，其特征在于，所述模型训练单元中的图像重建模块，具体为：

图像重建模块，在EDVR模型残差块堆叠的基础上增加了一条新的通路，具体为，输入特征为N通道，左分支首先经过1×1的卷积层将特征降维到N/2，然后经过20个残差块进行运算，每个残差块由两个3×3的卷积层组成，并通过残差连接将前一次运算的结果对位相加，最后通过1×1的卷积层对信息进行整合，右分支为新的通路，同样经过1×1的卷积层进行降维到N/2，与左分支最后得到的张量进行拼接即得到输出的特征，其中每个卷积层后都有Leakly RELU作为激活函数。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。