CN111402126B - 一种基于分块的视频超分辨率方法和系统 - Google Patents
一种基于分块的视频超分辨率方法和系统 Download PDFInfo
- Publication number
- CN111402126B CN111402126B CN202010094207.5A CN202010094207A CN111402126B CN 111402126 B CN111402126 B CN 111402126B CN 202010094207 A CN202010094207 A CN 202010094207A CN 111402126 B CN111402126 B CN 111402126B
- Authority
- CN
- China
- Prior art keywords
- super
- resolution
- score
- important
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000903 blocking effect Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005192 partition Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 23
- 238000000638 solvent extraction Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000013140 knowledge distillation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4038—Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Abstract
本发明公开了一种基于分块的视频超分辨率方法和系统,在保障感兴趣区域的超分辨率效果的前提下,大幅提高视频超分辨率速度,而且具有更多的灵活性。该所述方法中,首先提取视频帧的感兴趣区域;对视频帧进行分块,基于分块与感兴趣区域的关联性确定分块的分值,将分块的分值与阈值进行对比,区分重要分块和非重要分块;对重要分块采用第一超分辨率网络进行超分辨率处理,对非重要分块采用第二超分辨率网络进行超分辨率处理;所述第一超分辨率网络规模较大、超分辨率效果较好,所述第二超分辨网络较第一超分辨网络规模较小、超分辨率效果次之;将重要分块和非重要分块得到的超分辨率结果进行拼接,得到完整视频帧的超分辨率结果。
Description
技术领域
本发明涉及视频超分辨率领域,尤其涉及一种基于分块的视频超分辨率方法和系统。
背景技术
在各类大数据中,图像视频是“体量最大的大数据”。据思科统计,视频内容约占互联网总流量的90%;而在迅速发展的移动网络中,视频流量的比例也高达64%,并以超过130%的年复合增长率增长。可见,图像视频数据在大数据中占据着主导地位。随着计算机技术和各种图像、视频传感器技术的高速发展,每天都产生海量的图像、视频数据,尽管硬件和网络技术的发展速度也非常快,但与产生的数据相比较,存储空间和网络带宽的发展速度仍远远落后于数据的产生速度。如何在有限的带宽上,高效的传输这些海量数据是计算机领域的重要研究问题。其中一种解决方案就是传输低分辨率的数据,通过算法,在接收端来获取高分辨率的图像和视频,从而节省所需要的传输网络带宽。这称为图像、视频的超分辨率技术。显然,该技术对于现实应用具有十分重要的作用。
图像和视频的超分辨率是近年来计算机视觉研究的热点问题之一,除了传统的方法之外,涌现了许多优秀的图像和视频超分辨率的工作。近年来,随着深度学习在计算机视觉领域中目标检测与分类的成功应用,深度学习逐渐在视觉的各个领域都获得了快速的推广,SRCNN网络包含三个卷积层。首先,单幅低分辨率图像先经过传统的插值方法,例如,双立方插值,将图像放大到需要进行超分辨的大小,然后通过上述提到的简单的三层卷积网络,输出为超分辨后的图像。至于之所以采取三层卷积网络,是因为想将传统的插值方法思想引入网络中。传统插值方法包括图像块提取,特征表示,特征映射重建三种操作,因此,在深度学习网络中,每一层网络代表一个操作,从而完成对传统方法的深度学习模拟。早期提出的算法受SRCNN的影响,DRCN也与SRCNN类似。随着网络深度的不断加深,RCAN提出在EDSR中Block的堆叠对于PSNR(峰值信噪比)和SSIM(结构相似度)指标的的改善效果十分的有限,因此直接堆叠类似EDSR中的Block没有意义。其原因作者分析得出网络的深度虽然增加了,可以认为该网络对于数据具有更加好的表征能力,但是Block的堆叠并没有更好的利用深度网络中的表征能力。在网络的特征图中,不同通道的特征图捕捉的网络特征是不同的,而正是因为这些不同点对于超分辨任务中高频特征的恢复的贡献是不一样的,因此作者提出了采用channel attention的机制对特征图中的通道赋予不同的权重,来增加通道之间的差异性。同时,RCAN的网络堆叠了200个残差块,这使得网络的训练条件和训练难度都大幅增加,对于硬件和网络训练的技巧也提出了更高的要求。
现有的视频超分辨率神经网络通过引入大量的模块以及增加卷积神经网络的深度来提升视频超分辨率的性能。虽然随着卷积神经网络复杂度的提升,性能也得到了提升,但是随之带来的问题主要有两个方面:首先,因为神经网络深度的不断提升,带来的计算资源消耗和计算设备算力要求也越来越高;另外,由于现有的视频超分辨率算法不区分视频帧中的内容,采用的是全局通用的超分辨率方法,这样常会导致在视频帧中的ROI区域很难得到有效的效果的提升。
发明内容
有鉴于此,本发明提供了一种基于分块的视频超分辨率方法与系统,在保障感兴趣区域的超分辨率效果的前提下,大幅提高视频超分辨率速度,而且具有更多的灵活性。
为了解决上述技术问题,本发明是这样实现的:
一种基于分块的视频超分辨率方法,包括:
提取视频帧的感兴趣区域;
对视频帧进行分块,基于分块与感兴趣区域的关联性确定分块的分值,将分块的分值与阈值进行对比,区分重要分块和非重要分块;
对重要分块采用第一超分辨率网络进行超分辨率处理,对非重要分块采用第二超分辨率网络进行超分辨率处理;所述第一超分辨率网络规模较大、超分辨率效果较好,所述第二超分辨网络较第一超分辨网络规模较小、超分辨率效果次之;
将重要分块和非重要分块得到的超分辨率结果进行拼接,得到完整视频帧的超分辨率结果。
优选地,通过调整分块的大小和/或调整用于区分重要分块和非重要分块的阈值实现视频超分辨率的可伸缩性。
优选地,所述将分块的分值与阈值进行对比,区分重要分块和非重要分块为:将分值高于设定阈值的分块确定为重要分块,分值低于设定阈值的分块确定为非重要分块;分值等于设定阈值的分块确定为重要分块或非重要分块。
优选地,所述分块的分值包括面积占比分值和/或重要性分值;所述面积占比分值的计算方式为:计算分块中感兴趣区域的面积占比,面积占比越大,面积占比分值越大;所述重要性分值的计算方式为:计算分块与感兴趣区域中心的距离,距离越小,重要性分值越大;对于分块的分值包括面积占比分值和重要性分值的情况,进一步汇总面积占比分值和重要性分值从而得到所述分块的分值。
优选地,对于同一幅视频帧,不同分块的阈值可以相同或不同;对于不同视频帧,所采用的阈值也可以相同或不同。
优选地,所述对视频帧进行分块时,对于同一幅视频帧或不同视频帧均可以采用固定大小或不固定大小的矩形模板,以固定步长或者非固定步长进行移动,将视频帧分为重合或不重合的分块;
在进行所述超分辨率结果的拼接时,对于重合部分,将两种超分辨率结果进行融合。
优选地,将两种超分辨率结果进行融合为:取两种超分辨结果的均值。
优选地,所述提取视频帧的感兴趣区域采用基于背景建模的运动目标检测算法、基于目标建模的检测算法、基于语义分割的目标提取方法、基于实例分割的目标提取方法中的一种或几种组合。
本发明还提供了一种基于分块的视频超分辨率系统,包括目标提取模块、分块模块、区分模块、超分辨模块和拼接模块;
所述目标提取模块,用于提取视频帧的感兴趣区域;
所述分块模块,用于对视频帧进行分块;
所述区分模块,用于基于分块与感兴趣区域的关联性确定分块的分值,将分块的分值与阈值进行对比,区分重要分块和非重要分块;
所述超分辨模块,用于对重要分块采用第一超分辨率网络进行超分辨率处理,对所述非重要分块采用第二超分辨率网络进行超分辨率处理,将超分辨率结果发送给拼接模块;所述第一超分辨率网络规模较大、超分辨率效果较好,所述第二超分辨网络较第一超分辨网络规模较小、超分辨率效果次之;
所述拼接模块,用于将重要分块和非重要分块得到的超分辨率结果进行拼接,得到完整视频帧的超分辨率结果。
优选地,该系统进一步包括伸缩控制模块,通过调整分块的大小和/或调整用于区分重要分块和非重要分块的阈值实现视频超分辨率的可伸缩性。
优选地,所述区分模块包括分值计算子模块和比较子模块;
所述分值计算子模块,用于基于分块与感兴趣区域的关联性确定分块的分值;
所述比较子模块,用于将分值高于设定阈值的分块确定为重要分块,分值低于设定阈值的分块确定为非重要分块;分值等于设定阈值的分块确定为重要分块或非重要分块。
优选地,所述分值计算子模块所确定的分块的分值包括面积占比分值和/或重要性分值;所述面积占比分值的计算方式为:计算分块中感兴趣区域的面积占比,面积占比越大,面积占比分值越大;所述重要性分值的计算方式为:计算分块与感兴趣区域中心的距离,距离越小,重要性分值越大;对于分块的分值包括面积占比分值和重要性分值的情况,进一步汇总面积占比分值和重要性分值从而得到所述分块的分值。
优选地,对于同一幅视频帧,不同分块的阈值可以相同或不同;对于不同视频帧,所采用的阈值可以相同或不同。
优选地,所述分块模块对视频帧进行分块时,采用固定大小或不固定大小的矩形模板,以固定步长或者非固定步长进行移动,将视频帧分为重合或不重合的分块;
所述拼接模块在进行所述超分辨率结果的拼接时,对于重合部分,将两种超分辨率结果进行融合。
优选地,所述拼接模块将两种超分辨率结果进行融合时,取两种超分辨结果的均值。
有益效果:
(1)本方案通过引入更加细粒度的矩形分块,根据分块与感兴趣区域ROI的关联性确定分块的分值从而区分重要分块和非重要分块。细粒度的分块一方面能够增加细粒度调控,具有更多的灵活性;另一方面可以通过并行处理,加快视频帧处理速度。同时,该方案将分块与感兴趣区域相关联,对感兴趣区域更重的重要分块采用更好的超分辨率网络,而非重要分块采用小规模超分辨率网络,同样能够保证重要区域的超分辨率效果,同时还能够兼顾视频超分辨率处理速度。
(2)本发明采用分块中感兴趣区域的面积占或者分块距离感兴趣区域的距离作为分值,能有效表明分块与ROI的关联性,且方便计算。
(3)本发明还通过调整一些参量实现视频超分辨率的可伸缩性,便于根据实际情况进行更合适的控制。
附图说明
图1为本发明实施例一基于分块的视频超分辨率方法流程图。
图2为本发明实施例所使用的RESPCN的网络结构示意图。
图3为本发明阈值更新的示意图。
图4为本发明实施例重要性分值的取值方案示意图。
具体实施方式
本申请发现,视频超分辨率算法的计算开销较大、处理速度较慢,难以同时满足处理设备的低成本和低功耗、以及视频实时处理的需求。对于视频序列来说,感兴趣区域(ROI)为视频序列中重点关注的目标对象。因此,可以将视频帧划分为感兴趣区域和非感兴趣区域,针对感兴趣区域采用规模较大性能较好的超分辨率网络进行超分辨率,针对非感兴趣区域采用规模较小的轻量级超分辨率网络进行超分辨率;但是,只区分感兴趣区域和非感兴趣区域不够灵活。
因此,本发明提供了一种基于分块的视频超分辨率方案,其基本思想是将视频帧进行分块,将分块内容与感兴趣区域进行对比,获取分块与感兴趣区域ROI的关联性,基于该关联性计算分块的分值,关联性越高则分值越高;根据该分值区分重要分块和非重要分块,重要分块采用性能更好但规模较大的超分辨率网络进行处理,非重要分块采用轻量级超分辨率网络进行处理。相较于只区分感兴趣区域和非感兴趣区域,本方案通过引入更加细粒度的矩形分块,一方面增加细粒度调控,具有更多的灵活性和可伸缩性;另一方面可以通过并行处理,加快视频帧处理速度。同时,该方案同样能够保证重要区域的超分辨率效果,同时还能够兼顾视频超分辨率处理速度。
其中,所述分值的计算方式较为灵活,只要能反映分块与感兴趣区域ROI的关联性即可。本发明实施例中给出了两种参数,不仅能有效表明分块与ROI的关联性,且方便计算。这两种参数分别是:感兴趣区域面积占比以及分块重要性。其中,感兴趣区域面积占比是指分块中感兴趣区域面积与分块面积的比例,比例越高,关联性越高;分块重要性是指分块距离感兴趣区域中心距离,距离越近,关联性越高。这两种参数可以单独使用,或者联合使用,同时还可以加入其它参数组合使用。
下面结合附图并举实施例,对本发明进行详细描述。
实施例一:
本实施例采用感兴趣区域面积占比作为分值区分重要和非重要区域。
图1示出了本发明实施例一基于分块的视频超分辨率方法流程图,其包括如下步骤:
步骤1、提取视频帧的感兴趣区域。
目标提取可以采用基于背景建模的运动目标检测算法和基于目标建模的检测算法,如vibe、YOLO等都可以作为检测器通过本发明进行目标提取,也可以采用语义分割、实例分割方法进行目标提取。本发明的目标提取方法不局限于某一种固定算法,目标提取模块只需有效的提供视频帧中有效的感兴趣区域即可。
在本发明实施例中,为不失一般性,选取视频处理中最常见的视频监控场景为实施例。在实际的监控视频中,通常将常见的行人、人脸、车辆等作为感兴趣区域,在本实施例中以行人为感兴趣区域进行描述。在本实施例一中,采用目标检测算法作为目标提取阶段的目标提取方法。以YOLO为例,通过训练得到的YOLO网络提取视频帧中感兴趣区域,得到一个或多个感兴趣区域的回归框。在得到感兴趣区域回归框后,完整的视频帧即可划分为一个或多个感兴趣区域和剩余的非感兴趣区域。
步骤2、视频帧分块分块。
对视频帧进行分块时,采用矩形模板实现分块。矩形模板可以是固定大小的矩形,也可以是不固定大小的矩形。矩形优选为正方形。具体来说,对于同一幅视频帧可以采用固定大小的矩形进行分块,也可以采用不固定大小的矩形进行分块,例如对于一些视频帧,可能有些区域是已知的超分辨重点区域,可以采用更小的矩形进行分块,而其他区域采用较大矩形进行分块。对于不同视频帧来说,所有视频帧可以采用相同大小的矩形进行分块,也可以根据每帧的特点不同视频帧采用不同的矩形进行分块,例如有些时间段或者有些视频帧含有重要信息,则采用更小的矩形进行分块。矩形的大小也可以根据时间、感兴趣区域位置、感兴趣区域大小或者其他参量进行变化。
分块操作实际上是采用矩形模板进行移动实现的。移动时,可以以固定步长或者非固定步长进行移动。同理,对于同一幅视频帧,所有区域均可以采用相同步长进行移动,或者不同区域设置不同的移动步长。对于不同视频帧来说,可以所有视频帧采用相同的移动步长,也可以根据每帧的特点,不同视频帧采用不同的移动步长。通过矩形尺寸和移动步长的配合,可以得到重合或不重合的分块。
举两个例子:
例1:将视频帧按照m×n的矩形块进行分块,各矩形块间无相交即在m方向上移动的步长为m,在n方向上移动的步长为n,对于无法满足m×n的边缘块即保持剩余大小。边缘块可以看成是采用不同尺寸矩形划分得到的分块。
例2:将视频帧按照任意大小的矩形块进行分块,各矩形块间可相交亦可无相交。
上述步骤1和步骤2执行顺序部分先后,也可以并行处理。
步骤3、采用分块中所含感兴趣区域的面积占比区分重要分块和非重要分块。
本步骤中,针对每个分块,判断分块中感兴趣区域的面积占比与阈值的大小关系:如果大于阈值,则将分块确定为重要分块;如果小于阈值,则将分块确定为非重要分块;如果等于阈值,则将分块确定为重要分块或非重要分块均可。阈值越高,则判定更为精确,但是被判定也更为严格,则会有更少的分块被判定为重要分块,但是计算资源消耗也会更少一些,处理速度较快。使用者可以根据实际使用需求设置该阈值的大小。
对于同一幅视频帧,不同分块的阈值可以相同或不同;对于不同视频帧,所采用的阈值也可以相同或不同。阈值根据不同位置而设计,也可以设计为根据时间而变化。
此外,视频帧的阈值也可以根据前后视频帧的情况得到:如图3所示,若当前帧无感兴趣区域,则全局采用轻量化超分辨率网络,同时将参数初始化为初始值;若当前帧有感兴趣区域,需计算当前帧和上一帧的感兴趣区域的SSIM(结构相似性)值,比较得到的SSIM与既定SSIM阈值来更新调整相应的阈值。
对于上述例1:本步骤统计每个m×n的矩形块中感兴趣区域所占矩形块面积比是否大于既定阈值,假设该阈值为50%。则当分块中感兴趣区域所占矩形块面积比大于50%时,则将分块确定为重要分块。反之当分块中感兴趣区域所占矩形块面积比小于50%时,则将分块确定为非重要分块。当分块中感兴趣区域所占矩形块面积比等于50%时,将其确定为重要分块或非重要分块。
对于上述例2阈值的判定方式与例1相同。
步骤4、对重要分块和非重要分块采用不同超分辨网络进行处理。
本发明选用两种超分辨网络,分别称为第一超分辨率网络和第二超分辨率网络。第一超分辨率网络规模较大、超分辨率效果较好;第二超分辨网络较第一超分辨网络规模较小、超分辨率效果次之。本步骤对重要分块采用第一超分辨率网络进行超分辨率处理,对非重要分块采用第二超分辨率网络进行超分辨率处理。
超分辨率网络规模较大表征着计算资源消耗较大,但超分辨效果较好。超分辨效果可以采用PSNR(峰值信噪比)和SSIM(结构相似度)指标等进行衡量,或者根据使用者的需求进行衡量,并没有严格限制。
第一超分辨率网络和第二超分辨率网络不局限于某一种网络。二者之间可以无关,第二超分辨率网络也通过对第一超分辨率网络进行轻量级改写而成。
在本实施例一中,选取采用亚像素卷积上采样的ESPCN网络为基础网络设计基于ESPCN的残差ESPCN网络。为了表示方便,在本实施例中称之为RESPCN。RESPCN的网络结构如附图2所示,对于残差块的数量,可以根据不同视频场景需求以及不同设备的计算资源选定。在本实施例中,以3个残差块的RESPCN作为规模较大性能较好的超分辨率网络。针对RESPCN网络,通过MobileNet的轻量化改写与模型量化剪枝配合使用大幅降低参数量得到有效的规模较小的轻量级超分辨率网络RESPCN-m。在这里RESPCN-m相较于RESPCN网络的参数量下降至原来的十分之一,同时推理速度提升至原来的1.5倍或更多,但由于深度可分离卷积降低了通道间的联系,同时量化剪枝降低了模型参数的精度,导致了轻量化超分辨率网络RESPCN-m相较于RESPCN网络的性能下降较多。故在本实施例中进一步采用知识蒸馏的方案提升轻量化网络RESPCN-m的性能以保证在系统中非感兴趣区域超分辨率的效果。
知识蒸馏的主要思想是训练一个小的网络模型来模仿一个预先训练好的大型网络或者集成的网络。这种训练模式又被称为"teacher-student",大型的网络是“老师”,小型的网络是“学生”。在本实施例中,RESPCN即为“老师”网络,轻量化的RESPCN-m即为“学生”网络。以往的知识蒸馏常利用软目标或者利用中间特征做来进行知识的迁移,但神经网络的本质在于如何解决一个输入到输出的映射,故在本实施例中直接采用某层特征图与另外一层特征图之间的偏心协方差矩阵描述层与层之间关系,即通过优化“老师”网络与“学生”网络各自残差块的输入输出特征图的偏心协方差矩阵之间的损失达到知识蒸馏的目的。通过上述的“老师”网络的知识蒸馏迁移至与“学生”网络,即得到了具备“老师”网络的知识的RESPCN-m网络,为表示方便,我们称之为RESPCN-mkd。实验表明,RESPCN-mkd网络相较于原始的轻量化网络RESPCN-m网络在不改变参数的条件下,性能有了明显的提升,充分满足了对于非感兴趣区域的超分辨率需求。
步骤5、超分辨率结果拼接。
本步骤将重要分块和非重要分块得到的超分辨率结果进行拼接,得到完整视频帧的超分辨率结果。对于分块时出现重合的区域,在进行所述超分辨率结果的拼接时,将两种超分辨率结果进行融合。融合时,可以取两种超分辨结果的均值,或者进行加权计算,或者采用其他融合方案。
至此本流程结束。
实施例二
本实施例采用感兴趣区域占比和分块重要性联合确定分值,从而区分重要和非重要区域。感兴趣区域占比和分块重要性相加,或者计算加权和,作为分块分值,将分值与阈值进行对比,从而区分重要分块还是非重要分块。这里采用阈值实现的区分,其方式均与实施例一相同,这里不赘述。且本实施例除了步骤3判定重要分块和非重要分块的步骤不同,其他步骤均与实施例一相同。
本实施例在步骤3中,区分重要和非重要分块的具体实现过程为:
首先,所述分值主要由两个方面得到,一个是重要性分值,一个是面积占比分值。重要性分值沿ROI中心点向边缘均匀递减,面积比分值由矩形分块中ROI区域占矩形分块的面积比得到,最终的分值由这两部分调和得到,例如求取二者加权和。其中重要性分值沿ROI中心点向边缘均匀递减。具体来说可以是,参见图4,过ROI中心点做水平线和垂直线,这两条线上分块的重要性分值沿ROI中心点向边缘均匀递减,为了与面积占比分值等量级,也采用百分比表示,对于未出现在这两条线上的分块,例如分块A,取与该分块横向相连和纵向相邻且靠近ROI中心点的分块,共两个,这两个分块的重要性分值均值作为该分块A的重要性分值。面积占比分值由矩形分块中ROI区域占矩形分块的面积比得到。
实施例三
与实施例一和实施例二相比,本实施例三进一步包括可伸缩性的实现方案。可伸缩方案可以增加对本方案的细粒度调控,使得本方案更具有灵活性。
本发明可以通过调整分块的大小和/或调整用于区分重要分块和非重要分块的阈值实现视频超分辨率的可伸缩性。
对于调整分块大小的方式:分块越小,重要分块的区分更为精细。
对于调整阈值的方式:阈值越大,称为重要分块的判定更为严格,那么只有关联性较大的分块才能采用大规模算法。
以固定大小无相交的矩形分块形式且采用面积占比计算分值为例。根据大量的实验结果分析可得,随着感兴趣区域所占矩形块面积比的阈值不断增大,各矩形分块的计算资源消耗总和在不断减小且伴随着视频帧超分辨率性能的不断下降,当阈值增大至100%时,各矩形分块的计算资源消耗总和达到最小且视频帧超分辨率性能达到最低;反之,随着感兴趣区域所占矩形块面积比的阈值不断减小,各矩形分块的计算资源消耗总和在不断增大且伴随着视频帧超分辨率性能的不断上升,当阈值减小至0%时,各矩形分块的计算资源消耗总和达到最大且视频帧超分辨率性能达到最高。通过实验表明,可以通过调节感兴趣区域所占矩形块面积比的阈值来调节视频帧超分辨率的性能,即实现可伸缩性。
为了实现上述方案,本发明还提供了一种基于分块的视频超分辨率系统,如图3所示,其包括目标提取模块、分块模块、区分模块、超分辨模块、拼接模块和伸缩控制模块;
目标提取模块,用于提取视频帧的感兴趣区域;
分块模块,用于对视频帧进行分块;其中,本分块模块对视频帧进行分块时,采用固定大小或不固定大小的矩形模板,以固定步长或者非固定步长进行移动,将视频帧分为重合或不重合的分块。
区分模块,用于基于分块与感兴趣区域ROI的关联性确定分块的分值,将分块的分值与阈值进行对比,区分重要分块和非重要分块。
区分模块包括分值计算子模块和比较子模块;
分值计算子模块,用于基于分块与感兴趣区域的关联性确定分块的分值。该分块的分值包括面积占比分值和/或重要性分值。所述面积占比分值的计算方式为:计算分块中感兴趣区域的面积占比,面积占比越大,面积占比分值越大;所述重要性分值的计算方式为:计算分块与感兴趣区域中心的距离,距离越小,重要性分值越大;对于分块的分值包括面积占比分值和重要性分值的情况,进一步汇总面积占比分值和重要性分值从而得到所述分块的分值。
比较子模块,用于将分值高于设定阈值的分块确定为重要分块,分值低于设定阈值的分块确定为非重要分块;分值等于设定阈值的分块确定为重要分块或非重要分块。对于同一幅视频帧,不同分块的阈值可以相同或不同;对于不同视频帧,所采用的阈值可以相同或不同。
超分辨模块,用于对重要分块采用第一超分辨率网络进行超分辨率处理,对所述非重要分块采用第二超分辨率网络进行超分辨率处理,将超分辨率结果发送给拼接模块;所述第一超分辨率网络规模较大、超分辨率效果较好,所述第二超分辨网络较第一超分辨网络规模较小、超分辨率效果次之;
拼接模块,用于将重要分块和非重要分块得到的超分辨率结果进行拼接,得到完整视频帧的超分辨率结果。对于分块的重合部分,将两种超分辨率结果进行融合。融合方案可以取两种超分辨结果的均值或其他融合方案。
伸缩控制模块,通过调整分块的大小和/或调整用于区分重要分块和非重要分块的阈值实现视频超分辨率的可伸缩性。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种基于分块的视频超分辨率方法,其特征在于,包括:
提取视频帧的感兴趣区域;
对视频帧进行分块,基于分块与感兴趣区域的关联性确定分块的分值,将分块的分值与阈值进行对比,区分重要分块和非重要分块;所述分块的分值包括面积占比分值和/或重要性分值;所述面积占比分值的计算方式为:计算分块中感兴趣区域的面积占比,面积占比越大,面积占比分值越大;所述重要性分值的计算方式为:计算分块与感兴趣区域中心的距离,距离越小,重要性分值越大;对于分块的分值包括面积占比分值和重要性分值的情况,进一步汇总面积占比分值和重要性分值从而得到所述分块的分值;
对重要分块采用第一超分辨率网络进行超分辨率处理,对非重要分块采用第二超分辨率网络进行超分辨率处理;所述第一超分辨率网络规模较大、超分辨率效果较好,所述第二超分辨网络较第一超分辨网络规模较小、超分辨率效果次之;
将重要分块和非重要分块得到的超分辨率结果进行拼接,得到完整视频帧的超分辨率结果。
2.如权利要求1所述的视频超分辨率方法,其特征在于,通过调整分块的大小和/或调整用于区分重要分块和非重要分块的阈值实现视频超分辨率的可伸缩性。
3.如权利要求1所述的视频超分辨率方法,其特征在于,所述将分块的分值与阈值进行对比,区分重要分块和非重要分块为:将分值高于设定阈值的分块确定为重要分块,分值低于设定阈值的分块确定为非重要分块;分值等于设定阈值的分块确定为重要分块或非重要分块。
4.如权利要求1所述的视频超分辨率方法,其特征在于,对于同一幅视频帧,不同分块的阈值可以相同或不同;对于不同视频帧,所采用的阈值也可以相同或不同。
5.如权利要求1所述的视频超分辨率方法,其特征在于,所述对视频帧进行分块时,对于同一幅视频帧或不同视频帧均可以采用固定大小或不固定大小的矩形模板,以固定步长或者非固定步长进行移动,将视频帧分为重合或不重合的分块;
在进行所述超分辨率结果的拼接时,对于重合部分,将两种超分辨率结果进行融合。
6.如权利要求5所述的视频超分辨率方法,其特征在于,将两种超分辨率结果进行融合为:取两种超分辨结果的均值。
7.如权利要求1所述的视频超分辨率方法,其特征在于,所述提取视频帧的感兴趣区域采用基于背景建模的运动目标检测算法、基于目标建模的检测算法、基于语义分割的目标提取方法、基于实例分割的目标提取方法中的一种或几种组合。
8.一种基于分块的视频超分辨率系统,其特征在于,包括目标提取模块、分块模块、区分模块、超分辨模块和拼接模块;
所述目标提取模块,用于提取视频帧的感兴趣区域;
所述分块模块,用于对视频帧进行分块;
所述区分模块,用于基于分块与感兴趣区域的关联性确定分块的分值,将分块的分值与阈值进行对比,区分重要分块和非重要分块;所述分块的分值包括面积占比分值和/或重要性分值;所述面积占比分值的计算方式为:计算分块中感兴趣区域的面积占比,面积占比越大,面积占比分值越大;所述重要性分值的计算方式为:计算分块与感兴趣区域中心的距离,距离越小,重要性分值越大;对于分块的分值包括面积占比分值和重要性分值的情况,进一步汇总面积占比分值和重要性分值从而得到所述分块的分值;
所述超分辨模块,用于对重要分块采用第一超分辨率网络进行超分辨率处理,对所述非重要分块采用第二超分辨率网络进行超分辨率处理,将超分辨率结果发送给拼接模块;所述第一超分辨率网络规模较大、超分辨率效果较好,所述第二超分辨网络较第一超分辨网络规模较小、超分辨率效果次之;
所述拼接模块,用于将重要分块和非重要分块得到的超分辨率结果进行拼接,得到完整视频帧的超分辨率结果。
9.如权利要求8所述的系统,其特征在于,该系统进一步包括伸缩控制模块,通过调整分块的大小和/或调整用于区分重要分块和非重要分块的阈值实现视频超分辨率的可伸缩性。
10.如权利要求8所述的系统,其特征在于,所述区分模块包括分值计算子模块和比较子模块;
所述分值计算子模块,用于基于分块与感兴趣区域的关联性确定分块的分值;
所述比较子模块,用于将分值高于设定阈值的分块确定为重要分块,分值低于设定阈值的分块确定为非重要分块;分值等于设定阈值的分块确定为重要分块或非重要分块。
11.如权利要求8所述的系统,其特征在于,对于同一幅视频帧,不同分块的阈值可以相同或不同;对于不同视频帧,所采用的阈值可以相同或不同。
12.如权利要求8所述的系统,其特征在于,所述分块模块对视频帧进行分块时,采用固定大小或不固定大小的矩形模板,以固定步长或者非固定步长进行移动,将视频帧分为重合或不重合的分块;
所述拼接模块在进行所述超分辨率结果的拼接时,对于重合部分,将两种超分辨率结果进行融合。
13.如权利要求12所述的系统,其特征在于,所述拼接模块将两种超分辨率结果进行融合时,取两种超分辨结果的均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094207.5A CN111402126B (zh) | 2020-02-15 | 2020-02-15 | 一种基于分块的视频超分辨率方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094207.5A CN111402126B (zh) | 2020-02-15 | 2020-02-15 | 一种基于分块的视频超分辨率方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402126A CN111402126A (zh) | 2020-07-10 |
CN111402126B true CN111402126B (zh) | 2023-12-22 |
Family
ID=71413313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010094207.5A Active CN111402126B (zh) | 2020-02-15 | 2020-02-15 | 一种基于分块的视频超分辨率方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402126B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257612B (zh) * | 2020-10-23 | 2023-06-02 | 华侨大学 | 一种基于边缘智能的无人机视频帧过滤方法及装置 |
CN112950465A (zh) * | 2021-01-26 | 2021-06-11 | 北京小米移动软件有限公司 | 视频超分处理方法、视频超分处理装置及存储介质 |
CN113347421B (zh) * | 2021-06-02 | 2023-07-14 | 黑芝麻智能科技(上海)有限公司 | 视频编码和解码方法、装置和计算机设备 |
WO2022261849A1 (en) * | 2021-06-16 | 2022-12-22 | Intel Corporation | Method and system of automatic content-dependent image processing algorithm selection |
CN115580738B (zh) * | 2022-02-23 | 2023-09-19 | 北京拙河科技有限公司 | 一种按需传输的高分辨率视频展现方法、设备和系统 |
CN115601242B (zh) * | 2022-12-13 | 2023-04-18 | 电子科技大学 | 一种适用于硬件部署的轻量级图像超分辨率重建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015015195A1 (en) * | 2013-07-31 | 2015-02-05 | Mbda Uk Limited | Image processing |
CN108681994A (zh) * | 2018-05-11 | 2018-10-19 | 京东方科技集团股份有限公司 | 一种图像处理方法、装置、电子设备及可读存储介质 |
CN109118431A (zh) * | 2018-09-05 | 2019-01-01 | 武汉大学 | 一种基于多记忆及混合损失的视频超分辨率重建方法 |
CN109741256A (zh) * | 2018-12-13 | 2019-05-10 | 西安电子科技大学 | 基于稀疏表示和深度学习的图像超分辨率重建方法 |
CN110033410A (zh) * | 2019-03-28 | 2019-07-19 | 华中科技大学 | 图像重建模型训练方法、图像超分辨率重建方法及装置 |
-
2020
- 2020-02-15 CN CN202010094207.5A patent/CN111402126B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015015195A1 (en) * | 2013-07-31 | 2015-02-05 | Mbda Uk Limited | Image processing |
CN108681994A (zh) * | 2018-05-11 | 2018-10-19 | 京东方科技集团股份有限公司 | 一种图像处理方法、装置、电子设备及可读存储介质 |
CN109118431A (zh) * | 2018-09-05 | 2019-01-01 | 武汉大学 | 一种基于多记忆及混合损失的视频超分辨率重建方法 |
CN109741256A (zh) * | 2018-12-13 | 2019-05-10 | 西安电子科技大学 | 基于稀疏表示和深度学习的图像超分辨率重建方法 |
CN110033410A (zh) * | 2019-03-28 | 2019-07-19 | 华中科技大学 | 图像重建模型训练方法、图像超分辨率重建方法及装置 |
Non-Patent Citations (2)
Title |
---|
Deep recurrent resnet for video super-resolution;Bee Lim等;2017 APSIPA ASC;全文 * |
采用双网络结构的压缩视频超分辨率重建;周航;何小海;王正勇;熊淑华;Karn Pradeep;;电讯技术(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111402126A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402126B (zh) | 一种基于分块的视频超分辨率方法和系统 | |
CN110111335B (zh) | 一种自适应对抗学习的城市交通场景语义分割方法及系统 | |
Wu et al. | Liteeval: A coarse-to-fine framework for resource efficient video recognition | |
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN106897714B (zh) | 一种基于卷积神经网络的视频动作检测方法 | |
CN106296728B (zh) | 一种基于全卷积网络的非限制场景中运动目标快速分割方法 | |
Li et al. | Approaches on crowd counting and density estimation: a review | |
CN110909594A (zh) | 一种基于深度融合的视频显著性检测方法 | |
CN109919044A (zh) | 基于预测进行特征传播的视频语义分割方法及装置 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN111723693A (zh) | 一种基于小样本学习的人群计数方法 | |
CN111832453B (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
Zhang et al. | Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN112766411B (zh) | 一种自适应区域精修的目标检测知识蒸馏方法 | |
CN113569882A (zh) | 一种基于知识蒸馏的快速行人检测方法 | |
CN115512251A (zh) | 基于双分支渐进式特征增强的无人机低照度目标跟踪方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN110889360A (zh) | 一种基于切换卷积网络的人群计数方法及系统 | |
Shi | Object detection models and research directions | |
CN116434159A (zh) | 一种基于改进YOLO V7和Deep-Sort的交通流量统计方法 | |
CN110222772B (zh) | 一种基于块级别主动学习的医疗图像标注推荐方法 | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
CN114758285B (zh) | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |