CN114071167B - 视频增强方法、装置、解码方法、解码器及电子设备 - Google Patents
视频增强方法、装置、解码方法、解码器及电子设备 Download PDFInfo
- Publication number
- CN114071167B CN114071167B CN202210035811.XA CN202210035811A CN114071167B CN 114071167 B CN114071167 B CN 114071167B CN 202210035811 A CN202210035811 A CN 202210035811A CN 114071167 B CN114071167 B CN 114071167B
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- scale
- enhanced
- adjacent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000004927 fusion Effects 0.000 claims abstract description 175
- 230000003287 optical effect Effects 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 58
- 230000002776 aggregation Effects 0.000 claims abstract description 35
- 238000004220 aggregation Methods 0.000 claims abstract description 35
- 238000010586 diagram Methods 0.000 claims description 106
- 238000007499 fusion processing Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 abstract description 12
- 230000000875 corresponding effect Effects 0.000 description 220
- 230000000750 progressive effect Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/38—Registration of image sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
Abstract
本发明公开了视频增强方法、装置、解码方法、解码器及电子设备,首先对视频序列中的第一图像及与第一图像相邻的第二图像进行非局部预融合处理,得到第一图像对应的预融合图像。其次根据第一图像和相邻的第二图像确定光流信息,根据光流信息、预融合图像和相邻的第二图像对应的预增强图像,确定第一图像对应的对齐帧特征图,对对齐帧特征图和预融合图像进行卷积融合,得到第一图像对应的预增强图像。最后将预融合图像和预增强图像进行信息聚合处理,得到第一图像对应的增强帧图像。本从不同维度对第一图像进行逐步增强,降低一步式增强任务难度,对于大运动及运动复杂的场景适应性较好,能够得到准确的视频增强结果。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及视频增强方法、装置、解码方法、解码器及电子设备。
背景技术
近几年,互联网的视频流越来越流行,其对高质量和高分辨率视频的期望和需求也日益增长。实际上,数字视频的数据量极大,对存储空间要求高,同时不便于在带宽有限的网络中传输。通常,视频数据之间存在很高的相关性,即冗余信息。为突破存储空间和传输带宽的限制,视频压缩技术被提出并得到快速发展。该技术的核心在于通过移除视频数据中的冗余信息,提炼出紧凑的视频数据表示来达到数据压缩的目的,从而减少比特率,便于高质量和高分辨率视频的存储和传输。然而,视频在压缩过程中将不可避免地发生失真,如块效应、振铃效应和画质模糊等,严重影响用户的主观体验。因此,在视频压缩的解码端,需要对压缩后的视频进行视频增强,以改善视频质量。具体的,在解码端内置一个针对有损压缩视频的质量增强模块,对低质量的压缩视频进行后处理,提高其客观和感知质量。
和图像增强任务相比,视频增强任务的挑战在于,如何有效利用帧间的时序信息指导当前帧的信息重构。根据帧间信息利用方式的不同(是否进行帧对齐),现有压缩视频增强方法可分为对齐方法和非对齐方法。这里,帧对齐(inter-frame alignment)技术指的是,基于运动信息,将参考帧中对应于当前帧的像素扭曲回当前帧中的对应位置,有助于改善当前帧细节模糊、质量较差的问题。非对齐方法没有对视频帧进行直接或间接的对齐,而是利用3D卷积、循环卷积或非局部网络等方法捕捉帧间的时空域相关性。大多数该类非对齐方法的计算复杂度很高,训练难度大,限制了其实用性。对齐的增强方法主要是基于提取的运动信息,将前后帧对齐到当前帧,减少帧间偏差,以提高恢复后视频的时域连贯性。
相关技术中,一般是直接由卷积层从当前帧和参考帧的级联结果中学习得到偏置,进而根据偏置实现视频增强。然而,直接由卷积层从当前帧和参考帧的级联结果中学习得到偏置的难度很大,尤其对于大运动及运动复杂的场景适应性较差,无法得到准确的视频增强结果。
发明内容
本发明实施例提供了视频增强方法、装置、解码方法、解码器及电子设备,用以解决现有技术视频增强的方案难度较大,对于大运动及运动复杂的场景适应性较差,无法得到准确的视频增强结果的问题。
本发明实施例提供了一种视频增强方法,所述方法包括:
获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;
根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;
将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
进一步地,所述对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像包括:
对所述第一图像进行特征提取,得到对应的第一特征图;对所述第二图像进行特征提取,得到对应的第二特征图;
对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值;
将所述第二特征图和对应的权重值进行矩阵相乘,得到第三特征图;
将所述第三特征图与所述第一特征图进行叠加处理,得到所述第一图像对应的预融合图像。
进一步地,所述对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值包括:
按照相同的区域划分规则,分别将所述第一特征图和第二特征图划分为多个区域;对所述第一特征图和第二特征图中对应位置的区域进行矩阵相乘,得到所述对应位置的区域的相似度;
对所述对应位置的区域的相似度进行归一化处理,得到所述第二特征图中所述对应位置的区域的权重值。
进一步地,若与所述第一图像相邻的第二图像分别包括与所述第一图像前向相邻的第二图像和与所述第一图像后向相邻的第二图像,所述方法还包括:
将得到所述第一图像对应的每个预融合图像分别作为候选预融合图像;
对每个候选预融合图像进行通道维度拼接,对拼接结果进行卷积处理;
将所述卷积处理结果与所述第一图像进行叠加处理,得到所述第一图像对应的预融合图像。
进一步地,所述根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图包括:
分别对所述预融合图像和所述相邻的第二图像对应的预增强图像进行至少一次尺度变换;
按照尺度由小到大的顺序,根据当前尺度的光流信息、预融合图像和相邻的第二图像对应的预增强图像,将当前尺度的相邻的第二图像对齐到当前尺度的第一图像,得到当前尺度的对齐帧特征图;
将所述当前尺度的对齐帧特征图进行上采样,并将上采样结果与尺度相匹配的预融合图像进行卷积融合;根据卷积融合结果和与所述卷积融合结果尺度相匹配的光流信息、尺度相匹配的相邻的第二图像对应的预增强图像,进行图像对齐,直至获得最大尺度的对齐帧特征图。
进一步地,所述根据当前尺度的光流信息、预融合图像和相邻的第二图像对应的预增强图像,将当前尺度的相邻的第二图像对齐到当前尺度的第一图像,得到当前尺度的对齐帧特征图包括:
将当前尺度的预融合图像和当前尺度的相邻的第二图像对应的预增强图像输入第一卷积网络,得到注意力权重;
将所述当前尺度的光流信息输入第二卷积网络,得到偏置信息;
将所述注意力权重、偏置信息和所述当前尺度的相邻的第二图像对应的预增强图像输入可变形卷积网络,基于所述可变形卷积网络将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的对齐帧特征图。
进一步地,所述将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像包括:
将所述预融合图像和所述预增强图像进行通道维度拼接,将拼接结果依次输入平均池化层、卷积层和softmax层,得到每个特征通道的注意力权重;
将所述拼接结果与所述每个特征通道的注意力权重进行相乘,将相乘结果进行卷积融合,得到所述第一图像对应的增强帧图像。
另一方面,本发明实施例提供了一种视频增强装置,所述装置包括:
非局部预融合处理单元,用于获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;
预增强单元,用于根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;
信息聚合处理单元,用于将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
非局部预融合处理单元,具体用于对所述第一图像进行特征提取,得到对应的第一特征图;对所述第二图像进行特征提取,得到对应的第二特征图;对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值;将所述第二特征图和对应的权重值进行矩阵相乘,得到第三特征图;将所述第三特征图与所述第一特征图进行叠加处理,得到所述第一图像对应的预融合图像。
非局部预融合处理单元,具体用于按照相同的区域划分规则,分别将所述第一特征图和第二特征图划分为多个区域;对所述第一特征图和第二特征图中对应位置的区域进行矩阵相乘,得到所述对应位置的区域的相似度;对所述对应位置的区域的相似度进行归一化处理,得到所述第二特征图中所述对应位置的区域的权重值。
非局部预融合处理单元,还用于将得到所述第一图像对应的每个预融合图像分别作为候选预融合图像;对每个候选预融合图像进行通道维度拼接,对拼接结果进行卷积处理;将所述卷积处理结果与所述第一图像进行叠加处理,得到所述第一图像对应的预融合图像。
预增强单元,具体用于分别对所述预融合图像和所述相邻的第二图像对应的预增强图像进行至少一次尺度变换;按照尺度由小到大的顺序,根据当前尺度的光流信息、预融合图像和相邻的第二图像对应的预增强图像,将当前尺度的相邻的第二图像对齐到当前尺度的第一图像,得到当前尺度的对齐帧特征图;将所述当前尺度的对齐帧特征图进行上采样,并将上采样结果与尺度相匹配的预融合图像进行卷积融合;根据卷积融合结果和与所述卷积融合结果尺度相匹配的光流信息、尺度相匹配的相邻的第二图像对应的预增强图像,进行图像对齐,直至获得最大尺度的对齐帧特征图。
预增强单元,具体用于将当前尺度的预融合图像和当前尺度的相邻的第二图像对应的预增强图像输入第一卷积网络,得到注意力权重;将所述当前尺度的光流信息输入第二卷积网络,得到偏置信息;将所述注意力权重、偏置信息和所述当前尺度的相邻的第二图像对应的预增强图像输入可变形卷积网络,基于所述可变形卷积网络将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的对齐帧特征图。
信息聚合处理单元,具体用于将所述预融合图像和所述预增强图像进行通道维度拼接,将拼接结果依次输入平均池化层、卷积层和softmax层,得到每个特征通道的注意力权重;将所述拼接结果与所述每个特征通道的注意力权重进行相乘,将相乘结果进行卷积融合,得到所述第一图像对应的增强帧图像。
另一方面,本发明实施例提供了一种解码方法,所述方法包括:
获取待解码的视频序列;
对所述待解码的视频序列进行解码,获得所述待解码的视频序列对应的解码视频序列;其中,在所述解码过程中利用上述任一项所述的视频增强方法,确定所述待解码的视频序列中的每帧第一图像对应的增强帧图像。
另一方面,本发明实施例提供了一种解码器,所述解码器包括:
获取单元,用于获取待解码的视频序列;
解码单元,用于对所述待解码的视频序列进行解码,获得所述待解码的视频序列对应的解码视频序列。
另一方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法步骤。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。
本发明实施例提供了视频增强方法、装置、解码方法、解码器及电子设备,所述方法包括:获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
上述的技术方案具有如下优点或有益效果:
由于在本发明实施例中,在将相邻的第二图像对齐到所述第一图像之前,首先对视频序列中的第一图像及与第一图像相邻的第二图像进行非局部预融合处理,得到第一图像对应的预融合图像。其次根据第一图像和相邻的第二图像确定光流信息,根据光流信息、预融合图像和相邻的第二图像对应的预增强图像,确定第一图像对应的对齐帧特征图,对对齐帧特征图和预融合图像进行卷积融合,得到第一图像对应的预增强图像。最后将预融合图像和预增强图像进行信息聚合处理,得到第一图像对应的增强帧图像。本发明实施例通过从不同维度对第一图像进行逐步增强,从易到难,层层递进,降低一步式增强任务难度,以找到最优的结果,对于大运动及运动复杂的场景适应性较好,能够得到准确的视频增强结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的视频增强过程示意图;
图2为本发明实施例提供的视频增强框架图;
图3为本发明实施例提供的多帧的非局部预融合过程示意图;
图4为本发明实施例提供的非局部操作过程示意图;
图5为本发明实施例提供的非局部操作示例图;
图6为本发明实施例提供的渐进式变形对齐网络结构图;
图7为本发明实施例提供的光流指导变形对齐和增强过程示意图;
图8为本发明实施例提供的信息聚合处理过程示意图;
图9为本发明实施例提供的视频增强装置结构示意图;
图10为本发明实施例提供的解码过程示意图;
图11为本发明实施例提供的解码器结构示意图;
图12为本发明实施例提供的电子设备结构示意图。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
和图像增强任务相比,视频增强任务的挑战在于,如何有效利用帧间的时序信息指导当前帧的信息重构。根据帧间信息利用方式的不同(是否进行帧对齐),现有压缩视频增强方法可分为对齐方法和非对齐方法。这里,帧对齐(inter-frame alignment)技术指的是,基于运动信息,将参考帧中对应于当前帧的像素扭曲回当前帧中的对应位置,有助于改善当前帧细节模糊、质量较差的问题。非对齐方法没有对视频帧进行直接或间接的对齐,而是利用3D卷积、循环卷积或非局部网络等方法捕捉帧间的时空域相关性。大多数该类非对齐方法的计算复杂度很高,训练难度大,限制了其实用性。对齐的增强方法主要是基于提取的运动信息,将前后帧对齐到当前帧,减少帧间偏差,以提高恢复后视频的时域连贯性。对齐方法可分为显式对齐和隐式对齐两类。
显式对齐也称为基于运动估计和补偿的对齐,该方法首先根据两帧相关性和变化计算出帧间的运动信息,然后利用该信息对参考帧进行warp操作,将其对齐到当前帧。其中的运动估计通常采用光流法来实现,即利用光流估计网络估计出光流信息,用以表征运动信息。
隐式的对齐方法,即利用可变形卷积来实现帧间对齐。该方法首先将多个卷积层应用到级联后的多帧上,以自适应获取邻帧的运动信息,并以此作为可变形卷积中每个感受野的偏移值,然后对邻帧进行卷积得到对齐帧。和显式对齐方法相比,可变形对齐方法获取的偏移值丰富,同时卷积的局部运算特性使得该方法能够考虑更多的位置信息,可弥补显式对齐中因光流估计可能不精确导致对齐结果不准确的不足。
对于视频增强类任务来说,当前帧不同层次的特征及参考帧信息的利用对当前帧增强效果具有重要影响。不同的纵向跨阶段和横向时序连接方式会影响到信息的传播和有效复用,进而对恢复当前帧的指导程度不同。因此,除了对齐技术外,多数增强技术也采用不同的特征传播和聚合策略,如单向、双向传播和网格传播等传播方式,及加性融合、乘法融合和加权融合等聚合方式,以充分利用参考信息,引导当前帧的信息增强。
本发明实施例提出了一种光流指导变形对齐的渐进式视频增强方法。首先在时域对齐之前进行非局部预融合处理,进行预增强,接着对齐网络的总体框架呈金字塔式,通过从小尺度特征到大尺度特征逐渐对齐和增强视频帧,得到预增强图像,最后设计基于注意力机制的信息聚合处理实现进一步的增强。通过将增强任务分解成多步式,降低一步式增强任务的难度,提高方案对大运动和运动复杂的实际场景的适应性。
在本发明实施例中,采用现存技术中的循环神经网络来处理视频序列,即不同视频帧的增强网络是共享参数的,同时当前帧的增强结果会依赖于邻帧的状态。本发明实施例的增强网络主要包含光流估计、特征提取、非局部特征预融合、时域对齐与增强、信息聚合等五部分。其中,光流估计使用现存技术的SPyNet网络来实现。下面对本发明实施例提供的视频增强进行详细说明。
实施例1:
图1为本发明实施例提供的视频增强过程示意图,该过程包括以下步骤:
S101:获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像。
S102:根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像。
S103:将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
本发明实施例提供的视频增强方法应用于电子设备,该电子设备可以是PC、平板电脑等设备。
本发明实施例中,电子设备获取到待增强的视频序列之后,将当前处理的图像作为第一图像,将与第一图像相邻的图像作为第二图像。首先,针对视频序列中的每帧第一图像,对第一图像及与第一图像相邻的第二图像进行非局部预融合处理,得到第一图像对应的预融合图像。
需要说明的是,如果与第一图像相邻的第二图像分别包括与第一图像前向相邻的第二图像和与第一图像后向相邻的第二图像。那么分别对第一图像及与第一图像相邻的两个第二图像进行非局部预融合处理,得到第一图像对应的两个预融合图像。此时可以将第一图像对应的两个预融合图像先作为候选预融合图像,然后对两个候选预融合图像进行融合,得到第一图像对应的预融合图像。其中,在对两个候选预融合图像进行融合,得到第一图像对应的预融合图像时,可以根据两个候选预融合图像的质量参数选择其中一个候选预融合图像作为预融合图像。例如选择质量较好的候选预融合图像作为预融合图像。较佳的,可以对两个候选预融合图像进行通道维度拼接,对拼接结果进行卷积处理实现对两个候选预融合图像进行融合,得到第一图像对应的预融合图像。
电子设备基于第一图像和相邻的第二图像可以确定出第一图像对应的光流信息。其中,可以通过现有的光流算法确定第一图像对应的光流信息,在此不对确定第一图像对应的光流信息的过程进行赘述。电子设备根据光流信息、预融合图像和相邻的第二图像对应的预增强图像,将相邻的第二图像对齐到第一图像,得到第一图像对应的对齐帧特征图。根据对齐帧特征图和预融合图像确定第一图像对应的预增强图像。其中,对对齐帧特征图和预融合图像进行卷积融合,得到第一图像对应的预增强图像,对对齐帧特征图和预融合图像进行卷积融合可以是将对齐帧特征图和预融合图像输入1×1卷积层进行融合,得到预增强图像。最后,将预融合图像和预增强图像进行信息聚合处理,得到第一图像对应的增强帧图像。
由于在本发明实施例中,在将相邻的第二图像对齐到所述第一图像之前,首先对视频序列中的第一图像及与第一图像相邻的第二图像进行非局部预融合处理,得到第一图像对应的预融合图像。其次根据第一图像和相邻的第二图像确定光流信息,根据光流信息、预融合图像和相邻的第二图像对应的预增强图像,确定第一图像对应的对齐帧特征图,对对齐帧特征图和预融合图像进行卷积融合,得到第一图像对应的预增强图像。最后将预融合图像和预增强图像进行信息聚合处理,得到第一图像对应的增强帧图像。本发明实施例通过从不同维度对第一图像进行逐步增强,从易到难,层层递进,降低一步式增强任务难度,以找到最优的结果,对于大运动及运动复杂的场景适应性较好,能够得到准确的视频增强结果。
实施例2:
为了使确定第一图像对应的预融合图像更准确,在上述实施例的基础上,在本发明实施例中,所述对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像包括:
对所述第一图像进行特征提取,得到对应的第一特征图;对所述第二图像进行特征提取,得到对应的第二特征图;
对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值;
将所述第二特征图和对应的权重值进行矩阵相乘,得到第三特征图;
将所述第三特征图与所述第一特征图进行叠加处理,得到所述第一图像对应的预融合图像。
本发明实施例中,首先对第一图像进行特征提取,得到对应的第一特征图;对第二图像进行特征提取,得到对应的第二特征图。其中,可以是通过卷积处理实现对第一图像进行特征提取,以及对第二图像进行特征提取。
然后对第一特征图和第二特征图进行矩阵相乘,得到第一特征图和第二特征图的相似度;对相似度进行归一化处理,得到第二特征图对应的权重值。其中,对相似度进行归一化处理可以是将相似度输入softmax层进行归一化,softmax层输出值为第二特征图的权重值。将第二特征图和对应的权重值进行矩阵相乘,得到第三特征图。最后将第三特征图与第一特征图进行叠加处理,得到第一图像对应的预融合图像。将第三特征图与第一特征图进行叠加处理也就是将第三特征图与第一特征图对应位置的像素值相加,得到第一图像对应的预融合图像。
需要说明的是,非局部操作会将每个像素与邻帧内的所有像素计算相关性,对于空间size较大的特征图来说,这无疑会增强计算量。同时考虑到,通常一个区域范围内的相关性更大。因此,可将特征图划分成多个区域,在实际操作时,当前帧的每个像素只需要和邻帧中当前像素位置对应区域范围内的像素计算相关性。因此,非局部计算将变成局部区域内的非局部计算,在利用邻域相关性的同时,减少计算量。
基于上述考虑,本发明实施例中,所述对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值包括:
按照相同的区域划分规则,分别将所述第一特征图和第二特征图划分为多个区域;对所述第一特征图和第二特征图中对应位置的区域进行矩阵相乘,得到所述对应位置的区域的相似度;
对所述对应位置的区域的相似度进行归一化处理,得到所述第二特征图中所述对应位置的区域的权重值。
本发明实施例中,分别将第一特征图和第二特征图划分为多个区域,需要说明的是,可以将第一特征图和第二特征图平均划分为多个规则的区域,也可以将第一特征图和第二特征图划分为多个不规则的区域,但是需要保证按照相同的区域划分规则,对第一特征图和第二特征图进行区域划分。这是为了保证划分后能够得到第一特征图和第二特征图中对应位置的区域。
对第一特征图和第二特征图中对应位置的区域进行矩阵相乘,得到对应位置的区域的相似度;对应位置的区域的相似度进行归一化处理,得到第二特征图中对应位置的区域的权重值。对应位置的区域的相似度进行归一化处理可以是将对应位置的区域的相似度输入softmax层进行归一化,softmax层输出值为第二特征图中对应位置的区域的权重值。
本发明实施例中,若与第一图像相邻的第二图像分别包括与第一图像前向相邻的第二图像和与第一图像后向相邻的第二图像,为了使得到的第一图像对应的预融合图像更准确,所述方法还包括:
将得到所述第一图像对应的每个预融合图像分别作为候选预融合图像;
对每个候选预融合图像进行通道维度拼接,对拼接结果进行卷积处理;
将所述卷积处理结果与所述第一图像进行叠加处理,得到所述第一图像对应的预融合图像。
如果与第一图像相邻的第二图像分别包括与第一图像前向相邻的第二图像和与第一图像后向相邻的第二图像。那么分别对第一图像及与第一图像相邻的两个第二图像进行非局部预融合处理,得到第一图像对应的两个预融合图像。此时可以将第一图像对应的两个预融合图像先作为候选预融合图像,然后对两个候选预融合图像进行融合,得到第一图像对应的预融合图像。其中,在对两个候选预融合图像进行融合,可以对两个候选预融合图像进行通道维度拼接,对拼接结果进行卷积处理,最后将卷积处理结果与第一图像进行叠加处理,得到第一图像对应的预融合图像。将卷积处理结果与第一图像进行叠加处理可以是将卷积处理结果与第一图像对应位置的像素值相加,得到第一图像对应的预融合图像。
实施例3:
为了进一步降低视频增强任务的难度,在上述各实施例的基础上,在本发明实施例中,对齐网络的总体框架呈金字塔式,通过从小尺度特征到大尺度特征逐渐对齐和增强视频帧,得到预增强图像。所述根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图包括:
分别对所述预融合图像和所述相邻的第二图像对应的预增强图像进行至少一次尺度变换;
按照尺度由小到大的顺序,根据当前尺度的光流信息、预融合图像和相邻的第二图像对应的预增强图像,将当前尺度的相邻的第二图像对齐到当前尺度的第一图像,得到当前尺度的对齐帧特征图;
将所述当前尺度的对齐帧特征图进行上采样,并将上采样结果与尺度相匹配的预融合图像进行卷积融合;根据卷积融合结果和与所述卷积融合结果尺度相匹配的光流信息、尺度相匹配的相邻的第二图像对应的预增强图像,进行图像对齐,直至获得最大尺度的对齐帧特征图。
首先分别对光流信息、预融合图像和相邻的第二图像对应的预增强图像进行至少一次尺度变换,例如分别对光流信息、预融合图像和相邻的第二图像对应的预增强图像进行两次下采样,得到尺度更小的光流信息、预融合图像和相邻的第二图像对应的预增强图像。
然后选取尺度最小的光流信息、预融合图像和相邻的第二图像对应的预增强图像,根据当前尺度的光流信息、预融合图像和相邻的第二图像对应的预增强图像,将当前尺度的相邻的第二图像对齐到当前尺度的第一图像,得到当前尺度的对齐帧特征图。
再将当前尺度的对齐帧特征图进行上采样,需要说明的是,若下采样的倍数为缩小两倍,此时上采样的倍数为放大两倍,以便能够保证获取与上采样结果尺度相匹配的预融合图像。将上采样结果与尺度相匹配的预融合图像进行卷积融合;根据卷积融合结果和与卷积融合结果尺度相匹配的光流信息、尺度相匹配的相邻的第二图像对应的预增强图像,进行图像对齐。然后继续将图像对齐结果进行上采样,直至获得最大尺度的对齐结果,将最大尺度的对齐结果作为对齐帧特征图。
本发明实施例中,所述根据当前尺度的光流信息、预融合图像和相邻的第二图像对应的预增强图像,将当前尺度的相邻的第二图像对齐到当前尺度的第一图像,得到当前尺度的对齐帧特征图包括:
将当前尺度的预融合图像和当前尺度的相邻的第二图像对应的预增强图像输入第一卷积网络,得到注意力权重;
将所述当前尺度的光流信息输入第二卷积网络,得到偏置信息;
将所述注意力权重、偏置信息和所述当前尺度的相邻的第二图像对应的预增强图像输入可变形卷积网络,基于所述可变形卷积网络将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的对齐帧特征图。
本发明实施例中,在确定当前尺度的第一图像对应的预增强图像时,首先将当前尺度的预融合图像和当前尺度的相邻的第二图像对应的预增强图像输入第一卷积网络,得到调制掩膜,调制掩膜即为注意力权重。将当前尺度的光流信息输入第二卷积网络,得到偏置信息。再将注意力权重、偏置信息和当前尺度的相邻的第二图像对应的预增强图像输入可变形卷积网络,基于可变形卷积网络将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的对齐帧特征图。对对齐帧特征图和预融合图像进行卷积融合,得到第一图像对应的预增强图像。
需要说明的是,在确定第一帧图像对应的预增强图像时,将第一帧图像作为本发明实施例中所说明的第一图像,然后初始化一个第一帧图像对应的相邻的第二图像,这里所说的相邻的第二图像可以是第一帧图像本身,也可以是初始化的像素值均为0的一个图像作为第一帧图像对应的相邻的第二图像。这样确定出第一图像和对应的相邻的第二图像之后,再采用上述方法得到第一图像对应的预增强图像,也就是确定出第一帧图像对应的预增强图像。
实施例4:
为了使得到的第一图像对应的增强帧图像更准确,在上述各实施例的基础上,在本发明实施例中,所述将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像包括:
将所述预融合图像和所述预增强图像进行通道维度拼接,将拼接结果依次输入平均池化层、卷积层和softmax层,得到每个特征通道的注意力权重;
将所述拼接结果与所述每个特征通道的注意力权重相乘,将相乘结果进行卷积融合,得到所述第一图像对应的增强帧图像。
将预融合图像和预增强图像进行信息聚合处理时,首先将预融合图像和预增强图像进行级联操作,也就是将预融合图像和预增强图像进行通道维度拼接。将拼接结果依次输入平均池化层,将平均池化层的输出结果输入卷积层,再将卷积层的输出结果输入softmax层,将softmax层的输出结果作为每个特征通道的注意力权重。最后将拼接结果与每个特征通道的注意力权重相乘,将相乘结果进行卷积融合,得到第一图像对应的增强帧图像。将相乘结果进行卷积融合可以是将相乘结果输入一个1×1的卷积层进行融合,得到第一图像对应的增强帧图像。
下面结合附图对本发明实施例提供的视频增强过程进行详细说明。
本发明实施例提供的视频增强框架图如图2所示,本发明实施例的创新点包括:图2中的非局部预融合处理过程、渐进式变形对齐过程及信息聚合处理过程。
1、非局部预融合处理过程说明如下:
非局部预融合处理是在当前帧特征提取之后进行多帧的非局部注意力融合,实现特征的预增强。
对于视频处理任务来说,帧间信息的利用是非常重要的,一方面视频帧间的互补信息可以为当前帧信息恢复提供更充分的依据,另一方面提高处理后视频的时域连贯性。因此,本发明实施例提出在特征提取之后,对齐之前执行非局部操作,即将当前帧的所有像素分别于邻帧的所有相关计算相关性,并基于该全局相关性对当前帧和邻帧进行时域上的预融合,增强当前帧的特征表示,提高后续特征对齐的鲁棒性。
此外,考虑到像素邻域范围内的像素相关性更大,且空间size较大的特征图上的非局部运算量较大,展示了另一种解决方案,即将特征图切分成多个区域,因此只需要在当前帧和邻帧对应邻域范围内计算相关性。因此非局部操作进一步退化成为局部区域的非局部操作,在利用邻域相关性的同时,减少计算量。
例如,将待增强的视频帧记为Xi,其前后帧分别记为Xi-1和Xi+1,其空间大小为H×W,通道数为C。则多帧的非局部预融合模块如下图3所示。
具体地,首先将当前帧分别与多个邻帧进行非局部操作,然后将结果级联并输入卷积层进行融合,以当前帧和前一帧为例,则非局部操作模块如下图4所示。
(a)首先将当前帧Xi和前一帧Xi-1分别通过一个1×1卷积进行降维;
(b)然后进行矩阵乘法,计算两帧的非局部相关性,然后将获取的相关性系数输入一个softmax层进行归一化,输出值将作为前一帧像素的权重值。
(c)将权重值和前一帧对应像素进行矩阵相乘,自适应筛选重要信息。
(d)将上述从邻帧提取的信息加到当前帧特征上,弥补当前帧信息不足的问题。
需要注意的是,非局部操作会将每个像素与邻帧内的所有像素计算相关性,对于空间size较大的特征图来说,这无疑会增强计算量。同时考虑到,通常一个区域范围内的相关性更大。因此,可将特征图划分成多个区域,在实际操作时,当前帧的每个像素只需要和邻帧中当前像素位置对应区域范围内的像素计算相关性。如图5所示,当前帧灰色区域的像素只需和邻帧灰色区域内的像素计算相关性。因此,非局部计算将变成局部区域内的非局部计算,在利用邻域相关性的同时,减少计算量。
2、渐进式变形对齐网络部分说明如下:
本发明实施例设计了一种金字塔式的渐进对齐网络,将增强任务分解为多个任务来逐步对齐和增强,缓解一步式网络的学习难度。这里需要注意的是,我们对现存技术的SpyNet网络的输出进行改进,使得其输出包含多个尺度的光流图,即光流估计结果将包含多个空间size的光流信息。整体网络结构如图6所示。
(a)将上一步骤得到的预融合特征,经过两次(可多次)下采样,每次下采样特征图的空间大小减小一半,从尺度最小的特征开始。
(b)从光流信息中提取出和当前特征尺度一致的光流图,并基于该光流图,利用变形卷积操作将邻帧对齐到当前帧。
(c)将上述对齐结果上采样扩大其空间大小,并和更大尺度的特征进行卷积融合,得到更大尺度的特征表示,在该尺度特征上进行(b)步骤。
(d)重复(c)操作,直至获得最大尺度(与输入特征尺度一致)特征的对齐结果。
(e)网络将每一级尺度的对齐结果进行通道维度上的级联作为输出,以便进行后续的特征聚合。
具体的,渐进式变形对齐网络中的变形对齐和增强模块说明如下:
针对光流信息在大运动场景下较难估计和变形卷积训练的问题,本发明实施例设计一种光流指导变形对齐时域对齐方法。在基于变形对齐的方法中,偏置丰富,卷积的方式能够自适应融合不同位置信息,然而,直接从两帧图像中学习偏置难度较大。同时光流信息可视为偏置的一个特例,并且光流法对齐使用warp操作(双线性插值)进行对齐,会存在信息的丢失。为此,基于变形对齐的优势,我们从提取的光流信息中学习适合的偏置,基于该偏置,利用变形卷积进行时域对齐。对齐之后,对对齐帧和当前帧进行融合,实现当前帧的增强。
例如,以渐进式变形对齐网络中的任意变形模块为例。记当前帧和前一帧特征分别为Fi和Fi-1,则设计的光流指导变形对齐和增强模块可如图7所示。
(a)首先利用一个卷积网络(可为简单的残差块)从当前帧和邻帧的级联结果中学习一个调制掩膜,即注意力权重。
(b)同样,利用一个卷积网络从提取的光流信息中学习可变形卷积所需的偏置。在这一过程中,可适当增加偏置图的通道数,使得变形对齐结果可综合多个位置信息推测像素值。
(c)以上述调制掩膜和偏置作为可变形卷积的参数,对邻帧执行变形卷积计算,达到利用光流信息辅助帧对齐操作的目的,输出对齐帧。
(d)将当前帧和对齐结果并输入1×1卷积层进行融合,得到当前帧的增强结果。
需要注意的是,邻帧可为前后的多个参考帧,这里为了方便,仅展示了当前帧和一个参考帧的对齐和融合。当有多个参考帧时,可将多个对齐结果融合得到当前帧在当前尺度下的增强结果。
3、信息聚合处理过程如下:
为充分利用多级尺度对齐结果,实现更精确的重构,引入一个信息聚合模块对当前帧特征和对齐帧进行融合。考虑到各级对齐结果所包含的重要信息不同,对后续重构的贡献不同,即存在信息的冗余性,提出基于注意力的融合策略,在融合之前利用注意力机制筛选出重要信息。
例如,设信息融合模块的两个输入分别为Fa1和Fa2,则模块结构如图8所示。具体步骤如下:
(a)将两个输入进行通道维度的拼接,即级联;
(b)对级联结果进行平均池化操作,获得每个特征通道的平均值;
(c)池化结果送入一个全连接的卷积网络,以捕捉特征通道的相互依赖性;
(d)对卷积结果进行Softmax(可选Sigmoid)操作,目的是获得每个特征通道的注意力权重;
(e)权重乘上步骤(a)的级联结果,从输入中自适应提取重要信息,抑制无用信息;
(f)最后,将提取的信息输入一个1×1的卷积层进行融合,得到最终的融合结果。
步骤(a)中的级联操作可替换为加法融合。这里选择拼接,是为了后续的平均池化操作能够获得两个输入中每个特征通道的统计特性,保证两个输入的特性在输入卷积之前保持独立和不受破坏。
本发明实施例相较于现有技术具备以下优点:
1、本发明实施例设计一种渐进式的增强网络,第一部分为多帧的非局部注意力预增强,其次是渐进对齐网络从小尺度逐渐过渡到大尺度特征的逐步对齐,最后是基于通道注意力融合的进一步增强。通过从不同维度对当前帧进行逐步增强,从易到难,层层递进,降低一步式增强任务难度,以找到最优的结果。
2、本发明实施例提出在时域对齐之前,对多帧序列进行基于非局部相关性的预融合操作,从另一个维度增强当前帧的特征表示,提高后续对齐网络的鲁棒性。
3、本发明实施例设计光流驱动的变形对齐,从光流信息中学习合适的偏置,进行可变形对齐。一方面,缓解光流法对齐技术中因光流信息估计不正确而导致对齐结果出现偏差的问题。另一方面,从光流学习偏置,可降低偏置学习的难度,同时,利用变形对齐法中卷积的优势,可弥补光流法中因偏置单一导致对齐不够精确的不足。
4、本发明实施例设计基于注意力机制的融合模块,该模块能够综合对输入信息为每个特征通道分配合适的权重,以便后续有效的信息融合,从而获得更优的重构结果。
实施例5:
图9为本发明实施例提供的视频增强装置结构示意图,该装置包括:
非局部预融合处理单元91,用于获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;
预增强单元92,用于根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;
信息聚合处理单元93,用于将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
非局部预融合处理单元91,具体用于对所述第一图像进行特征提取,得到对应的第一特征图;对所述第二图像进行特征提取,得到对应的第二特征图;对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值;将所述第二特征图和对应的权重值进行矩阵相乘,得到第三特征图;将所述第三特征图与所述第一特征图进行叠加处理,得到所述第一图像对应的预融合图像。
非局部预融合处理单元91,具体用于按照相同的区域划分规则,分别将所述第一特征图和第二特征图划分为多个区域;对所述第一特征图和第二特征图中对应位置的区域进行矩阵相乘,得到所述对应位置的区域的相似度;对所述对应位置的区域的相似度进行归一化处理,得到所述第二特征图中所述对应位置的区域的权重值。
非局部预融合处理单元91,还用于将得到所述第一图像对应的每个预融合图像分别作为候选预融合图像;对每个候选预融合图像进行通道维度拼接,对拼接结果进行卷积处理;将所述卷积处理结果与所述第一图像进行叠加处理,得到所述第一图像对应的预融合图像。
预增强单元92,具体用于分别对所述预融合图像和所述相邻的第二图像对应的预增强图像进行至少一次尺度变换;按照尺度由小到大的顺序,根据当前尺度的光流信息、预融合图像和相邻的第二图像对应的预增强图像,将当前尺度的相邻的第二图像对齐到当前尺度的第一图像,得到当前尺度的对齐帧特征图;将所述当前尺度的对齐帧特征图进行上采样,并将上采样结果与尺度相匹配的预融合图像进行卷积融合;根据卷积融合结果和与所述卷积融合结果尺度相匹配的光流信息、尺度相匹配的相邻的第二图像对应的预增强图像,进行图像对齐,直至获得最大尺度的对齐帧特征图。
预增强单元92,具体用于将当前尺度的预融合图像和当前尺度的相邻的第二图像对应的预增强图像输入第一卷积网络,得到注意力权重;将所述当前尺度的光流信息输入第二卷积网络,得到偏置信息;将所述注意力权重、偏置信息和所述当前尺度的相邻的第二图像对应的预增强图像输入可变形卷积网络,基于所述可变形卷积网络将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的对齐帧特征图。
信息聚合处理单元93,具体用于将所述预融合图像和所述预增强图像进行通道维度拼接,将拼接结果依次输入平均池化层、卷积层和softmax层,得到每个特征通道的注意力权重;将所述拼接结果与所述每个特征通道的注意力权重相乘,将相乘结果进行卷积融合,得到所述第一图像对应的增强帧图像。
实施例6:
图10为本发明实施例提供的解码过程示意图,该解码过程包括以下步骤:
S201:获取待解码的视频序列。
S202:对所述待解码的视频序列进行解码,获得所述待解码的视频序列对应的解码视频序列;其中,在所述解码过程中利用上述任一项视频增强方法,确定待解码的视频序列中的每帧第一图像对应的增强帧图像。
本发明实施例提供的解码方法应用于解码器,图11为本发明实施例提供的解码器结构示意图,包括:
获取单元111,用于获取待解码的视频序列;
解码单元112,用于对所述待解码的视频序列进行解码,获得所述待解码的视频序列对应的解码视频序列。
实施例7:
在上述各实施例的基础上,本发明实施例中还提供了一种电子设备,如图12所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;
根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;
将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与视频增强方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、网络侧设备等。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中处理器执行存储器上所存放的程序时,实现获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
由于在本发明实施例中,在将相邻的第二图像对齐到所述第一图像之前,首先对视频序列中的第一图像及与第一图像相邻的第二图像进行非局部预融合处理,得到第一图像对应的预融合图像。其次根据第一图像和相邻的第二图像确定光流信息,根据光流信息、预融合图像和相邻的第二图像对应的预增强图像,确定第一图像对应的对齐帧特征图,对对齐帧特征图和预融合图像进行卷积融合,得到第一图像对应的预增强图像。最后将预融合图像和预增强图像进行信息聚合处理,得到第一图像对应的增强帧图像。本发明实施例通过从不同维度对第一图像进行逐步增强,从易到难,层层递进,降低一步式增强任务难度,以找到最优的结果,对于大运动及运动复杂的场景适应性较好,能够得到准确的视频增强结果。
实施例8:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;
根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;
将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与视频增强方法相似,因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储计算机程序,计算机程序被处理器执行时实现获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;根据所述第一图像和相邻的第二图像确定光流信息,根据所述光流信息、所述预融合图像和所述相邻的第二图像对应的预增强图像,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的对齐帧特征图,对所述对齐帧特征图和所述预融合图像进行卷积融合,得到所述第一图像对应的预增强图像;将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像。
由于在本发明实施例中,在将相邻的第二图像对齐到所述第一图像之前,首先对视频序列中的第一图像及与第一图像相邻的第二图像进行非局部预融合处理,得到第一图像对应的预融合图像。其次根据第一图像和相邻的第二图像确定光流信息,根据光流信息、预融合图像和相邻的第二图像对应的预增强图像,确定第一图像对应的对齐帧特征图,对对齐帧特征图和预融合图像进行卷积融合,得到第一图像对应的预增强图像。最后将预融合图像和预增强图像进行信息聚合处理,得到第一图像对应的增强帧图像。本发明实施例通过从不同维度对第一图像进行逐步增强,从易到难,层层递进,降低一步式增强任务难度,以找到最优的结果,对于大运动及运动复杂的场景适应性较好,能够得到准确的视频增强结果。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种视频增强方法,其特征在于,所述方法包括:
获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;
根据所述预融合图像和所述第一图像对应的光流信息,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的预增强图像;其中,所述第一图像对应的光流信息是基于所述第一图像和所述相邻的第二图像确定出的;
将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像;
所述对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像包括:
对所述第一图像进行特征提取,得到对应的第一特征图;对所述第二图像进行特征提取,得到对应的第二特征图;
对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值;
将所述第二特征图和对应的权重值进行相乘,得到第三特征图;
将所述第三特征图与所述第一特征图进行叠加处理,得到所述第一图像对应的预融合图像;
所述根据所述预融合图像和所述第一图像对应的光流信息,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的预增强图像包括:
对所述预融合图像进行至少一次尺度变换;
按照尺度由小到大的顺序,选取与当前尺度相匹配的光流信息,根据当前尺度的预融合图像和所述相匹配的光流信息,将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的预增强图像;
将所述当前尺度的第一图像对应的预增强图像进行上采样,并将上采样结果与尺度相匹配的预融合图像进行卷积融合;根据卷积融合结果和与所述卷积融合结果尺度相匹配的光流信息,进行图像对齐,直至获得最大尺度的对齐结果,将所述最大尺度的对齐结果作为所述第一图像对应的预增强图像。
2.如权利要求1所述的方法,其特征在于,所述对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值包括:
按照相同的区域划分规则,分别将所述第一特征图和第二特征图划分为多个区域;对所述第一特征图和第二特征图中对应位置的区域进行矩阵相乘,得到所述对应位置的区域的相似度;
对所述对应位置的区域的相似度进行归一化处理,得到所述第二特征图中所述对应位置的区域的权重值。
3.如权利要求1所述的方法,其特征在于,若与所述第一图像相邻的第二图像分别包括与所述第一图像前向相邻的第二图像和与所述第一图像后向相邻的第二图像,所述方法还包括:
将得到所述第一图像对应的每个预融合图像分别作为候选预融合图像;
对每个候选预融合图像进行通道维度拼接,对拼接结果进行卷积处理;
将所述卷积处理结果与所述第一图像进行叠加处理,得到所述第一图像对应的预融合图像。
4.如权利要求1所述的方法,其特征在于,所述根据当前尺度的预融合图像和所述相匹配的光流信息,将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的预增强图像包括:
将所述当前尺度的预融合图像输入第一卷积网络,得到注意力权重;
将所述相匹配的光流信息输入第二卷积网络,得到偏置信息;
将所述注意力权重、偏置信息和所述当前尺度的第二图像输入可变形卷积网络,基于所述可变形卷积网络将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的对齐帧图像;
对所述对齐帧图像和所述当前尺度的第一图像进行卷积融合,得到当前尺度的第一图像对应的预增强图像。
5.如权利要求1所述的方法,其特征在于,所述将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像包括:
将所述预融合图像和所述预增强图像进行通道维度拼接,将拼接结果依次输入平均池化层、卷积层和softmax层,得到每个像素值的注意力权重;
将所述拼接结果与所述每个像素值的注意力权重相乘,将相乘结果进行卷积融合,得到所述第一图像对应的增强帧图像。
6.一种视频增强装置,其特征在于,所述装置包括:
非局部预融合处理单元,用于获取待增强的视频序列,针对所述视频序列中的每帧第一图像,对所述第一图像及与所述第一图像相邻的第二图像进行非局部预融合处理,得到所述第一图像对应的预融合图像;
预增强单元,用于根据所述预融合图像和所述第一图像对应的光流信息,将所述相邻的第二图像对齐到所述第一图像,得到所述第一图像对应的预增强图像;其中,所述第一图像对应的光流信息是基于所述第一图像和所述相邻的第二图像确定出的;
信息聚合处理单元,用于将所述预融合图像和所述预增强图像进行信息聚合处理,得到所述第一图像对应的增强帧图像;
非局部预融合处理单元,具体用于对所述第一图像进行特征提取,得到对应的第一特征图;对所述第二图像进行特征提取,得到对应的第二特征图;对所述第一特征图和第二特征图进行矩阵相乘,得到所述第一特征图和第二特征图的相似度;对所述相似度进行归一化处理,得到所述第二特征图对应的权重值;将所述第二特征图和对应的权重值进行相乘,得到第三特征图;将所述第三特征图与所述第一特征图进行叠加处理,得到所述第一图像对应的预融合图像;
预增强单元,具体用于对所述预融合图像进行至少一次尺度变换;按照尺度由小到大的顺序,选取与当前尺度相匹配的光流信息,根据当前尺度的预融合图像和所述相匹配的光流信息,将当前尺度的第二图像对齐到当前尺度的第一图像,得到当前尺度的第一图像对应的预增强图像;将所述当前尺度的第一图像对应的预增强图像进行上采样,并将上采样结果与尺度相匹配的预融合图像进行卷积融合;根据卷积融合结果和与所述卷积融合结果尺度相匹配的光流信息,进行图像对齐,直至获得最大尺度的对齐结果,将所述最大尺度的对齐结果作为所述第一图像对应的预增强图像。
7.一种解码方法,其特征在于,所述方法包括:
获取待解码的视频序列;
对所述待解码的视频序列进行解码,获得所述待解码的视频序列对应的解码视频序列;其中,在所述解码过程中利用权利要求 1至5 任一项所述的视频增强方法,确定所述待解码的视频序列中的每帧第一图像对应的增强帧图像。
8.一种解码器,其特征在于,所述解码器包括:
获取单元,用于获取待解码的视频序列;
解码单元,用于对所述待解码的视频序列进行解码,获得所述待解码的视频序列对应的解码视频序列。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035811.XA CN114071167B (zh) | 2022-01-13 | 2022-01-13 | 视频增强方法、装置、解码方法、解码器及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035811.XA CN114071167B (zh) | 2022-01-13 | 2022-01-13 | 视频增强方法、装置、解码方法、解码器及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114071167A CN114071167A (zh) | 2022-02-18 |
CN114071167B true CN114071167B (zh) | 2022-04-26 |
Family
ID=80231064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210035811.XA Active CN114071167B (zh) | 2022-01-13 | 2022-01-13 | 视频增强方法、装置、解码方法、解码器及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114071167B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114760477B (zh) * | 2022-06-15 | 2022-08-16 | 武汉大学 | 一种视频数据显隐混合对齐方法、系统及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070511A (zh) * | 2019-04-30 | 2019-07-30 | 北京市商汤科技开发有限公司 | 图像处理方法和装置、电子设备及存储介质 |
CN111914756A (zh) * | 2020-08-03 | 2020-11-10 | 北京环境特性研究所 | 一种视频数据处理方法和装置 |
US10984530B1 (en) * | 2019-12-11 | 2021-04-20 | Ping An Technology (Shenzhen) Co., Ltd. | Enhanced medical images processing method and computing device |
CN113450276A (zh) * | 2021-06-29 | 2021-09-28 | 苏州科达科技股份有限公司 | 视频图像增强方法及其模型训练方法、相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130107061A1 (en) * | 2011-10-31 | 2013-05-02 | Ankit Kumar | Multi-resolution ip camera |
-
2022
- 2022-01-13 CN CN202210035811.XA patent/CN114071167B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070511A (zh) * | 2019-04-30 | 2019-07-30 | 北京市商汤科技开发有限公司 | 图像处理方法和装置、电子设备及存储介质 |
WO2020220517A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京市商汤科技开发有限公司 | 图像处理方法和装置、电子设备及存储介质 |
US10984530B1 (en) * | 2019-12-11 | 2021-04-20 | Ping An Technology (Shenzhen) Co., Ltd. | Enhanced medical images processing method and computing device |
CN111914756A (zh) * | 2020-08-03 | 2020-11-10 | 北京环境特性研究所 | 一种视频数据处理方法和装置 |
CN113450276A (zh) * | 2021-06-29 | 2021-09-28 | 苏州科达科技股份有限公司 | 视频图像增强方法及其模型训练方法、相关设备 |
Non-Patent Citations (3)
Title |
---|
《Infrared image enhancement based on an aligned high resolution visible image》;K. Choi, C. Kim and J. B. Ra;《010 IEEE International Conference on Image Processing, 2010, pp. 3341-3344, doi: 10.1109/ICIP.2010.5651482》;20101231;全文 * |
时空域上下文学习的视频多帧质量增强方法;佟骏超等;《北京航空航天大学学报》;20191231(第12期);全文 * |
联合时域虚拟帧的多帧视频质量增强方法;丁丹丹等;《计算机辅助设计与图形学学报》;20201231(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114071167A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109379550B (zh) | 基于卷积神经网络的视频帧率上变换方法及系统 | |
CN110830802B (zh) | 基于机器学习的视频压缩 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN111263161B (zh) | 视频压缩处理方法、装置、存储介质和电子设备 | |
Wu et al. | Learned block-based hybrid image compression | |
JP7143529B2 (ja) | 画像復元方法及びその装置、電子機器並びに記憶媒体 | |
US20230269395A1 (en) | Video processing method, device and storage medium | |
CN114339219A (zh) | 帧间预测方法、装置、编解码方法、编解码器及电子设备 | |
Soh et al. | Reduction of video compression artifacts based on deep temporal networks | |
CN116681584A (zh) | 一种多级扩散图像超分辨算法 | |
CN114071167B (zh) | 视频增强方法、装置、解码方法、解码器及电子设备 | |
Tang et al. | AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement | |
CN111583345B (zh) | 一种相机参数的获取方法、装置、设备及存储介质 | |
Song et al. | E2fif: Push the limit of binarized deep imagery super-resolution using end-to-end full-precision information flow | |
US20240062347A1 (en) | Multi-scale fusion defogging method based on stacked hourglass network | |
CN111861940A (zh) | 一种基于条件连续调节的图像调色增强方法 | |
CN116630448A (zh) | 基于窗口注意力的神经数据依赖变换的图像压缩方法 | |
CN116433516A (zh) | 一种基于注意力机制的低照度图像去噪增强方法 | |
CN113902647A (zh) | 一种基于双闭环网络的图像去模糊方法 | |
Chen et al. | Iterative token evaluation and refinement for real-world super-resolution | |
Guo et al. | An unsupervised optical flow estimation for LiDAR image sequences | |
CN114222124B (zh) | 一种编解码方法及设备 | |
Li et al. | [Retracted] Machine‐Type Video Communication Using Pretrained Network for Internet of Things | |
EP4361887A1 (en) | Method for encoding an input signal using neural network and corresponding device | |
Oliveira | Deep Learning-based Video Coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |