CN117692652A - 一种基于深度学习的可见光与红外视频融合编码方法 - Google Patents
一种基于深度学习的可见光与红外视频融合编码方法 Download PDFInfo
- Publication number
- CN117692652A CN117692652A CN202410155470.9A CN202410155470A CN117692652A CN 117692652 A CN117692652 A CN 117692652A CN 202410155470 A CN202410155470 A CN 202410155470A CN 117692652 A CN117692652 A CN 117692652A
- Authority
- CN
- China
- Prior art keywords
- video
- fusion
- visible light
- video stream
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 230000004927 fusion Effects 0.000 title claims abstract description 80
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 claims abstract description 32
- 230000008439 repair process Effects 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000008571 general function Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/65—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/10—Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
- H04N23/11—Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Discrete Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种基于深度学习的可见光与红外视频融合编码方法,步骤包括采集同一场景下的可见光视频流和红外视频流;对采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;采用自适应编码损伤修复算法提升编码性能;通过融合编码算法对经编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。实现了对不同模态视频流选择合适的预处理操作,减少了噪声的同时增强对比度,保持了视频更多的细节;通过在EDVR模型的框架中融入自适应损伤修复算法,增进了网络修复的效果,大大提高了可见光和红外视频数融合处理的效率以及质量,扩大了可见光与红外视频编码融合技术的适用范围。
Description
技术领域
本发明涉及一种基于深度学习的可见光与红外视频融合编码方法,属于视频编码处理技术领域。
背景技术
传统的可见光与红外视频编码融合技术是一种处理和结合来自可见光摄像头和红外摄像头的视频数据的方法。可见光和红外视频是不同模态的数据,分别用于提供不同的信息。可见光视频提供丰富的颜色和纹理信息,红外视频则能够展现温度分布和在低光照条件下的细节。
传统融合技术在处理大量的可见光和红外视频数据时存在效率低下以及图像处理质量低的问题。这主要归因于可见光和红外视频数据在帧率、分辨率和动态范围方面的本质差异。在实时性和高分辨率有严格要求的场景中,如军事侦察、高速交通监控等,因为需要快速处理和融合大量数据流,传统技术无法满足这些应用的特定需求,此外,不同的环境条件,如光照变化、温度波动,也可能对融合效果产生不利影响。在融合过程中,需同时处理两种不同类型的数据,在高压缩率下导致图像质量下降,例如,红外数据在保留热成像细节方面极为重要,但在压缩过程中可能会丢失关键信息。此外,不同类型的噪声和失真可能在融合过程中相互影响,进一步降低最终图像质量。
发明内容
本发明的目的在于提供一种基于深度学习的可见光与红外视频融合编码方法,该方法能够提高可见光和红外视频数融合处理的效率以及质量,扩大可见光与红外视频编码融合技术的适用范围。
为了实现上述目的,本发明提供一种基于深度学习的可见光与红外视频融合编码方法,包括如下步骤:
Step 1、采集同一场景下的可见光视频流和红外视频流;
Step 2、对Step 1中采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;
Step 3、采用自适应编码损伤修复算法提升编码性能;
Step 4、通过融合编码算法对经Step 3编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。
进一步地,所述Step 2中对可见光视频流和红外视频流分别进行去噪操作的步骤为:
Step 2.1-1、对可见光视频流通过高斯函数作为权重对邻域内的像素进行加权平均,高斯滤波器的核定义为:/>;式中,/>为高斯核的标准差;
Step 2.1-2、对红外视频流采用小波变换去噪,设为小波变换的系数,去噪后的系数/>通过阈值处理得到:/>;
式中,为阈值,根据信号特性及噪声水平确定。
进一步地,所述Step 2中对可见光视频流和红外视频流进行对比度增强操作的步骤为:
Step 2.2-1、将可见光视频流和红外视频流图像分别划分为多个区块,对于每个区块,计算其直方图/>;/>;
式中,为区块中的像素点,当/>为像素值时其值为1,否则为0;
Step 2.2-2、对每个直方图的灰度级,计算累积分布函数:;
式中,为灰度值/>在区域/>的直方图中的像素数,其中,/>表示取不同的灰度值,/>为区域中的像素总数;
Step 2.2-3、使用累积分布函数重新映射区域中的像素值:;
式中,是原始图像在区域/>的坐标处/>的像素值,/>是均衡化后的新像素值,/>是灰度级数量。
进一步地,所述Step 2中采用生成对抗网络对视频进行编码的步骤为:
Step 2.3-1、生成对抗网络包括生成器和判别器两部分,生成器包含编码器和解码器;首先模型接收一个随机噪声向量,并将生成数据表示为/>,其中生成器/>以随机噪声向量/>作为输入,通过参数/>生成视频帧/>,将视频帧/>输入到生成器/>,结果反馈一个标量用于表示输入数据是真实数据的概率,其表示为/>,判别器/>通过计算真实数据和生成数据的均值与协方差矩阵进行比对,评估生成的视频帧/>是接近真实还是虚假的数据,通过参数/>进行判别;其中比对公式为:/>;
式中,表示矩阵对角线元素的综合,即矩阵的迹;/>和/>分别表示真实的视频帧和生成的视频帧,/>表示均值;若结果数值FID小于10,表示生成数据与真实数据接近;
Step 2.3-2、生成对抗网络的训练过程通过以下目标函数描述:;
式中,生成器用于最小化这个函数,判别器/>用于最大化这个函数;表示判别器正确识别真实数据的概率;/>表示判别器正确识别生成数据的概率。
进一步地,所述Step3中自适应编码损伤修复算法提升编码性能的步骤为采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐,同时采用时空注意力融合模块进行特征融合,最后引入自适应模块构成整体网络结构;其中,采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的步骤为:
Step 3.1-1、使用通过不同尺度的卷积层从每个视频帧中提取多尺度特征,并创建一个特征金字塔,每个级别代表不同的空间分辨率,用于捕捉不同尺度的动态变化;
Step 3.1-2、在每个级别上,应用可变形卷积,允许网络动态的调整卷积核的形状,适应帧间的运动和变化;
Step 3.1-3、将对齐的多尺度特征重新结合,构建对齐特征表示;
Step 3.1-4、将每一帧的特征进行变形对齐,记为,/>;给定U个采样位置的可变形卷积核,分别将/>和/>分别表示第/>个位置的权重和预指定的偏移量,在每个位置的对齐特征由以下公式得到:/>;
式中,表示连续帧的个数,/>表示第/>个时刻的输入帧,/>表示对齐特征,/>和/>由相邻帧和参考帧的连接特征预测:/>;
式中,表示由多个卷积层组成的一般函数,[,]表示连接操作;
Step 3.1-5、采用金字塔处理和级联细化,采用卷积滤波器对金字塔层的特征进行2倍的下采样,得到第/>层的特征/>,同时,偏移量使用2倍的上采样偏移量,对齐特征使用/>层的对齐特征进行预测,其公式如下:/>;
式中,表示放大因子2,DConv为可变形卷积;
采用时空注意力融合模块进行特征融合的步骤为:
Step 3.2-1、采用时空注意力融合模块从可见光视频流和红外视频流的视频帧中提取特征,对于每一帧,相似距离/>的计算公式为:;式中,/>和/>为两个嵌入;
Step 3.2-2、将图片按照逐像素的方式与原始对齐的特征相乘,采用一个额外的卷积层来聚合这些特征,其公式如下:/>;
引入自适应模块构成整体网络结构的过程为:整个网络从参数上划分为固定参数和自适应参数,固定参数经训练后保持不变,自适应参数随不同编码内容做自适应调整;在编码阶段,首先经HEVC编码得到编码码流与重建视频,其中,/>为输入,表示在/>之后的第/>个帧;初始化count=0,将重建视频输入自适应算法结构,固定非自适应参数,反向传播更新自适应参数,同时count+1;在解码阶段,首先使用HEVC解码器解码得到重建视频/>,加载自适应模块参数到修复网络;按照编码码流处理全部视频,输出经自适应编码损伤修复后的视频。
进一步地,所述Step4中进行融合编码,生成融合视频流的步骤为:
Step 4.1、使用卷积神经网络从可见光视频和红外视频流中提取特征,其公式为:;式中,/>为特征,/>和/>分别为权重和偏置,/>为激活函数,/>为输入;
Step 4.2、对可见光视频和红外视频流进行特征级加权融合,经过加权融合后采用逆卷积技术从融合的特征重建视频帧,加权融合公式为:;
式中,为融合系数;
Step 4.3、通过训练深度神经网络损失函数来优化融合效果,其公式为:;式中,/>为模型的输出,是模型基于输入数据给出的估计或推断;/>是由数据集得到的,代表每个输入数据点的实际标签或结果;/>代表数据集中样本的总数。
本发明通过采集同一场景下的可见光视频流和红外视频流;对采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;采用自适应编码损伤修复算法提升编码性能;通过融合编码算法对经编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。实现了对不同模态视频流选择合适的预处理操作,减少了噪声的同时增强对比度,保持了视频更多的细节;通过在EDVR模型的框架中融入自适应损伤修复算法,有效地处理视频中的动态变化,尤其是在光照条件差异显著地场景中,对不同内容进行自适应处理,增进了网络修复的效果;对修复后不同模态的视频流采用基于卷积网络的融合操作,有效融合红外和可见光的信息,大大提高了可见光和红外视频数融合处理的效率以及质量,扩大了可见光与红外视频编码融合技术的适用范围。
附图说明
图1是本发明的流程示意图;
图2是本发明采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的流程图;
图3是本发明采用时空注意力融合模块进行特征融合的流程图;
图4是本发明引入自适应模块构成整体网络结构的流程图;
图5是本发明实施例对红外视频帧进行小波变换去噪以及自适应直方图均衡化处理后得到的图像;
图6是本发明实施例对对可见光视频帧处理后得到的图像;
图7是本发明实施例对红外视频帧和可见光视频帧进行加权融合对齐后得到的图像。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于深度学习的可见光与红外视频融合编码方法,包括如下步骤:
Step 1、采集同一场景下的可见光视频流和红外视频流;
Step 2、对Step 1中采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;
Step 3、采用自适应编码损伤修复算法提升编码性能;
Step 4、通过融合编码算法对经Step 3编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。
作为一种优选的实施方式,所述Step 2中对可见光视频流和红外视频流分别进行去噪操作的步骤为:
Step 2.1-1、对可见光视频流通过高斯函数作为权重对邻域内的像素进行加权平均,高斯滤波器的核定义为:/>;
式中,为高斯核的标准差;
Step 2.1-2、对红外视频流采用小波变换去噪,设为小波变换的系数,去噪后的系数/>通过阈值处理得到:/>;
式中,为阈值,根据信号特性及噪声水平确定。
作为一种优选的实施方式,针对可见光视频流和红外视频流的对比度增强,采用自适应直方图均衡化(AHE),自适应直方图均衡化适合于改善图像的局部对比度,同时避免在亮度较高或较低的区域过度放大噪声。自适应直方图均衡化通过对图像分区域进行直方图均衡化来增强对比度。所述Step 2中对可见光视频流和红外视频流进行对比度增强操作的步骤为:
Step 2.2-1、将可见光视频流和红外视频流图像分别划分为多个区块,对于每个区块,计算其直方图/>;/>;
式中,为区块中的像素点,当/>为像素值时其值为1,否则为0;
Step 2.2-2、对每个直方图的灰度级,计算累积分布函数:;
式中,为灰度值/>在区域/>的直方图中的像素数,其中,/>表示取不同的灰度值,/>为区域中的像素总数;
Step 2.2-3、使用累积分布函数重新映射区域中的像素值:;
式中,是原始图像在区域/>的坐标处/>的像素值,/>是均衡化后的新像素值,/>是灰度级数量。
作为一种优选的实施方式,所述Step 2中采用生成对抗网络对视频进行编码的步骤为:
Step 2.3-1、生成对抗网络包括生成器和判别器两部分,生成器包含编码器和解码器;首先模型接收一个随机噪声向量,并将生成数据表示为/>,其中生成器/>以随机噪声向量/>作为输入,通过参数/>生成视频帧/>,将视频帧/>输入到生成器/>,结果反馈一个标量用于表示输入数据是真实数据的概率,其表示为/>,判别器/>通过计算真实数据和生成数据的均值与协方差矩阵进行比对,评估生成的视频帧/>是接近真实还是虚假的数据,通过参数/>进行判别;其中比对公式为:/>;
式中,表示矩阵对角线元素的综合,即矩阵的迹;/>和/>分别表示真实的视频帧和生成的视频帧,/>表示均值;若结果数值FID小于10,表示生成数据与真实数据接近;
Step 2.3-2、生成对抗网络的训练过程通过以下目标函数描述:;
式中,生成器用于最小化这个函数,判别器/>用于最大化这个函数;表示判别器正确识别真实数据的概率;/>表示判别器正确识别生成数据的概率。
作为一种优选的实施方式,所述Step3中自适应编码损伤修复算法提升编码性能的步骤为采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐,同时采用时空注意力融合模块进行特征融合,最后引入自适应模块构成整体网络结构;其中,采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的步骤为:
Step 3.1-1、使用通过不同尺度的卷积层从每个视频帧中提取多尺度特征,并创建一个特征金字塔,每个级别代表不同的空间分辨率,用于捕捉不同尺度的动态变化;
Step 3.1-2、在每个级别上,应用可变形卷积,允许网络动态的调整卷积核的形状,适应帧间的运动和变化;
Step 3.1-3、将对齐的多尺度特征重新结合,构建对齐特征表示;
Step 3.1-4、如图2所示,将每一帧的特征进行变形对齐,记为,/>;给定U个采样位置的可变形卷积核,分别将/>和/>分别表示第/>个位置的权重和预指定的偏移量,在每个位置的对齐特征由以下公式得到:/>;
式中,表示连续帧的个数,/>表示第/>个时刻的输入帧,/>表示对齐特征,/>和/>由相邻帧和参考帧的连接特征预测:/>;
式中,表示由多个卷积层组成的一般函数,[,]表示连接操作;
Step 3.1-5、采用金字塔处理和级联细化,采用卷卷积滤波器对金字塔层的特征进行2倍的下采样,得到第/>层的特征/>,同时,偏移量使用2倍的上采样偏移量,对齐特征使用/>层的对齐特征进行预测,其公式如下:/>;
式中,表示放大因子2,DConv为可变形卷积;
如图3所示,采用时空注意力融合模块首先从视频帧中提取特征;其次,采用空间注意力机制和时间注意力机制,关注每个帧内的关键区域,强调重要的空间特征,同时分析帧序列中的时间关联性,确定哪些帧在时间上更重要;结合空间和时间注意力加权的特征,使用得到的融合特征来重建或增强视频,具体采用时空注意力融合模块进行特征融合的步骤为:
Step 3.2-1、采用时空注意力融合模块从可见光视频流和红外视频流的视频帧中提取特征,对于每一帧,相似距离/>的计算公式为:;式中,/>和/>为两个嵌入,通过简单的卷积滤波器实现;
Step 3.2-2、如图4所示,将图片按照逐像素的方式与原始对齐的特征相乘,采用一个额外的卷积层来聚合这些特征,其公式如下:/>;引入自适应模块构成整体网络结构的过程为:整个网络从参数上划分为固定参数和自适应参数,固定参数经训练后保持不变,自适应参数随不同编码内容做自适应调整;在编码阶段,首先经HEVC编码得到编码码流与重建视频/>,其中,/>为输入,/>表示在/>之后的第/>个帧;初始化count=0,将重建视频输入自适应算法结构,固定非自适应参数,反向传播更新自适应参数,同时count+1;在解码阶段,首先使用HEVC解码器解码得到重建视频/>,加载自适应模块参数到修复网络;按照编码码流处理全部视频,输出经自适应编码损伤修复后的视频。
进一步地,所述Step4中进行融合编码,生成融合视频流的步骤为:
Step 4.1、使用卷积神经网络从可见光视频和红外视频流中提取特征,其公式为:;式中,/>为特征,/>和/>分别为权重和偏置,/>为激活函数,/>为输入;
Step 4.2、对可见光视频和红外视频流进行特征级加权融合,经过加权融合后采用逆卷积技术从融合的特征重建视频帧,加权融合公式为:;
式中,为融合系数;
Step 4.3、通过训练深度神经网络损失函数来优化融合效果,其公式为:;式中,/>为模型的输出,是模型基于输入数据给出的估计或推断;/>是由数据集得到的,代表每个输入数据点的实际标签或结果;/>代表数据集中样本的总数。
实施例
将一组红外视频帧和可见光视频帧进行融合,以增强夜间或低光照环境下的视觉感知,具体操作过程如下:
(1)应用小波变换去噪技术,通过在小波域对图像进行分解,在此过程中,需要选择一个适当的小波基和分解的层数。在本处理中,使用了db1(Daubechies小波)作为小波基,并且分解了3层,然后对分解得到的小波系数进行阈值处理,阈值的确定使用Donoho的普适阈值公式:;其中,/>是高斯核的标准差,/>为区域中的像素总数;其次,为了增强图像的对比度,进行了自适应直方图均衡化操作,我们定义了一个小区域的大小,如8×8像素,通过对图像的局部区域进行直方图均衡化,进一步提升了图像的局部对比度,使得图像的细节更加清晰,如图5所示为通过对红外视频帧进行小波变换去噪以及自适应直方图均衡化;
为了减少图像中的随机噪声,高斯滤波器利用高斯函数对图像中的每个像素与其邻域像素的值进行加权平均,将图像中的噪声平滑出去。高斯滤波器的核大小决定了滤波器邻域的大小,在本处理中,选择大小为3×3的核;同时,根据图像的噪声水平,选择数值为0.5的标准差;其次,采用自适应直方图均衡化处理,将图像分割成许多小块(tiles),选择小块的大小为8×8像素,Clip limit用于限制直方图均衡化过程中对比度的放大,以避免过度增强噪声,独立地对图像的各个小区域进行均衡化,根据图片的分辨率,本处理选择clip limit的值为0.02,在不丢失过多细节的条件下使得整体图像的对比度得到提升,如图6所示为通过对可见光图像进行了图像处理技术后得到;
(2)使用生成对抗网络模型对视频进行编码并提取红外和可见光视频帧的特征;
(3)使用EDVR模型中的可变形卷积对齐模块对特征进行时空对齐,并使用时空注意力机制加权融合对齐后的特征,具体为在获取了同一场景下的红外视频帧和可见光视频帧后,分别提取不同视频帧的特征。首先,通过可变形卷积对齐处理,将两种类型的特征进行时空对齐,确保它们在空间上是一致的,在本处理中,选择3×3的可变形卷积核大小以及8个可变形偏移量;其次,通过时空注意力模块,自动决定从每个视频流中提取哪些特征,并以多大的权重进行融合,在本处理中,融合权重设置为0.6,着重强调了红外图像的特征及场景中最重要的视觉信息;最后通过EDVR的解码器从融合后的特征重建了最终的图像。在评价图片的理想程度时,评价标准选择为峰值信噪比(PSNR)和结构相似性指数(SSIM),将PSNR值高于30dB、SSIM值接近1.0作为理想图片的评价参数。该图像结合了两种视频流的信息,提供了比单一红外或可见光图像更全面、更丰富的视觉表示,如图7所示。
综上所述,本发明提出了一种新颖的可见光与红外视频流编码融合的方法。其中,引入自适应损坏修复模块,增强了网络修复的效果,在使用艾睿光电DTC300设备采集的通用双光数据集上表现优于其它方法。
本发明例还提供了一种视频目标级融合方法的运行平台装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的一种基于深度学习的可见光与红外视频融合编码方法的步骤。
存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种基于深度学习的可见光与红外视频融合编码方法的步骤。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于深度学习的可见光与红外视频融合编码方法的步骤。
Claims (6)
1.一种基于深度学习的可见光与红外视频融合编码方法,其特征在于,包括如下步骤:
Step 1、采集同一场景下的可见光视频流和红外视频流;
Step 2、对Step 1中采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;
Step 3、采用自适应编码损伤修复算法提升编码性能;
Step 4、通过融合编码算法对经Step 3编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。
2.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中对可见光视频流和红外视频流分别进行去噪操作的步骤为:
Step 2.1-1、对可见光视频流通过高斯函数作为权重对邻域内的像素进行加权平均,高斯滤波器的核定义为:/>;式中,/>为高斯核的标准差;
Step 2.1-2、对红外视频流采用小波变换去噪,设为小波变换的系数,去噪后的系数/>通过阈值处理得到:/>;
式中,为阈值,根据信号特性及噪声水平确定。
3.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中对可见光视频流和红外视频流进行对比度增强操作的步骤为:
Step 2.2-1、将可见光视频流和红外视频流图像分别划分为多个区块,对于每个区块,计算其直方图/>;/>;式中,/>为区块中的像素点,当/>为像素值时其值为1,否则为0;
Step 2.2-2、对每个直方图的灰度级,计算累积分布函数:/>;式中,/>为灰度值/>在区域/>的直方图中的像素数,其中,/>表示取不同的灰度值,/>为区域中的像素总数;
Step 2.2-3、使用累积分布函数重新映射区域中的像素值:;式中,/>是原始图像在区域/>的坐标处/>的像素值,/>是均衡化后的新像素值,/>是灰度级数量。
4.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中采用生成对抗网络对视频进行编码的步骤为:
Step 2.3-1、生成对抗网络包括生成器和判别器两部分,生成器包含编码器和解码器;首先模型接收一个随机噪声向量,并将生成数据表示为/>,其中生成器/>以随机噪声向量/>作为输入,通过参数/>生成视频帧/>,将视频帧/>输入到生成器/>,结果反馈一个标量用于表示输入数据是真实数据的概率,其表示为/>,判别器/>通过计算真实数据和生成数据的均值与协方差矩阵进行比对,评估生成的视频帧/>是接近真实还是虚假的数据,通过参数/>进行判别;其中比对公式为:/>;式中,/>表示矩阵对角线元素的综合,即矩阵的迹;/>和/>分别表示真实的视频帧和生成的视频帧,/>表示均值;若结果数值FID小于10,表示生成数据与真实数据接近;
Step 2.3-2、生成对抗网络的训练过程通过以下目标函数描述:;
式中,生成器用于最小化这个函数,判别器/>用于最大化这个函数;表示判别器正确识别真实数据的概率;/>表示判别器正确识别生成数据的概率。
5.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step3中自适应编码损伤修复算法提升编码性能的步骤为采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐,同时采用时空注意力融合模块进行特征融合,最后引入自适应模块构成整体网络结构;其中,采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的步骤为:
Step 3.1-1、使用通过不同尺度的卷积层从每个视频帧中提取多尺度特征,并创建一个特征金字塔,每个级别代表不同的空间分辨率,用于捕捉不同尺度的动态变化;
Step 3.1-2、在每个级别上,应用可变形卷积,允许网络动态的调整卷积核的形状,适应帧间的运动和变化;
Step 3.1-3、将对齐的多尺度特征重新结合,构建对齐特征表示;
Step 3.1-4、将每一帧的特征进行变形对齐,记为,/>;给定U个采样位置的可变形卷积核,分别将/>和/>分别表示第/>个位置的权重和预指定的偏移量,在每个位置的对齐特征由以下公式得到:/>;
式中,表示连续帧的个数,/>表示第/>个时刻的输入帧,/>表示对齐特征,/>和/>由相邻帧和参考帧的连接特征预测:/>;
式中,表示由多个卷积层组成的一般函数,[,]表示连接操作;
Step 3.1-5、采用金字塔处理和级联细化,采用卷积滤波器对金字塔层的特征进行2倍的下采样,得到第/>层的特征/>,同时,偏移量使用2倍的上采样偏移量,对齐特征使用/>层的对齐特征进行预测,其公式如下:/>;
式中,表示放大因子2,DConv为可变形卷积;
采用时空注意力融合模块进行特征融合的步骤为:
Step 3.2-1、采用时空注意力融合模块从可见光视频流和红外视频流的视频帧中提取特征,对于每一帧,相似距离/>的计算公式为:;式中,/>和/>为两个嵌入;
Step 3.2-2、将图片按照逐像素的方式与原始对齐的特征相乘,采用一个额外的卷积层来聚合这些特征,其公式如下:/>;
引入自适应模块构成整体网络结构的过程为:整个网络从参数上划分为固定参数和自适应参数,固定参数经训练后保持不变,自适应参数随不同编码内容做自适应调整;在编码阶段,首先经HEVC编码得到编码码流与重建视频,其中,/>为输入,/>表示在/>之后的第/>个帧;初始化count=0,将重建视频输入自适应算法结构,固定非自适应参数,反向传播更新自适应参数,同时count+1;在解码阶段,首先使用HEVC解码器解码得到重建视频/>,加载自适应模块参数到修复网络;按照编码码流处理全部视频,输出经自适应编码损伤修复后的视频。
6.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step4中进行融合编码,生成融合视频流的步骤为:
Step 4.1、使用卷积神经网络从可见光视频和红外视频流中提取特征,其公式为:;式中,/>为特征,/>和/>分别为权重和偏置,/>为激活函数,/>为输入;
Step 4.2、对可见光视频和红外视频流进行特征级加权融合,经过加权融合后采用逆卷积技术从融合的特征重建视频帧,加权融合公式为:;
式中,为融合系数;
Step 4.3、通过训练深度神经网络损失函数来优化融合效果,其公式为:;式中,/>为模型的输出,是模型基于输入数据给出的估计或推断;/>是由数据集得到的,代表每个输入数据点的实际标签或结果;/>代表数据集中样本的总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155470.9A CN117692652B (zh) | 2024-02-04 | 2024-02-04 | 一种基于深度学习的可见光与红外视频融合编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155470.9A CN117692652B (zh) | 2024-02-04 | 2024-02-04 | 一种基于深度学习的可见光与红外视频融合编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117692652A true CN117692652A (zh) | 2024-03-12 |
CN117692652B CN117692652B (zh) | 2024-04-26 |
Family
ID=90130455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410155470.9A Active CN117692652B (zh) | 2024-02-04 | 2024-02-04 | 一种基于深度学习的可见光与红外视频融合编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117692652B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110493494A (zh) * | 2019-05-31 | 2019-11-22 | 杭州海康威视数字技术股份有限公司 | 图像融合装置及图像融合方法 |
KR102047977B1 (ko) * | 2019-08-21 | 2019-11-22 | 주식회사 인포웍스 | 심층 신경망 알고리즘 기반 eo/ir 영상 융합 시스템 및 방법 |
CN114972748A (zh) * | 2022-04-28 | 2022-08-30 | 北京航空航天大学 | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 |
CN115861754A (zh) * | 2022-12-08 | 2023-03-28 | 北京工商大学 | 一种低照度条件下的红外与可见光图像的融合方法 |
CN117496319A (zh) * | 2023-11-02 | 2024-02-02 | 东北大学 | 基于未配准双模态图像融合的全天候目标检测系统及方法 |
-
2024
- 2024-02-04 CN CN202410155470.9A patent/CN117692652B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110493494A (zh) * | 2019-05-31 | 2019-11-22 | 杭州海康威视数字技术股份有限公司 | 图像融合装置及图像融合方法 |
KR102047977B1 (ko) * | 2019-08-21 | 2019-11-22 | 주식회사 인포웍스 | 심층 신경망 알고리즘 기반 eo/ir 영상 융합 시스템 및 방법 |
CN114972748A (zh) * | 2022-04-28 | 2022-08-30 | 北京航空航天大学 | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 |
CN115861754A (zh) * | 2022-12-08 | 2023-03-28 | 北京工商大学 | 一种低照度条件下的红外与可见光图像的融合方法 |
CN117496319A (zh) * | 2023-11-02 | 2024-02-02 | 东北大学 | 基于未配准双模态图像融合的全天候目标检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117692652B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Learned block-based hybrid image compression | |
US8395642B2 (en) | Method for virtual image synthesis | |
US8270752B2 (en) | Depth reconstruction filter for depth coding videos | |
CN108495135B (zh) | 一种屏幕内容视频编码的快速编码方法 | |
US8189943B2 (en) | Method for up-sampling depth images | |
CN108028941A (zh) | 用于通过超像素编码和解码数字图像的方法和装置 | |
CN107820085B (zh) | 一种基于深度学习的提高视频压缩编码效率的方法 | |
CN112291562B (zh) | 针对h.266/vvc的快速cu分区和帧内模式决策方法 | |
CN104992419A (zh) | 基于jnd因子的超像素高斯滤波预处理方法 | |
CN110677624B (zh) | 基于深度学习的面向监控视频的前景和背景并行压缩方法 | |
Wang et al. | Semantic-aware video compression for automotive cameras | |
Li et al. | Fastllve: Real-time low-light video enhancement with intensity-aware look-up table | |
Jaisurya et al. | Attention-based single image dehazing using improved cyclegan | |
CN117692652B (zh) | 一种基于深度学习的可见光与红外视频融合编码方法 | |
CN117061760A (zh) | 一种基于注意力机制的视频压缩方法和系统 | |
CN114663315A (zh) | 基于语义融合生成对抗网络的图像比特增强方法及装置 | |
CN115222606A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
CN116760983B (zh) | 用于视频编码的环路滤波方法及装置 | |
Zhu et al. | Spatial and temporal models for texture-based video coding | |
Song et al. | A multi-stage feature fusion defogging network based on the attention mechanism | |
CN116996680B (zh) | 一种用于视频数据分类模型训练的方法及装置 | |
Li et al. | You Can Mask More For Extremely Low-Bitrate Image Compression | |
CN117714697B (zh) | 数字人视频显示方法及设备 | |
Li et al. | Compression-based quality predictor of 3D-synthesized views | |
Liu et al. | A Diffusion Model Based Quality Enhancement Method for HEVC Compressed Video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |