CN117692652B - 一种基于深度学习的可见光与红外视频融合编码方法 - Google Patents

一种基于深度学习的可见光与红外视频融合编码方法 Download PDF

Info

Publication number
CN117692652B
CN117692652B CN202410155470.9A CN202410155470A CN117692652B CN 117692652 B CN117692652 B CN 117692652B CN 202410155470 A CN202410155470 A CN 202410155470A CN 117692652 B CN117692652 B CN 117692652B
Authority
CN
China
Prior art keywords
video
fusion
visible light
representing
video stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410155470.9A
Other languages
English (en)
Other versions
CN117692652A (zh
Inventor
赵作鹏
刘营
胡建峰
缪小然
闵冰冰
高宇蒙
雅可
贺晨
赵广明
周杰
赵强
唐婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Biteda Information Technology Co ltd
China University of Mining and Technology CUMT
Original Assignee
Jiangsu Biteda Information Technology Co ltd
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Biteda Information Technology Co ltd, China University of Mining and Technology CUMT filed Critical Jiangsu Biteda Information Technology Co ltd
Priority to CN202410155470.9A priority Critical patent/CN117692652B/zh
Publication of CN117692652A publication Critical patent/CN117692652A/zh
Application granted granted Critical
Publication of CN117692652B publication Critical patent/CN117692652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/11Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于深度学习的可见光与红外视频融合编码方法,步骤包括采集同一场景下的可见光视频流和红外视频流;对采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;采用自适应编码损伤修复算法提升编码性能;通过融合编码算法对经编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。实现了对不同模态视频流选择合适的预处理操作,减少了噪声的同时增强对比度,保持了视频更多的细节;通过在EDVR模型的框架中融入自适应损伤修复算法,增进了网络修复的效果,大大提高了可见光和红外视频数融合处理的效率以及质量,扩大了可见光与红外视频编码融合技术的适用范围。

Description

一种基于深度学习的可见光与红外视频融合编码方法
技术领域
本发明涉及一种基于深度学习的可见光与红外视频融合编码方法,属于视频编码处理技术领域。
背景技术
传统的可见光与红外视频编码融合技术是一种处理和结合来自可见光摄像头和红外摄像头的视频数据的方法。可见光和红外视频是不同模态的数据,分别用于提供不同的信息。可见光视频提供丰富的颜色和纹理信息,红外视频则能够展现温度分布和在低光照条件下的细节。
传统融合技术在处理大量的可见光和红外视频数据时存在效率低下以及图像处理质量低的问题。这主要归因于可见光和红外视频数据在帧率、分辨率和动态范围方面的本质差异。在实时性和高分辨率有严格要求的场景中,如军事侦察、高速交通监控等,因为需要快速处理和融合大量数据流,传统技术无法满足这些应用的特定需求,此外,不同的环境条件,如光照变化、温度波动,也可能对融合效果产生不利影响。在融合过程中,需同时处理两种不同类型的数据,在高压缩率下导致图像质量下降,例如,红外数据在保留热成像细节方面极为重要,但在压缩过程中可能会丢失关键信息。此外,不同类型的噪声和失真可能在融合过程中相互影响,进一步降低最终图像质量.
本发明的目的在于提供一种基于深度学习的可见光与红外视频融合编码方法,该方法能够提高可见光和红外视频数融合处理的效率以及质量,扩大可见光与红外视频编码融合技术的适用范围。
为了实现上述目的,本发明提供一种基于深度学习的可见光与红外视频融合编码方法,包括如下步一种基于深度学习的可见光与红外视频融合编码方法,包括如下步骤:
Step 1、采集同一场景下的可见光视频流和红外视频流;
Step 2、对Step 1中采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;
Step 3、采用自适应编码损伤修复算法提升编码性能,步骤为采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐,同时采用时空注意力融合模块进行特征融合,最后引入自适应模块构成整体网络结构;其中,采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的步骤为:
Step 3.1-1、使用通过不同尺度的卷积层从每个视频帧中提取多尺度特征,并创建一个特征金字塔,每个级别代表不同的空间分辨率,用于捕捉不同尺度的动态变化;
Step 3.1-2、在每个级别上,应用可变形卷积,允许网络动态的调整卷积核的形状,适应帧间的运动和变化;
Step 3.1-3、将对齐的多尺度特征重新结合,构建对齐特征表示;
Step 3.1-4、将每一帧的特征进行变形对齐,记为给定U个采样位置的可变形卷积核,将/>和/>分别表示第/>个位置的权重和预指定的偏移量,在每个位置的对齐特征由以下公式得到:其中,/>表示连续帧的个数,/>表示第/>个时刻的输入帧,/>表示对齐特征,/>表示可变形卷积中学习到的偏移量,表示对偏移量的修正和调制;/>和/>由相邻帧和参考帧的连接特征预测:式中,/>表示由多个卷积层组成的一般函数,/>表示连接操作;Step 3.1-5、采用金字塔处理和级联细化,采用卷积滤波器对金字塔层的特征进行2倍的下采样,得到第/>层的特征/>,同时,偏移量使用2倍的上采样偏移量,对齐特征使用/>层的对齐特征进行预测,其公式如下:;式中,/>表示放大因子2,DConv为可变形卷积; 采用时空注意力融合模块进行特征融合的步骤为:
Step 3.2-1、采用时空注意力融合模块从可见光视频流和红外视频流的视频帧中提取特征,对于每一帧相似距离/>的计算公式为:式中,/>和/>为两个嵌入;Step 3.2-2、将图片按照逐像素的方式与原始对齐的特征/>相乘,采用一个额外的卷积层来聚合这些特征,其公式如下:引入自适应模块构成整体网络结构的过程为:整个网络从参数上划分为固定参数和自适应参数,固定参数经训练后保持不变,自适应参数随不同编码内容做自适应调整;在编码阶段,首先经HEVC编码得到编码码流与重建视频/>其中,/>为输入,/>表示在/>之后的第/>个帧;初始化count=0,将重建视频输入自适应算法结构,固定非自适应参数,反向传播更新自适应参数,同时count+1;在解码阶段,首先使用HEVC解码器解码得到重建视频加载自适应模块参数到修复网络;按照编码码流处理全部视频,输出经自适应编码损伤修复后的视频;Step 4、通过融合编码算法对经Step 3编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。
进一步地,所述Step 2中对可见光视频流和红外视频流分别进行去噪操作的步骤为:
Step 2.1-1、对可见光视频流通过高斯函数作为权重对邻域内的像素进行加权平均,高斯滤波器的核定义为:/>式中,/>为高斯核的标准差;Step 2.1-2、对红外视频流采用小波变换去噪,设/>为小波变换的系数,去噪后的系数/>通过阈值处理得到:/>式中,/>为阈值,根据信号特性及噪声水平确定;(x,y)表示位置,/>表示在位置(x,y)的小波变换的系数。
进一步地,所述Step 2中对可见光视频流和红外视频流进行对比度增强操作的步骤为:
Step 2.2-1、将可见光视频流和红外视频流图像分别划分为多个区块,对于每个区块,计算其直方图/> 式中,/>为区块/>中像素点的位置,当/>为像素值时其值为1,否则为0;Step 2.2-2、对每个直方图的灰度级,计算累积分布函数:/>式中,/>为灰度值/>在区块/>的直方图中的像素数,其中,/>表示取不同的灰度值,/>为区域中的像素总数;Step 2.2-3、使用累积分布函数/>重新映射区域中的像素值:式中,/>是原始图像在区域的坐标位置/>处的像素值,/>是均衡化后的新像素值,/>是灰度级数量。
进一步地,所述Step 2中采用生成对抗网络对视频进行编码的步骤为:
Step 2.3-1、生成对抗网络包括生成器和判别器两部分,生成器包含编码器和解码器;首先模型接收一个随机噪声向量,并将生成数据表示为/>,其中生成器以随机噪声向量/>作为输入,通过参数/>生成视频帧/>,将视频帧/>输入到生成器/>,结果反馈一个标量用于表示输入数据是真实数据的概率,其表示为/>,判别器/>通过计算真实数据和生成数据的均值与协方差矩阵进行比对,评估生成的视频帧是接近真实还是虚假的数据,通过参数/>进行判别;其中比对公式为:式中,/>表示矩阵对角线元素的综合,即矩阵的迹;/>和/>分别表示真实的视频帧和生成的视频帧,/>表示均值;若结果数值FID小于10,表示生成数据与真实数据接近;/>表示真实图像的协方差矩阵;/>表示生成图像的协方差矩阵;Step 2.3-2、生成对抗网络的训练过程通过以下目标函数描述:式中,生成器/>用于最小化这个函数,判别器/>用于最大化这个函数;/>表示判别器正确识别真实数据的概率;/>表示判别器正确识别生成数据的概率。
进一步地,所述Step4中进行融合编码,生成融合视频流的步骤为:
Step 4.1、使用卷积神经网络从可见光视频和红外视频流中提取特征,其公式为:式中,/>为特征,/>和/>分别为权重和偏置,/>为激活函数,/>为输入;Step 4.2、对可见光视频和红外视频流进行特征级加权融合,经过加权融合后采用逆卷积技术从融合的特征重建视频帧,加权融合公式为:式中,/>为融合系数;Step 4.3、通过训练深度神经网络损失函数来优化融合效果,其公式为:/>式中,/>代表损失函数的值,/>为模型的输出,是模型基于输入数据给出的估计或推断;/>是由数据集得到的,代表每个输入数据点的实际标签或结果;/>代表数据集中样本的总数。
本发明通过采集同一场景下的可见光视频流和红外视频流;对采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;采用自适应编码损伤修复算法提升编码性能;通过融合编码算法对经编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。实现了对不同模态视频流选择合适的预处理操作,减少了噪声的同时增强对比度,保持了视频更多的细节;通过在EDVR模型的框架中融入自适应损伤修复算法,有效地处理视频中的动态变化,尤其是在光照条件差异显著地场景中,对不同内容进行自适应处理,增进了网络修复的效果;对修复后不同模态的视频流采用基于卷积网络的融合操作,有效融合红外和可见光的信息,大大提高了可见光和红外视频数融合处理的效率以及质量,扩大了可见光与红外视频编码融合技术的适用范围。
附图说明
图1是本发明的流程示意图;
图2是本发明采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的流程图;
图3是本发明采用时空注意力融合模块进行特征融合的流程图;
图4是本发明引入自适应模块构成整体网络结构的流程图;
图5是本发明实施例对红外视频帧进行小波变换去噪以及自适应直方图均衡化处理后得到的图像;
图6是本发明实施例对对可见光视频帧处理后得到的图像;
图7是本发明实施例对红外视频帧和可见光视频帧进行加权融合对齐后得到的图像。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于深度学习的可见光与红外视频融合编码方法,包括如下步骤:
Step 1、采集同一场景下的可见光视频流和红外视频流;
Step 2、对Step 1中采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;
Step 3、采用自适应编码损伤修复算法提升编码性能,步骤为采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐,同时采用时空注意力融合模块进行特征融合,最后引入自适应模块构成整体网络结构;其中,采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的步骤为:
Step 3.1-1、使用通过不同尺度的卷积层从每个视频帧中提取多尺度特征,并创建一个特征金字塔,每个级别代表不同的空间分辨率,用于捕捉不同尺度的动态变化;
Step 3.1-2、在每个级别上,应用可变形卷积,允许网络动态的调整卷积核的形状,适应帧间的运动和变化;
Step 3.1-3、将对齐的多尺度特征重新结合,构建对齐特征表示;
Step 3.1-4、如图2所示,将每一帧的特征进行变形对齐,记为给定U个采样位置的可变形卷积核,将/>和/>分别表示第/>个位置的权重和预指定的偏移量,在每个位置的对齐特征由以下公式得到:其中,/>表示连续帧的个数,/>表示第/>个时刻的输入帧,/>表示对齐特征,/>表示可变形卷积中学习到的偏移量,表示对偏移量的修正和调制;/>和/>由相邻帧和参考帧的连接特征预测:式中,/>表示由多个卷积层组成的一般函数,/>表示连接操作;Step 3.1-5、采用金字塔处理和级联细化,采用卷积滤波器对金字塔层的特征进行2倍的下采样,得到第/>层的特征/>,同时,偏移量使用2倍的上采样偏移量,对齐特征使用/>层的对齐特征进行预测,其公式如下:;式中,/>表示放大因子2,DConv为可变形卷积;
如图3所示,采用时空注意力融合模块首先从视频帧中提取特征;其次,采用空间注意力机制和时间注意力机制,关注每个帧内的关键区域,强调重要的空间特征,同时分析帧序列中的时间关联性,确定哪些帧在时间上更重要;结合空间和时间注意力加权的特征,使用得到的融合特征来重建或增强视频,具体采用时空注意力融合模块进行特征融合的步骤为:
Step 3.2-1、采用时空注意力融合模块从可见光视频流和红外视频流的视频帧中提取特征,对于每一帧相似距离/>的计算公式为:式中,/>和/>为两个嵌入;Step 3.2-2、如图4所示,将图片按照逐像素的方式与原始对齐的特征/>相乘,采用一个额外的卷积层来聚合这些特征,其公式如下:引入自适应模块构成整体网络结构的过程为:整个网络从参数上划分为固定参数和自适应参数,固定参数经训练后保持不变,自适应参数随不同编码内容做自适应调整;在编码阶段,首先经HEVC编码得到编码码流与重建视频/>其中,/>为输入,/>表示在/>之后的第/>个帧;初始化count=0,将重建视频输入自适应算法结构,固定非自适应参数,反向传播更新自适应参数,同时count+1;在解码阶段,首先使用HEVC解码器解码得到重建视频加载自适应模块参数到修复网络;按照编码码流处理全部视频,输出经自适应编码损伤修复后的视频;Step 4、通过融合编码算法对经Step 3编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。
作为一种优选的实施方式,所述Step 2中对可见光视频流和红外视频流分别进行去噪操作的步骤为:
Step 2.1-1、对可见光视频流通过高斯函数作为权重对邻域内的像素进行加权平均,高斯滤波器的核定义为:/>式中,/>为高斯核的标准差;Step 2.1-2、对红外视频流采用小波变换去噪,设/>为小波变换的系数,去噪后的系数/>通过阈值处理得到:式中,/>为阈值,根据信号特性及噪声水平确定;(x,y)表示位置,/>表示在位置(x,y)的小波变换的系数。
作为一种优选的实施方式,针对可见光视频流和红外视频流的对比度增强,采用自适应直方图均衡化(AHE),自适应直方图均衡化适合于改善图像的局部对比度,同时避免在亮度较高或较低的区域过度放大噪声。自适应直方图均衡化通过对图像分区域进行直方图均衡化来增强对比度。所述Step 2中对可见光视频流和红外视频流进行对比度增强操作的步骤为:
Step 2.2-1、将可见光视频流和红外视频流图像分别划分为多个区块,对于每个区块,计算其直方图/> 式中,/>为区块/>中像素点的位置,当/>为像素值时其值为1,否则为0;Step 2.2-2、对每个直方图的灰度级,计算累积分布函数:/>式中,/>为灰度值/>在区块/>的直方图中的像素数,其中,/>表示取不同的灰度值,/>为区域中的像素总数;Step 2.2-3、使用累积分布函数/>重新映射区域中的像素值:式中,/>是原始图像在区域的坐标位置/>处的像素值,/>是均衡化后的新像素值,/>是灰度级数量。
作为一种优选的实施方式,所述Step 2中采用生成对抗网络对视频进行编码的步骤为:
Step 2.3-1、生成对抗网络包括生成器和判别器两部分,生成器包含编码器和解码器;首先模型接收一个随机噪声向量,并将生成数据表示为/>,其中生成器以随机噪声向量/>作为输入,通过参数/>生成视频帧/>,将视频帧/>输入到生成器/>,结果反馈一个标量用于表示输入数据是真实数据的概率,其表示为/>,判别器/>通过计算真实数据和生成数据的均值与协方差矩阵进行比对,评估生成的视频帧是接近真实还是虚假的数据,通过参数/>进行判别;其中比对公式为:式中,/>表示矩阵对角线元素的综合,即矩阵的迹;/>和/>分别表示真实的视频帧和生成的视频帧,/>表示均值;若结果数值FID小于10,表示生成数据与真实数据接近;/>表示真实图像的协方差矩阵;/>表示生成图像的协方差矩阵;Step 2.3-2、生成对抗网络的训练过程通过以下目标函数描述:式中,生成器/>用于最小化这个函数,判别器/>用于最大化这个函数;/>表示判别器正确识别真实数据的概率;/>表示判别器正确识别生成数据的概率。
进一步地,所述Step4中进行融合编码,生成融合视频流的步骤为:
Step 4.1、使用卷积神经网络从可见光视频和红外视频流中提取特征,其公式为:式中,/>为特征,/>和/>分别为权重和偏置,/>为激活函数,/>为输入;Step 4.2、对可见光视频和红外视频流进行特征级加权融合,经过加权融合后采用逆卷积技术从融合的特征重建视频帧,加权融合公式为:式中,/>为融合系数;Step 4.3、通过训练深度神经网络损失函数来优化融合效果,其公式为:式中,/>代表损失函数的值,/>为模型的输出,是模型基于输入数据给出的估计或推断;/>是由数据集得到的,代表每个输入数据点的实际标签或结果;/>代表数据集中样本的总数。
实施例:
将一组红外视频帧和可见光视频帧进行融合,以增强夜间或低光照环境下的视觉感知,具体操作过程如下:
(1)应用小波变换去噪技术,通过在小波域对图像进行分解,在此过程中,需要选择一个适当的小波基和分解的层数。在本处理中,使用了db1(Daubechies小波)作为小波基,并且分解了3层,然后对分解得到的小波系数进行阈值处理,阈值的确定使用Donoho的普适阈值公式:
其中,是高斯核的标准差,/>为区域中的像素总数;其次,为了增强图像的对比度,进行了自适应直方图均衡化操作,我们定义了一个小区域的大小,如8×8像素,通过对图像的局部区域进行直方图均衡化,进一步提升了图像的局部对比度,使得图像的细节更加清晰,如图5所示为通过对红外视频帧进行小波变换去噪以及自适应直方图均衡化;
为了减少图像中的随机噪声,高斯滤波器利用高斯函数对图像中的每个像素与其邻域像素的值进行加权平均,将图像中的噪声平滑出去。高斯滤波器的核大小决定了滤波器邻域的大小,在本处理中,选择大小为3×3的核;同时,根据图像的噪声水平,选择数值为0.5的标准差;其次,采用自适应直方图均衡化处理,将图像分割成许多小块(tiles),选择小块的大小为8×8像素,Clip limit用于限制直方图均衡化过程中对比度的放大,以避免过度增强噪声,独立地对图像的各个小区域进行均衡化,根据图片的分辨率,本处理选择clip limit的值为0.02,在不丢失过多细节的条件下使得整体图像的对比度得到提升,如图6所示为通过对可见光图像进行了图像处理技术后得到;
(2)使用生成对抗网络模型对视频进行编码并提取红外和可见光视频帧的特征;
(3)使用EDVR模型中的可变形卷积对齐模块对特征进行时空对齐,并使用时空注意力机制加权融合对齐后的特征,具体为在获取了同一场景下的红外视频帧和可见光视频帧后,分别提取不同视频帧的特征。首先,通过可变形卷积对齐处理,将两种类型的特征进行时空对齐,确保它们在空间上是一致的,在本处理中,选择3×3的可变形卷积核大小以及8个可变形偏移量;其次,通过时空注意力模块,自动决定从每个视频流中提取哪些特征,并以多大的权重进行融合,在本处理中,融合权重设置为0.6,着重强调了红外图像的特征及场景中最重要的视觉信息;最后通过EDVR的解码器从融合后的特征重建了最终的图像。在评价图片的理想程度时,评价标准选择为峰值信噪比(PSNR)和结构相似性指数(SSIM),将PSNR值高于30dB、SSIM值接近1.0作为理想图片的评价参数。该图像结合了两种视频流的信息,提供了比单一红外或可见光图像更全面、更丰富的视觉表示,如图7所示。
综上所述,本发明提出了一种新颖的可见光与红外视频流编码融合的方法。其中,引入自适应损坏修复模块,增强了网络修复的效果,在使用艾睿光电DTC300设备采集的通用双光数据集上表现优于其它方法。
本发明例还提供了一种视频目标级融合方法的运行平台装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的一种基于深度学习的可见光与红外视频融合编码方法的步骤。
存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种基于深度学习的可见光与红外视频融合编码方法的步骤。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于深度学习的可见光与红外视频融合编码方法的步骤。

Claims (5)

1.一种基于深度学习的可见光与红外视频融合编码方法,其特征在于,包括如下步骤:
Step 1、采集同一场景下的可见光视频流和红外视频流;
Step 2、对Step 1中采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;
Step 3、采用自适应编码损伤修复算法提升编码性能,步骤为采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐,同时采用时空注意力融合模块进行特征融合,最后引入自适应模块构成整体网络结构;其中,采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的步骤为:
Step 3.1-1、使用通过不同尺度的卷积层从每个视频帧中提取多尺度特征,并创建一个特征金字塔,每个级别代表不同的空间分辨率,用于捕捉不同尺度的动态变化;
Step 3.1-2、在每个级别上,应用可变形卷积,允许网络动态的调整卷积核的形状,适应帧间的运动和变化;
Step 3.1-3、将对齐的多尺度特征重新结合,构建对齐特征表示;
Step 3.1-4、将每一帧的特征进行变形对齐,记为给定U个采样位置的可变形卷积核,将/>和/>分别表示第/>个位置的权重和预指定的偏移量,在每个位置的对齐特征由以下公式得到:其中,/>表示连续帧的个数,/>表示第/>个时刻的输入帧,/>表示对齐特征,/>表示可变形卷积中学习到的偏移量,表示对偏移量的修正和调制;/>和/>由相邻帧和参考帧的连接特征预测:式中,/>表示由多个卷积层组成的一般函数,/>表示连接操作;Step 3.1-5、采用金字塔处理和级联细化,采用卷积滤波器对金字塔层的特征进行2倍的下采样,得到第/>层的特征/>,同时,偏移量使用2倍的上采样偏移量,对齐特征使用/>层的对齐特征进行预测,其公式如下:;式中,/>表示放大因子2,DConv为可变形卷积; 采用时空注意力融合模块进行特征融合的步骤为:
Step 3.2-1、采用时空注意力融合模块从可见光视频流和红外视频流的视频帧中提取特征,对于每一帧相似距离/>的计算公式为:式中,/>和/>为两个嵌入;Step 3.2-2、将图片按照逐像素的方式与原始对齐的特征/>相乘,采用一个额外的卷积层来聚合这些特征,其公式如下:/>引入自适应模块构成整体网络结构的过程为:整个网络从参数上划分为固定参数和自适应参数,固定参数经训练后保持不变,自适应参数随不同编码内容做自适应调整;在编码阶段,首先经HEVC编码得到编码码流与重建视频/>其中,/>为输入,表示在/>之后的第/>个帧;初始化count=0,将重建视频输入自适应算法结构,固定非自适应参数,反向传播更新自适应参数,同时count+1;在解码阶段,首先使用HEVC解码器解码得到重建视频/>加载自适应模块参数到修复网络;按照编码码流处理全部视频,输出经自适应编码损伤修复后的视频;Step 4、通过融合编码算法对经Step3编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。
2.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中对可见光视频流和红外视频流分别进行去噪操作的步骤为:
Step 2.1-1、对可见光视频流通过高斯函数作为权重对邻域内的像素进行加权平均,高斯滤波器的核定义为:/>式中,/>为高斯核的标准差;Step 2.1-2、对红外视频流采用小波变换去噪,设/>为小波变换的系数,去噪后的系数/>通过阈值处理得到:/>式中,/>为阈值,根据信号特性及噪声水平确定;(x,y)表示位置,/>表示在位置(x,y)的小波变换的系数。
3.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中对可见光视频流和红外视频流进行对比度增强操作的步骤为:
Step 2.2-1、将可见光视频流和红外视频流图像分别划分为多个区块,对于每个区块,计算其直方图/> 式中,/>为区块/>中像素点的位置,当/>为像素值时其值为1,否则为0;Step 2.2-2、对每个直方图的灰度级/>,计算累积分布函数:/>式中,/>为灰度值/>在区块/>的直方图中的像素数,其中,/>表示取不同的灰度值,/>为区域中的像素总数;Step 2.2-3、使用累积分布函数/>重新映射区域中的像素值:式中,/>是原始图像在区域的坐标位置/>处的像素值,/>是均衡化后的新像素值,/>是灰度级数量。
4.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中采用生成对抗网络对视频进行编码的步骤为:
Step 2.3-1、生成对抗网络包括生成器和判别器两部分,生成器包含编码器和解码器;首先模型接收一个随机噪声向量,并将生成数据表示为/>,其中生成器/>以随机噪声向量/>作为输入,通过参数/>生成视频帧/>,将视频帧/>输入到生成器/>,结果反馈一个标量用于表示输入数据是真实数据的概率,其表示为/>,判别器/>通过计算真实数据和生成数据的均值与协方差矩阵进行比对,评估生成的视频帧/>是接近真实还是虚假的数据,通过参数/>进行判别;其中比对公式为:式中,/>表示矩阵对角线元素的综合,即矩阵的迹;/>和/>分别表示真实的视频帧和生成的视频帧,/>表示均值;若结果数值FID小于10,表示生成数据与真实数据接近;/>表示真实图像的协方差矩阵;/>表示生成图像的协方差矩阵;Step 2.3-2、生成对抗网络的训练过程通过以下目标函数描述:式中,生成器/>用于最小化这个函数,判别器/>用于最大化这个函数;/>表示判别器正确识别真实数据的概率;/>表示判别器正确识别生成数据的概率。
5.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step4中进行融合编码,生成融合视频流的步骤为:
Step 4.1、使用卷积神经网络从可见光视频和红外视频流中提取特征,其公式为:式中,/>为特征,/>和/>分别为权重和偏置,/>为激活函数,/>为输入;Step 4.2、对可见光视频和红外视频流进行特征级加权融合,经过加权融合后采用逆卷积技术从融合的特征重建视频帧,加权融合公式为:式中,/>为融合系数;Step 4.3、通过训练深度神经网络损失函数来优化融合效果,其公式为:式中,/>代表损失函数的值,/>为模型的输出,是模型基于输入数据给出的估计或推断;/>是由数据集得到的,代表每个输入数据点的实际标签或结果;/>代表数据集中样本的总数。
CN202410155470.9A 2024-02-04 2024-02-04 一种基于深度学习的可见光与红外视频融合编码方法 Active CN117692652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410155470.9A CN117692652B (zh) 2024-02-04 2024-02-04 一种基于深度学习的可见光与红外视频融合编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410155470.9A CN117692652B (zh) 2024-02-04 2024-02-04 一种基于深度学习的可见光与红外视频融合编码方法

Publications (2)

Publication Number Publication Date
CN117692652A CN117692652A (zh) 2024-03-12
CN117692652B true CN117692652B (zh) 2024-04-26

Family

ID=90130455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410155470.9A Active CN117692652B (zh) 2024-02-04 2024-02-04 一种基于深度学习的可见光与红外视频融合编码方法

Country Status (1)

Country Link
CN (1) CN117692652B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493494A (zh) * 2019-05-31 2019-11-22 杭州海康威视数字技术股份有限公司 图像融合装置及图像融合方法
KR102047977B1 (ko) * 2019-08-21 2019-11-22 주식회사 인포웍스 심층 신경망 알고리즘 기반 eo/ir 영상 융합 시스템 및 방법
CN114972748A (zh) * 2022-04-28 2022-08-30 北京航空航天大学 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN115861754A (zh) * 2022-12-08 2023-03-28 北京工商大学 一种低照度条件下的红外与可见光图像的融合方法
CN117496319A (zh) * 2023-11-02 2024-02-02 东北大学 基于未配准双模态图像融合的全天候目标检测系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493494A (zh) * 2019-05-31 2019-11-22 杭州海康威视数字技术股份有限公司 图像融合装置及图像融合方法
KR102047977B1 (ko) * 2019-08-21 2019-11-22 주식회사 인포웍스 심층 신경망 알고리즘 기반 eo/ir 영상 융합 시스템 및 방법
CN114972748A (zh) * 2022-04-28 2022-08-30 北京航空航天大学 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN115861754A (zh) * 2022-12-08 2023-03-28 北京工商大学 一种低照度条件下的红外与可见光图像的融合方法
CN117496319A (zh) * 2023-11-02 2024-02-02 东北大学 基于未配准双模态图像融合的全天候目标检测系统及方法

Also Published As

Publication number Publication date
CN117692652A (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN110087087B (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
CN108495135B (zh) 一种屏幕内容视频编码的快速编码方法
Wu et al. Learned block-based hybrid image compression
CN110798690B (zh) 视频解码方法、环路滤波模型的训练方法、装置和设备
JP2020508010A (ja) 画像処理およびビデオ圧縮方法
US20100238160A1 (en) Method for Virtual Image Synthesis
CN106688232A (zh) 基于模型的视频编码的感知优化
CN108028941A (zh) 用于通过超像素编码和解码数字图像的方法和装置
CN112291562B (zh) 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN107820085B (zh) 一种基于深度学习的提高视频压缩编码效率的方法
CN111988611A (zh) 量化偏移信息的确定方法、图像编码方法、装置及电子设备
CN110366048A (zh) 视频传输方法、装置、电子设备和计算机可读存储介质
CN113068034B (zh) 视频编码方法及装置、编码器、设备、存储介质
CN112333451A (zh) 一种基于生成对抗网络的帧内预测方法
Löhdefink et al. On low-bitrate image compression for distributed automotive perception: Higher peak snr does not mean better semantic segmentation
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
Wang et al. Semantic-aware video compression for automotive cameras
CN110677624A (zh) 基于深度学习的面向监控视频的前景和背景并行压缩方法
Hu et al. Deep inter prediction with error-corrected auto-regressive network for video coding
CN117692652B (zh) 一种基于深度学习的可见光与红外视频融合编码方法
Wang et al. A two-stage h. 264 based video compression method for automotive cameras
CN111723735A (zh) 一种基于卷积神经网络的伪高码率hevc视频检测方法
CN116711301A (zh) 虚拟视点生成、渲染、解码方法及装置、设备、存储介质
CN116760983B (zh) 用于视频编码的环路滤波方法及装置
CN112991192A (zh) 图像处理方法、装置、设备及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant