CN117726541A - 一种基于二值化神经网络的暗光视频增强方法及装置 - Google Patents
一种基于二值化神经网络的暗光视频增强方法及装置 Download PDFInfo
- Publication number
- CN117726541A CN117726541A CN202410176676.XA CN202410176676A CN117726541A CN 117726541 A CN117726541 A CN 117726541A CN 202410176676 A CN202410176676 A CN 202410176676A CN 117726541 A CN117726541 A CN 117726541A
- Authority
- CN
- China
- Prior art keywords
- video
- binarization
- neural network
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 238000005286 illumination Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 238000013441 quality evaluation Methods 0.000 claims abstract description 9
- 230000006798 recombination Effects 0.000 claims abstract description 8
- 238000005215 recombination Methods 0.000 claims abstract description 8
- 238000013519 translation Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 29
- 238000009472 formulation Methods 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 21
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 10
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000008521 reorganization Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本申请提出了一种基于二值化神经网络的暗光视频增强方法及装置,该方法包括:获取Bayer阵列存储的RAW暗光带噪视频,对RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频;构建候选二值化神经网络,根据候选二值化神经网络提取初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频;基于最终优化视频和参考正常光照图像,计算损失值,并基于损失值对候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络;将其他初步优化视频输入二值化神经网络得到重建视频,根据图像质量评价标准评价重建视频,得到客观评估指标。本申请能够增强暗光视频的亮度,去除暗光环境拍摄产生的严重噪声。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一一种基于二值化神经网络的暗光视频增强方法及装置。
背景技术
暗光视频增强是低层计算机视觉领域中一项十分关键的任务。在光线不充足的环境中提高拍摄视频的亮度有一系列基于硬件的方案,例如提高ISO或增加曝光时间等。但是这些方案都存在各自的局限性,提高ISO会导致相机噪声的放大,而增加曝光时间则会在视频拍摄时带来运动模糊。随着深度学习的发展,利用深度神经网络的暗光视频增强方法提供了一种更好的基于软件的方案。
虽然这些基于深度学习的暗光视频增强方法能够增强暗光视频的亮度并减弱其中的噪声影响,有效地提高暗光视频的质量。但是,这些深度神经网络模型往往需要大量的参数和很高的计算量。随着智能手机的普及,人们使用手机或小型相机等边缘设备拍摄视频和图像的需求日益增长。因此,开发轻量化的高效的深度学习模型用于在这些边缘设备上增强暗光环境下拍摄视频的质量十分必要。
近年来,研究者们提出了各种神经网络压缩技术包括网络量化、参数剪枝、轻量化网络设计和知识蒸馏等。二值化神经网络属于网络量化技术的一种极端情况。在二值化网络中,网络的参数权重和特征都被表示为1比特(即只使用+1和-1两个值)。二值化网络不仅可以大大减小网络的参数量,也能够将全精度深度神经网络中的浮点数计算替换为更高效的位运算,从而大大提高了网络的计算速度和运行效率。
但是将二值化网络应用于暗光视频增强也面临着两大难点。一个是如何保证增强视频中的时间一致性以及充分利用时空信息去除暗光噪声,因为现有的一些基于光流对齐和可变性卷积的方案难以二值化。另一个是如何提高二值化网络的表达能力,使其能够更接近全精度网络的恢复效果。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为达上述目的,本申请第一方面实施例提出一种基于二值化神经网络的暗光视频增强方法,有效的解决了暗光视频存在的亮度低、噪声严重等视频质量退化问题,该方法包括:
获取Bayer阵列存储的RAW暗光带噪视频,对所述RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频;
构建候选二值化神经网络,根据所述候选二值化神经网络提取所述初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频;
基于所述最终优化视频和参考正常光照图像,计算损失值,并基于所述损失值对所述候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络;
将其他初步优化视频输入所述二值化神经网络得到重建视频,根据图像质量评价标准评价所述重建视频,得到客观评估指标。
可选的,所述获取Bayer阵列存储的RAW暗光带噪视频,对所述RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频,包括:
通过相机传感器获取连续帧以Bayer阵列存储的所述RAW暗光带噪视频;
对于连续帧以Bayer阵列存储的所述RAW暗光带噪视频/>,将每个2×2的单通道Bayer阵列模式重组成一个4通道的像素,得到重组视频;
根据所述RAW暗光带噪视频中记录的曝光时间和相机感光元件的感光度ISO,计算得到曝光增强系数,将所述曝光增强系数与所述重组视频相乘,得到初步优化视频。
可选的,所述候选二值化神经网络由第一二值化U-Net、平移二值化U-Net和第二二值化U-Net构成,所述根据所述候选二值化神经网络提取所述初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频,包括:
通过全精度卷积提取所述初步优化视频的浅层特征,根据所述第一二值化U-Net逐帧对所述浅层特征进行去噪处理,得到第一中间特征;
根据所述平移二值化U-Net将所述第一中间特征中的相邻帧进行时空特征融合,得到第二中间特征;
根据所述第二二值化U-Net从融合对齐的所述第二中间特征中重建出所述最终优化视频。
可选的,所述第一二值化U-Net由一个多层特征编码器和一个多层特征解码器组成,所述多层特征编码器包含三层,每一层通过多个分布感知的二值化卷积模块进行二值化特征提取,然后通过一个步长为2的平均池化作为下采样,所述多层特征解码器包含三层,每一层同样通过多个分布感知的二值化卷积模块进行二值化特征提取,然后采用双线性插值作为上采样,其中,对于某个二值化卷积模块,其计算过程为:
对暂存的全精度的卷积核权重进行二值化处理,得到只包含+1和-1的1比特权重/>以及全精度的缩放因子/>,公式化为:
其中,函数表示取符号函数,并且/>,表示其形状与全精度的卷积核保持一致,/>表示所述二值化卷积模块的输出通道数,/>表示所述二值化卷积模块的输入通道数,/>表示所述二值化卷积模块的卷积核空间大小,/>表示二值化之后只包含+1和-1的集合,/>表示对全精度的卷积核的第/>个输出通道求1范数,/>且;
通过函数对全精度的输入特征/>进行二值化处理,得到只包含+1和-1的二值化特征/>,公式化为:
其中,,是一个可学习的参数,用于控制每个通道特征进行二值化的阈值;
提取全精度的输入特征逐通道的分布特性,将所述分布特征送入通道注意力层,得到分布信息/>,公式化为:
其中,代表了输入特征的分布特性,/>函数和/>函数分别表示求均值和标准差,/>表示经过阈值偏移后的中间特征,/>表示所述通道注意力层,Sigmoid为激活函数,Conv1d为1维卷积;
通过比特权重、二值化特征/>、缩放因子/>和分布信息/>,计算该二值化卷积模块的输出特征/>,公式化为:
其中,表示特征逐通道相乘,/>表示二值化卷积,/>表示比特计数操作,表示按位异或操作。
可选的,所述平移二值化U-Net由一个三层平移特征编码器和一个三层平移特征解码器组成,不同层之间通过步长为2的平均池化作为下采样,并使用双线性插值作为上采样,其中,对于某一层的平移特征编解码器,其计算过程为:
对于输入特征,该层的平移特征编解码器每次处理连续三帧特征/>,将/>,公式化为:
其中,划分前的输入特征,划分后的特征/>,/>为该层平移特征编解码器对应的特征空间分辨率,/>为特征通道数,/>用于保留当前帧的特征信息,/>用于平移到相邻帧进行特征融合,若该层的平移特征编解码器为第一层的编码器,则/>=/>,否则/>为上一层平移特征编解码器的输出特征;
对进行环形时间平移操作,生成时间平移特征/>,对于时间平移特征/>中某个新的连续三帧特征集合/>,其表达形式为:
;
通过平移核将每个时间平移后的特征分为24个切片,根据平移核的方向进行平移,得到最终的空间平移特征/>,公式化为:
其中,表示平移核,平移核的大小/>等于24,表示向四周各个方向对应平移/>,/>表示特征/>的第/>个切片,/>表示在空间上沿着第/>个平移核的方向/>对特征进行平移,/>表示第/>个切片的空间平移特征/>,其中,在空间平移中导致的空缺区域全部用零填充;
将保留当前帧的特征信息的特征与时间平移特征/>以及空间平移特征/>进行拼接,得到该层平移特征编解码最终的时空平移特征/>,公式化为:
其中,/>;
通过二值化特征融合网络融合经过多层平移特征编解码处理后的时空平移特征,得到所述平移特征编解码基于连续三帧特征的输出特征/>,其中,所述二值化特征融合网络由多个分布感知的二值化卷积模块组成。
可选的,所述第二二值化U-Net与所述第一二值化U-Net的结构和参数相同。
可选的,所述基于所述最终优化视频和参考正常光照图像,计算损失值,并基于所述损失值对所述候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络,包括:
获取损失函数,将所述最终优化视频和参考正常光照图像输入所述损失函数,得到损失值,表达式为:
其中,表示对/>帧视频进行恢复的损失值,/>是一个固定的常数,/>表示第/>帧的参考正常光照图像,/>表示第/>帧的最终优化视频;
通过反向传播算法最小化所述损失值,并迭代优化所述候选二值化神经网络的网络模型参数,训练结束后,得到训练好的所述二值化神经网络。
可选的,所述根据图像质量评价标准评价所述重建视频,得到客观评估指标,包括:
对所述重建图像的峰值信噪比与结构相似性进行评估,得到所述客观评估指标。
为达上述目的,本申请第一方面实施例提出一种基于二值化神经网络的暗光视频增强装置,包括:
获取模块,用于获取Bayer阵列存储的RAW暗光带噪视频,对所述RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频;
重建模块,用于构建候选二值化神经网络,根据所述候选二值化神经网络提取所述初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频;
训练模块,用于基于所述最终优化视频和参考正常光照图像,计算损失值,并基于所述损失值对所述候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络;
评估模块,用于将其他初步优化视频输入所述二值化神经网络得到重建视频,根据图像质量评价标准评价所述重建视频,得到客观评估指标。
本申请的实施例提供的技术方案至少带来以下有益效果:
通过构建高度压缩的二值化神经网络,可以用极低的计算量和网络参数量达到令人满意的暗光视频增强效果,其能够有效的增强暗光视频的亮度,并且有效的去除暗光环境拍摄由于光子不足而产生的严重噪声;通过设计易于二值化的时空平移操作,高效地对齐相邻帧的特征,充分利用视频中的时空自相似性进行暗光视频去噪,其充分地融合了相邻帧的特征,从而达到更好的恢复效果;通过设计分布感知的二值化卷积模块,利用高效的通道注意力机制,能够充分感知全精度输入特征的分布信息,减少二值化所导致的量化误差,从而提高二值化神经网络的表达能力。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请实施例示出的一种基于二值化神经网络的暗光视频增强方法的流程图;
图2是根据本申请实施例示出的另一种基于二值化神经网络的暗光视频增强方法的流程图;
图3是根据本申请实施例示出的一种基于二值化神经网络的暗光视频增强装置的框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的一种基于二值化神经网络的暗光视频增强方法和装置。
图1是根据本申请实施例示出的一种基于二值化神经网络的暗光视频增强方法的流程图,如图1所示,该方法包括以下步骤:
步骤101,获取Bayer阵列存储的RAW暗光带噪视频,对RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频。
本申请实施例中,通过相机传感器获取连续帧以Bayer阵列存储的RAW暗光带噪视频,并对RAW暗光带噪视频进行初步提亮。
作为一种可能的实现方式,对于连续帧以Bayer阵列存储的RAW暗光带噪视频,将每个2×2的单通道Bayer阵列模式重组成一个4通道的像素,得到重组视频。
可以理解的是,重组操作能够使相邻像素表示不同颜色的Bayer阵列转化为4通道的图像,每一个通道表示同一种颜色。
并且,由于RAW格式的数据直接从相机的传感器得到,没有经过ISP中的非线性操作,其相对于场景亮度呈线性相关。因此,本申请根据RAW数据中记录的曝光时间和相机感光元件的感光度ISO等信息计算出一个曝光增强系数,通过将曝光增强系数与重组视频相乘,得到初步优化视频。
步骤102,构建候选二值化神经网络,根据候选二值化神经网络提取初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频。
可以理解的是,在步骤101中虽然对视频进行了初步提亮,但是其中仍存在严重的噪声,因此本申请设计了候选二值化神经网络,通过候选二值化神经网络对初步优化视频进行重建。
需要说明的是,候选二值化神经网络由第一二值化U-Net、平移二值化U-Net和第二二值化U-Net构成。
如图2所示,步骤102还包括:
步骤201,通过全精度卷积提取初步优化视频的浅层特征,根据第一二值化U-Net逐帧对浅层特征进行去噪处理,得到第一中间特征,/>,表示帧数的编号/>
本申请实施例中,首先通过一个全精度的卷积提取初步优化视频的浅层特征,从而可以保留更多的RAW视频输入的信息到特征空间,然后,浅层特征经过第一二值化U-Net进行特征的提取以及初步去噪处理。
需要说明的是,第一二值化U-Net由一个多层特征编码器和一个多层特征解码器组成,多层特征编码器包含三层,每一层通过多个分布感知的二值化卷积模块进行二值化特征提取,然后通过一个步长为2的平均池化作为下采样,多层特征解码器包含三层,每一层同样通过多个分布感知的二值化卷积模块进行二值化特征提取,然后采用双线性插值作为上采样。
作为一种可能的实现方式,对于某个二值化卷积模块,其计算过程为:
首先,对暂存的全精度的卷积核权重进行二值化处理,得到只包含+1和-1的1比特权重/>以及全精度的缩放因子/>,公式化为:
其中,函数表示取符号函数,并且/>,表示其形状与全精度的卷积核保持一致,/>表示二值化卷积模块的输出通道数,/>表示二值化卷积模块的输入通道数,/>表示二值化卷积模块的卷积核空间大小,/>表示二值化之后只包含+1和-1的集合,/>表示对全精度的卷积核的第/>个输出通道求1范数,/>且/>。
需要说明的是,全精度的缩放因子用于缩小二值化网络与全精度网络之间的量化误差。
类似的,通过函数对全精度的输入特征/>进行二值化处理,得到只包含+1和-1的二值化特征/>,公式化为:
其中,,是一个可学习的参数,用于控制每个通道特征进行二值化的阈值。
最终,二值化卷积模块可以被表示为二值化卷积核权重和特征之间的位运算:
其中,表示二值化卷积,/>表示比特计数操作,/>表示按位异或操作。
并且,为了缩小二值化造成的量化误差,本申请在分布感知的二值化卷积中加入了一个分布感知的通道注意力层用于从全精度输入特征中提取分布信息,先提取全精度的输入特征逐通道的分布特性,然后将分布特征送入通道注意力层,得到分布信息/>,公式化为:
其中,代表了输入特征的分布特性,/>函数和/>函数分别表示求均值和标准差,/>表示经过阈值偏移后的中间特征,/>表示通道注意力层,Sigmoid为激活函数,Conv1d为1维卷积。
最终,通过比特权重、二值化特征/>、缩放因子/>和分布信息/>,计算该二值化卷积模块的输出特征/>,公式化为:
其中,表示特征逐通道相乘,/>表示二值化卷积,/>表示比特计数操作,表示按位异或操作。
最终,每一帧(/>)经过第一阶段的二值化U-Net处理后,得到第一阶段的中间特征/>(/>)。
可以理解的是,针对于二值化网络表示能力弱,导致其相对全精度网络性能下降的问题,本本申请提出了分布感知的二值化卷积模块,其利用高效的通道注意力机制,能够充分感知全精度输入特征的分布信息,从而弥补了二值化导致的信息损失,提高二值化神经网络的学习能力。
步骤202,根据平移二值化U-Net将第一中间特征中的相邻帧进行时空特征融合,得到第二中间特征。
本申请实施例中,平移二值化U-Net由一个三层平移特征编码器和一个三层平移特征解码器组成,不同层之间通过步长为2的平均池化作为下采样,并使用双线性插值作为上采样,并且平移特征编解码器由时空特征平移操作和二值化特征融合网络组成,其中时空平移操作不使用额外的卷积模块,仅使用特征的变换操作,二值化特征融合网络主要由多个分布感知的二值化卷积模块组成。
需要说明的是,平移二值化U-Net的输入是来自第一阶段二值化U-Net输出的连续三帧特征,在时空平移操作层面,对于某一层的平移特征编解码器,其计算过程为:
对于输入特征,该层的平移特征编解码器每次处理连续三帧特征/>,将/>,公式化为:
其中,划分前的输入特征,划分后的特征/>,/>为该层平移特征编解码器对应的特征空间分辨率,/>为特征通道数,/>用于保留当前帧的特征信息,/>用于平移到相邻帧进行特征融合,若该层的平移特征编解码器为第一层的编码器,则/>=/>,否则/>为上一层平移特征编解码器的输出特征。
针对时间平移操作,对进行环形时间平移操作,生成时间平移特征/>,对于时间平移特征/>中某个新的连续三帧特征集合/>,其表达形式为:
。
需要说明的是,通过环形时间平移操作,每一帧的部分特征都可以移动到相邻帧进行融合,从而充分利用了时序信息进行去噪,也保证了时序的一致性。
然而,在视频的相邻帧往往存在着物体或背景的移动,造成相邻帧之间的特征不对齐的情况,因此,时间平移后的特征会进一步进行空间平移操作,以增大后续二值化网络的感受野。
针对空间平移操作,定义一组平移核,通过平移核将每个时间平移后的特征分为24个切片,根据平移核的方向进行平移,得到最终的空间平移特征/>,公式化为:
其中,表示平移核,平移核的大小/>等于24,表示向四周各个方向对应平移/>,表示特征/>的第/>个切片,/>表示在空间上沿着第/>个平移核的方向/>对特征进行平移,/>表示第/>个切片的空间平移特征/>,其中,在空间平移中导致的空缺区域全部用零填充。
然后,将保留当前帧的特征信息的特征与时间平移特征/>以及空间平移特征/>进行拼接,得到最终的时空平移特征/>,公式化为:
其中,/>。
最终,通过二值化特征融合网络融合经过多层平移特征编解码处理后的时空平移特征,得到第二个阶段的输出特征。
可以理解的是,经过平移特征编解码器处理后,相邻帧之间的特征能够更好的在时序维度上进行融合。
步骤203,根据第二二值化U-Net从融合对齐的第二中间特征中重建出最终优化视频。
本申请实施例中,使用与第一阶段相同的二值化U-Net重建亮度增强且去除噪声的高质量视频,与第一阶段类似,最后一层卷积也采用全精度卷积,用于从特征空间重建出增强后的最终优化视频。
步骤103,基于最终优化视频和参考正常光照图像,计算损失值,并基于损失值对候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络。
本申请实施例中,建立监督约束,通过最终优化视频和参考正常光照图像来对候选二值化神经网络进行训练,使用损失函数对模型的网络参数进行优化。
作为一种可能的实现方式,本申请采用Charbonnier损失函数对候选二值化神经网络进行端到端的训练。
具体的,Charbonnier损失函数的表达式为:
其中,表示对/>帧视频进行恢复的损失值,/>是一个固定的常数,/>表示第/>帧的参考正常光照图像,/>表示第/>帧的最终优化视频。
然后,通过反向传播算法最小化损失函数,并重复步骤102迭代优化候选二值化神经网络的网络模型参数,训练结束后,得到训练好的二值化神经网络,并将二值化神经网络的参数进行存储。
可以理解的是,模型的训练是个重复迭代的过程,通过不断地调整模型的网络参数进行训练,直到模型整体的损失函数值小于预设值,或者模型整体的损失函数值不再变化或变化幅度缓慢,模型收敛,得到训练好的模型。
步骤104,将其他初步优化视频输入二值化神经网络得到重建视频,根据图像质量评价标准评价重建视频,得到客观评估指标。
本申请实施例中,为二值化神经网络的应用场景,将其他初步优化视频输入二值化神经网络得到重建视频。
可以理解的是,通过相机传感器获取以Bayer阵列存储的其他RAW暗光带噪视频,然后通过步骤101中所示的步骤对其进行重组处理和曝光增强处理,以得到其他初步优化视频。
并且,为了客观评价生成的重建视频的效果,本申请进一步基于峰值信噪比与结构相似性对重建视频进行评估,生成客观评估指标,进而反应优化模型的性能与效果。
本申请实施例通过构建高度压缩的二值化神经网络,可以用极低的计算量和网络参数量达到令人满意的暗光视频增强效果,其能够有效的增强暗光视频的亮度,并且有效的去除暗光环境拍摄由于光子不足而产生的严重噪声;通过设计易于二值化的时空平移操作,高效地对齐相邻帧的特征,充分利用视频中的时空自相似性进行暗光视频去噪,其充分地融合了相邻帧的特征,从而达到更好的恢复效果;通过设计分布感知的二值化卷积模块,利用高效的通道注意力机制,能够充分感知全精度输入特征的分布信息,减少二值化所导致的量化误差,从而提高二值化神经网络的表达能力。
图3是根据本申请实施例示出的一种基于二值化神经网络的暗光视频增强装置10的框图,包括:
获取模块100,用于获取Bayer阵列存储的RAW暗光带噪视频,对RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频;
重建模块200,用于构建候选二值化神经网络,根据候选二值化神经网络提取初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频;
训练模块300,用于基于最终优化视频和参考正常光照图像,计算损失值,并基于损失值对候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络;
评估模块400,用于将其他初步优化视频输入二值化神经网络得到重建视频,根据图像质量评价标准评价重建视频,得到客观评估指标。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (9)
1.一种基于二值化神经网络的暗光视频增强方法,其特征在于,包括:
获取Bayer阵列存储的RAW暗光带噪视频,对所述RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频;
构建候选二值化神经网络,根据所述候选二值化神经网络提取所述初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频;
基于所述最终优化视频和参考正常光照图像,计算损失值,并基于所述损失值对所述候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络;
将其他初步优化视频输入所述二值化神经网络得到重建视频,根据图像质量评价标准评价所述重建视频,得到客观评估指标。
2.根据权利要求1所述的方法,其特征在于,所述获取Bayer阵列存储的RAW暗光带噪视频,对所述RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频,包括:
通过相机传感器获取连续帧以Bayer阵列存储的所述RAW暗光带噪视频;
对于连续帧以Bayer阵列存储的所述RAW暗光带噪视频/>,将每个2×2的单通道Bayer阵列模式重组成一个4通道的像素,得到重组视频;
根据所述RAW暗光带噪视频中记录的曝光时间和相机感光元件的感光度ISO,计算得到曝光增强系数,将所述曝光增强系数与所述重组视频相乘,得到初步优化视频。
3.根据权利要求1所述的方法,其特征在于,所述候选二值化神经网络由第一二值化U-Net、平移二值化U-Net和第二二值化U-Net构成,所述根据所述候选二值化神经网络提取所述初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频,包括:
通过全精度卷积提取所述初步优化视频的浅层特征,根据所述第一二值化U-Net逐帧对所述浅层特征进行去噪处理,得到第一中间特征;
根据所述平移二值化U-Net将所述第一中间特征中的相邻帧进行时空特征融合,得到第二中间特征;
根据所述第二二值化U-Net从融合对齐的所述第二中间特征中重建出所述最终优化视频。
4.根据权利要求3所述的方法,其特征在于,所述第一二值化U-Net由一个多层特征编码器和一个多层特征解码器组成,所述多层特征编码器包含三层,每一层通过多个分布感知的二值化卷积模块进行二值化特征提取,然后通过一个步长为2的平均池化作为下采样,所述多层特征解码器包含三层,每一层同样通过多个分布感知的二值化卷积模块进行二值化特征提取,然后采用双线性插值作为上采样,其中,对于某个二值化卷积模块,其计算过程为:
对暂存的全精度的卷积核权重进行二值化处理,得到只包含+1和-1的1比特权重/>以及全精度的缩放因子/>,公式化为:
其中,函数表示取符号函数,并且/>,表示其形状与全精度的卷积核保持一致,/>表示所述二值化卷积模块的输出通道数,/>表示所述二值化卷积模块的输入通道数,/>表示所述二值化卷积模块的卷积核空间大小,/>表示二值化之后只包含+1和-1的集合,/>表示对全精度的卷积核的第/>个输出通道求1范数,/>且;
通过函数对全精度的输入特征/>进行二值化处理,得到只包含+1和-1的二值化特征/>,公式化为:
其中,,是一个可学习的参数,用于控制每个通道特征进行二值化的阈值;
提取全精度的输入特征逐通道的分布特性,将所述分布特征送入通道注意力层,得到分布信息/>,公式化为:
其中,代表了输入特征的分布特性,/>函数和/>函数分别表示求均值和标准差,/>表示经过阈值偏移后的中间特征,/>表示所述通道注意力层,Sigmoid为激活函数,Conv1d为1维卷积;
通过比特权重、二值化特征/>、缩放因子/>和分布信息/>,计算该二值化卷积模块的输出特征/>,公式化为:
其中,表示特征逐通道相乘,/>表示二值化卷积,/>表示比特计数操作,/>表示按位异或操作。
5.根据权利要求3所述的方法,其特征在于,所述平移二值化U-Net由一个三层平移特征编码器和一个三层平移特征解码器组成,不同层之间通过步长为2的平均池化作为下采样,并使用双线性插值作为上采样,其中,对于某一层的平移特征编解码器,其计算过程为:
对于输入特征,该层的平移特征编解码器每次处理连续三帧特征/>,将,公式化为:
其中,划分前的输入特征,划分后的特征/>,/>为该层平移特征编解码器对应的特征空间分辨率,/>为特征通道数,/>用于保留当前帧的特征信息,/>用于平移到相邻帧进行特征融合,若该层的平移特征编解码器为第一层的编码器,则=/>,否则/>为上一层平移特征编解码器的输出特征;
对进行环形时间平移操作,生成时间平移特征/>,对于时间平移特征/>中某个新的连续三帧特征集合/>,其表达形式为:
;
通过平移核将每个时间平移后的特征分为24个切片,根据平移核的方向进行平移,得到最终的空间平移特征/>,公式化为:
其中,表示平移核,平移核的大小/>等于24,表示向四周各个方向对应平移/>,/>表示特征/>的第/>个切片,/>表示在空间上沿着第/>个平移核的方向/>对特征进行平移,/>表示第/>个切片的空间平移特征/>,其中,在空间平移中导致的空缺区域全部用零填充;
将保留当前帧的特征信息的特征与时间平移特征/>以及空间平移特征/>进行拼接,得到该层平移特征编解码最终的时空平移特征/>,公式化为:
其中,/>;
通过二值化特征融合网络融合经过多层平移特征编解码处理后的时空平移特征,得到所述平移特征编解码基于连续三帧特征的输出特征/>,其中,所述二值化特征融合网络由多个分布感知的二值化卷积模块组成。
6.根据权利要求3所述的方法,其特征在于,所述第二二值化U-Net与所述第一二值化U-Net的结构和参数相同。
7.根据权利要求1所述的方法,其特征在于,所述基于所述最终优化视频和参考正常光照图像,计算损失值,并基于所述损失值对所述候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络,包括:
获取损失函数,将所述最终优化视频和参考正常光照图像输入所述损失函数,得到损失值,表达式为:
其中,表示对/>帧视频进行恢复的损失值,/>是一个固定的常数,/>表示第/>帧的参考正常光照图像,/>表示第/>帧的最终优化视频;
通过反向传播算法最小化所述损失值,并迭代优化所述候选二值化神经网络的网络模型参数,训练结束后,得到训练好的所述二值化神经网络。
8.根据权利要求1所述的方法,其特征在于,所述根据图像质量评价标准评价所述重建视频,得到客观评估指标,包括:
对所述重建图像的峰值信噪比与结构相似性进行评估,得到所述客观评估指标。
9.一种基于二值化神经网络的暗光视频增强装置,其特征在于,包括:
获取模块,用于获取Bayer阵列存储的RAW暗光带噪视频,对所述RAW暗光带噪视频进行重组处理和曝光增强处理,得到初步优化视频;
重建模块,用于构建候选二值化神经网络,根据所述候选二值化神经网络提取所述初步优化视频的浅层特征,对提取到的特征进行多帧融合以及从融合特征中重建出最终优化视频;
训练模块,用于基于所述最终优化视频和参考正常光照图像,计算损失值,并基于所述损失值对所述候选二值化神经网络的网络模型参数进行优化,得到训练好的二值化神经网络;
评估模块,用于将其他初步优化视频输入所述二值化神经网络得到重建视频,根据图像质量评价标准评价所述重建视频,得到客观评估指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410176676.XA CN117726541A (zh) | 2024-02-08 | 2024-02-08 | 一种基于二值化神经网络的暗光视频增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410176676.XA CN117726541A (zh) | 2024-02-08 | 2024-02-08 | 一种基于二值化神经网络的暗光视频增强方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117726541A true CN117726541A (zh) | 2024-03-19 |
Family
ID=90200192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410176676.XA Pending CN117726541A (zh) | 2024-02-08 | 2024-02-08 | 一种基于二值化神经网络的暗光视频增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117726541A (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097818A1 (en) * | 2018-09-26 | 2020-03-26 | Xinlin LI | Method and system for training binary quantized weight and activation function for deep neural networks |
CN111260564A (zh) * | 2018-11-30 | 2020-06-09 | 北京市商汤科技开发有限公司 | 一种图像处理方法和装置及计算机存储介质 |
US20200364876A1 (en) * | 2019-05-17 | 2020-11-19 | Magic Leap, Inc. | Methods and apparatuses for corner detection using neural network and corner detector |
CN112347925A (zh) * | 2020-11-06 | 2021-02-09 | 南昌大学 | 基于二进制神经网络的单光子压缩识别系统及其使用方法 |
CN112446888A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像分割模型的处理方法和处理装置 |
US20210150313A1 (en) * | 2019-11-15 | 2021-05-20 | Samsung Electronics Co., Ltd. | Electronic device and method for inference binary and ternary neural networks |
CN113822809A (zh) * | 2021-03-10 | 2021-12-21 | 无锡安科迪智能技术有限公司 | 暗光增强方法及其系统 |
WO2022016563A1 (zh) * | 2020-07-23 | 2022-01-27 | 南京科沃信息技术有限公司 | 一种植保无人机地面监控系统及其监控方法 |
CN114862698A (zh) * | 2022-04-12 | 2022-08-05 | 北京理工大学 | 一种基于通道引导的真实过曝光图像校正方法与装置 |
CN114972061A (zh) * | 2022-04-04 | 2022-08-30 | 北京理工大学 | 一种暗光视频去噪增强方法及系统 |
CN115345785A (zh) * | 2022-07-01 | 2022-11-15 | 北京理工大学 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
CN115695787A (zh) * | 2021-07-27 | 2023-02-03 | 脸萌有限公司 | 基于神经网络的视频编解码中的分割信息 |
US20230069953A1 (en) * | 2020-05-15 | 2023-03-09 | Huawei Technologies Co., Ltd. | Learned downsampling based cnn filter for image and video coding using learned downsampling feature |
US20230317258A1 (en) * | 2020-12-03 | 2023-10-05 | Intuitive Surgical Operations, Inc. | Systems and methods for assessing surgical ability |
CN117176960A (zh) * | 2023-09-04 | 2023-12-05 | 辽宁师范大学 | 多尺度位置信息嵌入的卷积神经网络色度预测编码方法 |
-
2024
- 2024-02-08 CN CN202410176676.XA patent/CN117726541A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097818A1 (en) * | 2018-09-26 | 2020-03-26 | Xinlin LI | Method and system for training binary quantized weight and activation function for deep neural networks |
CN111260564A (zh) * | 2018-11-30 | 2020-06-09 | 北京市商汤科技开发有限公司 | 一种图像处理方法和装置及计算机存储介质 |
US20200364876A1 (en) * | 2019-05-17 | 2020-11-19 | Magic Leap, Inc. | Methods and apparatuses for corner detection using neural network and corner detector |
CN112446888A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像分割模型的处理方法和处理装置 |
WO2021042857A1 (zh) * | 2019-09-02 | 2021-03-11 | 华为技术有限公司 | 图像分割模型的处理方法和处理装置 |
US20210150313A1 (en) * | 2019-11-15 | 2021-05-20 | Samsung Electronics Co., Ltd. | Electronic device and method for inference binary and ternary neural networks |
US20230069953A1 (en) * | 2020-05-15 | 2023-03-09 | Huawei Technologies Co., Ltd. | Learned downsampling based cnn filter for image and video coding using learned downsampling feature |
WO2022016563A1 (zh) * | 2020-07-23 | 2022-01-27 | 南京科沃信息技术有限公司 | 一种植保无人机地面监控系统及其监控方法 |
CN112347925A (zh) * | 2020-11-06 | 2021-02-09 | 南昌大学 | 基于二进制神经网络的单光子压缩识别系统及其使用方法 |
US20230317258A1 (en) * | 2020-12-03 | 2023-10-05 | Intuitive Surgical Operations, Inc. | Systems and methods for assessing surgical ability |
CN113822809A (zh) * | 2021-03-10 | 2021-12-21 | 无锡安科迪智能技术有限公司 | 暗光增强方法及其系统 |
CN115695787A (zh) * | 2021-07-27 | 2023-02-03 | 脸萌有限公司 | 基于神经网络的视频编解码中的分割信息 |
CN114972061A (zh) * | 2022-04-04 | 2022-08-30 | 北京理工大学 | 一种暗光视频去噪增强方法及系统 |
CN114862698A (zh) * | 2022-04-12 | 2022-08-05 | 北京理工大学 | 一种基于通道引导的真实过曝光图像校正方法与装置 |
CN115345785A (zh) * | 2022-07-01 | 2022-11-15 | 北京理工大学 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
CN117176960A (zh) * | 2023-09-04 | 2023-12-05 | 辽宁师范大学 | 多尺度位置信息嵌入的卷积神经网络色度预测编码方法 |
Non-Patent Citations (2)
Title |
---|
YOUNGJIN YOON等: "Light-Field Image Super-Resolution Using Convolutional Neural Network", 《IEEE SIGNAL PROCESSING LETTERS》, vol. 24, no. 6, 30 June 2017 (2017-06-30), pages 848 - 852, XP011648176, DOI: 10.1109/LSP.2017.2669333 * |
杨晟韬: "用于单光子压缩成像的采样重建联合优化网络研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 03, 30 June 2017 (2017-06-30), pages 138 - 1183 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709896B (zh) | 一种将ldr视频映射为hdr视频的方法和设备 | |
CN112435191B (zh) | 一种基于多个神经网络结构融合的低照度图像增强方法 | |
CN111539884A (zh) | 一种基于多注意力机制融合的神经网络视频去模糊方法 | |
CN109255822B (zh) | 一种多尺度编码和多重约束的超时间分辨率压缩感知重建方法 | |
TWI830107B (zh) | 通過指示特徵圖資料進行編碼 | |
CN111047529B (zh) | 一种基于机器学习的视频处理方法 | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN109785252B (zh) | 基于多尺度残差密集网络夜间图像增强方法 | |
CN111047532B (zh) | 一种基于3d卷积神经网络的低照度视频增强方法 | |
CN115606179A (zh) | 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器 | |
CN113066022B (zh) | 一种基于高效时空信息融合的视频比特增强方法 | |
CN116210219A (zh) | 光场图像的处理方法、编码器、解码器及存储介质 | |
CN115552905A (zh) | 用于图像和视频编码的基于全局跳过连接的cnn滤波器 | |
CN111931671A (zh) | 一种用于煤矿井下逆光环境中光照补偿的人脸识别方法 | |
CN115035011A (zh) | 一种融合策略下自适应RetinexNet的低照度图像增强方法 | |
CN113628143A (zh) | 一种基于多尺度卷积的加权融合图像去雾方法及装置 | |
CN112200817A (zh) | 基于图像的天空区域分割和特效处理方法、装置及设备 | |
CN117726541A (zh) | 一种基于二值化神经网络的暗光视频增强方法及装置 | |
Yan et al. | Compressive sampling for array cameras | |
CN115841523A (zh) | 一种基于Raw域的双支路HDR视频重建算法 | |
CN113163200B (zh) | 基于卷积变分自编码器神经网络的双层hdr图像压缩器及方法 | |
Li et al. | Rendering nighttime image via cascaded color and brightness compensation | |
CN109819251B (zh) | 一种脉冲阵列信号的编解码方法 | |
Que et al. | Residual dense U‐Net for abnormal exposure restoration from single images | |
Guo et al. | Low-light color imaging via dual camera acquisition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |