CN116245968A - 基于Transformer的LDR图像生成HDR图像的方法 - Google Patents
基于Transformer的LDR图像生成HDR图像的方法 Download PDFInfo
- Publication number
- CN116245968A CN116245968A CN202310210835.9A CN202310210835A CN116245968A CN 116245968 A CN116245968 A CN 116245968A CN 202310210835 A CN202310210835 A CN 202310210835A CN 116245968 A CN116245968 A CN 116245968A
- Authority
- CN
- China
- Prior art keywords
- features
- image
- module
- hdr
- fusion module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20208—High dynamic range [HDR] image processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于Transformer的LDR图像生成HDR图像的方法,首先构建基于Transformer的HDR图像生成模型,包括浅层特征对齐模块、金字塔融合模块和图像重建模块;通过浅层特征对齐模块进行特征对齐,通过金字塔融合模块对对齐后的特征进行处理,获得不同尺度的特征,将金字塔融合模块处理后的不同尺度的特征融合成一个尺度;再将融合后的特征送入图像重建模块进行图像重建;最后将图像重建模块输出的结果使用卷积操作得到3层的HDR最终图片。本发明可以更好地学习非局部特征并自适应地减少虚拟阴影。本发明提出了一种新的金字塔融合模块,使图像可以与较低计算成本和根据全局信息。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于Transformer的低动态范围图像合成高动态范围图像的方法。
背景技术
动态范围用于定义相机的能力捕捉一系列亮度,通常在最低亮度之间和同一图像的最高值。场景大照明的差异可能会给捕捉带来挑战。如果动态范围不够大,照明太亮,会产生曝光过度的图像,如果场景太暗,图像会出现曝光不足。曝光过度和曝光不足都会导致损失图片中的细节。虽然大多数传感器可以记录8位或10位的稍高深度的图像,但16位深度图像太昂贵而无法广泛用于日常设施,普通显示器只能支持8位,这就是为什么需要HDR。
高动态范围恢复的初始工作,使用单个LDR图像显示图像的动态范围可以扩展,但是曝光不足或过度曝光的区域是不可恢复的。
因此研究人员开始探索使用多个LDR不同曝光的图像(例如短、中、长)合成单个HDR图像,保留使用多个LDR图像的场景细节。
为了解决这个问题,许多网络被提出,所有这些模型都旨在要构建更高性能的网络架构,遵循基于LDR CNN的对齐和融合的类似设计重建HDR图像。目前提出的方法主要针对图像之间的对齐、HDR图像的重建以及各种模型的使用循环神经网络的结构通过注意力导向,但它们不能处理LDR到HDR的任务出色地。由于这项任务的特殊性,使用变压器在计算机视觉领域蓬勃发展,但由于硬件和GPU内存的限制,可能会很困难。然而,由于传统卷积神经网络本身的限制。这是难以继续改进提出的效果。
发明内容
针对现有技术中存在的不足,本发明提供一种基于Transformer的LDR图像生成HDR图像的方法。
基于Transformer的LDR图像生成HDR图像的方法,步骤如下:
步骤1:构建基于Transformer的HDR图像生成模型;
所述的基于Transformer的HDR图像生成模型,包括三个部分:浅层特征对齐模块、金字塔融合模块和图像重建模块。
步骤2:通过浅层特征对齐模块进行特征对齐;
步骤3:通过金字塔融合模块对对齐后的特征进行处理,获得不同尺度的特征;
步骤4:将金字塔融合模块处理后的不同尺度的特征融合成一个尺度;
步骤5:将融合后的特征送入图像重建模块进行图像重建;
步骤6:将图像重建模块输出的结果使用卷积操作得到3层的HDR最终图片。
进一步的,所述步骤2具体方法如下:
将三张不同曝光度的图像分别进行特征提取,同时将通道数提升至64通道。以中等曝光度的图像作为参考图,其余两张作为非参考图,使用参考图与非参考图分别连接,同时参考图与自身也做连接操作,得到三组128通道数的特征。对于三组特征都进行可变形卷积,同时单独学习特征的偏置作为可变形卷积操作的偏置参数,最终的到三组64通道的特征。
进一步的,步骤3具体方法如下:
将步骤一的输出传入金字塔融合模块(PFM),首先将特征进行三次池化得到4组不同尺度的特征,对于前三组大尺度的特征,使用HDR融合模块(HFM)进行融合,而对于最小尺度的特征,使用自注意力融合模块(SAF)进行融合。
HDR融合模块:将中间特征分别与其余两组特征进行连接,随后进行卷积操作实现特征提取,作为权重乘上原有特征,最后三组特征相连接后得到192通道的特征,将其压缩到64通道,得到融合后的特征。
自注意力融合模块:对HDR融合模块之后得到的3维空间特征,进行铺平处理得到2维的序列特征,通过多层感知机将其分为Q,K,V三组,三组一维特征分别进行矩阵乘法得到新的特征,在使用多层感知机后进行折叠操作,将2维特征重新转换为3维空间特征。
进一步的,步骤4具体方法如下:
将三组非原尺度的特征从小到大依次进行插值法上采样,然后和相邻较大尺度的特征进行残差后进行可变卷积,最后将迭代的将四个尺度的特征融合成一个尺度,获得64通道数的特征。
进一步的,所述图像重建模块由3个通道注意力空洞卷积块(CADB)组成,每个CADB是通过一个通道注意力和一个空洞卷积块组成,通过通道注意力主动降低图像的伪影,通过空洞卷积块恢复细节。
本发明有益效果如下:
1.本发明提出HDR融合Transformer(HFT),它可以更好地学习非局部特征并自适应地减少虚拟阴影。
2.本发明提出了一种新的金字塔融合模块(PFM),在大尺度使用HDR融合模块(HFM)融合和最小比例图像融合自注意力融合(SAF),使图像可以与较低计算成本和根据全局信息。
3.本发明提出了一种通道注意力空洞卷积块(CADB)以减少重影效应。
附图说明
图1为本发明实施例模型结构示意图;
图2为其中HDR融合模块结构图;
图3为在Kalantari’s数据集中不同方法的视觉效果图;
图4为在Prabhakar’s数据集中不同方法的视觉效果图;
图5为在本发明自行拍摄的数据集中不同方法的视觉效果图。
具体实施方式
以下结合附图与实施例对本发明技术方案进行进一步描述。
基于Transformer的LDR图像生成HDR图像的方法,步骤如下:
步骤1:构建基于Transformer的HDR图像生成模型;
如图1所示,所述的基于Transformer的HDR图像生成模型,包括三个部分:1.浅层特征对齐模块Shallow Feature Alignment(SFA)、2.金字塔融合模块Pyramid FusionModule(PFM)、3.图像重建模块Image Reconstruction Module(IRM)。
步骤2:通过浅层特征对齐模块进行特征对齐;
将三张不同曝光度的图像分别进行特征提取,同时将通道数提升至64通道。以中等曝光度的图像作为参考图,其余两张作为非参考图,使用参考图与非参考图分别连接,同时参考图与自身也做连接操作,得到三组128通道数的特征。对于三组特征都进行可变形卷积,同时单独学习特征的偏置作为可变形卷积操作的偏置参数,最终的到三组64通道的特征。
步骤3:通过金字塔融合模块对对齐后的特征进行处理,获得不同尺度的特征;
将步骤一的输出传入金字塔融合模块(PFM),首先将特征进行三次池化得到4组不同尺度的特征,对于前三组大尺度的特征,使用HDR融合模块(HFM)进行融合,而对于最小尺度的特征,使用自注意力融合模块(SAF)进行融合。
HDR融合模块:如图2所示,将中间特征分别与其余两组特征进行连接,随后进行卷积操作实现特征提取,作为权重乘上原有特征,最后三组特征相连接后得到192通道的特征,将其压缩到64通道,得到融合后的特征。
自注意力融合模块:对HDR融合模块之后得到的3维空间特征,进行铺平处理得到2维的序列特征,通过多层感知机将其分为Q,K,V三组,三组一维特征分别进行矩阵乘法得到新的特征,在使用多层感知机后进行折叠操作,将2维特征重新转换为3维空间特征。
步骤4:将金字塔融合模块处理后的不同尺度的特征融合成一个尺度;
将三组非原尺度的特征(即PFM中上面三层小尺度的特征)从小到大依次进行插值法上采样,然后和相邻较大尺度的特征进行残差后进行可变卷积,最后将迭代的将四个尺度的特征融合成一个尺度,获得64通道数的特征。
步骤5:将融合后的特征送入图像重建模块进行图像重建;
图像重建模块是由3个通道注意力空洞卷积块(CADB)组成,每个CADB是通过一个通道注意力和一个空洞卷积块组成,通过通道注意力主动降低图像的伪影,通过空洞卷积块恢复细节。
步骤6:将图像重建模块输出的结果使用卷积操作得到3层的HDR最终图片。
实验验证
使用最主流的Kalantari’s数据集为主要数据集,并且Prabhakar’s数据集和自己拍摄的测试图像进行验证。
图3为在Kalantari’s数据集中不同方法的视觉效果图。图4为在Prabhakar’s数据集中不同方法的视觉效果图。图5为在本发明自行拍摄的数据集中不同方法的视觉效果图。
如图3所示为Kalantari’s数据集在多种方法下的结果,可见我们提出的方法为最接近原图的,我们的方法在颜色真实性和鬼影的处理上都是最优的。
表1
如表1所示为在Kalantari’s数据集的实验结果,我们的方法在当前所有公开的方法中也是最佳的。
表2
如表1所示为在Prabhakar’s数据集的实验结果,我们的方法在当前所有公开的方法中,关键性能指标也是最优的。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。
本发明未详细说明部分属于本领域技术人员公知技术。
Claims (5)
1.基于Transformer的LDR图像生成HDR图像的方法,其特征在于,步骤如下:
步骤1:构建基于Transformer的HDR图像生成模型;
所述的基于Transformer的HDR图像生成模型,包括三个部分:浅层特征对齐模块、金字塔融合模块和图像重建模块;
步骤2:通过浅层特征对齐模块进行特征对齐;
步骤3:通过金字塔融合模块对对齐后的特征进行处理,获得不同尺度的特征;
步骤4:将金字塔融合模块处理后的不同尺度的特征融合成一个尺度;
步骤5:将融合后的特征送入图像重建模块进行图像重建;
步骤6:将图像重建模块输出的结果使用卷积操作得到3层的HDR最终图片。
2.根据权利要求1所述的基于Transformer的LDR图像生成HDR图像的方法,其特征在于,所述步骤2具体方法如下:
将三张不同曝光度的图像分别进行特征提取,同时将通道数提升至64通道;以中等曝光度的图像作为参考图,其余两张作为非参考图,使用参考图与非参考图分别连接,同时参考图与自身也做连接操作,得到三组128通道数的特征;对于三组特征都进行可变形卷积,同时单独学习特征的偏置作为可变形卷积操作的偏置参数,最终的到三组64通道的特征。
3.根据权利要求2所述的基于Transformer的LDR图像生成HDR图像的方法,其特征在于,步骤3具体方法如下:
将步骤一的输出传入金字塔融合模块,首先将特征进行三次池化得到4组不同尺度的特征,对于前三组大尺度的特征,使用HDR融合模块进行融合,而对于最小尺度的特征,使用自注意力融合模块进行融合;
HDR融合模块:将中间特征分别与其余两组特征进行连接,随后进行卷积操作实现特征提取,作为权重乘上原有特征,最后三组特征相连接后得到192通道的特征,将其压缩到64通道,得到融合后的特征;
自注意力融合模块:对HDR融合模块之后得到的3维空间特征,进行铺平处理得到2维的序列特征,通过多层感知机将其分为Q,K,V三组,三组一维特征分别进行矩阵乘法得到新的特征,在使用多层感知机后进行折叠操作,将2维特征重新转换为3维空间特征。
4.根据权利要求3所述的基于Transformer的LDR图像生成HDR图像的方法,其特征在于,步骤4具体方法如下:
将三组非原尺度的特征从小到大依次进行插值法上采样,然后和相邻较大尺度的特征进行残差后进行可变卷积,最后将迭代的将四个尺度的特征融合成一个尺度,获得64通道数的特征。
5.根据权利要求4所述的基于Transformer的LDR图像生成HDR图像的方法,其特征在于,所述图像重建模块由3个通道注意力空洞卷积块CADB组成,每个CADB是通过一个通道注意力和一个空洞卷积块组成,通过通道注意力主动降低图像的伪影,通过空洞卷积块恢复细节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310210835.9A CN116245968A (zh) | 2023-03-07 | 2023-03-07 | 基于Transformer的LDR图像生成HDR图像的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310210835.9A CN116245968A (zh) | 2023-03-07 | 2023-03-07 | 基于Transformer的LDR图像生成HDR图像的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116245968A true CN116245968A (zh) | 2023-06-09 |
Family
ID=86625874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310210835.9A Pending CN116245968A (zh) | 2023-03-07 | 2023-03-07 | 基于Transformer的LDR图像生成HDR图像的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245968A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823690A (zh) * | 2023-06-13 | 2023-09-29 | 中国电子科技集团公司第五十四研究所 | 基于Swin Transformer的复杂场景HDR图像重建方法 |
-
2023
- 2023-03-07 CN CN202310210835.9A patent/CN116245968A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823690A (zh) * | 2023-06-13 | 2023-09-29 | 中国电子科技集团公司第五十四研究所 | 基于Swin Transformer的复杂场景HDR图像重建方法 |
CN116823690B (zh) * | 2023-06-13 | 2024-04-26 | 中国电子科技集团公司第五十四研究所 | 基于Swin Transformer的复杂场景HDR图像重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903228B (zh) | 一种基于卷积神经网络的图像超分辨率重建方法 | |
Liang et al. | Cameranet: A two-stage framework for effective camera isp learning | |
CN109447907B (zh) | 一种基于全卷积神经网络的单图像增强方法 | |
CN110210608B (zh) | 基于注意力机制和多层次特征融合的低照度图像增强方法 | |
CN110458765B (zh) | 基于感知保持卷积网络的图像质量增强方法 | |
CN111986084A (zh) | 一种基于多任务融合的多相机低光照图像质量增强方法 | |
CN113139898B (zh) | 基于频域分析和深度学习的光场图像超分辨率重建方法 | |
CN110225260B (zh) | 一种基于生成对抗网络的立体高动态范围成像方法 | |
CN111429433A (zh) | 一种基于注意力生成对抗网络的多曝光图像融合方法 | |
CN111835983B (zh) | 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统 | |
CN112508812A (zh) | 图像色偏校正方法、模型训练方法、装置及设备 | |
CN113344773B (zh) | 基于多级对偶反馈的单张图片重构hdr方法 | |
CN111833261A (zh) | 一种基于注意力的生成对抗网络的图像超分辨率复原方法 | |
CN113902658B (zh) | 基于密集多尺度网络的rgb图像到高光谱图像重建方法 | |
CN110717868A (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
CN115170915A (zh) | 一种基于端到端注意力网络的红外与可见光图像融合方法 | |
CN115115516B (zh) | 基于Raw域的真实世界视频超分辨率的构建方法 | |
CN111654621B (zh) | 一种基于卷积神经网络模型的双焦相机连续数字变焦方法 | |
CN116245968A (zh) | 基于Transformer的LDR图像生成HDR图像的方法 | |
CN115713462A (zh) | 超分辨模型训练方法、图像识别方法、装置及设备 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Zhang et al. | Enhanced visual perception for underwater images based on multistage generative adversarial network | |
CN116823610A (zh) | 一种基于深度学习的水下图像超分辨率生成方法和系统 | |
CN115841523A (zh) | 一种基于Raw域的双支路HDR视频重建算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |