CN117474810A - 一种利用色块波长信息和深度学习技术的颜色校正方法 - Google Patents
一种利用色块波长信息和深度学习技术的颜色校正方法 Download PDFInfo
- Publication number
- CN117474810A CN117474810A CN202311395072.6A CN202311395072A CN117474810A CN 117474810 A CN117474810 A CN 117474810A CN 202311395072 A CN202311395072 A CN 202311395072A CN 117474810 A CN117474810 A CN 117474810A
- Authority
- CN
- China
- Prior art keywords
- color
- wavelength
- image
- neural network
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 title abstract description 11
- 238000003062 neural network model Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000005520 cutting process Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 239000003086 colorant Substances 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000000137 annealing Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 16
- 238000012545 processing Methods 0.000 description 16
- 230000004913 activation Effects 0.000 description 10
- 238000011176 pooling Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 8
- 230000005284 excitation Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101100099821 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cbs-1 gene Proteins 0.000 description 1
- 101100449067 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cbs-2 gene Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
一种利用色块波长信息和深度学习技术的颜色校正方法,涉及图像颜色校正领域,该方法包括:收集偏色色块图像,经统一裁剪与数据增强后构建训练集,测量偏色色块图像的波长值并与标准颜色值进行配对,建立波长值与颜色之间的对应关系;设计神经网络模型;使用训练集中的图像作为目标输出进行模型训练,在训练过程中,神经网络模型通过反向传播和优化算法学习波长值和颜色之间的对应关系;颜色预测;颜色校正;将经过颜色校正的图像输入到Transformer中进行图像分类。本发明基于波长信息能够更准确地校正图像色彩失真问题,不需要人工干预且无需专业知识,能够实现自动颜色校正,且具有灵活性和适应性强、校正准确可靠等优点。
Description
技术领域
本发明涉及图像颜色校正技术领域,具体涉及一种利用色块波长信息和深度学习技术的颜色校正方法。
背景技术
移动设备的普及使得人们可以轻松地拍摄照片和录制视频,但由于不同光源环境的影响,这些图像和视频往往受到色差的影响,导致图像的色彩失真。色差是由于不同光源的光谱特性引起的,传统的RGB颜色模型往往无法准确捕捉到这些光谱特性,因此现有的颜色校正方法可能不足以解决这一问题。在这种情况下,需要一种更精确的颜色校正方法,以解决色差导致的图像色彩失真问题。
传统的颜色校正方法通过RGB颜色模型来校正图像中的色差,通常依赖于RGB颜色模型,它通过调整获取图像中的R、G和B通道的值来尝试纠正图像的色差。然而,RGB模型往往无法准确地捕捉到不同光源环境下的光谱特性,从而导致校正结果的不准确性,因此该方法可能无法实现高精度的颜色校正,不适用于需要高精度颜色校正的应用场景,如医学成像或印刷领域等。此外,现有方法可能在解决非标准光源下的色差问题时表现不佳,导致图像色彩失真问题仍然存在。
综上,现有颜色校正方法存在以下问题:
(1)色彩失真问题:在移动设备拍摄照片时,由于非标准光源环境的影响,照片中经常出现色彩失真问题,这导致图像中的颜色与实际场景中的颜色不匹配,降低了图像的质量和真实性。
(2)缺乏自动校正:现有颜色校正方法往往依赖于人工干预或使用简单的手动工具来校正图像中的色彩偏差,这使得校正过程繁琐且需要专业知识,不适用于大规模图像处理。
(3)硬编码规则:现有颜色校正方法采用硬编码规则来校正颜色,这种方法无法处理复杂和多样化的色彩偏差情况,缺乏灵活性,不能适应各种环境。
(4)缺乏波长信息:现有颜色校正方法通常忽略了波长信息,即光谱数据。这是重要的因素,因为不同的光源会导致不同的波长分布,从而影响颜色。
发明内容
本发明的目的是提供一种利用色块波长信息和深度学习技术的颜色校正方法。本发明通过自动颜色校正和充分利用波长信息,解决了现有颜色校正方法中存在的色彩失真问题,提供了一种更灵活且更高效的图像处理方法,以改善移动设备拍摄的图像质量。
本发明为解决技术问题所采用的技术方案如下:
本发明的一种利用色块波长信息和深度学习技术的颜色校正方法,包括以下步骤:
步骤S1:收集偏色色块图像,经统一裁剪与数据增强后构建训练集,测量偏色色块图像的波长值并与标准颜色值进行配对,建立波长值与颜色值之间的对应关系;
步骤S2:设计神经网络模型;
步骤S3:使用训练集中的图像作为目标输出进行模型训练,在训练过程中,神经网络模型通过反向传播和优化算法学习波长值和标准颜色值之间的对应关系;
步骤S4:颜色预测;
步骤S5:颜色校正;
步骤S6:将经过颜色校正的图像输入到Transformer中进行图像分类。
进一步的,步骤S1的具体操作流程如下:
S1.1数据收集;
收集各种移动设备拍摄的偏色色块图像;
S1.2统一裁剪与数据增强;
对收集到的偏色色块图像进行统一裁剪,使其具有相同的大小;然后对其进行数据增强;
S1.3构建训练集;
将剪裁后的偏色色块随机组合成具有固定尺寸的图像作为训练集,以模拟实际拍摄场景中的多色块情况;
S1.4光谱测量和配对;
在标准环境下,使用光谱仪测量每种偏色色块图像的波长值;将这些光谱测量值与标准颜色值进行配对,建立波长值与颜色之间的对应关系。
进一步的,步骤S2的具体操作流程如下:
使用卷积神经网络设计神经网络模型,整个神经网络模型基于Pytorch深度学习框架搭建,其中的主干网络负责提取图像特征,回归层用于输出波长的预测值。
进一步的,所述神经网络模型由CBS模块、SE模块和空间注意力机制模块组成。
进一步的,步骤S3的具体操作流程如下:
将偏色色块随机组合成的图像传入神经网络模型中进行训练,将数据集划分比例为7:2:1,其中7/10的数据作为训练集,通过训练集不断迭代更新模型参数;2/10作为验证集来选择模型参数,如果出现过拟合,则提前终止训练;1/10作为测试集,用于测试模型的性能;训练轮次epochs设置为150次,传入模型的批次batch size设置为32;梯度下降的动态学习率采用余弦退火学习率;梯度优化器选择Adam;损失函数选择交叉熵损失函数。
进一步的,步骤S4的具体操作流程如下:
将实际拍摄的图像输入到已训练好的神经网络模型中,所述神经网络模型提取特征并生成对应颜色块的预测波长值。
进一步的,步骤S5的具体操作流程如下:
S5.1将预测波长值与对应的已知标准色块波长进行比较;
S5.2通过插值法建立预测波长值与色块值之间的映射关系;
S5.3根据波长值的差异,利用颜色校正矩阵来校正图像中的颜色偏差;
S5.4获得经过颜色校正后的图像。
本发明的有益效果是:
1、自动颜色校正:本发明不需要人工干预,可以根据图像中的颜色偏差自动进行校正,这将使用户能够轻松地获得高质量的图像,且无需专业知识。
2、基于波长信息:本发明能够充分利用波长信息即光谱数据,来校正颜色。通过测量和分析光源的波长分布以及图像中颜色偏差的关系,本发明能够更准确地校正图像色彩失真问题。
3、灵活性和适应性:本发明具有灵活且适应性强的优点,可以处理各种不同类型的色彩偏差,包括在非标准光源环境下拍摄的情况。通过深度学习和神经网络技术,本发明旨在更全面地校正颜色,提高图像质量。
4、校正准确、可靠:本发明利用波长信息对偏色图片进行颜色校正的方法,首次将光谱测量的信息与深度学习模型相结合,通过训练和预测过程实现对图像颜色的准确校正,为图像处理和分析提供更可靠的基础。
附图说明
图1为本发明的一种利用色块波长信息和深度学习技术的颜色校正方法的流程图。
图2为神经网络模型结构图。
图3为CBS模块示意图。
图4为SE模块结构组成示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
参见图1进行具体说明,本发明的一种利用色块波长信息和深度学习技术的颜色校正方法,主要包括以下步骤:
(1)收集各种移动设备拍摄的偏色色块图像,统一裁剪这些图像以相同的大小,并做数据增强,然后将这些色块随机组合成固定尺寸的图像作为训练集;同时,在标准环境下,使用光谱仪测量每种偏色色块的波长值,将光谱测量值与已知标准颜色值配对。这种基于波长信息的数据集构建是关键的创新点,它为模型提供了丰富的颜色信息,使得颜色校正过程更加准确和可靠。
(2)本发明使用卷积神经网络(CNN)来设计神经网络模型;采用卷积神经网络(CNN)作为主干网络来提取图像特征,并通过回归层输出波长的预测值。这种神经网络模型架构设计结合了卷积神经网络(CNN)在图像处理中的优势,能够有效地学习图像特征和波长之间的关系。通过将波长预测作为回归任务,模型可以直接学习颜色和波长之间的映射关系,从而实现精准的颜色校正。
(3)进行模型训练;使用训练集中的图像作为输入特征,标签(波长值)作为目标输出进行训练,并通过反向传播和优化算法来学习颜色和波长之间的关系。这种基于波长信息的训练过程使得模型能够准确地学习图像特征和波长之间的关联性,进而实现对偏色图片的精准校正。
(4)将偏色图像输入到训练好的模型中进行预测;
(5)预测的波长值与对应已知的标准色块波长进行比较,从而校正图像中的颜色偏差;
(6)通过插值法建立预测得到的波长值-色块对的映射关系,映射得到的色块值与标准色块值进行比较,计算它们之间的差异,根据差异值,应用颜色校正矩阵进行颜色校正;
(7)获得颜色校正后的图像;
(8)使用transformer对校正后的特征图进行分类。
本发明通过结合波长信息和深度学习技术,提供了一种可靠、准确的颜色校正方法。该方法能够有效地纠正偏色图片,提高图像的视觉质量,并具有广泛的应用前景,例如在移动设备摄影和图像处理领域中,可以提供更加真实和准确的色彩表现,提升用户体验。
本发明的一种利用色块波长信息和深度学习技术的颜色校正方法,其具体操作步骤如下:
步骤S1:数据收集与预处理阶段;
S1.1数据收集;
收集各种移动设备拍摄的偏色色块图像,这些图像可能因设备、光源等因素而呈现颜色偏差。
S1.2统一裁剪与数据增强;
为了确保一致性,对收集到的偏色色块图像进行统一裁剪,使它们具有相同的大小。此外,还需要对它们进行数据增强,通过旋转、翻转、变换亮度和变换对比度等方式增加数据的多样性,以提高模型的泛化性能。
S1.3构建训练集;
为了构建训练集,将这些统一剪裁后的偏色色块随机组合成具有固定尺寸的图像作为训练集,以模拟实际拍摄场景中的多色块情况。这有助于模型学习不同颜色之间的关系,以便在校正时更准确。
S1.4光谱测量和配对;
在标准环境下,使用光谱仪测量每种偏色色块图像的波长值。将这些光谱测量值与已知的标准颜色值进行配对,建立波长值与颜色值之间的对应关系,为校正提供了准确的基准数据,作为训练集的标签,即目标输出。
本发明在数据收集与预处理阶段收集了各种移动设备拍摄的偏色色块图像,并使用光谱仪测量每种偏色色块的波长值,将光谱测量值与已知颜色值配对,作为训练集的标签。这种结合了光谱测量的标签信息的数据集准备方法可以提供准确的目标输出,用于模型的训练和校正。
步骤S2:神经网络模型的设计阶段;
使用卷积神经网络(CNN)来设计神经网络模型。所获得的神经网络模型的目标是学习标准颜色值和波长值之间的复杂关系,以便在后续的校正阶段使用。其中,卷积神经网络(CNN)作为主干网络来提取图像特征,这些图像特征将用于波长的预测;回归层则用于输出波长的预测值。本发明中神经网络模型的设计充分利用了卷积神经网络(CNN)在图像处理任务中的优势,同时使用回归层进行波长的预测,使得模型能够根据输入图像的特征准确预测对应的波长。
整个神经网络模型基于Pytorch深度学习框架搭建,神经网络模型结构如图2所示。该神经网络模型进行特征提取的主要部分由CBS模块、SE模块和空间注意力机制模块构成。
图2中,Input表示输入图像数据,conv_1表示第一层卷积层(S=2,K=3,S为步长,K为卷积核大小),Mean Pool表示平均池化(S=2,K=3,S为步长,K为卷积核大小),CBS_1表示第一CBS模块,SE表示SE模块,CBS_2表示第二CBS模块,conv_2表示第二层卷积层(S=1,K=1,S为步长,K为卷积核大小),Avg Pool表示全局平均池化,Fc表示全连接,output表示输出回归预测波长值。
如图2所示,神经网络模型的数据处理流程如下:
1、卷积操作(S=2,K=3)
输入图像经过S=2(步长为2)和K=3(3x3大小的卷积核)的卷积操作,生成特征图;这一步可以提取图像中的局部特征。
2、池化操作(S=2,K=3)
卷积后的特征图经过S=2(步长为2)和K=3(3x3的池化窗口)的平均池化操作,将特征图的空间维度降低,这有助于降低计算成本和参数数量。
3、CBS模块(卷积,批量归一化,SiLU激活函数)
特征图通过卷积操作,然后应用批量归一化(BatchNormalization),最后使用SiLU激活函数,CBS模块有助于提取高级特征和加速训练过程。
4、SE模块
特征图经过SE(Squeeze-and-Excitation)模块,该模块通过学习特征图的通道权重来增强特征,这有助于模型关注对于任务重要的特征。
5、CBS模块(卷积,批量归一化,SiLU激活函数)
经过SE模块的特征图再次通过卷积、批量归一化和SiLU激活函数,以进一步提取特征。
6、卷积操作(S=1,K=1)
经过卷积操作(S=1,K=1),特征图的通道数可能会改变,但空间维度保持不变,这有助于进一步提取并转换特征。
7、Shortcut短接
前面处理的结果与输入图像进行shortcut短接,将低级特征融合到高级特征中,这有助于保留原始图像的信息。
8、空间注意力机制模块
特征图经过空间注意力机制模块,用于增强特征图的表示,这有助于模型更好地关注图像中的重要区域。
9、Avg Pool(均值池化)
特征图通过平均池化操作,将特征图的尺寸降低到1x1,这有助于整合全局信息。
10、全连接(Fc)层
最后,经过一个全连接层(也称为密集层)进行波长值预测的回归操作,该层将特征映射到输出波长值。
如图3所示,CBS模块的数据处理流程如下:
CBS模块首先对上一次结果的输出作为输入进行卷积操作、卷积的输出经过批量归一化操作,最后,批量归一化操作的输出通过SiLU激活函数。
如图3所示,Conv-BN-Silu表示卷积、批归一化和SiLU激活函数,其中,使用CBS模块的优势在于:CBS模块结合了卷积、批归一化和SiLU激活函数,可以用于图像特征提取,在深度学习中具有一定的优势。这些模块可以提高模型的表现能力,加速训练,并有助于模型更好地理解和利用图像中的特征。
图4中,feature map表示特征图,AvgPool表示全局平均池化,FC1表示第一次全连接,Swish表示激活函数,Sigmoid表示激活函数,FC2表示第二次全连接,new feature map表示新的特征图。
如图4所示,SE模块的数据处理流程如下:
1、特征图Squeeze(压缩)阶段:
输入:SE模块接收来自卷积层的特征图,通常是一个四维张量,其维度为(批量大小,通道数,高度,宽度)。
压缩:在这个阶段,SE模块通过全局平均池化(GlobalAverage Pooling)操作对每个通道进行降维。这意味着对于每个通道,特征图的高度和宽度上的值都被汇总到一个单一的标量中。
输出:这个压缩阶段生成了一个包含每个通道重要性的分数向量,其中每个分数表示相应通道的重要性。
2、特征图Excitation(激励)阶段:
输入:压缩阶段生成的分数向量。
激励:在这个阶段,SE模块通过两全连接(全连接)层来学习每个通道的权重。这意味着每个通道都有一个与其相关的权重,用于控制其重要性。
激活:通常,在全连接层之间会使用非线性函数,Sigmoid激活函数来引入非线性性。这有助于网络学习复杂的通道权重模式。
输出:这个激励阶段生成了一个包含每个通道权重的激励向量。
3、特征图Scale(缩放)阶段:
输入:激励阶段生成的激励向量和原始特征图。
缩放:在这个阶段,SE模块将激励向量中的每个通道权重应用于原始特征图中的相应通道。这通过元素级乘法来实现。
输出:缩放阶段生成了一个新的特征图,其中每个通道都根据其对应的权重进行了加权。这增强了具有高权重通道的特征。
其中,使用SE模块的优势在于:
(1)通道注意力:SE模块通过学习每个通道的权重,使神经网络模型能够自适应地关注输入特征中不同通道的信息。对于偏色色块图像,不同通道可能包含不同颜色信息,SE模块有助于神经网络模型选择性地强调与颜色校正相关的通道,抑制与任务无关的通道。
(2)特征增强:SE模块可以增强神经网络模型对重要特征的感知。它能够自动调整通道的重要性,将更多的注意力放在对颜色校正有帮助的特征上,这有助于提高神经网络模型对颜色偏差的感知和纠正能力。
(3)模型紧凑性:SE模块通过引入通道注意力,可以在不增加太多额外参数的情况下改善神经网络模型性能,这有助于保持神经网络模型的轻量级和高效性,特别适用于移动设备或资源受限的环境。
(4)泛化性能:SE模块的通道注意力机制是一种通用方法,可以用于各种图像处理任务,包括颜色校正。它在不同场景下都有助于提高神经网络模型的泛化性能,使其适应不同的颜色校正需求。
(5)提高准确性:SE模块可以显著提高神经网络模型在颜色校正任务中的准确性。通过更好地捕获图像中的颜色信息,神经网络模型能够更准确地进行颜色校正,提供更真实的颜色还原。
其中,使用空间注意力机制(SpatialAttentionModule)的优势在于:
在最后的卷积层之后添加空间注意力机制(SpatialAttentionModule)可以让神经网络模型在提取局部特征之后执行空间关注,捕获不同部分之间的重要性。优势具体表现为:
(1)局部特征关注:空间注意力机制允许神经网络模型自适应地关注输入图像中的不同区域。对于偏色色块图像,局部区域可能包含有关颜色校正的关键信息。通过自注意力机制,神经网络模型可以在图像中选择性地强调包含有关色彩信息的像素,从而更好地捕获和利用颜色特征。
(2)降低冗余信息:在图像特征提取过程中,可能存在冗余或不重要的信息,如背景或噪声。空间注意力机制有助于减小这些不相关区域的权重,使神经网络模型更专注于任务相关的信息,这可以提高神经网络模型的计算效率和泛化性能。
(3)提高校正效果:空间注意力机制有助于神经网络模型更好地理解图像中的颜色分布和变化,这可以帮助改善颜色校正的精度,特别是在偏色区域的校正方面。
(4)适应不同图像尺寸:空间注意力机制具有一定的尺度不变性,可以适应不同分辨率的输入图像,这对于处理不同设备捕获的图像非常有用。
(5)增强模型表现:通过引入空间注意力机制,可以提高神经网络模型的表现能力,使其更好地适应图像中的空间结构和颜色分布,从而改善颜色校正的效果。
在图像数据输入之后、第一次卷积之前与最后一层1x1的卷积后之间进行shortcut短接的优势在于:
(1)梯度传播:Shortcut连接有助于解决梯度消失(vanishing gradient)问题。在神经网络模型中,梯度可以逐渐减小,导致在训练过程中难以更新深层的权重。通过shortcut连接,梯度可以更快速地传播到较浅的层,从而加速训练和收敛。
(2)特征重用:Shortcut连接允许神经网络模型更容易地访问早期层的原始特征,这对于捕获图像中的低级特征或一般性特征非常有用,这些特征可以在整个神经网络模型中被重复使用,提高神经网络模型的表示能力。
(3)减少信息丢失:在传统的深度网络中,信息必须通过多个层级进行传递,容易导致信息丢失或模糊化。Shortcut连接通过直接连接不同层级的特征,有助于减少信息的丢失,从而提高神经网络模型的性能。
(4)模型训练和收敛:Shortcut连接有助于更快地训练神经网络模型。由于梯度可以更容易地传播,神经网络模型可以更快地收敛到较好的解决方案。
(5)模型深度增加:Shortcut连接使得可以构建更深的神经网络模型,而无需过多担心梯度问题,这导致了深度残差网络(ResNet)等架构的出现,这些网络在各种计算机视觉任务中表现出色。
步骤S3:模型训练阶段;
使用训练集中的图像(包括偏色色块图像和其对应的波长值-颜色对应关系)作为输入特征,标签(波长值)作为目标输出,进行模型训练;在训练过程中,神经网络模型会通过反向传播和优化算法来学习波长值和颜色之间的对应关系,逐渐学习如何将偏色色块图像映射到正确的波长值。模型训练阶段通过大量的训练样本和优化算法,神经网络模型能够准确地预测图像中的波长信息。
其具体操作流程如下:
将偏色色块随机组合成的图像传入构建好的神经网络模型中进行训练,将数据集划分比例为7:2:1,其中7/10的数据作为训练集,通过训练集不断迭代更新模型参数;2/10作为验证集来选择模型参数,如果出现过拟合,则提前终止训练;1/10作为测试集,用于测试模型的性能。
训练轮次epochs设置为150次,传入模型的批次batch size设置为32;梯度下降的动态学习率采用余弦退火学习率(CosineAnnealing Learning Rate),因为其具有更快的收敛速度、更好的泛化性能、更少的超参数和更稳定的训练过程等优点;梯度优化器选择Adam,因为Adam结合余弦退火学习率是一种常用的优化算法和学习率调度策略的组合,具有更快的收敛速度、更好的泛化性能、更少的超参数和更稳定的训练过程等优点;损失函数选择交叉熵损失函数,选择交叉熵损失函数作为双支流网络中分类任务的损失函数具有对概率分布敏感、避免梯度消失、易于优化等优点。
其中,交叉熵损失函数的公式具体如下:
L=-[ylog(y′)+(1-y)log(1-y′)]
式中,y’为预测值的标签,y为真实值的标签。
步骤S4:颜色预测阶段;
经过训练后,神经网络模型可以用于校正实际拍摄的图像。将实际拍摄的偏色图像输入到已训练好的神经网络模型中,神经网络模型提取特征并生成对应颜色块的预测波长值。
步骤S5:颜色校正阶段;
S5.1波长值比较;
将预测波长值与对应的已知标准色块波长进行比较。这一步骤用于测量图像颜色与标准颜色之间的差异。
S5.2映射关系建立;
通过插值法等技术,建立预测波长值与色块值之间的映射关系。这一步骤将帮助了解颜色校正所需的具体调整。
所说的插值法具体使用三次样条插值(Cubic Spline Interpolation),三次样条插值(Cubic Spline Interpolation)是一种平滑的插值方法。它通过使用分段三次多项式来逼近数据点之间的曲线,从而得到波长到色块的连续映射关系。三次样条插值可以提供更平滑的色块变化,并在插值范围内具有较高的精度。
使用三次样条插值(Cubic Spline Interpolation)进行插值的优势在于:
(1)平滑性:三次样条插值可以生成平滑的曲线,而不会出现明显的锐角或不连续性。它通过使用三次多项式在每个数据点之间进行插值,从而获得连续且平滑的估计曲线。
(2)局部逼近性:三次样条插值在每个数据点附近使用局部的三次多项式进行插值,因此在这些区域内提供了较好的逼近性,这意味着它可以更好地保留原始数据点的特征,并在数据点之间提供较准确的估计值。
(3)可微性:三次样条插值的每个插值段都是三次多项式,因此它在每个插值段上具有连续的一阶和二阶导数,这使得它在需要计算导数的情况下非常有用,例如在图像处理中进行梯度计算或边缘检测时。
(4)误差控制:三次样条插值可以通过调整插值段之间的节点位置来控制插值误差。通过增加或减少节点数量,可以在平滑性和逼近性之间进行权衡,并控制插值的精度。
(5)数值稳定性:三次样条插值是一种稳定的插值方法,对于给定的数据点集合,它可以提供稳定和可靠的插值结果,它不容易受到噪声或异常值的影响,因此在处理现实世界的数据时表现良好。
S5.3颜色校正矩阵应用;
根据波长值的差异,应用颜色校正矩阵来校正图像中的颜色偏差。颜色校正矩阵会根据波长值的差异进行颜色调整,以使图像颜色更加准确。
使用颜色校正矩阵来校正图像中的颜色偏差具有以下几个优势:
(1)灵活性:颜色校正矩阵可以根据实际需要进行调整和优化。通过调整矩阵中的参数,可以灵活地对图像的颜色偏差进行校正,以获得更准确、更满意的结果。
(2)高精度:颜色校正矩阵可以提供比传统插值方法更高的精度。矩阵中的参数可以根据实际标准值和预测值之间的差异进行调整,以精确地校正图像中的色彩偏差。
(3)全局校正:颜色校正矩阵可以对整个图像或图像的特定区域进行校正。这意味着可以一次性对整个图像进行一致的颜色校正,而不需要分别对每个像素进行校正。
(4)实时性:颜色校正矩阵可以快速应用于图像数据,实时性较高。一旦矩阵参数确定,校正过程可以在较短的时间内完成,使得实时应用成为可能。
(5)适用性广泛:颜色校正矩阵适用于各种类型的图像,包括移动设备拍摄的图像、摄影图像等。只要有准确的标准值和相应的预测值,就可以应用颜色校正矩阵来校正图像中的色彩偏差。
S5.4获得校正后的图像;
最终,获得经过颜色校正后的图像,这些图像中的颜色偏差已经得到了修正,使其更加真实和准确。
步骤S6:图像分类任务;
使用transformer对校正后的特征图进行分类,可以将校正后的图像特征与特定的类别进行关联,实现对校正后图像的进一步处理和分类。这种结合了颜色校正和图像分类的方法可为后续的图像分析和应用提供更准确的结果。
具体的,使用经过颜色校正的图像作为输入,将其输入到Transformer或其他适用的分类模型中,进行图像分类或相关任务的预测。
使用transformer处理图像分类任务的优势在于:
(1)处理长距离依赖关系:Transformer模型通过自注意力机制(self-attention)来捕捉输入序列中的长距离依赖关系。这对于图像分类任务很有益处,因为在图像中,像素之间存在广泛的空间关联性,特征之间可能存在远距离的依赖关系。Transformer模型能够有效地捕捉和建模这些关系,使得分类模型能够更好地理解图像内容。
(2)上下文感知能力:Transformer模型能够利用全局信息,实现对图像的全局上下文感知。相比于传统的卷积神经网络(CNN),Transformer模型可以在分类任务中更好地利用图像中的全局特征信息,从而提供更准确的分类结果。
(3)可扩展性:Transformer模型在处理图像分类任务时具有较强的可扩展性。由于Transformer模型的并行计算能力较强,可以充分利用GPU或其他硬件资源,从而加速训练和推理过程,这使得Transformer模型能够应对大规模图像数据集和复杂分类任务。
(4)不同尺度特征表示:Transformer模型可以通过多层堆叠的方式来提取不同尺度的特征表示,这对于图像分类任务很有用,因为图像中的对象可能以不同的尺度出现。通过多层Transformer模型,可以获得不同层次的特征表示,从而更好地捕捉图像中的细节和全局信息。
(5)可解释性:相较于传统的卷积神经网络(CNN),Transformer模型在一定程度上提供了更好的可解释性。由于Transformer模型中的自注意力机制,可以可视化注意力权重,了解模型对于不同图像区域的关注程度,这有助于理解模型的决策过程,并提高对分类结果的解释能力。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种利用色块波长信息和深度学习技术的颜色校正方法,其特征在于,包括以下步骤:
步骤S1:收集偏色色块图像,经统一裁剪与数据增强后构建训练集,测量偏色色块图像的波长值并与标准颜色值进行配对,建立波长值与标准颜色值之间的对应关系;
步骤S2:设计神经网络模型;
步骤S3:使用训练集中的图像作为目标输出进行模型训练,在训练过程中,神经网络模型通过反向传播和优化算法学习波长值和标准颜色值之间的对应关系;
步骤S4:颜色预测;
步骤S5:颜色校正;
步骤S6:将经过颜色校正的图像输入到Transformer中进行图像分类。
2.根据权利要求1所述的一种利用色块波长信息和深度学习技术的颜色校正方法,其特征在于,步骤S1的具体操作流程如下:
S1.1数据收集;
收集各种移动设备拍摄的偏色色块图像;
S1.2统一裁剪与数据增强;
对收集到的偏色色块图像进行统一裁剪,使其具有相同的大小;然后对其进行数据增强;
S1.3构建训练集;
将剪裁后的偏色色块随机组合成具有固定尺寸的图像作为训练集,以模拟实际拍摄场景中的多色块情况;
S1.4光谱测量和配对;
在标准环境下,使用光谱仪测量每种偏色色块图像的波长值;将这些光谱测量值与标准颜色值进行配对,建立波长值与颜色之间的对应关系。
3.根据权利要求1所述的一种利用色块波长信息和深度学习技术的颜色校正方法,其特征在于,步骤S2的具体操作流程如下:
使用卷积神经网络设计神经网络模型,整个神经网络模型基于Pytorch深度学习框架搭建,其中的主干网络负责提取图像特征,回归层用于输出波长的预测值。
4.根据权利要求1所述的一种利用色块波长信息和深度学习技术的颜色校正方法,其特征在于,所述神经网络模型由CBS模块、SE模块和空间注意力机制模块组成。
5.根据权利要求1所述的一种利用色块波长信息和深度学习技术的颜色校正方法,其特征在于,步骤S3的具体操作流程如下:
将偏色色块随机组合成的图像传入神经网络模型中进行训练,将数据集划分比例为7:2:1,其中7/10的数据作为训练集,通过训练集不断迭代更新模型参数;2/10作为验证集来选择模型参数,如果出现过拟合,则提前终止训练;1/10作为测试集,用于测试模型的性能;训练轮次epochs设置为150次,传入模型的批次batch size设置为32;梯度下降的动态学习率采用余弦退火学习率;梯度优化器选择Adam;损失函数选择交叉熵损失函数。
6.根据权利要求1所述的一种利用色块波长信息和深度学习技术的颜色校正方法,其特征在于,步骤S4的具体操作流程如下:
将实际拍摄的图像输入到已训练好的神经网络模型中,所述神经网络模型提取特征并生成对应颜色块的预测波长值。
7.根据权利要求1所述的一种利用色块波长信息和深度学习技术的颜色校正方法,其特征在于,步骤S5的具体操作流程如下:
S5.1将预测波长值与对应的已知标准色块波长进行比较;
S5.2通过插值法建立预测波长值与色块值之间的映射关系;
S5.3根据波长值的差异,利用颜色校正矩阵来校正图像中的颜色偏差;
S5.4获得经过颜色校正后的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311395072.6A CN117474810A (zh) | 2023-10-26 | 2023-10-26 | 一种利用色块波长信息和深度学习技术的颜色校正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311395072.6A CN117474810A (zh) | 2023-10-26 | 2023-10-26 | 一种利用色块波长信息和深度学习技术的颜色校正方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117474810A true CN117474810A (zh) | 2024-01-30 |
Family
ID=89630464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311395072.6A Pending CN117474810A (zh) | 2023-10-26 | 2023-10-26 | 一种利用色块波长信息和深度学习技术的颜色校正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117474810A (zh) |
-
2023
- 2023-10-26 CN CN202311395072.6A patent/CN117474810A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kundu et al. | No-reference quality assessment of tone-mapped HDR pictures | |
CN111292264A (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
CN113822830B (zh) | 基于深度感知增强的多曝光图像融合方法 | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
CN111861880A (zh) | 基于区域信息增强与块自注意力的图像超分与融合方法 | |
CN112991371B (zh) | 一种基于着色溢出约束的图像自动着色方法及系统 | |
JP2021179833A (ja) | 情報処理装置、情報処理方法及びプログラム | |
Steffens et al. | Cnn based image restoration: Adjusting ill-exposed srgb images in post-processing | |
Zhang et al. | Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement | |
CN112581392A (zh) | 基于双向光照估计与融合修复的图像曝光校正方法、系统及存储介质 | |
CN117351542A (zh) | 一种面部表情识别方法及系统 | |
Wang et al. | Single underwater image enhancement using an analysis-synthesis network | |
Saleem et al. | A non-reference evaluation of underwater image enhancement methods using a new underwater image dataset | |
CN113992920A (zh) | 一种基于深度展开网络的视频压缩感知重建方法 | |
CN113810683A (zh) | 一种客观评估水下视频质量的无参考评价方法 | |
CN113706400A (zh) | 图像矫正方法、装置、显微镜图像的矫正方法及电子设备 | |
CN113096039A (zh) | 一种基于红外图和深度图的深度信息补全方法 | |
Li et al. | An improved method for underwater image super-resolution and enhancement | |
CN117474810A (zh) | 一种利用色块波长信息和深度学习技术的颜色校正方法 | |
Yuan et al. | Color image quality assessment with multi deep convolutional networks | |
CN113781375A (zh) | 一种基于多曝光融合的车载视觉增强方法 | |
CN115311149A (zh) | 图像去噪方法、模型、计算机可读存储介质及终端设备 | |
Zhao et al. | Nonuniform illumination correction for underwater images through a pseudo-siamese network | |
Marasakatla et al. | Under Water Image Enhancement Using CNN | |
Hao et al. | DGC‐UWnet: Underwater image enhancement based on computation‐efficient convolution and channel shuffle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |