CN117041601A - 一种基于isp神经网络模型的图像处理方法 - Google Patents

一种基于isp神经网络模型的图像处理方法 Download PDF

Info

Publication number
CN117041601A
CN117041601A CN202311295782.1A CN202311295782A CN117041601A CN 117041601 A CN117041601 A CN 117041601A CN 202311295782 A CN202311295782 A CN 202311295782A CN 117041601 A CN117041601 A CN 117041601A
Authority
CN
China
Prior art keywords
image
convolution
isp
image processing
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311295782.1A
Other languages
English (en)
Other versions
CN117041601B (zh
Inventor
王坤
赵海波
卢罗宗
聂智全
王君伟
梁境鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haiyuan Lieheng Qingdao Medical Instrument Co ltd
Haikeshong Manufacturing Intelligent Technology Qingdao Co ltd
Original Assignee
Haiyuan Lieheng Qingdao Medical Instrument Co ltd
Haikeshong Manufacturing Intelligent Technology Qingdao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haiyuan Lieheng Qingdao Medical Instrument Co ltd, Haikeshong Manufacturing Intelligent Technology Qingdao Co ltd filed Critical Haiyuan Lieheng Qingdao Medical Instrument Co ltd
Priority to CN202311295782.1A priority Critical patent/CN117041601B/zh
Publication of CN117041601A publication Critical patent/CN117041601A/zh
Application granted granted Critical
Publication of CN117041601B publication Critical patent/CN117041601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/1883Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/555Constructional details for picking-up images in sites, inaccessible due to their dimensions or hazardous conditions, e.g. endoscopes or borescopes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于ISP神经网络模型的图像处理方法,属于图像处理技术领域,包括ISP神经网络模型训练步骤和图像处理步骤:所述ISP神经网络模型训练步骤包括数据预处理步骤、编码步骤、解码步骤、非线性映射关系增强步骤以及模型优化步骤,在所述编码步骤和解码步骤中,还包括对输入图像采用带残差连接的多卷积流特征融合模块进行处理的步骤;本发明的图像处理方法,不仅减少了处理流程的复杂性,而且能够直接从原始图像数据中学习到有用的特征和处理方法,使得图像质量在特定应用场景下得到针对性的提升。

Description

一种基于ISP神经网络模型的图像处理方法
技术领域
本发明属于图像处理技术领域,具体地说,涉及一种基于ISP神经网络模型的图像处理方法。
背景技术
内窥镜是一种医疗设备,可以通过体内小孔进入人体内部进行检查和治疗。随着科技的发展,现代内窥镜已经具备了数字成像和视频传输的功能,这使得医生可以更加直观地观察病变部位,提高了诊断的准确度和治疗的效果。而内窥镜成像的质量,离不开图像信号处理器(ISP)的支持。内窥镜ISP的性能和优化是决定医学成像质量的关键因素,是医疗设备设计和制造过程中的重要考虑因素。
与相机类似,内窥镜的ISP也需要通过一系列的数据处理步骤,将从传感器捕获的原始图像信号转化为最终的输出图像。这些步骤包括传感器矫正、白平衡校正、去噪、色彩校正、锐化、曝光控制等。传统的ISP处理流程通常对于这些步骤需要单独设计和优化算法,处理过程复杂,优化过程困难,效果受限且无法发挥充分发挥硬件的性能。
基于此,如何提出一种基于编码解码的神经网络架构,改进提出一种轻量级的ISP处理架构,解决传统ISP处理算法复杂且适应性差的问题。
本背景技术所公开的上述信息仅仅用于增加对本申请背景技术的理解,因此,其可能包括不构成本领域普通技术人员已知的现有技术。
发明内容
本发明针对现有技术中图像信号处理器处理算法存在复杂且适应性差的问题,提出了一种基于ISP神经网络模型的图像处理方法,可以解决上述问题。
为实现上述发明目的,本发明采用下述技术方案予以实现:
一种基于ISP神经网络模型的图像处理方法,其特征在于,包括ISP神经网络模型训练步骤和图像处理步骤:
所述ISP神经网络模型训练步骤包括:
数据预处理步骤,包括:对传感器滤光阵列采集的原始图像按照像素排列拆分成4个通道,分别为R,Gb,Gr,B通道,得到预处理图像;
编码步骤,包括:将预处理图像输入网络编码器进行运算,所述网络编码器采用离散小波变换进行多级运算,每一级的运算将输入图像通过四个卷积算子分解为四个不同频率的子带,该四个不同频带的子带包括低低频子带LL、低高频子带LH、高低频子带HL和高高频子带HH,经过每一级的运算输入图像的大小缩小一半,通道数量增加为原来的四倍;
解码步骤,包括:接收所述编码步骤输出的图像,采用解码器将编码步骤中分解为不同频带的图像进行重组,所述解码器采用逆离散小波变换进行多级逆运算,将图像恢复到原始图像的尺寸,多级逆运算的级数与所述网络编码的运算级数一致且一一对应;
非线性映射关系增强步骤,所述编码步骤输出的图像其中一路输入至自注意力模块进行自注意力计算,并将输出结果与所述解码器的输出结果进行相加计算,解码器的最终输出结果;
在所述编码步骤和解码步骤中,还包括对输入图像采用带残差连接的多卷积流特征融合模块进行处理的步骤,包括:所述多卷积流特征融合模块采用3×3和5×5的卷积核分别对输入图像进行滤波,提取多尺度特征信息,然后在通道维度将所提取的特征信息与所述多卷积流特征融合模块的输入图像进行相加计算,并通过1×1的卷积核进行卷积,将特征融合;
在所述网络编码器的各级运算输出的其中一路还包括输出至稠密连接块,所述稠密连接块对输入图像进行多次高维特征的映射合并,并将处理结果输出至所述解码器同级的逆运算步骤中,并作为该逆运算步骤的其中一路输入;
模型优化步骤,包括:计算所述解码器输出的预测图像与目标图像之间的损失误差,调节所述网络编码器和/或解码器,使得所述误差不超过设定值;
所述图像处理步骤包括:
内窥镜实施例采集图像信息,并输入至所述ISP神经网络模型,所述ISP神经网络模型输出处理后的图像至显示器显示。
在有的实施例中,所述编码步骤中,低低频子带LL的卷积算子为:
低高频子带LH的卷积算子为:
高低频子带HL的卷积算子为:
高高频子带HH的卷积算子为:
在有的实施例中,所述多卷积流特征融合模块通过深度可分离卷积实现。
在有的实施例中,所述解码步骤中最后一级输出的结果经过亚像素卷积的像素重排后,得到预测的RGB三通道图像,输出图像的尺寸与原始图像的尺寸一致。
在有的实施例中,非线性映射关系增强步骤中,自注意力模块的通道注意力为:
其中, 是输入特征,分别通过/>和/>两个1×1卷积操作进行通道数量调整,/>表示对卷积操作后的特征进行降维,分别生成键向量和查询向量,两个向量相乘后的结果经过/>卷积扩充通道数,最后经过Sigmoid激活映射到范围 [0, 1],生成通道注意力/>
自注意力模块的空间注意力为:
空间注意力对输入特征通过1×1卷积调整通道后,/>通路通过/>进行全局平均值池化,降维后由Softmax激活,得到归一化的键向量; />通路同样经过卷积、降维得到查询向量,向量相乘结果由/>升维,最后经过Sigmoid激活映射,得到空间注意力/>
在有的实施例中,模型优化步骤中,分别通过损失函数Charbonnier Loss和VGGLoss计算预测图像与目标图像之间的误差,并将两个损失函数的计算结果进行相加计算,得到最终的损失误差。
在有的实施例中,数据预处理步骤中,还包括分别对4个通道的数据进行归一化和标准化处理的步骤,归一化和标准化处理后得到预处理图像。
与现有技术相比,本发明的优点和积极效果是:
本发明的基于ISP神经网络模型的图像处理方法,通过一个深度学习模型,可以将多个处理步骤融合为一个端到端的神经网络模型,不仅减少了处理流程的复杂性,而且能够直接从原始图像数据中学习到有用的特征和处理方法,使得图像质量在特定应用场景下得到针对性的提升。深度学习方法通过一次训练同时学习ISP的多个分支任务,同时能更好地利用现代硬件的并行计算特性,对提高图像处理速度和效率有非常大的潜力。
结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得更加清楚。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 是本发明提出的基于ISP神经网络模型的图像处理方法的一种实施例的流程图;
图2是本发明提出的基于ISP神经网络模型的图像处理方法的一种实施例中模型的编解码处理过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“竖”、“横”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本实施例提出了一种基于ISP神经网络模型的图像处理方法,包括ISP神经网络模型训练步骤和图像处理步骤:
ISP神经网络模型训练步骤包括:
数据预处理步骤,包括:对传感器滤光阵列采集的原始图像按照像素排列拆分成4个通道,分别为R,Gb,Gr,B通道,得到预处理图像;
编码步骤,包括:将预处理图像输入网络编码器进行运算,网络编码器采用离散小波变换进行多级运算,每一级的运算将输入图像通过四个卷积算子分解为四个不同频率的子带,该四个不同频带的子带包括低低频子带LL、低高频子带LH、高低频子带HL和高高频子带HH,经过每一级的运算输入图像的大小缩小一半,通道数量增加为原来的四倍。
如图2所示,为模型的编解码处理流程示意图,条形框的高度示意图像的大小,条形框的上方数字表示此时图像的通道数量,条形框的一侧或者下方为该条形框对应的处理过程。其中,图像的左半部分是编码过程,DWT为离散小波变换,在编码过程中,每经过一级的DWT和编码器卷积运算,图像的大小实现了缩小,同时通道数量增加,最终得到通道数量为512的稠密块。
解码步骤,包括:接收所述编码步骤输出的图像,采用解码器将编码步骤中分解为不同频带的图像进行重组,所述解码器采用逆离散小波变换IDWT进行多级逆运算,将图像恢复到原始图像的尺寸,多级逆运算的级数与所述网络编码的运算级数一致且一一对应。
如图2所示,图像的右半部分是解码过程,在解码过程中,每经过一级的IDWT和解编码器卷积运算,图像的大小增大,同时通道数量减小,最终将12个通道的像素重排,并通过RGB三通道输出。
非线性映射关系增强步骤,编码步骤输出的图像其中一路输入至自注意力模块进行自注意力计算,并将输出结果与解码器的输出结果进行相加计算,解码器的最终输出结果。
在编码步骤和解码步骤中,还包括对输入图像采用带残差连接的多卷积流特征融合模块进行处理的步骤,包括:所述多卷积流特征融合模块采用3×3和5×5的卷积核分别对输入图像进行滤波,提取多尺度特征信息,然后在通道维度将所提取的特征信息与所述多卷积流特征融合模块的输入图像进行相加计算,并通过1×1的卷积核进行卷积,将特征融合。
在网络编码器的各级运算输出的其中一路还包括输出至稠密连接块,稠密连接块对输入图像进行多次高维特征的映射合并,并将处理结果输出至解码器同级的逆运算步骤中,并作为该逆运算步骤的其中一路输入。
模型优化步骤,包括:计算所述解码器输出的预测图像与目标图像之间的损失误差,调节网络编码器和/或解码器,使得误差不超过设定值。
图像处理步骤包括:
内窥镜实施例采集图像信息,并输入至ISP神经网络模型,ISP神经网络模型输出处理后的图像至显示器显示。
本发明模型主体是一个Unet架构的编码解码框架,包含数据预处理、多卷积流特征提取残差模块、DWT和IWT离散小波变化上下采样模块、稠密特征提取模块以及亚像素卷积模块。网络引入了兼顾空间注意力和通道注意力的极化自注意力机制用以加强有效特征,同时抑制不重要特征。整个网络采用Charboonier损失函数和感知损失联合训练,优化器采用Adam。
对于数据预处理步骤,也即RAW域数据预处理: RAW图像(H×W×1)由原始传感器滤光阵列采集,呈GRGB四原色规律排布,首先将原始的Bayer格式的图像按照像素排列拆分成4个通道,对应红、绿、蓝三种颜色,(其中绿色有两个通道Gb、Gr)以适应神经网络输入(H/2×W/2×4)。
表示对单通道输入input,从坐标(1,1)开始分别沿着图片两个方向进行采样,采样步长均为2,最终采样出通道ch_B。/>表示将拆分后的四个通道在通道维度进行组合后的数据输入。
在有的实施例中,为了提高模型收敛速度,提高模型稳定性和泛化能力,避免从特定数据集中学习到数据分布规律,需要对数据对(四通道的raw域数据以及三通道的groundtruth)进行归一化和标准化处理。
数据预处理步骤中,包括分别对4个通道的数据进行归一化和标准化处理的步骤,归一化和标准化处理后得到预处理图像。
其中,归一化,其中/>表示图片/>上的像素点,代表像素存储位宽。
标准化: ,其中/>是像素/>在图片c通道上的值,/>表示c通道上像素均值,/>表示方差。
网络编码器采用离散小波变换(Discrete Wavelet Transform,DWT)技术将输入的特征图通过四个卷积算子分解为四个不同频率的子带,包括低低频子带(LL)、低高频子带(LH)、高低频子带(HL)和高高频子带(HH)。最终特征图像被缩小到原来的一半,而通道数则增加为原来的四倍。通过这种方式,信号或图像在各个频带上的局部特征得到更好的保留和表示,从而提高了特征的表达能力和识别准确率。
在有的实施例中,编码步骤中,低低频子带LL的卷积算子为:
低高频子带LH的卷积算子为:
高低频子带HL的卷积算子为:
高高频子带HH的卷积算子为:
具体而言,经过离散小波变化后将四个子带进行拼接后的输出特征层表示为:
其中:
表示网络中某一层的输入特征,/>表示卷积运算。/>表示输出低低频子带在(i,j)位置的像素值,具体的其由/>在四个对应位置像素的加权和。其他频子带的同理,在此不做赘述。
本发明提出了一种带残差连接的多卷积流特征融合模块,用于在模型的编码解码过程中提高特征提取和表示的能力。该模块采用3×3和5×5的卷积核分别对输入流进行滤波,以提取多尺度特征信息。然后在通道维度将这些特征信息进行拼接,并通过1×1的卷积进行特征融合。在这个过程中,采用残差连接将卷积输出和模块输入相加,以重用原始特征。通过这种方式,模型可以获得更加全面和丰富的特征表示,提高对信号或图像的解码和重建的准确性和效率。该过程的公式表达为:
其中分别表示输入特征层和经过融合模块后的输出特征,/>表示尺寸为/>的卷积操作,Z表示激活激活函数,为了处理数据流中的负值,激活函数为prelu,表示残差输出。
同时为了降低模型复杂度,多卷积流特征融合模块通过DWConv通道可分离卷积实现,在一定的精度损失范围内实现更少的参数量和更高的FLOPS(floating-pointoperations per second)。
本实施例中,在卷积神经网络的网络编码器和解码器之间添加了稠密连接块(dense block),通过多次高维特征的映射合并,从而提高模型性能。与传统的卷积神经网络不同,稠密连接块将每一层的输入都连接到后续的所有层中,使得每一层都能携带前面所有层的特征信息。不仅有助于缓解梯度消失和梯度爆炸问题,还能加快模型的训练速度和提高模型的精度。实验结果表明,加入稠密连接块能够进一步提高重建图像的质量,使得重建图像的细节更加清晰,同时相对于普通卷积减少了模型的参数量和计算量,提高了模型的运行效率。稠密卷积第层特征输出由之前所有特征层共同决定,表达式如下所示。
稠密块第层特征/>由前面所有层映射得来,/>是第/>层的特征映射变换函数,Conv 表示卷积操作,RELU 表示relu激活函数,BN 表示批归一化操作。
模型最后一层输出12层特征,经过亚像素卷积(PixelShuffle)的像素重排后,得到预测的RGB三通道图像/>,输出图像尺寸最终上采样到同输入的尺寸大小。
其中表示12层特征/>在(i,j)位置上连续4个通道上的像素,其中k = 0、1、2 ,不同通道的像素值重排后形成一个通道上的子像素块。
在本发明的解码器中,采用逆离散小波变换(Inverse Discrete WaveletTransform,IWT)将经过离散小波变换分解成不同频带的信号进行重组,将分解的信号恢复到原始空间的尺寸,实现特征重建。
在有的实施例中,解码步骤中最后一级输出的结果经过亚像素卷积的像素重排后,得到预测的RGB三通道图像,输出图像的尺寸与原始图像的尺寸一致。
在有的实施例中,非线性映射关系增强步骤中,自注意力模块的通道注意力为:
其中, 是输入特征,分别通过/>和/>两个1×1卷积操作进行通道数量调整,/>表示对卷积操作后的特征进行降维,分别生成键向量和查询向量,两个向量相乘后的结果经过/>卷积扩充通道数,最后经过Sigmoid激活映射到范围 [0, 1],生成通道注意力/>,维度为1×1×C。
自注意力模块的空间注意力为:
空间注意力对输入特征通过1×1卷积调整通道后,/>通路通过/>进行全局平均值池化,降维后由Softmax激活,得到归一化的键向量; />通路同样经过卷积、降维得到查询向量,向量相乘结果由/>升维,最后经过Sigmoid激活映射,得到空间注意力/>,维度为H×W×1。
本模型引入了极化自注意力机制以增加退化图像和重建图像之间的非线性映射关系,编码器输出经过自注意力模块后与对应解码器上采样的同尺寸输出相加,作为重建高分辨率空间补充的损失信息。同时对于编码输出依次强调通道和空间的重要特征,抑制冗余特征。
是编码器输出特征,PSA(Polarized Self-Attention,极化自注意力机制),在本实施例中自注意力模块(Self-Attention Module)采用PSA对输入特征进行自注意力计算,/>表示解码器进行上采样后的输出。数值相加后得到解码器输出/>
在有的实施例中,模型优化步骤中,分别通过损失函数Charbonnier Loss和VGGLoss计算预测图像与目标图像之间的误差,并将两个损失函数的计算结果进行相加计算,得到最终的损失误差。
本模型通过优化Charboonier Loss和VGG Loss来实现端到端训练:
Charbonnier Loss是L1损失的一种变种,它通过添加一个平方项和平方根运算来平滑损失。这种平滑操作可以使损失在接近零的地方变得更平滑,从而对小的差异更加敏感。表示预测x和Groundtruth y 之间的损失误差,/>分别表示对应像素值,是所有像素数量,/>是一个很小的常数(例如0.001)。
VGG Loss是一种用于度量两个特征图之间的差异的损失函数。表示目标图像/>和预测图像/>在预训练网络VGG中某一层的特征/>之间的损失,分别表示特征的通道数、高度和宽度。/>表示特征之间L2范数的平方。
最终损失采用Charbonnier Loss和VGG Loss的和共同训练。
本实施例的基于ISP神经网络模型的图像处理方法,尤其提供一种针对内窥镜ISP处理的轻量级神经网络架构,能够将传统的多个处理步骤融合为一个端到端的处理流程,从而大大简化了处理流程的复杂性,提高了ISP处理的效率和速度。与传统的ISP处理流程相比,本发明采用基于深度学习技术的方法,通过一次训练学习ISP的多个分支任务,从而直接从原始图像数据中学习到有用的特征和处理方法,使得图像质量得到针对性的提升。经过在Zurich RAW to RGB数据集上的实验验证,本发明的处理结果表现非常有竞争力,证明了本发明在提高内窥镜成像质量方面的潜力。此外,本发明的轻量级架构也具有在移动摄像设备上进行部署应用的优势,可以满足日益增长的医疗设备小型化和智能化的需求。因此具有有利的应用前景和商业价值。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

Claims (7)

1.一种基于ISP神经网络模型的图像处理方法,其特征在于,包括ISP神经网络模型训练步骤和图像处理步骤:
所述ISP神经网络模型训练步骤包括:
数据预处理步骤,包括:对传感器滤光阵列采集的原始图像按照像素排列拆分成4个通道,分别为R,Gb,Gr,B通道,得到预处理图像;
编码步骤,包括:将预处理图像输入网络编码器进行运算,所述网络编码器采用离散小波变换进行多级运算,每一级的运算将输入图像通过四个卷积算子分解为四个不同频率的子带,该四个不同频率的子带包括低低频子带LL、低高频子带LH、高低频子带HL和高高频子带HH,经过每一级的运算输入图像的大小缩小一半,通道数量增加为原来的四倍;
解码步骤,包括:接收所述编码步骤输出的图像,采用解码器将编码步骤中分解为不同频带的图像进行重组,所述解码器采用逆离散小波变换进行多级逆运算,将图像恢复到原始图像的尺寸,多级逆运算的级数与所述网络编码的运算级数一致且一一对应;
非线性映射关系增强步骤,所述编码步骤输出的图像其中一路输入至自注意力模块进行自注意力计算,并将输出结果与所述解码器的输出结果进行相加计算,解码器的最终输出结果;
在所述编码步骤和解码步骤中,还包括对输入图像采用带残差连接的多卷积流特征融合模块进行处理的步骤,包括:所述多卷积流特征融合模块采用3×3和5×5的卷积核分别对输入图像进行滤波,提取多尺度特征信息,然后在通道维度将所提取的特征信息与所述多卷积流特征融合模块的输入图像进行相加计算,并通过1×1的卷积核进行卷积,将特征融合;
在所述网络编码器的各级运算输出的其中一路还包括输出至稠密连接块,所述稠密连接块对输入图像进行多次高维特征的映射合并,并将处理结果输出至所述解码器同级的逆运算步骤中,并作为该逆运算步骤的其中一路输入;
模型优化步骤,包括:计算所述解码器输出的预测图像与目标图像之间的损失误差,调节所述网络编码器和/或解码器,使得所述误差不超过设定值;
所述图像处理步骤包括:
内窥镜实施例采集图像信息,并输入至所述ISP神经网络模型,所述ISP神经网络模型输出处理后的图像至显示器显示。
2.根据权利要求1所述的图像处理方法,其特征在于,所述编码步骤中,低低频子带LL的卷积算子为:
低高频子带LH的卷积算子为:
高低频子带HL的卷积算子为:
高高频子带HH的卷积算子为:
3.根据权利要求1所述的图像处理方法,其特征在于,所述多卷积流特征融合模块通过深度可分离卷积实现。
4.根据权利要求1所述的图像处理方法,其特征在于,所述解码步骤中最后一级输出的结果经过亚像素卷积的像素重排后,得到预测的RGB三通道图像,输出图像的尺寸与原始图像的尺寸一致。
5.根据权利要求1所述的图像处理方法,其特征在于,非线性映射关系增强步骤中,自注意力模块的通道注意力为:
其中, 是输入特征,分别通过/>和/>两个1×1卷积操作进行通道数量调整,/>表示对卷积操作后的特征进行降维,分别生成键向量和查询向量,两个向量相乘后的结果经过/>卷积扩充通道数,最后经过Sigmoid激活映射到范围 [0, 1],生成通道注意力/>
自注意力模块的空间注意力为:
空间注意力对输入特征通过1×1卷积调整通道后,/>通路通过/>进行全局平均值池化,降维后由Softmax激活,得到归一化的键向量; />通路同样经过卷积、降维得到查询向量,向量相乘结果由/>升维,最后经过Sigmoid激活映射,得到空间注意力/>
6.根据权利要求1-5任一项所述的图像处理方法,其特征在于,模型优化步骤中,分别通过损失函数Charbonnier Loss和VGG Loss计算预测图像与目标图像之间的误差,并将两个损失函数的计算结果进行相加计算,得到最终的损失误差。
7.根据权利要求1-5任一项所述的图像处理方法,其特征在于,数据预处理步骤中,还包括分别对4个通道的数据进行归一化和标准化处理的步骤,归一化和标准化处理后得到预处理图像。
CN202311295782.1A 2023-10-09 2023-10-09 一种基于isp神经网络模型的图像处理方法 Active CN117041601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311295782.1A CN117041601B (zh) 2023-10-09 2023-10-09 一种基于isp神经网络模型的图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311295782.1A CN117041601B (zh) 2023-10-09 2023-10-09 一种基于isp神经网络模型的图像处理方法

Publications (2)

Publication Number Publication Date
CN117041601A true CN117041601A (zh) 2023-11-10
CN117041601B CN117041601B (zh) 2024-01-12

Family

ID=88630443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311295782.1A Active CN117041601B (zh) 2023-10-09 2023-10-09 一种基于isp神经网络模型的图像处理方法

Country Status (1)

Country Link
CN (1) CN117041601B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117850244A (zh) * 2024-03-04 2024-04-09 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制系统及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335217A (zh) * 2019-07-10 2019-10-15 东北大学 一种基于3d残差编码解码的医学图像降噪方法
CN113223002A (zh) * 2021-05-07 2021-08-06 西安智诊智能科技有限公司 一种血管图像分割方法
CN113298710A (zh) * 2021-05-10 2021-08-24 天津大学 基于外部注意力机制的光学相干层析超分辨率成像方法
CN113723447A (zh) * 2021-07-15 2021-11-30 西北工业大学 多模态影像的端到端的模板匹配法
US20220044358A1 (en) * 2021-01-20 2022-02-10 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method and apparatus, device, and storage medium
US20220164926A1 (en) * 2020-11-23 2022-05-26 Samsung Electronics Co., Ltd. Method and device for joint denoising and demosaicing using neural network
WO2022148446A1 (zh) * 2021-01-08 2022-07-14 华为技术有限公司 图像处理方法、装置、设备及存储介质
CN114842216A (zh) * 2022-04-28 2022-08-02 贵州大学 一种基于小波变换的室内rgb-d图像语义分割方法
CN114998583A (zh) * 2022-05-11 2022-09-02 平安科技(深圳)有限公司 图像处理方法、图像处理装置、设备及存储介质
US20230076920A1 (en) * 2020-05-15 2023-03-09 Huawei Technologies Co., Ltd. Global skip connection based convolutional neural network (cnn) filter for image and video coding
WO2023185243A1 (zh) * 2022-03-29 2023-10-05 河南工业大学 基于注意力调制上下文空间信息的表情识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335217A (zh) * 2019-07-10 2019-10-15 东北大学 一种基于3d残差编码解码的医学图像降噪方法
US20230076920A1 (en) * 2020-05-15 2023-03-09 Huawei Technologies Co., Ltd. Global skip connection based convolutional neural network (cnn) filter for image and video coding
US20220164926A1 (en) * 2020-11-23 2022-05-26 Samsung Electronics Co., Ltd. Method and device for joint denoising and demosaicing using neural network
WO2022148446A1 (zh) * 2021-01-08 2022-07-14 华为技术有限公司 图像处理方法、装置、设备及存储介质
US20220044358A1 (en) * 2021-01-20 2022-02-10 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method and apparatus, device, and storage medium
CN113223002A (zh) * 2021-05-07 2021-08-06 西安智诊智能科技有限公司 一种血管图像分割方法
CN113298710A (zh) * 2021-05-10 2021-08-24 天津大学 基于外部注意力机制的光学相干层析超分辨率成像方法
CN113723447A (zh) * 2021-07-15 2021-11-30 西北工业大学 多模态影像的端到端的模板匹配法
WO2023185243A1 (zh) * 2022-03-29 2023-10-05 河南工业大学 基于注意力调制上下文空间信息的表情识别方法
CN114842216A (zh) * 2022-04-28 2022-08-02 贵州大学 一种基于小波变换的室内rgb-d图像语义分割方法
CN114998583A (zh) * 2022-05-11 2022-09-02 平安科技(深圳)有限公司 图像处理方法、图像处理装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MENGCHUAN DONG,ET AL.: "Image Frequency Separation Residual Network for End-to-end RAW to RGB Mapping", 《2023 IEEE 5TH INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE CIRCUITS AND SYSTEMS (AICAS)》 *
WOOSEOK JEONG, ET AL.: "RAWtoBit: A Fully End-to-end Camera ISP Network", 《 COMPUTER VISION – ECCV 2022 》 *
隋远峰.: "图像信号处理器(ISP)-卷积神经网络(VGG16)联合优化及关键模块设计", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117850244A (zh) * 2024-03-04 2024-04-09 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制系统及方法
CN117850244B (zh) * 2024-03-04 2024-05-07 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制系统及方法

Also Published As

Publication number Publication date
CN117041601B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN117041601B (zh) 一种基于isp神经网络模型的图像处理方法
Arad et al. Ntire 2022 spectral recovery challenge and data set
CN109727207B (zh) 基于光谱预测残差卷积神经网络的高光谱图像锐化方法
CN112801877B (zh) 一种视频帧的超分辨率重构方法
CN109785252B (zh) 基于多尺度残差密集网络夜间图像增强方法
CN110136057B (zh) 一种图像超分辨率重建方法、装置及电子设备
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN106875358A (zh) 基于Bayer格式的图像增强方法及图像增强装置
CN112270646B (zh) 基于残差密集跳跃网络的超分辨增强方法
Wen et al. An effective network integrating residual learning and channel attention mechanism for thin cloud removal
CN112085717B (zh) 一种用于腹腔镜手术的视频预测方法及其系统
CN115082774A (zh) 基于双流自注意力神经网络的图像篡改定位方法及系统
CN115187480A (zh) 一种基于Transformer的图像颜色校正方法
CN115131256A (zh) 图像处理模型、图像处理模型的训练方法及装置
CN113079378A (zh) 图像处理方法、装置和电子设备
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN106612438A (zh) 一种基于重叠分区高级小波变换技术的图像压缩方法
Li et al. DnSwin: Toward real-world denoising via a continuous Wavelet Sliding Transformer
CN104683818A (zh) 基于双正交不变集多小波的图像压缩方法
CN113191970B (zh) 一种正交色彩传递网络及方法
CN112989593A (zh) 基于双相机的高光谱低秩张量融合计算成像方法
CN114240776B (zh) 一种针对msfa高光谱图像的去马赛克与压缩融合框架
Liu et al. Decoupled Frequency Learning for Dynamic Scene Deblurring
CN112990230B (zh) 基于二阶段分组注意力残差机制的光谱图像压缩重建方法
Teresa et al. Low Power Optimization of Finite Impulse Response Filter Feature Extraction by Using Thyroid Cancer Region Identification in Medical Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant