CN116309104A - 一种基于多尺度交叉注意力的图像去模糊方法及相关装置 - Google Patents
一种基于多尺度交叉注意力的图像去模糊方法及相关装置 Download PDFInfo
- Publication number
- CN116309104A CN116309104A CN202211696350.7A CN202211696350A CN116309104A CN 116309104 A CN116309104 A CN 116309104A CN 202211696350 A CN202211696350 A CN 202211696350A CN 116309104 A CN116309104 A CN 116309104A
- Authority
- CN
- China
- Prior art keywords
- aps
- image
- feature
- fusion
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 120
- 238000000605 extraction Methods 0.000 claims abstract description 101
- 238000005070 sampling Methods 0.000 claims abstract description 35
- 238000013500 data storage Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 230000002902 bimodal effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 13
- 238000010606 normalization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请提供了一种基于多尺度交叉注意力的图像去模糊方法及相关装置,该方法包括:将模糊APS图像及相应事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络进行特征提取及融合;将最深层的特征提取及融合网络与相邻的特征提取及融合网络分别输出的APS特征图进行上采样,然后利用中间尺度的上采样模块对下一尺度的上采样模块与上一尺度的特征提取及融合网络分别输出的APS特征图进行上采样;利用最浅层的上采样模块对模糊APS图像以及下一尺度的上采样模块输出的APS特征图进行上采样,输出清晰APS图像。本申请采用EVS图像信息引导APS图像的去模糊处理,EVS图像可提供更丰富的运动信息,可有效提高APS图像去模糊处理的效果。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于多尺度交叉注意力的图像去模糊方法及相关装置。
背景技术
在通过图像采集设备采集图像的过程中,若图像采集设备与拍摄目标之间存在相对运动,例如图像采集设备和/或拍摄目标处于运动状态,则会导致最终拍摄的图像成像模糊。
目前,图像去模糊是计算机视觉领域的重要研究课题,通过图像去模糊算法可以对模糊图像进行画质增强,然而,相关技术所提供的图像去模糊算法通常为基于APS图像的去模糊算法,在对模糊APS图像进行去模糊处理时所提供的引导信息较为有限,导致最终的图像去模糊效果欠佳。
发明内容
本申请实施例提供了一种基于多尺度交叉注意力的图像去模糊方法及相关装置,至少能够解决相关技术中提供的基于APS图像的去模糊算法的图像去模糊效果欠佳的问题。
本申请实施例第一方面提供了一种基于多尺度交叉注意力的图像去模糊方法,包括:
将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;其中,所述特征提取及融合网络包括下采样模块以及交叉注意力模块;
将最深层的所述特征提取及融合网络与相邻的所述特征提取及融合网络分别输出的APS特征图,同时输入至最深层的所述上采样模块进行上采样,然后利用中间尺度的所述上采样模块对下一尺度的所述上采样模块与上一尺度的所述特征提取及融合网络分别输出的APS特征图进行上采样;
利用最浅层的所述上采样模块对所述模糊APS图像以及下一尺度的所述上采样模块输出的APS特征图进行上采样,输出对应于所述模糊APS图像的清晰APS图像。
本申请实施例第二方面提供了一种基于多尺度交叉注意力的图像去模糊装置,包括:
特征提取及融合模块,用于将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;其中,所述特征提取及融合网络包括下采样模块以及交叉注意力模块;
第一上采样模块,用于将最深层的所述特征提取及融合网络与相邻的所述特征提取及融合网络分别输出的APS特征图,同时输入至最深层的所述上采样模块进行上采样,然后利用中间尺度的所述上采样模块对下一尺度的所述上采样模块与上一尺度的所述特征提取及融合网络分别输出的APS特征图进行上采样;
第二上采样模块,用于利用最浅层的所述上采样模块对所述模糊APS图像以及下一尺度的所述上采样模块输出的APS特征图进行上采样,输出对应于所述模糊APS图像的清晰APS图像。
本申请实施例第三方面提供了一种电子设备,包括:存储器及处理器,其中,处理器用于执行存储在存储器上的计算机程序,处理器执行计算机程序时,实现上述本申请实施例第一方面提供的图像去模糊方法中的各步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的图像去模糊方法中的各步骤。
由上可见,根据本申请方案所提供的基于多尺度交叉注意力的图像去模糊方法及相关装置,将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;将最深层的特征提取及融合网络与相邻的特征提取及融合网络分别输出的APS特征图,同时输入至最深层的上采样模块进行上采样,然后利用中间尺度的上采样模块对下一尺度的上采样模块与上一尺度的特征提取及融合网络分别输出的APS特征图进行上采样;利用最浅层的上采样模块对模糊APS图像以及下一尺度的上采样模块输出的APS特征图进行上采样,输出对应于模糊APS图像的清晰APS图像。通过本申请方案的实施,采用EVS图像信息引导APS图像的去模糊处理,由于EVS图像可以提供更丰富的运动信息,从而可以有效提高APS图像去模糊处理的效果。
附图说明
图1为本申请一实施例提供的应用场景的场景示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的图像去模糊方法的基本流程示意图;
图4为本申请一实施例提供的一种多尺度交叉注意力网络的结构示意图;
图5为本申请一实施例提供的一种下采样模块的结构示意图;
图6为本申请一实施例提供的一种交叉注意力模块的结构示意图;
图7为本申请一实施例提供的一种通道注意力单元的结构示意图;
图8为本申请一实施例提供的一种空间注意力单元的结构示意图;
图9为本申请一实施例提供的一种上采样模块的结构示意图;
图10为本申请一实施例提供的一种数据存储结构的示意图;
图11为本申请一实施例提供的图像去模糊装置的程序模块示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
下面将结合附图详细说明本申请实施例的一种基于多尺度交叉注意力的图像去模糊方法及相关装置。
为了解决相关技术中提供的基于APS图像的去模糊算法的图像去模糊效果欠佳的问题,本申请一实施例提供了一种基于多尺度交叉注意力的图像去模糊方法,应用于如图1所示的场景,在该应用场景中,优选的可以包括双模态融合相机101以及电子设备102,该双模态融合相机配置有双模态融合传感器,双模态融合传感器的整体像素阵列中包括APS(Active-Pixel Sensor,有源像素传感器)像素以及EVS(Event-based Vision Sensor,事件监测视觉传感器)像素,在实际应用中,整体像素阵列中两类像素的布局方式以及数量可视实际应用场景而定。当然,在另外一些应用场景中,上述双模态融合相机还可以采用独立的APS相机、EVS相机实现,本实施例对此不作唯一限定。
值得说明的是,有源像素传感器是一种常用的图像传感器,其中每个像素传感器单元具有光电检测器和至少一个有源晶体管,在金属氧化物半导体(MOS)有源像素传感器中,MOS场效应晶体管(MOSFET)用作放大器,APS的类型有多种,包括早期的NMOS型APS和更常见的互补MOS(CMOS)型APS;而事件监测视觉传感器是一种新型传感器,其模拟人类的视网膜,响应由于运动产生的亮度变化的像素点脉冲,因此它能够以极高的帧率捕获场景的亮度变化(也即光强变化),记录特定时间点和图像中特定位置的事件,形成事件流而不是帧流,从而可以解决传统相机信息冗余、数据存储量和实时处理量较大等问题。
另外,电子设备102是具备数据处理功能的各种终端设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
在图1所示的应用场景中,可以分别通过双模态融合相机101采集模糊APS图像以及事件数据流,然后将传感器数据发送至电子设备102。电子设备102针对所接收的事件数据流获取模糊APS图像相应的事件图像,然后执行如下图像去模糊方法的流程:首先,将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;其中,特征提取及融合网络包括下采样模块以及交叉注意力模块;然后,将最深层的特征提取及融合网络与相邻的特征提取及融合网络分别输出的APS特征图,同时输入至最深层的上采样模块进行上采样,然后利用中间尺度的上采样模块对下一尺度的上采样模块与上一尺度的特征提取及融合网络分别输出的APS特征图进行上采样;最后,利用最浅层的上采样模块对模糊APS图像以及下一尺度的上采样模块输出的APS特征图进行上采样,输出对应于模糊APS图像的清晰APS图像。
如图2所示为本申请一实施例提供的一种电子设备的结构示意图。该电子设备主要包括:存储器201及处理器202,处理器202的数量可以是一个或多个,存储器201上存储有可在处理器202上运行的计算机程序203,存储器201和处理器202通信连接,处理器202执行该计算机程序203时,实现前述图像去模糊方法的流程。
在一种实施方式中,存储器201可以是内部存储单元,例如硬盘或内存;存储器也可以是外部存储设备,例如配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括内部存储单元也包括外部存储设备,存储器还可以用于暂时地存储已经输出或者将要输出的数据。需要说明的是,当处理器为神经网络芯片时,电子设备可不包括存储器,在实际应用场景中,电子设备是否需使用存储器存储相应的计算机程序取决于处理器的类型。
在一种实施方式中,处理器202可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)、神经网络芯片或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请一实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于前述电子设备中,该计算机可读存储介质可以是前述图2所示实施例中的存储器。
该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时可实现前述图像去模糊方法的流程。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图3为本申请一实施例提供的图像去模糊方法的基本流程图,该图像去模糊方法可以由图1或图2中的电子设备执行,且可应用于包括多个不同尺度的特征提取及融合网络以及多个不同尺度的上采样模块的多尺度交叉注意力网络,特征提取及融合网络包括下采样模块以及交叉注意力模块。该图像去模糊方法具体包括以下的步骤:
步骤301、将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合。
在本实施例的图像去模糊处理过程中,待处理的模糊APS图像以及相应的事件图像作为整体去模糊网络的输入,先由特征提取及融合网络进行处理,本实施例的骨干网络配置有多个不同尺度的特征提取及融合网络,也即需要对模型输入由浅层至深层进行多尺度的特征提取及融合。
如图4所示为本实施例提供的一种多尺度交叉注意力网络的结构示意图,图中E_DownBlock和I_DownBlock分别表示单个特征提取及融合网络中的事件特征上采样模块及APS特征上采样模块,Cross_CBAM则表示单个特征提取及融合网络中的交叉注意力模块,本实施例图4所示的网络示例性配置有三个不同尺度的特征提取及融合网络,最浅层的特征提取及融合网络包括E_DownBlock1和I_DownBlock1以及Cross_CBAM1,中间尺度的特征提取及融合网络包括E_DownBlock2和I_DownBlock2以及Cross_CBAM2,最深层的特征提取及融合网络包括E_DownBlock3和I_DownBlock3以及Cross_CBAM3。原始输入至骨干网络的模糊APS图像(也即Images)以及事件图像(也即Events)作为最浅层特征提取及融合网络的输入,最深层提取及融合网络的输出作为上采样模块的输入。值得注意的是,特征维度shape可以表示为(b,c,h,w),其中,b表示批量大小,c表示通道数,h表示高度,w表示宽度。
在实际应用中,一个APS数据(shape=[1,3,h,w])和一个EVS数据(shape=[1,6,h,w])分别送入首个特征提取及融合网络中对应的分支,分别经过E_DownBlock1和I_DownBlock1进行特征提取,得到APS特征图(shape=[1,32,h/2,w/2])和事件特征图(shape=[1,32,h/2,w/2]);然后,将这两个特征图输入至首个特征提取及融合网络中的Cross_CBAM进行特征融合,融合之后的特征维度不变,依旧为APS特征图(shape=[1,32,h/2,w/2])和事件特征图(shape=[1,32,h/2,w/2]),然后,将这两个特征图输入至下一尺度的特征提取及融合网络中对应的特征提取网络分支,继续执行前述特征提取及融合的流程,如此循环,直至最深层的特征提取及融合网络完成特征提取及融合,最终输出的特征维度转变为[1,128,h/8,w/8]。
如图5所示为本实施例提供的一种下采样模块的结构示意图,下采样模块包括最大池化层(Maxpool2d)以及顺序连接的第一卷积层、第一归一化层(Layernorm2d)、第一Gelu激活函数层、第二卷积层、第二归一化层(Layernorm2d)、第二Gelu激活函数层,第二Gelu激活函数层的输出与原始输入X融合后作为最大池化层的输入。
在本实施例一种可选实施方式中,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合的步骤,包括:依次利用多个不同尺度的特征提取及融合网络中下采样模块的不同下采样单元提取APS特征图以及事件特征图;将下采样模块输出的APS特征图以及事件特征图分别输入至相同尺度的交叉注意力模块的不同通道注意力单元,计算第一APS特征权重以及第一事件特征权重;将第一APS特征权重与APS特征图相乘,得到中间APS特征图,以及第一事件特征权重与事件特征图相乘,得到中间事件特征图;将中间APS特征图以及中间事件特征图分别输入至交叉注意力模块的不同空间注意力单元,计算第二APS特征权重以及第二事件特征权重,并计算第二APS特征权重以及第二事件特征权重的平均权重;将平均权重分别与中间APS特征图以及中间事件特征图相乘,得到交叉注意力模块输出的APS特征图以及事件特征图,然后输入至下一尺度的特征提取及融合网络继续进行特征提取及融合。
如图6所示为本实施例提供的一种交叉注意力模块的结构示意图,X1和X2分别是该模块的两个输入,也即下采样模块输出的APS特征图和事件特征图,两者分别经过通道注意力单元ChannelAttentionModule得到不同通道的权重,然后与各自的原始输入特征图相乘,得到各自对应的中间特征图;接下来,各自的中间特征图再经过空间注意力单元SpatialAttentionModule得到不同空间位置的权重,两个权重对应位置叠加后求平均,得到最后的空间位置的权重;最后,空间位置的权重分别与两个中间特征图相乘,得到交叉注意力模块的两个输出特征图,然后这两个输出特征图进一步作为下一尺度的特征提取及融合网络的输入,继续由下一尺度的下采样模块及交叉注意力模块执行特征提取及融合处理。
应当说明的是,在相关技术中,在使用EVS特征对APS特征进行引导和修正时,对于EVS数据,在有物体运动的区域有数据产生,但是在其它区域也会有一些随机数据(噪声)产生,但是,相关技术通常会将EVS噪声也认定为正常EVS数据,也即噪声数据没有得到抑制,会对最终的APS去模糊产生负面影响;另外,在APS图像中的模糊区域又分为运动模糊、失焦模糊等等,APS去模糊通常仅期望对运动模糊进行去模糊处理,而其它模糊则并非去模糊对象,但是相关技术中目前对APS图像中不同模糊类型均进行了去模糊处理,去模糊效果不佳。而基于本实施例前述交叉注意力模块,APS特征图经过SpatialAttentionModule得到的空间位置的权重包含运动模糊、失焦模糊等等的所有区域,EVS特征图经过SpatialAttentionModule得到的空间位置的权重包含有物体运动的区域和噪声产生的区域,两个空间位置的权重加权平均,APS模糊且有物体运动的区域的权重被保留,仅有APS模糊的区域或者只有EVS噪声产生的区域的权重被抑制,同时APS不模糊且没有EVS数据的区域权重也被抑制,也即有效利用了正常EVS数据引导APS运动模糊区域的去模糊处理,提高了去模糊效果。
如图7所示为本实施例提供的一种通道注意力单元的结构示意图,本实施例的通道注意力单元包括两个并行的卷积分支以及Sigmoid激活函数层,其中一个卷积分支包括顺序连接的最大池化层(Maxpool2d)、第一卷积层、Relu激活函数层以及第二卷积层,另一个卷积分支包括顺序连接的平均池化层(Avgpool2d)、第一卷积层、Relu激活函数层以及第二卷积层,两个卷积分支的第二卷积层的输出均作为Sigmoid激活函数层的输入。
如图8所示为本实施例提供的一种空间注意力单元的结构示意图,本实施例的空间注意力单元包括平均池化层、最大池化层、融合模块(cat)、第三卷积层与Sigmoid激活函数层,平均池化层(mean)与最大池化层(max)的输出均作为融合模块的输入。
步骤302、将最深层的特征提取及融合网络与相邻的特征提取及融合网络分别输出的APS特征图,同时输入至最深层的上采样模块进行上采样,然后利用中间尺度的上采样模块对下一尺度的上采样模块与上一尺度的特征提取及融合网络分别输出的APS特征图进行上采样。
请再次参阅前述图4,具体的,本实施例在完成特征提取及融合之后,将最后一个特征提取及融合网络的交叉注意力模块输出的APS特征图(shape=[1,128,h/8,w/8])和上一个尺度的交叉注意力模块输出的APS特征图(shape=[1,64,h/4,w/4]),送入同一个上采样模块UpBlock进行上采样,得到上采样后的APS feature(shape=[1,64,h/4,w/4]),然后再接着将该上采样输出与再上一个尺度的交叉注意力模块输出的APS特征图进行上采样,得到上采样后的APS feature(shape=[1,32,h/2,w/2])。
步骤303、利用最浅层的上采样模块对模糊APS图像以及下一尺度的上采样模块输出的APS特征图进行上采样,输出对应于模糊APS图像的清晰APS图像。
最后,本实施例通过最浅层的上采样模块对下一尺度的上采样输出与整体网络的原始输入进行上采样,即输出最终的清晰APS图像,也即图4中Out(shape=[1,3,h,w])。
如图9所示为本实施例提供的一种上采样模块的结构示意图,本实施例的上采样模块包括第一卷积层、像素重组层(PixelShuffle)以及顺序连接的第二卷积层、第一归一化层(Layernorm2d)、第一Gelu激活函数层、第三卷积层、第二归一化层(Layernorm2d)、第二Gelu激活函数层,其中一个APS特征X1作为第一卷积层的输入,经过卷积以及像素重组处理后,与另一个APS特征X2进行融合,融合后特征作为第二卷积层的输入,继续进行后续处理。
在本实施例一种可选实施方式中,上述将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合的步骤之前,还包括:接收双模态融合传感器采用卷帘曝光形式同时采集的APS图像以及事件数据流进行存储;从数据存储结构中调用模糊APS图像,并基于模糊APS图像的曝光时间从数据存储结构中调用相应的事件数据;基于事件数据生成模糊APS图像相应的事件图像。
进一步地,上述接收双模态融合传感器采用卷帘曝光形式同时采集的APS图像以及事件数据进行存储的步骤,包括:接收双模态融合传感器采用卷帘曝光形式同时采集的所有APS图像以及事件数据流,并将所有APS图像以及事件数据的全局属性存储于预设数据存储结构的全局属性部分,以及将不同APS图像以及相应的专有属性存储于APS数据部分的不同子数据部分,将事件数据流中各事件数据的不同事件数据成分存储于事件数据部分的不同列表中。
具体的,对于本实施例的双模态融合传感器APX,其同时输出两种数据,分别是APS图像以及事件数据,其中,APS的曝光方式为卷帘曝光,每一行数据的曝光时长相等,每一行数据的曝光开始时间呈等差分布(如一张APS数据第N行的开始曝光时间为t,第N+1行的开始曝光时间为t+α,第N+2行的开始曝光时间为t+2α);而事件数据是有固定帧率的,如800FPS,一帧产生的时间是在某一时刻,和APS不同的是事件数据没有曝光时长的概念。由于一张APS中不同行数据的曝光起止时间不同,所以对应曝光时间内的EVS数据也不可以直接取,同样的,也不能直接在时间上等分成多个体素。
基于此,本实施例设计了一种数据存储结构h5file,具体请见图10,其包括两个数据部分以及一个全局属性部分,全局属性部分attris包括APS图像数量num_images、事件数据数量num_events、APS图像尺寸size_image、事件数据尺寸size_events、第一张APS图像首行的曝光起始时刻start_time、最后一张APS图像尾行的曝光终止时刻end_time、APS图像格式type_image、时间单位time_unit、是否对事件输出进行时间偏移处理evs_rolling。另外,两个数据部分为APS数据部分images以及事件数据部分events,APS数据部分包括多个子数据部分,分别用于存储不同APS图像及其相应的专有属性,APS图像的专有属性包括首行曝光起始时刻timestamp、首行曝光终止时刻sof以及尾行曝光终止时刻eof;而事件数据部分则分为xs、ys、ps、ts四个列表,分别用于存储各事件数据的不同数据成分,其中,xs、ys为事件像素坐标,ps为事件极性(其中+1表示正极性,-1表示负极性),ts表示时间戳,也即事件产生时间。
进一步地,在本实施例一种可选实施方式中,上述基于模糊APS图像的曝光时间从数据存储结构中调用相应的事件数据的步骤,包括:基于APS图像任意相邻两行数据的曝光起始时刻的时间差计算事件数据偏移时间;将事件数据流中所有事件数据的时间戳根据所在行数向前偏移事件数据偏移时间,得到所有事件数据的偏移后时间戳;从数据存储结构中调用偏移后时间戳与模糊APS图像的曝光时间相匹配的事件数据。
具体的,本实施例在调用模糊APS图像进行去模糊处理时,可以将上述数据存储结构中evs_rolling设置为Ture,触发事件数据的时间偏移处理,在本实施例中,计算任意一张APS图像中任意相邻两行数据的曝光起始时刻的时间差,记为rolling_time,那么rolling_time=(eof-sof)/(img_h-1),其中img_h是APS数据的行数,接下来,对每一个事件的产生时间按照所在行数向前偏移上述rolling_time,也即Ts’=Ts–Ys×rolling_time,得到所有事件数据的偏移后时间戳Ts’,最后,取偏移后时间戳处于模糊APS图像的Timestamp至Sof的这段时间内的所有事件数据,作为模糊APS图像相应的事件数据。
图11为本申请一实施例提供的一种基于多尺度交叉注意力的图像去模糊装置,可用于实现前述实施例中的基于多尺度交叉注意力的图像去模糊方法,该图像去模糊装置主要包括:
特征提取及融合模块1101,用于将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;其中,特征提取及融合网络包括下采样模块以及交叉注意力模块;
第一上采样模块1102,用于将最深层的特征提取及融合网络与相邻的特征提取及融合网络分别输出的APS特征图,同时输入至最深层的上采样模块进行上采样,然后利用中间尺度的上采样模块对下一尺度的上采样模块与上一尺度的特征提取及融合网络分别输出的APS特征图进行上采样;
第二上采样模块1103,用于利用最浅层的上采样模块对模糊APS图像以及下一尺度的上采样模块输出的APS特征图进行上采样,输出对应于模糊APS图像的清晰APS图像。
在本实施例的一些实施方式中,特征提取及融合模块具体用于:依次利用多个不同尺度的特征提取及融合网络中下采样模块的不同下采样单元提取APS特征图以及事件特征图;将下采样模块输出的APS特征图以及事件特征图分别输入至相同尺度的交叉注意力模块的不同通道注意力单元,计算第一APS特征权重以及第一事件特征权重;将第一APS特征权重与APS特征图相乘,得到中间APS特征图,以及第一事件特征权重与事件特征图相乘,得到中间事件特征图;将中间APS特征图以及中间事件特征图分别输入至交叉注意力模块的不同空间注意力单元,计算第二APS特征权重以及第二事件特征权重,并计算第二APS特征权重以及第二事件特征权重的平均权重;将平均权重分别与中间APS特征图以及中间事件特征图相乘,得到交叉注意力模块输出的APS特征图以及事件特征图,然后输入至下一尺度的特征提取及融合网络继续进行特征提取及融合。
在本实施例的一些实施方式中,该图像去模糊装置还包括:存储模块、调用模块以及生成模块,其中,存储模块用于接收双模态融合传感器采用卷帘曝光形式同时采集的APS图像以及事件数据流进行存储;调用模块用于从数据存储结构中调用模糊APS图像,并基于模糊APS图像的曝光时间从数据存储结构中调用相应的事件数据;生成模块用于基于事件数据生成模糊APS图像相应的事件图像。
进一步地,在本实施例的一些实施方式中,存储模块具体用于:接收双模态融合传感器采用卷帘曝光形式同时采集的所有APS图像以及事件数据流,并将所有APS图像以及事件数据的全局属性存储于预设数据存储结构的全局属性部分,以及将不同APS图像以及相应的专有属性存储于APS数据部分的不同子数据部分,将事件数据流中各事件数据的不同事件数据成分存储于事件数据部分的不同列表中;其中,全局属性包括APS图像数量、事件数据数量、APS图像尺寸、事件数据尺寸,专有属性包括首行曝光起止时刻、尾行曝光终止时刻,事件数据成分包括事件像素坐标、事件极性、时间戳。
进一步地,在本实施例的另一些实施方式中,调用模块具体用于:基于APS图像任意相邻两行数据的曝光起始时刻的时间差计算事件数据偏移时间;将事件数据流中所有事件数据的时间戳根据所在行数向前偏移事件数据偏移时间,得到所有事件数据的偏移后时间戳;从数据存储结构中调用偏移后时间戳与模糊APS图像的曝光时间相匹配的事件数据。
应当说明的是,前述实施例中的图像去模糊方法均可基于本实施例提供的图像去模糊装置实现,所属领域的普通技术人员可以清楚的了解到,为描述的方便和简洁,本实施例中所描述的图像去模糊装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于本申请上述实施例的技术方案,将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;将最深层的特征提取及融合网络与相邻的特征提取及融合网络分别输出的APS特征图,同时输入至最深层的上采样模块进行上采样,然后利用中间尺度的上采样模块对下一尺度的上采样模块与上一尺度的特征提取及融合网络分别输出的APS特征图进行上采样;利用最浅层的上采样模块对模糊APS图像以及下一尺度的上采样模块输出的APS特征图进行上采样,输出对应于模糊APS图像的清晰APS图像。通过本申请方案的实施,采用EVS图像信息引导APS图像的去模糊处理,由于EVS图像可以提供更丰富的运动信息,从而可以有效提高APS图像去模糊处理的效果。
应当说明的是,在本申请所提供的几个实施例中所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的基于多尺度交叉注意力的图像去模糊方法及相关装置的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于多尺度交叉注意力的图像去模糊方法,其特征在于,包括:
将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;其中,所述特征提取及融合网络包括下采样模块以及交叉注意力模块;
将最深层的所述特征提取及融合网络与相邻的所述特征提取及融合网络分别输出的APS特征图,同时输入至最深层的所述上采样模块进行上采样,然后利用中间尺度的所述上采样模块对下一尺度的所述上采样模块与上一尺度的所述特征提取及融合网络分别输出的APS特征图进行上采样;
利用最浅层的所述上采样模块对所述模糊APS图像以及下一尺度的所述上采样模块输出的APS特征图进行上采样,输出对应于所述模糊APS图像的清晰APS图像。
2.根据权利要求1所述的图像去模糊方法,其特征在于,所述依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合的步骤,包括:
依次利用多个不同尺度的特征提取及融合网络中所述下采样模块的不同下采样单元提取APS特征图以及事件特征图;
将所述下采样模块输出的所述APS特征图以及所述事件特征图分别输入至相同尺度的所述交叉注意力模块的不同通道注意力单元,计算第一APS特征权重以及第一事件特征权重;
将所述第一APS特征权重与所述APS特征图相乘,得到中间APS特征图,以及所述第一事件特征权重与所述事件特征图相乘,得到中间事件特征图;
将所述中间APS特征图以及所述中间事件特征图分别输入至所述交叉注意力模块的不同空间注意力单元,计算第二APS特征权重以及第二事件特征权重,并计算所述第二APS特征权重以及第二事件特征权重的平均权重;
将所述平均权重分别与所述中间APS特征图以及所述中间事件特征图相乘,得到所述交叉注意力模块输出的APS特征图以及事件特征图,然后输入至下一尺度的所述特征提取及融合网络继续进行特征提取及融合。
3.根据权利要求2所述的图像去模糊方法,其特征在于,所述通道注意力单元包括两个并行的卷积分支以及Sigmoid激活函数层,其中一个所述卷积分支包括顺序连接的最大池化层、第一卷积层、Relu激活函数层以及第二卷积层,另一个卷积分支包括顺序连接的平均池化层、第一卷积层、Relu激活函数层以及第二卷积层,两个所述卷积分支的所述第二卷积层的输出均作为所述Sigmoid激活函数层的输入。
4.根据权利要求2所述的图像去模糊方法,其特征在于,所述空间注意力单元包括平均池化层、最大池化层、融合模块、第三卷积层与Sigmoid激活函数层,所述平均池化层与所述最大池化层的输出均作为所述融合模块的输入。
5.根据权利要求1至4中任意一项所述的图像去模糊方法,其特征在于,所述将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合的步骤之前,还包括:
接收双模态融合传感器采用卷帘曝光形式同时采集的APS图像以及事件数据流进行存储;其中,双模态融合传感器的整体像素阵列中包括APS像素以及EVS像素;
从数据存储结构中调用所述模糊APS图像,并基于所述模糊APS图像的曝光时间从所述数据存储结构中调用相应的事件数据;
基于所述事件数据生成所述模糊APS图像相应的所述事件图像。
6.根据权利要求5所述的图像去模糊方法,其特征在于,所述接收双模态融合传感器采用卷帘曝光形式同时采集的APS图像以及事件数据进行存储的步骤,包括:
接收双模态融合传感器采用卷帘曝光形式同时采集的所有APS图像以及事件数据流,并将所有所述APS图像以及事件数据的全局属性存储于预设数据存储结构的全局属性部分,以及将不同APS图像以及相应的专有属性存储于APS数据部分的不同子数据部分,将所述事件数据流中各事件数据的不同事件数据成分存储于事件数据部分的不同列表中;其中,所述全局属性包括APS图像数量、事件数据数量、APS图像尺寸、事件数据尺寸,所述专有属性包括首行曝光起止时刻、尾行曝光终止时刻,所述事件数据成分包括事件像素坐标、事件极性、时间戳。
7.根据权利要求5所述的图像去模糊方法,其特征在于,所述基于所述模糊APS图像的曝光时间从所述数据存储结构中调用相应的事件数据的步骤,包括:
基于所述APS图像任意相邻两行数据的曝光起始时刻的时间差计算事件数据偏移时间;
将所述事件数据流中所有事件数据的时间戳根据所在行数向前偏移所述事件数据偏移时间,得到所有事件数据的偏移后时间戳;
从所述数据存储结构中调用所述偏移后时间戳与所述模糊APS图像的曝光时间相匹配的事件数据。
8.一种基于多尺度交叉注意力的图像去模糊装置,其特征在于,包括:
特征提取及融合模块,用于将模糊APS图像以及相应的事件图像作为多尺度交叉注意力网络的输入,依次利用多个不同尺度的特征提取及融合网络按照自浅层至深层的顺序进行特征提取及融合;其中,所述特征提取及融合网络包括下采样模块以及交叉注意力模块;
第一上采样模块,用于将最深层的所述特征提取及融合网络与相邻的所述特征提取及融合网络分别输出的APS特征图,同时输入至最深层的所述上采样模块进行上采样,然后利用中间尺度的所述上采样模块对下一尺度的所述上采样模块与上一尺度的所述特征提取及融合网络分别输出的APS特征图进行上采样;
第二上采样模块,用于利用最浅层的所述上采样模块对所述模糊APS图像以及下一尺度的所述上采样模块输出的APS特征图进行上采样,输出对应于所述模糊APS图像的清晰APS图像。
9.一种电子设备,其特征在于,包括存储器及处理器,其中:
所述处理器用于执行存储在所述存储器上的计算机程序;
所述处理器执行所述计算机程序时,实现权利要求1至7中任意一项所述图像去模糊方法中的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7中的任意一项所述图像去模糊方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211696350.7A CN116309104A (zh) | 2022-12-28 | 2022-12-28 | 一种基于多尺度交叉注意力的图像去模糊方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211696350.7A CN116309104A (zh) | 2022-12-28 | 2022-12-28 | 一种基于多尺度交叉注意力的图像去模糊方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116309104A true CN116309104A (zh) | 2023-06-23 |
Family
ID=86813849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211696350.7A Pending CN116309104A (zh) | 2022-12-28 | 2022-12-28 | 一种基于多尺度交叉注意力的图像去模糊方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116309104A (zh) |
-
2022
- 2022-12-28 CN CN202211696350.7A patent/CN116309104A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428366B (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
US20210350168A1 (en) | Image segmentation method and image processing apparatus | |
US12062158B2 (en) | Image denoising method and apparatus | |
CN111898701B (zh) | 模型训练、帧图像生成、插帧方法、装置、设备及介质 | |
CN113168684B (zh) | 提升低亮度图像的质量的方法、系统和计算机可读介质 | |
CN112602088B (zh) | 提高弱光图像的质量的方法、系统和计算机可读介质 | |
US20190108410A1 (en) | Artificial intelligence based image data processing method and image sensor | |
CN111445418A (zh) | 图像去雾处理方法、装置及计算机设备 | |
CN111753869A (zh) | 图像处理方法、图像处理装置、存储介质、图像处理系统及已学习模型制造方法 | |
US11948280B2 (en) | System and method for multi-frame contextual attention for multi-frame image and video processing using deep neural networks | |
US10970582B2 (en) | Information processing method, information processing device, and recording medium | |
JP2017068608A (ja) | 演算装置、方法及びプログラム | |
CN114885144B (zh) | 基于数据融合的高帧率3d视频生成方法及装置 | |
Zhou et al. | DeLiEve-Net: Deblurring low-light images with light streaks and local events | |
CN112633260B (zh) | 视频动作分类方法、装置、可读存储介质及设备 | |
CN117408916A (zh) | 基于多尺度残差Swin Transformer的图像去模糊方法及相关产品 | |
CN116309104A (zh) | 一种基于多尺度交叉注意力的图像去模糊方法及相关装置 | |
CN116385283A (zh) | 一种基于事件相机的图像去模糊方法及系统 | |
CN114885112B (zh) | 基于数据融合的高帧率视频生成方法及装置 | |
CN118279185A (zh) | 一种基于双模态融合传感器的图像去模糊方法及相关装置 | |
US10832076B2 (en) | Method and image processing entity for applying a convolutional neural network to an image | |
CN112261296A (zh) | 一种图像增强方法、图像增强装置及移动终端 | |
CN111127345A (zh) | 图像处理方法及装置、电子设备及计算机可读存储介质 | |
CN113436245B (zh) | 图像处理方法、模型训练方法、相关装置及电子设备 | |
CN109788219B (zh) | 一种用于人眼视线追踪的高速cmos图像传感器读出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |