CN114913342A - 融合事件和图像的运动模糊图像线段检测方法及系统 - Google Patents

融合事件和图像的运动模糊图像线段检测方法及系统 Download PDF

Info

Publication number
CN114913342A
CN114913342A CN202210601778.2A CN202210601778A CN114913342A CN 114913342 A CN114913342 A CN 114913342A CN 202210601778 A CN202210601778 A CN 202210601778A CN 114913342 A CN114913342 A CN 114913342A
Authority
CN
China
Prior art keywords
event
module
image
line segment
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210601778.2A
Other languages
English (en)
Inventor
余淮
李皓
杨文�
余磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210601778.2A priority Critical patent/CN114913342A/zh
Publication of CN114913342A publication Critical patent/CN114913342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种融合事件和图像的运动模糊图像线段检测方法及系统,构建训练样本集,包括采集事件相机和普光相机数据,配准生成运动模糊图像,标注线段,将事件数据、运动模糊图像和线段标注打包作为训练样本集;基于事件和图像特征融合构建运动模糊图像线段检测网络模型,所述运动模糊图像线段检测网络模型包括特征融合骨干网络和线检测头,所述特征融合骨干网络包括浅层模块和级联对偶沙漏模块,所述线检测头包括线段建议网络模块和分类器;利用损失函数进行训练,基于训练好的运动模糊图像线段检测网络模型,输入待测试的运动模糊图像和事件流,对测试数据进行线段检测。应用本发明进行运动模糊图像线段检测的结果精度能够满足需求。

Description

融合事件和图像的运动模糊图像线段检测方法及系统
技术领域
本发明属于图像处理技术领域,特别涉及运动模糊图像的线段检测方法及系统。
背景技术
线段是图像中一种重要的几何特征,它反映了三维空间中的目标边缘、物体骨架等结构或纹理信息。线段检测任务旨在从原始的像素图像中提取出矢量化表征的线段集合。作为计算机视觉的一个基础任务,图像线段检测在移动机器人、自动驾驶等领域具有重要作用,例如相机标定、三维重建、视觉SLAM(Simultaneous Localization And Mapping)等等。近年来,得益于深度学习强大的性能,结合深度学习技术的线段检测方法发展迅速,已经能够获得高质量的线段检测结果。然而大多数方法都是针对清晰理想图像设计的,在实际应用中由于相机高速运动,获取的图像不可避免地会出现运动模糊。在运动模糊图像中,不同时间的边缘会混叠在一起,呈现出模糊的边缘,导致现有的线段检测算法性能严重退化。事件相机由于具有异步输出和高时间分辨率的特性,不存在运动模糊现象。近几年基于事件相机的线段检测方法逐步发展起来,它们直接在异步事件流上通过平面拟合等方式提取线段,检测结果对相机运动速度鲁棒性较强。然而由于事件点缺乏颜色纹理信息,单依靠事件相机进行线段检测误检较为严重,且在相机低速和沿线方向运动时事件点较少容易出现漏检。因此如何充分利用普光和事件相机的互补特性,通过融合普光图像和事件流来提升运动模糊图像的线段检测性能,是值得深入探讨与研究的问题。
总的来说,运动模糊图像的线段检测问题并未得到有效解决,主要还存在以下三点挑战:(1)针对普光高速运动模糊成像,目前还没有一种稳定提取图像边缘进行线段检测的方法;(2)事件相机虽然在相机高速运动时可异步捕捉边缘信息,但由于缺乏颜色纹理和在低速和沿线运动时边缘事件点缺失,单用事件流进行线段检测误检较为严重;(3)由于事件相机和普光相机成像方式不同,在高速和低速运动时优势互补。但是有效融合异步事件流和图像帧的线段检测方法,目前还未有人实现过。
发明内容
针对运动模糊图像的线段检测任务面临的挑战,本发明提出了融合事件和图像的运动模糊图像线段检测方法。针对运动模糊图像中线段识别和定位困难的问题,充分考虑到事件相机高事件分辨率、无运动模糊的特性,引入事件相机数据进行辅助,提出了针对双模态模糊图像和事件流数据的特征融合骨干网络,分别利用通道注意力和自注意力实现图像和事件特征的浅层融合和深层多尺度融合。然后在特征解码阶段,利用解码融合模块基于自注意力对编码器输出的多尺度特征进行多级融合和特征增强。最后基于提取的融合特征,进行候选线段的提取和分类,实现运动模糊图像的线段检测。
本发明提供的一种融合事件和图像的运动模糊图像线段检测方法,包括以下步骤,
步骤1,构建训练样本集,包括采集事件相机和普光相机数据,配准事件数据和普光图像,生成运动模糊图像,标注线段,将事件数据、运动模糊图像和线段标注打包作为运动模糊图像线段检测的训练样本集;
步骤2,基于事件和图像特征融合构建运动模糊图像线段检测网络模型,所述运动模糊图像线段检测网络模型包括特征融合骨干网络和线检测头,所述特征融合骨干网络包括浅层模块和级联对偶沙漏模块,所述浅层模块对事件脉冲张量和运动模糊图像组合提取浅层特征,所述级联对偶沙漏模块对浅层事件和图像分支特征融合增强,得到运动模糊图像和事件帧的融合特征图;所述线检测头包括线段建议网络模块和分类器,线段建议网络模块基于运动模糊图像和事件帧的融合特征图得到候选线段,然后由分类器监督训练获得线段的得分,得到最终保留线段;
步骤3,利用损失函数,基于步骤1构建的训练数据集,对步骤2构建的运动模糊图像线段检测网络模型进行训练;所述损失函数由线检测头中线段建议网络模块和分类器相应损失加权构成;
步骤4,基于步骤3所得训练好的运动模糊图像线段检测网络模型,输入待测试的运动模糊图像和事件流,对测试数据进行线段检测。
而且,所述浅层模块中包括2个浅层融合模块SFB和4个浅层卷积层,输入的运动模糊RGB图像首先经过浅层卷积层1进行下采样,输入的事件脉冲张量经过浅层卷积层3进行下采样,得到通道数一致的图像和事件特征;接着将图像和事件特征输入到第一个浅层融合模块SFB,对两路特征进行融合,并将融合后的两路特征分别与浅层卷积层1和浅层卷积层3输出的特征相加;RGB图像分支输出的融合特征再经过浅层卷积层2进行下采样和特征提炼,事件流特征分支输出的融合特征再经过浅层卷积层4进行下采样和特征提炼;然后,将输出的图像和事件特征送入到第二个浅层融合模块SFB,进行第二次特征融合;最后将融合后的图像和事件特征分别与原始特征相加,得到浅层图像特征和浅层事件特征,这两个特征将被输入到后续的第一个对偶沙漏模块。
而且,在浅层融合模块SFB中,对于输入的图像特征XF和事件特征XE,首先按通道拼接在一起,并经过卷积将通道数还原;接着利用两个通道注意力模块CA分别计算两路特征的注意力AttnF和AttnE,并将注意力与原始特征相乘,再与另一模态的原始特征相加,实现注意力加权的特征融合;最后分别利用两个残差块对融合后的特征进行提炼,并将提炼后的图像特征和事件图像输出。
而且,当级联对偶沙漏模块中包括N个对偶沙漏模块,从第一个对偶沙漏模块开始到第N-1个对偶沙漏模块,在每一个对偶沙漏模块中,将输入的图像和事件特征先经过编解码模块融合成单路特征,接着经过一个残差块,然后通过残差连接分别与原始输入的图像和事件特征相加,恢复为两路特征并最终输出给下一个对偶沙漏模块。对于网络中最后一个对偶沙漏模块,同样将输入的图像和事件特征先经过编解码模块融合成单路特征,接着经过一个残差块,然后不同于之前的N-1个对偶沙漏模块,直接输出经过残差块后的单路融合特征,用于后续的线段检测。
而且,每个编解码模块中,图像特征流和事件特征流分别依次经过若干编码器模块,每次编码后图像特征和事件特征输入到解码融合模块DFB中,经DFB的融合特征和上层解码器输出特征逐元素相加输入到下层解码器。
而且,在解码融合模块DFB中,首先利用通道拼接和的卷积将输入的图像特征和事件特征融合为一个特征,再送入到Transformer对特征进一步融合和提炼。
而且,由线段建议网络模块相应的交叉点预测损失、线段预测损失和分类器相应的最终线段分类损失加权构成损失函数。
另一方面,本发明还提供一种融合事件和图像的运动模糊图像线段检测系统,用于实现如上所述的一种融合事件和图像的运动模糊图像线段检测方法。
而且,包括以下模块,
第一模块,用于构建训练样本集,包括采集事件相机和普光相机数据,配准事件数据和普光图像,生成运动模糊图像,标注线段,将事件数据、运动模糊图像和线段标注打包作为运动模糊图像线段检测的训练样本集;
第二模块,用于基于事件和图像特征融合构建运动模糊图像线段检测网络模型,所述运动模糊图像线段检测网络模型包括特征融合骨干网络和线检测头,所述特征融合骨干网络包括浅层模块和级联对偶沙漏模块,所述浅层模块对事件脉冲张量和运动模糊图像组合提取浅层特征,所述级联对偶沙漏模块对浅层事件和图像分支特征融合增强,得到运动模糊图像和事件帧的融合特征图;所述线检测头包括线段建议网络模块和分类器,线段建议网络模块基于运动模糊图像和事件帧的融合特征图得到候选线段,然后由分类器监督训练获得线段的得分,得到最终保留线段;
第三模块,用于利用损失函数,基于第一模块构建的训练数据集,对第二模块构建的运动模糊图像线段检测网络模型进行训练;所述损失函数由线检测头中线段建议网络模块和分类器相应损失加权构成;
第四模块,用于基于第三模块所得训练好的运动模糊图像线段检测网络模型,输入待测试的运动模糊图像和事件流,对测试数据进行线段检测。
或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种融合事件和图像的运动模糊图像线段检测方法。
本发明的原理是:针对运动模糊导致图像中线段识别和定位困难的问题,引入了事件相机数据提供辅助信息。利用浅层融合模快基于通道注意力对浅层的图像和事件特征进行自适应加权融合,然后利用解码融合模块基于自注意力对深层多尺度特征进行模态内的增强和模态间的交互,得到事件和图像融合的特征。再将特征图输入到线段提议网络(Line Proposal Network),线段提议网络包括交叉点预测模块、线段预测模块和线段-交叉点匹配模块,分别利用交叉点预测模块和线段预测模块提取图像中的交叉点和线段,再利用线段-交叉点匹配模块生成高质量的候选线段,然后通过匹配特征图得到每条候选线段的特征向量,最后将特征向量输入到分类器,得到每条候选线段的置信度分数,根据设定的置信度阈值分数,筛选出最终的线段检测结果。实验结果表明,所提出的融合事件和图像的线检测方法在仿真和真实数据集上均取得了最高的检测精度,验证了该方法对运动模糊图像线段检测任务的有效性。
附图说明
图1为本发明实施例输入的运动模糊图像和事件数据组合表征示意图。
图2为本发明实施例融合事件和运动模糊图像的线检测网络结构图。
图3为本发明实施例特征融合骨干网络中的对偶沙漏网络中的编解码模块示意图。
图4为本发明实施例编解码模块中的解码融合模块DFB示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图结合实施例对本发明进一步详细说明。
现有的基于深度学习的线检测方法在清晰理想图像上性能较好,但是在运动模糊图像上算法性能会严重退化;而基于事件流的线检测方法虽然不存在运动模糊,但是误检严重且在低速和沿线方向存在退化现象。本发明实施例建立的融合事件和图像的线段检测网络输入及真实线标注生成如附图1所示,对于事件流,根据事件极性划分和线性插值获得事件脉冲张量,原始清晰图像经过插帧获得高帧率图像序列,然后平均加权获得运动模糊图像,同时标注最终时刻的清晰图像的线作为真实线段标注。融合线段检测网络架构如附图2所示,其整体结构可见第一列,运动模糊图像和事件脉冲张量依次经过由浅层模块、若干对偶沙漏模块组成的特征融合骨干网络得到融合特征,然后经过线检测头获得最终的线检测结果。其对偶沙漏模块中的编解码模块如图3所示,而编解码模块中的解码融合模块如图4所示。
本发明实施例提供的一种融合事件和图像的运动模糊图像线段检测方法,包括以下步骤:
步骤1:构建训练样本集,包括采集事件相机和普光相机数据,配准事件数据和普光图像,生成运动模糊图像,标注线段,将事件数据、运动模糊图像和线段标注打包作为运动模糊图像线段检测数据集,即运动模糊图像线段检测的训练样本集。
为提供运动模糊图像的线检测训练数据,实施例将清晰图像连续5帧进行加权平均获得运动模糊图像。对于标注真实线段,在固定时间段内最后一张清晰图像上标注得到。
步骤2:构建基于事件-图像特征融合的线段检测网络模型,
实施例中线段检测网络模型采用两阶段结构,基于事件和图像特征融合构建运动模糊图像线段检测网络模型。所述运动模糊图像线段检测网络模型包括特征融合骨干网络和线检测头,所述特征融合骨干网络包括浅层模块和级联对偶沙漏模块,所述浅层模块对事件脉冲张量和运动模糊图像组合提取浅层特征,所述级联对偶沙漏模块对浅层事件和图像分支特征融合增强,得到运动模糊图像和事件帧的融合特征图;所述线检测头包括线段建议网络模块和分类器,线段建议网络模块基于运动模糊图像和事件帧的融合特征图得到候选线段,然后由分类器监督训练获得线段的得分,得到最终保留线段;
实施例采用的优选方案如下:
1)数据组合准备:对模糊图像IB和其曝光成像时间T内的事件流ε组成一组输入数据,事件流采用事件脉冲张量表示为H×W×B×2的四维向量。时间维度B设置成5,然后缩放事件脉冲张量到512×512×10的尺寸,图像也被缩放到512×512×3的尺寸,由此得到成对的运动模糊图像和以事件脉冲张量表示的事件帧。其中,H为事件相机图像的行数,W为事件相机图像的列数。
优选建议数据组合表征的具体做法是:原始图像是无运动模糊的多张清晰图像,为获取时间T内的运动模糊图像,对多张清晰图像进行加权平均,由此得到IB,然后取时间T内的最后一张清晰图像进行标注获得标注的真实线段用于训练。而事件T内的事件流,对于事件流
Figure BDA0003669644740000051
其中xi,yi,pi,ti分别为第i个事件点的横纵坐标、极性和触发时间。通过5等分时间进行线性插值获得5张H×W×2张事件帧,其中2代表事件正负极性。插值获得在任意t时刻在坐标(x,y)处的事件脉冲张量EST(x,y,t),公式为:
Figure BDA0003669644740000061
其中b∈{0,1,2,3,4},
Figure BDA0003669644740000062
t0为事件流最早的时间戳,ΔT为事件流的持续时间,ek=(xk,yk,pk,tk)为第k个事件点,其对应横纵坐标、极性和触发时间,δ()为单位冲击响应,max()为取最大值函数。为适应网络三通道输入,把极性维度压缩到时间分段维度中得到H×W×10的向量,再通过缩放得到512×512×10的事件输入。
2)所述浅层模块中包括2个浅层融合模块SFB和4个浅层卷积层(分别记为浅层卷积层1、浅层卷积层2、浅层卷积层3和浅层卷积层4):输入尺寸为512×512×3的运动模糊RGB图像和512×512×10的事件脉冲张量,经过浅层模块得到初步融合的特征。具体地,RGB图像首先经过浅层卷积层1,事件脉冲张量经过浅层卷积层3,分别对输入图像和事件脉冲张量进行下采样,得到通道数一致的图像和事件特征,其中浅层卷积层1和浅层卷积层3都是一个步长为2的7×7卷积。接着将图像和事件特征输入到第一个浅层融合模块(SFB),对两路特征进行融合,并将融合后的两路特征分别与浅层卷积层1和浅层卷积层3输出的特征相加。RGB图像分支输出的融合特征再经过浅层卷积层2进行下采样和特征提炼,事件流特征分支输出的融合特征再经过浅层卷积层4进行下采样和特征提炼,其中浅层卷积层2和浅层卷积层4都是由一个步长为2的最大池化层和三个残差块组成。然后,将输出的图像和事件特征送入到第二个浅层融合模块SFB,进行第二次特征融合。最后将融合后的图像和事件特征分别与原始特征相加,得到尺寸为128×128的浅层图像特征和浅层事件特征,这两个特征将被输入到后续的第一个对偶沙漏模块。
关于浅层融合模块SFB,具体做法是:对于输入的图像特征XF和事件特征XE,浅层融合模块首先将它们按通道拼接在一起,并经过一个1×1的卷积将通道数还原。接着利用两个通道注意力模块CA分别计算两路特征的注意力AttnF和AttnE,并将注意力与原始特征相乘,再与另一模态的原始特征相加,实现注意力加权的特征融合。最后分别利用两个残差块对融合后的特征进行提炼,并将提炼后的图像特征和事件图像输出。整个浅层融合模块的处理过程可以用公式描述为:
Figure BDA0003669644740000063
其中,Concat()表示通道拼接,Conv1×1表示1×1的卷积,X为还原后的融合特征;CA表示通道注意力模块,则CAF()表示图像特征的通道注意力模块,AttnF表示图像特征注意力,CAE()表示事件特征的通道注意力,AttnE表示事件特征注意力;ResF()表示图像特征的残差块,ResE()表示事件特征的残差块;YF表示提炼后的图像特征,YE表示提炼后的事件特征;⊙表示逐元素相乘。
3)对偶沙漏深层特征增强融合。设共有N个对偶沙漏模块,分别记为对偶沙漏模块1、对偶沙漏模块2、对偶沙漏模块3…对偶沙漏模块N。
具体实施时,N建议取值范围为1~5。考虑模型大小和速度,优选建议取2。
从第一个对偶沙漏模块开始到第N-1个对偶沙漏模块,在每一个对偶沙漏模块中,将输入的图像和事件特征先经过编解码模块融合成单路特征,接着经过一个残差块,然后通过残差连接分别与原始输入的图像和事件特征相加,恢复为两路特征并最终输出给下一个对偶沙漏模块。对于网络中最后一个对偶沙漏模块,同样将输入的图像和事件特征先经过编解码模块融合成单路特征,接着经过一个残差块,然后不同于之前的N-1个对偶沙漏模块,直接输出经过残差块后的单路融合特征,用于后续的线段检测。
级联对偶沙漏模块的计算过程如下:
Figure BDA0003669644740000071
其中,Res()表示残差模块,E-D()表示编解码模块,
Figure BDA0003669644740000072
Figure BDA0003669644740000073
分别表示第i个对偶沙漏模块的输入图像特征和事件特征,
Figure BDA0003669644740000074
Figure BDA0003669644740000075
分别表示第i个对偶沙漏模块的输入图像特征和事件特征,Yi表示第i个对偶沙漏模块输出的融合特征。
编解码模块实现具体做法是,图像特征流和事件特征流分别依次经过若干编码器模块(优选5个),每次编码后图像特征和事件特征输入到解码融合模块DFB中,经DFB的融合特征和上层解码器输出特征逐元素相加输入到下层解码器。
实施例中,具体地,经过DFB1融合编码器1编码的图像和编码器6编码的事件特征,然后逐元素加上解码器4的输出特征输出到解码器5进行解码,输出最终的编解码特征;而解码器4的输入特征,是由DFB2融合编码器2编码的图像和编码器7编码的事件特征加上解码器3的输出;解码器3的输入,则由DFB3融合编码器3编码的图像特征和编码器8编码的事件特征,加上解码器2的输出;解码器2的输入同理;解码器1的输入,则直接由DFB5融合编码器5编码的图像特征和编码器10编码的事件特征构成。编码器和解码器均由残差块实现,在特征编码器中,图像特征流和事件特征流分别依次经过5个步长为2的最大池化下采样层和残差块,而在解码过程中则不断进行2倍的上采样和残差块,以保证同一深度编码器、解码器和解码融合模块的特征尺寸一致。
解码融合模块DFB首先利用通道拼接C和1×1的卷积Conv将输入的图像特征和事件特征融合为一个特征F1,再将其送入到Transformer对特征进一步融合和提炼。
Transformer为现有技术,为便于实施参考起见,提供Transformer中的具体处理说明:首先对特征归一化LayerNorm,然后接一个轻量多头自注意力模块,然后和融合输入特征F1进行逐元素相加得到融合特征F2,再经过归一化LayerNorm、逆残差前馈神经网络后与融合特征F2逐元素相加输出解码特征。
4)得到运动模糊图像和事件帧的融合特征图后,需要输入融合特征图到线检测头,在线检测头中先通过LPN获得候选线段集合,然后通过分类器,获得最终预测得分。
1)实施例的线检测头核心采用线段建议网络模块LPN,线段建议网络模块LPN为现有技术,为便于实施参考起见,提供线段建议网络模块LPN相应处理说明:
分别利用解码器预测得到交叉点集合
Figure BDA0003669644740000082
和线段集合
Figure BDA0003669644740000081
即生成建议交叉点和建议线段。其中解码器依次由3×3卷积层、归一化层、ReLU激活层、3×3卷积层构成。然后基于点线匹配获得最终候选线段,包括对生成的建议线段和建议交叉点进行匹配和耦合,恢复建议线段之间的连接关系,同时去除重复预测的建议线段,并生成最终的候选线段。具体的,若一条预测的线段和任意两个交叉点小于设定阈值,那么就保留该线段作为一个建议线段。
2)将候选线段利用几何位置匹配结合双线性插值提取融合特征向量后,输入全连接层构成的分类器进行有监督训练。
本发明实施例的运动模糊图像线段检测网络是基于PyTorch实现的,给定一对模糊图像和对应时间内的事件流,网络直接输出向量化的线段检测结果。
具体实施时,可以将候选线段利用几何位置匹配结合双线性插值提取的融合特征向量,获得候选线段特征,然后接入全连接层构成的分类器监督训练获得线段的得分,最终仅保留线段得分大于设定阈值的线为最终结果。
将候选线段利用几何位置匹配结合双线性插值提取的融合特征向量,可以是在候选线段上均匀采样若干个点(例如25个点),在其匹配的融合特征图上利用双线性插值提取特征向量并连接在一起的结果。
实施例的运动模糊图像线段检测网络模型中多处用到残差块,优选建议的残差块结构为:残差块包括3个依次连接的卷积层和1个残差连接,第一个卷积层包括依次连接的1个BN层、一个ReLU激活函数和1个1×1的卷积,第二个卷积层包括依次连接的1个BN层、一个ReLU激活函数和1个3×3的卷积,第三个卷积层包括依次连接的1个BN层、一个ReLU激活函数和1个1×1的卷积,第三个卷积层的输出通过残差连接与残差块输入相加得到残差块输出。网络中各部分的残差块都可以采用该结构。
步骤3:利用线检测头中各个模块加权的损失函数,基于构建的训练数据集,对网络模型进行训练,得到训练好的运动模糊图像线段检测网络模型。
实施例的步骤3中,优选定义网络的损失函数包含线段建议网络模块LPN相应的交叉点预测损失、线段预测损失和分类器相应的最终线段分类损失。权值可预先设置,例如设置为1:1:1。
步骤4:基于步骤3所得训练好的运动模糊图像线段检测网络模型输入待测试的运动模糊图像和事件流,对测试数据进行线段检测并可评定精度。
本发明的实验结果如表1所示,展示了不同方法在仿真事件和模糊图像数据集上对的定量评估。其中sAP5,sAP10,sAP15分别是距离阈值取5、10、15像素时的结构平均精度,msAP是sAP5,sAP10和sAP15的平均值。
表1不同线段检测方法在仿真事件-运动模糊图像数据集上的定量评估
Figure BDA0003669644740000091
定量结果表明,无论是传统的LSD、FBSD,还是基于深度学习的L-CNN、HAWP、ULSD和LETR,在处理运动模糊图像时线段检测的精度都非常低,对于msAP指标最高只有15.2。传统方法LSD和FBSD存在大量的误检噪声而导致精度普遍较低,但是LSD速度最快,而深度学习方法L-CNN、HAWP、ULSD和LETR存在大量的漏检导致检测精度不高,而本发明提出融合事件和图像特征进行线检测,在采用线段吸引力场线表达的FE-HAWP和采用贝塞尔曲线表达的FE-ULSD检测方法可以很好的处理模糊图像的线段检测问题,并且获得更高的检测精度,验证了本发明提出的融合事件和图像进行运动模糊图像线检测的有效性。而FE-HAWP和FE-ULSD由于在特征融合网络中采用了比原始的堆叠沙漏网络多了的一条编码器分支,并引入了较为耗时的Transformer用于特征融合,但是相比基于Transformer的线段检测方法LETR,本发明的方法的效率是其近3倍。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种融合事件和图像的运动模糊图像线段检测系统,包括以下模块,
第一模块,用于构建训练样本集,包括采集事件相机和普光相机数据,配准事件数据和普光图像,生成运动模糊图像,标注线段,将事件数据、模糊图像和线段标注打包作为运动模糊图像线段检测的训练样本集;
第二模块,用于基于事件和图像特征融合构建运动模糊图像线段检测网络模型,所述运动模糊图像线段检测网络模型包括特征融合骨干网络和线检测头,所述特征融合骨干网络包括浅层模块和级联对偶沙漏模块,所述浅层模块对事件脉冲张量和运动模糊图像组合提取浅层特征,所述级联对偶沙漏模块对浅层事件和图像分支特征融合增强,得到运动模糊图像和事件帧的融合特征图;所述线检测头包括线段建议网络模块和分类器,线段建议网络模块基于运动模糊图像和事件帧的融合特征图得到候选线段,然后由分类器监督训练获得线段的得分,得到最终保留线段;
第三模块,用于利用损失函数,基于第一模块构建的训练数据集,对第二模块构建的运动模糊图像线段检测网络模型进行训练;所述损失函数由线检测头中线段建议网络模块和分类器相应损失加权构成;
第四模块,用于基于第三模块所得训练好的运动模糊图像线段检测网络模型,输入待测试的运动模糊图像和事件流,对测试数据进行线段检测。
在一些可能的实施例中,提供一种融合事件和图像的运动模糊图像线段检测系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种融合事件和图像的运动模糊图像线段检测方法。
在一些可能的实施例中,提供一种融合事件和图像的运动模糊图像线段检测系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种融合事件和图像的运动模糊图像线段检测方法。
以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims (10)

1.一种融合事件和图像的运动模糊图像线段检测方法,其特征在于:包括以下步骤,
步骤1,构建训练样本集,包括采集事件相机和普光相机数据,配准事件数据和普光图像,生成运动模糊图像,标注线段,将事件数据、运动模糊图像和线段标注打包作为运动模糊图像线段检测的训练样本集;
步骤2,基于事件和图像特征融合构建运动模糊图像线段检测网络模型,所述运动模糊图像线段检测网络模型包括特征融合骨干网络和线检测头,所述特征融合骨干网络包括浅层模块和级联对偶沙漏模块,所述浅层模块对事件脉冲张量和运动模糊图像组合提取浅层特征,所述级联对偶沙漏模块对浅层事件和图像分支特征融合增强,得到运动模糊图像和事件帧的融合特征图;所述线检测头包括线段建议网络模块和分类器,线段建议网络模块基于运动模糊图像和事件帧的融合特征图得到候选线段,然后由分类器监督训练获得线段的得分,得到最终保留线段;
步骤3,利用损失函数,基于步骤1构建的训练数据集,对步骤2构建的运动模糊图像线段检测网络模型进行训练;所述损失函数由线检测头中线段建议网络模块和分类器相应损失加权构成;
步骤4,基于步骤3所得训练好的运动模糊图像线段检测网络模型,输入待测试的运动模糊图像和事件流,对测试数据进行线段检测。
2.根据权利要求1所述融合事件和图像的运动模糊图像线段检测方法,其特征在于:所述浅层模块中包括2个浅层融合模块SFB和4个浅层卷积层,输入的运动模糊RGB图像首先经过浅层卷积层1进行下采样,输入的事件脉冲张量经过浅层卷积层3进行下采样,得到通道数一致的图像和事件特征;接着将图像和事件特征输入到第一个浅层融合模块SFB,对两路特征进行融合,并将融合后的两路特征分别与浅层卷积层1和浅层卷积层3输出的特征相加;RGB图像分支输出的融合特征再经过浅层卷积层2进行下采样和特征提炼,事件流特征分支输出的融合特征再经过浅层卷积层4进行下采样和特征提炼;然后,将输出的图像和事件特征送入到第二个浅层融合模块SFB,进行第二次特征融合;最后将融合后的图像和事件特征分别与原始特征相加,得到浅层图像特征和浅层事件特征,这两个特征将被输入到后续的第一个对偶沙漏模块。
3.根据权利要求2所述融合事件和图像的运动模糊图像线段检测方法,其特征在于:在浅层融合模块SFB中,对于输入的图像特征XF和事件特征XE,首先按通道拼接在一起,并经过卷积将通道数还原;接着利用两个通道注意力模块CA分别计算两路特征的注意力AttnF和AttnE,并将注意力与原始特征相乘,再与另一模态的原始特征相加,实现注意力加权的特征融合;最后分别利用两个残差块对融合后的特征进行提炼,并将提炼后的图像特征和事件图像输出。
4.根据权利要求1所述融合事件和图像的运动模糊图像线段检测方法,其特征在于:当级联对偶沙漏模块中包括N个对偶沙漏模块,从第一个对偶沙漏模块开始到第N-1个对偶沙漏模块,在每一个对偶沙漏模块中,将输入的图像和事件特征先经过编解码模块融合成单路特征,接着经过一个残差块,然后通过残差连接分别与原始输入的图像和事件特征相加,恢复为两路特征并最终输出给下一个对偶沙漏模块。对于网络中最后一个对偶沙漏模块,同样将输入的图像和事件特征先经过编解码模块融合成单路特征,接着经过一个残差块,然后不同于之前的N-1个对偶沙漏模块,直接输出经过残差块后的单路融合特征,用于后续的线段检测。
5.根据权利要求4所述融合事件和图像的运动模糊图像线段检测方法,其特征在于:每个编解码模块中,图像特征流和事件特征流分别依次经过若干编码器模块,每次编码后图像特征和事件特征输入到解码融合模块DFB中,经DFB的融合特征和上层解码器输出特征逐元素相加输入到下层解码器。
6.根据权利要求4所述融合事件和图像的运动模糊图像线段检测方法,其特征在于:在解码融合模块DFB中,首先利用通道拼接和的卷积将输入的图像特征和事件特征融合为一个特征,再送入到Transformer对特征进一步融合和提炼。
7.根据权利要求1或2或3或4或5或6所述融合事件和图像的运动模糊图像线段检测方法,其特征在于:由线段建议网络模块相应的交叉点预测损失、线段预测损失和分类器相应的最终线段分类损失加权构成损失函数。
8.一种融合事件和图像的运动模糊图像线段检测系统,其特征在于:用于实现如权利要求1-7任一项所述的一种融合事件和图像的运动模糊图像线段检测方法。
9.根据权利要求8所述融合事件和图像的运动模糊图像线段检测系统,其特征在于:包括以下模块,
第一模块,用于构建训练样本集,包括采集事件相机和普光相机数据,配准事件数据和普光图像,生成运动模糊图像,标注线段,将事件数据、运动模糊图像和线段标注打包作为运动模糊图像线段检测的训练样本集;
第二模块,用于基于事件和图像特征融合构建运动模糊图像线段检测网络模型,所述运动模糊图像线段检测网络模型包括特征融合骨干网络和线检测头,所述特征融合骨干网络包括浅层模块和级联对偶沙漏模块,所述浅层模块对事件脉冲张量和运动模糊图像组合提取浅层特征,所述级联对偶沙漏模块对浅层事件和图像分支特征融合增强,得到运动模糊图像和事件帧的融合特征图;所述线检测头包括线段建议网络模块和分类器,线段建议网络模块基于运动模糊图像和事件帧的融合特征图得到候选线段,然后由分类器监督训练获得线段的得分,得到最终保留线段;
第三模块,用于利用损失函数,基于第一模块构建的训练数据集,对第二模块构建的运动模糊图像线段检测网络模型进行训练;所述损失函数由线检测头中线段建议网络模块和分类器相应损失加权构成;
第四模块,用于基于第三模块所得训练好的运动模糊图像线段检测网络模型,输入待测试的运动模糊图像和事件流,对测试数据进行线段检测。
10.根据权利要求8所述融合事件和图像的运动模糊图像线段检测系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-7任一项所述的一种融合事件和图像的运动模糊图像线段检测方法。
CN202210601778.2A 2022-05-30 2022-05-30 融合事件和图像的运动模糊图像线段检测方法及系统 Pending CN114913342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210601778.2A CN114913342A (zh) 2022-05-30 2022-05-30 融合事件和图像的运动模糊图像线段检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210601778.2A CN114913342A (zh) 2022-05-30 2022-05-30 融合事件和图像的运动模糊图像线段检测方法及系统

Publications (1)

Publication Number Publication Date
CN114913342A true CN114913342A (zh) 2022-08-16

Family

ID=82771516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210601778.2A Pending CN114913342A (zh) 2022-05-30 2022-05-30 融合事件和图像的运动模糊图像线段检测方法及系统

Country Status (1)

Country Link
CN (1) CN114913342A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310408A (zh) * 2022-11-29 2023-06-23 北京大学 一种建立事件相机与帧相机数据关联的方法及装置
CN117745596A (zh) * 2024-02-19 2024-03-22 吉林大学 一种基于跨模态融合的水下去遮挡方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310408A (zh) * 2022-11-29 2023-06-23 北京大学 一种建立事件相机与帧相机数据关联的方法及装置
CN116310408B (zh) * 2022-11-29 2023-10-13 北京大学 一种建立事件相机与帧相机数据关联的方法及装置
CN117745596A (zh) * 2024-02-19 2024-03-22 吉林大学 一种基于跨模态融合的水下去遮挡方法
CN117745596B (zh) * 2024-02-19 2024-06-11 吉林大学 一种基于跨模态融合的水下去遮挡方法

Similar Documents

Publication Publication Date Title
WO2022111236A1 (zh) 一种结合注意力机制的面部表情识别方法及系统
Mahjourian et al. Geometry-based next frame prediction from monocular video
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN114913342A (zh) 融合事件和图像的运动模糊图像线段检测方法及系统
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN112633220B (zh) 一种基于双向序列化建模的人体姿态估计方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN111695457A (zh) 一种基于弱监督机制的人体姿态估计方法
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN111523378A (zh) 一种基于深度学习的人体行为预测方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN115237255B (zh) 一种基于眼动和语音的自然图像共指目标定位系统及方法
CN113379771A (zh) 带有边缘约束的层次化人体解析语义分割方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN115484410A (zh) 基于深度学习的事件相机视频重建方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
US20240161461A1 (en) Object detection method, object detection apparatus, and object detection system
CN113489958A (zh) 一种基于视频编码数据多特征融合的动态手势识别方法及系统
CN117392578A (zh) 基于两阶段时空注意力的动作检测方法及系统
CN117218508A (zh) 一种基于通道并行融合多注意力机制的滚珠丝杠故障诊断方法
CN112200840B (zh) 一种可见光和红外图像组合中的运动物体检测系统
Masilang et al. Connet: Designing a fast, efficient, and robust crowd counting model through composite compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination