CN114972976A - 基于频域自注意力机制的夜间目标检测、训练方法及装置 - Google Patents

基于频域自注意力机制的夜间目标检测、训练方法及装置 Download PDF

Info

Publication number
CN114972976A
CN114972976A CN202210902801.1A CN202210902801A CN114972976A CN 114972976 A CN114972976 A CN 114972976A CN 202210902801 A CN202210902801 A CN 202210902801A CN 114972976 A CN114972976 A CN 114972976A
Authority
CN
China
Prior art keywords
frequency domain
self
attention
channels
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210902801.1A
Other languages
English (en)
Other versions
CN114972976B (zh
Inventor
章依依
虞舒敏
应志文
郑影
徐晓刚
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210902801.1A priority Critical patent/CN114972976B/zh
Publication of CN114972976A publication Critical patent/CN114972976A/zh
Application granted granted Critical
Publication of CN114972976B publication Critical patent/CN114972976B/zh
Priority to JP2023071865A priority patent/JP7357176B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于频域自注意力机制的夜间目标检测、训练方法及装置,采用具有夜间图像检测标签的开源数据集训练检测网络,首先将输入图像进行预处理,使其从RGB转化为YUV通道,分别将三个通道的图像划分成多个区块;对于三个通道的各个区块,分别进行DCT离散余弦变换;将各个区块中属于同一频域的信息依据其原本的空间关系存入同一通道中,生成数个代表不同频域的通道;将所有频域通道输入自注意力网络模块,该模块通过计算各通道之间的可缩放点积自注意力,输出每个通道动态加权后的数值,再将其分别输入相同的多层感知器MLP;将输出结果输入检测网络中,最终获得图像的检测结果。

Description

基于频域自注意力机制的夜间目标检测、训练方法及装置
技术领域
本发明涉及计算机视觉识别技术领域,尤其是涉及基于频域自注意力机制的夜间目标检测、训练方法及装置。
背景技术
目标检测是许多其他经典视觉问题的基础,且具有巨大的实用价值和应用前景。检测RGB摄像机拍摄的夜间场景图片中的物体,是一个非常重要但是未被充分重视的问题,当前最新的视觉检测算法往往在夜间场景下无法达到预期的性能。
夜间目标检测是许多系统(如安全可靠的自动驾驶汽车)的关键组成部分。以行人检测为例,官方算法在Caltech(著名行人检测数据集)上的错误率(越小越好)可以达到7.36%,但在夜间行人数据集上却只能达到63.99%。
夜间目标检测性能低下,主要原因在于目前深度学习网络对于光照信息以及低频信息比较敏感。众所周知,夜间拍摄的图像,存在噪声大、轮廓不清、纹理模糊的问题。这也直接导致了通用的特征提取网络无法提取到充分的特征信息进行学习和分辨。
已有研究表明,人眼对色度的敏感程度要低于对亮度的敏感度。因此YUV图像(Y通道代表图像的亮度信息)表示更符合人眼的视觉特性。此外,研究人员发现神经网络对图像不同频域的敏感度不同。基于白天图像训练的模型中,低频信息被证明是更有效的,而高频信息往往被忽略。然而夜间图像与白天图像分布及其不同,夜间图像本身具有的低频信息十分有限。因此,在频域层面对图像进行动态加权,使模型选择到最有利于提升性能的频域特征,对于夜间场景具有很大的应用前景。
发明内容
为解决现有技术的不足,实现提高夜间图像检测准确率的目的,本发明采用如下的技术方案:
一种基于频域自注意力机制的夜间目标检测训练方法,包括如下步骤:
步骤S1:对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
步骤S2:提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
步骤S3:将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
步骤S4:将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
步骤S5:输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
进一步地,所述步骤S1的数据预处理,包括如下步骤:
步骤S1.1:对训练集图像依次进行随机水平翻转、随机裁剪、图像填充、图像缩放; 在图像填充过程中,将图像的宽长用0填充为
Figure 753154DEST_PATH_IMAGE002
的整数倍;在图像缩放过程中,将图像缩放到 宽:
Figure 367807DEST_PATH_IMAGE004
,长:
Figure 336900DEST_PATH_IMAGE004
;得到预处理后的图像维度为
Figure 166971DEST_PATH_IMAGE006
,其中3为RGB通道;
步骤S1.2:将训练集图像从RGB转化为YUV通道,分别将三个通道的图像划分成像 素宽长为
Figure 436278DEST_PATH_IMAGE008
Figure 956252DEST_PATH_IMAGE010
个区块。
进一步地,所述步骤S2中,对于三个通道的各个区块,分别进行DCT离散余弦变换,进而提取每个区块的高低频信息。
进一步地,所述步骤S4包括以下步骤:
步骤S4.1:将各个频域通道从二维向量重塑为一维向量,将各向量串联成矩阵
Figure 412642DEST_PATH_IMAGE012
步骤S4.2:将矩阵进行可缩放点积自注意力计算,得到多个频域之间的动态加权后的向量;
所述步骤S4.2的自注意力计算公式为:
Figure DEST_PATH_IMAGE014AA
其中,将各向量串联成矩阵
Figure 981157DEST_PATH_IMAGE012
作为自注意力计算中的键值key,
Figure 714758DEST_PATH_IMAGE016
Q表示 查询query,V表示值项value,
Figure 264688DEST_PATH_IMAGE018
表示点积操作,用于获取所有向量之间的相似度,
Figure 208373DEST_PATH_IMAGE020
表 示缩放尺度,N表示以为向量的长度,该公式可以实现多个频域之间的动态加权,并确保自 身频域占据最大权重。
步骤S4.3:将动态加权后的向量,输入相同的多层感知器MLP层,该MLP层由两个全 连接层组成,第一层由
Figure 908476DEST_PATH_IMAGE022
个神经元组成,第二层由N个神经元组成;因此输出向量与输入向 量维度保持不变;
步骤S4.4:将多层感知器MLP层的输出向量进行串联,并重塑维度,得到经自注意力加权后的频域特征。
进一步地,所述步骤S5包括以下步骤:
步骤S5.1:将所述频域特征输入到检测网络中,输出特征图中各个特征点对应的预测类别、预测目标框;检测网络是将ResNet深度残差网络作为骨干网络,采用经过微调的RetinaNet检测网络,具体删除其骨干网络ResNet中的卷积层conv1和卷积层conv2中的最大池化层,其余层保持不变;
步骤S5.2:基于预测类别和真实类别,通过分类损失进行监督训练,同时,基于预测目标框和真值目标框,通过回归损失共同进行监督训练。
进一步地,所述步骤S5.2中的分类损失采用Focal Loss分类损失,计算公式为:
Figure DEST_PATH_IMAGE024AA
其中,x表示特征图第x行,y表示第y列的位置,
Figure 434267DEST_PATH_IMAGE026
表示在
Figure 155098DEST_PATH_IMAGE028
坐标处通过预测类 别得到的分类置信度,
Figure 458516DEST_PATH_IMAGE030
表示在
Figure 821364DEST_PATH_IMAGE028
坐标处目标所属的真实类别的分类置信度,1表示正 样本,0表示负样本;
Figure 263978DEST_PATH_IMAGE032
是大于0的值,
Figure 421290DEST_PATH_IMAGE034
是[0,1]间的小数,
Figure 949354DEST_PATH_IMAGE032
Figure 115893DEST_PATH_IMAGE036
都是固定值,不参与训练。
进一步地,所述步骤S5.2中的回归损失采用IOU交并比损失,计算公式为:
Figure DEST_PATH_IMAGE038AA
其中,x表示特征图第x行,y表示第y列的位置,
Figure 350697DEST_PATH_IMAGE040
表示
Figure 678910DEST_PATH_IMAGE028
坐标处对应的预测目 标框坐标,
Figure 694270DEST_PATH_IMAGE042
表示
Figure 539866DEST_PATH_IMAGE028
坐标处对应的真值的目标框坐标,
Figure 81706DEST_PATH_IMAGE044
表示该目标框的面积。
一种基于频域自注意力机制的夜间目标检测训练装置,包括预训练模块、高低频信息提取模块、同频域信息存储模块、自注意力网络模块和检测网络模型;
所述预训练模块,对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
所述高低频信息提取模块,提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
所述同频域信息存储模块,将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
所述自注意力网络模块,将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
所述检测网络模型,将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
一种基于频域自注意力机制的夜间目标检测方法,将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练方法,进行预处理、高低频信息提取和存入同一频域通道后,输入完成训练的自注意力网络和检测网络中,得到检测结果。
一种基于频域自注意力机制的夜间目标检测装置,包括:
所述的基于频域自注意力机制的夜间目标检测训练装置;和
输入模块,用于将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练装置中,经预训练模块、高低频信息提取模块、同频域信息存储模块后,依次输入完成训练的自注意力网络模块和检测网络模型,得到检测结果。
本发明的优势和有益效果在于:
1、将输入图像从RGB转为YUV通道,更符合人眼视觉特性,通过将亮度Y通道分离出来,可以捕捉到亮度通道中不同频域的视觉信息,从而提升夜间目标检测性能;
2、通过频域自注意力网络模块中的可缩放自注意力计算,动态提高有用频域的权重,降低冗余频域的权重,从而提高频域信息的利用率;
3、该方法可以即插即用到任何以ResNet深度残差网络为骨干网络的检测网络中(不限于RetinaNet),并相对于RetinaNet-ResNet50和RetinaNet-ResNet101 两个baseline分别提升了MAP3.70%和2.88%准确率。
附图说明
图1是本发明实施例中方法的整体架构图。
图2是本发明实施例中方法的流程图。
图3是本发明实施例的方法中频域自注意力网络模块的执行流程图。
图4是本发明实施例中装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1、图2所示,基于频域自注意力机制的夜间目标检测训练方法,包括以下步骤:
步骤S1:对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
在数据预处理前,可以进行数据集的构建:下载开源夜间目标检测数据集Exclusively Dark(ExDark),该数据集包含12个类别:自行车、船、瓶子、杯子、公交车、轿车、猫、椅子、狗、摩托车、人和桌子,按照4:1:1的比例创建训练集、验证集和测试集;
对上述训练集图像进行数据预处理,具体包括以下步骤:
步骤S1.1:对训练集图像依次进行随机水平翻转、随机裁剪、图像填充、图像缩放; 在图像填充过程中,将图像的宽长用0填充为
Figure 456187DEST_PATH_IMAGE002
的整数倍;在图像缩放过程中,将图像缩放到 宽:
Figure 83477DEST_PATH_IMAGE004
,长:
Figure 60661DEST_PATH_IMAGE004
;得到预处理后的图像维度为
Figure 589163DEST_PATH_IMAGE006
,其中3为RGB通道;
图1为简化图,图像大小为,
Figure 134545DEST_PATH_IMAGE046
,s=n=2,同一数字代表同一频域;而本发明的实 施例中s=8,n=64,因此预处理后的图像维度为
Figure 249132DEST_PATH_IMAGE048
,其中3为RGB通道;
步骤S1.2:将训练集图像从RGB转化为YUV通道,分别将三个通道的图像划分成像 素宽长为
Figure 905372DEST_PATH_IMAGE008
Figure 421804DEST_PATH_IMAGE010
个区块;
本发明实施例中成像宽长为
Figure 138087DEST_PATH_IMAGE050
的区块,因此三个通道各划分成
Figure 739970DEST_PATH_IMAGE052
个区块;Y表示明亮度(单取此通道即可得灰度图),U和V表示色度,描述图像的色彩饱和度, 用于指定像素的颜色。
步骤S2:提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
对于三个通道的各个区块,分别进行DCT离散余弦变换,进而提取每个区块的高低频信息。
本发明实施例中,提取每个区块的高低频信息,此时图像维度仍然是
Figure 199901DEST_PATH_IMAGE048
,但代表的信息变成了各个区块的频域信息,其中,同一通道里每个区块相对位置相同的信 息代表同一频域的信息。
步骤S3:将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一 频域通道中,得到多个不同频域的通道;则共生成
Figure 836419DEST_PATH_IMAGE054
个代表不同频域的通道,每个通 道大小为
Figure 723604DEST_PATH_IMAGE010
本例中每个原通道有
Figure 547203DEST_PATH_IMAGE056
个区块,因此原
Figure 810825DEST_PATH_IMAGE048
图像被分解成
Figure 36270DEST_PATH_IMAGE058
的频域通道,代表图像的192种频域;
步骤S4:将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征,如图3所示,包括如下步骤:
步骤S4.1:将各个频域通道从二维向量
Figure 94356DEST_PATH_IMAGE056
重塑为一维向量
Figure 670831DEST_PATH_IMAGE060
,则共产 生
Figure 735214DEST_PATH_IMAGE054
(记为
Figure 690532DEST_PATH_IMAGE062
)个长度为
Figure 309732DEST_PATH_IMAGE010
(记为
Figure 983290DEST_PATH_IMAGE064
)的1维向量,将各向量串联而矩阵
Figure 713349DEST_PATH_IMAGE012
Figure 788752DEST_PATH_IMAGE066
本发明实施例中,共产生S:192个长度为N:4096的一维向量,将各向量串联而成的 矩阵记为
Figure 313275DEST_PATH_IMAGE012
Figure 739708DEST_PATH_IMAGE068
步骤S4.2:将矩阵进行可缩放点积自注意力计算,得到多个频域之间的动态加权后的向量,其计算公式为:
Figure DEST_PATH_IMAGE014AAA
其中,将各向量串联成矩阵
Figure 945561DEST_PATH_IMAGE012
作为自注意力计算中的键值key,
Figure 875471DEST_PATH_IMAGE016
Q表示 查询query,V表示值项value,
Figure 836474DEST_PATH_IMAGE018
代表点积操作,用于获取所有向量之间的相似度,
Figure 219045DEST_PATH_IMAGE020
表 示缩放尺度,N表示以为向量的长度,该公式可以实现多个频域之间的动态加权,并确保自 身频域占据最大权重;
本发明实施例中N=4096,输出维度为
Figure 290906DEST_PATH_IMAGE070
的向量;Q表示查询query,K表示 键值key,V表示值项value。
步骤S4.3:将动态加权后的向量,输入相同的多层感知器MLP层,该MLP层由两个全 连接层组成,第一层由
Figure 343831DEST_PATH_IMAGE022
个神经元组成,第二层由N个神经元组成;
本发明实施例中,步骤S4.2计算输出的向量按照192个维度为
Figure 210156DEST_PATH_IMAGE060
的向量,分 别输入相同的MLP(Multilayer Perceptron,多层感知器)层,该MLP层由两个全连接层组 成,第一层由
Figure 80023DEST_PATH_IMAGE072
个神经元组成,第二层由4096个神经元组成。因此输出向量与输入向量维 度保持不变;
步骤S4.4:将多层感知器MLP层的输出向量进行串联,并重塑维度,得到经自注意 力加权后的频域特征;具体地,将上述S个输出向量进行串联,得到
Figure 689996DEST_PATH_IMAGE074
的向量,并将其重 塑reshape为维度
Figure 860077DEST_PATH_IMAGE076
的向量,该向量为经过自注意力加权之后的频域特征;
本发明实施例中,将上述192个输出向量进行串联,得到
Figure 897303DEST_PATH_IMAGE078
的向量,并将 其重塑reshape为维度
Figure 520046DEST_PATH_IMAGE058
的向量,该向量为经过自注意力加权之后的频域特 征;
步骤S5:将频域特征输入到检测网络中,基于预测值与真值,根据损失函数进行夜间目标监督训练,包括如下步骤:
步骤S5.1:将所述频域特征输入到检测网络中;具体地,将频域特征输入到以ResNet深度残差网络为骨干网络的检测网络中,该检测网络采用经过微调的RetinaNet检测网络,具体删除其骨干网络(ResNet)中的conv1层和conv2层里的最大池化层,其余层保持不变;
步骤S5.2:采用通过分类损失和回归损失共同监督训练;具体地,将步骤S4.4输出的频域特征输入到上述检测网络中进行训练,分类损失采用Focal Loss,回归损失采用IOU交并比损失;
分类损失采用Focal Loss分类损失,计算公式为:
Figure DEST_PATH_IMAGE024AAA
其中,x表示特征图第x行,y表示第y列的位置,
Figure 871393DEST_PATH_IMAGE026
表示在
Figure 630401DEST_PATH_IMAGE028
坐标处通过预测类 别得到的分类置信度,
Figure 104108DEST_PATH_IMAGE030
表示在
Figure 214146DEST_PATH_IMAGE028
坐标处目标所属的真实类别的分类置信度,1表示正 样本,0表示负样本;
Figure 41288DEST_PATH_IMAGE032
是大于0的值,
Figure 779437DEST_PATH_IMAGE034
是[0,1]间的小数,
Figure 296481DEST_PATH_IMAGE032
Figure 752871DEST_PATH_IMAGE036
都是固定值,不参与训练。
回归损失采用IOU交并比损失,计算公式为:
Figure DEST_PATH_IMAGE038AAA
其中,x表示特征图第x行,y表示第y列的位置,
Figure 321386DEST_PATH_IMAGE040
表示
Figure 179621DEST_PATH_IMAGE028
坐标处对应的预测目 标框坐标,
Figure 136076DEST_PATH_IMAGE042
表示
Figure 814182DEST_PATH_IMAGE028
坐标处对应的真值的目标框坐标,
Figure 248705DEST_PATH_IMAGE044
表示该目标框的面积。
步骤S5.3:使用同步SGD(stochastic gradient descent,随机梯度下降)作为优化器,在8个GPU上进行训练,batch size为16,训练步数为90k,初始学习率为0.01,之后在60k步和80k步时缩小10倍;
一种基于频域自注意力机制的夜间目标检测训练装置,包括预训练模块、高低频信息提取模块、同频域信息存储模块、自注意力网络模块和检测网络模型;
所述预训练模块,对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
所述高低频信息提取模块,提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
所述同频域信息存储模块,将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
所述自注意力网络模块,将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
所述检测网络模型,将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
一种基于频域自注意力机制的夜间目标检测方法,将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练方法,进行预处理、高低频信息提取和存入同一频域通道后,输入完成训练的自注意力网络和检测网络中,得到检测结果。
本发明实施例中,推理时,输入图像经过步骤S1的预处理到步骤S3后,依次输入到完成训练的自注意力网络模块和检测网络中,得到图像中的目标类别与定位。
一种基于频域自注意力机制的夜间目标检测装置,包括:
所述的基于频域自注意力机制的夜间目标检测训练装置;和
输入模块,用于将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练装置中,经预训练模块、高低频信息提取模块、同频域信息存储模块后,依次输入完成训练的自注意力网络模块和检测网络模型,得到检测结果。
与前述基于频域自注意力机制的夜间目标检测方法的实施例相对应,本发明还提供了基于频域自注意力机制的夜间目标检测设备的实施例。
参见图4,本发明实施例提供的基于频域自注意力机制的夜间目标检测设备,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于频域自注意力机制的夜间目标检测方法。
本发明基于频域自注意力机制的夜间目标检测设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明基于频域自注意力机制的夜间目标检测设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于频域自注意力机制的夜间目标检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种基于频域自注意力机制的夜间目标检测训练方法,其特征在于包括如下步骤:
步骤S1:对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
步骤S2:提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
步骤S3:将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
步骤S4:将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
步骤S5:将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
2.根据权利要求1所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于:所述步骤S1的数据预处理,包括如下步骤:
步骤S1.1:对训练集图像依次进行随机水平翻转、随机裁剪、图像填充、图像缩放;在图 像填充过程中,将图像的宽长用0填充为
Figure 20199DEST_PATH_IMAGE002
的整数倍;在图像缩放过程中,将图像缩放到宽:
Figure 609443DEST_PATH_IMAGE004
,长:
Figure 185918DEST_PATH_IMAGE004
;得到预处理后的图像维度为
Figure 659756DEST_PATH_IMAGE006
,其中3为RGB通道;
步骤S1.2:将训练集图像从RGB转化为YUV通道,分别将三个通道的图像划分成像素宽 长为
Figure 942970DEST_PATH_IMAGE008
Figure 700186DEST_PATH_IMAGE010
个区块。
3.根据权利要求1所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于:所述步骤S2中,对于三个通道的各个区块,分别进行DCT离散余弦变换,进而提取每个区块的高低频信息。
4.根据权利要求1所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于:所述步骤S4包括以下步骤:
步骤S4.1:将各个频域通道从二维向量重塑为一维向量,将各向量串联成矩阵
Figure 373744DEST_PATH_IMAGE012
步骤S4.2:将矩阵进行可缩放点积自注意力计算,得到多个频域之间的动态加权后的向量;
所述步骤S4.2的自注意力计算公式为:
Figure DEST_PATH_IMAGE014A
其中,将各向量串联成矩阵
Figure 448010DEST_PATH_IMAGE012
作为自注意力计算中的键值key,
Figure 648047DEST_PATH_IMAGE016
Q表示查询 query,V表示值项value,
Figure 47936DEST_PATH_IMAGE018
表示点积操作,用于获取所有向量之间的相似度,
Figure 333423DEST_PATH_IMAGE020
表示缩 放尺度,N表示以为向量的长度;
步骤S4.3:将动态加权后的向量,输入相同的多层感知器MLP层;
步骤S4.4:将多层感知器MLP层的输出向量进行串联,并重塑维度,得到经自注意力加权后的频域特征。
5.根据权利要求1所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于: 所述步骤S5包括以下步骤:
步骤S5.1:将所述频域特征输入到检测网络中,输出特征图中各个特征点对应的预测类别、预测目标框;
步骤S5.2:基于预测类别和真实类别,通过分类损失进行监督训练,同时,基于预测目标框和真值目标框,通过回归损失共同进行监督训练。
6.根据权利要求5所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于:所述步骤S5.2中的分类损失采用Focal Loss分类损失,计算公式为:
Figure DEST_PATH_IMAGE022A
其中,x表示特征图第x行,y表示第y列的位置,
Figure 414643DEST_PATH_IMAGE024
表示在
Figure 469187DEST_PATH_IMAGE026
坐标处通过预测类别得 到的分类置信度,
Figure 305556DEST_PATH_IMAGE028
表示在
Figure 343919DEST_PATH_IMAGE026
坐标处目标所属的真实类别的分类置信度,1表示正样本, 0表示负样本;
Figure 28497DEST_PATH_IMAGE030
是大于0的值,
Figure 203126DEST_PATH_IMAGE032
是[0,1]间的小数,
Figure 944817DEST_PATH_IMAGE030
Figure 345843DEST_PATH_IMAGE034
都是固定值,不参与训练。
7.根据权利要求5所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于:所述步骤S5.2中的回归损失采用IOU交并比损失,计算公式为:
Figure DEST_PATH_IMAGE036A
其中,x表示特征图第x行,y表示第y列的位置,
Figure 503286DEST_PATH_IMAGE038
表示
Figure 532422DEST_PATH_IMAGE026
坐标处对应的预测目标框 坐标,
Figure 710593DEST_PATH_IMAGE040
表示
Figure 192390DEST_PATH_IMAGE026
坐标处对应的真值的目标框坐标,
Figure 481420DEST_PATH_IMAGE042
表示该目标框的面积。
8.一种基于频域自注意力机制的夜间目标检测训练装置,包括预训练模块、高低频信息提取模块、同频域信息存储模块、自注意力网络模块和检测网络模型,其特征在于:
所述预训练模块,对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
所述高低频信息提取模块,提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
所述同频域信息存储模块,将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
所述自注意力网络模块,将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
所述检测网络模型,将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
9.一种基于频域自注意力机制的夜间目标检测方法,其特征在于:将待检测图像输入权利要求1至7任一项所述的基于频域自注意力机制的夜间目标检测训练方法,进行预处理、高低频信息提取和存入同一频域通道后,输入完成训练的自注意力网络和检测网络中,得到检测结果。
10.一种基于频域自注意力机制的夜间目标检测装置,其特征在于,包括:
权利要求8所述的基于频域自注意力机制的夜间目标检测训练装置;和
输入模块,用于将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练装置中,经预训练模块、高低频信息提取模块、同频域信息存储模块后,依次输入完成训练的自注意力网络模块和检测网络模型,得到检测结果。
CN202210902801.1A 2022-07-29 2022-07-29 基于频域自注意力机制的夜间目标检测、训练方法及装置 Active CN114972976B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210902801.1A CN114972976B (zh) 2022-07-29 2022-07-29 基于频域自注意力机制的夜间目标检测、训练方法及装置
JP2023071865A JP7357176B1 (ja) 2022-07-29 2023-04-25 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210902801.1A CN114972976B (zh) 2022-07-29 2022-07-29 基于频域自注意力机制的夜间目标检测、训练方法及装置

Publications (2)

Publication Number Publication Date
CN114972976A true CN114972976A (zh) 2022-08-30
CN114972976B CN114972976B (zh) 2022-12-20

Family

ID=82969750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210902801.1A Active CN114972976B (zh) 2022-07-29 2022-07-29 基于频域自注意力机制的夜间目标检测、训练方法及装置

Country Status (2)

Country Link
JP (1) JP7357176B1 (zh)
CN (1) CN114972976B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294483A (zh) * 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统
CN115496993A (zh) * 2022-09-09 2022-12-20 锋睿领创(珠海)科技有限公司 基于频域融合的目标检测方法、装置、设备及存储介质
CN117636341A (zh) * 2024-01-26 2024-03-01 中国海洋大学 一种多帧海藻显微图像增强识别方法及其模型搭建方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422939B (zh) * 2023-12-15 2024-03-08 武汉纺织大学 一种基于超声特征提取的乳腺肿瘤分类方法及系统

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120087582A1 (en) * 2010-10-06 2012-04-12 International Business Machines Corporation Method and system for resizing an image
US20140210978A1 (en) * 2013-01-25 2014-07-31 Toyota Motor Engineering & Manufacturing North America, Inc. Method and apparatus for early detection of dynamic attentive states for providing an inattentive warning
US20150187039A1 (en) * 2014-01-02 2015-07-02 Digimarc Corporation Full-color visibility model using csf which varies spatially with local luminance
US20160316098A1 (en) * 2014-01-02 2016-10-27 Digimarc Corporation Full color visibility model using csf which varies spatially with local luminance
US20200193296A1 (en) * 2018-12-18 2020-06-18 Microsoft Technology Licensing, Llc Neural network architecture for attention based efficient model adaptation
CN111460931A (zh) * 2020-03-17 2020-07-28 华南理工大学 基于颜色通道差值图特征的人脸欺骗检测方法及系统
CN111738112A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN111967498A (zh) * 2020-07-20 2020-11-20 重庆大学 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法
CN112434723A (zh) * 2020-07-23 2021-03-02 之江实验室 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN112861883A (zh) * 2021-03-18 2021-05-28 上海壁仞智能科技有限公司 一种图像显著性区域检测方法及装置
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN113657225A (zh) * 2021-08-05 2021-11-16 武汉工程大学 一种目标检测方法
CN113902926A (zh) * 2021-12-06 2022-01-07 之江实验室 一种基于自注意力机制的通用图像目标检测方法和装置
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114241511A (zh) * 2021-10-21 2022-03-25 西安科技大学 一种弱监督行人检测方法、系统、介质、设备及处理终端
CN114266884A (zh) * 2021-12-13 2022-04-01 浙江工业大学 旋转框定位多形态瓶状物品分拣目标检测方法
CN114581536A (zh) * 2022-02-25 2022-06-03 华南理工大学 基于特征感知和多通道学习的图像色差检测方法
CN114594461A (zh) * 2022-03-14 2022-06-07 杭州电子科技大学 基于注意力感知与缩放因子剪枝的声呐目标检测方法
CN114691986A (zh) * 2022-03-21 2022-07-01 合肥工业大学 基于子空间适应性间距的跨模态检索方法及存储介质
US20220215646A1 (en) * 2019-04-23 2022-07-07 The Johns Hopkins University Abdominal multi-organ segmentation with organ-attention networks
CN114757832A (zh) * 2022-06-14 2022-07-15 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465737B (zh) 2020-12-07 2023-11-07 中国工商银行股份有限公司 图像处理模型训练方法、图像处理方法及图像处理装置
CN115496993B (zh) 2022-09-09 2023-07-14 锋睿领创(珠海)科技有限公司 基于频域融合的目标检测方法、装置、设备及存储介质
CN115294483A (zh) 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120087582A1 (en) * 2010-10-06 2012-04-12 International Business Machines Corporation Method and system for resizing an image
US20140210978A1 (en) * 2013-01-25 2014-07-31 Toyota Motor Engineering & Manufacturing North America, Inc. Method and apparatus for early detection of dynamic attentive states for providing an inattentive warning
US20150187039A1 (en) * 2014-01-02 2015-07-02 Digimarc Corporation Full-color visibility model using csf which varies spatially with local luminance
US20160316098A1 (en) * 2014-01-02 2016-10-27 Digimarc Corporation Full color visibility model using csf which varies spatially with local luminance
US20200193296A1 (en) * 2018-12-18 2020-06-18 Microsoft Technology Licensing, Llc Neural network architecture for attention based efficient model adaptation
US20220215646A1 (en) * 2019-04-23 2022-07-07 The Johns Hopkins University Abdominal multi-organ segmentation with organ-attention networks
CN111460931A (zh) * 2020-03-17 2020-07-28 华南理工大学 基于颜色通道差值图特征的人脸欺骗检测方法及系统
CN111738112A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN111967498A (zh) * 2020-07-20 2020-11-20 重庆大学 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法
CN112434723A (zh) * 2020-07-23 2021-03-02 之江实验室 一种基于注意力网络的日/夜间图像分类及物体检测方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN112200161A (zh) * 2020-12-03 2021-01-08 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN112861883A (zh) * 2021-03-18 2021-05-28 上海壁仞智能科技有限公司 一种图像显著性区域检测方法及装置
CN113657225A (zh) * 2021-08-05 2021-11-16 武汉工程大学 一种目标检测方法
CN114241511A (zh) * 2021-10-21 2022-03-25 西安科技大学 一种弱监督行人检测方法、系统、介质、设备及处理终端
CN113902926A (zh) * 2021-12-06 2022-01-07 之江实验室 一种基于自注意力机制的通用图像目标检测方法和装置
CN114266884A (zh) * 2021-12-13 2022-04-01 浙江工业大学 旋转框定位多形态瓶状物品分拣目标检测方法
CN114581536A (zh) * 2022-02-25 2022-06-03 华南理工大学 基于特征感知和多通道学习的图像色差检测方法
CN114594461A (zh) * 2022-03-14 2022-06-07 杭州电子科技大学 基于注意力感知与缩放因子剪枝的声呐目标检测方法
CN114691986A (zh) * 2022-03-21 2022-07-01 合肥工业大学 基于子空间适应性间距的跨模态检索方法及存储介质
CN114757832A (zh) * 2022-06-14 2022-07-15 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NINA SUESS 等: "Differential attention-dependent adjustment of frequency, power and phase in primary sensory and frontoparietal areas", 《CORTEX》 *
YUNYONG PUNSAWAD 等: "On the enhancement of training session performance via attention for single-frequency/multi-commands based steady state auditory evoked potential BCI", 《2012 ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY》 *
严娟等: "结合混合域注意力与空洞卷积的3维目标检测", 《中国图象图形学报》 *
王芋人 等: "频域混合注意力模型", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496993A (zh) * 2022-09-09 2022-12-20 锋睿领创(珠海)科技有限公司 基于频域融合的目标检测方法、装置、设备及存储介质
CN115294483A (zh) * 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统
CN117636341A (zh) * 2024-01-26 2024-03-01 中国海洋大学 一种多帧海藻显微图像增强识别方法及其模型搭建方法
CN117636341B (zh) * 2024-01-26 2024-04-26 中国海洋大学 一种多帧海藻显微图像增强识别方法及其模型搭建方法

Also Published As

Publication number Publication date
JP7357176B1 (ja) 2023-10-05
CN114972976B (zh) 2022-12-20
JP2024018938A (ja) 2024-02-08

Similar Documents

Publication Publication Date Title
CN114972976B (zh) 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN110532871B (zh) 图像处理的方法和装置
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN110163286B (zh) 一种基于混合池化的领域自适应图像分类方法
CN114783003B (zh) 一种基于局部特征注意力的行人重识别方法和装置
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
WO2010043771A1 (en) Detecting and tracking objects in digital images
CN114220126A (zh) 一种目标检测系统及获取方法
CN115496971A (zh) 一种红外目标检测方法、装置、电子设备及存储介质
Huang et al. Infrared image super-resolution via heterogeneous convolutional WGAN
Panda et al. Modified ResNet-152 Network With Hybrid Pyramidal Pooling for Local Change Detection
Jiang et al. Improve object detection by data enhancement based on generative adversarial nets
CN115984133A (zh) 图像增强方法、车辆抓拍方法、设备及介质
Guo et al. MDSFE: Multiscale deep stacking fusion enhancer network for visual data enhancement
CN114926348A (zh) 一种去除低照度视频噪声的装置和方法
Ray et al. Deep learning based underwater image enhancement using deep convolution neural network
Hui et al. WSA-YOLO: Weak-supervised and Adaptive object detection in the low-light environment for YOLOV7
US11869230B2 (en) Joint forecasting of feature and feature motion
Peng et al. End-to-End Anti-Attack Iris Location Based on Lightweight Network
Hoang et al. Human Density Estimation by Exploiting Deep Spatial Contextual Information
CN115984583B (zh) 数据处理方法、装置、计算机设备、存储介质和程序产品
Schiabel et al. Convolutional Neural Networks of Density Maps for Crowd Counting
Lin et al. Segformer-Mobilenetv3 fusion coordinate attention mechanism: A lite portrait segmentation network
Zhang Low Light Image Enhancement and Saliency Object Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant