CN114972976A - 基于频域自注意力机制的夜间目标检测、训练方法及装置 - Google Patents
基于频域自注意力机制的夜间目标检测、训练方法及装置 Download PDFInfo
- Publication number
- CN114972976A CN114972976A CN202210902801.1A CN202210902801A CN114972976A CN 114972976 A CN114972976 A CN 114972976A CN 202210902801 A CN202210902801 A CN 202210902801A CN 114972976 A CN114972976 A CN 114972976A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- self
- attention
- channels
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于频域自注意力机制的夜间目标检测、训练方法及装置,采用具有夜间图像检测标签的开源数据集训练检测网络,首先将输入图像进行预处理,使其从RGB转化为YUV通道,分别将三个通道的图像划分成多个区块;对于三个通道的各个区块,分别进行DCT离散余弦变换;将各个区块中属于同一频域的信息依据其原本的空间关系存入同一通道中,生成数个代表不同频域的通道;将所有频域通道输入自注意力网络模块,该模块通过计算各通道之间的可缩放点积自注意力,输出每个通道动态加权后的数值,再将其分别输入相同的多层感知器MLP;将输出结果输入检测网络中,最终获得图像的检测结果。
Description
技术领域
本发明涉及计算机视觉识别技术领域,尤其是涉及基于频域自注意力机制的夜间目标检测、训练方法及装置。
背景技术
目标检测是许多其他经典视觉问题的基础,且具有巨大的实用价值和应用前景。检测RGB摄像机拍摄的夜间场景图片中的物体,是一个非常重要但是未被充分重视的问题,当前最新的视觉检测算法往往在夜间场景下无法达到预期的性能。
夜间目标检测是许多系统(如安全可靠的自动驾驶汽车)的关键组成部分。以行人检测为例,官方算法在Caltech(著名行人检测数据集)上的错误率(越小越好)可以达到7.36%,但在夜间行人数据集上却只能达到63.99%。
夜间目标检测性能低下,主要原因在于目前深度学习网络对于光照信息以及低频信息比较敏感。众所周知,夜间拍摄的图像,存在噪声大、轮廓不清、纹理模糊的问题。这也直接导致了通用的特征提取网络无法提取到充分的特征信息进行学习和分辨。
已有研究表明,人眼对色度的敏感程度要低于对亮度的敏感度。因此YUV图像(Y通道代表图像的亮度信息)表示更符合人眼的视觉特性。此外,研究人员发现神经网络对图像不同频域的敏感度不同。基于白天图像训练的模型中,低频信息被证明是更有效的,而高频信息往往被忽略。然而夜间图像与白天图像分布及其不同,夜间图像本身具有的低频信息十分有限。因此,在频域层面对图像进行动态加权,使模型选择到最有利于提升性能的频域特征,对于夜间场景具有很大的应用前景。
发明内容
为解决现有技术的不足,实现提高夜间图像检测准确率的目的,本发明采用如下的技术方案:
一种基于频域自注意力机制的夜间目标检测训练方法,包括如下步骤:
步骤S1:对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
步骤S2:提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
步骤S3:将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
步骤S4:将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
步骤S5:输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
进一步地,所述步骤S1的数据预处理,包括如下步骤:
步骤S1.1:对训练集图像依次进行随机水平翻转、随机裁剪、图像填充、图像缩放;
在图像填充过程中,将图像的宽长用0填充为的整数倍;在图像缩放过程中,将图像缩放到
宽:,长:;得到预处理后的图像维度为,其中3为RGB通道;
进一步地,所述步骤S2中,对于三个通道的各个区块,分别进行DCT离散余弦变换,进而提取每个区块的高低频信息。
进一步地,所述步骤S4包括以下步骤:
步骤S4.2:将矩阵进行可缩放点积自注意力计算,得到多个频域之间的动态加权后的向量;
所述步骤S4.2的自注意力计算公式为:
其中,将各向量串联成矩阵作为自注意力计算中的键值key,,Q表示
查询query,V表示值项value,表示点积操作,用于获取所有向量之间的相似度,表
示缩放尺度,N表示以为向量的长度,该公式可以实现多个频域之间的动态加权,并确保自
身频域占据最大权重。
步骤S4.4:将多层感知器MLP层的输出向量进行串联,并重塑维度,得到经自注意力加权后的频域特征。
进一步地,所述步骤S5包括以下步骤:
步骤S5.1:将所述频域特征输入到检测网络中,输出特征图中各个特征点对应的预测类别、预测目标框;检测网络是将ResNet深度残差网络作为骨干网络,采用经过微调的RetinaNet检测网络,具体删除其骨干网络ResNet中的卷积层conv1和卷积层conv2中的最大池化层,其余层保持不变;
步骤S5.2:基于预测类别和真实类别,通过分类损失进行监督训练,同时,基于预测目标框和真值目标框,通过回归损失共同进行监督训练。
进一步地,所述步骤S5.2中的分类损失采用Focal Loss分类损失,计算公式为:
其中,x表示特征图第x行,y表示第y列的位置,表示在坐标处通过预测类
别得到的分类置信度,表示在坐标处目标所属的真实类别的分类置信度,1表示正
样本,0表示负样本;是大于0的值,是[0,1]间的小数,和都是固定值,不参与训练。
进一步地,所述步骤S5.2中的回归损失采用IOU交并比损失,计算公式为:
一种基于频域自注意力机制的夜间目标检测训练装置,包括预训练模块、高低频信息提取模块、同频域信息存储模块、自注意力网络模块和检测网络模型;
所述预训练模块,对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
所述高低频信息提取模块,提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
所述同频域信息存储模块,将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
所述自注意力网络模块,将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
所述检测网络模型,将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
一种基于频域自注意力机制的夜间目标检测方法,将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练方法,进行预处理、高低频信息提取和存入同一频域通道后,输入完成训练的自注意力网络和检测网络中,得到检测结果。
一种基于频域自注意力机制的夜间目标检测装置,包括:
所述的基于频域自注意力机制的夜间目标检测训练装置;和
输入模块,用于将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练装置中,经预训练模块、高低频信息提取模块、同频域信息存储模块后,依次输入完成训练的自注意力网络模块和检测网络模型,得到检测结果。
本发明的优势和有益效果在于:
1、将输入图像从RGB转为YUV通道,更符合人眼视觉特性,通过将亮度Y通道分离出来,可以捕捉到亮度通道中不同频域的视觉信息,从而提升夜间目标检测性能;
2、通过频域自注意力网络模块中的可缩放自注意力计算,动态提高有用频域的权重,降低冗余频域的权重,从而提高频域信息的利用率;
3、该方法可以即插即用到任何以ResNet深度残差网络为骨干网络的检测网络中(不限于RetinaNet),并相对于RetinaNet-ResNet50和RetinaNet-ResNet101 两个baseline分别提升了MAP3.70%和2.88%准确率。
附图说明
图1是本发明实施例中方法的整体架构图。
图2是本发明实施例中方法的流程图。
图3是本发明实施例的方法中频域自注意力网络模块的执行流程图。
图4是本发明实施例中装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1、图2所示,基于频域自注意力机制的夜间目标检测训练方法,包括以下步骤:
步骤S1:对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
在数据预处理前,可以进行数据集的构建:下载开源夜间目标检测数据集Exclusively Dark(ExDark),该数据集包含12个类别:自行车、船、瓶子、杯子、公交车、轿车、猫、椅子、狗、摩托车、人和桌子,按照4:1:1的比例创建训练集、验证集和测试集;
对上述训练集图像进行数据预处理,具体包括以下步骤:
步骤S1.1:对训练集图像依次进行随机水平翻转、随机裁剪、图像填充、图像缩放;
在图像填充过程中,将图像的宽长用0填充为的整数倍;在图像缩放过程中,将图像缩放到
宽:,长:;得到预处理后的图像维度为,其中3为RGB通道;
步骤S2:提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
对于三个通道的各个区块,分别进行DCT离散余弦变换,进而提取每个区块的高低频信息。
步骤S4:将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征,如图3所示,包括如下步骤:
步骤S4.2:将矩阵进行可缩放点积自注意力计算,得到多个频域之间的动态加权后的向量,其计算公式为:
其中,将各向量串联成矩阵作为自注意力计算中的键值key,,Q表示
查询query,V表示值项value,代表点积操作,用于获取所有向量之间的相似度,表
示缩放尺度,N表示以为向量的长度,该公式可以实现多个频域之间的动态加权,并确保自
身频域占据最大权重;
本发明实施例中,步骤S4.2计算输出的向量按照192个维度为的向量,分
别输入相同的MLP(Multilayer Perceptron,多层感知器)层,该MLP层由两个全连接层组
成,第一层由个神经元组成,第二层由4096个神经元组成。因此输出向量与输入向量维
度保持不变;
步骤S4.4:将多层感知器MLP层的输出向量进行串联,并重塑维度,得到经自注意
力加权后的频域特征;具体地,将上述S个输出向量进行串联,得到的向量,并将其重
塑reshape为维度的向量,该向量为经过自注意力加权之后的频域特征;
步骤S5:将频域特征输入到检测网络中,基于预测值与真值,根据损失函数进行夜间目标监督训练,包括如下步骤:
步骤S5.1:将所述频域特征输入到检测网络中;具体地,将频域特征输入到以ResNet深度残差网络为骨干网络的检测网络中,该检测网络采用经过微调的RetinaNet检测网络,具体删除其骨干网络(ResNet)中的conv1层和conv2层里的最大池化层,其余层保持不变;
步骤S5.2:采用通过分类损失和回归损失共同监督训练;具体地,将步骤S4.4输出的频域特征输入到上述检测网络中进行训练,分类损失采用Focal Loss,回归损失采用IOU交并比损失;
分类损失采用Focal Loss分类损失,计算公式为:
其中,x表示特征图第x行,y表示第y列的位置,表示在坐标处通过预测类
别得到的分类置信度,表示在坐标处目标所属的真实类别的分类置信度,1表示正
样本,0表示负样本;是大于0的值,是[0,1]间的小数,和都是固定值,不参与训练。
回归损失采用IOU交并比损失,计算公式为:
步骤S5.3:使用同步SGD(stochastic gradient descent,随机梯度下降)作为优化器,在8个GPU上进行训练,batch size为16,训练步数为90k,初始学习率为0.01,之后在60k步和80k步时缩小10倍;
一种基于频域自注意力机制的夜间目标检测训练装置,包括预训练模块、高低频信息提取模块、同频域信息存储模块、自注意力网络模块和检测网络模型;
所述预训练模块,对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
所述高低频信息提取模块,提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
所述同频域信息存储模块,将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
所述自注意力网络模块,将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
所述检测网络模型,将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
一种基于频域自注意力机制的夜间目标检测方法,将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练方法,进行预处理、高低频信息提取和存入同一频域通道后,输入完成训练的自注意力网络和检测网络中,得到检测结果。
本发明实施例中,推理时,输入图像经过步骤S1的预处理到步骤S3后,依次输入到完成训练的自注意力网络模块和检测网络中,得到图像中的目标类别与定位。
一种基于频域自注意力机制的夜间目标检测装置,包括:
所述的基于频域自注意力机制的夜间目标检测训练装置;和
输入模块,用于将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练装置中,经预训练模块、高低频信息提取模块、同频域信息存储模块后,依次输入完成训练的自注意力网络模块和检测网络模型,得到检测结果。
与前述基于频域自注意力机制的夜间目标检测方法的实施例相对应,本发明还提供了基于频域自注意力机制的夜间目标检测设备的实施例。
参见图4,本发明实施例提供的基于频域自注意力机制的夜间目标检测设备,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于频域自注意力机制的夜间目标检测方法。
本发明基于频域自注意力机制的夜间目标检测设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明基于频域自注意力机制的夜间目标检测设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于频域自注意力机制的夜间目标检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于频域自注意力机制的夜间目标检测训练方法,其特征在于包括如下步骤:
步骤S1:对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
步骤S2:提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
步骤S3:将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
步骤S4:将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
步骤S5:将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
3.根据权利要求1所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于:所述步骤S2中,对于三个通道的各个区块,分别进行DCT离散余弦变换,进而提取每个区块的高低频信息。
4.根据权利要求1所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于:所述步骤S4包括以下步骤:
步骤S4.2:将矩阵进行可缩放点积自注意力计算,得到多个频域之间的动态加权后的向量;
所述步骤S4.2的自注意力计算公式为:
步骤S4.3:将动态加权后的向量,输入相同的多层感知器MLP层;
步骤S4.4:将多层感知器MLP层的输出向量进行串联,并重塑维度,得到经自注意力加权后的频域特征。
5.根据权利要求1所述的基于频域自注意力机制的夜间目标检测训练方法,其特征在于: 所述步骤S5包括以下步骤:
步骤S5.1:将所述频域特征输入到检测网络中,输出特征图中各个特征点对应的预测类别、预测目标框;
步骤S5.2:基于预测类别和真实类别,通过分类损失进行监督训练,同时,基于预测目标框和真值目标框,通过回归损失共同进行监督训练。
8.一种基于频域自注意力机制的夜间目标检测训练装置,包括预训练模块、高低频信息提取模块、同频域信息存储模块、自注意力网络模块和检测网络模型,其特征在于:
所述预训练模块,对训练集图像进行数据预处理,将训练集图像转化为YUV三个通道,并分别对三个通道的图像进行区块的划分,Y表示明亮度,U和V表示色度;
所述高低频信息提取模块,提取三个通道中各区块的高低频信息,同一通道中每个区块相对位置相同的信息代表同一频域的信息;
所述同频域信息存储模块,将各个区块中属于同一频域的信息,依据各区块间的空间关系存入同一频域通道中,得到多个不同频域的通道;
所述自注意力网络模块,将所有频域通道输入频域自注意力网络,通过计算各通道之间的可缩放点积自注意力,输出每个频域通道经自注意力加权后的频域特征;
所述检测网络模型,将频域特征输入到检测网络中,输出预测的目标框位置与预测类别,基于特征图中各个特征点对应的真实类别与真值目标框位置,根据损失函数进行夜间目标监督训练。
9.一种基于频域自注意力机制的夜间目标检测方法,其特征在于:将待检测图像输入权利要求1至7任一项所述的基于频域自注意力机制的夜间目标检测训练方法,进行预处理、高低频信息提取和存入同一频域通道后,输入完成训练的自注意力网络和检测网络中,得到检测结果。
10.一种基于频域自注意力机制的夜间目标检测装置,其特征在于,包括:
权利要求8所述的基于频域自注意力机制的夜间目标检测训练装置;和
输入模块,用于将待检测图像输入所述的基于频域自注意力机制的夜间目标检测训练装置中,经预训练模块、高低频信息提取模块、同频域信息存储模块后,依次输入完成训练的自注意力网络模块和检测网络模型,得到检测结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902801.1A CN114972976B (zh) | 2022-07-29 | 2022-07-29 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
JP2023071865A JP7357176B1 (ja) | 2022-07-29 | 2023-04-25 | 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902801.1A CN114972976B (zh) | 2022-07-29 | 2022-07-29 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114972976A true CN114972976A (zh) | 2022-08-30 |
CN114972976B CN114972976B (zh) | 2022-12-20 |
Family
ID=82969750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210902801.1A Active CN114972976B (zh) | 2022-07-29 | 2022-07-29 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7357176B1 (zh) |
CN (1) | CN114972976B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294483A (zh) * | 2022-09-28 | 2022-11-04 | 山东大学 | 输电线路复杂场景的小目标识别方法及系统 |
CN115496993A (zh) * | 2022-09-09 | 2022-12-20 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
CN117636341A (zh) * | 2024-01-26 | 2024-03-01 | 中国海洋大学 | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422939B (zh) * | 2023-12-15 | 2024-03-08 | 武汉纺织大学 | 一种基于超声特征提取的乳腺肿瘤分类方法及系统 |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120087582A1 (en) * | 2010-10-06 | 2012-04-12 | International Business Machines Corporation | Method and system for resizing an image |
US20140210978A1 (en) * | 2013-01-25 | 2014-07-31 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and apparatus for early detection of dynamic attentive states for providing an inattentive warning |
US20150187039A1 (en) * | 2014-01-02 | 2015-07-02 | Digimarc Corporation | Full-color visibility model using csf which varies spatially with local luminance |
US20160316098A1 (en) * | 2014-01-02 | 2016-10-27 | Digimarc Corporation | Full color visibility model using csf which varies spatially with local luminance |
US20200193296A1 (en) * | 2018-12-18 | 2020-06-18 | Microsoft Technology Licensing, Llc | Neural network architecture for attention based efficient model adaptation |
CN111460931A (zh) * | 2020-03-17 | 2020-07-28 | 华南理工大学 | 基于颜色通道差值图特征的人脸欺骗检测方法及系统 |
CN111738112A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法 |
CN111967498A (zh) * | 2020-07-20 | 2020-11-20 | 重庆大学 | 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法 |
CN112200161A (zh) * | 2020-12-03 | 2021-01-08 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN112434723A (zh) * | 2020-07-23 | 2021-03-02 | 之江实验室 | 一种基于注意力网络的日/夜间图像分类及物体检测方法 |
CN112861883A (zh) * | 2021-03-18 | 2021-05-28 | 上海壁仞智能科技有限公司 | 一种图像显著性区域检测方法及装置 |
CN112927202A (zh) * | 2021-02-25 | 2021-06-08 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN113657225A (zh) * | 2021-08-05 | 2021-11-16 | 武汉工程大学 | 一种目标检测方法 |
CN113902926A (zh) * | 2021-12-06 | 2022-01-07 | 之江实验室 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
CN114241511A (zh) * | 2021-10-21 | 2022-03-25 | 西安科技大学 | 一种弱监督行人检测方法、系统、介质、设备及处理终端 |
CN114266884A (zh) * | 2021-12-13 | 2022-04-01 | 浙江工业大学 | 旋转框定位多形态瓶状物品分拣目标检测方法 |
CN114581536A (zh) * | 2022-02-25 | 2022-06-03 | 华南理工大学 | 基于特征感知和多通道学习的图像色差检测方法 |
CN114594461A (zh) * | 2022-03-14 | 2022-06-07 | 杭州电子科技大学 | 基于注意力感知与缩放因子剪枝的声呐目标检测方法 |
CN114691986A (zh) * | 2022-03-21 | 2022-07-01 | 合肥工业大学 | 基于子空间适应性间距的跨模态检索方法及存储介质 |
US20220215646A1 (en) * | 2019-04-23 | 2022-07-07 | The Johns Hopkins University | Abdominal multi-organ segmentation with organ-attention networks |
CN114757832A (zh) * | 2022-06-14 | 2022-07-15 | 之江实验室 | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465737B (zh) | 2020-12-07 | 2023-11-07 | 中国工商银行股份有限公司 | 图像处理模型训练方法、图像处理方法及图像处理装置 |
CN115496993B (zh) | 2022-09-09 | 2023-07-14 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
CN115294483A (zh) | 2022-09-28 | 2022-11-04 | 山东大学 | 输电线路复杂场景的小目标识别方法及系统 |
-
2022
- 2022-07-29 CN CN202210902801.1A patent/CN114972976B/zh active Active
-
2023
- 2023-04-25 JP JP2023071865A patent/JP7357176B1/ja active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120087582A1 (en) * | 2010-10-06 | 2012-04-12 | International Business Machines Corporation | Method and system for resizing an image |
US20140210978A1 (en) * | 2013-01-25 | 2014-07-31 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and apparatus for early detection of dynamic attentive states for providing an inattentive warning |
US20150187039A1 (en) * | 2014-01-02 | 2015-07-02 | Digimarc Corporation | Full-color visibility model using csf which varies spatially with local luminance |
US20160316098A1 (en) * | 2014-01-02 | 2016-10-27 | Digimarc Corporation | Full color visibility model using csf which varies spatially with local luminance |
US20200193296A1 (en) * | 2018-12-18 | 2020-06-18 | Microsoft Technology Licensing, Llc | Neural network architecture for attention based efficient model adaptation |
US20220215646A1 (en) * | 2019-04-23 | 2022-07-07 | The Johns Hopkins University | Abdominal multi-organ segmentation with organ-attention networks |
CN111460931A (zh) * | 2020-03-17 | 2020-07-28 | 华南理工大学 | 基于颜色通道差值图特征的人脸欺骗检测方法及系统 |
CN111738112A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法 |
CN111967498A (zh) * | 2020-07-20 | 2020-11-20 | 重庆大学 | 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法 |
CN112434723A (zh) * | 2020-07-23 | 2021-03-02 | 之江实验室 | 一种基于注意力网络的日/夜间图像分类及物体检测方法 |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
CN112200161A (zh) * | 2020-12-03 | 2021-01-08 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN112927202A (zh) * | 2021-02-25 | 2021-06-08 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN112861883A (zh) * | 2021-03-18 | 2021-05-28 | 上海壁仞智能科技有限公司 | 一种图像显著性区域检测方法及装置 |
CN113657225A (zh) * | 2021-08-05 | 2021-11-16 | 武汉工程大学 | 一种目标检测方法 |
CN114241511A (zh) * | 2021-10-21 | 2022-03-25 | 西安科技大学 | 一种弱监督行人检测方法、系统、介质、设备及处理终端 |
CN113902926A (zh) * | 2021-12-06 | 2022-01-07 | 之江实验室 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
CN114266884A (zh) * | 2021-12-13 | 2022-04-01 | 浙江工业大学 | 旋转框定位多形态瓶状物品分拣目标检测方法 |
CN114581536A (zh) * | 2022-02-25 | 2022-06-03 | 华南理工大学 | 基于特征感知和多通道学习的图像色差检测方法 |
CN114594461A (zh) * | 2022-03-14 | 2022-06-07 | 杭州电子科技大学 | 基于注意力感知与缩放因子剪枝的声呐目标检测方法 |
CN114691986A (zh) * | 2022-03-21 | 2022-07-01 | 合肥工业大学 | 基于子空间适应性间距的跨模态检索方法及存储介质 |
CN114757832A (zh) * | 2022-06-14 | 2022-07-15 | 之江实验室 | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 |
Non-Patent Citations (4)
Title |
---|
NINA SUESS 等: "Differential attention-dependent adjustment of frequency, power and phase in primary sensory and frontoparietal areas", 《CORTEX》 * |
YUNYONG PUNSAWAD 等: "On the enhancement of training session performance via attention for single-frequency/multi-commands based steady state auditory evoked potential BCI", 《2012 ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY》 * |
严娟等: "结合混合域注意力与空洞卷积的3维目标检测", 《中国图象图形学报》 * |
王芋人 等: "频域混合注意力模型", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496993A (zh) * | 2022-09-09 | 2022-12-20 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
CN115294483A (zh) * | 2022-09-28 | 2022-11-04 | 山东大学 | 输电线路复杂场景的小目标识别方法及系统 |
CN117636341A (zh) * | 2024-01-26 | 2024-03-01 | 中国海洋大学 | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 |
CN117636341B (zh) * | 2024-01-26 | 2024-04-26 | 中国海洋大学 | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7357176B1 (ja) | 2023-10-05 |
CN114972976B (zh) | 2022-12-20 |
JP2024018938A (ja) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114972976B (zh) | 基于频域自注意力机制的夜间目标检测、训练方法及装置 | |
CN110532871B (zh) | 图像处理的方法和装置 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN110163286B (zh) | 一种基于混合池化的领域自适应图像分类方法 | |
CN114783003B (zh) | 一种基于局部特征注意力的行人重识别方法和装置 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
WO2010043771A1 (en) | Detecting and tracking objects in digital images | |
CN114220126A (zh) | 一种目标检测系统及获取方法 | |
CN115496971A (zh) | 一种红外目标检测方法、装置、电子设备及存储介质 | |
Huang et al. | Infrared image super-resolution via heterogeneous convolutional WGAN | |
Panda et al. | Modified ResNet-152 Network With Hybrid Pyramidal Pooling for Local Change Detection | |
Jiang et al. | Improve object detection by data enhancement based on generative adversarial nets | |
CN115984133A (zh) | 图像增强方法、车辆抓拍方法、设备及介质 | |
Guo et al. | MDSFE: Multiscale deep stacking fusion enhancer network for visual data enhancement | |
CN114926348A (zh) | 一种去除低照度视频噪声的装置和方法 | |
Ray et al. | Deep learning based underwater image enhancement using deep convolution neural network | |
Hui et al. | WSA-YOLO: Weak-supervised and Adaptive object detection in the low-light environment for YOLOV7 | |
US11869230B2 (en) | Joint forecasting of feature and feature motion | |
Peng et al. | End-to-End Anti-Attack Iris Location Based on Lightweight Network | |
Hoang et al. | Human Density Estimation by Exploiting Deep Spatial Contextual Information | |
CN115984583B (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 | |
Schiabel et al. | Convolutional Neural Networks of Density Maps for Crowd Counting | |
Lin et al. | Segformer-Mobilenetv3 fusion coordinate attention mechanism: A lite portrait segmentation network | |
Zhang | Low Light Image Enhancement and Saliency Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |