CN113673420B - 一种基于全局特征感知的目标检测方法及系统 - Google Patents

一种基于全局特征感知的目标检测方法及系统 Download PDF

Info

Publication number
CN113673420B
CN113673420B CN202110954164.8A CN202110954164A CN113673420B CN 113673420 B CN113673420 B CN 113673420B CN 202110954164 A CN202110954164 A CN 202110954164A CN 113673420 B CN113673420 B CN 113673420B
Authority
CN
China
Prior art keywords
image
module
feature
global
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110954164.8A
Other languages
English (en)
Other versions
CN113673420A (zh
Inventor
张新钰
王力
李骏
曾维佳
刘伟
杨磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110954164.8A priority Critical patent/CN113673420B/zh
Publication of CN113673420A publication Critical patent/CN113673420A/zh
Application granted granted Critical
Publication of CN113673420B publication Critical patent/CN113673420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全局特征感知的目标检测方法及系统,所述方法包括:实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络。本发明的方法可以提升检测精度并有效增强目标检测的泛化性能。

Description

一种基于全局特征感知的目标检测方法及系统
技术领域
本发明涉及自动驾驶领域,具体涉及一种基于全局特征感知的目标检测方法及系统。
背景技术
在交通拥堵的大城市,车主出行过程中往往需要花费大量时间来寻找可用停车位,在自动驾驶时代,实现代客泊车的前提也在于实时获取停车位的状态信息,从而进一步实现路径规划。基于计算机视觉的方法可以实现对停车场的车位进行检测,相比于基于地磁传感器的方法,优势在于成本低,几个摄像头就可以覆盖整个停车场,并且可以在现有的监控摄像头上进行升级,摄像头将拍摄到的画面进行处理后直接将车位信息反馈给车辆,进一步降低了成本。
国内外对于利用视觉检测停车位的方法已经有了一定研究,通常分为三种:
(1)对停车场图像做车辆检测,通过计算图像中车辆二维框与车位框的交并比来判断车位状况;
(2)对停车场车辆图像做语义分割,同样通过计算非背景点与车位的交并比来判断车位内有车无车。
这两种方法性能依赖于网络的检测或分割的准确度,对车位位置的检测存在一定误差。
(3)对摄像机拍摄到的停车场图像进行先验模板的标注,在系统运行时,根据先验模板对图像进行切割,每个切割图像只包含一个停车位,通过对分割后的停车位图像进行二分类(占用或者空闲)以完成对车位状况的检测。这种方案让网络只需要关注分割后的图像,避免了网络被停车位以外的图像分散注意力,相比前两种方案,这种方案降低了网络任务难度,从而拥有更高的精度。
目前来看,基于先验模板的停车场检测方法有两个共同特点:1)使用浅层网络避免过拟合;2)使用空洞卷积或者加大池化层步数以提高网络的感受野。然而浅层的网络降低了模型的学习能力,让模型只能学习到浅层特征,容易在停车位图像或车辆颜色较为复杂的情况下产生误检,并且较大的池化层步数会带来大量的信息损失,这进一步降低了模型的检测性能。
发明内容
针对上述问题,本发明提出了一种基于全局特征感知的目标检测方法,该方法基于设计的全局感知特征提取器GPFE(Global Perception Feature Extractor),可以有效提升网络对高维特征的学习能力,以及对图像全局特征(如光照、亮度等)的感知能力。在现有网络中添加该模块并在公开数据集上进行实验可以验证该方法的有效性。
为实现上述目的,本发明的实施例1提供了一种基于全局特征感知的目标检测方法,所述方法包括:
实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;
将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;
所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;
所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;
所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;
所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;
所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;
所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。
进一步的,所述图像切分模块的具体实现过程为:
将原始监控图像
Figure BDA0003219771010000021
切分为图像块pi,(H,W)表示原始监控图像的分辨率,C为图像的通道数,
Figure BDA0003219771010000022
其中S2表示图像块大小,N表示图像块的数量并且
Figure BDA0003219771010000023
将图像块pi铺展成一维向量后使用全连接层FC(·)对该图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)为:
Emb(i)=FC(Flatten(pi))+Lpi
其中,Flatten(pi)为将图像块pi铺展成一维向量;Lpi为一个可学习的变量,以表征图像块的位置编码信息;
将线性嵌入序列[Emb(0),Emb(1),…,Emb(N)]输出至Transfomer编码器。
进一步的,所述Transfomer编码器由L个块堆叠而成,每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元;
对于第l个块,其输入向量为yl-1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),…,Emb(N)];上一个块的输出为下一个块的输入;
第一层归一化单元对输入向量yl-1进行层归一化处理得到向量X=LN(yl-1);
多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SAm为:
Figure BDA0003219771010000031
其中,
Figure BDA0003219771010000032
Figure BDA0003219771010000033
均代表线性转换矩阵,
Figure BDA0003219771010000034
代表第m个单头的矩阵
Figure BDA0003219771010000035
的维度;
将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵WO得到多头自注意力模块的输出MHA(X):
MHA(X)=Concat[SA1,…,SAM]Wo
第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y′l
y′l=MHA(X)+yl-1
第二层归一化单元,用于对y′l进行层归一化处理得到向量LN(y′l);
多层感知机,用于对向量LN(y′l)进行处理,输出处理结果:MLP(LN(y′l))
第二加法单元,用于将多层感知机的输出与y′l进行相加:
yl=MLP(LN(y′l))+y′l
则第l个块的输出为yl,第L个块的输出yL为Transfomer编码器的输出。
进一步的,所述上采样和通道压缩模块包括多个堆叠的块,每个块均包含一个线性插值单元以及两个卷积层;第一个块输入的特征图为yL;上一个块的输出为下一个块的输入;最后一个块的输出为所述上采样和通道压缩模块的输出;
线性插值单元,用于将输入的特征图分辨率扩大两倍;
两个卷积层,用于将线性插值单元输出的特征图的通道数减少一半,完成对信息的压缩。
进一步的,所述特征重标定模块包括:拼接单元、权重计算单元和加权单元;
所述拼接单元:用于将上采样和通道压缩模块输出的特征图与原始监控图像进行拼接,输出拼接后的特征图;
所述权重计算单元,用于采用注意力机制,通过全局平均池化函数对拼接后的特征图的空间维度进行特征压缩,获取全局的感受;然后通过线性转换函数为每个特征通道计算一个权重;
所述加权单元,用于将经过特征选择后的权重通过乘法加权到拼接后的特征图上,从而完成特征图的重标定,将重标定后的特征图输入分类网络。
进一步的,所述方法还包括:对全局感知特征提取器进行训练的步骤。
本发明的实施例2提供了一种基于全局特征感知的目标检测系统,所述系统包括:预先训练好的全局感知特征提取器、数据采集模块和检测模块
所述数据采集模块,用于实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;
所述检测模块,用于将原始监控图像输入所述全局感知特征提取器,输出检测结果;
所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;
所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;
所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;
所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;
所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;
所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。
本发明的优势在于:
1、本发明的目标检测方法基于全局特征感知,通过提升模型的全局感受以应对目标检测复杂的情况,如光照变化、遮挡状况,将该模块的输出向量输入到分类网络当中可实现对目标状态的判断;
2、本发明的方法可以提升检测精度并有效增强目标检测的泛化性能。
附图说明
图1为本发明提出的用于对切割后的停车位图片进行特征提取的全局感知特征提取器的示意图。
具体实施方式
下面将结合说明书附图和实施例对本发明所述的全局特征提取模块做进一步的解释和说明,然而该解释和说明并不对本发明的技术方案构成不当限定。对于本发明的一些实施例,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
实施例1
本发明的实施例1提出了一种基于全局特征感知的目标检测方法,在本实施例中,目标位停车场的车位,检测结果是空闲或占用;该方法包括:
步骤1)建立并训练全局感知特征提取器GPFE;
图1所示为本发明的全局感知特征提取器GPFE的结构图,由于车位检测会因为车身反光以及车身颜色等影响因素导致模型误检。因此使用全局特征提取模块提升模型对图片整体特征的感知能力,进而提升模型的准确率以及环境的适用性。
全局感知特征提取器GPFE对输入该模块中的图像进行切割,形成一个个固定大小的图像块,并将位置嵌入添加到图像块中以保留位置信息,位置编码可以通过学习的方式获得,这些小块的线性嵌入序列作为下一步Transformer编码器的输入。使用Transformer编码器进行特征提取,提升模型的全局感知能力。通过上采样以及卷积层来扩大特征图的分辨率以及实现通道压缩,之后与原图像进行拼接避免信息损失。通过学习的方式自动获取到每个特征通道的重要程度,利用注意力机制完成对融合特征的通道进行权重分配,避免注意力分散,再将提取到的特征图送入分类网络中。
全局感知特征提取器GPFE具体实现方式如下:
图像切分(Image Slicing)模块:将车位图像
Figure BDA0003219771010000051
切分为图像块pi,(H,W)表示车位图像的分辨率,C为图像的通道数,
Figure BDA0003219771010000061
其中S2表示图像块大小,N表示图像块的数量并且
Figure BDA0003219771010000062
将图像块pi铺展成一维向量后使用全连接层FC(·)对图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)满足以下公式:
Emb(i)=FC(Flatten(pi))+Lpi
其中,Flatten(pi)为将图像块pi铺展成一维向量;为了让每个图像块pi能够感受到与其他图像块的相对位置关系,该部分在对图像块嵌入信息的过程中加上一个可学习的变量Lpi,以表征图像块的位置编码信息。
将线性嵌入序列[Emb(0),Emb(1),…,Emb(N)]输出至Transfomer编码器。
Transfomer编码器:由L个块重复堆叠而成,每个块包含第一层归一化单元、多头自注意力模块MHA(Multi-Head self-Attention)、第一加法单元、第二层归一化单元、多层感知机(MLP,Multi-layer Perception)和第二加法单元;
对于第l个块,其输入向量为yl-1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),…,Emb(N)];上一个块的输出为下一个块的输入;
第一层归一化单元对输入向量yl-1进行层归一化处理得到向量X=LN(yl-1);
多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SAm为:
Figure BDA0003219771010000063
其中,
Figure BDA0003219771010000064
Figure BDA0003219771010000065
均代表线性转换矩阵,
Figure BDA0003219771010000066
代表第m个单头的矩阵
Figure BDA0003219771010000067
的维度;
将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵WO得到多头自注意力模块的输出MHA(X):
MHA(X)=Concat[SA1,…,SAM]Wo
第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y′l
y′l=MHA(X)+yl-1
第二层归一化单元,用于对y′l进行层归一化处理得到向量LN(y′l);
多层感知机,用于对向量LN(y′l)进行处理,输出处理结果:MLP(LN(y′l))
第二加法单元,用于将多层感知机的输出与y′l进行相加:
yl=MLP(LN(y′l))+y′l
则第l个块的输出为yl,第L个块的输出yL为Transfomer编码器的输出。
则第l个块的输出为yl,作为第l+1个块的输入,第L个块的输出yL为Transfomer编码器的输出。
上采样和通道压缩(UpSamper and Channel compress)模块:包括多个堆叠的块,每个块均包含一个线性插值单元以及两个卷积层;第一个块输入的特征图为yL;上一个块的输出为下一个块的输入;最后一个块的输出为所述上采样和通道压缩模块的输出;
线性插值单元,用于将输入的特征图分辨率扩大两倍;
两个卷积层,用于将线性插值单元输出的特征图的通道数减少一半,完成对信息的压缩,避免模型对多余信息产生注意力分散。
特征重标定(Feature Recalibration)模块:为了避免信息损失,将上采样和通道压缩模块输出的特征图与车位图像进行拼接,同样为了避免增加的信息会分散模型注意力,采用注意力机制SE(Squeeze and Excitation),通过全局平均池化函数Fsq(·)对空间维度进行特征压缩,获取全局的感受。接着通过线性转换函数Fex(·)为每个特征通道计算一个权重,最后依据特征通道的重要程度,将经过特征选择后的权重通过乘法加权到先前的特征上,从而完成特征的重标定。
该模块包括:拼接单元、权重计算单元和加权单元;
拼接单元:用于将上采样和通道压缩模块输出的特征图与车位的RGB图像进行拼接,输出拼接后的特征;
权重计算单元,用于采用注意力机制SE(Squeeze and Excitation),通过Fsq(·)对空间维度进行特征压缩,获取全局的感受;接着通过Fex(·)为每个特征通道计算一个权重;
加权单元,用于将经过特征选择后的权重通过乘法加权到拼接后的特征上,从而完成特征的重标定,将重标定后的特征输入分类网络;
分类网络:用于对特征重标定模块输出的特征进行车位检测,输出检测结果:空闲0或占用1。
本发明提出的全局感知特征提取器GPFE是一种通用特征提取模块,通过将提取后的特征图传给分类网络以完成分类任务,分类网络的选择多样化,比如轻量化网络ShuffleNet、MobileNet等,GPFE侧重于对图像全局特征进行提取,通过比较在GPFE后添加不同的分类网络可以验证模块的通用性和有效性。
全局感知特征提取器GPFE使用图像切分将一张图片转换成多个词嵌入向量满足Transformer的输入要求。使用Transformer编码器进行特征提取,利用其自注意力机制对每两个向量计算相关度从而拥有整张图片的感受,进一步提升模型对图像整体特征的感受能力。通过上采样扩大特征图的分辨率并且使用卷积神经网络完成对特征图的压缩,并与原图像进行拼接减少信息损失。使用注意力机制SE,通过对每个通道进行特征编码并且回归每个通道的重要程度,让模型更关注携带信息量多的通道,避免注意力分散。实验表明各种模型加上全局感知特征提取器GPFE后能够提升模型对亮度、光照的感知能力,提升模型的泛化性能。
需要说明的是该网络的搭建、训练、测试的硬件和软件平台为Ubuntu16.04+RTX3090+pytorch1.7+cuda11.1+python3.7。
步骤2)实时获取相机采集的RGB图像,对该图像进行切割,获取车位图像;
步骤3)将车位图像输入训练好的全局感知特征提取器GPFE,输出检测结果。
实施例2
本发明的实施例2提供了一种基于全局特征感知的目标检测系统,该系统包括:预先训练好的全局感知特征提取器、数据采集模块和检测模块
数据采集模块,用于实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;
检测模块,用于将原始监控图像输入全局感知特征提取器,输出检测结果;
全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;
图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;
Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;
上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;
特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;
分类网络:用于对加权后的特征图进行目标检测,输出检测结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于全局特征感知的目标检测方法,所述方法包括:
实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;
将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;
所述全局感知特征提取器包括:图像切分模块、Transfor mer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;
所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;
所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;
所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;
所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;
所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。
2.根据权利要求1所述的基于全局特征感知的目标检测方法,其特征在于,所述图像切分模块的具体实现过程为:
将原始监控图像
Figure FDA0003219769000000011
切分为图像块pi,(H,W)表示原始监控图像的分辨率,C为图像的通道数,
Figure FDA0003219769000000012
其中S2表示图像块大小,N表示图像块的数量并且
Figure FDA0003219769000000013
将图像块pi铺展成一维向量后使用全连接层FC(·)对该图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)为:
Emb(i)=FC(Flatten(pi))+Lpi
其中,Flatten(pi)为将图像块pi铺展成一维向量;Lpi为一个可学习的变量,以表征图像块的位置编码信息;
将线性嵌入序列[Emb(0),Emb(1),…,Emb(N)]输出至Transfor mer编码器。
3.根据权利要求2所述的基于全局特征感知的目标检测方法,其特征在于,所述Transfor mer编码器由L个块堆叠而成,每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元;
对于第l个块,其输入向量为yl-1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),…,Emb(N)];上一个块的输出为下一个块的输入;
第一层归一化单元对输入向量yl-1进行层归一化处理得到向量X=LN(yl-1);
多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SAm为:
Figure FDA0003219769000000021
其中,
Figure FDA0003219769000000022
Figure FDA0003219769000000023
均代表线性转换矩阵,
Figure FDA0003219769000000024
代表第m个单头的矩阵
Figure FDA0003219769000000025
的维度;
将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵WO得到多头自注意力模块的输出MHA(X):
MHA(X)=Concat[SA1,…,SAM]Wo
第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y′l
y′l=MHA(X)+yl-1
第二层归一化单元,用于对y′l进行层归一化处理得到向量LN(y′l);
多层感知机,用于对向量LN(y′l)进行处理,输出处理结果:MLP(LN(y′l))
第二加法单元,用于将多层感知机的输出与y′l进行相加:
yl=MLP(LN(y′l))+y′l
则第l个块的输出为yl,第L个块的输出yL为Transfor mer编码器的输出。
4.根据权利要求3所述的基于全局特征感知的目标检测方法,其特征在于,所述上采样和通道压缩模块包括多个堆叠的块,每个块均包含一个线性插值单元以及两个卷积层;第一个块输入的特征图为yL;上一个块的输出为下一个块的输入;最后一个块的输出为所述上采样和通道压缩模块的输出;
线性插值单元,用于将输入的特征图分辨率扩大两倍;
两个卷积层,用于将线性插值单元输出的特征图的通道数减少一半,完成对信息的压缩。
5.根据权利要求4所述的基于全局特征感知的目标检测方法,其特征在于,所述特征重标定模块包括:拼接单元、权重计算单元和加权单元;
所述拼接单元:用于将上采样和通道压缩模块输出的特征图与原始监控图像进行拼接,输出拼接后的特征图;
所述权重计算单元,用于采用注意力机制,通过全局平均池化函数对拼接后的特征图的空间维度进行特征压缩,获取全局的感受;然后通过线性转换函数为每个特征通道计算一个权重;
所述加权单元,用于将经过特征选择后的权重通过乘法加权到拼接后的特征图上,从而完成特征图的重标定,将重标定后的特征图输入分类网络。
6.根据权利要求5所述的基于全局特征感知的目标检测方法,其特征在于,所述方法还包括:对全局感知特征提取器进行训练的步骤。
7.一种基于全局特征感知的目标检测系统,其特征在于,所述系统包括:预先训练好的全局感知特征提取器、数据采集模块和检测模块
所述数据采集模块,用于实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;
所述检测模块,用于将原始监控图像输入所述全局感知特征提取器,输出检测结果;
所述全局感知特征提取器包括:图像切分模块、Transfor mer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;
所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;
所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;
所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;
所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;
所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。
CN202110954164.8A 2021-08-19 2021-08-19 一种基于全局特征感知的目标检测方法及系统 Active CN113673420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954164.8A CN113673420B (zh) 2021-08-19 2021-08-19 一种基于全局特征感知的目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954164.8A CN113673420B (zh) 2021-08-19 2021-08-19 一种基于全局特征感知的目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN113673420A CN113673420A (zh) 2021-11-19
CN113673420B true CN113673420B (zh) 2022-02-15

Family

ID=78543909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954164.8A Active CN113673420B (zh) 2021-08-19 2021-08-19 一种基于全局特征感知的目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN113673420B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113951834A (zh) * 2021-11-30 2022-01-21 湖南应超智能计算研究院有限责任公司 基于视觉Transformer算法的阿尔兹海默症分类预测方法
CN114038067B (zh) * 2022-01-07 2022-04-22 深圳市海清视讯科技有限公司 煤矿人员行为检测方法、设备及存储介质
CN114187293B (zh) * 2022-02-15 2022-06-03 四川大学 基于注意力机制和集成配准的口腔腭部软硬组织分割方法
CN114267180B (zh) * 2022-03-03 2022-05-31 科大天工智能装备技术(天津)有限公司 一种基于计算机视觉的停车管理方法及系统
CN114630125B (zh) * 2022-03-23 2023-10-27 徐州百事利电动车业有限公司 基于人工智能与大数据的车辆图像压缩方法与系统
CN114723760B (zh) * 2022-05-19 2022-08-23 北京世纪好未来教育科技有限公司 人像分割模型的训练方法、装置及人像分割方法、装置
CN115240078B (zh) * 2022-06-24 2024-05-07 安徽大学 一种基于轻量化元学习的sar图像小样本目标检测方法
CN115223019B (zh) * 2022-07-14 2023-05-19 清华大学 一种基于相机与激光雷达融合的全天时停车位检测方法
CN116664730B (zh) * 2023-06-14 2024-08-30 北京百度网讯科技有限公司 感知模型的生成方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555469A (zh) * 2019-08-15 2019-12-10 阿里巴巴集团控股有限公司 处理交互序列数据的方法及装置
CN112801146A (zh) * 2021-01-13 2021-05-14 华中科技大学 一种目标检测方法及系统
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113139470A (zh) * 2021-04-25 2021-07-20 安徽工业大学 一种基于Transformer的玻璃识别方法
CN113191953A (zh) * 2021-06-04 2021-07-30 山东财经大学 一种基于Transformer的人脸图像超分辨的方法
CN113239981A (zh) * 2021-04-23 2021-08-10 中国科学院大学 局部特征耦合全局表征的图像分类方法
CN113255824A (zh) * 2021-06-15 2021-08-13 京东数科海益信息科技有限公司 训练分类模型和数据分类的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555469A (zh) * 2019-08-15 2019-12-10 阿里巴巴集团控股有限公司 处理交互序列数据的方法及装置
CN112801146A (zh) * 2021-01-13 2021-05-14 华中科技大学 一种目标检测方法及系统
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113239981A (zh) * 2021-04-23 2021-08-10 中国科学院大学 局部特征耦合全局表征的图像分类方法
CN113139470A (zh) * 2021-04-25 2021-07-20 安徽工业大学 一种基于Transformer的玻璃识别方法
CN113191953A (zh) * 2021-06-04 2021-07-30 山东财经大学 一种基于Transformer的人脸图像超分辨的方法
CN113255824A (zh) * 2021-06-15 2021-08-13 京东数科海益信息科技有限公司 训练分类模型和数据分类的方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A lightweight multi-scale feature integration network for real-time single image super-resolution;Zheng He等;《Journal of Real-Time Image Processing》;20210627;第18卷(第4期);第1221-1234页 *
End-to-end Contextual Perception and Prediction with Interaction Transformer;Lingyun Lu等;《2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)》;20210210;第5784-5791页 *
基于Transformer目标检测研究综述;尹航等;《现代信息科技》;20210410;第5卷(第7期);第14-17页 *
基于全局感知机制的地面红外目标检测方法;赵晓枫等;《系统工程与电子技术》;20210702;第1-10页 *
面向自动驾驶目标检测的深度多模态融合技术;张新钰等;《智能系统学报》;20200731;第15卷(第4期);第758-771页 *

Also Published As

Publication number Publication date
CN113673420A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113673420B (zh) 一种基于全局特征感知的目标检测方法及系统
CN112069868A (zh) 一种基于卷积神经网络的无人机实时车辆检测方法
CN111079640B (zh) 一种基于自动扩增样本的车型识别方法及系统
CN112257572B (zh) 一种基于自我注意力机制的行为识别方法
CN113095152A (zh) 一种基于回归的车道线检测方法及系统
CN113052200A (zh) 一种基于yolov3网络的声呐图像目标检测方法
CN111931683B (zh) 图像识别方法、装置及计算机可读存储介质
CN116030074A (zh) 一种道路病害的识别方法、重识别方法及相关设备
CN112819748B (zh) 一种带钢表面缺陷识别模型的训练方法及装置
CN109961013A (zh) 车道线的识别方法、装置、设备及计算机可读存储介质
CN115273032A (zh) 交通标志识别方法、装置、设备及介质
CN113487530A (zh) 一种基于深度学习的红外与可见光融合成像方法
CN109492610A (zh) 一种行人重识别方法、装置及可读存储介质
CN117218434A (zh) 基于混合神经网络的混凝土结构表面缺陷分类方法与系统
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN114842447A (zh) 一种基于卷积神经网络的车位快速识别方法
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN112053407A (zh) 一种交通执法影像中基于ai技术的车道线自动检测方法
CN115988260A (zh) 一种图像处理方法、装置及电子设备
CN111783683A (zh) 一种基于特征平衡和关系增强的人体检测方法
CN118397403B (zh) 低照度车辆图像检测模型的训练方法、装置、设备及介质
CN115272814B (zh) 一种远距离空间自适应多尺度的小目标检测方法
CN116993756B (zh) 一种大田棉花黄萎病病斑分割方法
CN117557783A (zh) 一种应用于复杂交通场景的实时目标检测系统及方法
CN117670833A (zh) 一种三维车道线检测方法、系统、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant