CN113673425B - 一种基于Transformer的多视角目标检测方法及系统 - Google Patents

一种基于Transformer的多视角目标检测方法及系统 Download PDF

Info

Publication number
CN113673425B
CN113673425B CN202110957843.0A CN202110957843A CN113673425B CN 113673425 B CN113673425 B CN 113673425B CN 202110957843 A CN202110957843 A CN 202110957843A CN 113673425 B CN113673425 B CN 113673425B
Authority
CN
China
Prior art keywords
view
target detection
feature
model
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110957843.0A
Other languages
English (en)
Other versions
CN113673425A (zh
Inventor
张新钰
李志伟
李骏
高鑫
刘宇红
王力
杜浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110957843.0A priority Critical patent/CN113673425B/zh
Publication of CN113673425A publication Critical patent/CN113673425A/zh
Application granted granted Critical
Publication of CN113673425B publication Critical patent/CN113673425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于Transformer的多视角目标检测方法及系统,所述方法包括:利用多个相机同时采集多个视角的RGB图像并进行预处理;将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型,输出包含目标检测检测结果的鸟瞰图;所述多视角目标检测模型包括:特征提取模块、Transformer模型和投影模块;所述特征提取模块,用于提取每个视角的RGB图像的多尺度特征图,将多个视角的多尺度特征图输入Transformer模型;所述Transformer模型,用对输入的特征图的进行目标检测,输出bounding box;所述投影模块,用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图,与特征提取模块输出的多个视角的特征图进行融合,再经过投影变换和卷积后输出鸟瞰图。

Description

一种基于Transformer的多视角目标检测方法及系统
技术领域
本发明涉及目标检测领域,具体涉及一种基于Transformer的多视角目标检测方法及系统。
背景技术
对于遮挡情况下的行人检测,总结已有的相关工作,主要通过单视角检测的角度来解决遮挡问题。目前单视角检测方法的切入点有对目标候选框分成不同部分逐一处理、区别对待再加以特征融合,或是从损失的角度使得目标候选框对相互遮挡的情况更具判别性,通过设置损失函数的方式,使预测框和所负责的真实目标框的距离缩小,而使得其与周围非负责目标框(包含真实目标框和预测框)的距离加大以提高模型性能。
然而,这些方法往往都包含了多大量冗余的计算,对遮挡问题解决的并不完美。多视角检测往往包含多个方位的信息,每个方位的目标信息由不同的相机提供。目前聚合空间邻域的信息通常采用条件随机场,平均随机场推理。Transformer是由谷歌于2017年提出的具有里程碑意义的模型,同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础(RNN,LSTM等)。从本质上来讲,RNN是以串行的方式来处理数据,对应到NLP任务上,即按照句中词语的先后顺序,每一个时间步处理一个词语。相较于这种串行模式,Transformer的巨大创新便在于并行化的语言处理:文本中的所有词语都可以在同一时间进行分析,而不是按照序列先后顺序。为了支持这种并行化的处理方式,Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系,且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系,来决定应该对哪些词或短语赋予更多的注意力。
目前,有些学者开创性地将Transformer模型跨领域地引用到了计算机视觉任务中,并取得了不错地成果。这也被许多AI学者认为是开创了CV领域的新时代,甚至可能完全取代传统的卷积操作。DETR基于transformer框架,合并了set-based匈牙利算法,通过二分图匹配,强制每一个gt都有唯一的预测结果,让Encoder初始化的权重不再是统一分布,即不再与所有key计算相似度,而是与更有意义的key计算相似度,deformable convolution就是一种有效关注稀疏空间定位的方式随即提出deformable detr,融合deformable conv的稀疏空间采样与Transformer相关性建模能力。在整体特征图像素中,模型关注小序列的采样位置作为key。
发明内容
本发明的目的在于克服行人检测的遮挡问题,利用Transformer模型提出了一种新的多视角目标检测方法。
为实现上述目的,本发明的实施例1提出了一种基于Transformer的多视角目标检测方法,所述方法包括:
利用多个相机同时采集多个视角的RGB图像并进行预处理;
将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型,输出包含目标检测检测结果的鸟瞰图;所述多视角目标检测模型包括:特征提取模块、Transformer模型和投影模块;
所述特征提取模块,用于提取每个视角的RGB图像的多尺度特征图,将多个视角的多尺度特征图输入Transformer模型;
所述Transformer模型,用对输入的特征图的进行目标检测,输出bounding box;
所述投影模块,用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图,与特征提取模块输出的多个视角的特征图进行融合,再经过投影变换和卷积后输出鸟瞰图。
进一步的,所述特征提取模块包括:两个分支以及自适应平均池化和Relu层;第一个分支为Resnet网络,第二个分支由一个3x3的卷积层和一个1x1的卷积层组成,自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。
进一步的,所述Transformer模型包括六个编码器和六个解码器,dropout概率设置为0.1,激活函数设置为RELU,将预测bounding box数量设置为50。
进一步的,所述投影模块的具体实现过程包括:
对于Transformer模型输出的每个视角的特征图的50个bounding box,将每个bounding box的置信度分别与阈值比较,只保留置信度大于阈值的bounding box作为有效的bounding box;
对于每个视角的一个有效的bounding box,生成对应的高斯热图heat为:
Figure BDA0003219771840000031
其中,(x,y)为图像上的点坐标,(xm,ym)为第m个bounding box的中心点的坐标,M为有效bounding box的个数;sigma的值为10,r=4,代表中心点的辐射范围;
将每个视角的特征图与其生成的高斯热图进行融合,得到融合后的目标特征图;
利用每个相机的标定文件,基于透视变换将多个视角的融合后的目标特征图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图;
通过卷积层将(N×C+2)通道的地平面特征地图变成单通道的特征图。
进一步的,所述方法还包括:对多视角目标检测模型进行训练的步骤,具体包括:
建立训练集:利用亮度增强,高斯噪声和mixup方法在wildtrack数据集的基础上进行扩充,其中亮度增强参数设置为1.5,高斯噪声的均值设置为0,方差设置为0.005,mixup方法中原图透明度设置为0.4,混合图片透明度设置为0.6;
计算损失函数loss时,只保留二分图匹配算法的分类loss和回归loss,其中分类loss采用交叉熵函数,回归loss采用L1 loss。
本发明的实施例2提出了一种基于Transformer的多视角目标检测系统,所述系统包括:
多视角图像采集模块,用于利用多个相机同时采集多个视角的RGB图像并进行预处理;
目标检测模块,用于将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型,输出包含目标检测检测结果的鸟瞰图;所述多视角目标检测模型包括:特征提取模块、Transformer模型和投影模块;
所述特征提取模块,用于提取每个视角的RGB图像的多尺度特征图,将多个视角的多尺度特征图输入Transformer模型;
所述Transformer模型,用对输入的特征图的进行目标检测,输出bounding box;
所述投影模块,用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图,与特征提取模块输出的多个视角的特征图进行融合,再经过投影变换和卷积后输出鸟瞰图。
进一步的,所述特征提取模块包括:两个分支以及自适应平均池化和Relu层;第一个分支为Resnet网络,第二个分支由一个3x3的卷积层和一个1x1的卷积层组成,自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。
进一步的,所述Transformer模型包括六个编码器和六个解码器,dropout概率设置为0.1,激活函数设置为RELU,将预测bounding box数量设置为50。
进一步的,所述投影模块的具体实现过程包括:
对于Transformer模型输出的每个视角的特征图的50个bounding box,将每个bounding box的置信度分别与阈值比较,只保留置信度大于阈值的bounding box作为有效的bounding box;
对于每个视角的一个有效的bounding box,生成对应的高斯热图heat为:
Figure BDA0003219771840000041
其中,(x,y)为图像上的点坐标,(xm,ym)为第m个bounding box的中心点的坐标,M为有效bounding box的个数;sigma的值为10,r=4,代表中心点的辐射范围;
将每个视角的特征图与其生成的高斯热图进行融合,得到融合后的目标特征图;
利用每个相机的标定文件,基于透视变换将多个视角的融合后的目标特征图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图;
通过卷积层将(N×C+2)通道的地平面特征地图变成单通道的特征图。
与现有的技术相比,本发明的优势在于:
1、本发明的方法的Transformer模型不仅提升了原有模型的精度,并对后面计算鸟瞰图起到了作用;
2、本发明根据相机的内参数和外参数校准多角度图片投影到地面上的位置,在一定程度上避免了透视变换方法在距离很远时表现不佳的现象;
3、本发明采用大卷积核与接受场较大的卷积层结合,因此模型采用CNN模型和大卷积核的空间聚集方法,同时采用特征投影和通道级联的方法聚集多相机信息。
4、本发明的方法在模型的训练上首先对数据集进行扩充,避免了在代码上进行数据增强时多相机间RGB图像紊乱的可能;只保留了二分图匹配loss中的分类和回归loss,在极大程度上减少了模型计算的时间,使模型能更快收敛。
附图说明
图1为本发明的多视角目标检测模型整体结构图;
图2为本发明的最后生成的鸟瞰图与Ground Truth对比图。
具体实施方式:
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例以及相应的附图对本申请技术方案进行清楚、完整地描述。应当理解,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义:
多视角相机:是指放置在路口的多个单目相机,分布在路侧,多视角相机的总视场角能覆盖整个路口。
RGB图像:是指通过单目相机采集得到的彩色图像,为三通道图像。
Label:表示用于目标检测神经网络监督训练的类别标签,对彩色图像的每个目标的类别进行了标注。
本发明的实施例1提出了一种基于Transformer的多视角目标检测方法,在本实施例中,目标为行人,包括以下步骤:
步骤1)建立并训练多视角目标检测模型;具体包括:
步骤101)建立多视角目标检测模型;
如图1所示,多视角目标检测模型包括:特征提取模块、Transformer模型和投影模块;
特征提取模块,用于提取每个视角的RGB图像的多尺度特征图,将多个视角的特征图输入Transformer模型;
使其捕捉特征能力更强,本发明的特征提取模块包括:两个分支以及自适应平均池化和Relu层;第一个分支为Resnet网络,第二个分支由一个3x3的卷积层和一个1x1的卷积层组成,自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。
两个分支的结构能够更好的提取特征,让模型有更好的表现。因为第一层往往携带着数据更多的信息,因此模型在Resnet第一层后面加上融合结构,之后在网络最后一层前让其与特征图进行融合,因为分支结构的输出特征图与模型最后一层得到的特征图通道数不同,因此分支结构输出的特征图要经过额外的1x1卷积调整通道数。这里采用膨胀卷积,膨胀卷积可以在保持参数个数不变的情况下增大卷积核的感受野,在一定程度上也提高了模型的性能,两个分支的结构能够更好的提取特征,让模型有更好的表现。之后将得到的特征图送入Transformer模型。
Transformer模型,用对输入的特征图的进行目标检测,输出bounding box;模型包括六个编码器和六个解码器,对每一个输入向量query(单个视角的特征图),之前关注所有的空间位置(所有位置作为key),现在只关注更有意义的、网络认为更包含局部信息的位置(少且固定数量位置作为key),缓解特征图大带来大运算量的问题。实施过程中,特征图输入给一个线性映射,输出3MK个通道,M为检测头的个数,K为key的数量,前2MK个通道编码采样的offset,决定每一个query应该找哪些key,最后MK个通道,输出每一个key的贡献(重要性指标)(不再用k×q计算,直接输入q回归),且只对找到的keys的贡献进行归一化。将变性注意模块(deformable attention module)扩展为多尺度特征图,主要解小目标问题相当于单层版本的扩展,对于一个query,每一层采集K个点作为keys,转换成:对一个query,所有层均采K个点,融合了不同层的特征,故不需要FPN(feature pyramid networks,特征金字塔网络),这里正则化是针对一个query,所有LK个位置的贡献(回归得到)进行softmax。
首先将编码层和解码层数量设置为6,dropout概率设置为0.1,激活函数指定为RELU,将预测bounding box数量设置为50。将Transformer注意力应用于图像特征地图的核心问题是,它将查看所有可能的空间位置。为了解决这个问题,提出了一个可变形的注意力模块。受变形卷积的启发,变形注意模块只关注参考点周围的一小组关键采样点,无论特征图的空间大小如何。通过为每个查询分配少量固定数量的键,可以缓解收敛和特征空间分辨率的问题。
给定一个输入特征映射x,让q索引一个包含内容特征zq和一个二维参考点pq的查询元素,通过计算变形注意力特征
Figure BDA0003219771840000071
其中m是注意头,k是采样键,k是总采样键值(k<<HW)。Δpmqk和Amqk分别表示第m个注意头中第k个采样点的采样偏移量和注意权重。标量注意力权值Amqk在[0,1]范围内,经
Figure BDA0003219771840000072
归一化。pq+Δpmqk为分数阶,在计算x(pq+Δpmqk)时采用双线性插值。Δpmqk和Amqk都是通过在查询特征zq上的线性投影得到的。
引入了多尺度可变形注意力机制。设
Figure BDA0003219771840000073
为输入的多尺度特征映射。设
Figure BDA0003219771840000074
为每个查询元素q的参考点的归一化坐标,则应用多尺度变形注意模块为
Figure BDA0003219771840000075
其中m表示注意头,l表示输入特征级别,k表示采样点。Δpmlqk和Amlqk分别表示第1个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重。标量注意权中Amlqk被归一化为
Figure BDA0003219771840000076
使用归一化坐标
Figure BDA0003219771840000077
来清晰地表述尺度,其中归一化坐标(0,0)和(1,1)分别表示图像的左上角和右下角。上述函数中的
Figure BDA0003219771840000078
将归一化坐标
Figure BDA0003219771840000079
重新缩放到第l级的输入特征映射。多尺度形变注意与之前的单尺度形变注意非常相似,不同之处在于它从多尺度特征图中抽取LK点,而不是从单尺度特征图中抽取K点。
投影模块,用于利用Transformer模型输出的结果细化特征,以Transformer模型预测的bounding box的中点为中心生成一个高斯热图,与特征提取模块输出的多个视角的特征图进行融合,再经过投影变换和卷积后得到鸟瞰图;具体包括:
步骤S1)对于Transformer模型输出的每个视角的特征图的50个bounding box,将每个bounding box的置信度与阈值(0.3)比较,只保留置信度大于0.3的bounding box作为有效的bounding box;
步骤S2)对于每个视角的一个有效的bounding box,生成对应的高斯热图heat为:
Figure BDA00032197718400000710
其中,(x,y)为图像上的点坐标,(xm,ym)为第m个bounding box的中心点的坐标,M为有效bounding box的个数;sigma的值为10,r=4,代表中心点的辐射范围;
步骤S3)将每个视角的特征图与其生成的高斯热图进行融合,得到融合后的目标图;
步骤S4)利用每个相机的标定文件,基于透视变换将多个视角的融合后的目标图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图
利用数据集中相机的内外参数,根据相应的摄像机标定θ(1)…θ(N),利用透视变换投影N个特征图,得到N个形状特征图[C,Hg,Wg]。对于每个地平面位置,将其X-Y坐标存储在一个2通道坐标地图中。通过将N个投影的地形图与坐标图连接起来,聚合了此时整个场景的地平面地形图(形状为[N×C+2,Hg,Wg])。最后,在地平面特征地图上应用大的核卷积,从而聚合空间邻居信息,进行最终的占用决策。相机内参数是与相机自身特性相关的参数,比如相机的焦距、像素大小等;相机外参数是在世界坐标系中的参数,比如相机的位置、旋转方向等。
图像中的一个点(像素)位于3D世界中的一条线上。为了确定图像像素的精确3D位置,考虑一个共同的参考框架:地平面z=0。对于这个地平面上的所有3D位置(x,y,0),逐点变换可以写成
Figure BDA0003219771840000081
这里s是一个实数比例因子,Pθ是3×4角度变换矩阵。A为3×3的固有参数矩阵。[R|t]为3×4联合旋转-平移矩阵,即外部参数矩阵,其中R表示旋转,t表示平移。
将多个相机的级联投影特征图与2通道的相机坐标特将地平面位置量化成形状为[Hg,Wg]的网格,其中Hg和Wg指定接地网的高度和宽度。对于相机n∈{1、…,N}与校准θ(N),可以通过自定义的采样网格形状[Hg,Wg],根据公式2投影图像到地平面z=0,其余(视野之外的)地平面位置用零填充。来自N个摄像机的投影C通道特征地图,连接一个2通道坐标图来指定地平面位置的X-Y坐标,得到一个(N×C+2)通道的地平面特征地图,其形状为[Hg,Wg]。
步骤S5)再通过卷积层将(N×C+2)通道的地平面特征地图变成单通道的特征图,以用于可视化;
步骤102)训练多视角目标检测模型;
步骤102-1)建立训练集;
对图像设置label,将其设置成只含box的格式,方便后续操作。
由于数据集的局限性,我们利用亮度增强,高斯噪声,mixup方法在wildtrack数据集的基础上进行扩充,其中亮度增强参数设置为1.5,高斯噪声的均值设置为0,方差设置为0.005,mixup方法中原图透明度设置为0.4,混合图片透明度设置为0.6。
步骤102-2)计算loss时,只保留二分图匹配算法的分类loss和回归loss,其中分类loss采用交叉熵函数,回归loss采用L1 loss。计算回归loss时将bounding box与GT box(Label中标注的框)一一对应,计算它们的总和。
计算loss时,将预测框的数量限制为50个,让二分图匹配计算回归loss和分类loss,因为行人检测只有一个类别,因此模型做分类时将类别只分为前景和后景。因为Transformer模型对数据集比较敏感,在大数据集上表现的更好一些,因此在原有数据集的基础上加了数据增强,使数据集扩充为原来的四倍,模型表现出了更好的效果。
步骤2)利用多个相机同时采集多个视角的RGB图像,输入训练好的多视角目标检测模型,输出鸟瞰图。
如图2所示,多视角目标检测模型预测生成的鸟瞰图与Ground Truth几乎吻合。
本发明的实施例2提出了一种基于Transformer的多视角目标检测系统,系统包括:
多视角图像采集模块,用于利用多个相机同时采集多个视角的RGB图像并进行预处理;
目标检测模块,用于将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型,输出包含目标检测检测结果的鸟瞰图;多视角目标检测模型包括:特征提取模块、Transformer模型和投影模块;
特征提取模块,用于提取每个视角的RGB图像的多尺度特征图,将多个视角的多尺度特征图输入Transformer模型;
Transformer模型,用对输入的特征图的进行目标检测,输出bounding box;
投影模块,用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图,与特征提取模块输出的多个视角的特征图进行融合,再经过投影变换和卷积后输出鸟瞰图。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于Transformer的多视角目标检测方法,所述方法包括:
利用多个相机同时采集多个视角的RGB图像并进行预处理;
将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型,输出包含目标检测检测结果的鸟瞰图;所述多视角目标检测模型包括:特征提取模块、Transformer模型和投影模块;
所述特征提取模块,用于提取每个视角的RGB图像的多尺度特征图,将多个视角的多尺度特征图输入Transformer模型;
所述Transformer模型,用对输入的特征图的进行目标检测,输出bounding box;
所述投影模块,用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图,与特征提取模块输出的多个视角的特征图进行融合,再经过投影变换和卷积后输出鸟瞰图;
所述特征提取模块包括:两个分支以及自适应平均池化和Relu层;第一个分支为Resnet网络,第二个分支由一个3x3的卷积层和一个1x1的卷积层组成,自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。
2.根据权利要求1所述的基于Transformer的多视角目标检测方法,其特征在于,所述Transformer模型包括六个编码器和六个解码器,dropout概率设置为0.1,激活函数设置为RELU,将预测bounding box数量设置为50。
3.根据权利要求2所述的基于Transformer的多视角目标检测方法,其特征在于,所述投影模块的具体实现过程包括:
对于Transformer模型输出的每个视角的特征图的50个bounding box,将每个bounding box的置信度分别与阈值比较,只保留置信度大于阈值的bounding box作为有效的bounding box;
对于每个视角的一个有效的bounding box,生成对应的高斯热图heat为:
Figure FDA0003481039230000011
其中,(x,y)为图像上的点坐标,(xm,ym)为第m个bounding box的中心点的坐标,M为有效bounding box的个数;sigma的值为10,r=4,代表中心点的辐射范围;
将每个视角的特征图与其生成的高斯热图进行融合,得到融合后的目标特征图;
利用每个相机的标定文件,基于透视变换将多个视角的融合后的目标特征图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图;N为相机的个数,C为一个相机的投影通道数;
通过卷积层将(N×C+2)通道的地平面特征地图变成单通道的特征图。
4.根据权利要求1所述的基于Transformer的多视角目标检测方法,其特征在于,所述方法还包括:对多视角目标检测模型进行训练的步骤,具体包括:
建立训练集:利用亮度增强,高斯噪声和mixup方法在wildtrack数据集的基础上进行扩充,其中亮度增强参数设置为1.5,高斯噪声的均值设置为0,方差设置为0.005,mixup方法中原图透明度设置为0.4,混合图片透明度设置为0.6;
计算损失函数loss时,只保留二分图匹配算法的分类loss和回归loss,其中分类loss采用交叉熵函数,回归loss采用L1 loss。
5.一种基于Transformer的多视角目标检测系统,其特征在于,所述系统包括:
多视角图像采集模块,用于利用多个相机同时采集多个视角的RGB图像并进行预处理;
目标检测模块,用于将预处理后的多个视角的RGB图像输入训练好的多视角目标检测模型,输出包含目标检测检测结果的鸟瞰图;所述多视角目标检测模型包括:特征提取模块、Transformer模型和投影模块;
所述特征提取模块,用于提取每个视角的RGB图像的多尺度特征图,将多个视角的多尺度特征图输入Transformer模型;
所述Transformer模型,用对输入的特征图的进行目标检测,输出bounding box;
所述投影模块,用于以Transformer模型预测的bounding box的中点为中心生成一个高斯热图,与特征提取模块输出的多个视角的特征图进行融合,再经过投影变换和卷积后输出鸟瞰图;
所述特征提取模块包括:两个分支以及自适应平均池化和Relu层;第一个分支为Resnet网络,第二个分支由一个3x3的卷积层和一个1x1的卷积层组成,自适应平均池化和Relu层对第一分支和第二分支输出的特征图进行融合。
6.根据权利要求5所述的基于Transformer的多视角目标检测系统,其特征在于,所述Transformer模型包括六个编码器和六个解码器,dropout概率设置为0.1,激活函数设置为RELU,将预测bounding box数量设置为50。
7.根据权利要求6所述的基于Transformer的多视角目标检测系统,其特征在于,所述投影模块的具体实现过程包括:
对于Transformer模型输出的每个视角的特征图的50个bounding box,将每个bounding box的置信度分别与阈值比较,只保留置信度大于阈值的bounding box作为有效的bounding box;
对于每个视角的一个有效的bounding box,生成对应的高斯热图heat为:
Figure FDA0003481039230000031
其中,(x,y)为图像上的点坐标,(xm,ym)为第m个bounding box的中心点的坐标,M为有效bounding box的个数;sigma的值为10,r=4,代表中心点的辐射范围;
将每个视角的特征图与其生成的高斯热图进行融合,得到融合后的目标特征图;
利用每个相机的标定文件,基于透视变换将多个视角的融合后的目标特征图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图;N为相机的个数,C为一个相机的投影通道数;
通过卷积层将(N×C+2)通道的地平面特征地图变成单通道的特征图。
CN202110957843.0A 2021-08-19 2021-08-19 一种基于Transformer的多视角目标检测方法及系统 Active CN113673425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110957843.0A CN113673425B (zh) 2021-08-19 2021-08-19 一种基于Transformer的多视角目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110957843.0A CN113673425B (zh) 2021-08-19 2021-08-19 一种基于Transformer的多视角目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN113673425A CN113673425A (zh) 2021-11-19
CN113673425B true CN113673425B (zh) 2022-03-15

Family

ID=78544445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110957843.0A Active CN113673425B (zh) 2021-08-19 2021-08-19 一种基于Transformer的多视角目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN113673425B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673444B (zh) * 2021-08-19 2022-03-11 清华大学 一种基于角点池化的路口多视角目标检测方法及系统
CN114202696B (zh) * 2021-12-15 2023-01-24 安徽大学 基于上下文视觉的sar目标检测方法、装置和存储介质
CN114419568A (zh) * 2022-01-18 2022-04-29 东北大学 一种基于特征融合的多视角行人检测方法
CN114219901B (zh) * 2022-02-22 2022-06-10 松立控股集团股份有限公司 基于投影一致性和孪生Transformer的三维底盘投影方法
CN114821099A (zh) * 2022-04-10 2022-07-29 复旦大学 基于Transformer的多视角3D姿态估计系统
CN114782865B (zh) * 2022-04-20 2023-04-14 清华大学 一种基于多视角和重识别的路口车辆定位方法及系统
CN114898585B (zh) * 2022-04-20 2023-04-14 清华大学 基于路口多视角的车辆轨迹预测规划方法及系统
CN114913506A (zh) * 2022-05-18 2022-08-16 北京地平线机器人技术研发有限公司 一种基于多视角融合的3d目标检测方法及装置
CN114792315B (zh) * 2022-06-22 2022-10-11 浙江太美医疗科技股份有限公司 医学图像视觉模型训练方法和装置、电子设备和存储介质
CN115457084A (zh) * 2022-09-13 2022-12-09 上海高德威智能交通系统有限公司 一种多相机目标检测跟踪方法、装置
CN115578702B (zh) * 2022-09-26 2023-12-05 北京百度网讯科技有限公司 道路元素的提取方法、装置、电子设备、存储介质及车辆
CN115866229B (zh) * 2023-02-14 2023-05-05 北京百度网讯科技有限公司 多视角图像的视角转换方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120000455A (ko) * 2010-06-25 2012-01-02 손완재 입체 영상 생성 방법 및 장치
CN109829421A (zh) * 2019-01-29 2019-05-31 西安邮电大学 车辆检测的方法、装置及计算机可读存储介质
CN111259940A (zh) * 2020-01-10 2020-06-09 杭州电子科技大学 一种基于空间注意力地图的目标检测方法
CN112036555A (zh) * 2020-11-05 2020-12-04 北京亮亮视野科技有限公司 目标检测框架的优化方法及装置、存储介质、电子设备
CN112837356A (zh) * 2021-02-06 2021-05-25 湖南大学 一种基于wgan的无监督多视角三维点云联合配准方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8553781B2 (en) * 2007-12-07 2013-10-08 Thomson Licensing Methods and apparatus for decoded picture buffer (DPB) management in single loop decoding for multi-view video
WO2020071703A1 (ko) * 2018-10-01 2020-04-09 엘지전자 주식회사 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및/또는 포인트 클라우드 데이터 수신 방법
CN109711437A (zh) * 2018-12-06 2019-05-03 武汉三江中电科技有限责任公司 一种基于yolo网络模型的变压器部件识别方法
US20200402307A1 (en) * 2019-06-21 2020-12-24 Ashish Tanwer System and method for camera based cloth fitting and recommendation
CN110263774B (zh) * 2019-08-19 2019-11-22 珠海亿智电子科技有限公司 一种人脸检测方法
CN112347895A (zh) * 2020-11-02 2021-02-09 北京观微科技有限公司 一种基于边界优化神经网络的舰船遥感目标检测方法
CN113222916B (zh) * 2021-04-28 2023-08-18 北京百度网讯科技有限公司 采用目标检测模型检测图像的方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120000455A (ko) * 2010-06-25 2012-01-02 손완재 입체 영상 생성 방법 및 장치
CN109829421A (zh) * 2019-01-29 2019-05-31 西安邮电大学 车辆检测的方法、装置及计算机可读存储介质
CN111259940A (zh) * 2020-01-10 2020-06-09 杭州电子科技大学 一种基于空间注意力地图的目标检测方法
CN112036555A (zh) * 2020-11-05 2020-12-04 北京亮亮视野科技有限公司 目标检测框架的优化方法及装置、存储介质、电子设备
CN112837356A (zh) * 2021-02-06 2021-05-25 湖南大学 一种基于wgan的无监督多视角三维点云联合配准方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Learning RoI Transformer for Oriented Object Detection in Aerial Images;Jian Ding 等;《CVF》;20181201;2849-2858 *
Multiview Detection with Shadow Transformer;Yunzhong Hu等;《arXiv》;20210812;1-9 *
Spatial Transformer Networks;Max Jaderberg 等;《Advances in Neural Information Processing Systems》;20151231;1-9 *
基于3D激光雷达的地面目标检测方法与应用;曹伟豪;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210215(第(2021)02期);I136-1398 *

Also Published As

Publication number Publication date
CN113673425A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113673425B (zh) 一种基于Transformer的多视角目标检测方法及系统
CN114842028B (zh) 一种跨视频目标跟踪方法、系统、电子设备以及存储介质
CN113609896B (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN110728200A (zh) 一种基于深度学习的实时行人检测方法及系统
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN115496928A (zh) 基于多重特征匹配的多模态图像特征匹配方法
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
Zhou et al. Graph attention guidance network with knowledge distillation for semantic segmentation of remote sensing images
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
Wu et al. PV-RCNN++: semantical point-voxel feature interaction for 3D object detection
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
Huang et al. Overview of LiDAR point cloud target detection methods based on deep learning
Liangjun et al. MSFA-YOLO: A Multi-Scale SAR Ship Detection Algorithm Based on Fused Attention
Shen et al. BSH-Det3D: improving 3D object detection with BEV shape heatmap
Zhang et al. Review of Machine-Learning Approaches for Object and Component Detection in Space Electro-optical Satellites
Uskenbayeva et al. Contour analysis of external images
Hoang et al. TSSTDet: Transformation-based 3-D Object Detection via a Spatial Shape Transformer
CN116051872A (zh) 一种跨光谱图像的特征点匹配方法
Tan et al. 3D detection transformer: Set prediction of objects using point clouds
CN115546594A (zh) 一种基于激光雷达和相机数据融合的实时目标检测方法
Tiwari et al. Low-light DEtection TRansformer (LDETR): object detection in low-light and adverse weather conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant