CN113673444B - 一种基于角点池化的路口多视角目标检测方法及系统 - Google Patents
一种基于角点池化的路口多视角目标检测方法及系统 Download PDFInfo
- Publication number
- CN113673444B CN113673444B CN202110971811.6A CN202110971811A CN113673444B CN 113673444 B CN113673444 B CN 113673444B CN 202110971811 A CN202110971811 A CN 202110971811A CN 113673444 B CN113673444 B CN 113673444B
- Authority
- CN
- China
- Prior art keywords
- pooling
- view
- corner
- feature
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 184
- 238000001514 detection method Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 22
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于角点池化的路口多视角目标检测方法及系统,所述方法包括:对实时采集的路口多视角相机的图像进行预处理;将预处理后的多视角相机的图像输入预先建立和训练好的路口多视角目标检测模型,输出目标预测结果;其中,所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征进行特征投影、特征融合和角点池化,通过角点池化处理后的地平面矩形特征图预测目标位置,同时将提取的特征进行单视角检测和结果投影,通过单视角目标位置映射图对目标位置进行校正,输出目标预测结果。
Description
技术领域
本发明属于目标检测领域,具体涉及一种基于角点池化的路口多视角目标检测方法及系统。
背景技术
随着无人驾驶和智慧城市的飞速发展,单传感器的车辆检测技术已经相对成熟,然而,在交通状况复杂的路口中,车辆拥堵造成的密集检测难度大、体积庞大的车辆造成的遮挡问题、单传感器的不确定性等因素严重制约了车辆检测的精度,在复杂的路口中也存在安全隐患。随着多视角检测方法的引入,路口车辆在拥挤或遮挡场景下的检测性能已经得到显著的提升,这对无人驾驶的安全性有极大的促进作用。然而,基于多视角的车辆检测方法往往伴随着多传感器数据的融合,将多视角数据整合到一起实现车辆检测可以通过多视角结果级融合和多视角特征级融合,但它们分别存在以下问题:
1、多视角结果级融合:每一个视角的数据都需要一个独立的计算单元,不可避免地带来了计算资源的大量开销。将所有视角的检测结果投影到一起时,由于透视变换的误差及图像拼接时边缘的畸变,处于视角重叠区域的目标在不同视角中的结果往往会不一致,这将导致车辆检测结果的“重影”现象,给无人驾驶的决策带来很大的不确定性。
2、多视角特征级融合:多视角数据提取特征后在一个独立的计算单元上完成所有的计算过程,以减少计算冗余。但特征融合只能减少计算量,并没有从本质上改善“重影”现象,而是将两个重影检测为一个较大的目标,这也会对最后的决策造成干扰。
发明内容
本发明的目的在于克服上述技术缺陷,提出了一种基于角点池化的路口多视角目标检测方法,该方法通过对多视角数据特征进行角点池化,增强目标车辆的角点信息,从而在保证没有冗余计算开销的同时,达到减轻甚至消除“重影”现象的目的。此外,基于角点池化的路口多视角车辆检测由于增强了车辆特征的角点信息,有效地提高了检测精度和模型的鲁棒性。
为实现上述目的,本发明提出了一种基于角点池化的路口多视角目标检测方法,所述方法包括:
对实时采集的路口多视角相机的图像进行预处理;
将预处理后的多视角相机的图像输入预先建立和训练好的路口多视角目标检测模型,输出目标预测结果;其中,所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征进行特征投影、特征融合和角点池化,通过角点池化处理后的地平面矩形特征图预测目标位置,同时将提取的特征进行单视角检测和结果投影,通过单视角目标位置映射图对目标位置进行校正,输出目标预测结果。
进一步的,所述路口多视角目标检测模型包括:特征提取模块、多视角特征投影模块、特征融合模块、特征图角点池化模块、单视角检测模块和预测模块;
所述特征提取模块,用于对多个视角相机的图像进行特征提取,得到多个视角的特征图;
所述多视角特征投影模块,用于利用每个相机的标定文件,基于透视变换将多个视角的特征图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;
所述特征融合模块,用于将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图,其中,N为相机的个数,C为每个相机的图像提取出的特征通道数;
所述特征图角点池化模块,用于对地平面矩形特征图进行角点池化处理,输出角点池化处理后的地平面矩形特征图;
所述单视角检测模块,用于对每个视角的特征图分别进行角点池化处理,得到多个单视角目标检测结果,然后将多个单视角目标检测结果投影到一个鸟瞰图平面上,输出单视角目标位置映射图;
所述预测模块,用于利用角点池化处理后的地平面矩形特征图预测目标位置,再利用单视角目标位置映射图的单视角检测结果对目标位置进行校正,输出目标预测结果。
进一步的,所述特征提取模块使用ResNet50网络,包括:一个用于降维的1x1卷积层、一个3x3卷积层和一个恢复维度的1x1卷积层。
进一步的,述多视角特征投影模块的具体实现过程为:
将每个视角的特征图投影到一个鸟瞰图平面上:
其中,s是一个实数比例因子,u和v为投影前的坐标,x、y、z为投影后的坐标;A为3×3的相机固有参数矩阵;[R|t]为3×4联合旋转-平移矩阵,其中R表示旋转,t表示平移;对于每个相机标定文件,将地平面位置量化成大小为H*W的网格,其中H和W为最终生成鸟瞰图的长度和宽度;根据透视变换将图像投影到地平面z=0,视野之外的地平面位置用零填充。
进一步的,所述特征图角点池化模块的具体实现过程为:
将融合后的地平面矩形特征图复制3份,对4个相同的地平面矩形特征图的所有特征向量分别进行向左、向右、向上和向下的最大池化;
其中,在对某一方向的池化过程中,首先设置所有特征向量边缘第一个特征值为最大值,若往后的特征值比该最大值小,则将小的特征值进行最大池化,若遇到更大的特征值,则替换最大值,并用新的最大值继续往后池化,直到该方向的特征向量池化完毕;
将向左池化和向上池化的最大池化结果相加,相加的结果为左上角角点池化;
将向右池化和向下池化的最大池化结果相加,相加的结果为右下角角点池化;
将左上角角点池化与右下角角点池化结果级联,作为角点池化处理后的地平面矩形特征图。
进一步的,所述单视角检测模块包括:单视角特征图点池化单元和单视角检测单元;
所述单视角特征图点池化单元:用于对所有视角的特征图进行分别进行左上角角点池化和右下角角点池化,输出至单视角检测单元;
其中,对于每一个池化向量,角点池化方式为对某一方向的最大池化,对最大池化采用自适应衰减优化,衰减公式如下:
其中,w为执行自适应衰减的角点池化后特征值的大小,λ为衰减系数,step表示距离当前的最大特征值距离,w0是当前的最大特征值;
所述单视角检测单元;对单视角特征图点池化单元的输出结果分别进行单视角目标检测,将多个单视角目标检测结果依据投影变换公式投影到一张鸟瞰图上,形成单视角目标位置映射图。
进一步的,所述方法还包括:对所述路口多视角目标检测模型进行训练的步骤,具体包括:
建立用于训练模型的数据集;数据集包括:标签文件集、图像数据集和标定文件集,标签文件集包括多个json文件,图像文件集包括多个预处理后的RGB图像,json文件和RGB图像是一一对应的,标定文件集包括每个路口相机的内参文件、外参文件及相对地平面的标定文件;
在所述路口多视角目标检测模型,每一个角点池化特征层中有多个目标的角点池化结果,为了将目标的各个角点池化结果在不同角点池化特征层中建立联系,使用Pull损失函数对池化结果分组,每个目标的左上角角点和右下角角点为一组;由于每个特征层存在独立性,使用Push损失函数将角点分离;
Pull损失函数如下:
Push损失函数如下:
在单视角的特征图的角点池化中,将左上角角点池化和右下角角点池化的结果作为一组角点,并在网络的训练中将它们作为一维的嵌入向量加入训练;
设定模型训练的编码器和解码器的尺寸大小、批处理数量、训练轮次数和各轮的学习率,将数据集输入所述路口多视角目标检测模型,对模型进行训练,获得训练好的路口多视角目标检测模型。
本发明还提出了一种基于角点池化的路口多视角目标检测系统,所述系统包括:路口多视角目标检测模型、数据预处理模块和目标检测模块,
所述数据预处理模块:用于对实时采集的路口多视角相机的图像进行预处理;
所述目标检测模块,用于将预处理后的多视角相机数据输入路口多视角目标检测模型,输出目标预测结果;所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征输入一路进行特征投影、特征融合和角点池化,通过角点池化处理后的地平面矩形特征图预测目标位置,将提取的特征输入另一路进行单视角检测和结果投影,通过单视角目标位置映射图对目标位置进行校正,输出目标预测结果。
与现有的技术相比,本发明的优势包括:
1、本发明的方法不需要额外的后处理操作,在保证实时性的前提下,可以准确地完成多视角目标检测的工作;
2、本发明提出的基于角点池化的检测方法,能大幅度提高路口多视角目标检测的精度,从算法层次较好地解决“重影”现象;
3、本发明针对路口可能存在的拥堵或目标车辆繁多的现象,对角点池化进行改进,用激活值衰减的角点池化方式来提高路口拥挤或目标车辆过多的精测精度。
附图说明
为了更清楚的说明本发明,下面将对本发明中所需要使用的附图简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本发明的一些实施例,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的角点池化示意图,其中表示的为左上角池化;
图2为本发明的基于角点池化的路口多视角目标检测方法的流程图;
图3为本发明方法的仿真示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例以及相应的附图对本申请技术方案进行清楚、完整地描述。应当理解,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义:
多视角相机:是指放置在路口的多个单目相机,分布在路侧,多视角相机的总视场角能覆盖整个路口。
多视角图像:是指通过多视角相机采集得到的彩色图像,为三通道图像。
Label:表示用于目标检测神经网络监督训练的标签,对多视角图像的每个目标的类别和位置进行了标注。
本发明的实施例1提出了一种基于角点池化的路口多视角目标检测方法,其中目标为车辆,具体实施步骤如下:
步骤1)建立并训练路口多视角目标检测模型;
步骤101)建立路口多视角目标检测模型;
路口多视角目标检测模型包括:特征提取模块、多视角特征投影模块、特征融合模块、特征图角点池化模块、单视角检测模块和预测模块;
特征提取模块,用于对多视角图像进行特征提取;
使用ResNet50作为路口多视角车辆检测模型的backbone来对每个视角的图像提取特征,在使用中,考虑到路口多视角检测的轻量化和实时性需求,对ResNet50采用“bottleneck design”,将两个3x3的卷积层替换为1x1+3x3+1x1卷积层,中间3x3的卷积层首先通过一个1x1卷积层降维减少了计算,然后在另一个1x1的卷积层下做了还原,既保持了精度又减少了计算量。第一个1x1的卷积把256维通道降到64维,然后在最后通过1x1卷积恢复。最终降低了参数的数目,获得更轻量化的路口多视角目标检测模型。
多视角特征投影模块:
利用多相机的标定文件和透视变换原理将每个视角的特征图投影到一个鸟瞰图平面上,变换过程为:
其中,s是一个实数比例因子,u和v为投影前的坐标,x、y、z为投影后的坐标;Pθ是3×4角度变换矩阵。A为3×3的固有参数矩阵。[R|t]为3×4联合旋转-平移矩阵,即外参文件中的外部参数矩阵,其中R表示旋转,t表示平移。对于相机n∈{1、…,N}与标定文件,我们通过自定义的采样网格形状[H,W]根据透视变换将图像投影到地平面z=0。视野之外的地平面位置用零填充。将n个相机的特征图依据透视变换公式依次投影。
特征融合模块:
将地平面位置量化成大小为H*W的网格,其中H和W指定最终生成鸟瞰图的长度和宽度。此外,用一个2通道的坐标图来指定地平面位置的X-Y坐标。将多视角特征投影模块输出的n个相机的投影特征图级联,并加上来自2通道的坐标特征图,得到一个(N×C+2)通道地平面矩形特征地图,也是该路口下的鸟瞰图特征图,其形状为[H,W],C为每个相机的图像提取出的特征通道数。
特征图角点池化模块:
在目标检测中,边界框的角点通常位于目标的外部,在这种情况下,角点无法根据目标的局部特征或边缘特征进行定位。从眼睛观察目标的角度看,为了确定在某一个像素位置处是否存在目标检测框的左上角角点,需要水平地向右看目标的最顶部边界,并且垂直地向下看目标的最左边边界,在这里,把这种观察方式应用到多视角投影后融合特征图的操作中。
把融合后的特征图复制3份,分别进行向左、向右、向上、向下的最大池化所有的特征向量,具体操作为,在对某一方向的池化过程中,首先设置所有特征向量边缘第一个特征值为最大值,若往后的特征值比该最大值小,则将小的特征值进行最大池化,若遇到更大的特征值,则替换最大值,并用新的最大值继续往后池化,直到该方向的特征向量池化完毕。
对角点池化的结果,将向左池化和向上池化的池化结果相加,所得结果为左上角角点池化,向右池化和向下池化的池化结果相加,所得结果为右下角角点池化。图1展示了左上角角点池化过程的示意图。将左上角角点池化与右下角角点池化结果级联,作为多视角投影后融合特征图的输出。
单视角检测模块包括:单视角特征图点池化单元和单视角检测单元;
单视角特征图点池化单元:
单视角检测所用的特征图来自特征提取模块中多视角特征提取后的共享特征。为了更精确地提取路口下的车辆特征,对单视角特征图同样采用角点池化:
把每个单视角的特征图复制3份,分别进行向左、向右、向上、向下的最大池化所有的特征向量;将向左池化和向上池化的池化结果相加,所得结果为左上角角点池化,向右池化和向下池化的池化结果相加,所得结果为右下角角点池化。
进一步的,对角点池化方式进行了自适应衰减优化。上述角点池化中,对于每一个池化向量,角点池化方式为对某一方向的最大池化。上述池化方式提升了对目标角点的检测,但对于多个目标可能造成特征混淆,因此对最大池化采用自适应衰减优化,防止当前目标的最大池化值对两个目标间的空隙造成干扰,衰减公式如下:
其中,w为执行自适应衰减的角点池化后特征值的大小,λ为衰减系数,step表示距离当前的最大特征值距离,w0是当前的最大特征值。研究表明,该自适应衰减的角点池化不仅保持了对路口下多视角车辆的检测性能,也有效减少了车间空隙的误检测和检测误差。
单视角检测单元;对单视角特征图的点池化单元输出结果进行单视角检测,将单视角检测结果依据投影变换公式投影到鸟瞰图,作为路口多视角目标检测的一部分监督信息,目的是为了辅助更好地获得路口下车辆的位置分布信息,进一步提高检测性能。
预测模块,用于利用的输出对路口下的车辆位置信息进行预测,同时利用单视角检测单元的检测结果对位置信息校正,最后输出当前路口下多视角图像投影到鸟瞰图的车辆位置的准确信息。
步骤102)训练路口多视角车辆检测模型;
建立用于训练模型的数据集;数据集包括:标签文件集、图像数据集和标定文件集,标签文件集包括多个json文件,图像文件集包括多个RGB图像,json文件和RGB图像是一一对应的,标定文件集包括每个数据采集相机的内参、外参文件及相对地平面的标定文件;
将三通道RGB图像进行预处理;作为神经网络模型的输入;
在路口多视角目标检测模型的训练过程中,每一个角点池化特征层中有多个目标的角点池化结果,为了将目标的各个角点池化结果在不同角点池化特征层中建立联系,使用Pull损失函数对池化结果分组,每个目标的左上角角点和右下角角点为一组;由于每个特征层存在独立性,使用Push损失函数将角点分离;
Pull损失函数如下:
Push损失函数如下:
与多视角的融合特征图的角点池化不同,在单视角的特征图的角点池化中,将左上角角点池化和右下角角点池化的结果作为一组角点,并在网络的训练中将它们作为一维的嵌入向量加入训练。
设定路口多视角目标检测模型训练的编码器和解码器的尺寸大小、批处理数量、训练轮次数和各轮的学习率,对模型进行训练,获得路口多视角目标检测模型。
步骤2)对实时采集的多视角相机原始数据进行预处理,包括白化、去噪等操作;
步骤3)如图2所示,将预处理后的多视角相机数据输入训练好的路口多视角目标检测模型,首先进行特征提取、将提取的特征进行特征投影、特征融合和角点池化,输出车辆位置信息,同时进行单视角检测和结果投影,输出校正信息,对车辆位置信息进行校正,输出准确的车辆位置预测结果。
利用本发明的方法进行多视角相机数据的车辆位置预测,如图3所示。
实施例2
本发明的实施例2提出了一种基于角点池化的路口多视角目标检测系统,包括:训练好的路口多视角目标检测模型、数据预处理模块和目标检测模块,
数据预处理模块:用于对实时采集的路口多视角相机的图像进行预处理;
目标检测模块,用于将预处理后的多视角相机数据输入路口多视角目标检测模型,输出目标预测结果;其中,多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征输入一路进行特征投影、特征融合和角点池化,通过角点池化处理后的地平面矩形特征图预测目标位置,将提取的特征输入另一路进行单视角检测和结果投影,通过单视角目标位置映射图对目标位置进行校正,输出目标预测结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于角点池化的路口多视角目标检测方法,所述方法包括:
对实时采集的路口多视角相机的图像进行预处理;
将预处理后的多视角相机的图像输入预先建立和训练好的路口多视角目标检测模型,输出目标预测结果;其中,所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征进行特征投影、特征融合和角点池化,通过角点池化处理后的地平面矩形特征图预测目标位置,同时将提取的特征进行单视角检测和结果投影,通过单视角目标位置映射图对目标位置进行校正,输出目标预测结果;
所述路口多视角目标检测模型包括:特征提取模块、多视角特征投影模块、特征融合模块、特征图角点池化模块、单视角检测模块和预测模块;
所述特征提取模块,用于对多个视角相机的图像进行特征提取,得到多个视角的特征图;
所述多视角特征投影模块,用于利用每个相机的标定文件,基于透视变换将多个视角的特征图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;
所述特征融合模块,用于将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图,其中,N为相机的个数,C为每个相机的图像提取出的特征通道数;
所述特征图角点池化模块,用于对地平面矩形特征图进行角点池化处理,输出角点池化处理后的地平面矩形特征图;
所述单视角检测模块,用于对每个视角的特征图分别进行角点池化处理,得到多个单视角目标检测结果,然后将多个单视角目标检测结果投影到一个鸟瞰图平面上,输出单视角目标位置映射图;
所述预测模块,用于利用角点池化处理后的地平面矩形特征图预测目标位置,再利用单视角目标位置映射图的单视角检测结果对目标位置进行校正,输出目标预测结果;
所述特征图角点池化模块的具体实现过程为:
将融合后的地平面矩形特征图复制3份,对4个相同的地平面矩形特征图的所有特征向量分别进行向左、向右、向上和向下的最大池化;
其中,在对某一方向的池化过程中,首先设置所有特征向量边缘第一个特征值为最大值,若往后的特征值比该最大值小,则将小的特征值进行最大池化,若遇到更大的特征值,则替换最大值,并用新的最大值继续往后池化,直到该方向的特征向量池化完毕;
将向左池化和向上池化的最大池化结果相加,相加的结果为左上角角点池化;
将向右池化和向下池化的最大池化结果相加,相加的结果为右下角角点池化;
将左上角角点池化与右下角角点池化结果级联,作为角点池化处理后的地平面矩形特征图。
2.根据权利要求1所述的基于角点池化的路口多视角目标检测方法,其特征在于,所述特征提取模块使用ResNet50网络,包括:一个用于降维的1x1卷积层、一个3x3卷积层和一个恢复维度的1x1卷积层。
4.根据权利要求1所述的基于角点池化的路口多视角目标检测方法,其特征在于,所述单视角检测模块包括:单视角特征图点池化单元和单视角检测单元;
所述单视角特征图点池化单元:用于对所有视角的特征图进行分别进行左上角角点池化和右下角角点池化,输出至单视角检测单元;
其中,对于每一个池化向量,角点池化方式为对某一方向的最大池化,对最大池化采用自适应衰减优化,衰减公式如下:
其中,w为执行自适应衰减的角点池化后特征值的大小,λ为衰减系数,step表示距离当前的最大特征值距离,w0是当前的最大特征值;
所述单视角检测单元;对单视角特征图点池化单元的输出结果分别进行单视角目标检测,将多个单视角目标检测结果依据投影变换公式投影到一张鸟瞰图上,形成单视角目标位置映射图。
5.根据权利要求1所述的基于角点池化的路口多视角目标检测方法,其特征在于,所述方法还包括:对所述路口多视角目标检测模型进行训练的步骤,具体包括:
建立用于训练模型的数据集;数据集包括:标签文件集、图像数据集和标定文件集,标签文件集包括多个json文件,图像文件集包括多个预处理后的RGB图像,json文件和RGB图像是一一对应的,标定文件集包括每个路口相机的内参文件、外参文件及相对地平面的标定文件;
在所述路口多视角目标检测模型,每一个角点池化特征层中有多个目标的角点池化结果,为了将目标的各个角点池化结果在不同角点池化特征层中建立联系,使用Pull损失函数对池化结果分组,每个目标的左上角角点和右下角角点为一组;由于每个特征层存在独立性,使用Push损失函数将角点分离;
Pull损失函数Lpull如下:
Push损失函数Lpush如下:
在单视角的特征图的角点池化中,将左上角角点池化和右下角角点池化的结果作为一组角点,并在网络的训练中将它们作为一维的嵌入向量加入训练;
设定模型训练的编码器和解码器的尺寸大小、批处理数量、训练轮次数和各轮的学习率,将数据集输入所述路口多视角目标检测模型,对模型进行训练,获得训练好的路口多视角目标检测模型。
6.一种基于角点池化的路口多视角目标检测系统,其特征在于,所述系统包括:路口多视角目标检测模型、数据预处理模块和目标检测模块,
所述数据预处理模块:用于对实时采集的路口多视角相机的图像进行预处理;
所述目标检测模块,用于将预处理后的多视角相机数据输入路口多视角目标检测模型,输出目标预测结果;所述多视角目标检测模型用于提取预处理后的多视角相机的图像的特征、将提取的特征输入一路进行特征投影、特征融合和角点池化,通过角点池化处理后的地平面矩形特征图预测目标位置,将提取的特征输入另一路进行单视角检测和结果投影,通过单视角目标位置映射图对目标位置进行校正,输出目标预测结果;
所述路口多视角目标检测模型包括:特征提取模块、多视角特征投影模块、特征融合模块、特征图角点池化模块、单视角检测模块和预测模块;
所述特征提取模块,用于对多个视角相机的图像进行特征提取,得到多个视角的特征图;
所述多视角特征投影模块,用于利用每个相机的标定文件,基于透视变换将多个视角的特征图投影到一个鸟瞰图平面上,得到多个相机的级联投影特征图;
所述特征融合模块,用于将多个相机的级联投影特征图与2通道的相机坐标特征图进行融合,输出一个(N×C+2)通道的地平面矩形特征图,其中,N为相机的个数,C为每个相机的图像提取出的特征通道数;
所述特征图角点池化模块,用于对地平面矩形特征图进行角点池化处理,输出角点池化处理后的地平面矩形特征图;
所述单视角检测模块,用于对每个视角的特征图分别进行角点池化处理,得到多个单视角目标检测结果,然后将多个单视角目标检测结果投影到一个鸟瞰图平面上,输出单视角目标位置映射图;
所述预测模块,用于利用角点池化处理后的地平面矩形特征图预测目标位置,再利用单视角目标位置映射图的单视角检测结果对目标位置进行校正,输出目标预测结果;
所述特征图角点池化模块的具体实现过程为:
将融合后的地平面矩形特征图复制3份,对4个相同的地平面矩形特征图的所有特征向量分别进行向左、向右、向上和向下的最大池化;
其中,在对某一方向的池化过程中,首先设置所有特征向量边缘第一个特征值为最大值,若往后的特征值比该最大值小,则将小的特征值进行最大池化,若遇到更大的特征值,则替换最大值,并用新的最大值继续往后池化,直到该方向的特征向量池化完毕;
将向左池化和向上池化的最大池化结果相加,相加的结果为左上角角点池化;
将向右池化和向下池化的最大池化结果相加,相加的结果为右下角角点池化;
将左上角角点池化与右下角角点池化结果级联,作为角点池化处理后的地平面矩形特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110971811.6A CN113673444B (zh) | 2021-08-19 | 2021-08-19 | 一种基于角点池化的路口多视角目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110971811.6A CN113673444B (zh) | 2021-08-19 | 2021-08-19 | 一种基于角点池化的路口多视角目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673444A CN113673444A (zh) | 2021-11-19 |
CN113673444B true CN113673444B (zh) | 2022-03-11 |
Family
ID=78545259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110971811.6A Active CN113673444B (zh) | 2021-08-19 | 2021-08-19 | 一种基于角点池化的路口多视角目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673444B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898585B (zh) * | 2022-04-20 | 2023-04-14 | 清华大学 | 基于路口多视角的车辆轨迹预测规划方法及系统 |
CN114821506A (zh) * | 2022-05-11 | 2022-07-29 | 北京地平线机器人技术研发有限公司 | 多视角语义分割方法、装置、电子设备和存储介质 |
CN115049820A (zh) * | 2022-05-11 | 2022-09-13 | 北京地平线机器人技术研发有限公司 | 遮挡区域的确定方法、装置和分割模型的训练方法 |
CN114757301A (zh) * | 2022-05-12 | 2022-07-15 | 北京地平线机器人技术研发有限公司 | 车载视觉感知方法和装置、可读存储介质、电子设备 |
CN114913329A (zh) * | 2022-05-18 | 2022-08-16 | 北京地平线机器人技术研发有限公司 | 一种图像处理方法、语义分割网络的训练方法及装置 |
CN114913506A (zh) * | 2022-05-18 | 2022-08-16 | 北京地平线机器人技术研发有限公司 | 一种基于多视角融合的3d目标检测方法及装置 |
CN115578702B (zh) * | 2022-09-26 | 2023-12-05 | 北京百度网讯科技有限公司 | 道路元素的提取方法、装置、电子设备、存储介质及车辆 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177247A (zh) * | 2013-04-09 | 2013-06-26 | 天津大学 | 一种融合多视角信息的目标检测方法 |
CN111429514A (zh) * | 2020-03-11 | 2020-07-17 | 浙江大学 | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729620B (zh) * | 2013-12-12 | 2017-11-03 | 北京大学 | 一种基于多视角贝叶斯网络的多视角行人检测方法 |
US10540545B2 (en) * | 2017-11-22 | 2020-01-21 | Intel Corporation | Age classification of humans based on image depth and human pose |
US10452959B1 (en) * | 2018-07-20 | 2019-10-22 | Synapse Tehnology Corporation | Multi-perspective detection of objects |
CN111222387B (zh) * | 2018-11-27 | 2023-03-03 | 北京嘀嘀无限科技发展有限公司 | 对象检测的系统和方法 |
CN110363815A (zh) * | 2019-05-05 | 2019-10-22 | 东南大学 | 一种单视角点云下基于实例分割的机器人抓取检测方法 |
CN110084222B (zh) * | 2019-05-08 | 2022-10-21 | 大连海事大学 | 一种基于多目标角点池化神经网络的车辆检测方法 |
CN110246141B (zh) * | 2019-06-13 | 2022-10-21 | 大连海事大学 | 一种基于联合角点池化的复杂交通场景下车辆图像分割方法 |
CN111523553B (zh) * | 2020-04-03 | 2023-04-18 | 中国计量大学 | 一种基于相似度矩阵的中心点网络多目标检测方法 |
CN112329662B (zh) * | 2020-11-10 | 2024-05-10 | 西北工业大学 | 基于无监督学习的多视角显著性估计方法 |
CN112365581B (zh) * | 2020-11-17 | 2024-04-09 | 北京工业大学 | 一种基于rgb数据的单视角和多视角三维重建方法及装置 |
CN112488066B (zh) * | 2020-12-18 | 2024-09-06 | 航天时代飞鸿技术有限公司 | 一种无人机多机协同侦察下的目标实时检测方法 |
CN112581503B (zh) * | 2020-12-25 | 2022-11-11 | 清华大学 | 一种多视角下的多目标检测与跟踪方法 |
CN112966736B (zh) * | 2021-03-03 | 2022-11-11 | 北京航空航天大学 | 一种基于多视角匹配与局部特征融合的车辆再识别方法 |
CN113096058B (zh) * | 2021-04-23 | 2022-04-12 | 哈尔滨工业大学 | 空间目标多源数据参数化仿真与MixCenterNet融合检测方法 |
CN113673425B (zh) * | 2021-08-19 | 2022-03-15 | 清华大学 | 一种基于Transformer的多视角目标检测方法及系统 |
-
2021
- 2021-08-19 CN CN202110971811.6A patent/CN113673444B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177247A (zh) * | 2013-04-09 | 2013-06-26 | 天津大学 | 一种融合多视角信息的目标检测方法 |
CN111429514A (zh) * | 2020-03-11 | 2020-07-17 | 浙江大学 | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113673444A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673444B (zh) | 一种基于角点池化的路口多视角目标检测方法及系统 | |
CN115439424B (zh) | 一种无人机航拍视频图像智能检测方法 | |
CN111583337B (zh) | 一种基于多传感器融合的全方位障碍物检测方法 | |
CN109740465B (zh) | 一种基于实例分割神经网络框架的车道线检测算法 | |
CN109034018B (zh) | 一种基于双目视觉的低空小型无人机障碍物感知方法 | |
WO2022141910A1 (zh) | 一种基于行车安全风险场的车路激光雷达点云动态分割及融合方法 | |
CN109615611B (zh) | 一种基于巡检影像的绝缘子自爆缺陷检测方法 | |
CN111563415B (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
CN104848851B (zh) | 基于多传感器数据融合构图的变电站巡检机器人及其方法 | |
CN108694386B (zh) | 一种基于并联卷积神经网络的车道线检测方法 | |
CN108648194B (zh) | 基于cad模型三维目标识别分割和位姿测量方法及装置 | |
KR102677513B1 (ko) | 소실점 검출을 위한 학습 방법, 소실점 검출 방법 및 장치 | |
CN113158768B (zh) | 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法 | |
CN111914795A (zh) | 一种航拍图像中旋转目标检测方法 | |
CN111401150A (zh) | 一种基于实例分割和自适应变换算法的多车道线检测方法 | |
CN113129449B (zh) | 一种基于双目视觉的车辆路面特征识别及三维重建方法 | |
CN115019043B (zh) | 基于交叉注意力机制的图像点云融合三维目标检测方法 | |
CN114140672A (zh) | 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络系统及方法 | |
CN110009675A (zh) | 生成视差图的方法、装置、介质及设备 | |
CN116434088A (zh) | 基于无人机航拍图像的车道线检测及车道辅助保持方法 | |
CN114898353B (zh) | 一种基于视频序列图像特征与信息的车牌识别方法 | |
CN110415299B (zh) | 一种运动约束下基于设定路牌的车辆位置估计方法 | |
CN114372919B (zh) | 一种双挂汽车列车全景环视图像拼接方法及系统 | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN116912786A (zh) | 一种基于车路协同的智能网联汽车多模态融合检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |