CN117037120B - 一种基于时序选择的目标感知方法及装置 - Google Patents
一种基于时序选择的目标感知方法及装置 Download PDFInfo
- Publication number
- CN117037120B CN117037120B CN202311299185.6A CN202311299185A CN117037120B CN 117037120 B CN117037120 B CN 117037120B CN 202311299185 A CN202311299185 A CN 202311299185A CN 117037120 B CN117037120 B CN 117037120B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- time sequence
- cloud data
- target
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008447 perception Effects 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 230000009466 transformation Effects 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 17
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 230000000295 complement effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 5
- 230000004927 fusion Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Optical Radar Systems And Details Thereof (AREA)
Abstract
本发明公开了一种基于时序选择的目标感知方法及装置,基于时序选择机制,判断时序点云数据的目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效的时序点云数据,并基于一个时序特征自学习网络单元,自适应的和当前点云特征互补融合,利用融合后的特征检测生成目标感知信息。本发明通过仿射变换矩阵将当前时刻和历史时序点云数据进行空间对齐,利用位置预测网络单元获取对齐后点云数据的带有目标初始位置信息的索引特征,并对高斯滤波后的索引特征采用局部最大值判断方式进一步生成目标掩码图。本发明利用有效时序特征互补,解决现有的感知方法不能连续准确检测出扫描不完整或缺失点云目标的问题,提升自动驾驶安全性能。
Description
技术领域
本发明涉及智能感知技术领域,尤其涉及一种基于时序选择的目标感知方法及装置。
背景技术
随着传感器性能的提升,越来越多的自动驾驶车辆通过安装传感器来实现障碍物目标的准确感知。在自动驾驶场景中,通过激光雷达点云数据进行感知,检测出包括机动车、非机动车、动物等障碍物目标的位置和类别,是自动驾驶利用传感器实现完全无人驾驶的重要技术手段。目前激光雷达是最常见的感知设备之一,可实现对障碍物目标的识别和定位,在面对复杂交通道路场景,由于可以准确获得障碍物目标的三维位置信息相比于其他传感器感知效率更高。但是由于激光雷达和障碍物目标往往均处于移动状态,使得帧与帧之间扫描的目标形态和点数有较大差异,导致有些帧能明显感知出目标,有些帧又无法感知出目标,现有的感知方法由于不能连续感知出目标的位置,造成目标行为预测难度较大,给自动驾驶带来安全隐患。
因此,针对目前的激光雷达感知方法不能连续准确感知出障碍物目标位置的问题,本发明提出一种基于时序选择的目标感知方法,选择有效的时序点云和当前点云进行特征互补融合,提高对扫描不完整或缺失点云障碍物目标的感知能力,提升自动驾驶安全性能。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于时序选择的目标感知方法及装置,利用空间对齐后的时序点云数据生成带有目标初始位置信息的索引特征和目标掩码图,选择有效的时序点云,并基于时序特征自学习网络单元融合时序点云特征,提高对障碍物目标尤其是稀疏或缺失点云障碍物目标的感知能力,为目标位置准确感知提供有效技术支撑。
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于时序选择的目标感知方法,该方法包括以下步骤:
步骤一:获取包含道路信息的当前时刻和N个历史时刻的激光雷达时序点云数据;
步骤二:将N个历史时刻的时序点云数据与当前时刻的点云数据进行空间对齐;
步骤三:对于空间对齐后的点云数据,提取点云中间特征并经过一个位置预测网络单元获取带有目标初始位置信息的索引特征,对索引特征进行高斯滤波后采用局部最大值判断方式生成点云数据的目标掩码图;
步骤四:利用当前时刻点云数据和时序点云数据的目标掩码图做逻辑与操作,判断目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效时序点云数据;
步骤五:将当前时刻点云数据的中间特征和有效时序点云数据的中间特征按通道方向进行拼接,并将拼接后的特征经过一个时序特征自学习网络单元,学习通道特征的时序内权重和时序间权重;将时序内权重分别与对应的通道特征进行加权,获得时序内特征,将时序间权重分别与所有其他的通道特征进行加权求和,获得时序间特征,将时序内特征和时序间特征进行融合得到互补特征,将互补特征经过一个检测头,生成目标感知信息。
进一步地,步骤一中,获取激光雷达点云数据时记录下激光雷达的姿态信息;激光雷达的姿态信息包括激光雷达在世界坐标下的坐标信息和朝向角信息。
进一步地,步骤二中,包括以下步骤:
(2.1)建立各时刻点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵,其中,当前时刻T点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵为;/>时刻点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵为/>,/>;
(2.2)再基于转换矩阵建立当前时刻点云数据的激光雷达坐标系分别与N个历史时刻的时序点云数据的激光雷达坐标系之间的仿射变换矩阵;则时刻的点云数据的激光雷达坐标系与当前时刻点云数据的激光雷达坐标系之间的仿射变换矩阵/>表示为:
其中,表示对矩阵/>的转置,/>表示矩阵乘法。
(2.3)利用仿射变换矩阵将/>时刻的点云数据与当前/>时刻的点云数据进行空间对齐,具体为:对/>时刻的点云数据中的任意一个点,其坐标为/>,则利用仿射变换矩阵/>变换后的点的坐标/>表示为:
对时刻的点云数据中的所有点执行仿射变换操作,则变换后的点云数据与/>时刻的点云数据空间对齐;
将N个历史时刻的时序点云数据均执行空间对齐操作,直至所有的时序点云数据均与当前时刻的点云数据空间对齐。
进一步地,步骤三中,包括以下步骤:
(3.1)采用基于3D点云目标检测算法PointPillar的主干网络的点云特征提取网络提取点云中间特征;
(3.2)设计一个位置预测网络单元,由一个卷积块组成,卷积核大小为,输入通道数为/>,输出通道数为2,将点云中间特征输入该位置预测网络单元,点云中间特征大小为,则输出大小为/>,对通道方向取最大值,得到大小为/>的索引特征;其中/>和/>分别表示点云中间特征的长和宽;
(3.3)利用方差为1、核大小为的高斯滤波器对索引特征进行滤波,并对滤波后的索引特征采用局部最大值判断方式生成目标掩码图,即对索引特征上的每一个特征值,若其最邻近8个点的值大小均小于该特征值,则目标掩码图相应位置值为1,否则为0,对最近邻点的个数不足8个的特征值,对应的目标掩码图位置值均为0。
进一步地,步骤四中,包括以下步骤:
(4.1)利用当前时刻点云数据和时序点云数据的目标掩码图做逻辑与操作;当前时刻点云数据的目标掩码图为,则当前时刻点云数据的需求掩码图/>表示为:
时刻的时序点云数据的目标掩码图为/>,利用当前时刻点云数据的需求掩码图/>和/>时刻的时序点云数据的目标掩码图/>做逻辑与操作,则逻辑与操作结果/>为:
(4.2)判断时序点云数据的目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效的时序点云数据,具体判断方式为:若逻辑与操作结果中存在值大小为1且其邻近/>范围内为1的值的个数大于r,则认为/>时刻的点云数据中存在/>时刻点云中未检测出的目标,为有效的时序点云数据,否则认为是无效的时序点云数据,其中r为经验值,与实际点云数据和特征分布相关;
(4.3)对所有的时序点云数据执行步骤(4.1)~(4.2),选择出所有的有效时序点云。
进一步地,步骤五中,将当前时刻点云数据的中间特征和有效时序点云数据的中间特征按通道方向进行拼接,具体为:提取出的点云中间特征大小为,有效时序点云数量为K-1,则拼接后的特征/>大小为/>,其中/>表示拼接后的点云中间特征的通道数量大小。
进一步地,步骤五中,将拼接后的特征经过一个时序特征自学习网络单元,具体包括以下步骤:
(5.1)首先学习时序内权重;对拼接后的特征,对其每个通道特征/>,其中,采用平均池化进行处理,处理后的向量维度大小为/>,再经过两个隐藏层大小分别为/>和/>的全连接层,和一个sigmoid激活函数处理后,得到时序内权重,维度大小为/>;对通道特征/>,其对应的时序内权重即为/>的第j个权重,维度大小为1,其中/>;
(5.2)再次学习时序间权重;对拼接后的特征,对其每个通道特征/>,其中,将其分别与所有其他通道特征/>相乘求和,其中/>,得到各通道特征相对于其他通道特征的时序间权重/>,维度大小为/>;/>获取过程表示如下:
其中,表示对特征/>矩阵的转置,其中/>表示矩阵乘法;对通道特征/>,其对应的时序间权重即为/>的第j个权重/>,维度大小为/>,分别为通道/>相对于其他所有通道的权重,其中/>;
(5.3)将时序内权重分别与对应的通道特征进行加权,获得时序内特征,
维度大小为 将时序间权重分别与所有其他的通道特征进行加权求和,获得
时序间特征,维度大小为;该过程表示如下:
其中reshape表示对特征维度进行变化,不改变特征自身大小;
(5.4)将时序内特征和时序间特征进行融合;先将时序内特征和时序间特征按通道方向进行相加,并经过一个1D卷积层进行处理,得到融合后的特征;该过程表示如下:
其中,表示卷积核大小为/>的卷积层。
进一步地,步骤五中,将互补特征经过一个检测头,生成目标感知信息,具体为,在互补特征后添加一个基于目标检测算法Anchor-free的检测头,检测生成目标的感知信息,其中/>表示目标位置,/>表示目标长宽高大小,/>表示目标朝向角,cls表示目标类别,则该目标的感知信息描述为:距离当前时刻激光雷达坐标系原点距离为/>米,与激光雷达坐标系横坐标夹角大小为/>,大小为l、w、h,类别为cls。
第二方面,本发明提供了一种基于时序选择的目标感知装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于时序选择的目标感知方法。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于时序选择的目标感知方法。
本发明的有益效果是:本发明选择出有效的时序点云和当前的点云数据进行互补融合,解决现有的感知方法不能连续检测出障碍目标尤其是稀疏或缺失点云目标的问题,为障碍物目标行为的准确预测提供有效技术支撑。本发明提出的时序选择机制,利用当前时刻点云数据和时序点云数据的目标掩码图,判断时序点云数据的目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效的时序点云数据进行特征级互补融合,是对当前感知方法的有效创新,进一步提升自动驾驶安全性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明提供的一种基于时序选择的目标感知方法流程图。
图2是某T时刻的激光雷达点云数据俯视图。
图3是某T时刻的历史T-1时刻激光雷达点云数据俯视图。
图4是某T时刻的历史T-2时刻激光雷达点云数据俯视图。
图5是某T时刻和历史T-1时刻、历史T-2时刻的索引特征图。
图6是采用本发明提出的目标感知方法对T时刻点云数据障碍物目标的感知结果图。
图7是本发明提供的一种基于时序选择的目标感知装置的结构图。
具体实施方式
下面根据附图详细说明本发明,本发明的目的和效果将变得更加明白。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出了一种基于时序选择的目标感知方法,用于解决现有的感知方法由于不能连续感知出目标尤其是稀疏或缺失点云目标,给完全自动驾驶带来的安全隐患问题。本发明通过时序选择机制,利用空间对齐的当前时刻点云数据和时序点云数据的目标掩码图选择出有效的时序点云数据,和当前时刻的点云数据进行特征级融合,实现基于时序数据互补融合的感知,进一步的提高自动驾驶车辆的安全性能。
本发明具体包括以下步骤:
步骤一:利用自动驾驶车辆安装的激光雷达设备,以10HZ的频率采集道路信息,存储每帧激光雷达点云数据并记录下激光雷达的姿态信息。其中激光雷达的姿态信息包括激光雷达在世界坐标下的坐标信息和朝向角信息。所采集到的激光雷达点云数据分别如图2,图3,图4所示,图2是在某T时刻采集的激光雷达点云数据俯视图,图3是某T时刻的历史T-1时刻采集的激光雷达点云数据俯视图,图4是某T时刻的历史T-2时刻采集的激光雷达点云数据俯视图。可观察到这三图中障碍物目标点云扫描形状和大小均不一致,历史时刻采集的点云数据中存在当前时刻采集数据中无法明显感知出的目标,通过历史时序数据特征融合互补,可增强对障碍物目标的感知能力。当前场景中障碍物目标类别主要有小车,大巴车,卡车,行人,骑行者,三轮车等。
步骤二:获取当前时刻和N个历史时刻的激光雷达点云数据和激光雷达的姿态信息,并建立各时刻点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵,再基于转换矩阵建立当前时刻点云数据的激光雷达坐标系分别与N个历史时刻的时序点云数据的激光雷达坐标系之间的仿射变换矩阵,利用仿射变换矩阵将N个历史时刻的时序点云数据与当前时刻的点云数据进行空间对齐。根据当前实际点云数据分布,并结合融合过程的时延消耗,此处N为4。
进一步地,步骤二中,包括以下步骤:
(2.1)获取当前时刻和N个历史时刻的激光雷达点云数据和激光雷达的姿态信息,并建立各时刻点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵。假设当前时刻T激光雷达的姿态信息为,历史某一时刻/>激光雷达的姿态信息为,其中/>,则当前时刻T点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵/>,可表示为:
其中,
其中,表示三角余弦函数,/>表示三角正弦函数;
时刻点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵/>,可表示为:
其中,
其中,表示三角余弦函数,/>表示三角正弦函数;
(2.2)再基于转换矩阵建立当前时刻点云数据的激光雷达坐标系分别与N个历史时刻的时序点云数据的激光雷达坐标系之间的仿射变换矩阵。
则时刻的点云数据的激光雷达坐标系与当前时刻点云数据的激光雷达坐标系之间的仿射变换矩阵/>
可表示为:
其中,表示对矩阵/>的转置,/>表示矩阵乘法。
(2.3)利用仿射变换矩阵将N个历史时刻的时序点云数据与当前时刻的点云数据进行空间对齐。利用仿射变换矩阵将/>时刻的点云数据与当前/>时刻的点云数据进行空间对齐,具体为:对/>时刻的点云数据中的任意一个点,其坐标为/>,则利用仿射变换矩阵/>变换后的点的坐标/>表示为:
对时刻的点云数据中的所有点执行仿射变换操作,则变换后的点云数据与/>时刻的点云数据空间对齐。
将N个历史时刻的时序点云数据均执行上述操作,直至所有的时序点云数据均与当前时刻的点云数据空间对齐。
步骤三:将空间对齐后的点云数据,分别利用点云特征提取网络提取出中间特征,并经过一个位置预测网络单元获取带有目标初始位置信息的索引特征,并对高斯滤波后的索引特征采用局部最大值判断方式进一步生成目标掩码图。图5中,从左到右分别是某T时刻和历史T-1时刻、历史T-2时刻的索引特征图,可观察到T时刻和历史T-1时刻、历史T-2时刻对目标的感知范围和位置存在相似性和差异性,可通过差异互补,增强T时刻的感知能力。
进一步地,步骤三中,包括以下步骤:
(3.1)采用基于3D点云目标检测算法PointPillar的主干网络的点云特征提取网络提取点云中间特征;
(3.2)设计一个位置预测网络单元,由一个卷积块组成,卷积核大小为,输入通道数为/>,输出通道数为2,将点云中间特征输入该位置预测网络单元,点云中间特征大小为,则输出大小为/>,对通道方向取最大值,得到大小为/>的索引特征;其中/>和/>分别表示点云中间特征的长和宽;
(3.3)利用方差为1、核大小为的高斯滤波器对索引特征进行滤波,并对滤波后的索引特征采用局部最大值判断方式生成目标掩码图,即对索引特征图上的每一个特征值,若其最邻近8个点的值大小均小于该特征值,则目标掩码图相应位置值为1,否则为0,对最近邻点的个数不足8个的特征值,对应的目标掩码图位置值均为0。
步骤四:设计一个时序选择机制,利用当前时刻点云数据和时序点云数据的目标掩码图做逻辑与操作,判断时序点云数据的目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效的时序点云数据。
进一步地,步骤四中,包括以下步骤:
(4.1)利用当前时刻点云数据和时序点云数据的目标掩码图做逻辑与操作。假设当前时刻点云数据的目标掩码图为,则当前时刻点云数据的需求掩码图/>可表示为:
假设时刻的时序点云数据的目标掩码图为/>,利用当前时刻点云数据的需求掩码图/>和/>时刻的时序点云数据的目标掩码图/>做逻辑与操作,则逻辑与操作结果/>为:
(4.2)判断时序点云数据的目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效的时序点云数据。判断方式为:若逻辑与操作结果中存在值大小为1且其邻近/>范围内为1的值的个数大于r,则认为/>时刻的点云数据中存在/>时刻点云中未检测出的目标,为有效的时序点云数据,否则认为是无效的时序点云数据。其中r为经验值,与实际点云数据和特征分布相关。此处,r为5。
(4.3)对所有的时序点云数据执行步骤(4.1)~(4.2),选择出所有的有效时序点云。
步骤五:将当前时刻点云的中间特征和有效时序点云的中间特征按通道方向进行拼接,并将拼接后的特征经过一个时序特征自学习网络单元进行融合,最后将融合后的互补特征经过一个检测头,生成目标感知信息。
进一步地,步骤五中,包括以下步骤:
(5.1)将当前时刻点云的中间特征和有效时序点云的中间特征按通道方向进行拼接。假设提取出的点云中间特征大小为,有效时序点云数量为K-1,则拼接后的特征/>大小为/>,其中/>表示拼接后的点云中间特征的通道数量大小。根据实际观察经验,K值在2~3之间融合效率最高。
(5.2)将拼接后的特征经过一个时序特征自学习网络单元进行融合。具体包括以下步骤:
1)设计一个时序特征自学习网络单元,对拼接后的特征进行融合。
2)首先学习时序内权重。对拼接后的特征,对其每个通道特征/>,其中,采用平均池化进行处理,处理后的向量维度大小为/>,再经过两个隐藏层大小分别为/>和/>的全连接层,和一个sigmoid激活函数处理后,得到时序内权重,维度大小为/>。/>获取过程可表示如下:
其中,sigmoid代表激活函数层,FC代表全连接层,表示最大池化层。
对通道特征,其对应的时序内权重即为/>的第j个权重/>,维度大小为1,其中/>。
3)再次学习时序间权重。对拼接后的特征,对其每个通道特征/>,其中,将其分别与所有其他通道特征/>相乘求和,其中/>,得到各通道特征相对于其他通道特征的时序间权重/>,维度大小为/>。/>获取过程可表示如下:
其中,表示对特征/>矩阵的转置,其中/>表示矩阵乘法,以下该符号表达含义相同。
对通道特征,其对应的时序间权重即为/>的第j个权重/>,维度大小为,分别为通道/>相对于其他所有通道的权重,其中/>。
4)将时序内权重分别与对应的通道特征进行加权,获得时序内特征,维度大小为/>,将时序间权重分别与所有其他的通道特征进行加权求和,获得时序间特征/>,维度大小为/>。该过程可表示如下:
其中reshape表示对特征维度进行变化,不改变特征自身大小。
5)将时序内和时序间特征进行融合。先将时序内和时序间特征按通道方向进行相加,并经过一个1D卷积层进行处理,得到融合后的特征。该过程可表示如下:
其中,表示卷积核大小为/>的卷积层。
(5.3)将融合后的特征经过一个检测头,检测生成目标的感知信息。
具体为,在融合特征后添加一个基于目标检测算法Anchor-free的检测头,检测生成目标的感知信息,其中/>表示目标位置(单位:米)、/>表示目标长宽高大小(单位:米),/>表示目标朝向角,cls表示目标类别,则该目标的感知信息可描述为:距离当前时刻激光雷达坐标系原点距离为/>米,与激光雷达坐标系横坐标夹角大小为/>,大小为l、w、h,类别为cls。图6是采用本发明提出的目标感知方法对T时刻点云数据障碍物目标的感知结果图,图中长方形框为对障碍物目标的检测框,可以观察到通过时序特征融合互补,T时刻的障碍物目标感知能力得到较大提升,距离激光雷达坐标原点较远处扫描点云数量较少的障碍物目标也可以精准检测出。
与前述一种基于时序选择的目标感知方法的实施例相对应,本发明还提供了一种基于时序选择的目标感知装置的实施例。
参见图7,本发明实施例提供的一种基于时序选择的目标感知装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的一种基于时序选择的目标感知方法。
本发明提供的一种基于时序选择的目标感知装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明提供的一种基于时序选择的目标感知装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于时序选择的目标感知方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (10)
1.一种基于时序选择的目标感知方法,其特征在于,该方法包括以下步骤:
步骤一:获取包含道路信息的当前时刻和N个历史时刻的激光雷达时序点云数据;
步骤二:将N个历史时刻的时序点云数据与当前时刻的点云数据进行空间对齐;
步骤三:对于空间对齐后的点云数据,提取点云中间特征并经过一个位置预测网络单元获取带有目标初始位置信息的索引特征,对索引特征进行高斯滤波后采用局部最大值判断方式生成点云数据的目标掩码图;
步骤四:利用当前时刻点云数据和时序点云数据的目标掩码图做逻辑与操作,判断目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效时序点云数据;
步骤五:将当前时刻点云数据的中间特征和有效时序点云数据的中间特征按通道方向进行拼接,并将拼接后的特征经过一个时序特征自学习网络单元,学习通道特征的时序内权重和时序间权重;将时序内权重分别与对应的通道特征进行加权,获得时序内特征,将时序间权重分别与所有其他的通道特征进行加权求和,获得时序间特征,将时序内特征和时序间特征进行融合得到互补特征,将互补特征经过一个检测头,生成目标感知信息。
2.根据权利要求1所述的一种基于时序选择的目标感知方法,其特征在于,步骤一中,获取激光雷达点云数据时记录下激光雷达的姿态信息;激光雷达的姿态信息包括激光雷达在世界坐标下的坐标信息和朝向角信息。
3.根据权利要求2所述的一种基于时序选择的目标感知方法,其特征在于,步骤二中,包括以下步骤:
(2.1)建立各时刻点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵,其中,当前时刻T点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵为;/>时刻点云数据的激光雷达坐标系与世界坐标系之间的转换矩阵为/>,/>;
(2.2)再基于转换矩阵建立当前时刻点云数据的激光雷达坐标系分别与N个历史时刻的时序点云数据的激光雷达坐标系之间的仿射变换矩阵;则时刻的点云数据的激光雷达坐标系与当前时刻点云数据的激光雷达坐标系之间的仿射变换矩阵/>表示为:
;
其中,表示对矩阵/>的转置,/>表示矩阵乘法;
(2.3)利用仿射变换矩阵将/>时刻的点云数据与当前/>时刻的点云数据进行空间对齐,具体为:对/>时刻的点云数据中的任意一个点,其坐标为/>,则利用仿射变换矩阵/>变换后的点的坐标/>表示为:
;
对时刻的点云数据中的所有点执行仿射变换操作,则变换后的点云数据与/>时刻的点云数据空间对齐;
将N个历史时刻的时序点云数据均执行空间对齐操作,直至所有的时序点云数据均与当前时刻的点云数据空间对齐。
4.根据权利要求1所述的一种基于时序选择的目标感知方法,其特征在于,步骤三中,包括以下步骤:
(3.1)采用基于3D点云目标检测算法PointPillar的主干网络的点云特征提取网络提取点云中间特征;
(3.2)设计一个位置预测网络单元,由一个卷积块组成,卷积核大小为,输入通道数为/>,输出通道数为2,将点云中间特征输入该位置预测网络单元,点云中间特征大小为,则输出大小为/>,对通道方向取最大值,得到大小为/>的索引特征;其中/>和/>分别表示点云中间特征的长和宽;
(3.3)利用方差为1、核大小为的高斯滤波器对索引特征进行滤波,并对滤波后的索引特征采用局部最大值判断方式生成目标掩码图,即对索引特征上的每一个特征值,若其最邻近8个点的值大小均小于该特征值,则目标掩码图相应位置值为1,否则为0,对最近邻点的个数不足8个的特征值,对应的目标掩码图位置值均为0。
5.根据权利要求1所述的一种基于时序选择的目标感知方法,其特征在于,步骤四中,包括以下步骤:
(4.1)利用当前时刻点云数据和时序点云数据的目标掩码图做逻辑与操作;当前时刻点云数据的目标掩码图为,则当前时刻点云数据的需求掩码图/>表示为:
;
时刻的时序点云数据的目标掩码图为/>,利用当前时刻点云数据的需求掩码图/>和/>时刻的时序点云数据的目标掩码图/>做逻辑与操作,则逻辑与操作结果/>为:
;
(4.2)判断时序点云数据的目标掩码图中是否存在当前时刻点云数据中未检测出的目标,选择出有效的时序点云数据,具体判断方式为:若逻辑与操作结果中存在值大小为1且其邻近/>范围内为1的值的个数大于r,则认为/>时刻的点云数据中存在/>时刻点云中未检测出的目标,为有效的时序点云数据,否则认为是无效的时序点云数据,其中r为经验值,与实际点云数据和特征分布相关;
(4.3)对所有的时序点云数据执行步骤(4.1)~(4.2),选择出所有的有效时序点云。
6.根据权利要求4所述的一种基于时序选择的目标感知方法,其特征在于,步骤五中,将当前时刻点云数据的中间特征和有效时序点云数据的中间特征按通道方向进行拼接,具体为:提取出的点云中间特征大小为,有效时序点云数量为K-1,则拼接后的特征大小为/>,其中/>表示拼接后的点云中间特征的通道数量大小。
7.根据权利要求1所述的一种基于时序选择的目标感知方法,其特征在于,步骤五中,将拼接后的特征经过一个时序特征自学习网络单元,具体包括以下步骤:
(5.1)首先学习时序内权重;对拼接后的特征,对其每个通道特征/>,其中,采用平均池化进行处理,处理后的向量维度大小为/>,再经过两个隐藏层大小分别为/>和/>的全连接层,和一个sigmoid激活函数处理后,得到时序内权重,维度大小为/>;对通道特征/>,其对应的时序内权重即为/>的第j个权重,维度大小为1,其中/>;
(5.2)再次学习时序间权重;对拼接后的特征,对其每个通道特征/>,其中,将其分别与所有其他通道特征/>相乘求和,其中/>,得到各通道特征相对于其他通道特征的时序间权重/>,维度大小为/>;/>获取过程表示如下:
;
其中,表示对特征/>矩阵的转置,其中/>表示矩阵乘法;对通道特征/>,其对应的时序间权重即为/>的第j个权重/>,维度大小为/>,分别为通道/>相对于其他所有通道的权重,其中/>;
(5.3)将时序内权重分别与对应的通道特征进行加权,获得时序内特征,维度大小为/> 将时序间权重分别与所有其他的通道特征进行加权求和,获得时序间特征/>,维度大小为/>;该过程表示如下:
;
;
其中reshape表示对特征维度进行变化,不改变特征自身大小;
(5.4)将时序内特征和时序间特征进行融合;先将时序内特征和时序间特征按通道方向进行相加,并经过一个1D卷积层进行处理,得到融合后的特征;该过程表示如下:
;
其中,表示卷积核大小为/>的卷积层。
8.根据权利要求1所述的一种基于时序选择的目标感知方法,其特征在于,步骤五中,将互补特征经过一个检测头,生成目标感知信息,具体为,在互补特征后添加一个基于目标检测算法Anchor-free的检测头,检测生成目标的感知信息,其中/>表示目标位置,/>表示目标长宽高大小,/>表示目标朝向角,cls表示目标类别,则该目标的感知信息描述为:距离当前时刻激光雷达坐标系原点距离为/>米,与激光雷达坐标系横坐标夹角大小为/>,大小为l、w、h,类别为cls。
9.一种基于时序选择的目标感知装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-8中任一项所述的一种基于时序选择的目标感知方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-8中任一项所述的一种基于时序选择的目标感知方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311299185.6A CN117037120B (zh) | 2023-10-09 | 2023-10-09 | 一种基于时序选择的目标感知方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311299185.6A CN117037120B (zh) | 2023-10-09 | 2023-10-09 | 一种基于时序选择的目标感知方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117037120A CN117037120A (zh) | 2023-11-10 |
CN117037120B true CN117037120B (zh) | 2024-02-09 |
Family
ID=88641668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311299185.6A Active CN117037120B (zh) | 2023-10-09 | 2023-10-09 | 一种基于时序选择的目标感知方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037120B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021072709A1 (zh) * | 2019-10-17 | 2021-04-22 | 深圳市大疆创新科技有限公司 | 目标检测与跟踪方法、系统、设备及存储介质 |
WO2022017147A1 (zh) * | 2020-07-22 | 2022-01-27 | 上海商汤临港智能科技有限公司 | 点云数据的处理方法和装置、雷达装置、电子设备及计算机可读存储介质 |
CN115272493A (zh) * | 2022-09-20 | 2022-11-01 | 之江实验室 | 一种基于连续时序点云叠加的异常目标检测方法及装置 |
CN115937259A (zh) * | 2022-12-30 | 2023-04-07 | 广东汇天航空航天科技有限公司 | 运动目标检测方法、装置、飞行设备及存储介质 |
CN115984637A (zh) * | 2022-12-21 | 2023-04-18 | 上海交通大学 | 时序融合的点云3d目标检测方法、系统、终端及介质 |
CN116721207A (zh) * | 2023-05-30 | 2023-09-08 | 中国科学院深圳先进技术研究院 | 基于Transformer模型的三维重建方法、装置、设备及存储介质 |
-
2023
- 2023-10-09 CN CN202311299185.6A patent/CN117037120B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021072709A1 (zh) * | 2019-10-17 | 2021-04-22 | 深圳市大疆创新科技有限公司 | 目标检测与跟踪方法、系统、设备及存储介质 |
WO2022017147A1 (zh) * | 2020-07-22 | 2022-01-27 | 上海商汤临港智能科技有限公司 | 点云数据的处理方法和装置、雷达装置、电子设备及计算机可读存储介质 |
CN115272493A (zh) * | 2022-09-20 | 2022-11-01 | 之江实验室 | 一种基于连续时序点云叠加的异常目标检测方法及装置 |
CN115984637A (zh) * | 2022-12-21 | 2023-04-18 | 上海交通大学 | 时序融合的点云3d目标检测方法、系统、终端及介质 |
CN115937259A (zh) * | 2022-12-30 | 2023-04-07 | 广东汇天航空航天科技有限公司 | 运动目标检测方法、装置、飞行设备及存储介质 |
CN116721207A (zh) * | 2023-05-30 | 2023-09-08 | 中国科学院深圳先进技术研究院 | 基于Transformer模型的三维重建方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Masked Surfel Prediction for Self-Supervised Point Cloud Learning;zhang YB等;《Arxiv》;全文 * |
基于激光雷达点云与图像融合的车辆目标检测方法;胡远志等;汽车安全与节能学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117037120A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dairi et al. | Unsupervised obstacle detection in driving environments using deep-learning-based stereovision | |
Yao et al. | Estimating drivable collision-free space from monocular video | |
Tan et al. | Color model-based real-time learning for road following | |
JP7245275B2 (ja) | 軌道計画モデルの訓練方法と装置、電子機器、コンピュータ記憶媒体及びコンピュータプログラム | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CA3160671A1 (en) | Generating depth from camera images and known depth data using neural networks | |
CN112654998B (zh) | 一种车道线检测方法和装置 | |
Saleem et al. | Steering angle prediction techniques for autonomous ground vehicles: a review | |
CN112257668A (zh) | 主辅路判断方法、装置、电子设备及存储介质 | |
Kühnl et al. | Visual ego-vehicle lane assignment using spatial ray features | |
Schaeferling et al. | Object recognition and pose estimation on embedded hardware: SURF‐based system designs accelerated by FPGA logic | |
CN115240168A (zh) | 感知结果获取方法、装置、计算机设备、存储介质 | |
US12079970B2 (en) | Methods and systems for semantic scene completion for sparse 3D data | |
CN114620059B (zh) | 一种自动驾驶方法及其系统、计算机可读存储介质 | |
Wang et al. | Holistic Parking Slot Detection with Polygon-Shaped Representations | |
CN117037120B (zh) | 一种基于时序选择的目标感知方法及装置 | |
WO2013019743A2 (en) | Apparatus and methods for object recognition using a genetically-defined feature space transform | |
CN115223146A (zh) | 障碍物检测方法、装置、计算机设备和存储介质 | |
CN113808077A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
Guo et al. | Semantic-based road environment recognition in mixed traffic for intelligent vehicles and advanced driver assistance systems | |
US11580723B2 (en) | Scene-aware object detection | |
US20230267749A1 (en) | System and method of segmenting free space based on electromagnetic waves | |
Guo et al. | A semantic graph of traffic scenes for intelligent vehicle systems | |
Odagiri et al. | Monocular Blind Spot Estimation with Occupancy Grid Mapping | |
Mustafa et al. | A Comprehensive Approach to Autonomous Vehicle Navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |