CN115690711A

CN115690711A - 一种目标检测方法、装置及智能车辆

Info

Publication number: CN115690711A
Application number: CN202211339122.4A
Authority: CN
Inventors: 刘宇轩; 闫笑洋; 刘明; 王鲁佳
Original assignee: Shenzhen Yiqing Innovation Technology Co ltd
Current assignee: Shenzhen Yiqing Innovation Technology Co ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-02-03

Abstract

本发明实施例涉及驾驶技术相关领域，具体涉及一种目标检测方法、装置及智能车辆。方法包括：获取所述相机采集的连续帧图像；根据所述连续帧图像获取所述相机姿态的变换矩阵；根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像；基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息；根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。本发明能够消除相机姿态对目标检测结果的影响，增强单目检测算法对相机内参的鲁棒性，解决单目检测算法不能与相机的内部参数以及位置参数解耦合的问题。

Description

一种目标检测方法、装置及智能车辆

技术领域

本发明实施例涉及驾驶技术相关领域，具体涉及一种目标检测方法、装置及智能车辆。

背景技术

确定单目3D检测模组是智能车辆感知系统中的重要模组，该模组以智能车辆的相机获取的图像为输入，检测出图像中感兴趣目标类别物体在图像中的位置，并计算出物体相对于相机的3D位置以及朝向。

现有单目3D检测模组的训练一般先在驾驶场景中采集足够多的相机与激光雷达的同步数据，人工利用激光雷达和相机标注出场景中感兴趣目标类别物体的3D位置、朝向以及在图像上的位置，然后利用标注数据训练深度学习单目检测算法，典型的单目检测算法使用卷积神经网络提取图像的二维特征，根据从图像中提取到的特征图，回归得到物体的三维特性如3D尺寸、朝向以及相对于相机坐标系的三维位置。

在实现本发明实施例的过程中，发明人发现：相机姿态改变或相机和训练数据采集时使用的相机型号发生改变均会影响目前的单目检测算法的三维预测结果，即目前的单目检测算法易受相机的内部参数以及位置参数的影响。

发明内容

本发明实施方式主要解决单目检测算法不能与相机的内部参数以及位置参数解耦合的问题。

鉴于上述问题，本发明实施例提供了一种目标检测方法、装置及智能车辆，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种目标检测方法，应用于智能车辆，所述方法包括：获取所述相机采集的连续帧图像；根据所述连续帧图像获取所述相机姿态的变换矩阵；根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像；基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息；根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。

可选的，所述根据所述连续帧图像获取所述相机姿态的变换矩阵，包括：获取上一帧图像对应所述相机的初始化位姿；分别对所述上一帧图像和所述当前帧图像进行特征提取，得到所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标；对所述上一帧图像中特征点和所述当前帧图像中特征点进行特征匹配；根据匹配后的所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标以及相机的内参计算上一帧相机与当前帧相机姿态的变换矩阵。

可选的，所述根据所述变换矩阵矫正当前帧图像，包括：根据所述初始化位姿和所述变换矩阵获取所述相机的当前位姿；根据所述相机的初始化位姿、所述相机的当前位姿及所述变换矩阵对所述当前帧图像进行逆变换以矫正当前帧图像。

可选的，所述基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息，包括：从所述矫正后的图像中提取特征图；根据所述特征图得到所述目标对象的初始三维信息。

可选的，所述根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息，包括：根据所述初始三维信息和所述相机的内参确定所述目标对象的八个角点在所述图像上的投影位置；基于所述投影位置确定修正后的特征图；根据所述修正后的特征图确定所述目标对象的最终三维信息。

可选的，所述所述根据所述初始三维信息和所述相机的内参确定所述目标对象的八个角点在所述图像上的投影位置，包括：根据所述相机的内参获取内参矩阵P；根据所述初始三维信息和所述内参矩阵P计算所述八个角点中每一角点的投影位置。

根据本发明实施例的另一个方面，提供一种目标检测装置，应用于智能车辆，所述智能车辆设有相机，其特征在于，所述目标检测装置包括：原始信息获取模块，用于获取所述相机采集的连续帧图像；变换矩阵获取模块，用于根据所述连续帧图像获取所述相机姿态的变换矩阵；图像矫正模块，用于根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像；初始预测模块，用于基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息；最终预测模块，用于根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。

可选的，所述变换矩阵获取模块包括：初始位姿获取单元，用于获取上一帧图像对应所述相机的初始化位姿；坐标获取单元，用于分别对所述上一帧图像和所述当前帧图像进行特征提取，得到所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标；特征匹配单元，用于对所述上一帧图像中特征点和所述当前帧图像中特征点进行特征匹配；变换矩阵获取单元，根据匹配后的所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标以及相机的内参计算上一帧相机与当前帧相机姿态的变换矩阵。。

可选的，所述图像矫正模块包括：当前位姿获取单元，用于根据所述初始化位姿和所述变换矩阵获取所述相机的当前位姿；位姿补偿单元，根据所述相机的初始化位姿、所述相机的当前位姿及所述变换矩阵对所述当前帧图像进行逆变换以矫正当前帧图像。

根据本发明实施例的又一个方面，提供一种智能车辆，所述智能车辆包括：相机；至少一个处理器；以及存储器，所述存储器、所述相机分别与所述处理器通信连接，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

区别于相关技术的情况，本发明实施例提供了一种目标检测方法、装置及智能车辆，通过获取所述相机采集的连续帧图像；根据所述连续帧图像获取所述相机姿态的变换矩阵；根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像；基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息；根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。本发明实施例能够消除相机姿态对目标检测结果的影响，增强单目检测算法对相机内参的鲁棒性，解决单目检测算法不能与相机的内部参数以及位置参数解耦合的问题。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明实施例提供的一种目标检测方法的流程图；

图2是本发明实施例提供的获取相机姿态的变换矩阵的流程示意图；

图3是本发明实施例提供的矫正当前帧图像的流程示意图；

图4是本发明实施例提供的获取初始三维信息的流程示意图；

图5是本发明实施例提供的获取最终三维信息的流程示意图；

图6是本发明实施例提供的确定角点在图像上的投影位置的流程示意图；

图7是本发明实施例提供的一种目标检测装置的结构示意图；

图8是本发明实施例提供的变换矩阵获取模块的结构示意图；

图9是本发明实施例提供的图像矫正模块的结构示意图；

图10是本发明实施例提供的智能车辆的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互组合，均在本发明的保护范围之内。另外，虽然在装置示意图中进行了功能模块的划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置示意图中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本发明。

典型的深度学习单目检测算法如SMOKE，接收相机采集的图像，并使用卷积神经网络的主干网络提取图像的二维特征，例如DLA(Deep Layer Aggregation)网络，卷积输出层先稠密地输出目标对象的热力图，然后根据从图像中提取到的特征图，回归得到目标对象的三维特性如3D尺寸、朝向以及相对于相机的坐标系的三维位置。

现有技术中，所述单目检测算法的检测结果易受俯仰角的影响，所述俯仰角为相机姿态中的参数，所述俯仰角为机体轴与地平面之间的夹角，所述机体轴为通过所述相机镜头中心点的光束的中心线，例如：若所述相机的前视方向平行于地面，则所述相机相对于地面的俯仰角为零。所述单目检测算法进行检测时默认相机相对于地面的俯仰角为零，即所述相机的前视方向平行于地面，但实际部署时由于相机的安装误差以及智能车辆行进过程中的上下颠簸，无法保证相机相对于地面的俯仰角完全为零，这会造成图像中几何元素变化，因此导致最终的目标检测结果有误差。

另外，测试数据和训练数据采集所使用的相机必须拥有相同的内外参数才能正确地估计目标的深度。现有的单目检测算法中热力图的生成以及目标对象三维特性的回归都采用采集的数据进行训练，如果车载的相机和训练数据采集时使用的相机型号等发生了改变，即使相机的俯仰角为零，现有的算法往往也不能正确地回归得到正确的深度，因此单目三维检测算法与相机的内部参数和相机的位置具有强耦合，所述耦合即为通过交互作用而彼此影响，可以理解的是，所述强耦合表示彼此影响的程度高，所述解耦合表示解除耦合关系，减小了相机的内部参数和相机的位置参数对单目检测算法输出目标检测结果的影响。

本发明提供了一种由俯仰角估计的视觉里程计和基于星形卷积的单目检测模块构成的目标检测方法，所述视觉里程计根据相邻帧图像估计所述相机的运动，便于矫正所述图像，为基于星形卷积的单目检测模块提供更准确的图像数据，所述星形卷积相比于普通卷积具有更大的感受野，即让每个卷积输出都包含了较大范围的信息，使得输出更为稠密。

实施例一

本发明实施例提供了一种目标检测方法，应用于智能车辆，请参阅图1，图1是本发明实施例提供的一种目标检测方法的流程图，包括：

S11、获取所述相机采集的连续帧图像。其中，所述相机为单目相机，即设置一个摄像头的相机，另外，双目相机为设置两个摄像头的相机，多目相机为设置多个摄像头的相机；所述相机在所述智能车辆行驶过程中对周围场景进行拍摄以获得视频素材，所述视频素材中最小单位的单幅画面为一帧图像，各帧图像组成的图像序列即为连续帧图像，所述智能车辆具体可以是无人车。

S12、根据所述连续帧图像获取所述相机姿态的变换矩阵。其中，所述变换矩阵表示相邻帧图像中特征点坐标的相对转换关系。请结合图2，图2是本发明实施例提供的获取相机姿态的变换矩阵的流程示意图，所述根据所述连续帧图像获取所述相机姿态的变换矩阵，包括：

S121、获取上一帧图像对应所述相机的初始化位姿。其中，相机当前采集到的画面为当前帧图像，所述图像序列中在当前帧图像前一次采集到的画面即为上一帧图像。所述初始化位姿为在地面平整的标定场地使用IMU测定相机确定的所述相机的位置和姿态。所述IMU测定相机为惯性里程计，用于获取所述相机的加速度和角速度，对图像中相邻帧相应时刻的加速度和角速度进行积分处理获取所述相机上一帧图像对应所述相机的的位置和姿态，所述IMU测定相机安装在所述智能车辆的车身上，具体位置通过实验获得，本公开对此不作具体限定，所述标定场地为标定所述相机的外参的场所、地点。

S122、分别对所述上一帧图像和所述当前帧图像进行特征提取，得到所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标。其中，所述特征点为某些方面属性特别突出的点，获取上一帧图像和当前帧图像中特征点的坐标之前需对输入的图像进行灰度变换，然后使用FAST角点检测算法对所述灰度变换后的图像进行特征提取，获取所述特征点的坐标。所述灰度变换是图像增强技术的一种图像处理方法，用于将所述相机获取的彩色图像转化为灰度图像，能使图像显示更多的细节，强化感兴趣的图像区域。所述FAST角点检测算法以某个像素点为圆心，某半径的周围上其他像素点与圆心像素点特征差异达到预设差异阈值时即认为该点就是特征点，所述预设差异阈值通过实验获得，本公开对此不作具体限定；一帧图像被分成若干个小方格，每个小方格即为一个像素点。

S123、对所述上一帧图像中特征点和所述当前帧图像中特征点进行特征匹配。其中，所述特征匹配指对两帧图像中特征点的坐标进行匹配，找到两幅图像之间的特征点的对应关系，从而确定两幅图像的位置关系。所述特征匹配的过程中接收所述图像下一帧作为当前帧，使用光流金字塔算法对于输入的当前帧图像和前一帧图像中的特征点做特征匹配，找到当前帧与前一帧对应的特征点的坐标。图像金字塔表示对同一张图像进行缩放，得到不同分辨率下的图像，原始图像为金字塔的最底层。所述光流金字塔算法为计算金字塔光流先从最高层的图像进行计算，然后将上一层的追踪效果作为下一层光流的初始值，以此类推计算最底层的光流，即最终的光流结果，简单来说是对图像中相邻帧的特征点坐标进行跟踪以进行特征匹配，所述光流由所述相机在场景中的运动产生。所述特征匹配过程中将当前帧赋值给下一次计算的前一帧，当前帧的特征点作为下一帧的匹配点，若特征点数量小于预设数量阈值，则重新计算匹配两帧之前的特征点，所述预设数量阈值根据实验获得，本公开对此不作具体限制。

S124、根据匹配后的所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标以及相机的内参计算上一帧相机与当前帧相机姿态的变换矩阵。其中，根据所述特征匹配的结果获取匹配点的坐标，根据所述匹配点的坐标得到基础矩阵，使用对极约束根据所述基础矩阵和相机内参获取变换矩阵。所述对极约束为当前帧和前一帧的光心与所述相机组成的平面上的几何约束，所述基础矩阵为空间中一点在不同视角相机的图像坐标系中的关系，所述相机内参是与自身特性相关的参数，例如：相机的焦距、像素大小。

S13、根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像。其中，通过对所述图像进行逆变换即可补偿所述相机的姿态，抵消俯仰角对3D目标检测的影响。请结合图3，图3是发明实施例提供的矫正当前帧图像的流程示意图，所述根据所述变换矩阵矫正当前帧图像，包括：

S131、根据所述初始化位姿和所述变换矩阵获取所述相机的当前位姿。其中，所述变换矩阵进行分解获得所述相邻帧图像对应的相机的位姿变换，所述位姿变换包括旋转矩阵R和平移矩阵T，根据初始化位姿和位姿变换即可计算出所述相机的当前位姿。

S132、根据所述相机的初始化位姿、所述相机的当前位姿及所述变换矩阵对所述当前帧图像进行逆变换以矫正当前帧图像。其中，根据所述相机的初始位姿和当前位姿可知所述相机相对于初始化时的位姿关系，根据所述位姿关系获取所述相机的俯仰角。相机相对于地面的俯仰角若不为零会使相机获取的图像发生扭曲形变，智能车辆在行驶过程中基本不存在滚转变换，因此俯仰误差是图像误差的主要来源。根据所述俯仰角和所述变换矩阵将采集的图像经过缩放，改变真实尺寸，完成图像预处理并输出矫正后的图像，即将相机从原有的角度通过实时计算智能车辆位姿，使得图像一直保持水平。

现有技术中，图像未经过处理直接通过卷积神经网络的主干网络提取图像特征，相机相对于地面的俯仰角若不为零则会影响后续的目标检测结果，因此本发明实施例对图像进行预处理，对图像进行矫正使图像一直保持水平，补偿了所述相机的姿态，抵消了俯仰角对3D目标检测结果的影响。

S14、基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息。其中，所述初始三维信息为第一次通过Head网络输出的三维信息，所述Head网络用于将输入图像转化成最终的预测结果。请结合图4，图4是本发明实施例提供的获取初始三维信息的流程示意图，所述基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息，包括：

S141、从所述矫正后的图像中提取特征图。其中，所述二维特征通过卷积神经网络的主干网络提取，例如：DLA(Deep Layer Aggregation)网络，所述DLA网络为深层聚合网络，能用于图像的特征提取。

S142、根据所述特征图得到所述目标对象的初始三维信息。其中，根据特征图中的中心像素点回归得到所述目标对象的初始三维信息，所述中心像素点指的是特征图中目标对象的最关键的像素点，用于回归得到目标对象的初始三维信息。其中，所述最关键的像素点可以是目标对象对应的全部像素中的中心像素点，等。所述目标对象指的是被检测的物体，所述目标对象的初始三维信息包括目标对象预测框的中心点相对于所述相机的三维坐标(x_3d，y_3d，z_3d)，目标对象的长宽高(l，w，h)和目标对象的朝向角θ。在获取所述目标对象的初始三维信息之前还通过提取的特征输出了热力图，可以根据所述热力图确定所述最关键的像素点，比如热力图中最亮的点对应的像素点为所述最关键的像素点，所述热力图用于判断图像中有没有目标对象，还可以根据热力图对目标对象进行分类，比如，对于热力图采用focal loss，即焦点损失函数进行监督，所述focal loss的表达式为：FL(p_t)＝-(1-p_t)^γlog(p_t)。

其中，p_t为分类预测与标签数据相同的概率值，所述标签数据为数据集中人工标注的数据，FL(p_t)为焦点损失值，(1-p_t)^γ为交叉熵损失，所述交叉熵损失惩罚错误的预测，γ为可调制聚焦参数，具体可以是2，本公开对比不作具体限制。所述损失为每一个样本的预测值与真实值的差，所述焦点损失函数通过对困难样本分配更多的权重，同时降低容易学习样本的损失贡献解决类别平衡问题，所述容易学习样本为有把握确认属性的样本，所述困难样本为没有把握确认属性的样本，例如：一张图像中智能车辆的置信度为0.9，那么有把握它是智能车辆，所以此时认定该样本为容易学习样本；同样，获得是智能车辆的置信度为0.6，那么没有把握它是智能车辆，所以称该样本为困难样本。

S15、根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。其中，所述单目检测算法为所述基于星形卷积的单目检测模块，所述最终三维信息为第二次通过Head网络输出的三维信息，请结合图5，图5是本发明实施例提供的获取最终三维信息的流程示意图，所述根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息，包括：

S151、根据所述初始三维信息和所述相机的内参确定所述目标对象的八个角点在所述图像上的投影位置。请参阅图6，图6是本发明实施例提供的确定角点在图像上的投影位置的流程示意图，所述根据所述初始三维信息和所述相机的内参确定所述目标对象的八个角点在所述图像上的投影位置，包括：

S1511、根据所述相机的内参获取内参矩阵P。其中，所述内参矩阵反应了所述相机的自身属性，跟相机的型号有关，可根据需求自行选择，本公开对此不作具体限定。

S1512、根据所述初始三维信息和所述内参矩阵P计算所述八个角点中每一角点的投影位置。其中一个角点的投影位置通过以下公式进行计算获得，所述公式为：

其中，

指所述内参矩阵P的前两行，(x_3d，y_3d，z_3d)为所述目标对象的初始三维信息中目标对象预测框的中心点相对于所述相机的三维坐标，l为目标对象的长，w为目标对象的宽，h为目标对象的高，θ为目标对象的朝向角，(x_kp0，y_kp0)为角点的投影位置。所述八个角点为所述目标对象预测框的八个顶点，已有其中一个角点的投影位置的计算公式，其余七个角点的投影位置的计算公式在已有公式的基础上根据目标对象预测框的长、宽、高的加减进行调整即可，所述其余七个角点的投影位置的计算公式与已知角点的投影位置的计算公式原理相同。

S152、基于所述投影位置确定修正后的特征图。

根据下述公式确定修正后的特征图，所述公式为：

X′(x_i，y_i)＝∑w_i·X(x_kpi，y_kpi)

其中，X′(x_i，y_i)为修正后的特征图，具体修正了特征图中的中心像素点，w_i为卷积神经网络的可学习参数，随着网络参数整体的优化一起学习，X(x_kpi，y_kpi)为角点的特征，所述角点的特征基于所述角点的投影坐标确定。其中，根据所述投影位置将八个角点上的特征提取到中心像素点上，特征图上每一个中心像素点都进行相同操作，即对特征图上的中心像素点进行修正。

S153、根据所述修正后的特征图确定所述目标对象的最终三维信息。其中，基于修正后的特征图中的中心像素点进行回归确定所述目标对象的最终三维信息，每个中心像素点对应一个目标对象。比如，对于所述三维目标对象预测采用smoothed L1 Loss，即光滑的L1损失函数进行监督，所述smoothed L1 Loss的表达式为：

其中，y_pred为预测值，y_gt为实际值，L_smooth－1(y_pred，y_gt)为光滑的L1损失值，所述smoothed L1 Loss改进了零点不平滑问题，是一个缓慢变化的损失函数，对异常值的鲁棒性更强，所述鲁棒性是指单目检测算法在不确定性的扰动下,具有保持某种性能不变的能力。

现有技术中，目标检测过程中的全部运算都只基于图像特征，因此测试数据和训练数据采集所使用的相机必须拥有相同的内外参数才能正确地估计目标的深度。本专利提出的基于星形卷积的单目检测算法将相机的投影几何包络在可学习的参数中，使得网络可以根据基于图像特征预测的目标对象在当前相机的参数下实际的投影效果，调整最终的预测输出，网络整体的运算过程全流程可导，从而可以实现端到端的训练，让网络在训练的时候就开始适应不同的相机参数，提高了单目检测算法对相机内参的鲁棒性。

在本发明实施例中，使用视觉里程计持续跟踪并获取相机的俯仰角，根据计算出的俯仰角矫正图像使得图像的视觉效果变为训练数据中常见的视角，然后将矫正后的图像采用基于星形卷积的单目检测模块可靠地输出图像中感兴趣的目标对象。本发明实施例能够消除相机姿态对目标检测结果的影响，增强单目检测算法对相机内参的鲁棒性，解决单目检测算法不能与相机的内部参数以及位置参数解耦合的问题。

实施例二

请参阅图7，图7是本发明实施例提供的一种目标检测装置的结构示意图，本发明实施例提供一种目标检测装置200，该装置200包括：

原始信息获取模块21，用于获取所述相机采集的连续帧图像。

变换矩阵获取模块22，用于根据所述连续帧图像获取所述相机姿态的变换矩阵。请参阅图8，图8是本发明实施例提供的变换矩阵获取模块的结构示意图，所述变换矩阵获取模块22包括：初始位姿获取单元221，用于获取上一帧图像对应所述相机的初始化位姿；坐标获取单元222，用于分别对所述上一帧图像和所述当前帧图像进行特征提取，得到所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标；特征匹配单元223，用于对所述上一帧图像中特征点和所述当前帧图像中特征点进行特征匹配；变换矩阵获取单元224，用于根据匹配后的所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标以及相机的内参计算上一帧相机与当前帧相机姿态的变换矩阵。

图像矫正模块23，用于根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像。请参阅图9，图9是本发明实施例提供的图像矫正模块的结构示意图，所述图像矫正模块23包括：当前位姿获取单元231，用于根据所述初始化位姿和所述变换矩阵获取所述相机的当前位姿；位姿补偿单元232，用于根据所述相机的初始化位姿、所述相机的当前位姿及所述变换矩阵对所述当前帧图像进行逆变换以矫正当前帧图像。

初始预测模块24，用于基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息。

最终预测模块25，用于根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。

需要说明的是，上述目标检测装置可执行本发明实施例所提供的目标检测方法，未在目标检测装置实施例中详尽描述的技术细节，可参见本发明实施例所提供的目标检测方法。

在本发明实施例中，使用视觉里程计持续跟踪并获取相机的位姿，根据位姿矫正图像使得图像的视觉效果变为训练数据中常见的视角，然后将矫正后的图像采用基于星形卷积的单目检测模块可靠地输出图像中感兴趣的目标对象。本发明实施例能够消除相机姿态对目标检测结果的影响，增强单目检测算法对相机内参的鲁棒性，解决单目检测算法不能与相机的内部参数以及位置参数解耦合的问题。

实施例三

本发明实施例还提供一种智能车辆，请参阅图10，图10是本发明实施例提供的智能车辆的结构框图，其示出了能够执行图1至图6所述的目标检测方法的智能车辆的硬件结构。

所述智能车辆300包括：相机31；至少一个处理器32；以及存储器33，所述存储器33、所述相机31分别与所述处理器32通信连接，所述存储器33存储有可被所述至少一个处理器32执行的指令，所述指令被所述至少一个处理器32执行，以使所述至少一个处理器32能够执行上述实施例中所述的目标检测方法。

处理器32和存储器33可以通过总线或其他方式连接，图10中以通过总线连接为例，存储器33作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器32通过运行存储在存储器33中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，即实现上述实施例中所述的目标检测方法。

存储器33可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储智能车辆使用所创建的数据等。此外，存储器33可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器33可选包括相对于处理器32远程设置的存储器33。这些远程存储器33可以通过网络连接至智能车辆300。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器33中，当被所述一个或者多个处理器32执行时，执行上述任意实施例中的目标检测方法，例如，执行图1至图6中的方法步骤。

上述产品可执行本发明实施例所提供的目标检测方法，具备执行所述目标检测方法相应的功能模块。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的目标检测方法。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种目标检测方法，应用于智能车辆，所述智能车辆设有相机，其特征在于，所述方法包括：

获取所述相机采集的连续帧图像；

根据所述连续帧图像获取所述相机姿态的变换矩阵；

根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像；

基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息；

根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述连续帧图像获取所述相机姿态的变换矩阵，包括：

获取上一帧图像对应所述相机的初始化位姿；

分别对所述上一帧图像和所述当前帧图像进行特征提取，得到所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标；

对所述上一帧图像中特征点和所述当前帧图像中特征点进行特征匹配；

根据匹配后的所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标以及相机的内参计算上一帧相机与当前帧相机姿态的变换矩阵。

3.根据权利要求2所述的方法，其特征在于，所述根据所述变换矩阵矫正当前帧图像，包括：

根据所述初始化位姿和所述变换矩阵获取所述相机的当前位姿；

根据所述相机的初始化位姿、所述相机的当前位姿及所述变换矩阵对所述当前帧图像进行逆变换以矫正当前帧图像。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息，包括：

从所述矫正后的图像中提取特征图；

根据所述特征图得到所述目标对象的初始三维信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息，包括：

根据所述初始三维信息和所述相机的内参确定所述目标对象的八个角点在所述图像上的投影位置；

基于所述投影位置确定修正后的特征图；

根据所述修正后的特征图确定所述目标对象的最终三维信息。

6.根据权利要求5所述的方法，其特征在于，所述根据所述初始三维信息和所述相机的内参确定所述目标对象的八个角点在所述图像上的投影位置，包括：

根据所述相机的内参获取内参矩阵P；

根据所述初始三维信息和所述内参矩阵P计算所述八个角点中每一角点的投影位置。

7.一种目标检测装置，应用于智能车辆，所述智能车辆设有相机，其特征在于，所述目标检测装置包括：

原始信息获取模块，用于获取所述相机采集的连续帧图像；

变换矩阵获取模块，用于根据所述连续帧图像获取所述相机姿态的变换矩阵；

图像矫正模块，用于根据所述变换矩阵矫正当前帧图像，以获得矫正后的图像；

初始预测模块，用于基于单目检测算法和所述矫正后的图像输出得到目标对象的初始三维信息；

最终预测模块，用于根据所述初始三维信息、所述单目检测算法以及所述相机的内参，确定所述目标对象的最终三维信息。

8.根据权利要求7所述的装置，其特征在于：所述变换矩阵获取模块包括：

初始位姿获取单元，用于获取上一帧图像对应所述相机的初始化位姿；

坐标获取单元，用于分别对所述上一帧图像和所述当前帧图像进行特征提取，得到所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标；

特征匹配单元，用于对所述上一帧图像中特征点和所述当前帧图像中特征点进行特征匹配；

变换矩阵获取单元，用于根据匹配后的所述上一帧图像中特征点的坐标和所述当前帧图像中特征点的坐标以及相机的内参计算上一帧相机与当前帧相机姿态的变换矩阵。

9.根据权利要求7所述的装置，其特征在于：所述图像矫正模块包括：

当前位姿获取单元，用于根据所述初始化位姿和所述变换矩阵获取所述相机的当前位姿；

位姿补偿单元，根据所述相机的初始化位姿、所述相机的当前位姿及所述变换矩阵对所述当前帧图像进行逆变换以矫正当前帧图像。

10.一种智能车辆，其特征在于，所述智能车辆包括：

相机；

至少一个处理器；以及存储器，所述存储器、所述相机分别与所述处理器通信连接，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。