CN115375985A

CN115375985A - 非限定类别障碍物检测方法、相关网络训练方法及装置

Info

Publication number: CN115375985A
Application number: CN202211311125.7A
Authority: CN
Inventors: 张诚成; 马子昂; 刘征宇
Original assignee: Hangzhou Huacheng Software Technology Co Ltd
Current assignee: Hangzhou Huacheng Software Technology Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2022-11-22
Anticipated expiration: 2042-10-25
Also published as: CN115375985B

Abstract

本申请公开了一种非限定类别障碍物检测方法、相关网络训练方法及装置，其中，非限定类别障碍物检测方法包括：基于双目相机获取到第一检测图像和第二检测图像；利用三维检测网络对第一检测图像和第二检测图像进行网络学习得到目标的类别信息、目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标；基于目标的类别信息确定计算目标的三维位置信息；利用目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标计算得到目标的三维位置信息。通过上述方法，用于识别障碍物的位置和类别。

Description

非限定类别障碍物检测方法、相关网络训练方法及装置

技术领域

本申请涉及机器人技术领域，特别是涉及一种非限定类别障碍物检测方法、相关网络训练方法及装置。

背景技术

室内机器人的日渐普及，主要代表扫地机器人，给人们带来了越来越多的生活便利。扫地机器人在室内首先对室内环境进行建图，在此基础上进行路径规划制定合理的清扫路线。清扫过程中需对运行路线上的障碍物进行检测识别，使扫地机具备避障能力。常用的障碍物检测是通过传感器完成，目前常用的传感器包括带距离反馈的传感器：激光雷达、深度相机（ToF、双目、结构光）；视觉传感器：RGB相机等。

基于RGB相机的障碍物检测主要使用AI技术，通过深度学习对环境中的特定目标进行识别定位，例如鞋子、体重秤、猫狗宠物等。基于激光雷达和深度相机的障碍物检测方法主要是对激光数据、深度相机点云数据进行预处理、地面分割、聚类等操作，识别出障碍物点云数据，进而得到障碍物的相关信息。

使用RGB相机，以及相对应的深度学习目标检测算法，可以检测指定类别的室内障碍物。例如室内场景的垃圾桶、拖鞋等类别。这种方法的缺点是只能检测固定类别的目标，训练过程中使用的训练的目标类别数与最终能够检测出的类别数保持一致。因此，目前使用RGB相机AI检测无法检测未知类别的障碍物，只起到辅助、优化、细分障碍物检测的作用，无法单独使用。同时，RGB相机无法提供目标的3D信息。

发明内容

本申请主要解决的技术问题是提供一种非限定类别障碍物检测方法、相关网络训练方法及装置，用于识别障碍物的位置和类别。

为了解决上述技术问题，本申请第一方面提供了一种三维检测网络训练方法，所述三维检测网络包括区域候选检测子网络，所述三维检测网络训练方法包括：对第一图像进行特征提取得到第一特征图，以及对第二特征图像进行特征提取得到第二特征图；其中，所述第一图像和所述第二图像为针对同一目标区域在不同采集方向采集的两帧图像；将所述第一特征图与所述第二特征图进行特征融合，并利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域；基于所述第一目标候选区域与所述第二目标候选区域中相同类别的目标候选区域的第一余弦距离，以及不同类别的目标候选区域的第二余弦距离；按照预设训练条件，利用所述第一余弦距离和所述第二余弦距离对所述三维检测网络进行训练。

其中，所述预设训练条件为所述第一余弦距离与所述第二余弦距离的差值越来越小，直至达到训练阈值。

其中，所述利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域，包括：利用所述区域候选检测子网络对特征融合后的特征图进行处理，得到多个目标候选框及其分类类别、分类得分；将分类类别为预设类别，且分类得分大于等于预设得分的目标候选框对应的区域，标记为所述预设类别的第一目标候选区域；获取标记目标框；将与所述标记目标框重叠率小于等于预设重叠率，且分类得到大于等于预设得分的目标候选框对应的区域，标记为所述其余类别的第二目标候选区域。

其中，所述三维检测网络还包括类别检测子网络；所述利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域之后，所述三维检测网络训练方法还包括：将所述区域候选检测子网络输出的候选区域信息与所述第一特征图、所述第二特征图进行融合，得到第一融合特征图；将所述第一融合特征图输入所述类别检测子网络；利用所述类别检测子网络对所述第一融合特征图中的目标，进行类别预设，并按照预设的类别给每个分类输出分配相应的能量值，其中，对预测为预设类别的分类输出分配第一能量值，对预测为其余类别的分类输出分配第二能量值，所述第一能量值小于所述第二能量值；利用所有分配能量值后的分类输出的总和，对所述三维检测网络进行训练。

其中，所述三维检测网络还包括位置回归子网络；所述利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域之后，所述三维检测网络训练方法还包括：将所述区域候选检测子网络输出的候选区域信息与所述第一特征图、所述第二特征图进行融合，得到第二融合特征图；将所述第二融合特征图输入所述位置回归子网络；利用所述位置回归子网络对所述第二融合特征图中的目标，进行位置预设，得到目标的预测位置参数；利用所述目标的预测位置参数和标记位置参数的差值，对所述三维检测网络进行训练。

其中，所述三维检测网络还包括关键点子网络；所述利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域之后，所述三维检测网络训练方法还包括：将所述区域候选检测子网络输出的候选区域信息与所述第一特征图或者所述第二特征图进行融合，得到第三融合特征图；将所述第三融合特征图输入所述关键点子网络；利用所述关键点子网络对所述第三融合特征图中的目标，进行关键点预设，得到目标的关键点参数；利用所述目标的关键点参数与目标位置框参数的差值，对所述三维检测网络进行训练。

其中，所述三维检测网络训练方法还包括：基于双目相机获取第一初始图像和第二初始图像；利用所述第一初始图像和所述第二初始图像对所述双目相机进行标定，以使所述双目相机针对同一目标区域在不同采集方向采集到所述第一图像和所述第二图像。

为了解决上述问题，本申请第二方面提供一种非限定类别障碍物检测方法，其中，所述非限定类别障碍物检测方法包括：基于双目相机获取到第一检测图像和第二检测图像；利用三维检测网络对所述第一检测图像和所述第二检测图像进行网络学习得到目标的类别信息、目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标；其中，所述三维检测网络是通过上述三维检测网络训练方法得到的三维检测网络；基于所述目标的类别信息确定计算所述目标的三维位置信息；利用所述目标在第一检测图像的位置信息、所述目标在第二检测图像的位置信息以及所述关键点的位置坐标计算得到目标的三维位置信息；所述三维位置信息包括所述目标的中心点坐标和旋转角。

其中，所述类别信息包括目标的分类得分；所述基于所述目标的类别信息确定计算所述目标的三维位置信息，包括：基于所述目标的分类得分确定所述目标为障碍物或非障碍物；基于所述目标为障碍物，利用所述目标在第一检测图像的位置信息、所述目标在第二检测图像的位置信息以及所述关键点的位置坐标计算得到所述障碍物的三维位置信息。

其中，所述三维检测网络包括骨干子网络、区域候选检测子网络、类别检测子网络、位置回归子网络以及关键点检测子网络；所述利用三维检测网络对所述第一检测图像和所述第二检测图像进行网络学习得到目标的类别信息、目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标，包括：利用所述骨干子网络对第一检测图像进行特征提取得到第一特征图，以及对第二检测图像进行特征提取得到第二特征图；将所述第一特征图和所述第二特征图进行特征融合，并利用所述区域候选检测子网络对特征融合后的特征进行处理得到预设类别的第一目标候选区域以及其余类别的第二目标候选区域；将所述区域候选检测子网络输出的候选区域信息与第一特征图、第二特征图进行融合，得到第四融合特征图，并利用所述类别检测子网络对所述第四融合特征图中的目标进行类别检测，得到目标的类别信息；以及，将所述区域候选检测子网络输出的候选区域信息与第一特征图、第二特征图进行融合，得到第五融合特征图，并利用所述位置回归子网络对所述第五融合特征图中的目标进行位置检测，得到目标在检测图像中的位置信息，其中，所述目标在检测图像中的位置信息包括目标在第一检测图像的位置信息以及目标在第二检测图像的位置信息；以及，将所述区域候选检测子网络输出的候选区域信息与第一特征图和第二特征图中的一个进行融合，得到第六融合特征图，并利用所述关键点检测子网络对所述第六融合特征图中的目标进行关键点检测，得到关键点的位置坐标。

为了解决上述技术特征，本申请第三方面还提供一种终端设备，该终端设备包括相互耦接的处理器和存储器，存储器用于存储程序指令，处理器用于执行存储器存储的程序指令以实现上述第一方面的三维检测网络训练方法或第二方面的非限定类别障碍物检测方法。

为了解决上述技术特征，本申请第四方面还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，用于实现上述第一方面的三维检测网络训练方法或第二方面的非限定类别障碍物检测方法。

本申请的有益效果是：基于双目相机获取到第一检测图像和第二检测图像，利用三维检测网络对第一检测图像和第二检测图像进行网络学习得到目标的类别信息、目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标，并基于目标的类别信息确定是否计算目标的三维位置信息，然后再利用目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标计算得到目标的三维位置信息，从而使机器人根据目标的三维位置信息制定避障策略，以对目标进行主动规避。

附图说明

图1为本申请三维检测网络训练方法一实施例的流程示意图；

图2为本申请步骤S12一具体实施方式的流程示意图；

图3为非限定类别障碍物检测方法一实施例的流程示意图；

图4为图3中步骤S32一具体实施方式的流程示意图；

图5为本申请非限定类别障碍物检测网络的结构示意图；

图6为本申请中终端设备一实施例结构示意图；

图7为一种计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

应当理解，本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请提供一种三维检测网络训练方法，请参阅图1，图1为本申请三维检测网络训练方法一实施例的流程示意图。如图1所示，该三维检测网络训练方法包括：

步骤S11：对第一图像进行特征提取得到第一特征图，以及对第二图像进行特征提取得到第二特征图。

其中，第一图像和第二图像是针对同一目标区域在不同采集方向采集到的两帧图像。在本实施例中，具体是通过双目相机对目标区域进行采集得到的。

在一些实施例中，本步骤之前包括：基于双目相机获取第一初始图像和第二初始图像，利用第一初始图像和第二初始图像对双目相机进行标定，以使双目相机针对同一目标区域在不同采集方向采集到第一图像和第二图像。

其中，双目相机由两个平行设置的单目相机组成。对双目相机进行标定的步骤包括：分别对两个单目相机进行畸变标定，以去除单目相机的切向畸变和径向畸变。还包括对双目相机进行位置标定，使两个单目相机的光轴平行、高度一致，从而使双目相机对同一目标区域进行采集图像。

其中，第一图像和第二图像可以是从双目相机采集的视频流中截取的同一帧图像。

本步骤具体包括：利用骨干子网络分别对第一图像和第二图像进行特征提取，得到第一特征图和第二特征图。其中，第一图像和第二图像的尺寸相同。假设输入骨干子网络进行特征提取的图像尺寸为3×H×W，其中，H为图片高，W为图片宽，输出的特征图像的尺寸为C×H₁×W₁，其中，C为特征图通道数，H₁为特征图高，W₁为特征图宽。H₁和H以及W₁和W可以相同，也可以不同。

步骤S12：将第一特征图与第二特征图进行特征融合，并利用区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域。

其中，第一特征图与第二特征图进行特征融合的步骤具体包括将第一特征图和第二特征图进行通道累加得到融合特征图，将融合特征图输入至RPN网络（区域候选检测子网络），利用RPN网络对融合特征图进行处理，得到预设类别的第一目标候选区域以及其余类别的第二目标候选区域。

其中，预设类别为前景，其余类别为背景。在本实施例中，前景是指已知类别障碍物，背景包括潜在的未知类别障碍物和非障碍物。在本实施例中，非限定障碍物类别是指不限定障碍物类别，包括已知类别障碍物和未知类别障碍物。

其中，第一目标候选区域和第二目标候选区域均可包括多个。在本实施例中，可同时对多个目标障碍物进行检测。

进一步地，请参阅图2，图2为本申请步骤S12一具体实施方式的流程示意图。如图2所示，步骤S12包括：

步骤S21：利用区域候选检测子网络对特征融合后的特征图进行处理，得到多个目标候选框及其分类类别、分类得分。

其中，分类类别包括前景和背景。目标候选框为候选区域，是指基于网络筛选出的目标可能存在的位置区域。

具体包括：将融合后的特征图进行通道累加后得到2C×H₁×W₁的特征图，并输入区域候选检测子网络进行处理，输出尺寸为A×（C×P）×H₂×W₂的图像。其中，A为目标候选框的个数；C为类别个数，在本实施例中，C为1，C为1是指为预设类别，C为0是指为其余类别；P为位置回归量，在本实施例中，P为6，包括第一图像水平方向的位置偏移量以及第二图像水平方向的位置偏移量；H₂、W₂为特征图的高和宽。

步骤S22：将分类类别为预设类别，且分类得分大于等于预设得分的目标候选框对应的区域，标记为预设类别的第一目标候选区域。

其中，预设得分可以根据用户进行设定。

其中，预设类别包括已经确定为障碍物的已知类别障碍物和未知类别障碍物。

步骤S23：获取标记目标框。

其中，标记目标框是指目标在第一图像和第二图像中的真实位置框。在本实施例中，标记目标框为同一目标在第一图像和第二图中的最大位置框。具体地，取同一目标在第一图像中真实存在的位置和第二图像中真实存在的位置的并集得到标记目标框。

步骤S24：将与标记目标框重叠率小于等于预设重叠率，且分类得分大于等于预设得分的目标候选框对应的区域，标记为其余类别的第二目标候选区域。

其中，预设重叠率接近为零。在本实施例中，预设重叠率为0.3，也可以为其它数值。将与标记目标框重叠率小于等于0.3、且分类得分大于等于预设得分的目标候选框对应的区域，标记为其余类别的第二目标候选区域。即是指从第二目标候选区域中选出K个不与标记目标框重叠的、且分类得分大于等于预设得分的目标候选框对应的区域标记为潜在的未知类别目标。潜在的未知类别目标区域是指可能存在目标对象的区域。

其中，其余类别的第二目标候选区域包括未知类别的区域和非障碍物区域。

步骤S13：基于第一目标候选区域与第二目标候选区域获取相同类别的目标候选区域的第一余弦距离，以及不同类别的目标候选区域的第二余弦距离。

具体包括在特征空间上对不同类别的目标进行对比，基于第一目标候选区域与第二目标候选区域进行同类别和不同类别的比对，获得相同类别的目标候选区域的第一余弦距离，以及不同类别的目标候选区域的第二余弦距离。

步骤S14：按照预设训练条件，利用第一余弦距离和第二余弦距离对三维检测网络进行训练。

其中，预设训练条件为第一余弦距离与第二余弦距离的差值越来越小，直至达到训练阈值。

具体地采用Smooth L1 Loss损失函数对第一余弦距离和第二余弦距离进行训练。

具体地，使第一余弦距离越来越小，第二余弦距离越来越大，直到达到训练阈值。

具体地，类别对比损失函数

，其中，d_p为相同类别的第一余弦距离，d_n为不同类别的第二余弦距离，α为阈值，接近为零。其中，

，即当d_p-d_n+α大于0时，L_Trip=d_p-d_n+α，当小于0时，L_Trip=0。由于α无限小，当d_p小于d_n时，此时，L_Trip=0，相同类别的余弦距离小于不同类别的余弦距离，满足要求。当d_p大于d_n时，此时，L_Trip=d_p-d_n+α，要求d_p-d_n的差值尽量接近α，即尽量的小直至达到预设阈值α。

具体地，三维检测网络包括区域候选检测子网络。利用第一余弦距离和第二余弦距离对三维检测网络进行训练得到的区域候选检测子网络能检测出图像上的候选区域，该候选区域包括预设类别的第一目标候选区域和其余类别的第二目标候选区域。在本实施例中，基于三维检测网络能检测到图像上的是否有目标障碍物以及目标障碍物的分类类别和分类得分。

在另一实施方式中，三维检测网络还可以包括类别检测子网络、位置回归子网络以及关键点检测子网络等子网络。此时，三维检测网络中的损失函数为类别对比损失、二分类类别损失以及位置回归损失的和。其中，类别对比损失为L_Trip，二分类类别损失为类别检测子网络中的损失函数，位置回归损失为位置回归子网络中的损失函数。其中，损失函数均采用Smooth L1 Loss函数进行计算。

类别检测子网络的训练方法具体地包括：将区域候选检测子网络输出的候选区域信息与第一特征图、第二特征图进行融合，得到第一融合特征图；将第一融合特征图输入类别检测子网络，并利用类别检测子网络对第一融合特征图中的目标进行类别预设，并按照预设的类别给每个分类输出分配相应的能量值，其中，对预测为预设类别的分类输出分配第一能量值，对预测为其余类别的分类输出分配第二能量值，第一能量值小于第二能量值；然后利用所有分配能量值后的分类输出的总和对三维检测网络的类别检测子网络进行训练。其中，第一能量值和第二能量值可以不为具体值，第一能量值为低能量值，第二能量值为高能量值。类别检测子网络包括EBM（能量模型）网络。融合特征图包括候选区域与第一特征图融合后的特征图以及候选区域与第二特征图融合后的特征图。

位置回归子网络的训练方法具体地包括：将区域候选检测子网络输出的候选区域信息与第一特征图、第二特征图进行融合，得到第二融合特征图；将第二融合特征图输入位置回归子网络，利用位置回归子网络对第二融合特征图中的目标进行位置预设，得到目标的预测位置参数；然后利用目标的位置参数和标记位置参数的差值，对三维检测网络的位置回归子网络进行训练。其中，融合特征图包括候选区域与第一特征图融合后的特征图以及候选区域与第二特征图融合后的特征图。目标的位置参数包括目标在第一图像和第二图像中的二维位置信息和三维位置信息。标记位置参数包括标记目标框在第一图像和第二图像中的二维位置信息和三维位置信息。

关键点检测子网络的训练方法包括：将区域候选检测子网络输出的候选区域信息与第一特征图和第二特征图中的一个进行融合，得到第三融合特征图；将第三融合特征图输入关键点子网络，利用关键点检测子网络对第三融合特征图中的目标进行关键点预设，得到目标的关键点参数；然后利用目标的关键点参数与目标位置框参数的差值，对三维检测网络的关键点检测子网络进行训练。其中，目标位置框参数是指目标在三维边框底部的四个角点信息。目标的关键点参数是目标在二维边框上的一个点的信息。为了保证关键点的唯一性，仅使用第一图像或第二图像中的一个进行预测即可。

在另一实施方式中，三维检测网络的损失函数为二分类类别损失函数、位置回归损失函数以及类别对比损失函数的和。

其中，分类损失函数为

。其中，

为网络输出中第i个分类输出；T为温度参量。

其中，位置回归损失函数、类别对比损失函数以及关键点检测的损失函数均利用Smooth L1 Loss函数进行计算。

在另一实施方式中，经过区域候选检测子网络、别检测子网络、位置回归子网络以及关键点检测子网络等子网络模型训练后得到的三维检测网络能对图像上的障碍物类别进行检测，还能得到障碍物位置信息。

本实施例的有益效果是：通过输入第一图像和第二图像，并进行特征提取得到第一特征图和第二特征图，将第一特征图和第二特征图进行特征融合，并利用区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域以及其余类别的第二目标候选区域，基于第一目标候选区域与第二目标候选区域获得相同类别的目标候选区域的第一余弦距离以及不同类别的目标候选区域的第二余弦距离；并按照预设训练条件，利用第一余弦距离和第二余弦距离对三维检测网络进行训练，以使三维检测网络能基于第一图像和第二图像识别出图像中同一目标的分类类别以及分类得分。

本申请还提供一种非限定类别障碍物检测方法，具体请参阅图3，图3为非限定类别障碍物检测方法一实施例的流程示意图。如图3所示，非限定类别障碍物检测方法包括：

步骤S31：基于双目相机获取到第一检测图像和第二检测图像。

其中，第一检测图像和第二检测图像与三维检测网络训练方法中的第一图像和第二图像无关联。

本步骤包括：对双目相机的两个单相机进行畸变标定，以去除两个单相机的径向畸变和切向畸变；再对双目相机进行位置标定，使两个单相机的光轴平行且高度一致，以形成双目相机。其中，双目相机是从两个不同方向上对同一目标进行采集的相机。

步骤S32：利用三维检测网络对第一检测图像和第二检测图像进行网络学习得到目标的类别信息、目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标。

在本实施例中，目标是指目标障碍物，包括已知类别的目标障碍物和未知类别的目标障碍物以及非目标障碍物。

其中，三维检测网络至少包括骨干子网络、区域候选检测子网络、类别检测子网络、位置回归子网络、关键点检测子网络，还可以包括损失函数子网络。其中，三维检测网络是由多个子网络拼接并通过三端到端深度学习方法得到的。需要说明的是，端到端的深度学习模型在训练过程中，从输入端（输入数据）到输出端会得到一个预测结果，与真实结果相比较会得到一个误差，这个误差会在模型中的每一层传递（反向传播），每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束。

进一步地，具体请参阅图4，图4为图3中步骤S32一具体实施方式的流程示意图。如图4所示，步骤S32进一步包括：

步骤S41：利用骨干子网络对第一检测图像进行特征提取得到第一特征图，以及对第二检测图像进行特征提取得到第二特征图。

其中，骨干子网络是用于对检测图像进行特征提取，并去除检测图像中的噪声等无用信息。

步骤S42：将第一特征图和第二特征图进行特征融合，并利用区域候选检测子网络对特征融合后的特征进行处理得到候选区域信息。

其中，候选区域信息包括预设类别的第一目标候选区域，以及其余类别的第二目标候选区域。预设类别为目标障碍物，其余类别为背景障碍物。在本实施例中，目标障碍物是需要避障的障碍物，包括已知类别障碍物和未知类别障碍物，背景障碍物包括潜在的未知类别障碍物和非障碍物。

候选区域信息还包括第一目标候选区域和第二目标候选区域的分类类别及分类得分。

具体包括：利用区域候选检测子网络对特征融合后的特征图进行处理得到多个目标候选框；分别将目标候选框与同一目标的标记目标框进行比对，得到目标候选框的分类得分以及目标候选框相对于第一检测图像和第二检测图像的位置偏移量；将分类得分大于等于预设得分的目标候选框对应的区域标记为预设类别的第一目标候选区域，将与标记目标框重叠率小于等于预设重叠率，且分类得分大于等于预设得分的目标候选框对应的区域标记为其余类别的第二目标候选区域。从而获得目标候选框及其分类类别、分类得分等候选区域信息。

步骤S43：将区域候选检测子网络输出的候选区域信息与第一特征图、第二特征图进行融合，得到第四融合特征图，并利用类别检测子网络对第四融合特征图中的目标进行类别检测，得到目标的类别信息；以及将区域候选检测子网络输出的候选区域信息与第一特征图、第二特征图进行融合，得到第五融合特征图，并利用位置回归子网络对第五融合特征图中的目标进行位置检测，得到目标在检测图像中的位置信息；以及将区域候选检测子网络输出的候选区域信息与第一特征图和第二特征图中的一个进行融合，得到第六融合特征图，并利用关键点检测子网络对第六融合特征图中的目标进行关键点检测，得到关键点的位置坐标。

其中，类别检测子网络包括能量网络模型。具体地，利用能量网络模型给每个分类分配相应的能量值，基于能量值的高低确定目标的分类是属于未知类别还是已知类别以及非目标类别。

其中，位置回归子网络和关键点检测子网络的损失采用Smooth L1 Loss进行计算。

在本实施例中，关键点的位置坐标是指关键点的横坐标。需要说明的是：为了保证关键点的唯一性，由于经过标定矫正后的第一检测图像和第二检测图像在同一水平上，因此关键点检测子网络输出的关键点只有一个横坐标。

其中，目标的类别信息包括目标的分类类别及分类得分，分类类别包括已知障碍物类别、未知障碍物类别以及非障碍物类别。分类得分的高度用于判断目标为分类类别的哪一类。目标在检测图像中的位置信息包括目标在第一检测图像的位置信息以及目标在第二检测图像的位置信息，再具体是指位置坐标信息。关键点的位置坐标是指关键点的横坐标。其中，关键点是位于标记目标框边界上的一个点。

步骤S33：基于目标的类别信息确定计算目标的三维信息。

具体包括基于目标的分类得分确定目标为障碍物或非障碍物。若为障碍物，则利用目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标计算得到障碍物的三维位置信息。若为非障碍物，则可不计算目标的三维位置信息，也不对目标进行规避操作。

步骤S34：利用目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标计算得到目标的三维位置信息。

其中，三维位置信息包括目标的中心点坐标和旋转角。

具体地，利用高斯-牛顿求解目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标与目标的心点坐标和旋转角的对应关系公式。

其中，目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标与目标的心点坐标和旋转角的对应关系公式包括：

；

；

；

；

；

；

。

其中，

，

为目标在第一检测图像中的左上坐标，

，

为目标在第一检测图像中的右下坐标；

，

分别为目标在第二检测图像中的左上的x轴方向坐标和右下的x轴方向坐标；u为关键点的x轴方向坐标。x轴方向坐标是指横坐标。由于第一检测图像和第二检测图像是在同一水平线上采集到的检测图像，因此，在竖直方向上的坐标相同。 {x，y，z，θ}是指目标的中心点坐标和旋转角。

步骤S35：根据目标的三维位置信息制定避障策略，对目标进行规避。

其中，避障策略包括提前避障、绕障或者减速靠近或者通过等策略。

本实施例的有益效果是：通过三维检测网络可以获得目标的类别信息、目标在检测图像中的位置信息以及关键点信息，从而根据目标是否为障碍物确定计算目标障碍物在空间的三维位置信息，从而规避目标障碍物。其中，目标障碍物还包括未知类别的目标障碍物，从而提高机器人的避障能力。

本申请还提供一种基于三维检测网络的非限定类别障碍物检测方法的网络结构，具体请参阅图5，图5为本申请非限定类别障碍物检测网络的结构示意图。如图5所示，非限定类别障碍物检测网络包括两个骨干子网络51、区域候选检测子网络52、类别检测子网络53、位置回归子网络54、关键点检测子网络55、三维计算网络56以及中间过渡网络501。

具体地，将第一检测图像和第二检测图像输入至两个骨干子网络51进行特征提取，得到第一特征图和第二特征图。将第一特征图和第二特征图进行特征融合后输入至区域候选检测子网络52进行候选区域的选定，得到候选区域信息。再通过中间过渡网络501将候选区域信息分别与第一特征图和第二特征图进行融合得到第一融合特征图和第二融合特征图，并将第一融合特征图和第二融合特征图进一步融合，并输送至类别检测子网络53和位置回归子网络54进行处理得到目标的类别信息和目标在检测图像中的位置信息。利用关键点检测子网络55对第一融合特征图或第二融合特征图进行处理，得到关键点的位置坐标。最后，利用三维计算网络56对获得的目标的类别信息和目标在检测图像中的位置信息以及关键点的位置坐标确定计算目标为障碍物，并计算目标障碍物的三维位置信息。三维位置信息包括目标障碍物的中心点坐标和旋转角。

本申请还提供一种终端设备，请参阅图6，图6为本申请中终端设备一实施例结构示意图。

终端设备60包括相互耦接的处理器61和存储器62，处理器61用于执行存储器62存储的程序指令以实现上述任一方法实施例中的步骤或者上述任一方法实施例中三维检测网络训练方法或非限定类别障碍物检测方法对应执行的步骤。该终端除包括上述处理器和存储器之外，还可根据需求包括触摸屏、打印组件、通信电路等，在此不做限定。在一些实施例中，该终端设备可以是移动机器人，如扫地机器人。

具体而言，处理器61用于控制其自身以及存储器62以实现上述任一三维检测网络训练方法或非限定类别障碍物检测方法实施例中的步骤。处理器61还可以称为CPU（Central Processing Unit，中央处理单元）。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器（Digital SignalProcessor, DSP）、专用集成电路（Application Specific Integrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable Gate Array, FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器61可以由多个集成电路芯片共同实现。

本申请还提供一种计算机可读存储介质，请参阅图7，图7为一种计算机可读存储介质一实施例的结构示意图。

计算机可读存储介质70包括其上存储的计算机程序701，计算机程序701被上述处理器执行时实现上述任一方法实施例中的步骤或者上述方法实施例中三维检测网络训练方法或非限定类别障碍物检测方法对应执行的步骤。

具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质70中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质70中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种三维检测网络训练方法，其特征在于，所述三维检测网络应用于非限定类别障碍物的类别检测，所述三维检测网络包括区域候选检测子网络，所述三维检测网络训练方法包括：

对双目相机拍摄到的第一图像和第二图像进行特征提取分别得到第一特征图和第二特征图；其中，所述第一图像和所述第二图像为所述双目相机针对同一目标区域在不同采集方向上采集到的两帧图像；

将所述第一特征图与所述第二特征图进行特征融合，并利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域；

基于所述第一目标候选区域与所述第二目标候选区域获得相同类别的目标候选区域的第一余弦距离，以及不同类别的目标候选区域的第二余弦距离；

按照预设训练条件，利用所述第一余弦距离和所述第二余弦距离对所述三维检测网络进行训练。

2.根据权利要求1所述的三维检测网络训练方法，其特征在于，

所述预设训练条件为所述第一余弦距离与所述第二余弦距离的差值越来越小，直至达到训练阈值。

3.根据权利要求1或2所述的三维检测网络训练方法，其特征在于，

所述利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域，包括：

利用所述区域候选检测子网络对特征融合后的特征图进行处理，得到多个目标候选框及其分类类别、分类得分；

将分类类别为预设类别，且分类得分大于等于预设得分的目标候选框对应的区域，标记为所述预设类别的第一目标候选区域；

获取标记目标框；

将与所述标记目标框重叠率小于等于预设重叠率，且分类得分大于等于预设得分的目标候选框对应的区域，标记为所述其余类别的第二目标候选区域。

4.根据权利要求1所述的三维检测网络训练方法，其特征在于，

所述三维检测网络还包括类别检测子网络；

所述利用所述区域候选检测子网络对特征融合后的特征图进行处理得到预设类别的第一目标候选区域，以及其余类别的第二目标候选区域之后，所述三维检测网络训练方法还包括：

将所述区域候选检测子网络输出的候选区域信息与所述第一特征图、所述第二特征图进行融合，得到第一融合特征图；

将所述第一融合特征图输入所述类别检测子网络；

利用所述类别检测子网络对所述第一融合特征图中的目标，进行类别预设，并按照预设的类别给每个分类输出分配相应的能量值，其中，对预测为预设类别的分类输出分配第一能量值，对预测为其余类别的分类输出分配第二能量值，所述第一能量值小于所述第二能量值；

利用所有分配能量值后的分类输出的总和，对所述三维检测网络进行训练。

5.根据权利要求1所述的三维检测网络训练方法，其特征在于，

所述三维检测网络还包括位置回归子网络；

将所述区域候选检测子网络输出的候选区域信息与所述第一特征图、所述第二特征图进行融合，得到第二融合特征图；

将所述第二融合特征图输入所述位置回归子网络；

利用所述位置回归子网络对所述第二融合特征图中的目标，进行位置预设，得到目标的预测位置参数；

利用所述目标的预测位置参数和标记位置参数的差值，对所述三维检测网络进行训练。

6.根据权利要求1所述的三维检测网络训练方法，其特征在于，

所述三维检测网络还包括关键点检测子网络；

将所述区域候选检测子网络输出的候选区域信息与所述第一特征图和所述第二特征图中的一个进行融合，得到第三融合特征图；

将所述第三融合特征图输入所述关键点检测子网络；

利用所述关键点检测子网络对所述第三融合特征图中的目标，进行关键点预设，得到目标的关键点参数；

利用所述目标的关键点参数与目标位置框参数的差值，对所述三维检测网络进行训练。

7.根据权利要求1所述的三维检测网络训练方法，其特征在于，所述三维检测网络训练方法还包括：

基于双目相机获取第一初始图像和第二初始图像；

利用所述第一初始图像和所述第二初始图像对所述双目相机进行标定，以使所述双目相机针对同一目标区域在不同采集方向采集到所述第一图像和所述第二图像。

8.一种非限定类别障碍物检测方法，其特征在于，所述非限定类别障碍物检测方法包括：

基于双目相机获取到第一检测图像和第二检测图像；

利用三维检测网络对所述第一检测图像和所述第二检测图像进行网络学习得到目标的类别信息、目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标；其中，所述三维检测网络为采用权利要求1-7中任一项所述的三维检测网络训练方法得到的三维检测网络；

基于所述目标的类别信息确定计算所述目标的三维位置信息；

利用所述目标在第一检测图像的位置信息、所述目标在第二检测图像的位置信息以及所述关键点的位置坐标计算得到目标的三维位置信息；所述三维位置信息包括所述目标的中心点坐标和旋转角。

9.根据权利要求8所述的非限定类别障碍物检测方法，其特征在于，所述类别信息包括目标的分类得分；

所述基于所述目标的类别信息确定计算所述目标的三维位置信息，包括：

基于所述目标的分类得分确定所述目标为障碍物或非障碍物；

基于所述目标为障碍物，利用所述目标在第一检测图像的位置信息、所述目标在第二检测图像的位置信息以及所述关键点的位置坐标计算得到所述障碍物的三维位置信息。

10.根据权利要求8所述的非限定类别障碍物检测方法，其特征在于，所述三维检测网络包括骨干子网络、区域候选检测子网络、类别检测子网络、位置回归子网络以及关键点检测子网络；

所述利用三维检测网络对所述第一检测图像和所述第二检测图像进行网络学习得到目标的类别信息、目标在第一检测图像的位置信息、目标在第二检测图像的位置信息以及关键点的位置坐标，包括：

利用所述骨干子网络对第一检测图像进行特征提取得到第一特征图，以及对第二检测图像进行特征提取得到第二特征图；

将所述第一特征图和所述第二特征图进行特征融合，并利用所述区域候选检测子网络对特征融合后的特征进行处理得到预设类别的第一目标候选区域以及其余类别的第二目标候选区域；

将所述区域候选检测子网络输出的候选区域信息与所述第一特征图、所述第二特征图进行融合，得到第四融合特征图，并利用所述类别检测子网络对所述第四融合特征图中的目标进行类别检测，得到目标的类别信息；以及，

将所述区域候选检测子网络输出的候选区域信息与所述第一特征图、所述第二特征图进行融合，得到第五融合特征图，并利用所述位置回归子网络对所述第五融合特征图中的目标进行位置检测，得到目标在检测图像中的位置信息，其中，所述目标在检测图像中的位置信息包括目标在第一检测图像的位置信息以及目标在第二检测图像的位置信息；以及，

将所述区域候选检测子网络输出的候选区域信息与所述第一特征图和所述第二特征图中的一个进行融合，得到第六融合特征图，并利用所述关键点检测子网络对所述第六融合特征图中的目标进行关键点检测，得到关键点的位置坐标。

11.一种终端设备，其特征在于，所述终端设备包括相互耦接的处理器和存储器，所述存储器存储有程序指令，所述处理器用于执行存储器存储的程序指令以实现权利要求1~7任一项所述的三维检测网络训练方法或8~10任一项所述的非限定类别障碍物检测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，用于实现权利要求1~7任一项所述的三维检测网络训练方法或8~10任一项所述的非限定类别障碍物检测方法。