CN111340766A

CN111340766A - 目标对象的检测方法、装置、设备和存储介质

Info

Publication number: CN111340766A
Application number: CN202010108527.1A
Authority: CN
Inventors: 钱晨; 林君仪; 周嘉明
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-26
Anticipated expiration: 2040-02-21
Also published as: JP2022524262A; CN111340766B; KR20210114952A; WO2021164469A1

Abstract

本公开涉及一种目标对象的检测方法、装置、设备和存储介质。所述方法包括：对目标场景的三维点云进行特征提取，得到特征提取结果；根据所述特征提取结果，对所述三维点云进行目标对象的类别预测以及位置预测，确定所述目标场景中的目标对象的至少一个候选区域；在每个所述候选区域中，对所述目标对象进行检测，得到检测结果。

Description

目标对象的检测方法、装置、设备和存储介质

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种目标对象的检测方法、装置、设备和存储介质。

背景技术

三维目标检测任务是计算机视觉及智能场景理解领域的重要问题，可以应用在很多重要领域，如在无人驾驶、机器人、增强现实等方面具有重要的研究意义和应用价值。

在进行三维目标检测时，可以将三维点云与目标模型进行匹配，来确定三维点云中是否包含有目标对象。如果三维点云中包含有多个不同的目标对象，可能需要和多个不同的目标模型分别进行匹配，耗费时间长的同时，检测的准确率也会有所降低。

发明内容

本公开提出了一种目标对象的检测方案。

根据本公开的一方面，提供了一种目标对象的检测方法，包括：

对目标场景的三维点云进行特征提取，得到特征提取结果；根据所述特征提取结果，对所述三维点云进行目标对象的类别预测以及位置预测，确定所述目标场景中的目标对象的至少一个候选区域；在每个所述候选区域中，对所述目标对象进行检测，得到检测结果。

在一种可能的实现方式中，所述对目标场景的三维点云进行特征提取，得到特征提取结果，包括：对所述三维点云进行采样，得到至少一个第一采样点；在所述三维点云中构建至少一个以所述第一采样点为中心的采样区域；对每个所述采样区域进行特征提取，得到至少一个所述采样区域的特征向量；根据每个所述采样区域的特征向量，分别确定所述三维点云包括的每个三维点的特征向量，作为所述特征提取结果。

在一种可能的实现方式中，所述根据所述特征提取结果，对所述三维点云进行目标对象的类别预测以及位置预测，确定所述目标场景中的目标对象的至少一个候选区域，包括：根据所述特征提取结果，对所述三维点云进行目标对象的类别预测，得到类别预测结果，其中，所述类别预测结果用于指示所述三维点云包括的三维点所属的目标对象的类别；根据所述特征提取结果，对所述三维点云进行目标对象的位置预测，得到位置预测结果，其中，所述位置预测结果用于指示所述三维点云中目标对象所在的三维点的位置；根据所述类别预测结果和所述位置预测结果，确定所述场景中包括所述目标对象的至少一个候选区域。

在一种可能的实现方式中，所述根据所述特征提取结果，对所述三维点云进行类别预测，得到类别预测结果，包括：将所述特征提取结果通过类别预测卷积网络进行处理，得到所述三维点云包括的每个三维点所属的目标对象的类别。

在一种可能的实现方式中，所述根据所述特征提取结果，对所述三维点云进行位置预测，得到位置预测结果，包括：将所述特征提取结果通过位置预测卷积网络进行处理，得到所述三维点云包括的每个三维点与每个预设检测框之间的残差量，其中，所述预设检测框的数量不少于一个；根据所述残差量，得到每个所述三维点匹配的检测框，作为所述位置预测结果。

在一种可能的实现方式中，所述位置预测卷积网络通过训练数据训练，所述训练数据包括三维点云样本、目标对象在所述三维点云样本中的第一位置以及与所述目标对象的类别对应的至少一个第一特征向量，所述训练包括：基于所述三维点云样本和初始位置预测卷积网络，得到第一位置预测结果；根据所述第一位置预测结果与所述第一位置之间的误差，得到第一误差损失；根据所述三维点云样本包括的每个三维点的特征向量，与每个所述第一特征向量之间的距离，得到第二误差损失；根据所述第一误差损失和/或第二误差损失，对所述初始位置预测卷积网络进行训练。

在一种可能的实现方式中，所述根据所述类别预测结果和所述位置预测结果，确定所述场景中包括所述目标对象的至少一个候选区域，包括：获取所述位置预测结果包括的每个检测框；根据每个所述检测框包括的三维点的类别预测结果，得到每个所述检测框的预测分数；将所述预测分数大于分数阈值的检测框，作为所述目标对象的至少一个候选区域。

在一种可能的实现方式中，在所述在每个所述候选区域中，对所述目标对象进行检测，得到检测结果之前，还包括：确定每个所述候选区域包括的三维点构成的三维子点云；获取每个所述三维子点云包括的每个三维点的坐标，作为所述三维子点云的空间坐标；获取每个所述三维子点云包括的每个三维点的特征向量，作为所述三维子点云的特征向量；根据每个所述三维子点云的空间坐标和每个所述三维子点云的特征向量，得到每个所述三维子点云的特征矩阵。

在一种可能的实现方式中，所述在每个所述候选区域中，对所述目标对象进行检测，得到检测结果，包括：对第一候选区域包括的三维子点云进行采样，得到所述第一候选区域包括的至少一个第二采样点，其中，所述第一候选区域为所述至少一个候选区域中的任一个候选区域；根据所述第一候选区域包括的三维子点云的特征矩阵，获取所述第一候选区域包括的第二采样点的注意力特征向量；通过融合卷积网络，将所述第一候选区域包括的第二采样点的注意力特征向量进行融合，得到所述第一候选区域的特征融合结果；将所述第一候选区域的特征融合结果作为所述第一候选区域的检测结果。

在一种可能的实现方式中，根据所述第一候选区域包括的三维子点云的特征矩阵，获取所述第一候选区域包括的第二采样点的注意力特征向量，包括：根据所述第一候选区域包括的三维子点云的特征矩阵，对所述第二采样点进行特征提取，得到每个所述第二采样点的初始特征向量；将每个所述第二采样点的初始特征向量进行平均池化，得到所述第一候选区域的全局特征向量；分别将每个所述第二采样点的初始特征向量与所述全局特征向量进行拼接，得到每个所述第二采样点的扩展特征向量；根据每个所述第二采样点的扩展特征向量，得到每个所述第二采样点的注意力系数；分别将每个所述第二采样点的注意力系数与所述第二采样点的初始特征向量进行相乘，得到每个所述第二采样点的注意力特征向量。

根据本公开的一方面，提供了一种目标对象的检测装置，包括：

特征提取模块，用于对目标场景的三维点云进行特征提取，得到特征提取结果；候选区域确定模块，用于根据所述特征提取结果，对所述三维点云进行目标对象的类别预测以及位置预测，确定所述目标场景中的目标对象的至少一个候选区域；检测模块，用于在每个所述候选区域中，对所述目标对象进行检测，得到检测结果。

在一种可能的实现方式中，所述特征提取模块用于：对所述三维点云进行采样，得到至少一个第一采样点；在所述三维点云中构建至少一个以所述第一采样点为中心的采样区域；对每个所述采样区域进行特征提取，得到至少一个所述采样区域的特征向量；根据每个所述采样区域的特征向量，分别确定所述三维点云包括的每个三维点的特征向量，作为所述特征提取结果。

在一种可能的实现方式中，所述候选区域确定模块用于：根据所述特征提取结果，对所述三维点云进行目标对象的类别预测，得到类别预测结果，其中，所述类别预测结果用于指示所述三维点云包括的三维点所属的目标对象的类别；根据所述特征提取结果，对所述三维点云进行目标对象的位置预测，得到位置预测结果，其中，所述位置预测结果用于指示所述三维点云中目标对象所在的三维点的位置；根据所述类别预测结果和所述位置预测结果，确定所述场景中包括所述目标对象的至少一个候选区域。

在一种可能的实现方式中，所述候选区域确定模块进一步用于：将所述特征提取结果通过类别预测卷积网络进行处理，得到所述三维点云包括的每个三维点所属的目标对象的类别。

在一种可能的实现方式中，所述候选区域确定模块进一步用于：将所述特征提取结果通过位置预测卷积网络进行处理，得到所述三维点云包括的每个三维点与每个预设检测框之间的残差量，其中，所述预设检测框的数量不少于一个；根据所述残差量，得到每个所述三维点匹配的检测框，作为所述位置预测结果。

在一种可能的实现方式中，所述候选区域确定模块进一步用于：获取所述位置预测结果包括的每个检测框；根据每个所述检测框包括的三维点的类别预测结果，得到每个所述检测框的预测分数；将所述预测分数大于分数阈值的检测框，作为所述目标对象的至少一个候选区域。

在一种可能的实现方式中，在所述检测模块之前，所述候选区域确定模块还用于：确定每个所述候选区域包括的三维点构成的三维子点云；获取每个所述三维子点云包括的每个三维点的坐标，作为所述三维子点云的空间坐标；获取每个所述三维子点云包括的每个三维点的特征向量，作为所述三维子点云的特征向量；根据每个所述三维子点云的空间坐标和每个所述三维子点云的特征向量，得到每个所述三维子点云的特征矩阵。

在一种可能的实现方式中，所述检测模块用于：对第一候选区域包括的三维子点云进行采样，得到所述第一候选区域包括的至少一个第二采样点，其中，所述第一候选区域为所述至少一个候选区域中的任一个候选区域；根据所述第一候选区域包括的三维子点云的特征矩阵，获取所述第一候选区域包括的第二采样点的注意力特征向量；通过融合卷积网络，将所述第一候选区域包括的第二采样点的注意力特征向量进行融合，得到所述第一候选区域的特征融合结果；将所述第一候选区域的特征融合结果作为所述第一候选区域的检测结果。

在一种可能的实现方式中，所述检测模块进一步用于：根据所述第一候选区域包括的三维子点云的特征矩阵，对所述第二采样点进行特征提取，得到每个所述第二采样点的初始特征向量；将每个所述第二采样点的初始特征向量进行平均池化，得到所述第一候选区域的全局特征向量；分别将每个所述第二采样点的初始特征向量与所述全局特征向量进行拼接，得到每个所述第二采样点的扩展特征向量；根据每个所述第二采样点的扩展特征向量，得到每个所述第二采样点的注意力系数；分别将每个所述第二采样点的注意力系数与所述第二采样点的初始特征向量进行相乘，得到每个所述第二采样点的注意力特征向量。

根据本公开的一方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述目标对象的检测方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述目标对象的检测方法。

在本公开实施例中，通过对目标场景的三维点云进行特征提取来得到特征提取结果，继而根据特征提取结果，通过对三维点云进行目标对象的类别预测以及位置预测，从而确定目标对象的至少一个候选区域，并在每个候选区域中对目标对象进行检测得到检测结果。通过上述过程，可以基于特征提取结果，通过类别预测结合位置预测从目标场景中确定至少一个包含有目标对象的候选区域，使得候选区域同时基于目标对象的位置和类别来确定，具有更高的准确度，继而可以在每个候选区域中均对目标对象进行检测，来得到检测结果，一方面可以提升检测结果的准确性，另一方面也可以在场景中包括有多个或多种不同的目标对象，通过同样的检测方式而非模型比对方式来将这些目标对象检测出来，提升了目标检测的方便程度和效率，也可以进一步提升目标检测的准确程度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出根据本公开一实施例的目标对象的检测方法的流程图。

图2示出根据本公开一实施例的目标对象的检测装置的框图。

图3示出根据本公开一应用示例的示意图。

图4示出根据本公开一应用示例的示意图。

图5示出根据本公开一应用示例的示意图。

图6示出根据本公开实施例的一种电子设备的框图。

图7示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的目标对象的检测方法的流程图，该方法可以应用于终端设备、服务器或者其他处理设备等。其中，终端设备可以为用户设备(UserEquipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(PersonalDigital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一个示例中，该目标对象的检测方法可以应用于人工智能处理器等芯片设备中。

在一些可能的实现方式中，该目标对象的检测方法也可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

如图1所示，所述目标对象的检测方法可以包括：

步骤S11，对目标场景的三维点云进行特征提取，得到特征提取结果。

步骤S12，根据特征提取结果，对三维点云进行目标对象的类别预测以及位置预测，确定目标场景中的目标对象的至少一个候选区域。

步骤S13，在每个候选区域中，对目标对象进行检测，得到检测结果。

其中，三维点云可以包括由多个三维点所共同构成的点集合，构成三维点云的三维点的数量不受限定，可以根据实际情况灵活决定。三维点可以是在空间内，由三维坐标所定义的三维空间点，具体三维坐标的定义方式不受限定，在一个示例中，三维坐标可以是由x、y和z三个维度所构成的坐标。

目标场景可以是有检测目标对象需求的场景，目标对象可以是具有检测需求的任意对象，根据检测的实际情况灵活确定。比如在室内物体检测中，目标对象可以是室内的物体，如沙发、桌子或椅子等，在行人检测中，目标对象可以是行人，在人脸识别中，目标对象可以是人脸，在机动车识别中，目标对象可以是机动车牌照等等；场景则可以是具有目标检测需求的任意场景，根据目标对象和检测的实际需求进行灵活确定，在一个示例中，当目标对象为室内物体时，场景可以为室内空间，如卧室空间、家居空间或是教室空间等，在一个示例中，当目标对象为行人时，场景可以是包含有行人的马路场景，在一个示例中，当目标对象为人脸时，场景可以是有多人存在的场景如教室、广场或是电影院等，在一个示例中，当目标对象是机动车牌照时，场景可以是机动车道等，在本公开实施例中不做限制。

上述公开实施例中，根据特征提取结果确定的场景中的候选区域的数量，可以根据场景中包含目标对象的实际情况灵活决定，可以为一个，也可以为多个，而每个候选区域中检测得到的目标对象的结果，也可以根据实际情况来确定，即每个候选区域中可以包括有一个或一种目标对象，也可以包括有多个或多种目标对象。在一种可能的实现方式中，一个候选区域可以包含有多个目标对象，即多个目标对象可以对应一个候选区域，也可以一个目标对象对应多个候选区域，即三维点云中可以包含多个同一目标对象，这一目标对象分别位于多个不同的候选区域中。

在一种可能的实现方式中，上述公开实施例中提到的特征提取过程和对目标对象的检测过程，均可以通过训练好的神经网络来实现，具体采用何种神经网络，如何实现相应的特征提取以及目标对象的检测过程，其实现方式可以根据实际情况灵活选择，在后续各公开实施例中会进行详细说明，在此先不做展开。

通过上述公开实施例可以看出，在一种可能的实现方式中，在对目标对象进行检测时，可以基于特征提取结果，通过类别预测结合位置预测从目标场景中确定至少一个包含有目标对象的候选区域，使得候选区域同时基于目标对象的位置和类别来确定，具有更高的准确度，继而可以在每个候选区域中均对目标对象进行检测，来得到检测结果，一方面可以提升检测结果的准确性，另一方面也可以在场景中包括有多个或多种不同的目标对象，通过同样的检测方式而非模型比对方式来将这些目标对象检测出来，提升了目标检测的方便程度和效率，也可以进一步提升目标检测的准确程度。

上述公开实施例中获取目标场景的三维点云的方式不受限定，任何可以获取目标对象所在场景的三维点云，并确定这些三维点云的坐标的方式，均可以作为获取三维点云方式，不受下述公开实施例的限制。在一种可能的实现方式中，获取三维点云的方式可以为：通过终端设备，如上述公开实施例提到的用户设备、移动终端或用户终端等等，对需要进行目标检测的场景进行扫描，从而获取目标对象所在场景包括的三维点云，并在场景中建立对应的坐标系，从而得到这些三维点云在建立的坐标系下的坐标。

在获取目标场景包括的三维点云，并得到相应的每个三维点的空间坐标后，可以通过步骤S11，来对这些三维点云进行特征提取，得到特征提取结果。具体的特征提取方式在本公开实施例中不做限定，在一种可能的实现方式中，步骤S11可以包括：

步骤S111，对三维点云进行采样，得到至少一个第一采样点。

步骤S112，在三维点云中构建至少一个以第一采样点为中心的采样区域。

步骤S113，对每个采样区域进行特征提取，得到至少一个采样区域的特征向量。

步骤S114，根据每个采样区域的特征向量，分别确定三维点云包括的每个三维点的特征向量，作为特征提取结果。

通过上述公开实施例可以看出，在一种可能的实现方式中，可以将三维点云划分为多个采样区域，然后根据每个采样区域的特征提取结果，来得到整个三维点云的特征提取结果，具体如何划分采样区域，以及划分的采样区域的数量，可以根据实际情况灵活决定。基于步骤S111和步骤S112可以看出，在一种可能的实现方式中，将三维点云划分为多个采样区域的方式可以为先从三维点云中选择第一采样点，然后基于这些第一采样点得到采样区域。第一采样点的选择方式不受限定，在一种可能的实现方式中，可以通过在三维点云中利用采用了最远点采样(FPS，Farthest Point Sampling)算法的采样层(SamplingLayer)，来得到至少一个第一采样点。在一个示例中，通过FPS算法确定第一采样点的过程可以为：从三维点云中随机选定一个点作为随机采样点，然后选择离这个被选定的随机采样点最远的点来作为起点，不断迭代，每次都选择距离被选定的所有第一采样点的距离之和最远的点，直到被选定的第一采样点个数达到阈值后，结束第一采样点的选择。其中，第一采样点个数的阈值可以根据实际情况进行设定，在本公开实施例中不做限制。

在确定了第一采样点后，可以通过步骤S112来在三维点云中构建至少一个以第一采样点为中心的采样区域。在一种可能的实现方式中，步骤S112可以通过一个聚合层(Grouping Layer)来实现，在一个示例中，通过聚合层构建采样区域的过程可以为：以每个第一采样点为中心，分别在每个第一采样点的周围选择临近点来构建局部区域，将这些局部区域作为采样区域。其中，临近点可以是三维点云中与第一采样点的距离在距离阈值内的三维点，具体的距离阈值设定同样可以根据实际情况进行灵活选择，在本公开实施例中不做限制。

在得到了多个采样区域后，可以通过步骤S113来分别得到每个采样区域的特征向量，步骤S113的实现方式不受限制，即对每个采样区域进行特征提取的方式不受限制，在一种可能的实现方式中，可以将采样区域通过点云特征提取层(Pointnet Layer)来得到特征向量，点云特征提取层的实现方式可以根据实际情况灵活决定，在一个示例中，可以将多层感知器(MLP，Multi-Layer Perceptron)来作为点云特征层的实现方式，从而提取采样区域的特征向量。

在得到了每个采样区域的特征向量后，可以基于这些特征向量，通过步骤S114来分别得到三维点云中每个三维点的特征向量。步骤S114的实现方式不受限定，在一种可能的实现方式中，可以通过上采样层(Upsampling Layer)来实现。在一个示例中，利用上采样层得到三维点云中每个三维点的特征向量的方式可以为：在每个采样区域中，根据该采样区域包含的三维点在采样区域中的空间位置，通过插值的方法实现上采样，从而得到插值计算结果，并将插值计算结果与该采样区域的特征向量进行结合，从而得到该采样区域中每个三维点的特征向量，由于采样区域为三维点云中划分的区域，因此在得到每个采样区域中包含的每个三维点的特征向量后，即可以得到三维点云包含的每个三维点的特征向量。其中，插值计算的具体实现方式不受限定，在一个示例中，可以通过双线性插值，实现插值计算。

通过构建多个以第一采样点为中心的采样区域，并分别提取这些采样区域的特征向量，然后根据提取的特征向量进一步得到三维点云中每个三维点的特征向量，作为特征提取结果，通过上述过程，可以将对每个三维点的特征提取过程转化为通过三维目标特征学习处理机制实现的特征提取过程，即可以将每个三维点的特征提取过程转化为通过特征提取层或是特征提取网络所实现的批量的特征提取过程，大大提升了特征提取的效率，继而提升了目标检测过程的效率。

在得到了三维点云中每个三维点的特征向量作为特征提取结果后，可以通过步骤S13，来将三维点云划分为多个用于实现目标检测的候选区域。具体如何实现候选区域的划分，其实现方式不做限定，在一种可能的实现方式中，步骤S12可以包括：

步骤S121，根据特征提取结果，对三维点云进行目标对象的类别预测，得到类别预测结果，其中，类别预测结果用于指示三维点云包括的三维点所属的目标对象的类别。

步骤S122，根据特征提取结果，对三维点云进行目标对象的位置预测，得到位置预测结果，其中，位置预测结果用于指示三维点云中目标对象所在的三维点的位置。

步骤S123，根据类别预测结果和位置预测结果，确定场景中包括目标对象的至少一个候选区域。

其中，类别预测可以是对目标对象所属的类别进行预测，对于目标对象来说，其可能被划分为多个类别，举例来说，在目标对象是室内物体的情况下，目标对象可以根据其类别的不同被划分为：桌子、椅子、沙发、空调或是属于室内的其他类别的物体等。在一种可能的实现方式中，类别预测也可以是对目标对象的属性进行预测，对于一种目标对象来说，其可能进一步被划分为多个属性，在一个示例中，在目标对象是行人的情况下，目标对象可以根据其状态被划分为：正在走路的行人、站立的行人或是处于其他状态的行人等类别；也可以根据其穿戴特征被划分为：戴帽子的行人、穿运动鞋的行人或是穿卫衣的行人等类别；在目标对象是人脸的情况下，也可以根据其标签将其划分为：高兴、悲伤、大笑或是哭泣等类别；在目标对象是机动车牌照的情况下，也可以被进一步划分为汽车牌照、摩托车牌照或是其他牌照等类别。具体的类别预测所包含的种类以及划分的依据，可以根据实际情况灵活决定，在本公开实施例中不做限制。

而位置预测则可以是对三维点云中，目标对象所在的位置进行预测，在一种可能的实现方式中，其可以包含两个方面，一方面可以是目标对象在三维点云中的坐标，即目标对象位于三维点云中的哪个位置，另一方面还可以包含有目标对象的大小，即目标对象在三维点云中的覆盖范围，通过上述公开实施例可以看出，在一种可能的实现方式中，对目标对象的位置预测，可以是预测三维点云中哪些三维点位于目标对象的覆盖范围内。

需要注意的是，本公开实施例中，对三维点云进行类别预测和位置预测，其实现过程没有先后顺序的限制，二者可以分别进行，也可以同时进行，分别进行时二者的先后顺序也不受限制，根据实际情况灵活选择即可。

通过上述公开实施例可以看出，在一种可能的实现方式中，可以根据三维点云中每个三维点的特征向量，来分别对三维点云进行类别预测和位置预测，然后根据类别预测和位置预测的结果，来综合确定出三维点云中包括目标对象的至少一个候选区域。由于类别预测和位置预测可以通过卷积神经网络等形式来实现，因此，通过上述构成，可以将目标检测的过程转化为通过神经网络模型来实现的过程，与通过单独建模进行匹配的方式相比，可以大大提升目标检测的效率和准确性。而且，由于候选区域通过类别检测和位置检测的结果共同确定，因此，通过候选区域确定的目标对象，其特征向量可以看作是不同类别之间的类间特征向量，即本公开实施例中候选区域内目标对象的特征表示形式可以看作是通过利用类间特征向量的方式所学习的不同类别目标的特征表示，一方面可以控制神经网络学习不同类别目标的高维特征表示，能够更好地提取三维点云中的目标特征，另一方面可以使得最后得到的目标检测结果，可以包含有多类别的目标，即可以同时对场景中的每个目标对象实现批量以及多种类的目标检测，大大提升了目标检测的效率。

具体地，如何实现对三维点云的类别预测和位置预测，其实现方式可以根据实际情况灵活决定，不局限于下述公开实施例。在一种可能的实现方式中，步骤S121可以包括：

将特征提取结果通过类别预测卷积网络进行处理，得到三维点云包括的每个三维点的类别预测结果。

通过上述公开实施例可以看出，在一种可能的实现方式中，可以通过类别预测卷积网络，来实现对三维点云中包含的每个三维点属于目标对象的某个类别的预测。类别预测卷积网络的实现方式不受限制，任何可以实现预测三维点所属类别的神经网络，均可以作为类别预测卷积网络的实现形式。在一种可能的实现方式中，类别预测网络可以通过多个类别预测分支进行实现，每一个类别预测分支可以用于预测三维点云中包含的目标对象的一种类别，并输出三维点属于此类别的概率，具体的类别预测分支的数量在本公开实施例中不做限制，可以根据实际情况灵活决定。每个类别预测分支的实际实现方式也不受限定，在一个示例中，可以将一维卷积作为每个类别分支的实现形式，将三维点云中每个三维点的坐标和特征向量作为输入，分别通过每个由一维卷积实现的类别分支，可以得到三维点云中每个三维点属于每个类别的概率。

通过类别预测卷积网络来得到三维点云包括的每个三维点的类别预测结果，可以利用神经网络来实现对三维点云的类别预测，大大提升了类别预测实现的简便性和可靠性，且适合批量操作，提升了类别预测的效率，继而提升了目标检测过程的效率。

在一种可能的实现方式中，步骤S122可以包括：

步骤S1221，将特征提取结果通过位置预测卷积网络进行处理，得到三维点云包括的每个三维点与每个预设检测框之间的残差量，其中，预设检测框的数量不少于一个。

步骤S1222，根据残差量，得到每个三维点匹配的检测框，作为位置预测结果。

上述公开实施例中，位置预测卷积网络可以是用来预测三维点云中每个三维点与预设检测框之间匹配程度的神经网络，其实现方式不受限定，可以根据实际情况灵活决定。而预设检测框可以是根据需求定义的锚点框(anchor)，由于对三维点云的目标检测，可以是检测三维点云中是否包含某个或某些目标，因此，可以根据包含的这些目标的实际情况，预先设置一个大小与形状与目标对象较为匹配的锚点框，来作为预设检测框，这样，将三维点云中每个三维点的坐标和特征向量作为输入通过位置预测卷积网络，则可以根据每个三维点与预设检测框之间的匹配程度，来确定这个三维点是否属于其中的某个或某类目标对象。

预设检测框的数量和实现方式不受限定，在一个示例中，目标检测可以检测三维点云中是否包含有A个不同目标对象中的一个或多个，在此情况下，可以首先预设A个不同的预设检测框，并根据这A个不同目标对象的实际情况，分别定义这A个预设检测框的大小，被定义的大小可以相同也可以不同，根据实际情况灵活确定即可。进一步地，上述公开实施例中已经提出，每个目标对象可以进一步被划分为多个类别，因此，可以根据目标对象的所属类别的数量B，将预设检测框设定为B个维度，在一个示例中，目标对象可能被划分为七类，因此，可以将预设检测框设定为(x,y,z,h,w,l,ry)这七个维度，其中，x、y和z可以分别代表检测框的中心点在x、y和z这三个维度上的空间坐标，h、w和l可以分别代表检测框对应的目标对象的高度、宽度和长度，ry则可以代表检测框对应的目标对象在z轴下的旋转角度。这样，将三维点云的特征提取结果通过位置预测卷积网络后，可以分别得到每个三维点与每个预设检测框之间预测的七个维度上的残差量，根据这一残差量，可以确定每个三维点是否与其中的某个或某些预设检测框匹配，继而可以根据三维点与预设检测框之间的匹配关系，从三维点云中对预设检测框的大小和位置进行修正，得到与每个三维点匹配的检测框来作为位置预测结果，用于步骤S133中候选区域的确定过程中。

通过将特征提取结果通过位置预测卷积网络，得到三维点云包括的每个三维点与每个预设检测框之间的残差量，根据这一残差量来进一步的确定三维点云中，与每个三维点所匹配的检测框，来作为位置预测检测结果。通过上述过程，可以根据目标对象的类别来设定检测框的大小和维度，从而使得通过位置预测卷积网络确定的检测框，可以兼具目标对象的类别和位置，具有更准确的检测结果，从而提升确定的候选区域的准确性，继而提升目标检测的准确性。

上述公开实施例中已经提出，可以通过位置预测卷积网络来得到三维点云中包含的目标对象的位置预测结果，在一种可能的实现方式中，位置预测卷积网络可以是神经网络，其可以通过训练数据进行训练。具体的训练过程可以根据实际情况灵活决定，在一种可能的实现方式中，位置预测卷积网络可以通过训练数据训练，训练数据可以包括三维点云样本、目标对象在三维点云样本中的第一位置以及与目标对象的类别对应的至少一个第一特征向量，训练过程可以包括：

基于三维点云样本和初始位置预测卷积网络，得到第一位置预测结果。

根据第一位置预测结果与第一位置之间的误差，得到第一误差损失。

根据三维点云样本包括的每个三维点的特征向量，与每个第一特征向量之间的距离，得到第二误差损失。

根据第一误差损失和/或第二误差损失，对初始位置预测卷积网络进行训练。

其中，初始位置预测卷积网络可以是位置预测卷积网络的初始形式，而三维点云样本是可以输入到初始位置预测卷积网络中，用于对该初始位置预测卷积网络进行训练的一个或多个已知的三维点云。第一位置则可以是该三维点云样本中，包含的每个目标对象在该三维点云样本中的实际位置。与目标对象的类别对应的至少一个第一特征向量，可以是定义的用于初始位置预测卷积网络学习的特征向量，定义的方式可以根据实际情况灵活决定，在一种可能的实现方式中，第一特征向量可以与目标对象的类别一一对应，即可以根据目标对象所属的类别种类，分别为每个类别的目标对象均定义一个用于学习训练的特征向量。

在一种可能的实现方式中，在对初始位置预测卷积网络进行训练时，可以根据将三维点云样本通过初始预测卷积网络得到的结果，来确定初始位置预测卷积网络的误差损失，从而调整初始位置预测卷积网络的参数，来得到更为准确的位置预测卷积网络。通过上述公开实施例可以看出，在一种可能的实现方式中，误差损失可以包括有第一误差损失和第二误差损失，其中，第一误差损失可以是将三维点云样本通过初始位置预测卷积网络得到的位置预测结果，与目标对象在三维点云中实际的第一位置之间的偏差，来得到的误差损失；第二误差损失可以是三维点云样本中每个训练三维点的特征向量，分别与每个目标对象的类别对应的第一特征向量之间的距离而共同构成的误差损失。在一种可能的实现方式中，可以同时将第一误差损失和第二误差损失作为误差损失来对初始位置预测卷积网络进行训练，在一种可能的实现方式中，也可以只考虑其中的某项误差损失来进行训练，根据实际情况进行灵活选择即可。

通过上述训练过程，可以充分的利用训练数据中不同目标对象的类别之间的类间特征向量，使得训练好的位置预测卷积网络可以学习不同类别目标的特征表示，从而使得该位置预测卷积网络可以更好的提取三维点云中的目标特征，得到更为准确的位置预测结果，从而提升后续目标检测的准确度。而且这种训练方式可以通过端到端的形式进行实现，从而使得位置预测的结果更加准确，可以更好的对各种影响因素进行优化。

通过上述各公开实施例，可以得到三维点云的类别预测结果和位置预测结果，进一步地，可以通过步骤S123，来基于类别预测结果和位置预测结果，确定三维点云中至少一个候选区域，即确定三维点云中，至少一个包含有目标对象的候选区域。

步骤S123的实现方式不受限定，在一种可能的实现方式中，步骤S123可以包括：

步骤S1231，获取位置预测结果包括的每个检测框。

步骤S1232，根据每个检测框包括的三维点的类别预测结果，得到每个检测框的预测分数。

步骤S1233，将预测分数大于分数阈值的检测框，作为目标对象的至少一个初始候选区域。

上述公开实施例中已经提出，在进行类别预测后，可以得到与每个三维点匹配的检测框，来作为位置预测结果，因此，在步骤S123中，可以进一步地根据这些检测框，来确定候选区域。

通过步骤S1232至步骤S1233可以看出，在一种可能的实现方式中，由于检测框可以大致表明目标对象在三维点云中的位置，因此可以进一步根据检测框确定该检测框包含的是何种目标对象。在一种可能的实现方式中，可以首先根据检测框包括的三维点的类别预测结果，来得到每个检测框的预测分数，即根据检测框中每个三维点在每个类别下的概率，来分别计算每个检测框在每个类别下的分数，具体的分数计算规则可以根据实际情况进行灵活设定，在本公开实施例中不做限制。在分别得到了每个检测框在每个类别下的预测分数后，可以将其与每个类别下的分数阈值进行比较，从而判断该检测框是否包含该类别下的目标对象，分数阈值也可以根据实际情况进行设定，不同类别的分数阈值可以相同也可以不同，在此不做限定。当预测分数大于某类别的分数阈值的情况下，可以认为该检测框包含该类别的目标对象，否则则认为该检测框包含的目标对象不属于当前预测的类别，通过将预测分数与分数阈值进行比较，可以从三维点云中确定至少一个检测框，来作为候选区域。

在一些可能的实施方式中，由于选出的检测框可能存在重复或是重合度较高等情况，因此，还可以通过步骤S1234，来删除确定的候选区域中重复的检测框，其中，重复的检测框可以是完全重合的检测框，也可以是重合度高于设定的重合度阈值的检测框，具体重合度阈值的数值，可以根据实际情况灵活设定，在本公开实施例中不做限制。如何检测并删除重复的检测框，其实现方式不受限定，在一种可能的实现方式中，可以通过非极大值抑制(NMS，Non maximum suppression)方法，来去掉其中重复的检测框，从而得到最终的检测框，作为目标对象的候选区域。

通过上述过程，可以充分将类别预测和位置预测的结果结合在一起，从而使得确定的候选区域，既能表达出目标对象的位置，也可以表明目标对象的身份，基于此候选区域进行进一步的目标检测的结果，可以具有更高的准确性。

进一步地，在确定了三维点云中的候选区域后，还可以筛选出位于该候选区域中的三维点的点云集合，并得到在候选区域中的候选点云集合的空间坐标与特征向量，来为进入到步骤S13作准备。具体的确定和获取方式不受限定，因此，在一种可能的实现方式中，步骤S13之前还可以包括：

确定每个候选区域包括的三维点构成的三维子点云。

分别获取每个三维子点云包括的每个三维点的坐标，作为三维子点云的空间坐标。

分别获取每个三维子点云包括的每个三维点的特征向量，作为三维子点云的特征向量。

根据每个三维子点云的空间坐标和每个三维子点云的特征向量，得到每个三维子点云的特征矩阵。

由于候选区域是从三维点云中选定的区域，因此候选区域位于三维点云内，因此，候选区域所包括的三维点所构成的点云集合，可以作为上述公开实施例中的三维子点云。进一步地，由于三维点云中的每个三维点的坐标与特征向量均已知，因此三维子点云中每个三维点的坐标和特征向量都已知，因此可以便于确定三维子点云的空间坐标和特征向量，并将这些空间坐标和特征向量以矩阵的形式进行表达，来组成每个三维子点云的特征矩阵。

通过上述过程，可以在确定了候选区域的情况下，进一步确定候选区域的特征矩阵，为后续根据候选区域进行目标检测作出了充足的准备，保证目标检测过程的顺利实现。

在确定了候选区域后，可以通过步骤S13，根据确定的候选区域来对目标对象进行检测。具体的检测过程可以根据实际情况灵活决定，在一种可能的实现方式中，步骤S13可以包括：

步骤S131，对第一候选区域包括的三维子点云进行采样，得到第一候选区域包括的至少一个第二采样点，其中，第一候选区域为至少一个候选区域中的任一个候选区域。

步骤S132，根据第一候选区域包括的三维子点云的特征矩阵，获取第一候选区域包括的第二采样点的注意力特征向量。

步骤S133，通过融合卷积网络，将第一候选区域包括的第二采样点的注意力特征向量进行融合，得到第一候选区域的特征融合结果。

步骤S134，将第一候选区域的特征融合结果作为第一候选区域的检测结果。

其中，三维子点云为上述公开实施例提到的，由候选区域包括的三维点所共同构成的子点云，在此不再赘述。第二采样点可以是对每个候选区域进行采样所得到的采样点，需要注意的是，本公开实施例中，第一采样点与第二采样点中的“第一”与“第二”仅用于区分该采样点的采样对象不同，即第一采样点是对三维点云进行采样得到的采样点，第二采样点是对三维子点云进行采样得到的采样点，而非限制二者的采样方式，即第一采样点与第二采样点的采样方式可以相同，也可以不同。

第一候选区域可以是上述公开实施例中得到的候选区域包含的某个或某些候选区域，在一种可能的实现方式中，可以分别将每个得到的候选区域作为第一候选区域，从而分别得到每个候选区域对应的检测结果。

通过上述公开实施例可以看出，在一种可能的实现方式中，在对候选区域进行目标检测的过程中，可以进一步的对候选区域进行采样，得到至少一个第二采样点，并基于此第二采样点的注意力特征向量，来得到候选区域的注意力特征向量的特征融合结果，作为候选区域中对目标检测的检测结果。通过上述过程，可以利用注意力机制对候选区域内的点云特征进行处理，从而抑制目标外的干扰点特征对检测结果的影响，从而提升目标检测的准确度。

在一种可能的实现方式中，对第一候选区域包括的三维子点云进行采样得到第二采样点的过程，可以与对三维点云进行采样得到第一采样点的过程相同，在此不再赘述。

在得到了第二采样点后，可以获取每个第二采样点的注意力特征向量。具体的获取方式不受限制，在一种可能的实现方式中，步骤S132可以包括：

步骤S1321，根据第一候选区域包括的三维子点云的特征矩阵，对第二采样点进行特征提取，得到每个第二采样点的初始特征向量。

步骤S1322，将每个第二采样点的初始特征向量进行平均池化，得到第一候选区域的全局特征向量。

步骤S1323，分别将每个第二采样点的初始特征向量与全局特征向量进行拼接，得到每个第二采样点的扩展特征向量。

步骤S1324，根据每个第二采样点的扩展特征向量，得到每个第二采样点的注意力系数。

步骤S1325，分别将每个第二采样点的注意力系数与第二采样点的初始特征向量进行相乘，得到每个第二采样点的注意力特征向量。

通过上述公开实施例可以看出，在一种可能的实现方式中，获取每个第二采样点的注意力特征向量的过程可以为：首先对每个第二采样点进行特征提取，得到其初始特征向量，特征提取的过程可以参见各上述公开实施例，在此不再赘述，由于上述公开实施例中提到过，在确定候选区域的同时可以得到候选区域包括的三维子点云的特征矩阵，因此，在一种可能的实现方式中，也可以从特征矩阵中提取每个第二采样点对应的特征向量，来分别作为每个第二采样点的初始特征向量。然后将每个第二采样点通过平均池化层，来得到候选区域的全局特征向量，接着将得到的全局特征向量与第二采样点本身的初始特征向量进行拼接，得到每个第二采样点的扩展特征向量。在得到了每个第二采样点的扩展特征向量后，可以通过步骤S1324，来根据这一扩展特征向量得到第二采样点的注意力特征，具体如何得到，其方式可以根据实际情况灵活决定。在一种可能的实现方式中，可以将每个第二采样点的扩展特征向量通过MLP，来得到每个第二采样点的注意力系数，这样，将每个第二采样点的注意力系数与该第二采样点本身的初始特征向量相乘，得到的特征向量可以看作为每个第二采样点的注意力特征向量。

通过上述过程，可以较为便捷的得到每个第二采样点的注意力特征向量，继而基于此注意力特征向量得到目标对象的检测结果，提升了整个目标检测过程的便捷性和准确性。

在得到了第一候选区域包括的第二采样点的注意力特征向量后，可以通过融合卷积网络分别对第一候选区域中包括的第二采样点的注意力特征向量进行融合，然后将特征融合结果作为该候选区域的目标检测结果，这样，统计所有的第一候选区域的目标检测结果，则可以得到整个三维点云对应的目标检测结果。其中，融合卷积网络的实现方式不受限制，任何可以基于注意力特征向量来得到检测结果的神经网络，均可以作为融合卷积网络的实现形式，在一个示例中，可以通过预测层实现上述融合过程，完成对目标对象的检测。

图2示出根据本公开实施例的目标对象的检测装置的框图。如图2所示，目标对象的检测装置20包括：

特征提取模块21，用于对目标场景的三维点云进行特征提取，得到特征提取结果。

候选区域确定模块22，用于根据特征提取结果，对三维点云进行目标对象的类别预测以及位置预测，确定目标场景中的目标对象的至少一个候选区域。

检测模块23，用于在每个候选区域中，对目标对象进行检测，得到检测结果。

在一种可能的实现方式中，特征提取模块用于：对三维点云进行采样，得到至少一个第一采样点；在三维点云中构建至少一个以第一采样点为中心的采样区域；对每个采样区域进行特征提取，得到至少一个采样区域的特征向量；根据每个采样区域的特征向量，分别确定三维点云包括的每个三维点的特征向量，作为特征提取结果。

在一种可能的实现方式中，候选区域确定模块用于：根据特征提取结果，对三维点云进行目标对象的类别预测，得到类别预测结果，其中，类别预测结果用于指示三维点云包括的三维点所属的目标对象的类别；根据特征提取结果，对三维点云进行目标对象的位置预测，得到位置预测结果，其中，位置预测结果用于指示三维点云中目标对象所在的三维点的位置；根据类别预测结果和所述位置预测结果，确定场景中包括目标对象的至少一个候选区域。

在一种可能的实现方式中，候选区域确定模块进一步用于：将特征提取结果通过类别预测卷积网络进行处理，得到三维点云包括的每个三维点所属的目标对象的类别。

在一种可能的实现方式中，候选区域确定模块进一步用于：将特征提取结果通过位置预测卷积网络进行处理，得到三维点云包括的每个三维点与每个预设检测框之间的残差量，其中，预设检测框的数量不少于一个；根据残差量，得到每个三维点匹配的检测框，作为位置预测结果。

在一种可能的实现方式中，位置预测卷积网络通过训练数据训练，训练数据包括三维点云样本、目标对象在三维点云样本中的第一位置以及与目标对象的类别对应的至少一个第一特征向量，训练包括：基于三维点云样本和初始位置预测卷积网络，得到第一位置预测结果；根据第一位置预测结果与第一位置之间的误差，得到第一误差损失；根据三维点云样本包括的每个三维点的特征向量，与每个第一特征向量之间的距离，得到第二误差损失；根据第一误差损失和/或第二误差损失，对初始位置预测卷积网络进行训练。

在一种可能的实现方式中，候选区域确定模块进一步用于：获取位置预测结果包括的每个检测框；根据每个检测框包括的三维点的类别预测结果，得到每个检测框的预测分数；将预测分数大于分数阈值的检测框，作为目标对象的至少一个候选区域。

在一种可能的实现方式中，在检测模块之前，候选区域确定模块还用于：确定每个候选区域包括的三维点构成的三维子点云；获取每个三维子点云包括的每个三维点的坐标，作为三维子点云的空间坐标；获取每个三维子点云包括的每个三维点的特征向量，作为三维子点云的特征向量；根据每个三维子点云的空间坐标和每个三维子点云的特征向量，得到每个三维子点云的特征矩阵。

在一种可能的实现方式中，检测模块用于：对第一候选区域包括的三维子点云进行采样，得到第一候选区域包括的至少一个第二采样点，其中，第一候选区域为至少一个候选区域中的任一个候选区域；根据第一候选区域包括的三维子点云的特征矩阵，获取第一候选区域包括的第二采样点的注意力特征向量；通过融合卷积网络，将第一候选区域包括的第二采样点的注意力特征向量进行融合，得到第一候选区域的特征融合结果；将第一候选区域的特征融合结果作为第一候选区域的检测结果。

在一种可能的实现方式中，检测模块进一步用于：根据第一候选区域包括的三维子点云的特征矩阵，对第二采样点进行特征提取，得到每个第二采样点的初始特征向量；将每个第二采样点的初始特征向量进行平均池化，得到第一候选区域的全局特征向量；分别将每个第二采样点的初始特征向量与全局特征向量进行拼接，得到每个第二采样点的扩展特征向量；根据每个第二采样点的扩展特征向量，得到每个第二采样点的注意力系数；分别将每个第二采样点的注意力系数与第二采样点的初始特征向量进行相乘，得到每个第二采样点的注意力特征向量。

应用场景示例

随着目标识别任务愈加复杂，如何有效提升室内空间包含的各种物品的识别效果，成为一个亟待解决的问题。

图3～图5示出了根据本公开一应用示例的示意图，如图所示，本公开实施例提出了一种目标对象的检测方法，其具体过程可以为：

图3示出了对目标对象进行检测的完整过程，从图3可以看出，在本公开应用示例中，可以首先通过对包含有多种目标对象的室内空间的三维点云进行特征提取(即图3中的基于类间特征向量的三维点云特征提取过程)，来得到三维点云中每个三维点的特征向量来作为特征提取结果，在得到特征提取结果后，可以基于特征提取结果，一方面进行目标对象的位置预测(即图3中的位置预测)，一方面进行目标对象的类别预测(即图3中的类别预测)，来确定目标场景中目标对象的至少一个候选区域，并同时得到候选区域的特征向量(即图3中的联合预测特征)，在确定了候选区域后，可以基于注意力机制对候选区域中的目标对象进行检测，从而得到目标对象的检测结果，在本公开应用示例中，目标对象的检测结果可以包含有三维点云中目标对象所在的位置以及目标对象的具体类别。

上述公开应用示例中提到的特征提取的过程可以参见图4，从图4中可以看出，在本公开应用示例中，对三维点云进行特征提取得到特征向量的过程可以通过特征提取的神经网络来实现，该特征提取的神经网络可以分为四层，分别为采样层、聚合层、点云特征提取层和上采样层，其中，采样层可以在输入的三维点云中使用FPS算法选择一系列第一采样点，由此定义出采样区域的中心，FPS算法的基本过程是先随机选择一个点，然后再选择离这个点最远的点作为起点，再继续迭代，直到选出需要的个数为止。聚合层可以以第一采样点为中心，利用临近点构建局部区域，进而提取特征。点云特征提前层则可以利用MLP对采样区域进行特征提取，而上采样层则可以使用插值的方法用第一采样点来得到三维点云中每个三维点的特征向量。

如图4所示，在一个示例中，对于包含有N个三维点的三维点云来说，其每个三维点的空间坐标构成的空间坐标矩阵可以通过d来表示，其包含的某些三维点的特征向量所构成的特征矩阵可以通过C来表示，为了通过特征提取来得到该三维点云中每个三维点的特征向量所构成的特征矩阵C4，如图所示，可以首先通过对三维点云包含的三维点进行采样与聚合，一方面经过采样后，三维点云中包含的三维点的数量可以从N变为N1，另一方面经过聚合后，可以得到多个采样区域，每个采样区域中包含的三维点的数量可以记为K，此时，可以分别对每个采样区域进行特征提取，来得到每个采样区域的特征向量，从而构成三维点云的特征矩阵C1，在得到了三维点云的特征矩阵C1后，可以通过插值来得到每个采样区域中每个三维点的特征向量，继而得到三维点云中每个三维点的特征向量，在本公开应用示例中，由于经过一次采样和聚合后可能采样区域的数量还是过多，因此可以进一步地，再进行一次采样和聚合，进一步得到二次筛选的采样区域，从而基于此二次筛选的采样区域进行特征提取，得到特征矩阵C2，然后基于此特征矩阵C2进行插值，并将插值后得到的结果与C1进行合并作为C3，之后再次插值，并将插值结果与初始的特征矩阵C进行合并，从而得到三维点云中每个三维点的特征向量所构成的特征矩阵C4。

在得到了三维点云中每个三维点的特征向量后，可以进一步根据这些特征向量确定三维点云中的候选区域，图5示出一种确定候选区域的方式，从图5和图3均可以看出，在确定候选区域的过程中，可以根据三维点云中每个三维点的坐标和特征向量，来分别对三维点云进行位置预测和类别预测，并将位置预测和类别预测的结果进行结合，从而有效确定三维点云中的候选区域。

在本公开应用示例中，可以通过神经网络实现类别预测和位置预测，在一个示例中，类别预测和位置预测分支均可以由一维卷积实现。对于类别预测分支，卷积网络随后输出通道数量为类别数目；对于位置的预测，本公开应用示例采用anchor的方法进行预测，在一个示例中，可以预先定义A个anchor大小，然后对于每个anchor预测(x,y,z,h,w,l,ry)7个维度(即目标对象可能对应的7个类别)的残差量，从而得到初步预测框。进一步地，对于得到的初步预测框，可以根据其中包含的每个三维点在类别分支的类别预测结果得到的分数(score)，选出分数大于分数阈值的检测框，然后进行NMS后处理，得到最终的候选区域。对于每个候选区域，可以进一步筛选出在该空间区域内的三维点云子集合，作为三维子点云，该三维子点云的空间坐标和特征向量组成该候选区域的特征矩阵。

其中，在对位置的预测神经网络进行训练过程中，可以为每个目标对象的类别分别定义一个可学习的特征向量，并计算训练数据中每个三维点的特征向量与对应的目标对象的类别的可学习特征向量的距离，将计算的距离作为惩罚项(即误差损失)加入到网络训练的过程中，即在位置的预测神经网络的训练过程中，计算三维点在每个目标对象的类别下的特征向量距离，从而实现在每个目标对象的类别下对位置预测神经网络的训练。

在确定了候选区域后，可以基于上述公开应用示例中得到的每个候选区域的特征矩阵，来对每个候选区域中的目标对象进行检测，在一个示例中，可以对于候选区域内的三维子点云，采用上述公开应用示例中一样的采样方式，进一步提取候选区域内的第二采样点，并得到其特征向量。然后，使用所有第二采样点的特征向量，通过平均池化层得到候选区域的全局特征向量，并将全局特征向量与第二采样点本身的特征向量拼接，实现对第二采样点特征向量的扩展。每个第二采样点再使用扩展后的特征向量经过MLP得到相应的注意力系数，并将注意力系数与本身的特征向量相乘，从而得到每个第二采样点的注意力特征向量。最后，可以对得到的所有第二采样点的注意力特征向量进一步使用卷积网络进行融合，预测每个候选区域对应的目标对象的类别和位置结果，作为整个三维点云的目标检测结果，即预测出室内空间中包含的每个物品(即目标对象)的类别和位置，来作为检测结果。

本公开应用示例中提出的目标对象的检测方法，除了可以应用于室内物品识别任务中以外，也可以应用到其他有目标对象的检测需求的任务之中。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性计算机可读存储介质或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为上述方法。

在实际应用中，上述存储器可以是易失性存储器(volatile memory)，例如RAM；或者非易失性存储器(non-volatile memory)，例如ROM，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本公开实施例不作具体限定。

电子设备可以被提供为终端、服务器或其它形态的设备。

基于前述实施例相同的技术构思，本公开实施例还提供了一种计算机程序，该计算机程序被处理器执行时实现上述方法。

图6是根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图6，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关人员信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。

图7是根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图7，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态人员信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种目标对象的检测方法，其特征在于，包括：

对目标场景的三维点云进行特征提取，得到特征提取结果；

根据所述特征提取结果，对所述三维点云进行目标对象的类别预测以及位置预测，确定所述目标场景中的目标对象的至少一个候选区域；

在每个所述候选区域中，对所述目标对象进行检测，得到检测结果。

2.根据权利要求1所述的方法，其特征在于，所述对目标场景的三维点云进行特征提取，得到特征提取结果，包括：

对所述三维点云进行采样，得到至少一个第一采样点；

在所述三维点云中构建至少一个以所述第一采样点为中心的采样区域；

对每个所述采样区域进行特征提取，得到至少一个所述采样区域的特征向量；

根据每个所述采样区域的特征向量，分别确定所述三维点云包括的每个三维点的特征向量，作为所述特征提取结果。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述特征提取结果，对所述三维点云进行目标对象的类别预测以及位置预测，确定所述目标场景中的目标对象的至少一个候选区域，包括：

根据所述特征提取结果，对所述三维点云进行目标对象的类别预测，得到类别预测结果，其中，所述类别预测结果用于指示所述三维点云包括的三维点所属的目标对象的类别；

根据所述特征提取结果，对所述三维点云进行目标对象的位置预测，得到位置预测结果，其中，所述位置预测结果用于指示所述三维点云中目标对象所在的三维点的位置；

根据所述类别预测结果和所述位置预测结果，确定所述场景中包括所述目标对象的至少一个候选区域。

4.根据权利要求3所述的方法，其特征在于，所述根据所述特征提取结果，对所述三维点云进行类别预测，得到类别预测结果，包括：

将所述特征提取结果通过类别预测卷积网络进行处理，得到所述三维点云包括的每个三维点所属的目标对象的类别。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述特征提取结果，对所述三维点云进行位置预测，得到位置预测结果，包括：

将所述特征提取结果通过位置预测卷积网络进行处理，得到所述三维点云包括的每个三维点与每个预设检测框之间的残差量，其中，所述预设检测框的数量不少于一个；

根据所述残差量，得到每个所述三维点匹配的检测框，作为所述位置预测结果。

6.根据权利要求5中所述的方法，其特征在于，所述位置预测卷积网络通过训练数据训练，所述训练数据包括三维点云样本、目标对象在所述三维点云样本中的第一位置以及与所述目标对象的类别对应的至少一个第一特征向量，所述训练包括：

基于所述三维点云样本和初始位置预测卷积网络，得到第一位置预测结果；

根据所述第一位置预测结果与所述第一位置之间的误差，得到第一误差损失；

根据所述三维点云样本包括的每个三维点的特征向量，与每个所述第一特征向量之间的距离，得到第二误差损失；

根据所述第一误差损失和/或第二误差损失，对所述初始位置预测卷积网络进行训练。

7.根据权利要求3至6中任意一项所述的方法，其特征在于，所述根据所述类别预测结果和所述位置预测结果，确定所述场景中包括所述目标对象的至少一个候选区域，包括：

获取所述位置预测结果包括的每个检测框；

根据每个所述检测框包括的三维点的类别预测结果，得到每个所述检测框的预测分数；

将所述预测分数大于分数阈值的检测框，作为所述目标对象的至少一个候选区域。

8.根据权利要求3至7中任意一项所述的方法，其特征在于，在所述在每个所述候选区域中，对所述目标对象进行检测，得到检测结果之前，还包括：

确定每个所述候选区域包括的三维点构成的三维子点云；

获取每个所述三维子点云包括的每个三维点的坐标，作为所述三维子点云的空间坐标；

获取每个所述三维子点云包括的每个三维点的特征向量，作为所述三维子点云的特征向量；

根据每个所述三维子点云的空间坐标和每个所述三维子点云的特征向量，得到每个所述三维子点云的特征矩阵。

9.根据权利要求1至8中任意一项所述的方法，其特征在于，所述在每个所述候选区域中，对所述目标对象进行检测，得到检测结果，包括：

对第一候选区域包括的三维子点云进行采样，得到所述第一候选区域包括的至少一个第二采样点，其中，所述第一候选区域为所述至少一个候选区域中的任一个候选区域；

根据所述第一候选区域包括的三维子点云的特征矩阵，获取所述第一候选区域包括的第二采样点的注意力特征向量；

通过融合卷积网络，将所述第一候选区域包括的第二采样点的注意力特征向量进行融合，得到所述第一候选区域的特征融合结果；

将所述第一候选区域的特征融合结果作为所述第一候选区域的检测结果。

10.根据权利要求9所述的方法，其特征在于，根据所述第一候选区域包括的三维子点云的特征矩阵，获取所述第一候选区域包括的第二采样点的注意力特征向量，包括：

根据所述第一候选区域包括的三维子点云的特征矩阵，对所述第二采样点进行特征提取，得到每个所述第二采样点的初始特征向量；

将每个所述第二采样点的初始特征向量进行平均池化，得到所述第一候选区域的全局特征向量；

分别将每个所述第二采样点的初始特征向量与所述全局特征向量进行拼接，得到每个所述第二采样点的扩展特征向量；

根据每个所述第二采样点的扩展特征向量，得到每个所述第二采样点的注意力系数；

分别将每个所述第二采样点的注意力系数与所述第二采样点的初始特征向量进行相乘，得到每个所述第二采样点的注意力特征向量。

11.一种目标对象的检测装置，其特征在于，包括：

特征提取模块，用于对目标场景的三维点云进行特征提取，得到特征提取结果；

候选区域确定模块，用于根据所述特征提取结果，对所述三维点云进行目标对象的类别预测以及位置预测，确定所述目标场景中的目标对象的至少一个候选区域；

检测模块，用于在每个所述候选区域中，对所述目标对象进行检测，得到检测结果。

12.根据权利要求11所述的装置，其特征在于，所述特征提取模块用于：

对所述三维点云进行采样，得到至少一个第一采样点；

13.根据权利要求11或12所述的装置，其特征在于，所述候选区域确定模块用于：

14.根据权利要求13所述的装置，其特征在于，所述候选区域确定模块进一步用于：

15.根据权利要求14中所述的装置，其特征在于，所述位置预测卷积网络通过训练数据训练，所述训练数据包括三维点云样本、目标对象在所述三维点云样本中的第一位置以及与所述目标对象的类别对应的至少一个第一特征向量，所述训练包括：

16.根据权利要求13至15中任意一项所述的装置，其特征在于，所述候选区域确定模块进一步用于：

获取所述位置预测结果包括的每个检测框；

17.根据权利要求11至16中任意一项所述的装置，其特征在于，所述检测模块用于：

18.根据权利要求17所述的装置，其特征在于，所述检测模块进一步用于：

19.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至10中任意一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至10中任意一项所述的方法。