CN117315724B

CN117315724B - 面向开放场景的三维行人检测方法、系统、设备及介质

Info

Publication number: CN117315724B
Application number: CN202311604854.6A
Authority: CN
Inventors: 阎维青; 刘世乐; 任金来; 李湘南; 徐金东
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-03-08
Anticipated expiration: 2043-11-29
Also published as: CN117315724A

Abstract

本发明公开一种面向开放场景的三维行人检测方法、系统、设备及介质，涉及行人检测技术领域，包括：将点云数据编码为支柱特征，引入外部注意力机制和基于挤压和激励的注意力机制对点通道、特征通道和支柱通道进行监督，抑制编码过程中的噪声，得到编码支柱特征；通过空间注意力机制增强行人尺度感知能力，利用自上而下和自下而上的双向传播路径进行尺度融合，由此进行三维目标行人的检测，增强支柱特征的尺度感知能力，缓解行人检测中的尺度混淆问题，同时提高检测速度。

Description

面向开放场景的三维行人检测方法、系统、设备及介质

技术领域

本发明涉及行人检测技术领域，特别是涉及面向开放场景的三维行人检测方法、系统、设备及介质。

背景技术

目前基于深度学习的实时三维目标行人检测的方法主要采用基于网格的点云表示，大致分为基于三维体素和基于支柱的方法。

基于体素的方法通常将输入的点云分割成规则的三维体素网格，然后使用基于三维卷积编码器学习多层次的几何表示。有研究将点云编码为体素，并使用三维卷积提取体素特征，但三维卷积需要大量计算，速度较慢。因此，有研究引入三维稀疏卷积，能有效学习体素特征，加快体素特征的提取速度并提高检测精度。到目前为止，基于三维体素的方法在大多数三维检测基准数据集中占主导地位。然而，即使使用三维稀疏卷积，也难以同时实现高检测精度和快速检测速度。

基于支柱的方法将三维点云投影到二维伪图像平面上，然后在特征金字塔网络上融合多尺度特征，增强网络检测不同尺度目标的能力。有研究使用单个全连接层用于支柱的特征编码，将三维支柱特征转换为二维伪图像，使二维卷积技术可以应用于三维目标检测，改善了体素方法的检测效率。有研究在保持支柱检测效率的同时，隐式地利用基于体素的特征学习机制来获得更好的性能。还有研究首先在图像中搜索可能包含目标的二维框，并将这些框投影到视锥空间，并生成支柱特征，用全连接层进行编码。但是，仅仅使用简单的全连接层编码是不够的，上述方法忽略了对支柱特征编码的重要性，这将直接影响二维伪图像生成的质量。

目前，基于支柱的方法已经广泛用于自动驾驶的车辆检测，但是，在检测行人方面的有效性受到限制。这是因为：其一，由于行人的非刚性特点，不同实际场景中的行人采取的动作也不同，如挥手、行走、奔跑、坐着等，与基于体素的方法相比，基于支柱的方法没有强大的支柱特征编码网络，导致支柱特征对行人的表达能力较弱；其二，现有的基于支柱的方法在编码过程中丢失了三维空间信息，导致无法准确区分行人和树木等相似物体。

发明内容

为了解决上述问题，本发明提出了一种面向开放场景的三维行人检测方法、系统、设备及介质，将待检测目标行人的点云数据编码为支柱特征后，通过多注意力模块监督支柱特征的编码过程，抑制支柱特征编码过程中的噪声，通过具有尺度感知能力的注意力双向特征金字塔模块，增强支柱特征的尺度感知能力，解决行人检测中的尺度混淆问题，提高检测效率。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种面向开放场景的三维行人检测方法，包括：

获取待检测目标行人的点云数据，将点云数据编码为支柱特征，所述支柱特征的维度包括点通道、特征通道和支柱通道；

引入外部注意力机制对点通道和特征通道分别计算注意力权重，根据点通道的注意力权重图和特征通道的注意力权重图得到第一权重图，将第一权重图与支柱通道上的中心点串联后，压缩点通道和特征通道得到第二权重图，根据第一权重图对第二权重图加权并与支柱特征连接后得到编码支柱特征；

将编码支柱特征经投影得到伪图像，对伪图像提取多尺度特征，对每个尺度的特征均生成空间注意力权重图，并与对应尺度下的特征执行元素乘法和元素求和后得到具有尺度感知的伪图像特征；

对多尺度下的伪图像特征，利用自上而下和自下而上的双向传播路径进行尺度融合，由此根据融合后的特征图进行三维目标行人的检测。

作为可选择的实施方式，得到第一权重图的过程包括：对点通道和特征通道分别进行最大池化操作，引入两个不同的记忆单元和/>作为键和值；将最大池化操作后的点通道和特征通道分别与/>执行元素乘法操作后再与/>执行元素乘法操作，由此得到点通道的注意力权重图和特征通道的注意力权重图，点通道的注意力权重图和特征通道的注意力权重图乘法得到第一权重图。

作为可选择的实施方式，生成空间注意力权重图的过程包括：每个尺度的特征进行平均池化和最大池化操作，将平均池化和最大池化的结果连接后使用卷积核进行激励操作，由此生成空间注意力权重图。

作为可选择的实施方式，将每个尺度的空间注意力权重图与对应尺度下的特征执行元素乘法后与对应尺度下的特征进行元素求和得到具有尺度感知的伪图像特征。

作为可选择的实施方式，利用自上而下和自下而上的双向传播路径进行尺度融合的过程包括自上而下的聚合路径网络和自下而上的聚合路径网络；

具体地，得到的多尺度下的伪图像特征为，i表示第i个尺度，/>，根据第二层伪图像特征和第三层伪图像特征得到用于自上而下传播的聚合路径网络/>，/>为第三层伪图像特征/>和第二层伪图像特征/>分配权重并融合；根据第一层伪图像特征/>和/>得到自下而上的聚合路径网络/>中的第一层传播层/>，/>为/>和分配权重并融合；继而在第一层传播层的基础上根据第二层伪图像特征和/>得到第二层传播层/>，/>为/>、/>和/>分配权重并融合；最后在第二层传播层的基础上，根据第三层伪图像特征得到第三层传播层/>，/>为/>和/>分配权重并融合。

作为可选择的实施方式，自上而下的聚合路径网络为：

；其中，Resize是上采样或下采样操作；Conv是卷积操作；/>是常数；/>、/>分别表示融合路径中相对浅层的特征和相对深层的特征。

作为可选择的实施方式，自下而上的聚合路径网络为：

；

其中，是自下而上的聚合路径网络，/>；Resize是上采样或下采样操作；Conv是卷积操作；/>是常数；/>、/>、/>、/>、/>分别表示融合路径中相对浅层特征的权重；/>、/>、/>、/>分别表示融合路径中相对深层特征的权重。

第二方面，本发明提供一种面向开放场景的三维行人检测系统，包括：

点云处理模块，被配置为获取待检测目标行人的点云数据，将点云数据编码为支柱特征，所述支柱特征的维度包括点通道、特征通道和支柱通道；

多注意力处理模块，被配置为引入外部注意力机制对点通道和特征通道分别计算注意力权重，根据点通道的注意力权重图和特征通道的注意力权重图得到第一权重图，将第一权重图与支柱通道上的中心点串联后，压缩点通道和特征通道得到第二权重图，根据第一权重图对第二权重图加权并与支柱特征连接后得到编码支柱特征；

尺度感知模块，被配置为将编码支柱特征经投影得到伪图像，对伪图像提取多尺度特征，对每个尺度的特征均生成空间注意力权重图，并与对应尺度下的特征执行元素乘法和元素求和后得到具有尺度感知的伪图像特征；

尺度融合模块，被配置为对多尺度下的伪图像特征，利用自上而下和自下而上的双向传播路径进行尺度融合，由此根据融合后的特征图进行三维目标行人的检测。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明公开了面向开放场景的三维行人检测方法，通过将激光雷达点云编码为支柱特征，以提升行人检测效率；通过外部注意力机制对支柱特征的点通道和特征通道进行监督描述点之间的空间关联性和不同通道之间的特征关联性；通过基于压缩和激励的注意力机制对支柱特征的支柱通道进行监督，描述不同支柱之间的特征关联性；全面提高支柱特征的编码能力和编码效率，增强支柱的特征表示，抑制支柱特征编码过程中的冗余特征，增强关键特征，增强行人检测的鲁棒性。

本发明设计具有尺度感知能力的注意力双向特征金字塔模块，通过结合特征金字塔池化和双向传播路径来实现，针对支柱特征的稀疏和不规则模式，将空间注意力应用于多尺度特征，通过空间注意力机制对多尺度特征进行尺度感知，关注不同空间位置上的特征响应，强调在不同位置上的特征通道的重要性，更好地理解输入数据中的空间关系和形状特征，感知不同尺度下的行人特征；解决传统金字塔网络中的尺度混淆问题，提高检测速度，增强尺度感知能力，解决传统金字塔网络中的均匀融合问题，提高对小物体的检测能力。

本发明利用自上而下和自下而上的双向传播路径将浅层特征和深层特征进行交互和融合，实现不同尺度特征的跨层交互和融合；浅层特征能够传递给深层特征，帮助深层特征更好地理解图像的细节信息，同时，深层特征也能够传递给浅层特征，为浅层特征提供更为丰富的上下文信息，这种双向传播的方式能够更好地理解和表达输入图像中的复杂场景和目标，能够提取出更具判别力的尺度感知特征。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的面向开放场景的三维行人检测方法流程图；

图2为本发明实施例1提供的面向开放场景的三维行人检测框架图；

图3为本发明实施例1提供的多注意力模块实现原理框架图；

图4为本发明实施例1提供的伪图像特征生成原理框架图；

图5为本发明实施例1提供的三维环境中的行人检测结果。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“包含”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种面向开放场景的三维行人检测方法，核心思想是将待检测目标行人的点云数据编码为支柱特征后，通过多注意力模块监督支柱特征的编码过程，减少行人的冗余特征，通过具有尺度感知能力的注意力双向特征金字塔模块，改善多尺度检测效率，实现实时检测。

如图1所示，具体流程包括：

引入外部注意力机制对点通道和特征通道分别计算注意力权重，根据点通道的注意力权重图和特征通道的注意力权重图得到第一权重图；

将第一权重图与支柱通道上的中心点串联后，压缩点通道和特征通道得到第二权重图，根据第一权重图对第二权重图加权并与支柱特征连接后得到编码支柱特征；

下面结合图2对本实施例的行人检测方法进行详细阐述。

在本实施例中，由激光雷达传感器采集点云数据，并将点云数据编码为支柱特征，每个支柱表示为一个特征向量，用于高效支柱特征的学习和行人实时检测；其中，支柱特征是一个9维的向量（x，y，z，r，xc，yc，zc，xp，yp），x、y、z、r分别表示点云在三维空间中的3个坐标和反射强度，xc、yc、zc表示支柱中所有点的算术平均值，xp、yp表示某点到支柱的x、y中心的偏移值。将支柱特征映射至高维空间后，表示为维度为（P，N，C）的张量，便于使用注意力机制监督学习；其中，P为支柱通道，表示支柱数量；N为点通道，表示支柱内的最大点数；C为特征通道，表示每个点携带的特征数。

由于行人的视觉、姿态、服饰和附着物，以及光照、成像距离等因素都会对行人的外观产生影响，使其在外观上存在较大的差异，这给行人检测带来很大的挑战，因为需要算法能够有效地处理这些外观差异，准确地识别出行人；再者，行人的背景复杂，有些物体的外观、造型、颜色、纹理等都比较接近人体，例如雕塑或人像广告牌、假人等，这会给行人检测带来干扰；这些因素使得支柱特征的编码质量尤为重要，因此，本实施例设计一种多注意力模块对支柱特征进行编码，提高支柱特征的表达能力，改善上述行人检测中的问题。

在本实施例中，多注意力模块中包括引入外部注意力机制以及基于压缩和激励的注意力机制来增强支柱特征的编码能力和表示能力，通过监督点通道、特征通道和支柱通道的编码，有效突出重要特征，抑制不重要特征，逐渐学习并提取出更具有判别力的支柱特征。

如图3所示，具体编码过程包括：对支柱特征的特征通道和点通道进行最大池化，得到最大池化后的点通道/>和最大池化后的特征通道/>；用于聚合点信息并捕获最重要的特征信息，/>用于聚合特征通道信息并捕获最重要的点信息；然后，引入外部注意力机制，对最大池化处理后的特征通道和点通道分别计算注意力权重，前者用于获得不同支柱特征和数据集之间的潜在关系，后者获得同一支柱内不同点和数据集之间的潜在关系；继而根据点通道的注意力权重图和特征通道的注意力权重图/>得到第一权重图/>。

引入外部注意力机制的具体处理过程包括使用两个不同的记忆单元和/>作为键和值来增强点状和带状的能力，则第一权重图/>为：

；

其中，表示特征通道的注意力权重图，/>表示点通道的注意力权重图，/>和表示独立于输入的可学习参数；/>为归一化函数；T表示转置操作。

多注意力模块的点通道和特征通道被用来描述所有支柱内点之间的空间相关性和所有支柱之间的特征相关性，而支柱通道则被用来评估支柱的重要性。如图3所示，得到第一权重图后，为了获得准确的体素位置信息，引入基于挤压和激励的注意力机制监督支柱通道。具体地，本实施例计算支柱通道内所有点的平均坐标，并平均坐标所在的中心点与/>串联起来，使用全连接层压缩点通道和特征通道，从而得到一个可学习的第二权重图/>，然后激活支柱通道，根据第一权重图/>对第二权重图/>加权并与支柱特征/>连接后得到编码支柱特征/>，抑制不相关的噪声支柱，增强关键支柱，从而对支柱特征进行全面增强，最后，对/>使用两个全连接层来调整维度。

更具体地，上述过程表示为：

；其中，FC是全连接层，/>是中心点；/>是sigmoid激活函数，[ ]表示串联操作。

在本实施例中，使用外部注意力机制对支柱特征的点通道进行监督，关注于每个点的重要性，并根据这个重要性对输入特征进行加权求和，该结果可以描述点之间的空间关联性；

使用外部注意力机制对支柱特征的特征通道进行监督，关注于每个特征的重要性，并根据这个重要性对输入特征进行加权求和，该结果可以描述不同通道之间的特征关联性；

使用基于挤压和激励的注意力机制对支柱特征的支柱通道进行监督，关注于每个支柱的重要性，并根据重要性对输入特征进行加权求和，该结果可以描述不同支柱之间的特征关联性；

由此，两种注意力机制全面提高支柱特征的编码能力和编码效率，增强支柱的特征表示，抑制冗余特征，增强关键特征，增强行人检测的鲁棒性。

在本实施例中，将编码支柱特征经投影得到高度为H、宽度为W、特征通道为C的伪图像。

由于金字塔网络中的尺度混淆问题，行人等小物体的特征被削弱，降低了网络对行人等小物体的检测能力，因此，本实施例设计具有尺度感知能力的注意力双向特征金字塔模块，通过结合特征金字塔池化和双向传播路径来实现；

其中，将空间注意力应用于多尺度特征，通过空间注意力机制对多尺度特征进行尺度感知，关注不同空间位置上的特征响应，强调在不同位置上的特征通道的重要性，更好地理解输入数据中的空间关系和形状特征，感知不同尺度下的行人特征；解决传统金字塔网络中的尺度混淆问题，增强尺度感知能力，解决传统金字塔网络中的均匀融合问题，提高对小物体的检测能力；

利用双向传播路径将浅层特征和深层特征进行交互和融合，浅层特征和深层特征可以进行双向传播，实现不同尺度特征的跨层交互和融合；具体来说，浅层特征能够传递给深层特征，帮助深层特征更好地理解图像的细节信息，同时，深层特征也能够传递给浅层特征，为浅层特征提供更为丰富的上下文信息，这种双向传播的方式能够更好地理解和表达输入图像中的复杂场景和目标，能够提取出更具判别力的尺度感知特征，该特征将用于最终的行人检测。

在本实施例中，注意力双向特征金字塔模块的处理流程包括：对伪图像特征提取多尺度特征，对每个尺度的特征通过平均池化和最大池化压缩尺度特征的通道维度，并将池化结果连接起来后使用卷积核进行激励操作，生成空间注意力权重图，将/>与对应尺度下的特征执行元素乘法和元素求和来获得具有尺度感知的伪图像特征/>：；如图4所示。

具体地，空间注意力权重图表示为：

；

其中，是空间注意力权重图；/>是伪图像的多尺度特征，i表示第i个尺度；/>和/>分别是平均池化结果和最大池化结果；/>和/>分别是平均池化操作和最大池化操作；/>是卷积操作；/>是sigmoid激活函数，[ ]是串联操作。

在本实施例中，具有尺度感知的伪图像特征用于抑制不同特征级别中的冗余特征并增强重要特征；具体来说，在网络浅层，大物体特征被削弱，小物体特征被增强，从而缓解了多尺度网络中的尺度混淆；然后，对多尺度下的伪图像特征利用自上而下和自下而上的双向传播路径进行尺度融合；最后，融合后的特征图表达了行人表征，将其用于最终的三维目标行人的检测。

在特征金字塔中，不同尺度的特征在融合后对输出特征的贡献是不相等的。大多数特征金字塔融合输入特征仅是简单的求和，无法正确反映不同尺度特征的重要性。为了解决这个问题，本实施例设计一种双向金字塔结构，引入可学习权重来学习不同尺度特征的重要性；由此，尺度融合的具体过程包括：

。

式中，是自上而下的聚合路径网络；/>是自下而上的聚合路径网络；Resize是上采样或下采样操作；Conv是卷积操作；/>是常数，是一个很小的值，比如，以避免数值不稳定；/>、/>、/>、/>、/>分别表示融合路径中相对浅层特征的权重；/>、/>、/>、/>分别表示融合路径中相对深层特征的权重。

具体地：通过自上而下的聚合路径网络，将深层特征传递给浅层，为浅层特征提供更为丰富的上下文信息；具体来说，/>为深层特征/>和浅层特征/>分配权重并融合，用于确定更关注深层特征还是浅层特征；

是通过自下而上的聚合路径网络，将浅层特征传递给深层特征，帮助深层特征更好地理解图像的细节信息；具体来说，/>为深层特征/>和浅层特征分配权重并融合，用于确定更关注深层特征还是浅层特征；/>为深层特征/>和浅层特征/>、/>分配权重并融合，用于确定更关注深层特征还是浅层特征，/>为深层特征/>和浅层特征/>分配权重并融合，用于确定更关注深层特征还是浅层特征。

在本实施例中，注意力双向特征金字塔模块应用空间注意力机制，对多尺度特征进行压缩和激励，使网络能够关注不同尺度的特征，从而获得尺度感知特征，更好地捕捉不同大小目标物体的特征；采用双向金字塔网络结构，能够对不同特征级的特征进行估计处理，还能够有效地减少计算复杂度，提高目标检测的效率，使行人检测能以30帧每秒的速度实时运行。

在本实施例中，为了优化行人特征，设计了包括分类损失、回归损失/>和方向分类损失/>的总体损失函数/>：

；其中，/>是正面预测三维边界框的数量；/>为平衡权重，分别用于平衡回归损失/>、分类损失/>、方向分类损失/>的权重，其具体值为；/>是SoftMax函数，它是辅助方向分类器，有助于识别预测三维边界框的方向。

本实施例最终预测的三维边界框包括中心点（x，y，z）、大小（h，w，l）和方向；三维边界框的回归损失表示为：

；

其中，gt表示真实值，p表示预测值；是预测的三维边界框底的对角线。

由此，三维边界框的回归损失表示为：

。

使用焦点损失来区分正样本和负样本，则分类损失表示为：；其中，/>代表前景点的概率，/>代表背景点的概率；r表示可调聚焦参数；c表示平衡变体，在本实施例中，设置c=0.25和r=2。

下面分别从定量分析、可视化检测效果和运行时间三个方面评估本实施例的方法。

（1）定量分析

本实施例采用包含7481张训练图像和7581张测试图像的数据集进行评估，使用平均精度（AP）和交并比（IoU）阈值为0.5作为评估指标，检测范围在X、Y以及Z坐标中分别为[0, 47.36]，[-19.84, 19.84]，[-2.5, 0.5]米，支柱的大小为[0.16, 0.16, 3]米，此外，地面真实值与从其他点云中采样的对象混合在一起，同时伴随着随机的全局旋转、缩放和平移。

在验证实验中，根据85:15的比例将数据集划分为6359个训练样本和1122个验证样本。在测试实验中，使用完整的7518个测试样本来评估模型，以保持实验的一致性和公平性。在网络训练中，批量大小设置为4，共训练300个周期，3D目标检测基准采用新的评估协议，将召回位置的度量从前11个位置更新为40个位置，AdamW函数用于优化损失，最大学习率设置为0.003，每个周期的学习率衰减为0.01。

本实施例比较了五种两阶段方法，包括：基于图像分割绘制点云网络（简称PointPainting，全称PointPainting：Sequential Fusion for 3D Object Detection）、基于体素编码转化点云网络（简称FromVoxelToPoint，全称From voxel to point：Iou-guided 3d object detection for point cloud with voxel-to-point decoder）、基于截锥体的支柱图像融合网络（简称F-PointPillars，全称Frustum-pointpillars：A multi-stage approach for 3d object detection usingrgb camera and lidar）、同质多模态网络（简称HMFI，全称Homogeneous multi-modal feature fusion and interaction for3d object detection）和级联双向融合多模态网络（简称EPNet++，全称EPNet++：CascadeBi-directional Fusion for Multi-Modal 3D Object Detection），

以及七种单阶段方法，包括：基于稀疏卷积的网络（简称Second，全称Second：Sparsely embedded convolutionaldetection）、快速编码点云网络（简称PointPillars，全称Pointpillars：Fast encoders for object detection from point clouds）、三重注意力网络（简称TANet，全称Tanet：Robust 3d object detection from point cloudswith triple attention）、无锚三维单级检测器（简称MGAFSSD，全称Anchor-free 3dsingle stage detector with mask-guided attention for point cloud,）、混合体素点云单级检测器（简称HVPR，全称Hvpr：Hybrid voxel-point representationfor single-stage 3d object detection）、基于稀疏体素图的网络（简称SVGA-Net，全称Svga-net：Sparse voxelgraph attention network for 3d object detection from pointclouds）、基于点云的高效检测器（简称IA-SSD，全称Not all pointsare equal：Learninghighly efficient point-based detectors for 3d lidarpoint clouds）；本实施例主要与基于支柱的方法进行比较，包括F-PointPillars、PointPillars和TANet，实验结果如表1所示。

表1 定量分析实验结果

。

本实施例将所有方法分为一阶段和二阶段，与最新的单阶段和两阶段方法相比，本实施例在所有AP 3D和AP BEV的情况下都取得了显著的进步。本实施例主要与基于支柱的方法进行比较，与基于支柱的方法相比，本实施例所提出的方法在AP 3D和AP BEV上获得了最佳检测效果。具体来说，本实施例所提出的方法在AP 3D上的平均值比HVPR方法高1.31%，在AP BEV上的平均值比F-PointPillars方法高0.53%。观察到基于支柱的方法缺乏强大的支柱编码模块。PointPillars、F-PointPillars和HVPR只使用全连接层进行编码，这是它们性能不佳的原因之一。本实施例采用多注意力模块来增强支柱的编码能力，这一缺点得到了显著改善。另一个原因是这些方法统一地在特征金字塔中进行融合，而融合结果不能反映不同特征级别的特征图的重要性。同时，PointPillars方法和F-PointPillars方法没有考虑金字塔中的尺度混淆问题。本实施例使用注意力双向特征金字塔模块使网络具有尺度感知能力，并使用双向金字塔进行高效的多尺度融合。

本实施例不仅预测了3D定向框，并且还考虑了三维场景下的方向度量。方向使用平均方向相似度（Average Orientation Similarity，AOS）进行评估，这需要将3D框投影到图像中，执行2D检测匹配，然后评估这些匹配的方向。如表2所示，本实施例所提出的方法主要与三种方法进行比较，其中FPointPillars是一种代表性的支柱方法，所提出的方法在AOS上优于该方法。

表2 平均方向相似度试验结果

。

（2）运行时间

表1显示了所有比较方法的运行速度，本实施例的方法优于所有两阶段方法，并在所有一阶段方法中实现良好的运行效率同时保持有效性。与IA-SSD方法相比，因为它没有使用解码器，只使用轻量级编码器，并过滤背景点并关注前景点，本实施例的方法没有IA-SSD那么快，但性能要高得多。与基于支柱的方法相比，本实施例的方法比F-PointPillars快，但不如Pointpillars和HVPR快，这是因为本实施例所提出的网络使用多注意力模块对支柱进行编码，在提高性能的同时限制速度。在表3中显示本实施例所提出网络的每个模块的推理时间。

如表3所示，在RTX 3090服务器的测试中，使用7518个测试样本来评估推理时间，该方法可以实现33.14ms的推理时间（约30.2 FPS），其中12.43ms用于预处理，6.72ms用于多注意力模块，0.4ms用于使用3D列特征生成2D伪图像，注意力双向特征金字塔模块需要11.66ms，后处理需要1.93ms。

表3显示了本实施例所提出方法的基线推理时间，其中支柱编码表示一个简单的全连接层，多尺度特征金字塔表示自上而下的特征金字塔网络。多注意力模块和注意力双向特征金字塔分别取代支柱编码模块和多尺度特征金字塔，因为在每次模型评估过程中数据处理和其他模块存在误差，只能大致计算所提出的多注意力模块和注意力双向特征金字塔模块对基线的影响。与基线相比，本实施例所提出方法的整体推理时间提高了约4.7ms，多注意力模块增加了约4.6ms，注意力双向特征金字塔模块增加了约0.7ms。多注意力模块对速度有显著影响，而注意力双向特征金字塔模块几乎不增加推理时间。必须强调的是，诸如数据处理之类的模块可能会导致测试时间出现误差，并且模块推理时间粗略但仍然具有参考意义。

表3 推理时间

。

（3）消融实验

本实施例分析多注意力模块和注意力双向特征金字塔模块模型的有效性，结果如表4所示。本实施例的基线方法类似于Pointpillars，使用简单的全连接层编码支柱，使用自上而下的特征金字塔网络进行具有相等权重的多尺度融合，仅使用多注意力模块的情况下，本实施例用基线方法的多尺度特征金字塔替换注意力双向特征金字塔模块。仅使用注意力双向特征金字塔模块的情况下，本实施例用基线方法的支柱编码模块替换多注意力模块。

从表4中可以看出，仅当应用多注意力模块时，检测结果会有显著着改善，表明网络的编码能力对高质量的3D检测至关重要。当移除多注意力模块并添加注意力双向特征金字塔模型时，在困难级别上的结果会有显著改善，表明尺度感知和加权融合可以有效改善小物体的检测。通过同时使用这两个模型，可以在所有指标中观察到显著改进。

表4 消融实验结果

。

为了证明编码能力对网络的重要性，将多次使用多个多注意力模块来提高支柱的编码能力。具体来说，在多注意力模块后面添加两个全连接层，这样输出维度与后续多注意力模块的输入维度相同。从表5可以看出，与使用一个多注意力模块的情况相比，当使用三个多注意力模块时，检测结果显着改善，平均值提高了1.26%。然而，使用多个多注意力模块会影响网络的推理速度，因此本实施例最终采用了一个多注意力模块。

表5 多个多注意力模块试验结果

。

（4）可视化分析

除了定量比较外，还给出了三维物体检测的一些可视化结果，如图5所示。为了更好地观察，展示相机图像数据和激光雷达点云数据，相机图像数据和激光雷达点云数据是一一对应的相同场景。图5中的（a）-（c）为相机图像数据，显示了少数行人的三维检测，其中，图5中的（a）和（b）分别显示了近距离和远距离的三维行人检测，图5中的（c）比较了不同距离的三维行人检测效果，可视化结果显示预测框和真实框基本上是重叠的。图5中的（d）-（f）为激光雷达点云数据，显示了复杂场景下的检测结果，其中，图5中的（d）显示了严重遮挡的三维行人的检测结果，图5中的（e）-（f）均显示了密集行人的三维检测结果。所有行人对象都被本实施例所提出的方法准确地检测出来，在所有场景中表现良好，能够准确地估计与点云对齐良好的三维边界框。

实施例2

本实施例提供一种面向开放场景的三维行人检测系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.面向开放场景的三维行人检测方法，其特征在于，包括：

对多尺度下的伪图像特征，利用自上而下和自下而上的双向传播路径进行尺度融合，由此根据融合后的特征图进行三维目标行人的检测；

利用自上而下和自下而上的双向传播路径进行尺度融合的过程包括自上而下的聚合路径网络和自下而上的聚合路径网络；

具体地，得到的多尺度下的伪图像特征为，i表示第i个尺度，/>，根据第二层伪图像特征和第三层伪图像特征得到用于自上而下传播的聚合路径网络/>，/>为第三层伪图像特征/>和第二层伪图像特征/>分配权重并融合；

根据第一层伪图像特征和/>得到自下而上的聚合路径网络/>中的第一层传播层/>，/>为/>和/>分配权重并融合；继而在第一层传播层的基础上根据第二层伪图像特征和/>得到第二层传播层/>，/>为/>、/>和/>分配权重并融合；最后在第二层传播层的基础上，根据第三层伪图像特征得到第三层传播层/>，/>为和/>分配权重并融合；

自上而下的聚合路径网络为：

；

其中，Resize是上采样或下采样操作；Conv是卷积操作；是常数；/>、/>分别表示融合路径中相对浅层的特征和相对深层的特征；

自下而上的聚合路径网络为：

；

其中，是自下而上的聚合路径网络，/>；Resize是上采样或下采样操作；Conv是卷积操作；/>是常数；/>、/>、/>、/>、/> 分别表示融合路径中相对浅层特征的权重；/>、/>、/>、/>分别表示融合路径中相对深层特征的权重。

2.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，得到第一权重图的过程包括：对点通道和特征通道分别进行最大池化操作，引入两个不同的记忆单元和/>作为键和值；将最大池化操作后的点通道和特征通道分别与/>执行元素乘法操作后再与/>执行元素乘法操作，由此得到点通道的注意力权重图和特征通道的注意力权重图，点通道的注意力权重图和特征通道的注意力权重图乘法得到第一权重图。

3.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，生成空间注意力权重图的过程包括：每个尺度的特征进行平均池化和最大池化操作，将平均池化和最大池化的结果连接后使用卷积核进行激励操作，由此生成空间注意力权重图。

4.如权利要求1所述的面向开放场景的三维行人检测方法，其特征在于，将每个尺度的空间注意力权重图与对应尺度下的特征执行元素乘法后与对应尺度下的特征进行元素求和得到具有尺度感知的伪图像特征。

5.面向开放场景的三维行人检测系统，其特征在于，包括：

尺度融合模块，被配置为对多尺度下的伪图像特征，利用自上而下和自下而上的双向传播路径进行尺度融合，由此根据融合后的特征图进行三维目标行人的检测；

自上而下的聚合路径网络为：；

自下而上的聚合路径网络为：

；

6.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-4任一项所述的方法。