CN118072350A

CN118072350A - 一种行人检测方法、装置及电子设备

Info

Publication number: CN118072350A
Application number: CN202410173140.2A
Authority: CN
Inventors: 翟锐; 宋然; 靳浩哲; 于俊洋; 宋亚林; 刘世崇; 钱鹏
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-05-24

Abstract

本发明实施例提供一种行人检测方法、装置及电子设备，涉及目标检测技术领域。所述行人检测方法包括：对待检测图像进行多尺度特征提取，得到多个特征图；根据所有特征图中的输出步长最大的特征图，构造特征图序列；采用基于可变形自注意力机制的编码模块对特征图序列进行编码，得到目标特征图；对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征，以基于融合特征获取多个预测框；结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框；从所有检测框中筛选行人检测框，将所有行人检测框作为行人检测结果。本发明实施例能够适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

Description

一种行人检测方法、装置及电子设备

技术领域

本发明涉及目标检测技术领域，具体而言，涉及一种行人检测方法、装置及电子设备。

背景技术

目前，广泛采用经典的目标检测模型，比如基于卷积神经网络(ConvolutionalNeural Networks，CNN)的目标检测模型或基于Transformer的目标检测模型来进行行人检测。

而实际的行人检测场景是不断变化的，图像中的行人目标存在目标尺寸较小、容易被周围环境遮挡等问题，导致图像中的行人特征信息不完整，降低了目标检测模型的检测可靠性和检测准确性，且经典的目标检测模型的训练时间较长，降低了目标检测模型的检测实时性。

因此，采用现有的目标检测模型仍难以适应实际的行人检测场景，无法稳定高效地从图像中检测出行人。

发明内容

本发明实施例的目的在于提供一种行人检测方法、装置及电子设备，用以实现适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人的技术效果。

第一方面，本发明实施例提供一种行人检测方法，包括：

对待检测图像进行多尺度特征提取，得到多个特征图；

根据所有所述特征图中的输出步长最大的特征图，构造特征图序列；

采用基于可变形自注意力机制的编码模块对所述特征图序列进行编码，得到目标特征图；

对所述目标特征图和所有所述特征图中的其余特征图进行跨尺度特征融合，得到融合特征，以基于所述融合特征获取多个预测框；

结合所述特征图序列中的位置信息和所有所述预测框，对所述目标特征图进行解码，得到多个检测框；

从所有所述检测框中筛选行人检测框，将所有所述行人检测框作为行人检测结果。

在上述实现过程中，通过在对待检测图像进行行人检测的过程中，采用基于可变形自注意力机制的编码模块对处理待检测图像得到的特征图序列进行编码，可以根据特征图序列的数据特点动态调整注意力，灵活高效地捕捉到更多特征信息进行行人检测，能够适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

进一步地，所述基于可变形自注意力机制的编码模块为AIFI模块，所述AIFI模块包括可变形自注意力组件和FFN组件。

在上述实现过程中，通过采用包括可变形自注意力组件和FFN组件的AIFI模块作为编码模块来对特征图序列进行编码，可以根据特征图序列的数据特点动态调整注意力，捕捉到更多特征信息进行行人检测，能够更好地适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

进一步地，所述对待检测图像进行多尺度特征提取，得到多个特征图，具体包括：

采用主干模块对所述待检测图像进行多尺度特征提取，得到多个所述特征图；其中，所述主干模块为卷积神经网络。

在上述实现过程中，通过采用卷积神经网络作为主干模块来对待检测图像进行多尺度特征提取，能够快速准确地获取多个不同尺度的特征图。

进一步地，所述根据所有所述特征图中的输出步长最大的特征图，构造特征图序列，具体包括：

对所有所述特征图中的输出步长最大的特征图进行切分操作，得到多个图块；

结合所有所述图块进行展平操作，生成所述特征图序列。

在上述实现过程中，通过先将输出步长最大的特征图切分为多个图块，再结合所有图块展平为一维的特征图序列，能够保证完整保留输出步长最大的特征图中的特征信息。

进一步地，所述对所述目标特征图和所有所述特征图中的其余特征图进行跨尺度特征融合，得到融合特征，具体包括：

采用跨尺度特征融合模块对所述目标特征图和所有所述特征图中的其余特征图进行跨尺度特征融合，得到所述融合特征；其中，所述跨尺度特征融合模块为CCFM模块。

在上述实现过程中，通过选用CCFM模块作为跨尺度特征融合模块来对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，能够更好地适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

进一步地，所述基于所述融合特征获取多个预测框，具体包括：

采用特征评价模块对所述融合特征进行评分，确定多个所述预测框；其中，所述特征评价模块为IoU-Aware Query Selection模块，所述预测框由多个二维的可学习嵌入向量组成。

在上述实现过程中，通过选用IoU-Aware Query Selection模块作为特征评价模块来对融合特征进行评分，确定多个预测框，能够保证全面地从待检测图像中检测出行人。

进一步地，所述结合所述特征图序列中的位置信息和所有所述预测框，对所述目标特征图进行解码，得到多个检测框，具体包括：

采用解码模块结合所述特征图序列中的位置信息和所有所述预测框，对所述目标特征图进行解码，得到多个所述检测框；其中，所述解码模块包括DINO组件。

在上述实现过程中，通过采用包括DINO组件的解码模块结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，能够保证快速准确地获取多个检测框。

进一步地，所述从所有所述检测框中筛选行人检测框，将所有所述行人检测框作为行人检测结果，具体包括：

采用多层感知模块从所有所述检测框中筛选行人检测框，将所有所述行人检测框作为所述行人检测结果；其中，所述多层感知模块包括多个FFN组件。

在上述实现过程中，通过采用包括多个FFN组件的多层感知模块从所有检测框中筛选行人检测框，能够进一步验证检测结果，更加稳定高效地从待检测图像中检测出行人。

第二方面，本发明实施例提供一种行人检测装置，包括：

多尺度特征提取单元，用于对待检测图像进行多尺度特征提取，得到多个特征图；

特征图序列构造单元，用于根据所有所述特征图中的输出步长最大的特征图，构造特征图序列；

特征图序列编码单元，用于采用基于可变形自注意力机制的编码模块对所述特征图序列进行编码，得到目标特征图；

跨尺度特征融合单元，用于对所述目标特征图和所有所述特征图中的其余特征图进行跨尺度特征融合，得到融合特征，以基于所述融合特征获取多个预测框；

目标特征图解码单元，用于结合所述特征图序列中的位置信息和所有所述预测框，对所述目标特征图进行解码，得到多个检测框；

行人检测结果获取单元，用于从所有所述检测框中筛选行人检测框，将所有所述行人检测框作为行人检测结果。

第三方面，本发明实施例提供一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序；所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时实现如上所述的行人检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的行人检测方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明第一实施例提供的一种行人检测方法的流程示意图；

图2为本发明第一实施例示例的一种行人检测方法的数据流图；

图3为本发明第一实施例中一可选实施例示例的AIFI模块的示意图；

图4为本发明第二实施例提供的一种行人检测装置的结构示意图；

图5为本发明第三实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

应注意到：在本发明实施例的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。同时，文中的步骤编号，仅为了方便本发明实施例的解释，不作为限定步骤执行先后顺序的作用。本发明实施例提供的方法可以由相关的终端设备执行，且下文均以处理器作为执行主体为例进行说明。

在现有技术中，广泛采用经典的目标检测模型，比如基于卷积神经网络(Convolutional Neural Networks，CNN)的目标检测模型或基于Transformer的目标检测模型来进行行人检测。

基于CNN的目标检测模型经历了从两阶段到一阶段的架构演进，出现了Anchor-Based和Anchor-Free两种检测范式。这些研究在检测速度和准确性方面取得了显著进展。关于一阶段目标检测模型，YOLO模型是代表性的研究之一，它不支持目标的任何辅助边界框，从而提高了检测系统的运行效率。除了上面提到的基于锚的目标检测模型之外，还提出并开发了一些无锚的目标检测模型，例如CenterNet模型。此外，针对中心和尺度预测(Center and Scale Prediction，CSP)还提出了一种检测头，可以直接从CNN提取的特征图中预测中心点和尺度。但是，一系列YOLO算法在进行目标检测时需要先完成阈值筛选和非极大值抑制(Non-Maximum Suppression，NMS)两个关键步骤，导致推理速度延迟且难以优化。

相比之下，基于Transformer的目标检测模型，比如DETR模型受到更广泛关注，因为它消除了NMS等手工设计的组件，实现了端到端的目标检测，大大简化了检测流水线。虽然DETR模型在性能上取得了显著进展，但由于其计算量特别大限制了实际应用范围。针对这一问题，研究发现引入多尺度特征虽然有助于训练收敛和性能提升，但也导致了编码器中序列长度的显著增加，使得Transformer编码器成为计算瓶颈。为实现实时目标检测，提出了一种高效的混合编码器，通过解耦多尺度特征的尺度内交互和尺度间融合，实现了对不同尺度特征的有效处理。此外，为提高性能，也提出了IoU-Aware的查询选择，通过在训练期间提供IoU(Intersetion Over Union，交并比)约束，向解码器提供更高质量的初始目标查询。同时，提出的目标检测模型支持通过使用不同的解码器层来调整推理速度，无需重新训练，这有助于实时目标检测，RT-DETR模型应运而生。

而实际的行人检测场景是不断变化的，图像中的行人目标存在目标尺寸较小、容易被周围环境遮挡等问题，导致图像中的行人特征信息不完整。为了使RT-DERT模型这种实时高效的目标检测模型适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人，本发明实施例设计了一种基于可变形自注意力机制的编码模块，改进了RT-DERT模型，并提出了一种行人检测方法、装置、电子设备和存储介质。

请参看图1，图1为本发明第一实施例提供的一种行人检测方法的流程示意图。本发明第一实施例提供一种行人检测方法，包括步骤S101～S106：

S101、对待检测图像进行多尺度特征提取，得到多个特征图；

S102、根据所有特征图中的输出步长最大的特征图，构造特征图序列；

S103、采用基于可变形自注意力机制的编码模块对特征图序列进行编码，得到目标特征图；

S104、对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征，以基于融合特征获取多个预测框；

S105、结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框；

S106、从所有检测框中筛选行人检测框，将所有行人检测框作为行人检测结果。

作为示例性地，获取待检测图像，待检测图像可以是在实际的行人检测场景下通过图像采集设备采集的图像或视频帧。按照预先设置的多个不同的尺度，对待检测图像进行多尺度特征提取，得到多个特征图。

可以理解的是，通过按照预先设置的多个不同的尺度，对待检测图像进行多尺度特征提取，得到多个特征图，可以按照多个特征图的输出步长从小到大的顺序，将多个特征图自底到顶形成金字塔状的特征结构。在金字塔状的特征结构中，较低层级的特征图输出步长较小，对应较小的感受野，分辨率较高，有助于检测小尺度物体，而较高层级的特征图输出步长较大，对应较大的感受野，分辨率较低，有助于检测大尺度物体，从而使目标检测模型可同时关注到多个不同尺度上的特征信息。

在得到所有特征图时，选择所有特征图中输出步长最大的特征图，根据选择的特征图，构造特征图序列。

可以理解的是，所有特征图中输出步长最大的特征图相比于其余特征图，具有更深层、更丰富的语义特征，这些语义特征是Transformer更加感兴趣的和需要的，对于区分不同物体的特征是更加有用的，而低层级的特征图因缺少较好的语义特征往往起不到什么作用，所以，通过仅处理输出步长最大的特征图去进行后续的编码，既可以大幅度地减小计算量，提高计算速度，又不会影响目标检测模型的性能。

预先设计一种基于可变形自注意力机制的编码模块，在得到特征图序列时，采用基于可变形自注意力机制的编码模块对特征图序列进行编码，得到目标特征图。

可以理解的是，通过采用基于可变形自注意力机制的编码模块对特征图序列进行编码，引入了可变形自注意力机制，使得注意力能够根据特征图序列的数据特点进行动态调整，特别是能够针对行人这类小尺寸目标更加有效地捕捉特征信息，灵活高效地捕捉到更多特征信息去进行后续的行人检测，有助于提高目标检测模型的检测灵活性和检测效率，保证在各种行人检测场景下都能稳定高效地从图像中检测出行人。

在得到目标特征图时，对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征，并基于融合特征获取多个预测框。其中，预测框的数量为预设阈值，该预设阈值应是一个远大于待检测图像中行人数量的值。

在得到多个预测框时，确定特征图序列中的位置信息，结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框。

可以理解的是，预测框是目标检测模型一开始获取的边界框，用于从待检测图像中框选目标。检测框是目标检测模型框选后的边界框，包含有目标。

在得到所有检测框时，分别判断每一检测框中是否存在行人且在存在行人时预测行人位置，将存在行人且预测到行人位置的检测框作为行人检测框，筛选出所有行人检测框，将所有行人检测框作为行人检测结果。

本发明实施例通过在对待检测图像进行行人检测的过程中，采用基于可变形自注意力机制的编码模块对处理待检测图像得到的特征图序列进行编码，可以根据特征图序列的数据特点动态调整注意力，灵活高效地捕捉到更多特征信息进行行人检测，能够适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

在可选的实施例当中，所述对待检测图像进行多尺度特征提取，得到多个特征图，具体包括：采用主干模块对待检测图像进行多尺度特征提取，得到多个特征图；其中，主干模块为卷积神经网络。

作为示例性地，选用卷积神经网络，比如Resnet网络作为目标检测模型的主干模块，采用主干模块对待检测图像进行多尺度特征提取，得到多个特征图。

例如，行人检测方法的数据流图如图2所示，采用主干模块对待检测图像进行三个尺度的特征提取，得到输出步长分别为8、16、32的特征图，即图2中的F1、F2、F3。

本发明实施例通过采用卷积神经网络作为主干模块来对待检测图像进行多尺度特征提取，能够快速准确地获取多个不同尺度的特征图。

在可选的实施例当中，所述根据所有特征图中的输出步长最大的特征图，构造特征图序列，具体包括：对所有特征图中的输出步长最大的特征图进行切分操作，得到多个图块；结合所有图块进行展平操作，生成特征图序列。

作为示例性地，在得到所有特征图时，选择所有特征图中输出步长最大的特征图，对选择的特征图进行切分操作，分成多个patch，每一个patch即为一个图块，结合所有图块进行展平操作，即flatten操作，拉成一个一维序列，得到特征图序列。其中，特征图序列中包含所有图块的位置信息，图块的位置信息用于记录图块在待检测图像中的位置。

本发明实施例通过先将输出步长最大的特征图切分为多个图块，再结合所有图块展平为一维的特征图序列，能够保证完整保留输出步长最大的特征图中的特征信息。

在可选的实施例当中，基于可变形自注意力机制的编码模块为AIFI模块，AIFI模块包括可变形自注意力组件和FFN组件。

作为示例性地，在得到特征图序列时，选用包括可变形自注意力组件和FFN(Feed-Forward Network，前馈网络)组件的AIFI(Attention-based Intra-scale FeatureInteraction，基于注意力的尺度内特征交互作用)模块作为基于可变形自注意力机制的编码模块，采用基于可变形自注意力机制的编码模块对特征图序列进行编码，得到目标特征图。

例如，目标检测模型，比如RT-DETR模型采用了一层Transformer的编码模块，即图2中的AIFI模块。AIFI模块包括可变形自注意力组件和FFN组件，输入到AIFI模块中的特征图序列依次经过可变形自注意力组件和FFN组件处理输出。AIFI模块如图3所示。AIFI模块对特征图序列进行编码的具体过程如下：

1、将特征图序列Image features和位置编码Q相加，以添加位置嵌入来引入特征图序列中的位置信息；

2、将特征图序列Image features和位置编码Q的相加值、真实值V输入可变形自注意力组件，使可变形自注意力组件经过偏移计算输出第一结果值；

3、将第一结果值跨层连接、与特征图序列Image features相加，并对第一结果值和特征图序列Image features的相加值进行归一化，得到第二结果值；

4、将第二结果值输入FFN组件，使FFN组件输出第三结果值；其中，FFN组件由两个全连接层、一个激活层和一个dropout层组成，FFN组件可以表示为FFN＝max(0,xW₁+b₁)×W₂+b₂，x为第二结果值，W₁、W₂分别为两个全连接层的权重系数，b₁、b₂分别为两个全连接层的偏置参数；

4、将第三结果值和第二结果值相加，得到AIFI模块最终输出的目标特征图，即图2中的F4。

整个过程通过可变形自注意力增加感受野学习全局特征，为后面的行人检测做准备。

可以理解的是，可变形自注意力机制的设计既保持了线性的空间复杂度，又引用了可变形的注意力模式，能够根据输入数据的数据特点动态调整注意力，特别是能够针对行人这类小尺寸目标更加有效地捕捉特征信息，灵活高效地捕捉到更多重要的特征信息。具体来说，可变形自注意力机制增加了一组全局的关键点(Reference points)，这些关键点在整个输入数据中是固定的，并通过一个偏移网络(Offset network)，根据查询特征生成与每个关键点对应的偏移量，将候选的键(Keys，即图3中的K)和值(Values)根据偏移量进行平移，使得注意力可以根据输入数据的数据特点进行动态调整，更加灵活高效地捕捉到更多重要的特征信息。

本发明实施例通过采用包括可变形自注意力组件和FFN组件的AIFI模块作为编码模块来对特征图序列进行编码，可以根据特征图序列的数据特点动态调整注意力，捕捉到更多特征信息进行行人检测，能够更好地适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

在可选的实施例当中，所述对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征，具体包括：采用跨尺度特征融合模块对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征；其中，跨尺度特征融合模块为CCFM模块。

作为示例性地，在得到目标特征图时，选用CCFM(Cross-Scale Feature FusionModule)模块作为跨尺度特征融合模块，采用跨尺度特征融合模块对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征。

CCFM模块的工作原理是：将不同尺度的特征通过融合操作整合起来，以增强目标检测模型对于尺度变化的适应性和对小尺度对象的检测能力。

本发明实施例通过选用CCFM模块作为跨尺度特征融合模块来对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，能够更好地适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

在可选的实施例当中，所述基于融合特征获取多个预测框，具体包括：采用特征评价模块对融合特征进行评分，确定多个预测框；其中，特征评价模块为IoU-Aware QuerySelection模块，预测框由多个二维的可学习嵌入向量组成。

作为示例性地，在得到融合特征后，选用IoU-Aware Query Selection模块作为特征评价模块，采用特征评价模块对融合特征进行评价，并根据特征评价结果，确定多个预测框，例如，采用IoU-Aware Query Selection模块评估融合特征的类别置信度，根据融合特征的类别置信度确定多个预测框。其中，预测框由多个二维的可学习嵌入向量组成，预测框的总数为预设阈值，该预设阈值应是一个远大于待检测图像中行人数量的值，比如N。

可以理解的是，预测框Object queries由N个二维的可学习嵌入向量Learnableembedding组成。训练刚开始时可以随机初始化。在训练过程中，因为需要生成不同的关于行人的检测框boxes，预测框Object queries会自动学习到目标对象和全局图像之间的关系，相当于全局注意力。

本发明实施例通过选用IoU-Aware Query Selection模块作为特征评价模块来对融合特征进行评分，确定多个预测框，能够保证全面地从待检测图像中检测出行人。

在可选的实施例当中，所述结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框，具体包括：采用解码模块结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框；其中，解码模块包括DINO组件。

作为示例性地，选用包括DINO组件的解码模块，将特征图序列中的位置信息和所有预测框、目标特征图输入解码模块，采用解码模块结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框。其中，当预测框的总数为N时，检测框的总数也为N。

具体实现上，解码模块使用了DINO组件的“去噪思想”来提升双边匹配的样本质量，加快训练的收敛速度。在任务阶段和计算网络损失阶段，类别标签都换成了“IoU软标签”。其中，网络损失的计算公式如下：

式(1)中，表示预测值/>与真实值y之间的损失，/> 为预测的类别，为预测的边界框，即检测框，y为真实值，y＝{c,b}，c为真实的类别，b为真实的边界框，表示检测框与真实的边界框之间的损失，用于衡量检测框的位置准确性，表示预测的类别与真实的类别之间的损失，用于衡量检测框的分类准确性，表现为预测的类别标签与真实的类别标签之间的差异。

“IoU软标签”，就是指将预测的边界框与真实的边界框之间的IoU作为预测的类别标签，其本质就是已经被广泛验证了的IoU-aware。其实，DETR系列的精髓就在于编码模块—通过预测框Object queries和跨注意力机制(cross attention)的结合，将检测任务转换成一个无序的序列输出，大大改变了检测范式。

本发明实施例通过采用包括DINO组件的解码模块结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，能够保证快速准确地获取多个检测框。

在可选的实施例当中，所述从所有检测框中筛选行人检测框，将所有行人检测框作为行人检测结果，具体包括：采用多层感知模块从所有检测框中筛选行人检测框，将所有行人检测框作为行人检测结果；其中，多层感知模块包括多个FFN组件。

作为示例性地，在得到所有检测框时，选用包括多个FFN组件的多层感知模块，采用多层感知模块从所有检测框中筛选行人检测框，将所有行人检测框作为行人检测结果，例如，假设得到N个检测框，采用包括N个FFN组件的多层感知模块，由各个FFN组件对应判断各个检测框中是否存在行人且在存在行人时预测行人位置，将存在行人且预测到行人位置的检测框作为行人检测框，筛选出所有行人检测框，将所有行人检测框作为行人检测结果。其中，多层感知模块中的FFN组件和编码模块中的FFN组件的结构可以相同也可以不相同。

本发明实施例通过采用包括多个FFN组件的多层感知模块从所有检测框中筛选行人检测框，能够进一步验证检测结果，更加稳定高效地从待检测图像中检测出行人。

应用本发明第一实施例提供的一种行人检测方法，可以跳过手工设计的部分，以端到端的方式直接输出所有行人检测框，且预测框Object queries是可学习的，由于维度比较高，可以表征的特征信息更加丰富，所以对于不同场景下不同尺寸、不同姿态的行人都有很好的检测效果。

使用两个行人检测数据集CityPersons、CrowdHuman进行实验，同时将数据集按照7:2:1的比例划分为训练集，验证集，测试集。对CityPersons、CrowdHuman数据集训练了100个epoch，学习率初始化为0.0001，批量大小设置为4。采用在两个数据集上训练的目标检测模型来执行所述行人检测方法，将所述行人检测方法与现有的行人检测方法做了比较，实验结果分别如表1、2所示。

表1：Citypersons

表2：CrowdHuman

实验结果表明，与CityPersons、CrowdHuman数据集上的多个现有的行人检测方法相比，所述行人检测方法具有显著的优势。在检测精度和检测速度方面，所述行人检测方法具有卓越的表现，突显了其高效和鲁棒的行人检测潜力。在相同的实验环境下，与其他算法相比，所述行人检测方法在精度方面提升了0.01至0.05，在检测速度方面可以提高一倍。

请参看图4，图4为本发明第二实施例提供的一种行人检测装置的结构示意图。本发明第二实施例提供一种行人检测装置，包括：多尺度特征提取单元201，用于对待检测图像进行多尺度特征提取，得到多个特征图；特征图序列构造单元202，用于根据所有特征图中的输出步长最大的特征图，构造特征图序列；特征图序列编码单元203，用于采用基于可变形自注意力机制的编码模块对特征图序列进行编码，得到目标特征图；跨尺度特征融合单元204，用于对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征，以基于融合特征获取多个预测框；目标特征图解码单元205，用于结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框；行人检测结果获取单元206，用于从所有检测框中筛选行人检测框，将所有行人检测框作为行人检测结果。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

请参看图5，图5为本发明第三实施例提供的一种电子设备的结构示意图。本发明第三实施例提供一种电子设备30，包括处理器301、存储器302以及存储在存储器302中且被配置为由处理器301执行的计算机程序；存储器302与处理器301耦接，且处理器301执行计算机程序时实现如本发明第一实施例所述的行人检测方法，且能达到与之相同的有益效果。

其中，处理器301通过总线303从存储器302读取计算机程序并执行所述计算机程序时可实现如本发明第一实施例所述的行人检测方法包括的任意实施例的方法。

处理器301可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器301可以是微处理器。

存储器302可以用于存储由处理器301执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本发明实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器301可以用于执行存储器302中的指令以实现如本发明第一实施例所述的行人检测方法。存储器302包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

本发明第四实施例提供一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序；其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如本发明第一实施例所述的行人检测方法，且能达到与之相同的有益效果。

综上所述，本发明实施例提供一种行人检测方法、装置及电子设备，所述行人检测方法包括：对待检测图像进行多尺度特征提取，得到多个特征图；根据所有特征图中的输出步长最大的特征图，构造特征图序列；采用基于可变形自注意力机制的编码模块对特征图序列进行编码，得到目标特征图；对目标特征图和所有特征图中的其余特征图进行跨尺度特征融合，得到融合特征，以基于融合特征获取多个预测框；结合特征图序列中的位置信息和所有预测框，对目标特征图进行解码，得到多个检测框；从所有检测框中筛选行人检测框，将所有行人检测框作为行人检测结果。本发明实施例通过在对待检测图像进行行人检测的过程中，采用基于可变形自注意力机制的编码模块对处理待检测图像得到的特征图序列进行编码，可以根据特征图序列的数据特点动态调整注意力，捕捉到更多特征信息进行行人检测，能够适应实际的行人检测场景，稳定高效地从待检测图像中检测出行人。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行人检测方法，其特征在于，包括：

对待检测图像进行多尺度特征提取，得到多个特征图；

2.根据权利要求1所述的行人检测方法，其特征在于，所述基于可变形自注意力机制的编码模块为AIFI模块，所述AIFI模块包括可变形自注意力组件和FFN组件。

3.根据权利要求1或2所述的行人检测方法，其特征在于，所述对待检测图像进行多尺度特征提取，得到多个特征图，具体包括：

4.根据权利要求1或2所述的行人检测方法，其特征在于，所述根据所有所述特征图中的输出步长最大的特征图，构造特征图序列，具体包括：

结合所有所述图块进行展平操作，生成所述特征图序列。

5.根据权利要求1或2所述的行人检测方法，其特征在于，所述对所述目标特征图和所有所述特征图中的其余特征图进行跨尺度特征融合，得到融合特征，具体包括：

6.根据权利要求1或2所述的行人检测方法，其特征在于，所述基于所述融合特征获取多个预测框，具体包括：

7.根据权利要求1或2所述的行人检测方法，其特征在于，所述结合所述特征图序列中的位置信息和所有所述预测框，对所述目标特征图进行解码，得到多个检测框，具体包括：

8.根据权利要求1或2所述的行人检测方法，其特征在于，所述从所有所述检测框中筛选行人检测框，将所有所述行人检测框作为行人检测结果，具体包括：

9.一种行人检测装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序；所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时实现根据权利要求1至7任一项所述的行人检测方法。