CN112132034B

CN112132034B - 行人图像检测方法、装置、计算机设备及存储介质

Info

Publication number: CN112132034B
Application number: CN202011009482.9A
Authority: CN
Inventors: 吴晓东
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2024-04-16
Anticipated expiration: 2040-09-23
Also published as: CN112132034A

Abstract

本发明涉及人工智能技术领域，提供一种行人图像检测方法、装置、计算机设备及存储介质，包括：将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中并进行融合得到增强型backbone网络；获取增强型backbone网络输出的增强特征图，并将增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取，得到多个尺度的特征图；利用预先聚类得到的多个anchor box分别在每个尺度的特征图上进行行人检测，得到每个尺度的特征图对应的第一anchor box坐标及每个第一anchor box坐标的第一得分；将第一得分最高的第一anchor box坐标确定为预测出的位置坐标，并将预测出的位置坐标映射到行人图像上，得到行人图像的检测结果。本发明可应用于智慧交通中，能够提高行人图像的检测准确度。

Description

行人图像检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种行人图像检测方法、装置、计算机设备及存储介质。

背景技术

行人图像检测是计算机视觉中一个比较热门的研究方向，在智能视频监控、智能机器人、自动驾驶等诸多领域有着广泛的应用。

YOLOv3由于具有检测速度快且准确度高等优点，成为目前业内主流的行人图像检测算法之一。传统的YOLOv3行人图像检测算法对于一般环境下的行人图像检测效果较好，但对于遮挡、密集等复杂环境下的行人图像检测效果较弱。

发明内容

鉴于以上内容，有必要提出一种行人图像检测方法、装置、计算机设备及存储介质，能够提高行人图像的检测准确度。

本发明的第一方面提供一种行人图像检测方法，所述方法包括：

将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中；

将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络；

获取所述增强型backbone网络输出的增强特征图，并将所述增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取，得到多个尺度的特征图；

利用预先聚类得到的多个anchor box分别在每个尺度的特征图上进行行人检测，得到每个尺度的特征图对应的第一anchor box坐标及每个第一anchor box坐标的第一得分；

将所述第一得分最高的第一anchor box坐标确定为预测出的位置坐标，并将所述预测出的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果。

根据本发明的一个可选的实施例，所述至少一个辅助backbone网络包括第一辅助backbone网络和第二辅助backbone网络，所述将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络包括：

获取所述第一辅助backbone网络中的每一层卷积层的第一输入，并对所述每一层卷积层的第一输入进行上采样处理得到第一采样结果；

将所述第一采样结果与所述第二辅助backbone网络中对应卷积层的第一输出进行加和计算得到第一计算结果，并输入所述第一计算结果至所述第二辅助backbone网络中所述对应卷积层的下一卷积层中；

获取所述第二辅助backbone网络中的每一层卷积层的第二输入，并对所述每一层卷积层的第二输入进行上采样处理得到第二采样结果；

将所述第二采样结果与所述原始backbone网络中对应卷积层的第二输出进行加和计算得到第二计算结果，并输入所述第二计算结果至所述原始backbone网络中所述对应卷积层的下一卷积层中。

根据本发明的一个可选的实施例，在所述将所述增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取之前，所述行人图像检测方法还包括：

获取多个训练样本图像，并将每一个训练样本图像输入至所述原始backbone网络中和所述至少一个辅助backbone网络中；

将所述原始backbone网络和所述至少一个辅助backbone网络进行融合得到增强型backbone网络，并获取所述增强型backbone网络输出的增强样本特征图；

对每一个增强样本特征图进行多个不同尺度的卷积运算并将卷积运算结果进行拼接，得到多个不同尺度的样本特征图；

基于多个不同尺度的样本特征图进行训练，得到多尺度行人特征提取模型。

根据本发明的一个可选的实施例，所述对每一个增强样本特征图进行多个不同尺度的卷积运算并将卷积运算结果进行拼接，得到多个不同尺度的样本特征图包括：

将所述增强样本特征图依次输入至第一conv_layer层、第一conv_block层及第一conv层进行卷积运算，得到第一尺度的样本特征图；

将所述第一conv_layer层的输出输入至第一中间conv_block层并进行上采样处理得到第一处理特征图，并将所述第一处理特征图与所述增强样本特征图进行第一级联，将所述第一级联得到的结果依次输入第二conv_layer层、第二conv_block层及第二conv层进行卷积运算，得到第二尺度的样本特征图；

将所述第二conv_layer层的输出输入至第二中间conv_block层并进行上采样处理得到第二处理特征图，并将所述第二处理特征图与所述增强样本特征图进行第二级联，将所述第二级联得到的结果依次输入第三conv_layer层、第三conv_block层及第三conv层进行卷积运算，得到第三尺度的样本特征图；

将所述第三conv_layer层的输出输入至第三中间conv_block层并进行上采样处理得到第三处理特征图，并将所述第三处理特征图与所述增强样本特征图进行第三级联，将所述第三级联得到的结果依次输入第四conv_layer层、第四conv_block层及第四conv层进行卷积运算，得到第四尺度的样本特征图。

根据本发明的一个可选的实施例，所述基于多个不同尺度的样本特征图进行训练，得到多尺度行人特征提取模型包括：

获取预先聚类得到的多个anchor box；

利用所述多个anchor box在每一个样本特征图上进行识别，得到每一个样本特征图对应的第二anchor box坐标及每个第二anchor box坐标的第二得分；

将第二得分最高的第二anchor box坐标确定为每一个训练样本图像的预测坐标；

基于每一个训练样本图像的预测坐标及实际坐标计算准确率及召回率；

当所述准确率大于或者等于预设准确率阈值，且所述召回率大于或者等于预设召回率阈值时，停止训练，得到所述多尺度行人特征提取模型。

根据本发明的一个可选的实施例，所述将所述预测的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果包括：

确定所述行人图像的第一尺度及确定所述位置坐标对应的目标特征图的第二尺度；

根据所述第二尺度对应的所述位置坐标计算所述第一尺度对应的位置坐标；

根据所述第一尺度对应的位置坐标确定所述行人图像中的行人检测结果。

根据本发明的一个可选的实施例，在所述将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中之前，所述方法还包括：

对所述行人图像进行归一化处理，得到目标图像。

本发明的第二方面提供一种行人图像检测装置，所述装置包括：

图像输入模块，用于将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中；

网络融合模块，用于将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络；

特征提取模块，用于获取所述增强型backbone网络输出的增强特征图，并将所述增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取，得到多个尺度的特征图；

行人检测模块，用于利用预先聚类得到的多个anchor box分别在每个尺度的特征图上进行行人检测，得到每个尺度的特征图对应的第一anchor box坐标及每个第一anchorbox坐标的第一得分；

坐标映射模块，用于将所述第一得分最高的第一anchor box坐标确定为预测出的位置坐标，并将所述预测出的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果。

本发明的第三方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述行人图像检测方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述行人图像检测方法。

综上所述，本发明所述的行人图像检测方法、装置、计算机设备及存储介质，通过将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中并进行融合得到增强型backbone网络，能够提高行人图像在遮挡、密集等复杂环境下的特征抽取能力，增强了行人图像的特征图的表达能力；将增强的特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取，得到了在遮挡、密集等复杂环境下的多个不同尺度的特征图，多个不同尺度的特征图能够丰富特征图的表达形式，从而进一步提高特征的表达能力；再利用预先聚类得到的多个anchor box分别在每个尺度的特征图上进行行人检测，得到每个尺度的特征图对应的第一anchor box坐标及每个第一anchor box坐标的第一得分；最后将第一得分最高的第一anchor box坐标确定为预测出的位置坐标，并将预测出的位置坐标映射到行人图像上，能够得到准确率较高的行人图像的检测结果。而准确率的提高，表明被分为正例的样本的数量提高，而被分为正例的样本的数量提高又能提高行人检测的整体召回率。

附图说明

图1是本发明实施例一提供的行人图像检测方法的流程图。

图2是本发明实施例提供的网络融合的网络结构示意图。

图3是本发明实施例提供的卷积运算的网络结构示意图。

图4是本发明实施例二提供的行人图像检测装置的结构图。

图5是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

行人图像检测方法应用于计算机设备中，相应地，行人图像检测装置安装于计算机设备中。所述行人图像检测方法可应用于智慧交通中，提高行人图像中的行人的检测率，从而促进智慧城市的发展。

图1是本发明实施例一提供的行人图像检测方法的流程图。

所述行人图像检测方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中。

现有YOLOv3包括一个backbone网络结构，本实施例额外设置至少一个辅助backbone网络来辅助原有的backbone网络的输出，以增强行人图像的特征表达能力。所述至少一个辅助backbone网络可以为1个辅助backbone网络，或者2个及以上辅助backbone网络。

计算机设备获取行人图像，并响应于获取到的行人图像将所述行人图像分别输入多个backbone网络中。

在一个可选的实施例中，在所述将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中之前，所述方法还包括：对所述行人图像进行归一化处理，得到目标图像。

该可选的实施例中，所述归一化处理包括，但不限于：尺寸归一化处理等。示例性的，将所述行人图像的尺寸归一化为512*512。通过尺寸归一化处理，使所述行人图像满足行人图像检测模型对于图像大小的需求，便于后续利用行人图像检测模型进行自动行人检测。在得到目标图像之后，将所述目标图像分别输入至一个原始backbone网络中和至少一个辅助backbone网络中。

S12，将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络。

结合图2所示，所述至少一个辅助backbone网络包括backbone1和backbone2，则将backbone1和backbone2融入进原始backbone3网络，得到增强后的backbone3网络。

在一个可选的实施例中，所述至少一个辅助backbone网络包括第一辅助backbone网络和第二辅助backbone网络，所述将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络包括：

该可选的实施例中，每一个backbone网络中均包括多个卷积层，通过将所述第一辅助backbone网络中每一卷积层的输入进行上采样后再与所述第二辅助backbone网络中对应卷积层进行融合；在将所述第二辅助backbone网络中每一卷积层的输入进行上采样后再与所述原始backbone网络中对应卷积层进行融合，即可使得原始backbone网络中每一卷积层的输入，相较于未融合前得到了增强，能够显著提升行人图像在遮挡、密集等复杂环境下的特征抽取能力，从而提高对行人图像进行检测的准确率。

为更加清楚的描述该可选的实施例的方案，结合图2所示，将backbone1作为第一辅助backbone网络，将backbone2作为第二辅助backbone网络，将backbone3作为原始backbone网络，说明如下：

第一步：通过所述backbone1对输入至自身的第一层卷积层conv_net11

的所述行人图像进行上采样处理得到第一采样结果，将所述第一采样结果与所述backbone2中的第一层卷积层conv_net21的输出进行加和计算得到第一计算结果，并输入所述第一计算结果至所述backbone2中的第二层卷积层conv_net22；

第二步：通过所述backbone2对输入至自身的第一层卷积层conv_net21的所述行人图像进行上采样处理得到第二采样结果，将所述第二采样结果与所述backbone3中的第一层卷积层conv_net31的输出进行加和计算得到第二计算结果，并输入所述第二计算结果至所述backbone3中的第二层卷积层conv_net32；

第三步：通过所述backbone1对输入至自身的第二层卷积层conv_net12的特征图(该特征图为上一层卷积层的输出)进行上采样处理得到第一采样结果，将所述第一采样结果与所述backbone2中的第二层卷积层conv_net22的输出进行加和计算得到第一计算结果，并输入所述第一计算结果至所述backbone2中的第三层卷积层conv_net23；

第四步：通过所述backbone2对输入至自身的第二层卷积层conv_net22的特征图(即，第一计算结果)进行上采样处理得到第二采样结果，将所述第二采样结果与所述backbone3中的第二层卷积层conv_net32的输出进行加和计算得到第二计算结果，并输入所述第二计算结果至所述backbone3中的第三层卷积层conv_net53；

以此类推，直至所述backbone3的最后一层卷积层输出特征图。

S13，获取所述增强型backbone网络输出的增强特征图，并将所述增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取，得到多个尺度的特征图。

在本实施例中，将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络，增强型backbone网络的最后一层卷积层输出的特征图称之为增强特征图。

在一个可选的实施例中，在所述将所述增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取之前，所述行人图像检测方法还包括：

训练所述多尺度行人特征提取模型。

具体的，所述训练多尺度行人特征提取模型包括：

该可选的实施例中，将每一个训练样本图像输入至所述原始backbone网络中和所述至少一个辅助backbone网络中，并将所述原始backbone网络和所述至少一个辅助backbone网络进行融合得到增强型backbone网络的过程，同将行人图像输入至所述原始backbone网络中和所述至少一个辅助backbone网络中，并将所述原始backbone网络和所述至少一个辅助backbone网络进行融合得到增强型backbone网络的过程，本发明在此不再对输入训练样本图像至原始backbone网络中和所述至少一个辅助backbone网络中并进入融合得到增强型backbone网络的过程进行阐述。

请一并参阅图3所示，所述对每一个增强样本特征图进行多个不同尺度的卷积运算并将卷积运算结果进行拼接，得到多个不同尺度的样本特征图包括：

在图3中，y1表示所述第一尺度的样本特征图，y2表示所述第二尺度的样本特征图，y3表示所述第三尺度的样本特征图，y4表示所述第四尺度的样本特征图。

需要说明的是，所述conv_layer层、所述conv_block层及所述conv层的层组成方式可以根据实际需求进行设置，本发明不限制。

所述conv_layer层可以包括5层卷积、1层BN层(Batch Normalization)及1层激活层，所述conv_block层可以包括1层卷积、1层BN层及1层激活层，所述conv层可以包括1层卷积。

该可选的实施例中，将现有技术中的YOLOv3网络中的3个尺度特征图扩展为4个尺度，能够识别不同环境下更多的不同尺度的行人，从而提高行人图像中行人检测的准确率，准确率的提升，表明被分为正例的样本的数量提高，而被分为正例的样本的数量提高又能提高整体召回率。

在一个可选的实施例中，所述基于多个不同尺度的样本特征图进行训练，得到多尺度行人特征提取模型包括：

获取预先聚类得到的多个anchor box；

该可选的实施例中，假设TP代表样本为正，预测结果为正；FP代表样本为负，预测结果为正；TN代表样本为负，预测结果为负；FN代表样本为正，预测结果为负，则准确率(accuracy)＝(TP+TN)/(TP+FP+TN+FN)，召回率(recall)＝TP/(TP+FN)，正确预测为正占全部正样本的比例。

根据准确率和召回率作为多尺度行人特征提取模型训练结束的依据，能够使得训练得到的多尺度行人特征提取模型能够准确的提取出行人图像的多个尺度的特征图，从而在使用提取出的多个尺度的特征图进行行人预测时，能够准确的预测出行人，减少错误率。

需要说明的是，在训练得到多尺度行人特征提取模型之后，利用多尺度行人特征提取模型对增强特征图进行特征提取，得到多个尺度的特征图的过程，同上述对增强样本特征图进行多个不同尺度的卷积运算并将卷积运算结果进行拼接，得到多个不同尺度的样本特征图的过程相同。

S14，利用预先聚类得到的多个anchor box分别在每个尺度的特征图上进行行人检测，得到每个尺度的特征图对应的第一anchor box坐标及每个第一anchor box坐标的第一得分。

本实施例中，可以预先通过聚类算法得到12个anchor box。

12个anchor box在4个尺度的特征图上进行行人预测，一个尺度的特征图对应3个anchor box，从而使得一个尺度的特征图对应三个anchor坐标，每一个anchor坐标对应有一个得分。

从所有得分中获取得分最高的anchor box坐标作为预测的行人的位置坐标，以分值进行进一步筛选再次提高了行人检测的准确度。

S15，将所述第一得分最高的第一anchor box坐标确定为预测出的位置坐标，并将所述预测出的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果。

将特征图上预测出的行人的位置坐标映射为行人图像上的坐标，即实现了行人图像中的行人检测。

在一个可选的实施例中，所述将所述预测的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果包括：

该可选的实施例中，将所述第一尺度与所述第二尺度的商作为系数，再将所述系数与所述位置坐标相乘，得到所述行人图像上的位置坐标，实现了将目标特征图上的作为坐标映射到行人图像上，从而检测出了所述行人图像中的行人。

需要强调的是，为进一步保证上述多尺度行人特征提取模型的私密性和安全性，上述多尺度行人特征提取模型可存储于区块链的节点中。

图4是本发明实施例二提供的行人图像检测装置的结构图。

在一些实施例中，所述行人图像检测装置40可以包括多个由计算机程序段所组成的功能模块。所述行人图像检测装置40中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)行人图像检测的功能。

本实施例中，所述行人图像检测装置40根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：图像输入模块401、归一化处理模块402、网络融合模块403、特征提取模块404、模型训练模块405、行人检测模块406及坐标映射模块407。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述图像输入模块401，用于将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中。

所述归一化处理模块402，用于在所述将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中之前，所述方法还包括：对所述行人图像进行归一化处理，得到目标图像。

所述网络融合模块403，用于将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络。

在一个可选的实施例中，所述至少一个辅助backbone网络包括第一辅助backbone网络和第二辅助backbone网络，所述网络融合模块403将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络包括：

以此类推，直至所述backbone3的最后一层卷积层输出特征图。

所述特征提取模块404，用于获取所述增强型backbone网络输出的增强特征图，并将所述增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取，得到多个尺度的特征图。

所述模型训练模块405，用于在所述将所述增强特征图输入至预先训练的多尺度行人特征提取模型中进行特征提取之前，训练所述多尺度行人特征提取模型。

具体的，所述模型训练模块405训练多尺度行人特征提取模型包括：

获取预先聚类得到的多个anchor box；

所述行人检测模块406，用于利用预先聚类得到的多个anchor box分别在每个尺度的特征图上进行行人检测，得到每个尺度的特征图对应的第一anchor box坐标及每个第一anchor box坐标的第一得分。

本实施例中，可以预先通过聚类算法得到12个anchor box。

所述坐标映射模块407，用于将所述第一得分最高的第一anchor box坐标确定为预测出的位置坐标，并将所述预测出的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果。

在一个可选的实施例中，所述坐标映射模块407将所述预测的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果包括：

参阅图5所示，为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中，所述计算机设备5包括存储器51、至少一个处理器52、至少一条通信总线53及收发器54。

本领域技术人员应该了解，图5示出的计算机设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备5还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备5是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的计算机设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备5还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备5仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器51中存储有计算机程序，所述计算机程序被所述至少一个处理器52执行时实现如所述的行人图像检测方法中的全部或者部分步骤。所述存储器51包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器52是所述计算机设备5的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备5的各个部件，通过运行或执行存储在所述存储器51内的程序或者模块，以及调用存储在所述存储器51内的数据，以执行计算机设备5的各种功能和处理数据。例如，所述至少一个处理器52执行所述存储器中存储的计算机程序时实现本发明实施例中所述的行人图像检测方法的全部或者部分步骤；或者实现行人图像检测装置的全部或者部分功能。所述至少一个处理器52可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线53被设置为实现所述存储器51以及所述至少一个处理器52等之间的连接通信。

尽管未示出，所述计算机设备5还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器52逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种行人图像检测方法，其特征在于，所述方法包括：

获取多个训练样本图像，并将每一个训练样本图像输入至所述原始backbone网络中和所述至少一个辅助backbone网络中；将所述原始backbone网络和所述至少一个辅助backbone网络进行融合得到增强型backbone网络，并获取所述增强型backbone网络输出的增强样本特征图；对每一个增强样本特征图进行多个不同尺度的卷积运算并将卷积运算结果进行拼接，得到多个不同尺度的样本特征图，包括：将所述增强样本特征图依次输入至第一conv_layer层、第一conv_block层及第一conv层进行卷积运算，得到第一尺度的样本特征图；将所述第一conv_layer层的输出输入至第一中间conv_block层并进行上采样处理得到第一处理特征图，并将所述第一处理特征图与所述增强样本特征图进行第一级联，将所述第一级联得到的结果依次输入第二conv_layer层、第二conv_block层及第二conv层进行卷积运算，得到第二尺度的样本特征图；将所述第二conv_layer层的输出输入至第二中间conv_block层并进行上采样处理得到第二处理特征图，并将所述第二处理特征图与所述增强样本特征图进行第二级联，将所述第二级联得到的结果依次输入第三conv_layer层、第三conv_block层及第三conv层进行卷积运算，得到第三尺度的样本特征图；将所述第三conv_layer层的输出输入至第三中间conv_block层并进行上采样处理得到第三处理特征图，并将所述第三处理特征图与所述增强样本特征图进行第三级联，将所述第三级联得到的结果依次输入第四conv_layer层、第四conv_block层及第四conv层进行卷积运算，得到第四尺度的样本特征图；基于多个不同尺度的样本特征图进行训练，得到多尺度行人特征提取模型；

获取所述增强型backbone网络输出的增强特征图，并将所述增强特征图输入至所述多尺度行人特征提取模型中进行特征提取，得到多个尺度的特征图；

2.如权利要求1所述的行人图像检测方法，其特征在于，所述至少一个辅助backbone网络包括第一辅助backbone网络和第二辅助backbone网络，所述将所述至少一个辅助backbone网络与所述原始backbone网络进行融合得到增强型backbone网络包括：

3.如权利要求1所述的行人图像检测方法，其特征在于，所述基于多个不同尺度的样本特征图进行训练，得到多尺度行人特征提取模型包括：

获取预先聚类得到的多个anchor box；

4.如权利要求1至3中任意一项所述的行人图像检测方法，其特征在于，所述将所述预测的位置坐标映射到所述行人图像上，得到所述行人图像的检测结果包括：

5.如权利要求1至3中任意一项所述的行人图像检测方法，其特征在于，在所述将行人图像输入至一个原始backbone网络中和至少一个辅助backbone网络中之前，所述方法还包括：

对所述行人图像进行归一化处理，得到目标图像。

6.一种行人图像检测装置，其特征在于，所述装置包括实现如权利要求1至5中任意一项所述的行人图像检测方法的模块，所述装置包括：

行人检测模块，用于利用预先聚类得到的多个anchor box分别在每个尺度的特征图上进行行人检测，得到每个尺度的特征图对应的第一anchor box坐标及每个第一anchor box坐标的第一得分；

7.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至5中任意一项所述行人图像检测方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述行人图像检测方法。