CN116152734A

CN116152734A - 一种基于多模型的行人检测方法、装置及存储介质

Info

Publication number: CN116152734A
Application number: CN202310000864.2A
Authority: CN
Inventors: 方柱; 吴锐
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-05-23

Abstract

本发明涉及图像识别技术领域，具体提供一种基于多模型的行人检测方法、装置及存储介质，方法包括以下步骤：获取不同场景下的行人图像；基于全图标注对所述行人图像进行行人检测标注，基于抠图标注对所述行人图像进行行人属性标注；基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取第二检测结果，基于所述第一检测结果、所述第二检测结果和第三模型获取行人分类结果。本申请采用了两个模型分两阶段来进行行人检测的精确定位，选择Vargnet这种轻量级的网络作为训练模型，适合安装在内存小，环境复杂的车载终端GPU上，能够又好又快地完成行人检测。

Description

一种基于多模型的行人检测方法、装置及存储介质

技术领域

本发明属于图像识别技术领域，具体涉及一种基于多模型的行人检测方法、装置及存储介质。

背景技术

行人检测是计算机视觉中目标检测任务的重要分支，它涉及识别特定类别的行人，通常是在城市道路上的行人。行人检测是目标检测的基准问题，在自动驾驶、智能交通、客流统计和监控等场景有着很大的实用价值。

公开号为CN113343785A的中国专利公开了一种基于轻量化YOLOv3的行人检测方法。该发明公开了一种基于轻量化YOLOv3的行人检测方法，包括：建立针对周界入侵防护应用场景的行人数据集；构建轻量化YOLOv3行人检测网络；划分行人检测训练集，训练轻量化YOLOv3行人检测网络得到轻量化行人检测模型；划分行人检测验证集，验证训练得到的轻量化行人检测模型效果；将轻量化YOLOv3行人检测模型部署到嵌入式前端设备中。该方法采用高精度的轻量化骨干网络替换传统YOLOv3检测网络的骨干网络，大幅降低了行人检测网络的前向运算量和行人检测网络的参数数据量，在保证了行人检测的精度的同时大幅提升了行人检测速度，适用于计算能力较低、存储空间较小的嵌入式设备，但是该方案对于行人的检测及属性分类不够细化，并不能完整地反映实际应用中行人的属性。

发明内容

本发明的目的是：旨在提供一种基于多模型的行人检测方法、装置及存储介质，用来解决现有检测方法对于行人的检测及属性分类不够细致的问题。

为实现上述技术目的，本发明采用的技术方案如下：

第一方面，本申请提供一种基于多模型的行人检测方法，包括以下步骤，

S1，获取不同场景下的行人图像；

S2，基于全图标注对所述行人图像进行行人检测标注，基于抠图标注对所述行人图像进行行人属性标注；

S3，基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取第二检测结果，基于所述第一检测结果、所述第二检测结果和第三模型获取行人分类结果。

结合第一方面，在一些可选的实施方式中，所述全图标注包括：基于矩形框对所述行人图像进行一次标注，其中，标注的类别包括行人和骑车人。

结合第一方面，在一些可选的实施方式中，所述抠图标注包括：基于全图标注结果对所述行人图像上行人和骑车人所在的区域进行扣取并进行二次标注，所述二次标注的内容为行人和骑车人的属性，其中，所述行人和骑车人的属性包括人头、年纪、朝向和姿态。

结合第一方面，在一些可选的实施方式中，所述第一模型、所述第二模型和所述第三模型使用Vargnet模型作为backbone。

结合第一方面，在一些可选的实施方式中，所述第一模型中backbone的UnitA和UnitB相关block以及通道数大于所述第二模型中backbone的UnitA和UnitB相关block以及通道数。

结合第一方面，在一些可选的实施方式中，所述第三模型通过在所述第二模型的基础上增加分类head和检测head生成。

结合第一方面，在一些可选的实施方式中，所述方法还包括：基于DIOU loss算法对第一模型的预测与真实样本的误差进行计算。

第二方面，本申请提供一种基于多模型的行人检测装置，包括：

图像获取单元，获取不同场景下的行人图像；

标注单元，基于全图标注对所述行人图像进行行人检测标注，基于抠图标注对所述行人图像进行行人属性标注；

处理单元，基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取第二检测结果，基于所述第一检测结果、所述第二检测结果和第三模型获取行人分类结果。

结合第二方面，在一些可选的实施方式中，装置还包括：

计算单元，基于DIOU loss算法对第一模型的预测与真实样本的误差进行计算。

第三方面，本申请提供一种计算机储存介质，所述计算机储存介质内储存有计算机程序，当所述计算机程序在计算机上运行时，能够执行上述的方法。

采用上述技术方案的发明，具有如下优点：

1、本申请采用了两个模型使用两阶段来进行行人检测的精确定位，实现智能驾驶中准确的目标检测。

2、选择Vargnet这种轻量级的网络作为训练模型，适合安装在内存小，环境复杂的车载终端GPU上，能够又好又快地完成行人检测。

3、本申请提供了一个模型来进行人属性的分类，用来辅助车辆进行后续的操控。细化了行人检测方法中的行人属性，便于完成后续应对措施的智能选择。

附图说明

本发明可以通过附图给出的非限定性实施例进一步说明；

图1为本申请实施例中基于多模型的行人检测方法的示意图；

图2为本申请实施例中全图行人检测模型中UnitA和UnitB的示意图；

图3为本申请实施例中全图行人检测模型的Backbone结构图；

图4为本申请实施例中行人再检测模型中的Backbone结构图；

图5为本申请实施例中基于多模型的行人检测方法的流程图；

图6为本申请实施例中基于多模型的行人检测装置的示意图。

主要元件符号说明如下：

10：图像获取单元；20：标注单元；30：处理单元；31：计算单元。

具体实施方式

以下将结合附图和具体实施例对本发明进行详细说明，需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，实施例中提到的方向用语，例如“上”、“下”、“顶”、“底”、“左”、“右”、“前”、“后”等，仅是参考附图的方向，并非用来限制本发明的保护范围。

如图1所示，本申请实施例提供一种基于多模型的行人检测方法，包括以下步骤：

S1，获取行人图像；

在步骤S1中，获取不同场景下的行人图像。结合附图1和附图5，通过车载前视摄像头进行数据采集，采集白天、夜晚，雨天等不同场景下的行人数据。网上的行人检测数据集无法满足需求，本申请使用车载前视摄像头进行重新采集，并按照需求设计标注文档。优选地，还可采用其他手段对车辆附近的行人数据进行采集，例如红外成像仪、雷达等。

在步骤S2中，基于全图标注对所述行人图像进行行人检测标注，基于抠图标注对所述行人图像进行行人属性标注。全图标注：在行人检测标注过程中，本申请在所采集的行人图像上直接使用矩形框进行一次标注，标注的类别分别为

1.行人

2.骑车人

行人和骑车人在智能驾驶系统中的后处理方式不同，本专利需要将其分别检测出来，同时排除行人中的骑车人，所以本专利将行人和骑车人分开标注，通过全图检测模型后在将行人和骑车人扣取，送入行人再检测模型进行二次精确定位和排除行人中骑车人。

抠图标注：在检测标注完成后，本专利将根据标注结果将行人，骑车人所在区域扣取出来，进行二次标注，标注行人的各种属性。

二次标注任务：

1.人头标注

类别：人头

2.年纪标注

类别：老人，青年，小孩

3.朝向标注

类别：前，后，左，右，左前，右前，左后，右后

4.人体姿势标注

类别：行走,蹲坐，弯腰，骑车

本申请设计了行人的多个属性标注文档，相比于其他专利，输出了行人的更多属性来辅助智能驾驶。

在步骤S3中，基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取第二检测结果，基于所述第一检测结果、所述第二检测结果和第三模型获取行人分类结果。其中，第一检测结果为行人检测结果；第二检测结果为行人再检测结果。首先，建立第一模型、第二模型和第三模型。其次，基于建立的模型完成对应的训练。第一模型为全图行人检测模型；第二模型为行人再检测模型；第三模型为行人分类模型。各模型的设计步骤如下：

全图行人检测模型：本专利使用基于vargnet的模型作为backbone，vargnet网络为了操作的计算强度更平衡，使得网络计算图更容易优化。因此提出了基于深度可分离卷积的可变组卷积(Variable Group CNN)。在可变组卷积中，每个组的输入通道数是固定的，组数可以作为超参数进行调整，同时具有更大的网络容量，从而允许更小的信道号，这有助于减轻片外通信的时间消耗。

Vargnet基于可变组卷积和点卷积(point conv)创建了其网络最常用的两种结构：UnitA和UnitB，结构如图2所示。

本专利使用了vargnet作为backbone进行了32倍下采样，backbone是用来提取图像特征的网络，然后neck进行上采样，将下采样后的特征图返回到原始图像1/4大小，并在neck每层上采样输出后接head网络。Head网络由一个UnitA和一个可分离组卷积组成，将neck输出的4个head结果综合用于输出行人检测位置和类别，即第一检测结果。Backbone结构图如图3所示。

全图行人检测模型中还设置有误差算法，用于计算模型预测与真实样本的误差。优选地，误差算法可以是DIOU loss算法，具体如下：

ground truth：Bgt＝(xgt,ygt,wgt,hgt)；

predicted box：B＝(x,y,w,h)；

x,y,w,h分别为框的左上角点位置和框的宽和高；

b和b^gt代表B和B^gt的中心点，ρ()代表欧几里得距离，c是包围两个boxes的最小矩形框对角线的长度。

行人再检测模型：在全图行人检测模型后，本专利将扣取得到的行人和骑车人区域图(最多6个区域)进行扣取，在将区域外扩并resize到128*128的大小，送入到行人再检测模型，该大小极大减少了模型的运算量。如图4，为了工程应用，本专利使用了一个同样基于vargnet作为backbone的小模型，将backbone的UnitA和UnitB相关block以及通道数减少，从而加快网络速度。

行人再检测模型中的backbone也分为6stage进行下采样，后接neck和head对扣取区域进行更精确的位置检测，并与第一检测结果相比较，同时将行人，骑车人分类出来，作为第二检测结果。

行人分类模型：将通过全图行人检测和行人再检测模型的行人类别结果输入到行人分类模型，进行属性的识别，获取行人分类结果。行人分类的模型输入也是128*128的判定为行人类别的区域，该模型使用和行人再检测模型相同的backbone，为了满足多任务的需求，本专利在backbone后接了三个分类head，以及一个检测head。

分类任务分别为年纪分类，姿态分类和朝向分类，三个分类head结构相同，不与neck连接，直接从backbone接入head，后接交叉熵分类loss。

检测任务为人头检测，输出人头的位置，检测head接入neck的输出，与行人再检测模型检测head结构一致。

向建成后的各模型提供不同的输入以完成对应项目的训练。全图行人检测模型训练包括以下步骤：1.将采集标注得到的图片数据进行裁剪后reisze到960*480的大小；2.将图片和相对应的标签json文件根据不同的场景打包成rec文件；3.将rec设置不同的采样比例输入模型进行训练，并修改学习率，权重衰减率，正负样本判定阈值等超参数迭代优化训练；行人再检测模型训练步骤如下：1.设置最小框像素，将标注图片像素大于最小像素的标注区域外扩部分区域扣取出来，并resize到128*128的图片大小；2.将图片对应的全图标签json文件修改成相对应的扣取区域标签json文件，并根据不同的场景打包成rec文件；3.将rec设置不同的采样比例输入模型进行训练，并根据全图行人检测模型的调参方式进行迭代优化调参。行人分类模型训练：1.设置最小框像素，将标注图片像素大于最小像素的标注区域外扩部分区域扣取出来，进行人头检测标注任务，年纪分类，朝向分类，姿态分类标注任务。2.将不同任务分别打包，每一个任务都有自己的dataloader，可以保证每个任务计算loss时不受其他任务数据的影响。3.将分别打包的rec送入模型进行训练，因为是多任务模型，所以根据评测结果修改每个任务在训练中所占的比重，同时修改分支中每个类别在分支中所占的比重，以及修改相关的超参数来对模型进行迭代优化训练。

如图6，本申请提供一种基于多模型的行人检测装置，装置包括至少一个以软件或固件(Firmware)的形式储存于储存模块中或固化在控制设备中的操作系统(OperatingSystem，OS)中的软件功能模块。各功能模块用于执行储存模块中储存的可执行模块，例如基于多模型的行人检测装置所包括的软件功能模块及计算机程序模块等。

装置包括依次通讯连接的图像获取单元10、标注单元20和处理单元30。各单元具有的功能可以如下：

图像获取单元10，获取行人图像；

标注单元20，基于全图标注对所述行人图像进行行人检测标注，基于抠图标注对所述行人图像进行行人属性标注；

处理单元30，基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取第二检测结果，基于第三模型和第一检测结果、第二检测结果完成行人分类。

装置还包括耦合至处理单元30的计算单元31。计算单元31能够基于DIOU loss对第一模型的预测与真实样本的误差进行计算。

上述各单元的标注过程、处理过程和修正过程等可参考上文的基于多模型的行人检测方法，此处不在重复赘述。

在本实施例中，存储模块可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块可以用于储存各模块中的预设参数(例如计算单元中的修正算法)等。当然，存储模块还可以用于存储程序，处理模块在接收到执行指令后，执行该程序。

本申请实施例还提供一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如上述实施例中所述的基于多模型的行人检测方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本申请各个实施场景所述的方法。

综上所述，本申请实施例提供一种基于多模型的行人检测方法、装置及储存介质。方法包括以下步骤：获取不同场景下的行人图像；基于全图标注对所述行人图像进行行人检测标注，基于抠图标注对所述行人图像进行行人属性标注；基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取第二检测结果，基于所述第一检测结果、所述第二检测结果和第三模型获取行人分类结果。本申请采用了两个模型使用两阶段来进行行人检测的精确定位，进一步地，选择Vargnet这种轻量级的网络作为训练模型，适合安装在内存小，环境复杂的车载终端GPU上，能够又好又快地完成行人检测。本申请提供了一个模型来进行人属性的分类，用来辅助车辆进行后续的操控。

在本申请所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上对本发明提供的一种基于多模型的行人检测方法、装置及存储介质进行了详细介绍。具体实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于多模型的行人检测方法，其特征在于，包括以下步骤，

S1，获取行人图像；

S3，基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取行人第二检测结果，基于所述第一检测结果、所述行人第二检测结果和第三模型获取行人分类结果。

2.根据权利要求1所述的行人检测方法，其特征在于，所述全图标注包括：基于矩形框对所述行人图像进行一次标注，其中，标注的类别包括行人和骑车人。

3.根据权利要求2所述的行人检测方法，其特征在于，所述抠图标注包括：基于全图标注结果对所述行人图像上行人和骑车人所在的区域进行扣取并进行二次标注，所述二次标注的内容为行人和骑车人的属性，其中，所述行人和骑车人的属性包括人头、年纪、朝向和姿态。

4.根据权利要求3所述的行人检测方法，其特征在于，所述第一模型、所述第二模型和所述第三模型基于Vargnet模型作为backbone。

5.根据权利要求4所述的行人检测方法，其特征在于，所述第一模型中backbone的UnitA和UnitB相关block以及通道数大于所述第二模型中backbone的UnitA和UnitB相关block以及通道数。

6.根据权利要求5所述的行人检测方法，其特征在于，所述第三模型通过在所述第二模型的基础上增加分类head和检测head生成。

7.根据权利要求6所述的行人检测方法，其特征在于，所述方法还包括：基于DIOU loss算法对第一模型的预测值与真实样本的误差进行计算。

8.一种基于多模型的行人检测装置，其特征在于，包括：

图像获取单元(10)，获取行人图像；

标注单元(20)，基于全图标注对所述行人图像进行行人检测标注，基于抠图标注对所述行人图像进行行人属性标注；

处理单元(30)，基于第一模型和所述行人检测标注获取第一检测结果，基于第二模型和所述行人属性标注获取第二检测结果，基于所述第一检测结果、所述第二检测结果和第三模型获取行人分类结果。

9.根据权利要求8所述的行人检测装置，其特征在于，还包括：

计算单元(31)，基于DIOU loss算法对第一模型的预测与真实样本的误差进行计算。

10.一种计算机储存介质，其特征在于，所述计算机储存介质内储存有计算机程序，当所述计算机程序在计算机上运行时，能够执行如权利要求1-7中任一项所述的方法。