CN113052039B

CN113052039B - 一种交通路网行人密度检测的方法、系统及服务器

Info

Publication number: CN113052039B
Application number: CN202110282986.6A
Authority: CN
Inventors: 闫丹凤; 李明臻; 姬捷
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2022-12-02
Anticipated expiration: 2041-03-16
Also published as: CN113052039A

Abstract

本发明实施例提供了一种交通路网行人密度检测的方法、系统及服务器，在接收到对交通路网的监控视频中行人密度的查询指令时，获取查询指令对应的监控视频的至少一个视频帧作为待检测图像；将待检测图像输入预先训练得到的行人密度检测模型，以使行人密度检测模型：利用分类子模型检测待检测图像的密度类型，并利用与密度类型对应的检测子模型检测待检测图像中的行人密度；基于所获得的行人密度，展示查询指令对应的监控视频的行人密度的检测结果；其中，待检测图像的密度类型包括：行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型。本方案可以提高交通路网行人密度检测的准确度。

Description

一种交通路网行人密度检测的方法、系统及服务器

技术领域

本发明涉及图像处理技术领域，特别是涉及一种交通路网行人密度检测的方法、系统及服务器。

背景技术

卷积神经网络(Convolutional Neural Networks，CNN)作为深度学习领域最具代表性的算法之一，具有能够关注到图像细微之处特征的特点，在图像处理方面具有极高的优势。因此，涌现了很多基于CNN的行人密度检测方法。例如，可以基于CNN的行人密度检测方法获得交通路网中的行人密度，以通过行人密度反映的行人密集情况，分析行车风险。

但是，发明人在实现本发明的过程中发现，上述基于CNN的行人密度检测方法均存在检测结果不够准确的问题。

发明内容

本发明实施例的目的在于提供一种交通路网行人密度检测的方法、系统及服务器，以实现提高交通路网行人密度检测准确度的效果。具体技术方案如下：

第一方面，本发明实施例提供一种交通路网行人密度检测的方法，所述方法包括：

在接收到对交通路网的监控视频中行人密度的查询指令时，获取所述查询指令对应的监控视频的至少一个视频帧，作为待检测图像；

将所述待检测图像输入预先训练得到的行人密度检测模型，以使所述行人密度检测模型：利用分类子模型检测所述待检测图像的密度类型，并利用与所述密度类型对应的检测子模型检测所述待检测图像中的行人密度；

基于所获得的行人密度，展示所述查询指令对应的监控视频的行人密度的检测结果；

其中，所述待检测图像的密度类型包括：行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型；所述分类子模型为利用多个稀疏类型的样本图像，多个密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；针对每个密集类型，该密集类型对应的检测子模型为利用多个该密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型。

第二方面，本发明实施例提供一种交通路网行人密度检测的系统，所述系统包括：图像采集设备，客户端以及服务器；

所述图像采集设备，用于采集交通路网的监控视频；

所述客户端，用于在接收到对交通路网的监控视频中行人密度的查询指令时，向所述服务器发送针对所述查询指令对应的监控视频中行人密度的检测指令；在接收到所述服务器返回的行人密度的检测结果时，对所述检测结果进行展示；

所述服务器，用于获取所述图像采集设备所采集的所述查询指令对应的监控视频的至少一个视频帧，作为待检测图像；将所述待检测图像输入预先训练得到的行人密度检测模型，以使所述行人密度检测模型：利用分类子模型检测所述待检测图像的密度类型，并利用与所述密度类型对应的检测子模型检测所述待检测图像中的行人密度，将基于所述行人密度获取检测结果并返回给所述客户端；其中，所述待检测图像的密度类型包括：行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型；所述分类子模型为利用多个稀疏类型的样本图像，多个密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；针对每个密集类型，该密集类型对应的检测子模型为利用多个该密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型。

第三方面，本发明实施例提供一种服务器，所述服务器包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的一种交通路网行人密度检测的方法的步骤。

本发明实施例有益效果：

本发明实施例提供的方案中，待检测图像的密度类型包括行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型。在此基础上，分类子模型为利用多个稀疏类型的样本图像，多个密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；针对每个密集类型，该密集类型对应的检测子模型为利用多个该密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型。因此，在接收到对交通路网的监控视频中行人密度的查询指令时，获取监控视频的至少一个视频帧，作为待检测图像；进而将待检测图像输入预先训练得到的行人密度检测模型，以使行人密度检测模型：利用分类子模型检测待检测图像的密度类型，并利用与密度类型对应的检测子模型检测所述待检测图像中的行人密度；基于所获得的行人密度，展示查询指令对应的监控视频的行人密度的检测结果。这样，可以针对不同密度类型的待检测图像，利用不同的检测子模型进行行人密度检测，与仅利用只能检测一种密度类型图像的检测模型相比，可以减少只能检测稀疏类型图像的模型在密集情况下的漏检问题，以及只能检测密集类型图像的模型在在稀疏情况下过高地估计行人密度的问题，从而提高交通路网行人密度检测的准确度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种交通路网行人密度检测的系统的结构示意图；

图2为本发明实施例提供的一种交通路网行人密度检测的系统的分层架构示例图；

图3为本发明实施例提供的一种交通路网行人密度检测的系统中，数据流向示例图；

图4(a)为本发明实施例提供的一种交通路网行人密度检测的系统的应用场景中，发起用户请求的流程示例图；

图4(b)为本发明实施例提供的一种交通路网行人密度检测的系统的应用场景中，停止用户请求的流程示例图；

图4(c)为本发明实施例提供的一种交通路网行人密度检测的系统的应用场景中，行人密度检测的流程示例图；

图4(d)为本发明实施例提供的一种交通路网行人密度检测的系统的应用场景中，结果查询的流程示例图；

图5为本发明实施例提供的一种交通路网行人密度检测的方法的流程示意图；

图6为本发明实施例提供的一种交通路网行人密度检测的方法中，行人密度检测模型的检测流程示例图；

图7为本发明实施例提供的一种交通路网行人密度检测的方法中，交并比的示例图；

图8为本发明实施例提供的一种交通路网行人密度检测的方法中，差分训练后检测子模型的训练流程示例图；

图9为本发明实施例提供的一种交通路网行人密度检测的方法中，分类子模型的训练流程示例图；

图10为本发明实施例提供的一种交通路网行人密度检测的方法中，检测子模型的训练流程示例图；

图11为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种交通路网行人密度检测的系统的结构，该系统可以包括：图像采集设备101，客户端102以及服务器103；

图像采集设备101，用于采集交通路网的监控视频；

客户端102，用于在接收到对交通路网的监控视频中行人密度的查询指令时，向服务器103发送针对查询指令对应的监控视频中行人密度的检测指令；在接收到服务器103返回的行人密度的检测结果时，对该检测结果进行展示；

服务器103，用于获取图像采集设备101所采集的查询指令对应的监控视频的至少一个视频帧，作为待检测图像；将待检测图像输入预先训练得到的行人密度检测模型，以使行人密度检测模型：利用分类子模型检测所述待检测图像的密度类型，并利用与密度类型对应的检测子模型检测待检测图像中的行人密度，将基于行人密度获取检测结果并返回给客户端102；其中，待检测图像的密度类型包括：行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型；分类子模型为利用多个稀疏类型的样本图像，多个密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；针对每个密集类型，该密集类型对应的检测子模型为利用多个该密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型。

为了便于理解和合理布局，对于服务器获取检测结果的过程后续在本发明图5实施例中进行具体说明。

本发明实施例提供的方案中，待检测图像的密度类型包括行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型。针对不同密度类型的待检测图像，利用不同的检测子模型进行行人密度检测，与仅利用只能检测一种密度类型图像的检测模型相比，可以减少只能检测稀疏类型图像的模型在密集情况下的漏检问题，以及只能检测密集类型图像的模型在在稀疏情况下过高地估计行人密度的问题，从而提高交通路网行人密度检测的准确度。

在一种可选的实施方式中，上述客户端102，具体用于：

对行人密度识别任务和结果展示任务进行异步调度：在向服务器103发送针对查询指令对应的监控视频中行人密度的检测指令之后，按照预设查询周期向服务器103发送查询指令对应的监控视频的行人密度查询请求；

服务器103，还用于在利用与密度类型对应的检测子模型检测待检测图像中的行人密度之后，将行人密度查询请求对应的监控视频的标识，行人密度以及服务器的本地时间创建为一条检测结果，存储在数据库中；在接收到行人密度查询请求时，从数据库中查找目标检测结果，并返回给客户端；目标检测结果具有行人密度查询请求所表明的监控视频的标识，且在数据库已存储的检测结果中，目标检测结果记录的本地时间与行人密度查询请求所表明的查询时间之间的差异最小。

在具体应用中，待检测图像以及检测结果的获取均需要一定的时间，存在时延。因此，本可选实施例将行人密度识别任务和结果展示任务进行分离，也就是异步调度，从而避免由行人密度识别的时延所造成的速度上的瓶颈。

本发明实施例提供的交通路网行人密度检测的系统采用分层设计的架构，使用分层模式可以清晰地明确每一层的职责，不仅可以提高开发的质量和效率，还能便于开发代码的复用、便于程序的拓展，降低各个模块之间的耦合性。示例性的，如图2所示。上述系统可以分包括四层，分别为应用层，展示层，逻辑计算层、数据访问层以及持久化层。其中，应用层是面向用户进行交互的接口，负责接收来自展示层的数据，综合运用下方层提供的逻辑能力支撑，为系统面向用户提供一系列业务处理所需的服务，例如行人密度识别结果的展示，系统的启动和停止等。应用层包含了系统展示所需的相关技术组件，包括：超文本标记语言(Hyper Text Markup Language，HTML)组件、级联样式表(Cascading StyleSheets，CSS)组件、JavaScript(JS，一种具有函数优先的轻量级，解释型或即时编译型的编程语言)组件以及Jquery(一个快速、简洁的JavaScript框架)组件等。

展示层位于应用层和逻辑业务层之间，负责两层之间的数据与功能的转发和协调工作，目的是为了使业务逻辑数据和用户界面相分离，实现界面与数据分离，业务代码与逻辑代码的分离，可以提升开发效率，使代码重用变得更加容易。展示层主要包括展示模块的模板引擎渲染以及相关HTTP请求的传递功能。逻辑计算层为系统的运行提供服务支持，包括数据传输，数据处理，图像分析与行人密度统计等。该层接收来自物理空间的监控视频数据，对视频数据进行逻辑处理、采样切分，并综合运用系统内置的、基于深度学习的行人密度识别算法进行图像的特征提取与分析，得出行人密度识别的结果并传递给展示层。

逻辑计算层主要用到的技术手段包括：OpenCV开源库(一个开源发行的跨平台计算机视觉和机器学习软件库)、Pytorch(一个开源的Python机器学习库)深度学习框架以及Flask Python编程框架(使用Python编写的轻量级Web应用框架)等。数据访问层位于逻辑计算层和持久化层之间，主要负责业务逻辑代码与数据库的交互以及数据操作等功能。数据访问层不仅能够隔离业务逻辑代码和数据访问代码，而且能隔离不同数据库的实现。在上述系统中，数据访问功能可以通过Python连接关系型数据库管理系统MySQL的驱动工具PyMySQL实现。持久化层将上述系统运行过程中产出的数据存到数据库中，以支持后续数据分析和统计的需求，上述系统采用MySQL数据库实现数据的持久化存储。

如图3所示。由于行人密度可以反映行人数量，因此，在图3中以人数表示行人密度。按照所实现的功能进行划分，上述系统可分为四个模块，分别是：图像采集设备中的视频采集模块(未在图中示出)；客户端中的客户端展示模块；服务器中的图像采集模块、人数识别计算模块和结果查询模块。其中，图像采集模块接收远端的高清监控视频流数据，调用OpenCV开源库的VideoCapture()方法，使用实时流传输(Real Time StreamingProtocol，RTSP)协议获取图像采集设备采集的视频流，然后使用read()方法每隔0.5s截取一帧视频图像，作为待检测图像送入人数识别模块中进行识别。人数识别模块是上述系统的核心运算模块，该模块可以对图像采集模块传入的图像数据也就是待检测图像进行格式转换、处理，随后使用人数识别算法也就是行人密度检测模型获取待检测图像中的行人密度，并将获取的行人密度也就是图3所示的图像人数传入MySQL数据库进行存储。结果查询模块接收来自客户端展示模块的查询请求，从MySQL数据库中取出行人密度识别的结果也就是图3所示的人数结果返回给客户端进行可视化展示。客户端展示模块对上述系统的识别结果进行更加直观的展示，主要包含一个可视化的交互界面：UI界面，向用户展示当前画面中的行人密度和行人密度的变化情况，并且提供一定程度的交互功能。

示例性的，本发明实施例中MySQL数据库包括两个数据库表，分别是存储现有视频信息的视频列表(VIDEO_LIST)和存储各个视频、各个时间的行人密度识别结果表(CROWD_COUNT)。具体如下表1和表2所示：

数据库表VIDEO_LIST用来存储现有的视频的基本信息。视频列表可以包括三个字段，分别是video_id、video_name和video_url。其中，video_id是INT类型，代表视频的唯一编号，是VIDEO_LIST表的唯一主键，video_name和video_url都是VARCHAR类型，存储的分别是视频的名称和视频的地址。在上述系统启动时，客户端的UI界面会调用getVideoList()接口请求视频列表，获得视频列表时在客户端的UI界面进行展示。

行人密度识别结果表CROWD_COUNT用来存储行人密度识别模块输出的行人密度检测结果。行人密度识别结果的一条记录代表某一视频帧中包含的人，可以包括三个字段，分别是video_id、frame_time和person_count。其中，video_id是INT类型，代表视频的唯一编号，frame_time是DATETIME类型，代表该视频帧的时间，video_id和frame_time共同构成该表的主键。person_count是INT类型，代表行人密度。

为了便于理解，下面以上述各模块之间交互的过程为例，说明本发明实施例提供的一种交通路网行人密度检测的系统的应用场景中，发起用户请求，停止用户请求，行人密度检测以及结果查询的具体流程。示例性的，如图4(a)至4(d)所示。

如图4(a)所示。在用户请求开始阶段：用户点击客户端的UI界面上对应视频的“开始识别”按钮，请求开启行人密度识别流程。UI界面解析“开始识别”按钮对应的“摄像头编号”，向视频采集模块请求该“摄像头编号”的图像采集设备采集的视频列表。视频采集模块从数据库中获取视频列表，并将视频列表返回给UI界面，同时根据视频列表附带的的视频地址向图像采集设备，例如网络摄像头请求相应的视频流。UI界面也就是客户端根据接收的视频列表中的视频地址向图像采集设备请求视频流，并在UI界面的相应位置进行显示。UI界面向后端也就是服务器中的图像采集模块发送启动行人密度识别的请求，附带视频标识，例如视频编号。图像采集模块接受启动请求，开启视频帧的提取并启动行人密度识别模块。另外，图像采集模块还可以将启动结果反馈给UI界面。

如图4(b)所示。用户请求停止阶段：用户点击UI界面上对应视频的“停止识别”按钮，请求停止行人密度识别。UI界面向视频采集模块发送停止行人密度识别的请求，附带视频编号。视频采集模块接收停止识别请求，暂停视频帧的提取流程。视频采集模块将停止结果反馈给UI界面。UI界面接收到视频采集模块发来的停止结果反馈后，停止行人密度查询操作，同时也关闭实时行人密度显示。

如图4(c)所示。视频人数识别阶段，也就是视频行人密度识别阶段：频采集模块调用OpenCV开源库中视频截取VideoCapture的read()方法，每隔t1的时长提取一次视频帧，然后向行人密度识别模块发送识别请求，传入所得的视频帧也就是待检测图像。行人密度识别模块接收视频帧，然后调用行人密度识别核心算法进行行人密度检测。行人密度识别模块将识别结果存入数据库中。

如图4(d)所示。识别结果查询阶段：客户端的UI界面每隔t2(t2>t1)向结果查询模块发送行人密度查询请求，以此循环，直到接收到数据返回的识别结果。其中，查询请求可以包括参数：视频编号和请求的时间。结果查询模块解析UI界面发来的查询请求，从数据库中查询识别结果，然后返回给UI界面。UI界面收到行人密度识别的结果后，将该结果展示给用户。

在具体应用中，例如在边缘押解场景中，针对每个押解车，交通路网行人密度检测的系统可以包括：该押解车中安装的车载边缘服务器，车载摄像头以及客户端。在押解时会检测环境中的异常情况并进行预警，其中，押解车外部的行人密度也是一个很有意义的参数。在押解开始管理员可以进入客户端的任务管理界面进行押解任务管理，开启行人密度检测任务，此时，相关车载摄像头进行押解车周边监控视频的采集，车载服务器的进行行人密度的实时检测，将检测结果存储到数据库中并在客户端中进行展示。在边缘押解场景，由于服务器为车载服务器，因此没有云服务器那样大的计算能力，因此需要轻量级的模型来进行该任务，本发明实施例提供的行人密度检测模型具有有这样的优点。而且，本发明实施例提供的行人密度检测模型中，两个检测子模型具体为基于Faster R-CNN模型和行人密度密度图模型训练得到的，一次你，可以忽略行车过程中动态背景，从而提高行人密度检测的准确度。

本发明实施例提供的一种交通路网行人密度检测的方法，可以应用于上述交通路网行人密度检测的系统中的服务器。下面对本发明实施例提供的一种交通路网行人密度检测的方法进行说明。

如图5所示，本发明实施例提供的一种交通路网行人密度检测的方法，该方法可以包括如下步骤：

S501，在接收到对交通路网的监控视频中行人密度的查询指令时，获取查询指令对应的监控视频的至少一个视频帧，作为待检测图像。

在具体应用中，对交通路网的监控视频中行人密度的查询指令可以是客户端发送给服务器的，该查询指令可以包括监控视频的标识，例如视频编号。获取查询指令对应的监控视频的至少一个视频帧，作为待检测图像，具体可以包括：读取服务器本地或接收图像采集设备发送的的对应编号的高清监控视频流数据，然后以t1的时间间隔对视频进行周期性地采样，得到至少一个视频帧，作为待检测图像。

S502，将待检测图像输入预先训练得到的行人密度检测模型，以使行人密度检测模型：利用分类子模型检测所述待检测图像的密度类型，并利用与密度类型对应的检测子模型检测待检测图像中的行人密度。

其中，待检测图像的密度类型包括：行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型；分类子模型为利用多个稀疏类型的样本图像，多个密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；针对每个密集类型，该密集类型对应的检测子模型为利用多个该密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型。

示例性的，如图6所示。在人群密度跨度大的应用场景中，例如，地铁站在高峰期和非高峰期人群密度可以分别为密集类型和稀疏类型，对此，使用针对单一密度类型的行人密度检测模型容易导致行人密度检测结果的准确度降低。为了提高行人密度检测模型的准确度，本发明实施例提供的行人密度检测模型将针对稀疏类型的第一检测子模型和针对密集类型的第二检测子模型结合使用，并在两个检测子模型之前增加一个分类子模型，对密度类型进行分类。按照分类子模型的分类结果Switch_label(I)将待检测图像也就是输入图像I匹配到对应的检测子模型中，从而实现根据待检测图像的人群场景选择适合的行人密度检测模型。当分类结果Switch_label(I)＝0时，选择第一检测子模型获取图像包含的行人密度；当分类结果Switch_label(I)＝1时，选择第二检测子模型获取图像包含的行人密度。另外，输入图像I可以是经过格式转换以及预处理的图像，以便待检测图像的格式和尺寸等图像属性适用于行人密度检测模型。

为了便于理解和合理布局，后续以可选实施例的形式对上述训练得到上述行人密度检测模型的过程进行具体说明。

S503，基于所获得的行人密度，展示查询指令对应的监控视频的行人密度的检测结果。

在具体应用中，基于所获得的行人密度，展示查询指令对应的监控视频的行人密度的检测结果，具体可以包括：将获得的行人密度以<视频编号，当前时间，行人密度>的形式存入MySQL数据库中。与此同时，客户端展示模块以t2的时间间隔周期性地向服务器发送查询结果的请求，服务器从数据库中查找目标检测结果。其中，t2>t1。在数据库已存储的检测结果中，目标检测结果记录的本地时间与行人密度查询请求所表明的查询时间之间的差异最小，且具有查询结果的请求中的视频标识。

在一种可选的实施方式中，可以将多个稀疏类型的样本图像以及多个密集类型的样本图像作为训练集；相应的，上述行人密度检测模型就具体可以采用如下步骤A1至步骤A6训练得到：

步骤A1，针对每个密度类型，利用多个该密度类型的样本图像以及每个样本图像的行人密度标签，训练得到该密度类型的预训练后检测子模型。

步骤A2，分别利用每个预训练后检测子模型，以及每个样本图像的行人密度标签，获取每个预训练后检测子模型对所述训练集中每个样本图像的第一检测误差；

步骤A3，针对训练集中每个样本图像，利用该样本图像和该样本图像的行人密度标签，对该样本图像对应的优选检测子模型进行训练，并将训练得到的模型作为差分训练后检测子模型；其中，任一样本图像对应的优选检测子模型为两个预训练后检测子模型中，所获取的该样本图像的第一检测误差更小的子模型；

步骤A4，分别利用每个差分训练后检测子模型，以及每个样本图像的行人密度标签，获取每个差分训练后检测子模型对所述训练集中每个样本图像的第二检测误差；

步骤A5，针对训练集中每个样本图像，利用该样本图像和该样本图像对应的密度类型标签，训练得到行人密度检测模型中的分类子模型；其中，任一样本图像对应的密度类型标签为两个差分训练后检测子模型中，所获取的该样本图像的第二检测误差更小的子模型对应的密度类型；

步骤A6，针对训练集中每个样本图像，利用分类子模型获取该样本图像的密度类型，并利用该样本图像训练与所获取的密度类型对应的差分训练后检测子模型，并将训练得到的模型作为行人密度检测模型中，与所获取的密度类型对应的检测子模型。

在具体应用中，本发明实施例提供的行人密度检测模型的训练可以包括三个过程。第一个过程是对两个行人密度识别网络也就是检测子模型的预训练，具体通过上述步骤A1实现。第二个过程是基于待检测图像的密度类型对两个检测子模型的差异训练，也就是差分训练，具体通过上述步骤A2至步骤A3实现。第三个过程是对分类子模型和两个检测子模型的协同训练，具体通过用于训练得到行人密度检测模型中所利用的分类子模型的上述步骤A4和步骤A5实现，以及用于对两个检测子模型进行微调以得到行人密度检测模型中所利用的检测子模型的上述步骤A6。其中，第二个过程和第三个过程均可以看作是在由第一个过程训练得到的模型结果上进行微调，使模型的检测结果更加准确。本可选实施例通过将分类子模型与两个检测子模型交替进行训练，不仅能够逐渐提升分类子模型分类的准确度，而且能够提升两个检测子模型对该检测子模型擅长的图像分析的能力，从而使行人密度检测模型整体的性能得到提升。

下面以可选实施例以及示例性说明的形式，对上述三个过程进行具体描述。

在一种可选的实施方式中，上述密度类型为稀疏类型时，针对每个密度类型，利用多个该密度类型的样本图像以及每个样本图像的行人密度标签，训练得到该密度类型的预训练后检测子模型，具体可以包括如下步骤：

初始化Faster R-CNN模型中共享特征层的参数，得到初始R-CNN模型；

利用多个稀疏类型的样本图像以及每个样本图像的行人密度标签，对初始R-CNN模型中的初始RPN网络层进行训练，并利用初始RPN网络分别对多个稀疏类型的样本图像进行候选区域提取；

利用提取的候选区域对初始R-CNN模型中的共享特征层进行训练，将训练得到的模型作为待微调R-CNN模型，并利用多个稀疏类型的样本图像以及每个样本图像的行人密度标签，对待微调R-CNN模型中的初始RPN网络进行训练，得到微调后RPN网络；

利用微调后RPN网络分别对多个稀疏类型的样本图像进行候选区域提取，并利用提取的候选区域对待微调R-CNN模型中的共享特征层进行训练，将训练得到的模型作为稀疏类型的预训练后检测子模型。

其中，Faster R-CNN模型时一种目标检测模型，相比于其他目标检测模型，同时兼顾检测的效率和准确率，并且在小目标检测上有着出色的表现。因此，本申请将aster R-CNN模型训练为适用于本申请应用场景的稀疏类型的预训练后检测子模型。Faster R-CNN模型主要包括用于进行候选区域提取的RPN(RegionProposal Network)网络层，以及用于提取特征的共享特征层。将Faster R-CNN模型应用于行人密度检测的训练时，可以将该模型的多分类改为二分类。本可选实施例对RPN层和共享特征层进行交替训练，在训练过程中只针对其中一层训练时，另一层的参数保持固定不变，调整所训练的层的参数，这样能够同时提升RPN层的区域提取能力和Fast R-CNN网络的分类和回归能力，从而提升模型的整体性能。

示例性的，上述初始化Faster R-CNN模型中共享特征层的参数，具体可以包括：在图像分类数据集ImageNet上进行VGG-16网络参数的训练，将训练得到的VGG-16网络参数作为Faster R-CNN共享特征层的参数。并且，用于进行训练的参数，例如学习率等可以使用标准差为0.01的零均值的高斯分布随机进行初始化。具体的，在训练过程中用于调整参数的模型优化器选取基于动量的随机梯度下降算法Adam优化方法，动量系数(Momentum)选择0.9，权重衰减系数(Weight Decay)设定为4e-5，学习率(Learning Rate，LR)初始值为1e-3，每经过5次迭代(Epoch)学习率下降为原来的0.1，总共进行30次迭代。

并且，初始RPN网络层选择256个锚框(Anchor)，有效标签中正负样本设为1:1，非极大值抑制(Non-Maximum Suppression，NMS)的阈值设为0.7。使用交并比(Intersectionover Union，IoU)，即“预测的边框”和“真实的边框”的交集和并集的比值进行正负样本提取。IoU最大或者IoU大于0.7的样本标定为正样本，IoU小于0.3的样本标定为负样本，舍弃大于0.3但小于0.7之间的样本，设定正负样本的权重相等。阈值大于0.5的候选区域判断为前景，阈值介于0.1和0.5之间的候选区域判断为背景。IoU的计算方法如下公式(4-1)所示：

其中，如图7所示。S_A，S_B，S_C分别代表区域A,B,C的面积，假设区域A为“预测的边框”，则区域B为“真实的边框”，区域C为“预测的边框”和“真实的边框”的交集。

在本可选实施例的训练过程中，用于确定是否对模型参数进行调整的损失包括分类损失和预测窗口的回归损失。损失函数具体如下公式(5-2)所示：

L＝L_CLA+λL_REG(5-2)

其中，L为上述训练过程所利用的损失，L_CLA表示分类损失，L_REG表示回归损失，λ表示两种损失的平衡比例。

分类损失使用基于二分类的交叉熵(Cross Entropy)损失函数，计算公式如下(5-3)至(5-5)所示：

其中，i表示锚框Anchor的编号；N_cls表示锚框Anchor的数量，可以取256，p_i表示第i个锚框Anchor是前景的概率；

表示第i个锚框Anchor对应的真值(Ground Truth)的概率，当第i个Anchor取前景时

为1，反之为0。

由于基于二分类的交叉熵损失函数，也就是L2损失函数使用的是平方损失，对于比较大的误差惩罚很高，所以回归误差采用相对缓和一点L1损失函数，即损失随着误差线性增长而不是平方增长。但是L1损失函数在零点处导数不存在，有可能会影响模型的收敛，所以采取分段的方式，即平滑L1(Smooth L1)损失，在零点附近使用平方函数使其平滑。因此，回归损失的损失函数如下公式(5-6)和(5-7)所示：

其中，t_i＝{t_x,t_y,t_w,t_h}，表示预测的候选区域坐标，

表示真实的区域坐标，N_reg代表锚框Anchor的总数，参数σ用来控制Smooth L1的平滑区域，可以取值为3。另外，当训练集中样本数量不足时，容易导致模型的过拟合问题。因此，为了弥补样本较少的缺陷，可以对数据进行增广，例如，使用尺度缩放以及水平翻转的方法处理样本图像，实现训练集的扩充。

在一种可选的实施方式中，尚述密度类型为密集类型时，上述针对每个密度类型，利用多个该密度类型的样本图像以及每个样本图像的行人密度标签，训练得到该密度类型的预训练后检测子模型，具体可以包括如下步骤：

将多个密集类型的样本图像以及每个样本图像的行人密度标签输入进行训练的行人密度密度图模型，得到每个样本图像的检测行人密度；其中，行人密度密度图模型为将图像特征映射为密度图的模型；

将行人密度标签和检测行人密度输入损失函数，并按照损失函数的损失值确定是否对行人密度密度图模型的参数进行调整，当无需调整时，将进行训练的行人密度密度图模型确定为密集类型的预训练后检测子模型。

在具体应用中，对于密集类型场景下的行人密度检测，由于存在高遮挡，高拥挤，图像清晰度低、行人密度尺度变化大等问题，传统的目标检测算法难以适用于该场景下的行人密度统计。因此，可以利用将图像特征映射为密度图的模型：行人密度密度图模型。具体的，行人密度密度图模型可以将待检测图像的原始特征输入到不同尺度的空间金字塔池化层(Spatial Pyramid Pooling，SPP)，提取得到不同尺度的尺度特征，随后经过上采样操作(upsampling)将尺度特征还原为与原始特征同样的大小。用原始特征与尺度特征的差值来体现不同尺度所得特征的差异性，然后将该差异性以尺度特征权重进行表示。尺度特征权重体现了特定位置之间以及相邻位置之间的差异，是非常重要的视觉空间特征。最后将原始特征和尺度特征权重进行加权，提取得到最终的考虑了尺度差异性的图像特征，能够解决由于图像透视现象造成的待检目标尺度差异问题。本模型的多尺度特征网络统一使用L² loss作为损失函数，具体定义如下公式(4-16)所示：

其中，B表示模型训练时的批尺寸(Batch Size)，

代表样本图像i对应的人群密度图的真值，

代表样本图像i对应的人群密度图的模型检测值，密度图真值的生成方法采用基于几何自适应高斯核函数的密度图生成方法。为了使公式(4-16)的损失达到最小，可以使用批尺寸为1的随机梯度下降(Stochastic Gradient Descent，SGD)算法来处理样本图像大小不同的训练集，使用批处理大小为32的Adam优化算法来处理样本图像大小固定的训练。经过上述两个可选实施例实现关于预训练的过程一，得到两个预训练后检测子模型时，可以进行关于差分训练的过程二：上述步骤A2至步骤A3。为了能够进行更加精确地训练，本阶段将使用人群的计数误差(count error)也就是第一检测误差

作为模型训练的损失函数，具体计算方法如式(4-17)所示：

其中，k代表预训练后检测子模型的编号，k∈{0,1}，分别代表稀疏类型的预训练后检测子模型和密集类型的预训练后检测子模型，

代表模型k针对图像i检测出的检测行人密度，

代表图像i所含行人密度的真值，也就是行人密度标签。

将训练集中的图像分别输入两个预训练后检测子模型，分别得到行人密度识别的检测结果

使用检测结果

分别计算网络的计数误差

从中可以得到第一检测误差

更小的那一个模型也及时优选检测子模型的编号，记为

示例性的，如图8所示。训练集中的样本图像作为输入图像I，分别输入稀疏类型的预训练后检测子模型和密集类型的预训练后检测子模型，得到检测行人密度。计算稀疏类型的预训练后检测子模型的第一检测误差：误差A；密集类型的预训练后检测子模型的第一检测误差：误差B。比较误差A和误差B的大小，选择更小的误差对应的预训练后检测子模型作为优选检测子模型，使用图像I训练该优选检测子模型。其中，优选检测子模型的编号计算，如下公式(4-18)所示：

即模型

用于识别图像i中的行人密度有着更好的效果，所以随后使用该图像i对编号为

的模型进行训练。通过差分训练能够间接地减小检测图像行人密度的平均绝对计数误差(MAE)。这样，一方面，可以进一步提升检测子模型在本就擅长的识别场景下的分析能力，另一方面，经过微调，可以使用差分训练得到的检测子模型的识别结果为生成用于训练得到分类子模型的标签。分类子模型的准确率在很大程度上决定了行人密度识别模型的平均绝对误差MAE。对于具有N张图像的数据集，如果每一个图像都被准确地分类到适合其自身人群场景的识别算法中去，行人密度识别模型的平均绝对误差MAE将会达到最小值MAE_min，此时平均绝对误差MAE如公式(4-19)所示。

在具体应用场景中，分类子模型无法达到上述理想化的分类结果，只经过差分训练的两个子模型也并没有达到最优的状态，所以本发明实施例还通过第三个过程，也就是上述步骤A4至步骤A6对三个子模型进行协同训练，即将分类子模型与两个差分训练后检测子模型交替进行训练。这样，在提升分类子模型分类效果的同时对两个差分训练后检测子模型在原有参数基础上进行有针对性的微调。协同训练可以包括两部分，分别是分类子模型的训练和基于分类子模型分类结果的差分训练后检测子模型的差分训练。

在得到两个差分训练后检测子模型时，使用两个差分训练后检测子模型的输出结果为样本图像打标签，用于训练得到分类子模型。示例性的，如图9所示。对于具有N个样本图像的训练集，每输入一张样本图像i，将其分别送入两个差分训练后检测子模型进行检测，得到行人密度识别误差较小的模型编号

方式与上述差分训练相同。模型

对图像i进行行人密度识别的误差更小，因此使用模型

对应的密度类型作为图像i的类型标签，例如，Switch_label(I)＝0代表类型标签为稀疏类型，Switch_label(I)＝1代表类型标签为密集类型。随后将类型标签与图像i一起用于训练得到分类子模型。

另外，如果用于训练得到分类子模型的训练集中存在着明显的样本倾斜，例如标签为0的样本图像数量明显多于标签为1的样本图像数量，会对分类子模型的精确度产生较大影响。对此，可以从样本数量较小的组中进行随机抽样，使两个类别的样本数量大体一致以达到训练样本的均衡。整个协同训练过程可以进行多轮用于获取分类子模型的训练，例如可以为5轮。经过5轮训练得到分类子模型时，进入到基于分类子模型分类结果的差分训练后检测子模型的差分训练。

如图10所示。对于具有N个图像样本的训练集，每一张图像i可以作为输入图像I，首先经过训练得到的分类子模型进行分类，得到对应差分训练后检测子模型的类型Switch_label(I)＝0或者Switch_label(I)＝1。经过Switch分类可以确定图像I适合使用与分类结果对应的差分训练后检测子模型进行行人密度识别，误差会更小。因此，可以使用图像I再次训练模型k。例如，Switch_label(I)＝0，则k＝0，使用图像I训练稀疏类型的差分训练后检测子模型。Switch_label(I)＝1，则k＝1，使用图像I训练密集类型的差分训练后检测子模型。以此循环进行多次迭代，直至差分训练后检测子模型收敛，得到行人密度识别模型中的检测子模型。

本发明实施例还提供了一种服务器，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

在具体应用中，上述服务器为本发明实施例提供的一种交通路网行人密度检测的系统中的服务器。

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一交通路网行人密度检测的方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一交通路网行人密度检测的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种交通路网行人密度检测的方法，其特征在于，所述方法包括：

其中，所述待检测图像的密度类型包括：行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型；所述分类子模型为利用多个稀疏类型的样本图像，多个密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；针对每个密集类型，该密集类型对应的检测子模型为利用多个该密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；

将所述多个稀疏类型的样本图像以及多个密集类型的样本图像作为训练集；所述行人密度检测模型采用如下步骤训练得到：

针对每个密度类型，利用多个该密度类型的样本图像以及每个样本图像的行人密度标签，训练得到该密度类型的预训练后检测子模型；

分别利用每个预训练后检测子模型，以及每个样本图像的行人密度标签，获取每个预训练后检测子模型对所述训练集中每个样本图像的第一检测误差；

针对所述训练集中每个样本图像，利用该样本图像和该样本图像的行人密度标签，对该样本图像对应的优选检测子模型进行训练，并将训练得到的模型作为差分训练后检测子模型；其中，任一样本图像对应的优选检测子模型为两个预训练后检测子模型中，所获取的该样本图像的第一检测误差更小的子模型；

分别利用每个差分训练后检测子模型，以及每个样本图像的行人密度标签，获取每个差分训练后检测子模型对所述训练集中每个样本图像的第二检测误差；

针对所述训练集中每个样本图像，利用该样本图像和该样本图像对应的密度类型标签，训练得到所述行人密度检测模型中的分类子模型；其中，任一样本图像对应的密度类型标签为两个差分训练后检测子模型中，所获取的该样本图像的第二检测误差更小的子模型对应的密度类型；

针对所述训练集中每个样本图像，利用所述分类子模型获取该样本图像的密度类型，并利用该样本图像训练与所获取的密度类型对应的所述差分训练后检测子模型，并将训练得到的模型作为行人密度检测模型中，与所获取的密度类型对应的检测子模型。

2.根据权利要求1所述的方法，其特征在于，所述密度类型为所述稀疏类型时，所述针对每个密度类型，利用多个该密度类型的样本图像以及每个样本图像的行人密度标签，训练得到该密度类型的预训练后检测子模型，包括：

利用多个稀疏类型的样本图像以及每个样本图像的行人密度标签，对所述初始R-CNN模型中的初始RPN网络层进行训练，并利用所述初始RPN网络分别对所述多个稀疏类型的样本图像进行候选区域提取；

利用提取的候选区域对所述初始R-CNN模型中的共享特征层进行训练，将训练得到的模型作为待微调R-CNN模型，并利用多个稀疏类型的样本图像以及每个样本图像的行人密度标签，对所述待微调R-CNN模型中的所述初始RPN网络进行训练，得到微调后RPN网络；

利用所述微调后RPN网络分别对所述多个稀疏类型的样本图像进行候选区域提取，并利用提取的候选区域对所述待微调R-CNN模型中的共享特征层进行训练，将训练得到的模型作为所述稀疏类型的预训练后检测子模型。

3.根据权利要求1所述的方法，其特征在于，所述密度类型为所述密集类型时，所述针对每个密度类型，利用多个该密度类型的样本图像以及每个样本图像的行人密度标签，训练得到该密度类型的预训练后检测子模型，包括：

将多个密集类型的样本图像以及每个样本图像的行人密度标签输入进行训练的行人密度密度图模型，得到每个样本图像的检测行人密度；其中，所述行人密度密度图模型为将图像特征映射为密度图的模型；

将所述行人密度标签和所述检测行人密度输入损失函数，并按照所述损失函数的损失值确定是否对所述行人密度密度图模型的参数进行调整，当无需调整时，将所述进行训练的行人密度密度图模型确定为所述密集类型的预训练后检测子模型。

4.一种交通路网行人密度检测的系统，其特征在于，所述系统包括：图像采集设备，客户端以及服务器；

所述图像采集设备，用于采集交通路网的监控视频；

所述服务器，用于获取所述图像采集设备所采集的所述查询指令对应的监控视频的至少一个视频帧，作为待检测图像；将所述待检测图像输入预先训练得到的行人密度检测模型，以使所述行人密度检测模型：利用分类子模型检测所述待检测图像的密度类型，并利用与所述密度类型对应的检测子模型检测所述待检测图像中的行人密度，将基于所述行人密度获取检测结果并返回给所述客户端；其中，所述待检测图像的密度类型包括：行人密度小于第一阈值的稀疏类型，以及行人密度大于第一阈值的密集类型；所述分类子模型为利用多个稀疏类型的样本图像，多个密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；针对每个密集类型，该密集类型对应的检测子模型为利用多个该密集类型的样本图像以及每个样本图像的行人密度标签训练得到的模型；

所述服务器，还用于：

将所述多个稀疏类型的样本图像以及多个密集类型的样本图像作为训练集；

5.根据权利要求4所述的系统，其特征在于，所述客户端，具体用于：

对行人密度识别任务和结果展示任务进行异步调度：在所述向所述服务器发送针对所述查询指令对应的监控视频中行人密度的检测指令之后，按照预设查询周期向所述服务器发送所述查询指令对应的监控视频的行人密度查询请求；

所述服务器，还用于在所述利用与所述密度类型对应的检测子模型检测所述待检测图像中的行人密度之后，将所述行人密度查询请求对应的监控视频的标识，所述行人密度以及所述服务器的本地时间创建为一条检测结果，存储在数据库中；在接收到所述行人密度查询请求时，从数据库中查找目标检测结果，并返回给所述客户端；所述目标检测结果具有所述行人密度查询请求所表明的监控视频的标识，且在所述数据库已存储的检测结果中，所述目标检测结果记录的本地时间与所述行人密度查询请求所表明的查询时间之间的差异最小。

6.根据权利要求4所述的系统，其特征在于，所述服务器，具体用于：

在所述密度类型为所述稀疏类型时，初始化Faster R-CNN模型中共享特征层的参数，得到初始R-CNN模型；

7.根据权利要求4所述的系统，其特征在于，所述服务器，具体用于：

在所述密度类型为所述密集类型时，将多个密集类型的样本图像以及每个样本图像的行人密度标签输入进行训练的行人密度密度图模型，得到每个样本图像的检测行人密度；其中，所述行人密度密度图模型为将图像特征映射为密度图的模型；

8.一种服务器，其特征在于，所述服务器包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1-3任一项所述的方法的步骤。