CN113111778B

CN113111778B - 一种视频和无线融合的大规模人群分析方法

Info

Publication number: CN113111778B
Application number: CN202110390587.1A
Authority: CN
Inventors: 黄宝琦; 郝利飞; 贾冰
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-11-15
Anticipated expiration: 2041-04-12
Also published as: CN113111778A

Abstract

本发明公开了一种视频和无线融合的大规模人群分析方法，包括：获取视频和WiFi两种模态的原始数据；对两模态原始数据分别进行时空对准并得到两模态第一数据；对所述两模态第一数据进行特征提取得到两模态特征数据；对两模态特征数据进行特征融合并得到融合数据，对融合数据解码并输出人群统计结果；利用视频模态原始数据标注对所述WiFi模态原始数据进行标记；子模型及总体模型的训练。本发明针对视频数据创新地采用了结合注意力机制的CNN模型进行特征提取；利用兼顾时间单向和空间四向的2D‑RNN结构来建模二维输入特征数据，提高了人群分析精度；使用子模型预训练和单模态有限标注监督迁移的方法，解决大模型训练以及多模态标记数据获取成本过高的难题。同时，各子模型采用不同的有针对性的数据源进行预训练，整合后的模型通过微调进行优化。

Description

一种视频和无线融合的大规模人群分析方法

技术领域

本发明涉及计算机应用技术领域，更具体的说是涉及一种视频和无线融合的大规模人群分析方法。

背景技术

伴随着高速的经济发展和快速的城市化进程，我国大中城市的人口迅速增长，城市规模不断扩大，形成了大量的地铁站、高铁站、机场、剧院、体育场馆、商业综合体等人流密集的公共场所，导致在出行和旅游高峰期间频现人流如织的场景。由于大规模人群聚集而发生的危害性事件屡有发生，人群聚集风险愈发突出，已成为政府和社会广泛关注的城市公共安全重要问题之一。

近年来也出现了少量利用WiFi实现人群监控的方法。WiFi监控方法通过使用WiFi接入点(Access Point，AP)捕获行人携带移动设备发出的Probe请求帧，进而提取移动设备的MAC地址、接收信号强度(Received Signal Strength,RSS)等信息，从而实现人群的统计和分析。由于运用WiFi嗅探技术以无感的方式实时获取移动设备携带者的时空分布信息，因此可应用于人群监控、应急管理、交通规划、客流分析等城市规划管理、公共安全和商业智能领域，具有十分广阔的市场前景。

因此，如何提供一种人数统计、密度测量、个体识别、轨迹追踪的大规模人群分析方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种视频和无线融合的大规模人群分析方法。在深入理解两种模态数据特点和差异性的基础上，分别针对性地设计不同模态数据的时空对准方法，并采取不同的特征提取子模型实现多模态数据的特征提取。将经过各子网络处理后的多模态数据特征作为两个输入源，同时训练通过信息迁移层交叉相连的两个2D-RNN模型，自适应地抽取相关跨模态特征。各子模型采用不同的有针对性的数据源进行预训练，整合后的模型再通过微调进行优化。

为了实现上述目的，本发明采用如下技术方案：

一种视频和无线融合的大规模人群分析方法，其特征在于，包括：

步骤a：获取原始数据；所述原始数据包括视频模态原始数据和WiFi模态原始数据；

步骤b：对所述原始数据进行时空对准并得到两模态第一数据；

步骤c：对所述两模态第一数据进行特征提取得到两模态特征数据，所述两模态特征数据包括：高层抽象人群时空分布特征；

步骤d：对特征数据进行特征融合并输出融合数据，对融合数据解码并输出人群统计结果；

步骤e：对所述视频模态原始数据进行手工标记，利用视频模态原始数据的标记对WiFi模态原始数据进行监督迁移标记；

步骤f：基于步骤a～d建立整体模型，基于步骤e实现所述两模态原始数据的标注，进行模型的训练。

优选的，所述视频模态数据通过摄像头捕获，所述WiFi模态数据通过WiFi嗅探器捕获。

优选的，所述步骤b包括：对视频模态数据进行时空对准和对WiFi模态数据进行时空对准；

所述时空对准包括：时间对准和空间对准；所述时间对准：采用滑动时间窗口机制，将所述时间窗口内所述WiFi模态数据和所述视频模态数据分别对准；所述空间对准：将所述WiFi模态数据和所述视频模态数据的坐标空间统一映射到现实世界坐标系内。

优选的，所述视频模态数据进行时间对准包括：将视频流的时序结构图构建多视频数据间的拓扑关系，利用关键帧提取方法最大化保留时间窗口中的时间特定信息并大幅缩减数据量，得到视频模态时间对准数据；

所述视频模态数据进行空间对准包括：采取摄像头参数并通过公式将图像像素转换至世界坐标内，得到视频模态空间对准数据；

所述WiFi模态数据进行时间对准包括：对所述窗口内每一参考位置的RSS求取均值和方差，构建WiFi定位指纹库，得到WiFi模态时间对准数据；

所述WiFi模态数据进行空间对准包括：

步骤1：构建多信道指纹向量

即，将RSS向量扩展为c×m维多信道指纹向量，其中c为信道集数，m为AP数，形成多信道指纹库。

步骤2：构建多信道指纹偏置

并结合所述多信道指纹库，进行WiFi指纹定位后，得到WiFi模态空间对准数据；其中，R_ij和δ_ij分别为第j个参考位置处第i个AP-信道对的RSS均值和标准差，r_i为移动设备第i个AP-信道对的RSS均值。

进一步，一种视频和无线融合的大规模人群分析方法，所述摄像头参数根据摄像头部署信息的外参旋转矩阵R和平移矩阵T确定内参数矩阵K，通过

进行映射转换。

优选的，所述步骤c中所述特征提取包括：视频模态特征提取和WiFi模态特征提取；

对所述视频模态特征提取：首先，提取视频模态时空对准数据并进行卷积变换得到特征信号；然后，建立注意力模块，并学习通道权重得到面向通道域的注意力；最后，根据不同所述注意力在所述视频模态数据中提取所述抽象特征；

对所述WiFi模态特征提取：首先，将WiFi模态时空对准数据输入初始密度图回归模块，使用具有固定带宽的高斯核方法计算高清密度图并输出；然后将所述高清密度图作为栈式自编码器的输入，使用非监督学习方法训练栈式自编码器，得到所述高层抽象人群分布特征。

进一步，一种视频和无线融合的大规模人群分析方法，所述通道模块还包括：步骤：挤压，将每个通道内所有的特征值相加再平均，进行全局平均池化，利用

其中，F_sq为挤压函数，H、W分别表示特征U的高和宽，u_c(i，j)为第i列第j行的特征。

步骤：激励，学习两个权重W₁和W₂，得到一维的激励权重来激活每一层通道，利用

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，F_ex为激励函数，δ为ReLU函数，σ是sigmoid函数。

步骤：注意，不同通道乘以不同权重，利用

x_c＝F_scale(u_c,s_c)＝u_c·s_c

其中，F_scale为注意函数，s_c为激励函数计算出的每一通道权值。

所述高斯核方法为

优选的，所述特征信号设定有n个通道，所述通道分别对应不同关键帧数据。

优选的，所述步骤d，通过利用2D-RNN模型对所述高层抽象人群时空分布特征进行融合得到中间模态特征，然后利用LSTM解码器和全连接层对所述中间模态特征进行解码并输出人群统计信息；

所述步骤d包括：

步骤d1：所述视频模态数据和所述WiFi模态数据被分别单独分配一个所述2D-RNN模型进行处理，两个所述2D-RNN模型的隐藏层平面分别连接有向迁移层，并通过

计算视频模态融合特征，通过更换下标的公式计算WiFi模态融合特征；其中

为k时刻位于视频模态高层抽象特征(i，j)位置的特征向量，

和

分别为每个模态内部的隐藏层k时刻(i，j)位置的状态，各权重矩阵U_v、W_v、S_v、T_v和V_v分别负责对输入或隐藏层状态进行映射，b_v和c_v为偏置。

步骤d2：所述LSTM解码器将局部融合特征解码为局部子区域人数，所述局部子区域人数对子区域面积进行运算处理得到局部人群密度；

步骤d3：添加全连接层，全连接层对所述局部子区域人数积分得到全局人数，所述全局人数对场景区域进行运算处理得到全局人群密度。

优选的，所述步骤e中，所述视频模态数据采用人工或自动化方法进行标注；对所述视频模态数据和所述WiFi模态数据的各分层构架进行设计并对应；对所述WiFi模态数据使用监督迁移方法进行各分层的标注；

所述步骤e包括：

步骤e1：对所述高层抽象人群时空分布特征进行标注；

步骤e2：利用最小化标注误差的目标函数对标注后的所述高层抽象人群时空分布特征进行学习，对所述高层抽象人群分布特征提取网络对应层并利用欧式距离函数测量相似度。

进一步，一种视频和无线融合的大规模人群分析方法，利用

的优化目标学习Ψ。

优选的，所述步骤f包括：

步骤f1：子模型预训练：

基于两模态第一数据构建子模型，利用下式作为各子模型预训练的损失函数，

其中，δ为待确定的超参数，y为真实值，f(x)为子模型预测值。

步骤f2：整体模型微调训练：

利用下式作为整体模型训练的平均损失函数，实现整体模型的微调，

其中，y^i，j为第i条数据对于第j个区域的人数真实值，

和

分别为第i条同步的视频和WiFi模态数据在LSTM解码器上对第j个区域的估计值。

优选的，所述子模型预训练包括：

训练1：对DNN定位模型训练；

训练2：对基于注意力机制CNN视频特征提取模型训练；

训练3：对SAE进行逐层无监督训练，对密度图特征进行提取。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种视频和无线融合的大规模人群分析方法；针对视频数据创新地采用了结合注意力机制的CNN模型，为解决WiFi嗅探数据的随机性问题，提出定位+密度图+SAE的组合方式处理；利用兼顾了时间单向和空间四向的2D-RNN结构来建模二维输入数据中的短期和长期上下文信息，最大限度地挖掘并利用了多模态数据的时空相关性，提高了人群分析精度；针对有标记数据量较少的实际问题，使用子模型预训练和单模态有限标注监督迁移的方法，解决大模型训练以及多模态标记数据获取成本过高的难题。各子模型采用不同的有针对性的数据源进行预训练，整合后的模型可通过微调进行优化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的视频和无线融合的大规模人群分析方法流程图；

图2附图为本发明提供的大范围智能监控应用场景；

图3附图为本发明提供的人群分析方法整流程说明图；

图4附图为本发明提供的DNN定位模型示意图；

图5附图为本发明提供的基于注意力的视频模态特征抽取CNN模型示意图；

图6附图为本发明提供的密度图特征提取SAE结构图；

图7附图为本发明提供的改进的2D-RNN融合模型结构示意图；

图8附图为本发明提供的LSTM解码器和全连接层输出人群信息结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种视频和无线融合的大规模人群分析方法，其特征在于，包括：

步骤a：获取原始数据；所述原始数据包括视频模态数据和WiFi模态数据；

步骤b：对所述原始数据进行时空对准并得到第一数据；

步骤c：对所述第一数据进行特征提取得到特征数据，所述特征数据包括：高层抽象人群时空分布特征；

步骤e：对所述原始输入视频模态进行手工标记，对原始输入WiFi模态数据进行监督迁移标记；

图1、2、3是根据一示例性实施例一示出的视频和无线融合的大规模人群分析方法流程图；大范围智能监控应用场景；人群分析方法整流程说明图。

步骤a：通过视频摄像头和WiFi嗅探器捕获的原始数据，所述原始数据包括视频模态数据和WiFi模态数据；其中已知的参数：时间窗口长度Δt、滑动步长sw，视频摄像头内参矩阵K、外参旋转矩阵R和平移矩阵T，高斯核带宽δ，视频摄像头个数C；

步骤b：对所述原始数据进行时空对准并得到第一数据；时间对准方面，采用滑动时间窗口机制囊括短时变化信息，设定窗口长度为Δt、滑动步长为sw，将窗口内两种模态数据分别对准；空间对准方面，将两模态数据自身的坐标空间统一映射到真实的世界坐标系内。

视频模态时空对准；

a.时间对准：使用视频流的时序结构图构建多摄像头视频数据间的拓扑关系，关键帧提取方法最大化保留时间窗口中的时间特定信息并大幅缩减数据量。将视频流的时序结构图VG定义为一个三元组(VC,E,W)，VC是所有摄像头视频流的集合，E是VC中元素之间的关系集合，W是权值的集合；E中每个元素之间对应一条有向边e_ij＝<vc_vvc_j>，它表示两个空间位置从左向右相邻的摄像头所捕获的视频流数据VC_i∈VC，VC_j∈VC(i≠j)之间的相对关系；W中的每个元素表示有向边e_ij所连接的两视频流关键帧之差。关键帧提取方法为，计算视频流帧集vc_i＝{f_k}中所有相邻帧的相似度sim(f_k,f_k+1)并加入到相似度集合su中，将su中元素排序，并令相似度阈值ε为前某百分比(如10％)su中元素的最小值，最后将相似度大于ε的原始帧抛弃仅保留关键帧。Sim(·)函数用于计算两个相邻视频图像帧之间的相似性，包括两幅图像的颜色、形状和纹理等差异。

b.空间对准：根据视频摄像头的参数设定来确定内参矩阵K，根据摄像头部署信息确定外参旋转矩阵R和平移矩阵T，利用公式

对每一帧图像实现从图像坐标到世界坐标的转换；其中，u、v为图像的横纵像素坐标，X_c、Y_c和Z_c为摄像头坐标系中的三个方向的坐标，X、Y、Z为真实坐标空间三个方向的坐标。

WiFi模态时空对准；

a.时间对准：将时间窗口内的RSS对每个参考位置求取均值和方差，构建WiFi定位指纹库；

b.空间对准：使用基于DNN的信道自适应和容忍设备异构性的被动式WiFi指纹定位方法实现空间对准。采用公式RSS＝[RSS₁₁，RSS₁₂，...，RSS_1m，...，RSS_cm]的扩展方法，将传统RSS向量扩展为c×m维信道-信号向量，其中c为信道集数，m为AP数，形成多信道指纹库；采用公式

结合多信道指纹库求得最优偏置，信道-信号向量减去最优偏置消除设备异构性；使用如附图4所示的DNN定位模型推断设备位置得到定位结果(x,y)实现空间映射。

步骤c：对所述第一数据进行特征提取得到特征数据；多模态数据特征提取。分别使用基于注意力机制的CNN和密度图+SAE编码器提取两模态包含时空相关性的高层抽象特征。

采用的基于注意力机制的视频模态特征抽取CNN模型结构如附图5所示，输入视频模态的时空对准数据X，经过卷积变换F_tr，产生了特征信号U，U有C个通道，分别对应不同摄像头的关键帧图像，通过注意力模块学习每个通道的权重，产生面向通道域的注意力，最终根据不同注意力从原始视频模态数据中提取出与具体模态无关的抽象特征。其中，注意力模块进行以下操作：

1.

挤压：利用公式

把每个通道内所有的特征值相加再平均，进行全局平均池化；

激励：利用公式

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁Z))

学习两个权重W₁和W₂，得到一维的激励权重来激活每一层通道；

注意：利用公式

x_c＝F_scale(u_c,s_c)＝u_c·s_c

实现放缩，令不同通道乘以不同权重，增强对关键通道的注意力。

2.基于密度图和SAE的WiFi模态特征提取。以上一步DNN定位结果作为密度图回归模块的输入，使用公式

的具有固定带宽的高斯核方法计算高清密度图，学习到从WiFi定位结果空间到密度图空间的映射关系。将输出的密度图作为如附图6所示SAE的输入，使用非监督学习方法训练SAE以提取与具体模态无关的高层抽象人群分布特征。

步骤d：对特征数据进行特征融合并输出融合数据；多模态数据特征融合及结果输出。采用改进的2D-RNN模型对上一步提取特征进行中间融合，后接LSTM解码器统计各子区域的局部人群信息，使用全连接层计算监控区域的总体人数和密度。

1.利用改进的2D-RNN模型进行特征融合。为每种模态分配一个单独的2D-RNN进行处理，利用附图7所示的有向迁移层连接两个2D-RNN的隐藏层平面，其中附图7仅展现出时间和空间单向的迁移层。对于视频模态特征，利用公式

计算融合特征，给定一个RNN中的二维方向(左上)，则网络当前被处理的位置依赖于6个附近的空间状态，分别来自网络自身和WiFi特征模态各两个，加上该位置当前和前一时刻的两个状态。同理，可计算其他三个方向(右上、左下和右下)和WiFi模态所有方向的融合特征。

2.利用LSTM解码器和全连接层输出人群统计信息。如附图8所示，使用LSTM解码器将每个局部特征解码为局部子区域人数，除以子区域面积可得局部人群密度；在LSTM解码器后添加全连接层将局部人数积分为全局人数，除以场景面积获得场景的全局人群密度。至此，完成从数据输入到特征提取，再到特征融合和结果估计的整体流程。

步骤e：对所述原始视频模态数据进行手工标记；对WiFi模态无标注数据进行监督迁移。将视频模态的总分层标注表示为Ф，待学习WiFi模态的总分层标注表示为Ψ。利用公式

的优化目标学习Ψ，选取两模态特征提取网络对应层i*∈{1,...,n_L}，则WiFi模态的分层标注Ψ^nu(l_u)与视频模态的分层标注Ф^i*(I_L)相匹配，利用欧式距离函数f测量两种标注之间的相似度；两模态特征提取网络输出维度不同的情况下，采用线性或仿射转换函数t将特征Ψ^nu嵌入到与Ф^i*相同维度的空间中，最终实现将视频模态总标注Ф的第i*层迁移到WiFi模态总标注Ψ^Ψ的第n_u层。

步骤f：模型训练；模型的实际训练。使用公式

所示的有参的Huber函数作为基础损失函数，进行各子模型的预训练；使用公式

所示的整体模型平均损失函数，对模型进行整体训练实现微调。

1.各子模型的预训练

DNN定位子模型：利用WiFi指纹定位离线调查方法采集区域内RSS数据，构建多信道位置指纹库并生成大规模训练数据，对DNN子模型训练；

基于注意力机制CNN视频特征提取子模型：在该子模型后接全连接层进行回归，使用公开数据集充分训练该网络，移除全连接层后并入整体模型；

SAE密度图特征提取子模型：对SAE进行逐层无监督训练，合并后的SAE并入整体网络。

2.整体模型微调训练

待各子模型完成预训练后，组成完整的融合网络，用整体数据进行若干次训练，让每个子网络各层的权重参数同时得到改善，获取最佳的人群信息估计值。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频和无线融合的大规模人群分析方法，其特征在于，包括：

步骤d：对特征数据进行特征融合并输出融合数据，对融合数据解码并输出人群统计结果；包括：通过利用2D-RNN模型对所述高层抽象人群时空分布特征进行融合得到中间模态特征，然后利用LSTM解码器和全连接层对所述中间模态特征进行解码并输出人群统计信息；

所述步骤d具体包括：

步骤d1：所述视频模态原始数据和所述WiFi模态原始数据被分别单独分配一个所述2D-RNN模型进行处理，两个所述2D-RNN模型的隐藏层平面分别连接有向迁移层，并通过

为k时刻位于视频模态高层抽象特征(i，j)位置的特征向量，

和

分别为每个模态内部的隐藏层k时刻(i，j)位置的状态，各权重矩阵U_v、W_v、S_v、T_v和V_v分别负责对输入或隐藏层状态进行映射，b_v和c_v为偏置；

步骤d3：添加全连接层，全连接层对所述局部子区域人数积分得到全局人数，所述全局人数对场景区域进行运算处理得到全局人群密度；

2.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法，其特征在于，所述视频模态数据通过摄像头捕获，所述WiFi模态数据通过WiFi嗅探器捕获。

3.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法，其特征在于，所述步骤b包括：对视频模态数据进行时空对准和对WiFi模态数据进行时空对准；

4.根据权利要求3所述的一种视频和无线融合的大规模人群分析方法，其特征在于，

所述视频模态数据进行时间对准包括：将视频流的时序结构图构建多视频数据间的拓扑关系，利用关键帧提取方法最大化保留时间窗口中的时间特定信息并大幅缩减数据量，得到视频模态时间对准数据；

所述WiFi模态数据进行空间对准包括：

步骤1：构建多信道指纹向量

即，将RSS向量扩展为c×m维多信道指纹向量，其中c为信道集数，m为AP数，形成多信道指纹库；

步骤2：构建多信道指纹偏置

5.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法，其特征在于，所述步骤c中所述特征提取包括：视频模态特征提取和WiFi模态特征提取；

对所述视频模态特征提取：首先，提取视频模态时空对准数据并进行卷积变换得到特征信号；然后，建立注意力模块，并学习通道权重得到面向通道域的注意力；最后，根据不同所述注意力在所述视频模态特征中提取所述高层抽象人群时空分布特征；

对所述WiFi模态特征提取：首先，将WiFi模态时空对准数据输入初始密度图回归模块，使用具有固定带宽的高斯核方法计算高清密度图并输出；然后将所述高清密度图作为栈式自编码器，即SAE模型的输入，使用非监督学习方法训练栈式自编码器，即SAE模型，得到所述高层抽象人群时空分布特征。

6.根据权利要求5所述的一种视频和无线融合的大规模人群分析方法，其特征在于，所述特征信号设定有n个通道，所述通道分别对应不同关键帧数据。

7.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法，其特征在于，所述步骤e中，所述视频模态数据采用人工或自动化方法进行标注；对所述视频模态数据和所述WiFi模态数据的各分层构架进行设计并对应；对所述WiFi模态数据使用监督迁移方法进行各分层的标注；

所述步骤e包括：

步骤e1：对所述高层抽象人群时空分布特征进行标注；

步骤e2：利用最小化标注误差的目标函数对标注后的所述高层抽象人群时空分布特征进行学习，对所述高层抽象人群时空分布特征提取网络对应层并利用欧式距离函数测量相似度。

8.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法，其特征在于，所述步骤f包括：

步骤f1：子模型预训练：

其中，δ为待确定的超参数，y为真实值，f(x)为子模型预测值；

步骤f2：整体模型微调训练：

其中，y^i，j为第i条数据对于第j个区域的人数真实值，

和

9.根据权利要求8所述的一种视频和无线融合的大规模人群分析方法，其特征在于，所述子模型预训练包括：

训练1：对DNN定位模型训练：利用WiFi指纹定位离线调查方法采集区域内RSS数据，构建多信道位置指纹库并生成大规模训练数据，对DNN定位模型训练；

训练2：对基于注意力机制的视频特征提取CNN模型进行训练；

训练3：以上一步DNN定位模型输出结果作为密度图回归模块的输入，将输出的密度图作为SAE模型的输入，对SAE模型进行逐层无监督训练，对密度图特征进行提取。