CN112561153A

CN112561153A - 一种基于模型集成的景区人群聚集预测方法

Info

Publication number: CN112561153A
Application number: CN202011443105.6A
Authority: CN
Inventors: 朱敏; 山君泉
Original assignee: Nanjing LES Information Technology Co. Ltd
Current assignee: Nanjing LES Information Technology Co. Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-26

Abstract

本发明公开了一种基于模型集成的景区人群聚集预测方法，步骤如下：1）对原始数据进行数据观察和清洗；2）根据数据建模需要，对数据进行特征工程处理，生成训练数据集和测试数据集；3）选取算法模型，使用训练数据集对选定的算法模型进行优化，并对算法模型进行训练得到预测结果，对预测结果与测试数据集得到的真实值进行验证对比；4）根据验证对比结果，采用模型集成的方式进行人群聚集预测。本发明方法明确了利用训练集对算法模型进行优化的策略，解决算法模型预测值与实际结果偏差较大的问题。

Description

一种基于模型集成的景区人群聚集预测方法

技术领域

本发明属于智慧城市建设技术领域，具体指代一种基于模型集成的景区人群聚集预测方法。

背景技术

景区人群聚集预测是其中一个很重要的技术难点，目前国内外普遍采用的是因果性计量分析和时间序列相结合的方法。因果性计量分析方法将主要是通过知识经验和数据挖掘找出致灾因子，致灾因子是自然或人为环境中，能够对人类生命、财产或各种活动产生不利影响，并达到造成灾害程序的罕见或极端的事件，比如在景区人群聚集预测中景区所在自然环境、气象条件、周边交通情况以及景区实时人群热力情况等都是很重要的致灾因子，这些致灾因子累计到一定程度就会形成灾害事件。时间序列是指连续时间内发生的事件之间存在着一定的因果关系，比如景区由于过度聚集而发生踩踏事件一定是多个连续时间序列人群不断聚集的结果。此方法在2010年左右，被广泛应用到了应急信息化系统中。

随着系统的不断使用，这种预测方法的弊端也逐渐显现，比如预测逻辑过于复杂，需要较多的业务领域知识；其是否能够完成极端依赖于对有效数据的获取和提炼；在运用到实践之前，无法验证和优化。随着人工智能逐渐兴起，也逐渐出现了采用算法模型替代单一应用系统来进行人群聚集预测的方法，但在实际运用中也往往存在着预测结果准确性不高的问题。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于模型集成的景区人群聚集预测方法，以解决现有技术中原始数据质量不高，数据维度较窄；没有深度挖掘业务需求和数据结构特征的联系，没有建立有效的数据特征体系；机器学习算法模型选取单一，预测结果只在某些方面表现较好的问题。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于模型集成的景区人群聚集预测方法，步骤如下：

1)对原始数据进行数据观察和清洗；

2)根据数据建模需要，对数据进行特征工程处理，生成训练数据集和测试数据集；

3)选取算法模型，使用训练数据集对选定的算法模型进行优化，并对算法模型进行训练得到预测结果，对预测结果与测试数据集得到的真实值进行验证对比；

4)根据验证对比结果，采用模型集成的方式进行人群聚集预测。

进一步地，所述步骤1)具体包括：

数据观察：对景区电信运营商基站数据、基站客流数据通过构造统计曲线的方式进行数据观察，得到数据存在的数据缺失、数据异常问题；

数据清洗：对于数据缺失采用均值法补全缺失值，即根据统计学均值原理，基于历史数据统计分布的均值来对缺失数据进行填充；对于数据异常采用滑动平均法对异常值进行代替处理，即利用统计学平移原理，基于历史数据统计分布根据时间维度进行平移对数据异常值进行替换。

进一步地，所述步骤2)具体包括：

特征构建：景区人流量时间分布特征和时序相关性分析，在时间分布特征上，通过对人群聚集数据的时间探索分析，发现其存在周期性变化趋势；在时序相关性分析上，景区当前时间点的人流量与其前一个时刻的客流量相关程度高，与其滞后五个时间点的客流量存在负相关性；

特征提取：对于时间序列数据，提取每个时间戳的月份和日期；通过Lag特征将时间序列预测问题转化为有监督学习问题，即在每个观察的时间序列中滑动焦点，使用给定前一时间t-1的值预测下一次t+1的值，以扩展窗口宽度并包含更多Lag特征。

进一步地，所述步骤2)具体还包括：对提取的特征进行处理，采用的方法包含标准化、区间缩放法和归一化；

标准化：计算特征的均值和标准差，公式表达为：

式中，X'表示标准化处理后的值，X表示原始值，

表示平均值，S是标准差，即离均差平方的算术平均数的算术平方根；

标准化的结果是特征值服从正态分布，标准化后，其转换成标准正态分布；

区间缩放法包括利用两个最值进行缩放及利用边界值信息将特征的取值区间缩放到某个特点的范围；

利用两个最值进行缩放的公式表达为：

式中，Y'表示区间缩放处理后的值，Y表示原始值，Max表示最大值，Min表示最小值；

归一化是依据标准差的特征矩阵处理数据，公式表达为：

式中，Z'表示归一化处理后的值，Z表示原始值，S是标准差，即离均差平方的算术平均数的算术平方根。

归一化后测试数据在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为单位向量。

进一步地，所述步骤2)具体还包括：

特征是否发散：如果一个特征不发散，即方差接近于0，则表示样本数据在这个特征上没有差异，那么这个特征对于算法模型的训练和验证无用处。

特征与目标的相关性：与目标相关性高的特征，应优先选择。

当数据经过这些步骤处理后，使得数据具有了可被算法模型很好处理的特征。

进一步地，所述步骤2)具体还包括：

用数据库中已保存的历史数据构建训练数据集，用目标景区的实时客流量数据构建测试数据集；使用训练数据集的数据对算法模型进行训练，得到预测曲线，再使用测试数据集的数据得到的真实曲线对其进行对比验证。

进一步地，所述步骤3)中具体包括：

根据景区人群聚集预测业务需求，选择算法模型；

选择泊松回归模型，建立的泊松回归模型如下：

U_i,d,t～P(λ_i,d,t)

式中，P(λ_i,d,t)表示预测时间点的泊松回归模型的预测值，P(λ_i,d,t-j)表示当前时间节点前j个时间点的泊松回归模型的预测值，P(γ_d∈H)表示预测点所在日期是否为节假日的泊松回归模型预测值，β₀为初始化值，β_j为回归参数，β_H为节假日参数；

选择梯度提升树模型，建立的梯度提升树模型如下：

U_i,d,t～T(λ_i,d,t)

式中，T(λ_i,d,t)表示预测时间点的梯度提升树模型的预测值，T(λ_i,d,t-j)表示当前时间节点前j个时间点的梯度提升树模型的预测值，T(γ_d∈H)表示预测时间点所在日期是否为节假日的梯度提升树模型的预测值，α_j为残差，α_H为节假日参数；

选择时间递归神经网络模型，建立的时间递归神经网络模型如下：

U_i,d,t～R(λ_i,d,t)

且R(λ_i,d,t)＝R(R(λ_i,d,t-1))

式中，R(λ_i,d,t)表示预测时间点的递归神经网络模型的预测值，R(λ_i,d,t-j)表示当前时间节点前j个时间点的卷积结果递归神经网络模型的预测值，R(γ_d∈H)表示预测时间点所在日期是否为节假日的递归神经网络模型的预测值，ρ_j为参数，ρ_H为节假日参数；且上一个递归神经网络的预测值是下一个递归神经网络预测的输入。

进一步地，所述步骤3)具体还包括：

利用样本数据对各个算法模型进行优化；

对泊松回归模型进行优化的方式为：根据预测值与验证数据之间的差值，对参数β_j按序调整，每次调整只涉及到一个参数的优化，直到预测值无限逼近验证值；

对梯度提升树模型进行优化的方式为：不断减小训练数据和验证数据之间的残差，残差越小，方差越小，数据离散化程度越小，数据预测更加准确；残差趋向于0的过程决定构建几颗决策树的过程，即模型优化的过程；

对时间递归神经网络模型进行优化的方式为：通过预测值与验证数据之间的差值对比，在β_j取值趋小的前提下，对算法模型中的β_j按序优化，经过多次迭代，最终得出最优β_j值。

进一步地，所述步骤4)中具体为：

采取模型集成的方式，通过对不同特征的时间序列设置不同的权重策略，将三个在不同时间序列预测值均与真实值有偏差的算法模型集成为一个新的算法模型；

新的算法模型为：

N(λ_i,d,t)＝W₁T(λ_i,d,t)+W₂P(λ_i,d,t)+W₃R(λ_i,d,t)

其中：W₁，W₂，W₃为设定的权重，且W₁+W₂+W₃＝1；

具体的权重策略配置为：

41)瞬时客流变化大，W₂＝0.4，W₃＝0.4，W₁＝0.2；

42)平时平稳时期，W₂＝0.2，W₃＝0.4，W₁＝0.4；

43)下降曲线以及上升曲线角度大于60度，即出现峰值情况时，W₂＝0.4，W₃＝0.2，W₁＝0.4。

本发明的有益效果：

(1)通过数据观察和清洗以及数据特征工程处理，探索建立基于景区电信运营商基站数据、基站客流量数据预测景区人群聚集的数据特征体系。

(2)基于业务需求和算法模型应用特点，明确使用的算法模型，解决因算法模型选择错误，无法预测目标值的问题。

(3)明确了利用训练集对算法模型进行优化的策略，解决算法模型预测值与实际结果偏差较大的问题。

(4)提出了一种模型集成实施路径，通过集成，提供稳定且在整个时间序列的表现好的算法模型，解决单一算法模型无法对全时间序列都有很好的预测结果的问题。

附图说明

图1为本发明的方法示意图。

图2为本发明的泊松回归模型预测效果图。

图3为本发明的梯度提升树模型预测效果图。

图4为本发明的时间递归神经网络模型预测效果图。

图5为本发明的集成模型预测效果图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种基于模型集成的景区人群聚集预测方法，步骤如下：

1)对原始数据进行数据观察和清洗；

4)根据验证对比结果，利用各算法模型的优势，采用模型集成的方式进行人群聚集预测。

所述步骤1)具体包括：

所述步骤2)具体包括：

特征构建：景区人流量时间分布特征和时序相关性分析，在时间分布特征上，通过对人群聚集数据的时间探索分析，发现其存在周期性变化趋势；在时序相关性分析上，以15分钟为一个时间点，景区当前时间点的人流量与其前一个时刻的客流量相关程度高，与其滞后五个时间点的客流量存在负相关性；；

所述步骤2)具体还包括：对提取的特征进行处理，采用的方法包含标准化、区间缩放法和归一化；

标准化：计算特征的均值和标准差，公式表达为：

式中，X'表示标准化处理后的值，X表示原始值，

利用两个最值进行缩放的公式表达为：

归一化是依据标准差的特征矩阵处理数据，公式表达为：

所述步骤2)具体还包括：

最后，将数据集划分为训练数据集和测试数据集，使用训练数据集的数据对算法模型进行训练，得到预测曲线，然后再使用测试数据集的数据对其进行对比验证。

所述步骤3)中具体包括：

定义算法模型符号以及对应的特征项说明，具体如表1所示；

表1

根据景区人群聚集预测业务需求，选择算法模型；

选择泊松回归模型，泊松回归模型的应用特性：专门针对某些现象的发生概率很小，而预测出的计数数据又很大的业务需求。

建立的泊松回归模型如下：

U_i,d,t～P(λ_i,d,t)

选择梯度提升树模型，梯度提升树模型的应用特性：适用于时间序列比较长的数值预测，其由多颗决策树组成，把所有的树的预测值(残差)相加是最终的结论。

建立的梯度提升树模型如下：

U_i,d,t～T(λ_i,d,t)

选择时间递归神经网络模型(LSTM)，时间递归神经网络模型应用特性：通过增加记忆门，使得其非常适合处理和预测两个突发事件时间序列中间间隔非常长的数值预测。

建立的时间递归神经网络模型如下：

U_i,d,t～R(λ_i,d,t)

且R(λ_i,d,t)＝R(R(λ_i,d,t-1))

其中，所述步骤3)具体还包括：

利用样本数据对各个算法模型进行优化；

对梯度提升树模型进行优化的方式为：不断减小训练数据和验证数据之间的残差α_j，残差越小，方差越小，数据离散化程度越小，数据预测更加准确；残差α_j趋向于0的过程决定构建几颗决策树的过程，即模型优化的过程；

对时间递归神经网络模型进行优化的方式为：通过预测值与验证数据之间的差值对比，在ρ_j取值趋小的前提下，对算法模型中的ρ_j按序优化，经过多次迭代，最终得出最优ρ_j值。

所述步骤4)中具体为：

采取模型集成的方式，通过对不同特征的时间序列设置不同的权重策略，将三个在不同时间序列预测值都跟真实值有所偏差的算法模型集成为一个稳定的且在整个时间序列的表现好的算法模型；

新的算法模型为：

N(λ_i,d,t)＝W₁T(λ_i,d,t)+W₂P(λ_i,d,t)+W₃R(λ_i,d,t)

其中：W₁，W₂，W₃为设定的权重，且W₁+W₂+W₃＝1；

具体的权重配置策略为：

41)瞬时客流变化大，W₂＝0.4，W₃＝0.4，W₁＝0.2；

42)平时平稳时期，W₂＝0.2，W₃＝0.4，W₁＝0.4；

43)下降曲线以及上升曲线角度大于60度，即出现峰值情况时(最大值或最低值)，W₂＝0.4，W₃＝0.2，W₁＝0.4。

本发明的算法模型符号以及对应的特征项说明，其中目标景区基站的取值范围不大于255 个；每月第几天的取值范围不大于31天；每天的第几个时间点是通过一天为1440分钟，以 15分钟为一个间隔点，则一天有96个时间点；目标景区的某个基站某天的某个时间点的客流量不大于整个样本数据集中的客流最大值；确定某天是否为节假日。

参照图2所示，泊松回归模型预测效果图的纵轴为时间轴，也就是一天的96个时间点，竖轴为数值轴，也就是预测的某个时间点的客流量。真实曲线表示的是实际的客流量，预测曲线表示的是泊松回归模型经过优化后的预测客流量。泊松回归模型适用于捕捉短时异常变化趋势，对于整个时间序列的平均预测准确率较低。

参照图3所示，梯度提升树模型预测效果图，真实曲线表示的是实际的客流量，预测曲线表示的是梯度提升树模型经过优化后的预测客流量。梯度提升树模型能够较好拟合客流量的周期性变化趋势，对于较平稳的时间序列数据有着较好的表现，对于短时变化较大的预测结果较差。

参照图4所示，时间递归神经网络模型预测效果图，真实曲线表示的是实际的客流量，预测曲线表示的是时间递归神经网络模型经过优化后的预测客流量。时间递归神经网络模型对于较平稳的时间序列数据有着较好的表现，对于人流量峰值和低值的时间序列预测表现不理想。

参照图5所示，集成算法模型预测效果图，真实曲线表示的是实际的客流量，预测曲线表示的是集成算法模型的预测客流量；从图上可以看出其可以较好的拟合平时客流量变化趋势、瞬时客流变化较大以及客流量的峰值和谷值。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。