CN112561153A - 一种基于模型集成的景区人群聚集预测方法 - Google Patents
一种基于模型集成的景区人群聚集预测方法 Download PDFInfo
- Publication number
- CN112561153A CN112561153A CN202011443105.6A CN202011443105A CN112561153A CN 112561153 A CN112561153 A CN 112561153A CN 202011443105 A CN202011443105 A CN 202011443105A CN 112561153 A CN112561153 A CN 112561153A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- model
- prediction
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000010354 integration Effects 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000012795 verification Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 230000002776 aggregation Effects 0.000 claims abstract description 5
- 238000004220 aggregation Methods 0.000 claims abstract description 5
- 238000003062 neural network model Methods 0.000 claims description 22
- 230000000306 recurrent effect Effects 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000003467 diminishing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Operations Research (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
Abstract
本发明公开了一种基于模型集成的景区人群聚集预测方法,步骤如下:1)对原始数据进行数据观察和清洗;2)根据数据建模需要,对数据进行特征工程处理,生成训练数据集和测试数据集;3)选取算法模型,使用训练数据集对选定的算法模型进行优化,并对算法模型进行训练得到预测结果,对预测结果与测试数据集得到的真实值进行验证对比;4)根据验证对比结果,采用模型集成的方式进行人群聚集预测。本发明方法明确了利用训练集对算法模型进行优化的策略,解决算法模型预测值与实际结果偏差较大的问题。
Description
技术领域
本发明属于智慧城市建设技术领域,具体指代一种基于模型集成的景区人群聚集预测方法。
背景技术
景区人群聚集预测是其中一个很重要的技术难点,目前国内外普遍采用的是因果性计量分析和时间序列相结合的方法。因果性计量分析方法将主要是通过知识经验和数据挖掘找出致灾因子,致灾因子是自然或人为环境中,能够对人类生命、财产或各种活动产生不利影响,并达到造成灾害程序的罕见或极端的事件,比如在景区人群聚集预测中景区所在自然环境、气象条件、周边交通情况以及景区实时人群热力情况等都是很重要的致灾因子,这些致灾因子累计到一定程度就会形成灾害事件。时间序列是指连续时间内发生的事件之间存在着一定的因果关系,比如景区由于过度聚集而发生踩踏事件一定是多个连续时间序列人群不断聚集的结果。此方法在2010年左右,被广泛应用到了应急信息化系统中。
随着系统的不断使用,这种预测方法的弊端也逐渐显现,比如预测逻辑过于复杂,需要较多的业务领域知识;其是否能够完成极端依赖于对有效数据的获取和提炼;在运用到实践之前,无法验证和优化。随着人工智能逐渐兴起,也逐渐出现了采用算法模型替代单一应用系统来进行人群聚集预测的方法,但在实际运用中也往往存在着预测结果准确性不高的问题。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于模型集成的景区人群聚集预测方法,以解决现有技术中原始数据质量不高,数据维度较窄;没有深度挖掘业务需求和数据结构特征的联系,没有建立有效的数据特征体系;机器学习算法模型选取单一,预测结果只在某些方面表现较好的问题。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种基于模型集成的景区人群聚集预测方法,步骤如下:
1)对原始数据进行数据观察和清洗;
2)根据数据建模需要,对数据进行特征工程处理,生成训练数据集和测试数据集;
3)选取算法模型,使用训练数据集对选定的算法模型进行优化,并对算法模型进行训练得到预测结果,对预测结果与测试数据集得到的真实值进行验证对比;
4)根据验证对比结果,采用模型集成的方式进行人群聚集预测。
进一步地,所述步骤1)具体包括:
数据观察:对景区电信运营商基站数据、基站客流数据通过构造统计曲线的方式进行数据观察,得到数据存在的数据缺失、数据异常问题;
数据清洗:对于数据缺失采用均值法补全缺失值,即根据统计学均值原理,基于历史数据统计分布的均值来对缺失数据进行填充;对于数据异常采用滑动平均法对异常值进行代替处理,即利用统计学平移原理,基于历史数据统计分布根据时间维度进行平移对数据异常值进行替换。
进一步地,所述步骤2)具体包括:
特征构建:景区人流量时间分布特征和时序相关性分析,在时间分布特征上,通过对人群聚集数据的时间探索分析,发现其存在周期性变化趋势;在时序相关性分析上,景区当前时间点的人流量与其前一个时刻的客流量相关程度高,与其滞后五个时间点的客流量存在负相关性;
特征提取:对于时间序列数据,提取每个时间戳的月份和日期;通过Lag特征将时间序列预测问题转化为有监督学习问题,即在每个观察的时间序列中滑动焦点,使用给定前一时间t-1的值预测下一次t+1的值,以扩展窗口宽度并包含更多Lag特征。
进一步地,所述步骤2)具体还包括:对提取的特征进行处理,采用的方法包含标准化、区间缩放法和归一化;
标准化:计算特征的均值和标准差,公式表达为:
标准化的结果是特征值服从正态分布,标准化后,其转换成标准正态分布;
区间缩放法包括利用两个最值进行缩放及利用边界值信息将特征的取值区间缩放到某个特点的范围;
利用两个最值进行缩放的公式表达为:
式中,Y'表示区间缩放处理后的值,Y表示原始值,Max表示最大值,Min表示最小值;
归一化是依据标准差的特征矩阵处理数据,公式表达为:
式中,Z'表示归一化处理后的值,Z表示原始值,S是标准差,即离均差平方的算术平均数的算术平方根。
归一化后测试数据在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为单位向量。
进一步地,所述步骤2)具体还包括:
特征是否发散:如果一个特征不发散,即方差接近于0,则表示样本数据在这个特征上没有差异,那么这个特征对于算法模型的训练和验证无用处。
特征与目标的相关性:与目标相关性高的特征,应优先选择。
当数据经过这些步骤处理后,使得数据具有了可被算法模型很好处理的特征。
进一步地,所述步骤2)具体还包括:
用数据库中已保存的历史数据构建训练数据集,用目标景区的实时客流量数据构建测试数据集;使用训练数据集的数据对算法模型进行训练,得到预测曲线,再使用测试数据集的数据得到的真实曲线对其进行对比验证。
进一步地,所述步骤3)中具体包括:
根据景区人群聚集预测业务需求,选择算法模型;
选择泊松回归模型,建立的泊松回归模型如下:
Ui,d,t~P(λi,d,t)
式中,P(λi,d,t)表示预测时间点的泊松回归模型的预测值,P(λi,d,t-j)表示当前时间节点前j个时间点的泊松回归模型的预测值,P(γd∈H)表示预测点所在日期是否为节假日的泊松回归模型预测值,β0为初始化值,βj为回归参数,βH为节假日参数;
选择梯度提升树模型,建立的梯度提升树模型如下:
Ui,d,t~T(λi,d,t)
式中,T(λi,d,t)表示预测时间点的梯度提升树模型的预测值,T(λi,d,t-j)表示当前时间节点前j个时间点的梯度提升树模型的预测值,T(γd∈H)表示预测时间点所在日期是否为节假日的梯度提升树模型的预测值,αj为残差,αH为节假日参数;
选择时间递归神经网络模型,建立的时间递归神经网络模型如下:
Ui,d,t~R(λi,d,t)
且R(λi,d,t)=R(R(λi,d,t-1))
式中,R(λi,d,t)表示预测时间点的递归神经网络模型的预测值,R(λi,d,t-j)表示当前时间节点前j个时间点的卷积结果递归神经网络模型的预测值,R(γd∈H)表示预测时间点所在日期是否为节假日的递归神经网络模型的预测值,ρj为参数,ρH为节假日参数;且上一个递归神经网络的预测值是下一个递归神经网络预测的输入。
进一步地,所述步骤3)具体还包括:
利用样本数据对各个算法模型进行优化;
对泊松回归模型进行优化的方式为:根据预测值与验证数据之间的差值,对参数βj按序调整,每次调整只涉及到一个参数的优化,直到预测值无限逼近验证值;
对梯度提升树模型进行优化的方式为:不断减小训练数据和验证数据之间的残差,残差越小,方差越小,数据离散化程度越小,数据预测更加准确;残差趋向于0的过程决定构建几颗决策树的过程,即模型优化的过程;
对时间递归神经网络模型进行优化的方式为:通过预测值与验证数据之间的差值对比,在βj取值趋小的前提下,对算法模型中的βj按序优化,经过多次迭代,最终得出最优βj值。
进一步地,所述步骤4)中具体为:
采取模型集成的方式,通过对不同特征的时间序列设置不同的权重策略,将三个在不同时间序列预测值均与真实值有偏差的算法模型集成为一个新的算法模型;
新的算法模型为:
N(λi,d,t)=W1T(λi,d,t)+W2P(λi,d,t)+W3R(λi,d,t)
其中:W1,W2,W3为设定的权重,且W1+W2+W3=1;
具体的权重策略配置为:
41)瞬时客流变化大,W2=0.4,W3=0.4,W1=0.2;
42)平时平稳时期,W2=0.2,W3=0.4,W1=0.4;
43)下降曲线以及上升曲线角度大于60度,即出现峰值情况时,W2=0.4,W3=0.2,W1=0.4。
本发明的有益效果:
(1)通过数据观察和清洗以及数据特征工程处理,探索建立基于景区电信运营商基站数据、基站客流量数据预测景区人群聚集的数据特征体系。
(2)基于业务需求和算法模型应用特点,明确使用的算法模型,解决因算法模型选择错误,无法预测目标值的问题。
(3)明确了利用训练集对算法模型进行优化的策略,解决算法模型预测值与实际结果偏差较大的问题。
(4)提出了一种模型集成实施路径,通过集成,提供稳定且在整个时间序列的表现好的算法模型,解决单一算法模型无法对全时间序列都有很好的预测结果的问题。
附图说明
图1为本发明的方法示意图。
图2为本发明的泊松回归模型预测效果图。
图3为本发明的梯度提升树模型预测效果图。
图4为本发明的时间递归神经网络模型预测效果图。
图5为本发明的集成模型预测效果图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
参照图1所示,本发明的一种基于模型集成的景区人群聚集预测方法,步骤如下:
1)对原始数据进行数据观察和清洗;
2)根据数据建模需要,对数据进行特征工程处理,生成训练数据集和测试数据集;
3)选取算法模型,使用训练数据集对选定的算法模型进行优化,并对算法模型进行训练得到预测结果,对预测结果与测试数据集得到的真实值进行验证对比;
4)根据验证对比结果,利用各算法模型的优势,采用模型集成的方式进行人群聚集预测。
所述步骤1)具体包括:
数据观察:对景区电信运营商基站数据、基站客流数据通过构造统计曲线的方式进行数据观察,得到数据存在的数据缺失、数据异常问题;
数据清洗:对于数据缺失采用均值法补全缺失值,即根据统计学均值原理,基于历史数据统计分布的均值来对缺失数据进行填充;对于数据异常采用滑动平均法对异常值进行代替处理,即利用统计学平移原理,基于历史数据统计分布根据时间维度进行平移对数据异常值进行替换。
所述步骤2)具体包括:
特征构建:景区人流量时间分布特征和时序相关性分析,在时间分布特征上,通过对人群聚集数据的时间探索分析,发现其存在周期性变化趋势;在时序相关性分析上,以15分钟为一个时间点,景区当前时间点的人流量与其前一个时刻的客流量相关程度高,与其滞后五个时间点的客流量存在负相关性;;
特征提取:对于时间序列数据,提取每个时间戳的月份和日期;通过Lag特征将时间序列预测问题转化为有监督学习问题,即在每个观察的时间序列中滑动焦点,使用给定前一时间t-1的值预测下一次t+1的值,以扩展窗口宽度并包含更多Lag特征。
所述步骤2)具体还包括:对提取的特征进行处理,采用的方法包含标准化、区间缩放法和归一化;
标准化:计算特征的均值和标准差,公式表达为:
标准化的结果是特征值服从正态分布,标准化后,其转换成标准正态分布;
区间缩放法包括利用两个最值进行缩放及利用边界值信息将特征的取值区间缩放到某个特点的范围;
利用两个最值进行缩放的公式表达为:
式中,Y'表示区间缩放处理后的值,Y表示原始值,Max表示最大值,Min表示最小值;
归一化是依据标准差的特征矩阵处理数据,公式表达为:
式中,Z'表示归一化处理后的值,Z表示原始值,S是标准差,即离均差平方的算术平均数的算术平方根。
归一化后测试数据在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为单位向量。
当数据经过这些步骤处理后,使得数据具有了可被算法模型很好处理的特征。
所述步骤2)具体还包括:
特征是否发散:如果一个特征不发散,即方差接近于0,则表示样本数据在这个特征上没有差异,那么这个特征对于算法模型的训练和验证无用处。
特征与目标的相关性:与目标相关性高的特征,应优先选择。
最后,将数据集划分为训练数据集和测试数据集,使用训练数据集的数据对算法模型进行训练,得到预测曲线,然后再使用测试数据集的数据对其进行对比验证。
所述步骤3)中具体包括:
定义算法模型符号以及对应的特征项说明,具体如表1所示;
表1
根据景区人群聚集预测业务需求,选择算法模型;
选择泊松回归模型,泊松回归模型的应用特性:专门针对某些现象的发生概率很小,而预测出的计数数据又很大的业务需求。
建立的泊松回归模型如下:
Ui,d,t~P(λi,d,t)
式中,P(λi,d,t)表示预测时间点的泊松回归模型的预测值,P(λi,d,t-j)表示当前时间节点前j个时间点的泊松回归模型的预测值,P(γd∈H)表示预测点所在日期是否为节假日的泊松回归模型预测值,β0为初始化值,βj为回归参数,βH为节假日参数;
选择梯度提升树模型,梯度提升树模型的应用特性:适用于时间序列比较长的数值预测,其由多颗决策树组成,把所有的树的预测值(残差)相加是最终的结论。
建立的梯度提升树模型如下:
Ui,d,t~T(λi,d,t)
式中,T(λi,d,t)表示预测时间点的梯度提升树模型的预测值,T(λi,d,t-j)表示当前时间节点前j个时间点的梯度提升树模型的预测值,T(γd∈H)表示预测时间点所在日期是否为节假日的梯度提升树模型的预测值,αj为残差,αH为节假日参数;
选择时间递归神经网络模型(LSTM),时间递归神经网络模型应用特性:通过增加记忆门,使得其非常适合处理和预测两个突发事件时间序列中间间隔非常长的数值预测。
建立的时间递归神经网络模型如下:
Ui,d,t~R(λi,d,t)
且R(λi,d,t)=R(R(λi,d,t-1))
式中,R(λi,d,t)表示预测时间点的递归神经网络模型的预测值,R(λi,d,t-j)表示当前时间节点前j个时间点的卷积结果递归神经网络模型的预测值,R(γd∈H)表示预测时间点所在日期是否为节假日的递归神经网络模型的预测值,ρj为参数,ρH为节假日参数;且上一个递归神经网络的预测值是下一个递归神经网络预测的输入。
其中,所述步骤3)具体还包括:
利用样本数据对各个算法模型进行优化;
对泊松回归模型进行优化的方式为:根据预测值与验证数据之间的差值,对参数βj按序调整,每次调整只涉及到一个参数的优化,直到预测值无限逼近验证值;
对梯度提升树模型进行优化的方式为:不断减小训练数据和验证数据之间的残差αj,残差越小,方差越小,数据离散化程度越小,数据预测更加准确;残差αj趋向于0的过程决定构建几颗决策树的过程,即模型优化的过程;
对时间递归神经网络模型进行优化的方式为:通过预测值与验证数据之间的差值对比,在ρj取值趋小的前提下,对算法模型中的ρj按序优化,经过多次迭代,最终得出最优ρj值。
所述步骤4)中具体为:
采取模型集成的方式,通过对不同特征的时间序列设置不同的权重策略,将三个在不同时间序列预测值都跟真实值有所偏差的算法模型集成为一个稳定的且在整个时间序列的表现好的算法模型;
新的算法模型为:
N(λi,d,t)=W1T(λi,d,t)+W2P(λi,d,t)+W3R(λi,d,t)
其中:W1,W2,W3为设定的权重,且W1+W2+W3=1;
具体的权重配置策略为:
41)瞬时客流变化大,W2=0.4,W3=0.4,W1=0.2;
42)平时平稳时期,W2=0.2,W3=0.4,W1=0.4;
43)下降曲线以及上升曲线角度大于60度,即出现峰值情况时(最大值或最低值),W2=0.4,W3=0.2,W1=0.4。
本发明的算法模型符号以及对应的特征项说明,其中目标景区基站的取值范围不大于255 个;每月第几天的取值范围不大于31天;每天的第几个时间点是通过一天为1440分钟,以 15分钟为一个间隔点,则一天有96个时间点;目标景区的某个基站某天的某个时间点的客流量不大于整个样本数据集中的客流最大值;确定某天是否为节假日。
参照图2所示,泊松回归模型预测效果图的纵轴为时间轴,也就是一天的96个时间点,竖轴为数值轴,也就是预测的某个时间点的客流量。真实曲线表示的是实际的客流量,预测曲线表示的是泊松回归模型经过优化后的预测客流量。泊松回归模型适用于捕捉短时异常变化趋势,对于整个时间序列的平均预测准确率较低。
参照图3所示,梯度提升树模型预测效果图,真实曲线表示的是实际的客流量,预测曲线表示的是梯度提升树模型经过优化后的预测客流量。梯度提升树模型能够较好拟合客流量的周期性变化趋势,对于较平稳的时间序列数据有着较好的表现,对于短时变化较大的预测结果较差。
参照图4所示,时间递归神经网络模型预测效果图,真实曲线表示的是实际的客流量,预测曲线表示的是时间递归神经网络模型经过优化后的预测客流量。时间递归神经网络模型对于较平稳的时间序列数据有着较好的表现,对于人流量峰值和低值的时间序列预测表现不理想。
参照图5所示,集成算法模型预测效果图,真实曲线表示的是实际的客流量,预测曲线表示的是集成算法模型的预测客流量;从图上可以看出其可以较好的拟合平时客流量变化趋势、瞬时客流变化较大以及客流量的峰值和谷值。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (9)
1.一种基于模型集成的景区人群聚集预测方法,其特征在于,步骤如下:
1)对原始数据进行数据观察和清洗;
2)根据数据建模需要,对数据进行特征工程处理,生成训练数据集和测试数据集;
3)选取算法模型,使用训练数据集对选定的算法模型进行优化,并对算法模型进行训练得到预测结果,对预测结果与测试数据集得到的真实值进行验证对比;
4)根据验证对比结果,采用模型集成的方式进行人群聚集预测。
2.根据权利要求1所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤1)具体包括:
数据观察:对景区电信运营商基站数据、基站客流数据通过构造统计曲线的方式进行数据观察,得到数据存在的数据缺失、数据异常问题;
数据清洗:对于数据缺失采用均值法补全缺失值,即根据统计学均值原理,基于历史数据统计分布的均值来对缺失数据进行填充;对于数据异常采用滑动平均法对异常值进行代替处理,即利用统计学平移原理,基于历史数据统计分布根据时间维度进行平移对数据异常值进行替换。
3.根据权利要求1所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体包括:
特征构建:景区人流量时间分布特征和时序相关性分析,在时间分布特征上,通过对人群聚集数据的时间探索分析,发现其存在周期性变化趋势;在时序相关性分析上,景区当前时间点的人流量与其前一个时刻的客流量相关程度高,与其滞后五个时间点的客流量存在负相关性;
特征提取:对于时间序列数据,提取每个时间戳的月份和日期;通过Lag特征将时间序列预测问题转化为有监督学习问题,即在每个观察的时间序列中滑动焦点,使用给定前一时间t-1的值预测下一次t+1的值,以扩展窗口宽度并包含更多Lag特征。
4.根据权利要求3所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体还包括:对提取的特征进行处理,采用的方法包含标准化、区间缩放法和归一化;
标准化:计算特征的均值和标准差,公式表达为:
标准化的结果是特征值服从正态分布,标准化后,其转换成标准正态分布;
区间缩放法包括利用两个最值进行缩放及利用边界值信息将特征的取值区间缩放到某个特点的范围;
利用两个最值进行缩放的公式表达为:
式中,Y'表示区间缩放处理后的值,Y表示原始值,Max表示最大值,Min表示最小值;
归一化是依据标准差的特征矩阵处理数据,公式表达为:
式中,Z'表示归一化处理后的值,Z表示原始值,S是标准差,即离均差平方的算术平均数的算术平方根。
5.根据权利要求4所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体还包括:
特征是否发散:如果一个特征不发散,即方差接近于0,则表示样本数据在这个特征上没有差异,那么这个特征对于算法模型的训练和验证无用处。
特征与目标的相关性:与目标相关性高的特征,应优先选择。
6.根据权利要求5所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体还包括:
用数据库中已保存的历史数据构建训练数据集,用目标景区的实时客流量数据构建测试数据集;使用训练数据集的数据对算法模型进行训练,得到预测曲线,再使用测试数据集的数据得到的真实曲线对其进行对比验证。
7.根据权利要求1所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤3)中具体包括:
根据景区人群聚集预测业务需求,选择算法模型;
选择泊松回归模型,建立的泊松回归模型如下:
Ui,d,t~P(λi,d,t)
式中,P(λi,d,t)表示预测时间点的泊松回归模型的预测值,P(λi,d,t-j)表示当前时间节点前j个时间点的泊松回归模型的预测值,P(γd∈H)表示预测点所在日期是否为节假日的泊松回归模型预测值,β0为初始化值,βj为回归参数,βH为节假日参数;
选择梯度提升树模型,建立的梯度提升树模型如下:
Ui,d,t~T(λi,d,t)
式中,T(λi,d,t)表示预测时间点的梯度提升树模型的预测值,T(λi,d,t-j)表示当前时间节点前j个时间点的梯度提升树模型的预测值,T(γd∈H)表示预测时间点所在日期是否为节假日的梯度提升树模型的预测值,αj为残差,αH为节假日参数;
选择时间递归神经网络模型,建立的时间递归神经网络模型如下:
Ui,d,t~R(λi,d,t)
且R(λi,d,t)=R(R(λi,d,t-1))
式中,R(λi,d,t)表示预测时间点的递归神经网络模型的预测值,R(λi,d,t-j)表示当前时间节点前j个时间点的卷积结果递归神经网络模型的预测值,R(γd∈H)表示预测时间点所在日期是否为节假日的递归神经网络模型的预测值,ρj为参数,ρH为节假日参数;且上一个递归神经网络的预测值是下一个递归神经网络预测的输入。
8.根据权利要求7所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤3)具体还包括:
利用样本数据对各个算法模型进行优化;
对泊松回归模型进行优化的方式为:根据预测值与验证数据之间的差值,对参数βj按序调整,每次调整只涉及到一个参数的优化,直到预测值无限逼近验证值;
对梯度提升树模型进行优化的方式为:不断减小训练数据和验证数据之间的残差,残差越小,方差越小,数据离散化程度越小,数据预测更加准确;残差趋向于0的过程决定构建几颗决策树的过程,即模型优化的过程;
对时间递归神经网络模型进行优化的方式为:通过预测值与验证数据之间的差值对比,在βj取值趋小的前提下,对算法模型中的βj按序优化,经过多次迭代,最终得出最优βj值。
9.根据权利要求1所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤4)中具体为:
采取模型集成的方式,通过对不同特征的时间序列设置不同的权重策略,将三个在不同时间序列预测值均与真实值有偏差的算法模型集成为一个新的算法模型;
新的算法模型为:
N(λi,d,t)=W1T(λi,d,t)+W2P(λi,d,t)+W3R(λi,d,t)
其中:W1,W2,W3为设定的权重,且W1+W2+W3=1;
具体的权重策略配置为:
41)瞬时客流变化大,W2=0.4,W3=0.4,W1=0.2;
42)平时平稳时期,W2=0.2,W3=0.4,W1=0.4;
43)下降曲线以及上升曲线角度大于60度,即出现峰值情况时,W2=0.4,W3=0.2,W1=0.4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443105.6A CN112561153A (zh) | 2020-12-08 | 2020-12-08 | 一种基于模型集成的景区人群聚集预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443105.6A CN112561153A (zh) | 2020-12-08 | 2020-12-08 | 一种基于模型集成的景区人群聚集预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112561153A true CN112561153A (zh) | 2021-03-26 |
Family
ID=75062843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011443105.6A Pending CN112561153A (zh) | 2020-12-08 | 2020-12-08 | 一种基于模型集成的景区人群聚集预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112561153A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757534A (zh) * | 2023-06-15 | 2023-09-15 | 中国标准化研究院 | 一种基于神经训练网络的智能冰箱可靠性分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180096606A1 (en) * | 2016-09-30 | 2018-04-05 | Nec Europe Ltd. | Method to control vehicle fleets to deliver on-demand transportation services |
CN109979486A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团北京有限公司 | 一种语音质量评估方法及装置 |
CN110443314A (zh) * | 2019-08-08 | 2019-11-12 | 中国工商银行股份有限公司 | 基于机器学习的景区客流量预测方法及装置 |
-
2020
- 2020-12-08 CN CN202011443105.6A patent/CN112561153A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180096606A1 (en) * | 2016-09-30 | 2018-04-05 | Nec Europe Ltd. | Method to control vehicle fleets to deliver on-demand transportation services |
CN109979486A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团北京有限公司 | 一种语音质量评估方法及装置 |
CN110443314A (zh) * | 2019-08-08 | 2019-11-12 | 中国工商银行股份有限公司 | 基于机器学习的景区客流量预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
JASON BROWNLEE: "Phthon中的时间序列数据的基本特征工程", pages 1 - 18, Retrieved from the Internet <URL:https://machinelearningmastery.com/basic-feature-engineering-time-series-data-python/> * |
匿名: "区间缩放、归一化、标准化的区别", pages 1 - 2, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/89558459#:~:text=%E5%BD%92%E4%B8%80%E5%8C%96%E3%80%81%E6%A0%87%E5%87%86%E5%8C%96%E3%80%81%E5%8C%BA%E9%97%B4%E7%BC%A9%E6%94%BE%E6%98%AF%E5%AF%B9%E6%95%B0%E6%8D%AE%E8%BF%9B%E8%A1%8C%E6%97%A0%E9%87%8F%E7%BA%B2%E5%8C%96%E5%B8%B8%E7%94%A8%E7%9A%84%E6%96%B9%E6%B3%95%EF%BC%8C%E4%BD%86%E6%98%AF%E6%A6%82%E5%BF%B5%E5%BE%88%E5%AE%B9%E6%98%93%E6%B7%B7%E6%B7%86%EF%BC%8C%E6%9F%A5%E9%98%85%E8%B5%84%E6%96%99%E5%90%8E%E7%8E%B0%E5%B0%86%E4%B8%89%E8%80%85%E5%8C%BA%E5%88%AB%E6%95%B4%E7%90%86%E5%A6%82%E4%B8%8B%E3%80%82%201%E3%80%81%E5%8C%BA%E9%97%B4%E7%BC%A9%E6%94%BE%EF%BC%88Rescaling%EF%BC%89%E5%B8%B8%E8%A7%81%E7%9A%84%E5%8C%BA%E9%97%B4%E7%BC%A9%E6%94%BE%E4%B8%BA, Min-Max%20Rescaling%EF%BC%8C%E5%AF%B9%E6%95%B0%E6%8D%AE%E8%BF%9B%E8%A1%8C%E7%BA%BF%E6%80%A7%E5%8F%98%E6%8D%A2%EF%BC%8C%E5%B0%86%E7%89%B9%E5%BE%81%E5%80%BC%E2%80%A6> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757534A (zh) * | 2023-06-15 | 2023-09-15 | 中国标准化研究院 | 一种基于神经训练网络的智能冰箱可靠性分析方法 |
CN116757534B (zh) * | 2023-06-15 | 2024-03-15 | 中国标准化研究院 | 一种基于神经训练网络的智能冰箱可靠性分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109615226B (zh) | 一种运营指标异常监测方法 | |
CN110865929B (zh) | 异常检测预警方法及系统 | |
CN116757534B (zh) | 一种基于神经训练网络的智能冰箱可靠性分析方法 | |
CN109840587B (zh) | 基于深度学习的水库入库流量预测方法 | |
CN111210024A (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN112529204A (zh) | 模型训练方法、装置及系统 | |
CN111176953B (zh) | 一种异常检测及其模型训练方法、计算机设备和存储介质 | |
CN115098330A (zh) | 基于云边协同模式的设备异常检测系统及方法 | |
CN112232604B (zh) | 基于Prophet模型提取网络流量的预测方法 | |
CN113344288B (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN112651534B (zh) | 一种预测资源供应链需求量的方法、装置及存储介质 | |
CN111861023A (zh) | 基于统计学的混合风电功率预测方法、装置 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
CN111882157A (zh) | 一种基于深度时空神经网络的需求预测方法、系统及计算机可读存储介质 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN112258337A (zh) | 一种自我补全修正的基站能耗模型预测方法 | |
CN116702090A (zh) | 一种多模态数据融合与不确定估计的水位预测方法及系统 | |
CN113205223A (zh) | 一种电量预测系统及其预测方法 | |
CN114611764B (zh) | 一种特定区域内企业工业用水异常监测预警方法 | |
CN111598328A (zh) | 一种计及疫情事件的电力负荷预测方法 | |
CN117408394B (zh) | 电力系统的碳排放因子预测方法、装置及电子设备 | |
CN112561153A (zh) | 一种基于模型集成的景区人群聚集预测方法 | |
KR20230052010A (ko) | Ai 기반 모델 선택 알고리즘을 이용한 수요 예측 방법 | |
CN118014616A (zh) | 基于区块链的生产物料价格跟踪系统及方法 | |
CN113268929A (zh) | 短期负荷区间预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |