CN111985706A - 一种基于特征选择和lstm的景区日客流量预测方法 - Google Patents
一种基于特征选择和lstm的景区日客流量预测方法 Download PDFInfo
- Publication number
- CN111985706A CN111985706A CN202010822079.1A CN202010822079A CN111985706A CN 111985706 A CN111985706 A CN 111985706A CN 202010822079 A CN202010822079 A CN 202010822079A CN 111985706 A CN111985706 A CN 111985706A
- Authority
- CN
- China
- Prior art keywords
- passenger flow
- lstm
- scenic spot
- search index
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000004308 accommodation Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 abstract description 3
- 210000004027 cell Anatomy 0.000 description 17
- 230000006870 function Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003442 weekly effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于特征选择和LSTM的景区日客流量预测方法,建立了基于网络搜索指数特征选择的景区日客流量预测模型mRMR‑LSTM。由于如百度搜索等网络搜索指数所代表的数据可能具有一定的共线性,在预测模型中使用大量搜索指数数据项会导致模型过拟合的问题,而使用单一数据项又不足以完全体现搜索指数的各项特征趋势,因此,本发明将mRMR算法用于对网络搜索指数进行特征选择,根据每一维指数特征计算mRMR指标,用于清除噪声及高相关无用特征,并构建应用于长期时间序列数据回归预测的LSTM模型对景区日客流进行预测。本发明不但提高了模型训练速度,而且提升LSTM的预测性能。
Description
技术领域
本发明涉及数据预测的人工智能技术领域,具体为一种基于特征选择和LSTM算法的景区日客流量预测方法。
背景技术
客流量的时段性差异是景区所面临的主要挑战。受自然气候和地理环境等因素的影响,旅游景区一般都存在旺季和淡季,进而导致客流量在不同的时期分布严重不平衡,给景区日常管理服务带来了巨大压力。在以节假日为基础的旅游旺季,景区客流量短时间内急剧增多,容易造成景区内人员物资供不应求、各景点交通拥挤、旅游资源过度利用,进而导致游客对旅游景区管理服务的不满。而在以平常日为基础的旅游淡季,尤其是周一至周五工作期间,景区游客人数相对较少,容易造成人员的空闲和物资的浪费,因此,提出能够对景区未来日客流量的预测方法显得尤为重要,景区管理者可根据未来游客量和景区实际接待能力提前采取有效的防范措施。
当前景区的客流量预测主要面临两个问题。第一,研究者们主要以中长期预测(包括年度、月度、季度客流量预测)为主,而旅游短期客流量预测(包括周、日客流量预测)的研究甚少。景区依据长期客流量的预测仅能从中提取宏观层面的指导信息,对于日常的管理决策无法获取直接的参考信息;而周客流量预测和日客流量的短期预测,一定程度上为景区的日常管理服务决策提供了参考信息,并对景区管理人员提前科学调配景区的人员物资、游客在旅游高峰期提前规划交通出行、安排酒店吃住提供科学有效的依据。第二,客流量预测的准确率与特征和预测模型有关,当前有许多关于景区客流量预测的方法,为景区管理决策提供了一定的帮助,但是预测模型的时效性和准确率却一直难提高,主要原因在于特征选择过程。特征选择是一个很重要的数据预处理过程,选择出重要的特征可以缓解模型训练中的维数灾难问题,去除不相关特征可以降低学习任务的难度。
发明内容
为解决现有技术存在的问题,本发明提出一种基于特征选择和LSTM的景区日客流量预测方法,建立了基于网络搜索指数特征选择的景区日客流量预测模型mRMR-LSTM。由于如百度搜索等网络搜索指数所代表的数据可能具有一定的共线性,在预测模型中使用大量搜索指数数据项会导致模型过拟合的问题,而使用单一数据项又不足以完全体现搜索指数的各项特征趋势,因此,本发明将mRMR算法用于对网络搜索指数进行特征选择,根据每一维指数特征计算mRMR指标,用于清除噪声及高相关无用特征,并构建应用于长期时间序列数据回归预测的LSTM模型对景区日客流进行预测。
为实现上述内容,本发明所采用的技术方案是一种基于特征选择和LSTM算法的景区日客流量预测方法,包括以下步骤:
步骤1:确定游客出行前的主要搜索因素,并结合所述主要搜索因素,针对具体景区归纳出相应的关键词;
计算所有关键词与景区旅游游客量之间的斯皮尔曼相关系数,所述景区旅游游客量指延迟天数为0-K天的景区旅游游客量;
筛选相关系数不小于0.4的关键词作为初步确定的网络搜索指数关键词;
步骤2:计算初步确定的网络搜索指数关键词之间的互信息以及网络搜索指数关键词与日客流量之间的互信息;并利用网络搜索指数关键词之间的互信息以及网络搜索指数关键词与日客流量之间的互信息采用mRMR算法对初步确定的网络搜索指数关键词进行排序,得到由排序后的网络搜索指数关键词组成的特征集S;
步骤3:获取样本数据的特征集S,并进行数据清洗和归一化处理,而且将数据划分为训练集和测试集;
步骤4:采用前向搜索策略将特征集S中排好序的网络搜索指数关键词逐一添加至已选训练样本集合中,并将训练集数据送入LSTM长短期记忆神经网络中,对LSTM网络模型进行迭代优化,得到不同特征组合的LSTM模型,取其中预测性能最佳的LSTM网络模型进行景区日客流量预测。
进一步的,步骤1中,选择将风景、住宿、餐饮、游览、购物和交通六个方面定义为游客出行前的主要搜索因素。
进一步的,所述网络搜索指数采用百度搜索指数。
进一步的,步骤2中,设定集合S为被选取的影响日客流量的网络搜索指数特征集,F表示初步确定的网络搜索指数关键词集合,初始化S集为空集,d为日客流量;
使用集合F中的各个关键词fi与日客流量d之间的所有互信息MI(fi,d)的平均值来表示最大依赖:
使用集合F中的各个关键词fi和fj之间的所有互信息MI(fi,fj)的平均值来表示最小冗余:
然后,根据D和R作差的最大值
mRMR=maxΦ(D,R),Φ(D,R)=D-R
选择特征;若现在已经选出了m-1个特征,使用增量搜索的方法按公式
进一步的,步骤4中采用三个评价标准中的一个或多个来判断预测性能,三个评价标准为R方检验、均方根误差和绝对平均误差。
有益效果
本发明提出了一种基于网络搜索指数特征选择的景区日客流量预测模型mRMR-LSTM。在训练LSTM神经网络前,采用mRMR特征排序算法对网络指数特征选择,不但提高了模型训练速度,而且提升LSTM的预测性能。结果表明,与传统的时间序列预测模型差分整合移动自回归模型(ARIMA)和支持向量机回归(SVR)模型相比,mRMR-LSTM模型有助于显著减少预测误差。因此,提出的mRMR-LSTM模型是预测景区日客流量的有效潜在方法。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1:LSTM模型的记忆细胞结构图;
图2:mRMR算法特征选择判据;
图3:各模型预测结果的R-Square值;
图4:各模型预测结果的RMSE值与MAE值。
具体实施方式
下面详细描述本发明的实施例,所述实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本实施例以四姑娘山景区客流预测为例,四姑娘山是一个典型的山岳型景区,在全国范围有一定的知名度。最重要的是四姑娘山较早地推进了信息化进程,有着充足日客流量数据,且易于获取。
步骤一、网络搜索指数因素的初步选择;
游客在检索旅游信息时,由于行为偏好等差异,出游前他们利用网络检索旅游信息的关键词各有不同。而关注较多的是目的地天气状况、目的地的景点介绍、地图和交通、住宿、特色餐饮、旅游攻略、日志和点评信息,因此,游客搜索的核心关键词模式应包括“目的地地名”、“门票”、“旅游”、“景点”、“天气”、“住宿”以及“目的地景点”等。本发明将风景、住宿、餐饮、游览、购物和交通六个方面定义为出行前的主要因素,结合这些主要因素,针对四姑娘山景区总共归纳出40个关键词。本实施例中,网络搜索指数采用百度搜索指数。
其次计算关键词与游客数量之间的相关性,即计算所有关键词与景区旅游游客量之间的斯皮尔曼相关系数。考虑到网络搜索数据与游客量之间的滞后性,可以计算关键词与延迟0-5天的游客量之间的最大相关系数及对应的最佳滞后天数。
选用的斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数:对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为:
最后初步确定百度搜索指数关键词:相关系数在[0.8,1.0]之间为极强相关,[0.6,0.8]之间为强相关,[0.4,0.6]之间为中等程度相关,[0.2,0.4]之间为弱相关,0.2以下为即弱相关的准则。
从研究百度指数的特征选择以及提高客流量预测精度出发,选取与日客流量的相关系数为中等程度相关及以上(即相关系数为0.4及以上)的关键词作为初步确定的百度搜索指数关键词,并考虑到百度指数与日客流量之间的滞后性。计算了百度搜索指数关键词与延迟天数为0-5天的客流量之间的最大相关系数,最终选取的13个关键词与日客流量的最大相关系数及对应的最佳滞后天数如表1所示。
表1关键词百度指数与当日客流量的最佳滞后期与相关系数
步骤二、基于初步确定的百度搜索指数关键词之间的互信息以及百度搜索指数关键词与日客流量之间的互信息,采用mRMR算法对初步确定的百度搜索指数关键词进行排序,得到由排序后的百度搜索指数关键词组成的特征集S。
所谓互信息,离散随机变量X和Y的互信息MI(X;Y)定义为:
设定集合S为被选取的影响日客流量的百度搜索指数特征集,F表示初步确定的百度搜索指数关键词集合,初始化S集为空集,d为日客流量。
mRMR算法使用集合F中的各个关键词fi与日客流量d之间的所有互信息的平均值来表示最大依赖度:
而通过最大相关度准则选择出来的特征很有具有较多的冗余特征,因此在最大相关度准则的基础上加入最小冗余准则,即特征fi和特征fj之间的所有互信息的平均值:
mRMR算法结合了以上两种约束,根据D和R作差的最大值选择特征:
mRMR=maxΦ(D,R),Φ(D,R)=D-R (5)
若现在已经选出了m-1个特征,使用增量搜索的方法按式(6)从剩下集合F-Sm-1中选择第m个特征加入特征集S。
本实施例中,采用mRMR算法对13维关键词的百度指数特征进行筛选。由于各个关键词的百度指数的计量单位都是一致的,因此数据转化这个步骤并不是必要的,因此,我们首先对如表1所示的13个特征进行初次的随机编号。计算13个百度指数分别与日客流量之间的互信息值,结果如表2所示,百度指数之间的互信息值如表3,表中T代表日客流量,fi,i∈1,2,...,13表示序号为1至13的关键词百度指数:
表2百度指数与客流量之间的互信息
表3百度指数之间的互信息
f<sub>i</sub> | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
1 | 0 | 6.76 | 5.25 | 2.61 | 2.74 | 6.05 | 4.14 | 6.34 | 3.5 | 3.20 | 4.39 | 4.39 | 5.35 |
2 | 6.76 | 0 | 7.52 | 4.08 | 4.62 | 8.41 | 6.29 | 8.69 | 5.70 | 4.90 | 6.62 | 6.68 | 7.67 |
3 | 5.25 | 7.52 | 0 | 3.26 | 3.42 | 6.81 | 4.88 | 7.10 | 4.29 | 3.81 | 5.10 | 5.14 | 6.11 |
4 | 2.61 | 4.08 | 3.26 | 0 | 1.73 | 3.53 | 2.46 | 3.84 | 2.08 | 2.03 | 2.46 | 2.41 | 3.17 |
5 | 2.74 | 4.62 | 3.42 | 1.73 | 0 | 4.02 | 2.57 | 4.26 | 2.21 | 2.10 | 2.69 | 2.68 | 3.46 |
6 | 6.05 | 8.41 | 6.81 | 3.53 | 4.02 | 0 | 5.61 | 7.97 | 5.02 | 4.36 | 5.92 | 5.98 | 6.97 |
7 | 4.14 | 6.29 | 4.88 | 2.46 | 2.57 | 5.61 | 0 | 5.88 | 3.31 | 3.02 | 4.02 | 3.99 | 4.93 |
8 | 6.34 | 8.69 | 7.10 | 3.84 | 4.26 | 7.97 | 5.88 | 0 | 5.30 | 4.64 | 6.21 | 6.25 | 7.24 |
9 | 3.52 | 5.70 | 4.29 | 2.08 | 2.21 | 5.02 | 3.31 | 5.30 | 0 | 2.51 | 3.46 | 3.48 | 4.39 |
10 | 3.20 | 4.90 | 3.81 | 2.03 | 2.10 | 4.36 | 3.02 | 4.64 | 2.51 | 0 | 3.10 | 3.04 | 3.86 |
11 | 4.39 | 6.62 | 5.10 | 2.46 | 2.69 | 5.92 | 4.02 | 6.21 | 3.46 | 3.10 | 0 | 4.28 | 5.24 |
12 | 4.39 | 6.68 | 5.14 | 2.41 | 2.68 | 5.98 | 3.99 | 6.25 | 3.48 | 3.04 | 4.28 | 0 | 5.28 |
13 | 5.35 | 7.67 | 6.11 | 3.17 | 3.46 | 6.97 | 4.93 | 7.24 | 4.39 | 3.86 | 5.24 | 5.28 | 0 |
基于最大相关最小冗余两种约束综合百度指数和日客流量之间的互信息及百度指数之间的互信息,得到各个百度指数特征的mRMR指标结果如图2所示,其中特征由指标从高到低排序。特征的最终排序结果如表4所示:
表4 mRMR算法的特征排序结果
排序算法 | 特征排序结果 |
mRMR | 2,10,8,6,13,3,12,1,11,7,9,5,4 |
步骤三、对大量样本数据的特征集进行数据清洗和归一化处理,并按比例将数据划分为训练集和测试集。
将特征集S中的每个百度搜索指数关键词缩放到统一的尺度范围,以便对不同单位或数量级的指标进行比较和加权,采用Min-Max归一化方法,将原始数据进行线性变换,使变换后的数据全部映射到[0-1]之间,转换公式为:
min是特征集中某一网络搜索指数关键词的最小值,max则是最大值,x为归一化前的值,x'为归一化后的值。
本实施例从四姑娘山官网的“每日客流发布”(https://www.sgns.cn/news/number)一栏中获取了自2015年9月25日至2019年11月25日1523天的日客流数据。数据分为训练集、验证集和测试集,前800天(2015年9月25日至2017年12月2日)为训练集,是用于模型拟合的数据样本,第801天至前1000天(2017年12月3日至2018年6月21日)为验证集,用于确定网络结构及控制模型复杂程度的参数,第1001天至最后一天(2018年6月22日至2019年11月25日)为测试集,用来评估模型的泛化能力。
步骤四、采用前向搜索策略将特征集S中排好序的百度搜索指数关键词逐一添加至已选训练样本集合中,并将训练集数据送入LSTM长短期记忆神经网络中,对LSTM网络模型进行迭代优化,得到不同特征组合的LSTM模型,取其中预测性能最佳的LSTM网络模型进行景区日客流量预测。
长短期记忆网络引入了遗忘门,输入门和输出门三种门控结构。如图1所示,Ct为细胞状态,细胞状态的传输就像一条传送带,向量从整个细胞中穿过,只是做了少量的线性操作,这种结构能很轻松地实现信息从整个细胞中穿过而不做改变。xt和ht分别为当前细胞的特征输入和预测结果输出。
遗忘门的主要作用是通过以一定概率控制是否遗忘上一层的隐藏状态,表达式为:
ft=σ(Wf·[ht-1,xt]+bf) (8)
其中ft取值范围为0到1之间,代表了通过上一层隐藏状态的概率,因此选用Sigmiod激活函数,当接收到当前的新特征时以一定概率叠加上一时刻的部分特征构成新的输入信息。
输入门的功能是对当前输入信息的一次过滤,判断之前的信息以多大比例进入到当前的细胞状态,表达式为:
it=σ(Wi·[ht-1,xt]+bi) (9)
因为输入门也是以一定概率过滤输入信息,因此这里it的取值也是在0到1之间,激活函数选择Sigmiod函数,当接收到新的信息通过把xt和相乘更新为新的细胞状态。遗忘门和输入门通过对上一时刻和当前信息进行概率性选择进而改变当前的细胞状态Ct,细胞状态从原先的Ct-1更新为Ct的过程,表示为:
式中的*代表矩阵的Hadamard积(两个矩阵相同位置元素的乘积)。新的细胞状态为此时新消息过滤后的内容加上旧细胞状态以一定概率传递过来的信息对当前细胞状态的更新。
输出门从当前细胞状态中提取信息,提取到的信息用来产生隐藏状态,表达式为:
ot=σ(Wo·[ht-1,xt]+bo) (12)
ht=ot*tanh(Ct) (13)
式中ot的取值范围为0到1,激活函数为Sigmiod函数。首先对细胞状态决定信息的去留并进行更新,将细胞状态Ct通过一个tanh层(将数值归到-1到1之间),然后将tanh层的输出和Sigmiod函数计算出来的权重相乘,这样就得到了最终输出的结果。
从推导式中可以看出,ht值受到当前细胞状态Ct和上一时刻隐藏状态包含的信息ht-1的共同影响,在传统循环神经网络里Wc是造成梯度消失的主要原因,而在门控结构下Wc对当前细胞状态的计算没有影响,当遗忘门ft被打开时,Ct的梯度可以有效的传递给上一时刻的细胞状态Ct-1。这样设计网络的优点在于两点:第一,某一天的客流量预测结果不止由这一天的相关数据特征信息的影响,还受到之前预测结果的影响;第二,通过改进传统的循环神经网络,加入门控结构,可以降低训练过程中出现的梯度消失问题,提高日客流量预测的准确率。
为了验证预测的准确性,本发明采用三个主要评价标准来判断预测性能:R方检验(R-Square)、均方根误差(Root Mean Squared Error)和绝对平均误差(Mean AbsoluteError)。
本实施例使用了TensorFlow系统作为后端,保证了模型训练和执行方面的高性能,并使用Keras库搭建LSTM网络结构。设置LSTM模型超参数,将隐藏层神经元个数设为50,神经元的丢弃率设为40%,一次训练样本数据的批尺寸batch_size设为100,模型训练的迭代次数epochs设为1000。
建立了mRMR-LSTM模型后,我们对四姑娘山2018年6月22日至2019年11月25日的日客流量进行了预测。我们将搜索指数根据mRMR特征排序结果采用前向搜索策略逐一添加至训练样本中,表5中列出了每一种搜索指数特征子集送入LSTM网络模型预测的性能和误差比较。
表5每种特征子集进行预测的性能和误差结果
实验可知,特征为2号和10号百度指数组合的LSTM模型在样本内预测的拟合优度R-Square最高,为86.1749%,均方根误差和平均绝对误差也最低,分别为822.46007和449.42642,因此,mRMR的特征排序算法让我们采用最少量的特征做出了最优的日客流量预测。
我们还建立了ARIMA(2,1,0)和SVR两个经典模型来预测样本内的日客流量,所有模型的预测性能和误差通过表6列出。
表6不同预测模型的性能评估
表6结果表明,与传统的时间序列预测模型ARIMA和机器学习模型SVR对比,mRMR-LSTM模型对日客流量预测问题更有效。例如,ARIMA模型的R-Square较mRMR-LSTM模型降低了10.4766%,RMSE和MAE分别增高了260.92244和150.07777,SVR模型的R-Square较mRMR-LSTM模型降低了12.8296%,RMSE和MAE分别增高了312.17391和150.63909。在图3和图4中可以更加清晰得看出mRMR-LSTM模型与基准模型相比所具有的优越性。
本发明证明了mRMR-LSTM模型相较于传统模型对于山岳型风景区日客流预测具有更高的预测精度和更小的误差。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (5)
1.一种基于特征选择和LSTM算法的景区日客流量预测方法,其特征在于:包括以下步骤:
步骤1:确定游客出行前的主要搜索因素,并结合所述主要搜索因素,针对具体景区归纳出相应的关键词;
计算所有关键词与景区旅游游客量之间的斯皮尔曼相关系数,所述景区旅游游客量指延迟天数为0-K天的景区旅游游客量;
筛选相关系数不小于0.4的关键词作为初步确定的网络搜索指数关键词;
步骤2:计算初步确定的网络搜索指数关键词之间的互信息以及网络搜索指数关键词与日客流量之间的互信息;并利用网络搜索指数关键词之间的互信息以及网络搜索指数关键词与日客流量之间的互信息采用mRMR算法对初步确定的网络搜索指数关键词进行排序,得到由排序后的网络搜索指数关键词组成的特征集S;
步骤3:获取样本数据的特征集S,并进行数据清洗和归一化处理,而且将数据划分为训练集和测试集;
步骤4:采用前向搜索策略将特征集S中排好序的网络搜索指数关键词逐一添加至已选训练样本集合中,并将训练集数据送入LSTM长短期记忆神经网络中,对LSTM网络模型进行迭代优化,得到不同特征组合的LSTM模型,取其中预测性能最佳的LSTM网络模型进行景区日客流量预测。
2.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法,其特征在于:步骤1中,选择将风景、住宿、餐饮、游览、购物和交通六个方面定义为游客出行前的主要搜索因素。
3.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法,其特征在于:所述网络搜索指数采用百度搜索指数。
4.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法,其特征在于:步骤2中,设定集合S为被选取的影响日客流量的网络搜索指数特征集,F表示初步确定的网络搜索指数关键词集合,初始化S集为空集,d为日客流量;
使用集合F中的各个关键词fi与日客流量d之间的所有互信息MI(fi,d)的平均值来表示最大依赖:
使用集合F中的各个关键词fi和fj之间的所有互信息MI(fi,fj)的平均值来表示最小冗余:
然后,根据D和R作差的最大值
mRMR=maxΦ(D,R),Φ(D,R)=D-R
选择特征;若现在已经选出了m-1个特征,使用增量搜索的方法按公式
5.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法,其特征在于:步骤4中采用三个评价标准中的一个或多个来判断预测性能,三个评价标准为R方检验、均方根误差和绝对平均误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010822079.1A CN111985706B (zh) | 2020-08-15 | 2020-08-15 | 一种基于特征选择和lstm的景区日客流量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010822079.1A CN111985706B (zh) | 2020-08-15 | 2020-08-15 | 一种基于特征选择和lstm的景区日客流量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985706A true CN111985706A (zh) | 2020-11-24 |
CN111985706B CN111985706B (zh) | 2023-08-25 |
Family
ID=73435081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010822079.1A Active CN111985706B (zh) | 2020-08-15 | 2020-08-15 | 一种基于特征选择和lstm的景区日客流量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985706B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232607A (zh) * | 2020-12-16 | 2021-01-15 | 成都四方伟业软件股份有限公司 | 一种地铁客流量预测方法及装置 |
CN112862069A (zh) * | 2021-01-21 | 2021-05-28 | 西北大学 | 基于svr-lstm混合深度学习的滑坡位移预测方法 |
CN113051474A (zh) * | 2021-03-24 | 2021-06-29 | 武汉大学 | 一种融合多平台多终端搜索指数的客流预测方法及系统 |
CN113159377A (zh) * | 2021-03-12 | 2021-07-23 | 江苏唱游数据技术有限公司 | 一种基于多因子聚合模型的景区畅游度预测范式方法 |
CN113256000A (zh) * | 2021-05-26 | 2021-08-13 | 四川大学 | 一种带注意力机制序列到序列的景区短期客流量预测方法 |
CN113962454A (zh) * | 2021-10-18 | 2022-01-21 | 长江勘测规划设计研究有限责任公司 | 基于双重特征选择+粒子群优化的lstm能耗预测方法 |
CN115130786A (zh) * | 2022-08-11 | 2022-09-30 | 华侨大学 | 一种景区游客饱和量的判断方法和装置 |
CN115907208A (zh) * | 2022-12-16 | 2023-04-04 | 中青旅遨游科技发展有限公司 | 一种实现大数据分析的智慧旅游预测方法及系统 |
CN117252311A (zh) * | 2023-11-16 | 2023-12-19 | 华南理工大学 | 一种基于改进lstm网络的轨道交通客流预测方法 |
CN117875521A (zh) * | 2024-03-12 | 2024-04-12 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 实时铁路客流量预测方法、系统、介质以及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951845A (zh) * | 2015-05-29 | 2015-09-30 | 华南理工大学 | 基于网络关注度拟合客流量的旅游景区饱和度预警方法 |
CN108446759A (zh) * | 2018-02-11 | 2018-08-24 | 陕西师范大学 | 基于季节性长短期记忆网络模型的旅游客流量预测方法 |
CN110222873A (zh) * | 2019-05-14 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的地铁站客流量预测方法 |
CN110675920A (zh) * | 2019-10-22 | 2020-01-10 | 华北电力大学 | 一种基于MI-LSTM的锅炉NOx预测方法 |
US20200097815A1 (en) * | 2018-09-21 | 2020-03-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for predicting passenger flow |
CN110929926A (zh) * | 2019-11-18 | 2020-03-27 | 西北工业大学 | 基于长短期记忆网络和随机森林的短期爆炸客流预测方法 |
-
2020
- 2020-08-15 CN CN202010822079.1A patent/CN111985706B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951845A (zh) * | 2015-05-29 | 2015-09-30 | 华南理工大学 | 基于网络关注度拟合客流量的旅游景区饱和度预警方法 |
CN108446759A (zh) * | 2018-02-11 | 2018-08-24 | 陕西师范大学 | 基于季节性长短期记忆网络模型的旅游客流量预测方法 |
US20200097815A1 (en) * | 2018-09-21 | 2020-03-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for predicting passenger flow |
CN110222873A (zh) * | 2019-05-14 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的地铁站客流量预测方法 |
CN110675920A (zh) * | 2019-10-22 | 2020-01-10 | 华北电力大学 | 一种基于MI-LSTM的锅炉NOx预测方法 |
CN110929926A (zh) * | 2019-11-18 | 2020-03-27 | 西北工业大学 | 基于长短期记忆网络和随机森林的短期爆炸客流预测方法 |
Non-Patent Citations (3)
Title |
---|
YU-HSIANG CHANG 等: "Traffic Flow Forecast for Traffic with Forecastable Sporadic Events", 2019 TWELFTH INTERNATIONAL CONFERENCE ON UBI-MEDIA COMPUTING (UBI-MEDIA), pages 145 - 150 * |
张玲玲 等: "基于聚类方法的百度搜索指数关键词优化及客流量预测研究", 管理评论, vol. 30, no. 8, pages 126 - 137 * |
李梅;李静;魏子健;王思达;陈赖谨;: "基于深度学习长短期记忆网络结构的地铁站短时客流量预测", 城市轨道交通研究, no. 11 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232607B (zh) * | 2020-12-16 | 2021-03-09 | 成都四方伟业软件股份有限公司 | 一种地铁客流量预测方法及装置 |
CN112232607A (zh) * | 2020-12-16 | 2021-01-15 | 成都四方伟业软件股份有限公司 | 一种地铁客流量预测方法及装置 |
CN112862069B (zh) * | 2021-01-21 | 2023-09-05 | 西北大学 | 基于svr-lstm混合深度学习的滑坡位移预测方法 |
CN112862069A (zh) * | 2021-01-21 | 2021-05-28 | 西北大学 | 基于svr-lstm混合深度学习的滑坡位移预测方法 |
CN113159377B (zh) * | 2021-03-12 | 2024-03-12 | 江苏唱游数据技术有限公司 | 一种基于多因子聚合模型的景区畅游度预测范式方法 |
CN113159377A (zh) * | 2021-03-12 | 2021-07-23 | 江苏唱游数据技术有限公司 | 一种基于多因子聚合模型的景区畅游度预测范式方法 |
CN113051474B (zh) * | 2021-03-24 | 2023-09-15 | 武汉大学 | 一种融合多平台多终端搜索指数的客流预测方法及系统 |
CN113051474A (zh) * | 2021-03-24 | 2021-06-29 | 武汉大学 | 一种融合多平台多终端搜索指数的客流预测方法及系统 |
CN113256000A (zh) * | 2021-05-26 | 2021-08-13 | 四川大学 | 一种带注意力机制序列到序列的景区短期客流量预测方法 |
CN113962454A (zh) * | 2021-10-18 | 2022-01-21 | 长江勘测规划设计研究有限责任公司 | 基于双重特征选择+粒子群优化的lstm能耗预测方法 |
CN115130786A (zh) * | 2022-08-11 | 2022-09-30 | 华侨大学 | 一种景区游客饱和量的判断方法和装置 |
CN115907208A (zh) * | 2022-12-16 | 2023-04-04 | 中青旅遨游科技发展有限公司 | 一种实现大数据分析的智慧旅游预测方法及系统 |
CN117252311A (zh) * | 2023-11-16 | 2023-12-19 | 华南理工大学 | 一种基于改进lstm网络的轨道交通客流预测方法 |
CN117252311B (zh) * | 2023-11-16 | 2024-03-15 | 华南理工大学 | 一种基于改进lstm网络的轨道交通客流预测方法 |
CN117875521A (zh) * | 2024-03-12 | 2024-04-12 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 实时铁路客流量预测方法、系统、介质以及电子设备 |
CN117875521B (zh) * | 2024-03-12 | 2024-05-28 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 实时铁路客流量预测方法、系统、介质以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111985706B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985706A (zh) | 一种基于特征选择和lstm的景区日客流量预测方法 | |
Lhéritier et al. | Airline itinerary choice modeling using machine learning | |
US6138115A (en) | Method and system for generating a decision-tree classifier in parallel in a multi-processor system | |
US6212526B1 (en) | Method for apparatus for efficient mining of classification models from databases | |
Shmueli et al. | Neural network analysis of travel behavior: evaluating tools for prediction | |
CN111222847A (zh) | 基于深度学习与非监督聚类的开源社区开发者推荐方法 | |
CN117829370B (zh) | 一种交通事故严重程度预测方法、系统及计算机设备 | |
Cipolla et al. | Nonlocal pagerank | |
CN113343077A (zh) | 一种融合用户兴趣时序波动的个性化推荐方法及系统 | |
CN111078859B (zh) | 一种基于引用次数的作者推荐方法 | |
CN112989215A (zh) | 一种基于稀疏用户行为数据的知识图谱增强的推荐系统 | |
Taamneh et al. | Evaluation of the performance of random forests technique in predicting the severity of road traffic accidents | |
CN110633401A (zh) | 一种门店数据的预测模型及其建立方法 | |
Chen et al. | Business analytics for used car price prediction with statistical models | |
CN112052990B (zh) | 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法 | |
Amzad et al. | Tourism recommendation system: a systematic review | |
Chen et al. | Predicting airline additional services consumption willingness based on high-dimensional incomplete data | |
CN116882584A (zh) | 一种航班延误预测方法及系统 | |
Salmam et al. | Prediction in OLAP data cubes | |
Karlaftis | Predicting mode choice through multivariate recursive partitioning | |
Bulut et al. | Optimizing bus lines using genetic algorithm for public transportation | |
Herrera et al. | Forecasting hotel cancellations through Machine Learning | |
Wang et al. | Using denoised LSTM network for tourist arrivals prediction | |
Xie et al. | A Novel Variable Selection Approach Based on Multi-criteria Decision Analysis | |
Lapatta | Ecotourism recommendations based on sentiments using skyline query and apache-spark |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |