CN111985706A

CN111985706A - 一种基于特征选择和lstm的景区日客流量预测方法

Info

Publication number: CN111985706A
Application number: CN202010822079.1A
Authority: CN
Inventors: 殷茗; 芦菲娅; 方亚群; 刘汉龙; 刘家龙; 姜继娇
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-08-15
Filing date: 2020-08-15
Publication date: 2020-11-24
Anticipated expiration: 2040-08-15
Also published as: CN111985706B

Abstract

本发明提出一种基于特征选择和LSTM的景区日客流量预测方法，建立了基于网络搜索指数特征选择的景区日客流量预测模型mRMR‑LSTM。由于如百度搜索等网络搜索指数所代表的数据可能具有一定的共线性，在预测模型中使用大量搜索指数数据项会导致模型过拟合的问题，而使用单一数据项又不足以完全体现搜索指数的各项特征趋势，因此，本发明将mRMR算法用于对网络搜索指数进行特征选择，根据每一维指数特征计算mRMR指标，用于清除噪声及高相关无用特征，并构建应用于长期时间序列数据回归预测的LSTM模型对景区日客流进行预测。本发明不但提高了模型训练速度，而且提升LSTM的预测性能。

Description

一种基于特征选择和LSTM的景区日客流量预测方法

技术领域

本发明涉及数据预测的人工智能技术领域，具体为一种基于特征选择和LSTM算法的景区日客流量预测方法。

背景技术

客流量的时段性差异是景区所面临的主要挑战。受自然气候和地理环境等因素的影响，旅游景区一般都存在旺季和淡季，进而导致客流量在不同的时期分布严重不平衡，给景区日常管理服务带来了巨大压力。在以节假日为基础的旅游旺季，景区客流量短时间内急剧增多，容易造成景区内人员物资供不应求、各景点交通拥挤、旅游资源过度利用，进而导致游客对旅游景区管理服务的不满。而在以平常日为基础的旅游淡季，尤其是周一至周五工作期间，景区游客人数相对较少，容易造成人员的空闲和物资的浪费，因此，提出能够对景区未来日客流量的预测方法显得尤为重要，景区管理者可根据未来游客量和景区实际接待能力提前采取有效的防范措施。

当前景区的客流量预测主要面临两个问题。第一，研究者们主要以中长期预测(包括年度、月度、季度客流量预测)为主，而旅游短期客流量预测(包括周、日客流量预测)的研究甚少。景区依据长期客流量的预测仅能从中提取宏观层面的指导信息，对于日常的管理决策无法获取直接的参考信息；而周客流量预测和日客流量的短期预测，一定程度上为景区的日常管理服务决策提供了参考信息，并对景区管理人员提前科学调配景区的人员物资、游客在旅游高峰期提前规划交通出行、安排酒店吃住提供科学有效的依据。第二，客流量预测的准确率与特征和预测模型有关，当前有许多关于景区客流量预测的方法，为景区管理决策提供了一定的帮助，但是预测模型的时效性和准确率却一直难提高，主要原因在于特征选择过程。特征选择是一个很重要的数据预处理过程，选择出重要的特征可以缓解模型训练中的维数灾难问题，去除不相关特征可以降低学习任务的难度。

发明内容

为解决现有技术存在的问题，本发明提出一种基于特征选择和LSTM的景区日客流量预测方法，建立了基于网络搜索指数特征选择的景区日客流量预测模型mRMR-LSTM。由于如百度搜索等网络搜索指数所代表的数据可能具有一定的共线性，在预测模型中使用大量搜索指数数据项会导致模型过拟合的问题，而使用单一数据项又不足以完全体现搜索指数的各项特征趋势，因此，本发明将mRMR算法用于对网络搜索指数进行特征选择，根据每一维指数特征计算mRMR指标，用于清除噪声及高相关无用特征，并构建应用于长期时间序列数据回归预测的LSTM模型对景区日客流进行预测。

为实现上述内容，本发明所采用的技术方案是一种基于特征选择和LSTM算法的景区日客流量预测方法，包括以下步骤：

步骤1：确定游客出行前的主要搜索因素，并结合所述主要搜索因素，针对具体景区归纳出相应的关键词；

计算所有关键词与景区旅游游客量之间的斯皮尔曼相关系数，所述景区旅游游客量指延迟天数为0-K天的景区旅游游客量；

筛选相关系数不小于0.4的关键词作为初步确定的网络搜索指数关键词；

步骤2：计算初步确定的网络搜索指数关键词之间的互信息以及网络搜索指数关键词与日客流量之间的互信息；并利用网络搜索指数关键词之间的互信息以及网络搜索指数关键词与日客流量之间的互信息采用mRMR算法对初步确定的网络搜索指数关键词进行排序，得到由排序后的网络搜索指数关键词组成的特征集S；

步骤3：获取样本数据的特征集S，并进行数据清洗和归一化处理，而且将数据划分为训练集和测试集；

步骤4：采用前向搜索策略将特征集S中排好序的网络搜索指数关键词逐一添加至已选训练样本集合中，并将训练集数据送入LSTM长短期记忆神经网络中，对LSTM网络模型进行迭代优化，得到不同特征组合的LSTM模型，取其中预测性能最佳的LSTM网络模型进行景区日客流量预测。

进一步的，步骤1中，选择将风景、住宿、餐饮、游览、购物和交通六个方面定义为游客出行前的主要搜索因素。

进一步的，所述网络搜索指数采用百度搜索指数。

进一步的，步骤2中，设定集合S为被选取的影响日客流量的网络搜索指数特征集，F表示初步确定的网络搜索指数关键词集合，初始化S集为空集，d为日客流量；

使用集合F中的各个关键词f_i与日客流量d之间的所有互信息MI(f_i,d)的平均值来表示最大依赖：

使用集合F中的各个关键词f_i和f_j之间的所有互信息MI(f_i,f_j)的平均值来表示最小冗余：

然后，根据D和R作差的最大值

mRMR＝maxΦ(D,R),Φ(D,R)＝D-R

选择特征；若现在已经选出了m-1个特征，使用增量搜索的方法按公式

从剩下集合F-S_m-1中选择第m个特征加入特征集S；直到F为空集，则得到已选特征集S，并将S中的网络搜索指数关键词按

值降序排序。

进一步的，步骤4中采用三个评价标准中的一个或多个来判断预测性能，三个评价标准为R方检验、均方根误差和绝对平均误差。

有益效果

本发明提出了一种基于网络搜索指数特征选择的景区日客流量预测模型mRMR-LSTM。在训练LSTM神经网络前，采用mRMR特征排序算法对网络指数特征选择，不但提高了模型训练速度，而且提升LSTM的预测性能。结果表明，与传统的时间序列预测模型差分整合移动自回归模型(ARIMA)和支持向量机回归(SVR)模型相比，mRMR-LSTM模型有助于显著减少预测误差。因此，提出的mRMR-LSTM模型是预测景区日客流量的有效潜在方法。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1：LSTM模型的记忆细胞结构图；

图2：mRMR算法特征选择判据；

图3：各模型预测结果的R-Square值；

图4：各模型预测结果的RMSE值与MAE值。

具体实施方式

下面详细描述本发明的实施例，所述实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本实施例以四姑娘山景区客流预测为例，四姑娘山是一个典型的山岳型景区，在全国范围有一定的知名度。最重要的是四姑娘山较早地推进了信息化进程，有着充足日客流量数据，且易于获取。

步骤一、网络搜索指数因素的初步选择；

游客在检索旅游信息时，由于行为偏好等差异，出游前他们利用网络检索旅游信息的关键词各有不同。而关注较多的是目的地天气状况、目的地的景点介绍、地图和交通、住宿、特色餐饮、旅游攻略、日志和点评信息，因此，游客搜索的核心关键词模式应包括“目的地地名”、“门票”、“旅游”、“景点”、“天气”、“住宿”以及“目的地景点”等。本发明将风景、住宿、餐饮、游览、购物和交通六个方面定义为出行前的主要因素，结合这些主要因素，针对四姑娘山景区总共归纳出40个关键词。本实施例中，网络搜索指数采用百度搜索指数。

其次计算关键词与游客数量之间的相关性，即计算所有关键词与景区旅游游客量之间的斯皮尔曼相关系数。考虑到网络搜索数据与游客量之间的滞后性，可以计算关键词与延迟0-5天的游客量之间的最大相关系数及对应的最佳滞后天数。

选用的斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数：对于样本容量为n的样本，n个原始数据被转换成等级数据，相关系数ρ为：

R_i和S_i分别是第i个被计算值的取值等级，

和

分别是变量x和y的平均等级，是被计算值的总数量。

最后初步确定百度搜索指数关键词：相关系数在[0.8,1.0]之间为极强相关，[0.6,0.8]之间为强相关，[0.4,0.6]之间为中等程度相关，[0.2,0.4]之间为弱相关，0.2以下为即弱相关的准则。

从研究百度指数的特征选择以及提高客流量预测精度出发，选取与日客流量的相关系数为中等程度相关及以上(即相关系数为0.4及以上)的关键词作为初步确定的百度搜索指数关键词，并考虑到百度指数与日客流量之间的滞后性。计算了百度搜索指数关键词与延迟天数为0-5天的客流量之间的最大相关系数，最终选取的13个关键词与日客流量的最大相关系数及对应的最佳滞后天数如表1所示。

表1关键词百度指数与当日客流量的最佳滞后期与相关系数

步骤二、基于初步确定的百度搜索指数关键词之间的互信息以及百度搜索指数关键词与日客流量之间的互信息，采用mRMR算法对初步确定的百度搜索指数关键词进行排序，得到由排序后的百度搜索指数关键词组成的特征集S。

所谓互信息，离散随机变量X和Y的互信息MI(X；Y)定义为：

设定集合S为被选取的影响日客流量的百度搜索指数特征集，F表示初步确定的百度搜索指数关键词集合，初始化S集为空集，d为日客流量。

mRMR算法使用集合F中的各个关键词f_i与日客流量d之间的所有互信息的平均值来表示最大依赖度：

而通过最大相关度准则选择出来的特征很有具有较多的冗余特征，因此在最大相关度准则的基础上加入最小冗余准则，即特征f_i和特征f_j之间的所有互信息的平均值：

mRMR算法结合了以上两种约束，根据D和R作差的最大值选择特征：

mRMR＝maxΦ(D,R),Φ(D,R)＝D-R (5)

若现在已经选出了m-1个特征，使用增量搜索的方法按式(6)从剩下集合F-S_m-1中选择第m个特征加入特征集S。

重复上式，直到F为空集，则得到已选特征集S，并将S中的百度搜索指数关键词按

值降序排序。

本实施例中，采用mRMR算法对13维关键词的百度指数特征进行筛选。由于各个关键词的百度指数的计量单位都是一致的，因此数据转化这个步骤并不是必要的，因此，我们首先对如表1所示的13个特征进行初次的随机编号。计算13个百度指数分别与日客流量之间的互信息值，结果如表2所示，百度指数之间的互信息值如表3，表中T代表日客流量，f_i,i∈1,2,...,13表示序号为1至13的关键词百度指数：

表2百度指数与客流量之间的互信息

表3百度指数之间的互信息

f<sub>i</sub>	1	2	3	4	5	6	7	8	9	10	11	12	13
														1	0	6.76	5.25	2.61	2.74	6.05	4.14	6.34	3.5	3.20	4.39	4.39	5.35
2	6.76	0	7.52	4.08	4.62	8.41	6.29	8.69	5.70	4.90	6.62	6.68	7.67
														3	5.25	7.52	0	3.26	3.42	6.81	4.88	7.10	4.29	3.81	5.10	5.14	6.11
4	2.61	4.08	3.26	0	1.73	3.53	2.46	3.84	2.08	2.03	2.46	2.41	3.17
														5	2.74	4.62	3.42	1.73	0	4.02	2.57	4.26	2.21	2.10	2.69	2.68	3.46
6	6.05	8.41	6.81	3.53	4.02	0	5.61	7.97	5.02	4.36	5.92	5.98	6.97
														7	4.14	6.29	4.88	2.46	2.57	5.61	0	5.88	3.31	3.02	4.02	3.99	4.93
8	6.34	8.69	7.10	3.84	4.26	7.97	5.88	0	5.30	4.64	6.21	6.25	7.24
														9	3.52	5.70	4.29	2.08	2.21	5.02	3.31	5.30	0	2.51	3.46	3.48	4.39
10	3.20	4.90	3.81	2.03	2.10	4.36	3.02	4.64	2.51	0	3.10	3.04	3.86
														11	4.39	6.62	5.10	2.46	2.69	5.92	4.02	6.21	3.46	3.10	0	4.28	5.24
12	4.39	6.68	5.14	2.41	2.68	5.98	3.99	6.25	3.48	3.04	4.28	0	5.28
														13	5.35	7.67	6.11	3.17	3.46	6.97	4.93	7.24	4.39	3.86	5.24	5.28	0

基于最大相关最小冗余两种约束综合百度指数和日客流量之间的互信息及百度指数之间的互信息，得到各个百度指数特征的mRMR指标结果如图2所示，其中特征由指标从高到低排序。特征的最终排序结果如表4所示：

表4 mRMR算法的特征排序结果

排序算法	特征排序结果
		mRMR	2，10，8，6，13，3，12，1，11，7，9，5，4

步骤三、对大量样本数据的特征集进行数据清洗和归一化处理，并按比例将数据划分为训练集和测试集。

将特征集S中的每个百度搜索指数关键词缩放到统一的尺度范围，以便对不同单位或数量级的指标进行比较和加权，采用Min-Max归一化方法，将原始数据进行线性变换，使变换后的数据全部映射到[0-1]之间，转换公式为：

min是特征集中某一网络搜索指数关键词的最小值，max则是最大值，x为归一化前的值，x'为归一化后的值。

本实施例从四姑娘山官网的“每日客流发布”(https://www.sgns.cn/news/number)一栏中获取了自2015年9月25日至2019年11月25日1523天的日客流数据。数据分为训练集、验证集和测试集，前800天(2015年9月25日至2017年12月2日)为训练集，是用于模型拟合的数据样本，第801天至前1000天(2017年12月3日至2018年6月21日)为验证集，用于确定网络结构及控制模型复杂程度的参数，第1001天至最后一天(2018年6月22日至2019年11月25日)为测试集，用来评估模型的泛化能力。

步骤四、采用前向搜索策略将特征集S中排好序的百度搜索指数关键词逐一添加至已选训练样本集合中，并将训练集数据送入LSTM长短期记忆神经网络中，对LSTM网络模型进行迭代优化，得到不同特征组合的LSTM模型，取其中预测性能最佳的LSTM网络模型进行景区日客流量预测。

长短期记忆网络引入了遗忘门，输入门和输出门三种门控结构。如图1所示，C_t为细胞状态，细胞状态的传输就像一条传送带，向量从整个细胞中穿过，只是做了少量的线性操作，这种结构能很轻松地实现信息从整个细胞中穿过而不做改变。x_t和h_t分别为当前细胞的特征输入和预测结果输出。

遗忘门的主要作用是通过以一定概率控制是否遗忘上一层的隐藏状态，表达式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (8)

其中f_t取值范围为0到1之间，代表了通过上一层隐藏状态的概率，因此选用Sigmiod激活函数，当接收到当前的新特征时以一定概率叠加上一时刻的部分特征构成新的输入信息。

输入门的功能是对当前输入信息的一次过滤，判断之前的信息以多大比例进入到当前的细胞状态，表达式为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (9)

因为输入门也是以一定概率过滤输入信息，因此这里i_t的取值也是在0到1之间，激活函数选择Sigmiod函数，当接收到新的信息通过把x_t和

相乘更新为新的细胞状态。遗忘门和输入门通过对上一时刻和当前信息进行概率性选择进而改变当前的细胞状态C_t，细胞状态从原先的C_t-1更新为C_t的过程，表示为：

式中的*代表矩阵的Hadamard积(两个矩阵相同位置元素的乘积)。新的细胞状态为此时新消息过滤后的内容加上旧细胞状态以一定概率传递过来的信息对当前细胞状态的更新。

输出门从当前细胞状态中提取信息，提取到的信息用来产生隐藏状态，表达式为：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (12)

h_t＝o_t*tanh(C_t) (13)

式中o_t的取值范围为0到1，激活函数为Sigmiod函数。首先对细胞状态决定信息的去留并进行更新，将细胞状态C_t通过一个tanh层(将数值归到-1到1之间)，然后将tanh层的输出和Sigmiod函数计算出来的权重相乘，这样就得到了最终输出的结果。

从推导式中可以看出，h_t值受到当前细胞状态C_t和上一时刻隐藏状态包含的信息h_t-1的共同影响，在传统循环神经网络里W_c是造成梯度消失的主要原因，而在门控结构下W_c对当前细胞状态的计算没有影响，当遗忘门f_t被打开时，C_t的梯度可以有效的传递给上一时刻的细胞状态C_t-1。这样设计网络的优点在于两点：第一，某一天的客流量预测结果不止由这一天的相关数据特征信息的影响，还受到之前预测结果的影响；第二，通过改进传统的循环神经网络，加入门控结构，可以降低训练过程中出现的梯度消失问题，提高日客流量预测的准确率。

为了验证预测的准确性，本发明采用三个主要评价标准来判断预测性能：R方检验(R-Square)、均方根误差(Root Mean Squared Error)和绝对平均误差(Mean AbsoluteError)。

本实施例使用了TensorFlow系统作为后端，保证了模型训练和执行方面的高性能，并使用Keras库搭建LSTM网络结构。设置LSTM模型超参数，将隐藏层神经元个数设为50，神经元的丢弃率设为40％，一次训练样本数据的批尺寸batch_size设为100，模型训练的迭代次数epochs设为1000。

建立了mRMR-LSTM模型后，我们对四姑娘山2018年6月22日至2019年11月25日的日客流量进行了预测。我们将搜索指数根据mRMR特征排序结果采用前向搜索策略逐一添加至训练样本中，表5中列出了每一种搜索指数特征子集送入LSTM网络模型预测的性能和误差比较。

表5每种特征子集进行预测的性能和误差结果

实验可知，特征为2号和10号百度指数组合的LSTM模型在样本内预测的拟合优度R-Square最高，为86.1749％，均方根误差和平均绝对误差也最低，分别为822.46007和449.42642，因此，mRMR的特征排序算法让我们采用最少量的特征做出了最优的日客流量预测。

我们还建立了ARIMA(2,1,0)和SVR两个经典模型来预测样本内的日客流量，所有模型的预测性能和误差通过表6列出。

表6不同预测模型的性能评估

表6结果表明，与传统的时间序列预测模型ARIMA和机器学习模型SVR对比，mRMR-LSTM模型对日客流量预测问题更有效。例如，ARIMA模型的R-Square较mRMR-LSTM模型降低了10.4766％，RMSE和MAE分别增高了260.92244和150.07777，SVR模型的R-Square较mRMR-LSTM模型降低了12.8296％，RMSE和MAE分别增高了312.17391和150.63909。在图3和图4中可以更加清晰得看出mRMR-LSTM模型与基准模型相比所具有的优越性。

本发明证明了mRMR-LSTM模型相较于传统模型对于山岳型风景区日客流预测具有更高的预测精度和更小的误差。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于特征选择和LSTM算法的景区日客流量预测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法，其特征在于：步骤1中，选择将风景、住宿、餐饮、游览、购物和交通六个方面定义为游客出行前的主要搜索因素。

3.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法，其特征在于：所述网络搜索指数采用百度搜索指数。

4.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法，其特征在于：步骤2中，设定集合S为被选取的影响日客流量的网络搜索指数特征集，F表示初步确定的网络搜索指数关键词集合，初始化S集为空集，d为日客流量；

然后，根据D和R作差的最大值

mRMR＝maxΦ(D,R),Φ(D,R)＝D-R

值降序排序。

5.根据权利要求1所述一种基于特征选择和LSTM算法的景区日客流量预测方法，其特征在于：步骤4中采用三个评价标准中的一个或多个来判断预测性能，三个评价标准为R方检验、均方根误差和绝对平均误差。