CN111652444A

CN111652444A - 一种基于K-means和LSTM的日游客量预测方法

Info

Publication number: CN111652444A
Application number: CN202010506167.0A
Authority: CN
Inventors: 袁佳
Original assignee: Nanjing Institute of Mechatronic Technology
Current assignee: Nanjing Institute of Mechatronic Technology
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-11
Anticipated expiration: 2040-06-05
Also published as: CN111652444B

Abstract

本发明涉及一种基于K‑means和LSTM的日游客量预测方法建立日游客量预测样本序列数据库,采用Kmeans算法对样本数据集进行聚类分析,基于分析结果建立LSTM预测模型，景区利用预训练好的模型对日游客量进行预测，并在线对现有的模型进行优化升级。本发明准确地预测出后续的游客量，预测精度高，让旅游经营和管理者提前对游客量有一个清晰的认知，从而提升旅游者的出行体验和优化旅游产业。

Description

一种基于K-means和LSTM的日游客量预测方法

技术领域

本发明涉及游客量预测领域，特别涉及基于一种基于K-means和LSTM的日游客量预测方法。

背景技术

随着经济飞速的发展，我国的国民生活水平普遍提高，旅游行业作为新兴行业异军突起，逐渐成为了我国部分地区的主要甚至是支柱产业。近年来，景区超载、游客拥挤等问题层出不穷，带来的安全隐患严重影响了旅游者的出行体验，同时也限制了旅游产业的健康发展。

现有的基金价格模型多采用传统机器学习的方法，而日游客量受多因素耦合影响，多特征因素与日游客预测有着高度的非线性，现有方法受限于非线性数据挖掘能力导致预测精度往往不高。另一方面，绝大数方法没有考虑日游客预测的多模态属性，忽略了实际应用情况中，日游客量与旅游行情模式存在着固有关联。因此，亟待提出一种预测精度高的日游客量预测方法，准确地预测出后续的游客量，让旅游经营和管理者提前对游客量有一个清晰的认知，通过合理调度和配置有限旅游资源的方式最大限度的避免这种混乱局面的产生，从而提升旅游者的出行体验和优化旅游产业。

发明内容

为了解决上述存在问题。本发明提出一种基于K-means和LSTM的日游客量预测方法，准确地预测出后续的游客量，让旅游经营和管理者提前对游客量有一个清晰的认知，通过合理调度和配置有限旅游资源的方式最大限度的避免这种混乱局面的产生，从而提升旅游者的出行体验和优化旅游产业。为达此目的：

本发明提出一种基于K-means和LSTM的日游客量预测方法，具体步骤如下：

步骤1：日游客预测系统录入景区每天的游客相关百度指数以及实际日游客量；

步骤2：将步骤1的游客因素特征数据进行归一化处理；

步骤3：基于步骤2处理好的数据，采用动态时窗的方法提取序列，建立日游客量预测样本序列数据库；

步骤4：采用Kmeans算法对样本数据集进行聚类分析，将样本集分成3个训练集，分别对应淡季、旺季和平稳季；

步骤5：分别对步骤4中的3个训练集建立LSTM预测模型，并训练直到网络收敛；

步骤6：景区上传过去几天的日游客相关百度指数以及实际日游客量作为待预测样本，经过步骤2的归一化处理，基于Kmeans算法对预测样本进行分类得出旅游季的模式类别；

步骤7：针对步骤6的类别结果，利用步骤5中预训练好的模型对日游客量进行预测，并将结果上传至显示界面；

步骤8：对于预测值差较大的情况，数据库每隔一个周期将数据发送至上位机，在线对现有的模型进行优化升级，从而不断提升模型预测精度。

作为本发明进一步改进，所述步骤1中景区每天的游客相关百度指数，主要关键词“景区名”百度指数、关键词“景区名+旅游攻略”百度指数、关键词“景区名+天气”百度指数、关键词“景区名+门票”百度指数、关键词“景区名+在哪里”百度指数等。

作为本发明进一步改进，所述步骤2中数据归一化处理为：

其中，x_i是第i个游客因素特征的归一化处理的结果，

和

为第i个游客因素特征的原始数据的最大值和最小值，

为第i个游客因素特征的归一化前的数值，i∈{1，2，…，n}，n为游客因素特征数。

作为本发明进一步改进，所述步骤3中建立日游客量预测样本序列的提取方式为，以十天为一个周期，以历史的七天的历史数据序列X＝{X₁，X₂，X₃，X₄，X₅，X₆，X₇}为输入，其中X_k＝{x₁，x₂，…，x_n}，x_i为归一化后的游客因素特征。以后三天的日游客量预测值Y＝{Y₁，Y₂，Y₃}为预测输出，其中Y₁，Y₂，Y₃为后续三天的日游客量。每个序列样本按时间逐天滑动生成，从而建立日游客量预测样本序列数据库。

作为本发明进一步改进，所述步骤4中Kmeans算法具体是：

步骤4.1将7天的输入样本序列特征扁平化成一维向量，维度为7*n；

步骤4.2从样本集中随机选择3个样本{μ₁，μ₂，μ₃}，作为初始质心；

步骤4.3计算每个样本X与质心μ_j之间的距离

ditance＝||X-μ_j||₂

步骤4.4将样本X与最近的质心μ_j归为一类；

步骤4.5更新质心

其中，C_i为旅游季的模式类别聚类簇集，i∈{1，2，3}。

步骤4.6重复步骤4.3-4.5，直到达到最大迭代次数100或质心更新幅度小于阈值，最终得到三种旅游季的模式类别的样本数据。

作为本发明进一步改进，所述步骤5中每种旅游季的模式类别下构建的LSTM模型，由输入门、忘记门、输出门和细胞状态组成。

神经元细胞中每个时刻不同门的更新公式如下：

遗忘门：f_t＝sigmoid(w_f*[h_t-1，x_t]+b_f)

输入门：i_t＝sigmoid(w_i*[h_t-1，x_t]+b_i)

输入的候选状态：

记忆细胞的输出：

输出门：o_t＝sigmoid(w_o*[h_t-1，x_t]+b_o)

单元输出：h_t＝o_t*tanh(c_t)

其中，w_i、w_f、w_o、w_c分别为输入门、遗忘门、输出门以及细胞状态的权值矩阵；b_i、b_f、b_o、b_c为对应的偏置项；h_t-1为t-1时刻的隐藏层状态；x_t为t时刻的输入向量；tanh为双曲正切激活函数。

每个LSTM模型的输入序列长度为7，输出序列长度为3，分别为隐含层的三个时刻的输出h_t-2、h_t-1、h_t，将此作为未来三天的日游客量预测值。利用上述的预测值输出与原始数据的真事值进行整个LSTM网络的损失函数的计算，本发明采用均平方根误差损失函数，其表达式如下：

其中，T为每批次训练的样本数，

为第i个样本第j天的日游客量真实值，

为第i个样本第j天的日游客量预测值。利用随机梯度下降(SGD)优化算法对均平方根误差损失函数进行优化，并将结果进行反向传播，实现网络参数的更新，直至LSTM模型达到收敛，此时认为模型训练完成。

作为本发明进一步改进，所述步骤8中将预测值和实际值差值较大的日游客量预测样本增添进训练集中，并确定实际的三天游客量为相对应的标签。数据库每隔一个周期将数据发送至上位机，对模型进行重新训练，整个训练过程与步骤4-5保持一致，最终实现模型的优化升级，以增强模型的泛化性和预测精度。

本发明提出一种基于K-means和LSTM的日游客量预测方法，有益效果在于：

1.本发明利用深度学习LSTM算法，使得日游客量预测更加智能化，非线性数据挖掘能力强。

2.本发明预测精度高，能准确地预测出后续的游客量，让旅游经营和管理者提前对游客量有一个清晰的认知。

3.本发明考虑日游客预测的多模态属性，使用K-means算法重视日游客量与旅游行情模式存在着固有关联，更加贴近实际应用情况，算法泛化性能较好。

4.本发明算法实现简单，系统构建成本较低。

5.本发明根据预测差值实时更新数据库，在增强模型泛化性的同时提高模型的预测精度。

附图说明

图1是本发明提出的基于K-means和LSTM的日游客量预测方法架构图；

图2是本发明提出的K-means聚类分析投影至二维平面的结果；

图3是本发明提出的日游客量LSTM预测模型图；

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提出一种基于K-means和LSTM的日游客量预测方法，准确地预测出后续的游客量，让旅游经营和管理者提前对游客量有一个清晰的认知，通过合理调度和配置有限旅游资源的方式最大限度的避免这种混乱局面的产生，从而提升旅游者的出行体验和优化旅游产业。如图1所示是一种基于K-means和LSTM的日游客量预测方法架构图。

步骤1：日游客预测系统录入景区每天的游客相关百度指数以及实际日游客量，景区每天的游客相关百度指数，主要关键词“景区名”百度指数、关键词“景区名+旅游攻略”百度指数、关键词“景区名+天气”百度指数、关键词“景区名+门票”百度指数、关键词“景区名+在哪里”百度指数等。

步骤2：将步骤1的游客因素特征数据进行归一化处理，

其中，x_i是第i个游客因素特征的归一化处理的结果，

和

为第i个游客因素特征的原始数据的最大值和最小值，

步骤3：基于步骤2处理好的数据，采用动态时窗的方法提取序列，建立日游客量预测样本序列的提取方式为，以十天为一个周期，以历史的七天的历史数据序列X＝{X₁，X₂，X₃，X₄，X₅，X₆，X₇}为输入，其中X_k＝{x₁，x₂，…，x_n}，

x_i为归一化后的游客因素特征。以后三天的日游客量预测值Y＝{Y₁，Y₂，Y₃}为预测输出，其中Y₁，Y₂，Y₃为后续三天的日游客量。每个序列样本按时间逐天滑动生成，从而建立日游客量预测样本序列数据库。

步骤4：采用Kmeans算法对样本数据集进行聚类分析，将样本集分成3个训练集，分别对应淡季、旺季和平稳季，如图2所示为K-means聚类分析投影至二维平面的结果，本发明提出的K-means算法具体如下：