CN116957331A

CN116957331A - 风险旅客流量范围预测方法和装置

Info

Publication number: CN116957331A
Application number: CN202310879482.1A
Authority: CN
Inventors: 王驰; 苗应亮; 胡长柏; 李胜南
Original assignee: Maxvision Technology Corp
Current assignee: Maxvision Technology Corp
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-27

Abstract

本发明公开一种风险旅客流量范围预测方法及装置，其方法包括：将旅客流量数据划分为训练数据集、误差测试集、测试数据集以及预测数据集；将训练数据集输入神经网络模型进行训练，采用优化模型对神经网络模型参数进行最优选择，训练完成后得到优化后的神经网络模型；将测试特征输入优化后的神经网络模型，计算得到测试时间段预测值，将预测值与实际值比较得到偏差分布，并计算偏差范围；将预测数据集输入优化后的神经网络模型得到预测时间段预测值，与偏差范围联合计算得到安全范围，将真实值与安全范围比较，判断是否存在异常。本发明结合流量本身周期性和趋势性规律进行流量预测，同时，在预测过程采用自适应最优参数方法，提高了预测精度。

Description

风险旅客流量范围预测方法和装置

技术领域

本发明属于数据预测的人工智能技术领域，具体是一种风险旅客流量范围预测方法和装置。

背景技术

随着现有机场轨道交通的客流量的增大，许多问题也体现了出来，尤其是在航班时刻表更改以及天气突变的情况下，必须要有人工进行现场维护轨道交通的秩序，因此，预测口岸、机场、出入境、边检、海关、梯口等人流量密集场所的轨道交通的人流量处于一个十分重要的地位，若能根据预测出来的站点人流量进行时刻表班次合理的调度，那将使得轨道交通变得更加的舒适以及安全。

现有技术中，申请号为CN202011606022.4的发明专利公开一种口岸流量统计分析与预警方法及系统，其通过后台数据分析可获取各口岸日常通关人流数量、通关忙闲时段、通关人员属性、长期通关人员与临时通关人员比等，将所采集人流信息实时以曲线形式进行展示当前通关人数及人流趋势，并可根据用户设定条件进行分类统计展示，将站点划分为不同等级的管控区域，如核心区、缓冲区等，并对不同区域进行分级管理，提供相应级别的告警机制，用户可将多种告警机制进行组合，形成一个新的告警机制，用户可抽取指定对象，并通过对平台所采集的所有数据信息进行分析，根据指定对象在不同点出现的时间、位置信息形成一条特定对象的行动轨迹信息，将所取得的行动对象轨迹根据其发生时间进行动态展示。虽然该方法为机场轨道交通的客流量预测提供一种思路，但是该方法主要以数据展示为人为分析提供一定参考性，因此该方法无预测功能也无预警机制。

另一申请号为CN202110769808.6的发明专利公开一种基于LSTM的客流预测方法，其基于LSTM并结合时间-特征协同注意力机制的机场轨道交通客流预测方法。该专利结合AFC数据、航班时刻表、天气、日期四种数据，通过对影响机场轨道交通客流的关键因素进行分析提取，以及对数据进行标准化处理，构建机场轨道交通短时客流预测模型，从而实现待测机场轨道交通客流的准确预测。该方法以不同特征、运用LSTM模型预测机场轨道未来交通客流，然而其并未考虑历史邻近客流周期性、趋势性影响，对LSTM模型未进行最优参数选择；虽然其能提供未来旅客预测，但是未划分安全范围无法提供流量预警。

综上，现有技术中针对客流预测方法具有如下不足：

1、针对口岸、机场、出入境、边检、海关、梯口等人流量密集场所流量领域专利多为展示型或统计性计算，无法结合流量本身周期性和趋势性规律进行流量预测；

2、相关领域有不同特征(天气、节假日等)与流量构建模型，该方法中模型学习不到流量历史波动规律性；有历史流量与未来流量构建的时序模型，该方法学习不到节假日等特征对结果的影响；

3、该领域使用LSTM模型进行预测时未考虑自适应最优参数方法，随着流量规律的波动，历史训练保存模型的普适性不足，影响预测精度；

4、常规模型预测仅给一个具体值，实际值与预测值进行时需要一定经验性，无法直接确定实际流量是否超过预警范围。

发明内容

在下文中给出了关于本发明实施例的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，以下概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本申请的一个方面，提供一种风险旅客流量范围预测方法，其包括：

获取旅客流量数据，并构建预测特征；

将旅客流量数据划分为模型训练的训练数据集、用于误差计算的误差测试集、用于测试的测试数据集以及预测结果的预测数据集；所述误差测试集应用预设置信区间计算误差范围，用于流量范围预测；其中，预设置信区间根据具体场合的误差要求设置；

将训练数据集输入神经网络模型进行训练，采用优化模型对神经网络模型参数进行最优选择，训练完成后得到优化后的神经网络模型；

将测试特征输入优化后的神经网络模型，计算得到测试时间段预测值，将预测值与实际值比较得到偏差分布，并根据预设置信区间计算得到偏差范围；

将预测数据集输入优化后的神经网络模型得到预测时间段预测值，与偏差范围联合计算得到安全范围，将真实值与安全范围比较，判断是否存在异常。

现有技术中一般只有训练数据集、测试数据集以及预测数据集，一般都是流量值预测，本申请增设误差测试集，应用预设置信区间(例如95％置信区间)计算误差范围，从而实现流量范围预测，以实现流量预警功能。

进一步的，所述获取旅客流量数据，并构建预测特征，具体包括获取旅客流量数据，并根据风险防控时间节点进行数据划分，将旅客流量数据分为防控前客流数据和防控后客流数据；对防控前客流数据和防控后客流数据以历史日期节假日、季节、历史两周流量构建预测特征。

作为一种优选的方案，所述优化模型为贝叶斯优化模型，所述神经网络模型为LSTM模型。现有技术使用的LSTM模型一般是时序预测模型，未考虑其他影响因素，本申请同时考虑了节假日、季节等影响因素作为预测特征，也将历史流量数据作为特征，两者合并预测未来流量值(其中节假日、季节、不同历史流量值与预测值属于相关性强特征)。

进一步的，所述训练数据集是取原始数据前70％作为训练数据，用于LSTM模型训练生成训练好的模型用于数据预测；

所述测试数据集是取原始数据70％～95％之间的数据作为测试数据，将测试数据带入模型进行数据预测，计算预测数据与测试数据之间的误差，用于偏差计算；

所述预测数据集是取后5％数据作为预测数据(根据LSTM模型参数step确定)用于未来数据结果预测。

进一步的，所述采用贝叶斯优化对LSTM参数进行最优选择具体包括：

步骤1：定义目标函数：定义一个目标函数作为评估函数，该函数接收LSTM参数作为输入，并返回模型性能的度量；该函数为需要优化的函数，它的输入为一个参数向量，输出为一个实数，模型性能的度量例如平均绝对误差(MAE)或交叉验证得分；

步骤2：定义LSTM的参数空间，参数空间是参数向量可以取值的区域，可以是任何有限或无限的区域，其包括隐藏层大小、LSTM层数、批量大小和学习速率；

步骤3：使用贝叶斯优化算法在LSTM的参数空间中搜索最优值，具体包括：

过程31：定义先验分布：先验分布是参数空间上的一个分布函数，用来表示参数的初始分布；

过程32：构建后验分布：贝叶斯优化通过不断地更新先验分布来得到后验分布，后验分布是参数的真实分布，也是贝叶斯优化的核心；

过程33：采样：根据后验分布进行采样，得到新的参数组合，用来评估目标函数的输出；

过程34：更新模型：将新的参数组合和目标函数的输出添加到训练集中，用于更新后验分布；

过程35：重复过程33的采样和过程34的更新模型的步骤，直到找到最优参数组合作为最优LSTM参数；

步骤4：使用找到的最优LSTM参数训练LSTM模型，得到贝叶斯优化的LSTM模型；

步骤5：使用测试集或交叉验证来评估LSTM模型的性能，例如计算MAE或其他模型性能指标。

进一步的，所述应用95％置信区间计算误差范围具体包括如下步骤：

令误差列表[e₁，e₂，e₃，...，e_n]，e_i为预测值y_pred与实际值y_real差；

则误差均值μ＝(e₁+e₂+...+e_n)/n，误差标准差

误差95％置信区间：

进一步的，将预测数据集输入贝叶斯优化的LSTM模型得到预测时间段预测值，与偏差范围联合计算得到安全范围，将真实值与安全范围比较，判断是否存在异常，具体包括如下步骤：

令预测值为y_pred，误差置信区间

则安全范围：

令真实值为y_real，如果y_real在安全范围区间外，则判断异常。

根据本申请的另一方面，提供一种旅客流量范围预测装置，其包括：

获取模块，用于获取旅客流量数据，并构建预测特征；

分类模块，用于将旅客流量数据划分为模型训练的训练数据集、用于误差计算的测试数据集以及预测结果的预测数据集；

神经网络模型训练模块，用于将训练数据集输入神经网络模型进行训练，采用优化模型对神经网络参数进行最优选择，训练完成后得到优化后的神经网络模型；

偏差范围计算模块，用于将测试特征输入优化后的神经网络模型，计算得到测试时间段预测值，将预测值与实际值比较得到偏差分布，并计算偏差预设置信区间得到偏差范围；

异常判断模块，用于将预测数据集输入优化后的神经网络模型得到预测时间段预测值，与偏差范围联合计算得到安全范围，将真实值与安全范围比较，判断是否存在异常。

本发明采用上述方案，结合流量本身周期性和趋势性规律进行流量预测，结合常规特征与流量构建组合特征，将多种影响因素考虑其中，对结果预测更加精准；同时，在预测过程采用自适应最优参数方法，提高预测精度；此外，本发明构建的方法还根据历史预测误差给出安全流量范围，可以直接确定实际流量是否超过预警范围。本发明的方法可直接应用在边检数据研判领域，可作用于口岸流量范围预测和流量预警，具有很好的实用性。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1为本发明实施例的流程示意图。

具体实施方式

下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

参见图1，本发明实施例提供一种风险旅客流量范围预测方法，具体包括如下步骤：

1、获取旅客的历史流量数据，由于防控前后数据大小和周期波动不一致，因此将历史流量数据根据风险防控时间节点进行数据划分，分为防控前客流数据和防控后客流数据；

2、以历史日期节假日、季节、历史两周流量构建预测特征；

3、将防控前客流数据和防控后客流数据划分为模型训练的训练数据、用于误差计算的测试数据、预测结果的预测数据；

其中，训练数据：取原始数据前70％作为训练数据，用于LSTM模型训练生成训练好的模型用于数据预测；

测试数据：取原始数据70％～95％之间的数据作为测试数据，将测试数据带入模型进行数据预测，计算预测数据与测试数据之间的误差，用于偏差计算；

预测数据：取后5％数据作为预测数据(根据LSTM模型参数step确定)用于未来数据结果预测；

4、将训练数据带入LSTM模型训练模型，在此过程中运用贝叶斯优化对LSTM参数进行最优选择，训练完成后保存LSTM模型即为贝叶斯优化的LSTM模型；其中贝叶斯优化对LSTM参数进行最优选择实现的逻辑如下：

(1)定义目标函数：定义一个评估函数，该函数接收LSTM参数作为输入，并返回模型性能的度量，例如平均绝对误差(MAE)或交叉验证得分；

(2)定义参数空间：定义LSTM的参数空间，包括隐藏层大小、LSTM层数、批量大小和学习速率；

(3)使用贝叶斯优化算法在参数空间中搜索最优值。需要指定目标函数、参数空间、优化算法和最大迭代次数；

①定义目标函数：需要优化的函数，它的输入为一个参数向量，输出为一个实数；

②定义参数空间：参数空间是参数向量可以取值的区域，可以是任何有限或无限的区域；

③定义先验分布：先验分布是参数空间上的一个分布函数，它用来表示参数的初始分布，可以使用高斯分布等先验分布来对参数进行建模；

④构建后验分布：贝叶斯优化通过不断地更新先验分布来得到后验分布，后验分布是参数的真实分布，也是贝叶斯优化的核心；

⑤采样：根据后验分布进行采样，得到新的参数组合，用来评估目标函数的输出；

⑥更新模型：将新的参数组合和目标函数的输出添加到训练集中，用于更新后验分布；

⑦重复步骤⑤和⑥：重复采样和更新模型的步骤，直到找到最优参数组合。

(4)训练LSTM模型：使用找到的最优LSTM参数训练LSTM模型，得到贝叶斯优化的LSTM模型；

(5)评估LSTM模型性能：使用测试集或交叉验证来评估贝叶斯优化的LSTM模型的性能，例如计算MAE或其他模型性能指标。

5、测试数据带入贝叶斯优化的LSTM模型计算得到测试时间段预测值，将预测值与实际值比较得到偏差分布，并计算偏差95％置信区间，得到偏差范围；

其中贝叶斯优化的LSTM模型是步骤4中训练好的LSTM模型，本实施例中，在本地保存为.m文件，输入是历史14天流量、预测日期是否是节假日、预测日的季节，输出是预测日流量；

计算偏差95％置信区间的过程如下：

则误差均值μ＝(e₁+e₂+...+e_n)/n，误差标准差

误差95％置信区间：

6、将预测特征代入训练好的模型得到预测时间段预测值，与偏差范围联合计算得到安全范围，将真实值与安全范围比较，判断是否存在异常；具体包括如下步骤：

令预测值为y_pred，误差置信区间

则安全范围：

令真实值(即实际值)为y_real，如果y_real在安全范围区间外，则判断为异常。

本发明另一实施例提供一种旅客流量范围预测装置，其包括：

获取模块，用于获取旅客流量数据，并构建预测特征；

LSTM模型训练模块，用于将训练数据集输入LSTM模型进行训练，采用贝叶斯优化对LSTM参数进行最优选择，训练完成后得到贝叶斯优化的LSTM模型；

偏差范围计算模块，用于将测试特征输入贝叶斯优化的LSTM模型，计算得到测试时间段预测值，将预测值与实际值比较得到偏差分布，并计算偏差95％置信区间得到偏差范围；

异常判断模块，用于将预测数据集输入贝叶斯优化的LSTM模型得到预测时间段预测值，与偏差范围联合计算得到安全范围，将真实值与安全范围比较，判断是否存在异常。

本发明采用上述方案，结合流量本身周期性和趋势性规律进行流量预测，结合常规特征与流量构建组合特征，将多种影响因素考虑其中，对结果预测更加精准；同时，在预测过程采用自适应最优参数方法，提高预测精度；此外，本发明构建的方法还根据历史预测误差给出安全流量范围，可以直接确定实际流量是否超过预警范围，具有很好的实用性。

本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims

1.风险旅客流量范围预测方法，其特征在于，包括：

获取旅客流量数据，并构建预测特征；

将旅客流量数据划分为模型训练的训练数据集、用于误差计算的误差测试集、用于测试的测试数据集以及预测结果的预测数据集；所述误差测试集应用预设置信区间计算误差范围，用于流量范围预测；

将测试特征输入优化后的神经网络模型，计算得到测试时间段预测值，将预测值与实际值比较得到偏差分布，并根据预设置信区间计算偏差范围；

2.根据权利要求1所述的流量范围预测方法，其特征在于：所述获取旅客流量数据，并构建预测特征，具体包括获取旅客流量数据，并根据风险防控时间节点进行数据划分，将旅客流量数据分为防控前客流数据和防控后客流数据；对防控前客流数据和防控后客流数据以历史日期节假日、季节、历史两周流量构建预测特征。

3.根据权利要求1所述的流量范围预测方法，其特征在于：所述训练数据集是取原始数据前70％作为训练数据，用于神经网络模型训练生成训练好的模型用于数据预测；所述测试数据集是取原始数据70％～95％之间的数据作为测试数据，将测试数据带入模型进行数据预测，计算预测数据与测试数据之间的误差，用于偏差计算；所述预测数据集是取后5％数据作为预测数据，用于未来数据结果预测。

4.根据权利要求1所述的流量范围预测方法，其特征在于：所述采用优化模型对神经网络模型参数进行最优选择，具体是采用贝叶斯优化对LSTM参数进行最优选择，具体包括：

步骤1：定义目标函数，该函数接收LSTM参数作为输入，并返回模型性能的度量；

步骤2：定义LSTM的参数空间，其包括隐藏层大小、LSTM层数、批量大小和学习速率；

步骤3：使用贝叶斯优化算法在LSTM的参数空间中搜索最优值，具体包括：过程31：定义先验分布：先验分布是参数空间上的一个分布函数，用来表示参数的初始分布；

过程32：构建后验分布：贝叶斯优化通过不断地更新先验分布来得到后验分布，后验分布是参数的真实分布；

步骤5：使用测试集或交叉验证来评估贝叶斯优化的LSTM模型的性能。

5.根据权利要求4所述的流量范围预测方法，其特征在于：所述预设置信区间为95％置信区间，所述计算偏差95％置信区间具体包括如下步骤：

则误差均值μ＝(e₁+e₂+...+e_n)/n，误差标准差

误差95％置信区间：

6.根据权利要求5所述的流量范围预测方法，其特征在于：将预测数据集输入贝叶斯优化的LSTM模型得到预测时间段预测值，与偏差范围联合计算得到安全范围，将真实值与安全范围比较，判断是否存在异常，具体包括如下步骤：

令预测值为y_pred，误差置信区间

则安全范围：

7.旅客流量范围预测装置，其特征在于：包括：

获取模块，用于获取旅客流量数据，并构建预测特征；

分类模块，用于将旅客流量数据划分为模型训练的训练数据集、用于误差计算的误差测试集、用于测试的测试数据集以及预测结果的预测数据集；所述误差测试集应用预设置信区间计算误差范围，用于流量范围预测；

偏差范围计算模块，用于将测试特征输入优化后的神经网络模型，计算得到测试时间段预测值，将预测值与实际值比较得到偏差分布，并根据预设置信区间计算偏差范围；

8.根据权利要求7所述的流量范围预测装置，其特征在于：所述获取旅客流量数据，并构建预测特征，具体包括获取旅客流量数据，并根据风险防控时间节点进行数据划分，将旅客流量数据分为防控前客流数据和防控后客流数据；对防控前客流数据和防控后客流数据以历史日期节假日、季节、历史两周流量构建预测特征。

9.根据权利要求7所述的流量范围预测装置，其特征在于：所述训练数据集是取原始数据前70％作为训练数据，用于神经网络模型训练生成训练好的模型用于数据预测；所述测试数据集是取原始数据70％～95％之间的数据作为测试数据，将测试数据带入模型进行数据预测，计算预测数据与测试数据之间的误差，用于偏差计算；所述预测数据集是取后5％数据作为预测数据，用于未来数据结果预测。

10.根据权利要求7所述的流量范围预测装置，其特征在于：所述采用优化模型对神经网络模型参数进行最优选择，具体是采用贝叶斯优化对LSTM参数进行最优选择，具体包括：