CN110991696B

CN110991696B - 一种客流数据缺失填补的方法

Info

Publication number: CN110991696B
Application number: CN201911067242.1A
Authority: CN
Inventors: 陈曦; 蓝志坚; 李海燕
Original assignee: Guangzhou Richstone Technology Co ltd
Current assignee: Guangzhou Richstone Technology Co ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2022-11-04
Anticipated expiration: 2039-11-04
Also published as: CN110991696A

Abstract

本发明提供的客流数据缺失填补的方法，包括以下步骤：S1：获取原始数据集，若无缺失，则退出；S2：遍历数据集，判断缺失值的位置，更新当前连续缺失索引列表；S3：判断当前位置缺失列表长度，若不满足阈值ΔL，则跳到S5；S4：构建加权移动平均模型，对小比例缺失值填补，进入S6；S5：构建随机森林回归模型，对大比例缺失值填补；S6：若遍历完成则输出数据；否则更新数据集，返回S2。本发明采用一种更加符合时序数据的方法，尤其考虑数据在时间上的连续关系，做出更合理的填补，能够降低相应的填补误差。

Description

一种客流数据缺失填补的方法

技术领域

本发明移动通信、数据处理领域，更具体地，涉及一种客流数据缺失填补的方法。

背景技术

客流数据作为一种典型的时间序列数据，来源广泛，使用价值高。在当下的很多数据库应用中，由于在录入、存储、传输等环节中，经常会出现数据缺失的情况。数据质量的重要性是不言而喻的，而数据缺失问题会丢失大量信息，对后续挖掘分析造成很大的影响。

现有的数据填补方法少有考虑时间上的连续变化性，因此会造成很大的误差。并且现有方法没有考虑缺失值比例的影响，基本都采用一种方法做填补。对小比例的缺失填补，影响工作效率，对大比例的缺失填补，会影响准确度。

发明内容

为了解决现有技术中数据填补方法并无同时考虑时间上连续变化性和考虑时间上的连续变化性的问题，本发明提供了一种客流数据缺失填补的方法。

为解决上述技术问题，本发明的技术方案如下：

一种客流数据缺失填补的方法，包括以下步骤：

S1：获取原始数据集，判断数据集中是否存在数据缺失，若无缺失，则退出；

S2：遍历数据集，判断缺失值的位置，更新当前连续缺失索引列表；

S3：判断当前位置缺失列表长度，若不满足阈值ΔL，则跳到S5；

S4：构建加权移动平均模型，对小比例缺失值填补，进入S6；

S5：构建随机森林回归模型，对大比例缺失值填补；

S51：对数据集做预处理，构建相应的特征，组成训练样本；

S52：构建缺失填补模型，并训练模型；

S53：利用S52所得模型填补大比例缺失值；

S6：若遍历完成则输出数据；否则更新数据集，返回S2。

由于客流数据中的某段缺失，可能存在较短和较长的两种缺失情况，需要分别考虑，使用不同的方法进行填补。具有如下的优点：

对于长度较短的连续缺失，采用加权移动平均法，能够有效考虑非缺失值和缺失值在时间上的关系，并且此种方法简单易用，操作效率高。对于长度较长的缺失，加权移动平均法并不适用，因为缺失长度太大，不能较好的捕捉到非缺失与缺失之间的关系。而采用随机森林回归模型填补的方法，可以通过构造特征，捕捉到数据的统计分布、时序变化等特征，从而更加准确的完成长度较长的缺失填补工作。

在一种优选方案中，所述的原始数据集为某地的客流统计数据集，具体字段为Time：时间；Value：客流人数。

在一种优选方案中，所述的S2的具体步骤如下：从头开始遍历数据，当遇到缺失值时，将此缺失的索引添加到缺失列表中；若为连续缺失，则把连续缺失值的索引都添加到列表中。

在一种优选方案中，所述的S3的具体步骤如下：

S31：计算当前位置缺失对应的缺失列表长度为L；

S32：判断长度L，与阈值ΔL的关系；

若L≤ΔL，则表示此段缺失较短，继续下一步操作，采用加权移动平均的方法填补；若L＞ΔL，则表示此段缺失较长，跳过Step4，进行Step5，利用随机森林回归模型进行填补。

在一种优选方案中，所述的S4的具体步骤如下：

S41：构建加权移动平均模型

F_t＝w₁x_t-1+w₂x_t-2+w₃x_t-3+…+w_nx_t-n

其中，F_t为第t时刻的客流修正值，x_t-n为t时刻前n时刻的客流值，其中n为窗口大小，w_n为t时刻前n时刻的客流值的对应权重，w₁+w₂+…+w_n＝1；

S42：确定滑动窗口n的大小；滑动窗口n的大小，直接体现t时刻客流数据受到前n时刻数据的影响，n的选择依据客流数据的粒度大小；

S43：确定权重w的大小；权重w的长度与滑动窗口大小n是一致的。而权重w＝(w₁，w₂，…，w_n)，则依据靠近目标时刻越近权重越大的原则，且w₁+w₂+…+w_n＝1；

S44：将加权移动平均模型预测的缺失区间的预测值，填补进缺失区间。

在一种优选方案中，所述的S51的具体步骤如下：

S511：数据预处理，构建相应的特征；其中客流数据的信息特征主要分为两部分，基于统计分布和基于时间关系的特征；其中基于统计分布的特征的处理方法为，将客流数据向前做平移变换；基于时间关系的特征包括每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日，是否节假日；

S512：进行数据规范化处理；其中基于统计的平移变换特征和基于时间的每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值特征，做归一化处理；基于时间特征的是否工作日，是否节假日特征，做独热编码；

基于上述数据预处理与特征的构建方法，组成训练数据集。

在一种优选方案中，所述的S52的具体步骤如下：

S521：采用随机森林回归模型对训练样本进行建模，得到最优预测模型，用于预测缺失的客流数据；具体步骤为：将随机森林回归算法中的建立子树的数量nestimators、每棵树的最大深度max depth、结点分裂所需最小样本数min samples split和叶结点最小样本数min samples leaf，分别设置为一个区间列表，在所有候选的参数区间选择中，通过遍历的方法找到效果最优的超参数组合，存储最优模型；

S522：存储最优模型；所述的最优预测模型包括M棵决策树，分别为T₁(X)、T₂(X)、T₃(X)、…T_m(X)…、T_M(X)，X＝{x₁，x₂，x₃，…x_i…x_n，}是预测模型的n维输入向量，每棵决策树产生的预测值分别为：

所有决策树预测值的平均值即为预测模型的输出；假设客流数据所在输入空间划分为H个单元R₁、R₂、R₃、…R_h…、R_H，并且在每个单元R_h上，有一个固定的输出值为c_h，训练样本集表示为D＝{(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，…，(x_n，y_n)}，那么，对于任一决策树T_m(X)，其训练过程如下：

P1：从训练样本集D中q个特征字段中选d个特征作为弱回归器的特征集，且满足d＝log₂q，所述的特征字段包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日，是否节假日。

P2：遍历d中的切分变量j和切分点s，求解下式：

选择出最优的对(j，s)，其中，y_i是x_i的对应输出。

P3：用步骤P2中得到的对(j，s)划分区域，划分成两个子区域，如下：

P4：决定相应的输出，输出如下：

P5：对两个子区域循环执行步骤P2至步骤P4，直至满足预先设定的停止条件为止；

P6：生成二叉决策树：

其中I为指示函数，I(true)＝1，I(false)＝0；

并行操作步骤P1至步骤P6，生成M棵二叉决策树，即得到预测模型。

在一种优选方案中，所述的S53的具体步骤如下：

S531：获取缺失值的缺失列表，利用步骤S51的方法，构造特征信息，包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日，是否节假日；

S532：利用缺失值区间的特征信息作为预测模型的输入，对缺失值区间的客流数据做出预测。

在一种优选方案中，所述的S6的具体步骤如下：

S61：将S53所得模型预测的缺失区间的预测值，填补进缺失区间；

S62：更新数据集，并进行下一步检验。

与现有技术相比，本发明技术方案的有益效果是：

本发明采用一种更加符合时序数据的方法，尤其考虑数据在时间上的连续关系，做出更合理的填补，能够降低相应的填补误差。

附图说明

图1表示客流数据缺失值填补流程图；

图2表示加权移动平均法预测填补流程图；

图3表示随机森林回归算法预测填补流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种客流数据缺失填补的方法，如图1所示，包括以下步骤：

S4：构建加权移动平均模型，对小比例缺失值填补，进入S6；

S5：构建随机森林回归模型，对大比例缺失值填补；

S51：对数据集做预处理，构建相应的特征，组成训练样本；

S52：构建缺失填补模型，并训练模型；

S53：利用S52所得模型填补大比例缺失值；

S6：若遍历完成则输出数据；否则更新数据集，返回S2。

实施例2

本实施例提供的一种客流数据缺失填补的方法与实施例1一致，仅对各个步骤进行进一步限定，如图1-3所示，包括以下步骤：

S4：构建加权移动平均模型，对小比例缺失值填补，进入S6；

S5：构建随机森林回归模型，对大比例缺失值填补；

S51：对数据集做预处理，构建相应的特征，组成训练样本；

S52：构建缺失填补模型，并训练模型；

S53：利用S52所得模型填补大比例缺失值；

S6：若遍历完成则输出数据；否则更新数据集，返回S2。

在一种优选方案中，所述的原始数据集为某地的客流统计数据集，具体字段为Time：时间，本实施例中的时间粒度为5min；Value：客流人数。

在一种优选方案中，所述的S3的具体步骤如下：

S31：计算当前位置缺失对应的缺失列表长度为L；

S32：判断长度L，与阈值ΔL的关系；

在一种优选方案中，所述的S4的具体步骤如下：

S41：构建加权移动平均模型

F_t＝w₁x_t-1+w₂x_t-2+w₃x_t-3+…+w_nx_t-n

S42：确定滑动窗口n的大小；滑动窗口n的大小，直接体现t时刻客流数据受到前n时刻数据的影响，n的选择依据客流数据的粒度大小，此时n＝5；

S43：确定权重w的大小；权重w的长度与滑动窗口大小n是一致的。而权重w＝(w₁，w₂，…，wn)，则依据靠近目标时刻越近权重越大的原则，且w₁+w₂+…+w_n＝1；

在一种优选方案中，所述的S51的具体步骤如下：

S511：数据预处理，构建相应的特征；其中客流数据的信息特征主要分为两部分，基于统计分布和基于时间关系的特征；其中基于统计分布的特征的处理方法为，将客流数据向前做平移变换；如向前平移变换1步示例，如表1所示，

表1平移变换示例

Time	Value	Shift_l
			t	X<sub>t</sub>	NaN
t+1	X<sub>t+1</sub>	X<sub>t</sub>
			t+2	X<sub>t+2</sub>	X<sub>t+1</sub>
t+3	X<sub>t+3</sub>	X<sub>t+2</sub>
			……	……	……

表中：Time为时间，Value为客流数据，Shift_1为Value数据向前平移1步

基于时间关系的特征包括每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日，是否节假日；

基于上述数据预处理与特征的构建方法，组成训练数据集。

在一种优选方案中，所述的S52的具体步骤如下：

P1：从训练样本集D中q个特征字段中选d个特征作为弱回归器的特征集，且满足d＝log₂ q，所述的特征字段包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日，是否节假日。

P2：遍历d中的切分变量j和切分点s，求解下式：

选择出最优的对(j，s)，其中，y_i是x_i的对应输出。

P4：决定相应的输出，输出如下：

P6：生成二叉决策树：

其中I为指示函数，I(true)＝1，I(false)＝0；

在一种优选方案中，所述的S53的具体步骤如下：

在一种优选方案中，所述的S6的具体步骤如下：

S62：更新数据集，并进行下一步检验。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种客流数据缺失填补的方法，其特征在于，包括以下步骤：

具体步骤如下：从头开始遍历数据，当遇到缺失值时，将此缺失的索引添加到缺失列表中；若为连续缺失，则把连续缺失值的索引都添加到列表中；

S3的具体步骤如下：

S31：计算当前位置缺失对应的缺失列表长度为L；

S32：判断长度L，与阈值ΔL的关系；

若L≤ΔL，则表示此段缺失较短，继续下一步操作，采用加权移动平均的方法填补；若L>ΔL，则表示此段缺失较长，跳过S4，进行S5；

S4：构建加权移动平均模型，对小比例缺失值填补，进入S6；

S4的具体步骤如下：

S41：构建加权移动平均模型：

F_t＝w₁x_t-1+w₂x_t-2+w₃x_t-3+…+w_nx_t-n

其中，F_t为第t时刻的客流修正值，x_t-n为t时刻前n时刻的客流值，其中n为滑动窗口大小，w_n为t时刻前n时刻的客流值的对应权重，w₁+w₂+…+w_n＝1；

S42：确定滑动窗口n的大小，滑动窗口n的大小，直接体现t时刻客流数据受到前n时刻数据的影响，n的选择依据客流数据的粒度大小；

S43：确定权重w的大小，权重w的长度与滑动窗口大小n是一致的；而权重w＝(w₁,w₂,…,w_n)，则依据靠近目标时刻越近权重越大的原则，且w₁+w₂+…+w_n＝1；

S44：将加权移动平均模型预测的缺失区间的预测值，填补进缺失区间；

S5：构建随机森林回归模型，对大比例缺失值填补；

S51：对数据集做预处理，构建相应的特征，组成训练样本；

S51的具体步骤如下：

基于上述数据预处理与特征的构建方法，组成训练数据集；

S52：构建缺失填补模型，并训练模型；

S52的具体步骤如下：

S521：采用随机森林回归模型对训练样本进行建模，得到最优预测模型，用于预测缺失的客流数据；具体步骤为：将随机森林回归算法中的建立子树的数量、每棵树的最大深度、结点分裂所需最小样本数和叶结点最小样本数，分别设置为一个区间列表，在所有候选的参数区间选择中，通过遍历的方法找到效果最优的超参数组合，存储最优模型；

S522：存储最优模型；所述的最优预测模型包括M棵决策树，分别为T₁(X)、T₂(X)、T₃(X)、…T_m(X)…、T_M(X)，X＝{x₁,x₂,x₃,…x_i...x_n,}是预测模型的n维输入向量，每棵决策树产生的预测值分别为：

所有决策树预测值的平均值即为预测模型的输出；假设客流数据所在输入空间划分为H个单元R₁、R₂、R₃、…R_h…、R_H，并且在每个单元R_h上，有一个固定的输出值为c_h，训练样本集表示为D＝{(x₁,y₁),(x₂,y₂),(x₃,y₃),…,(x_n,y_n)}，那么，对于任一决策树T_m(X)，其训练过程如下：

P1：从训练样本集D中q个特征字段中选d个特征作为弱回归器的特征集，且满足d＝log₂q，所述的特征字段包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日，是否节假日；

P2：遍历d中的切分变量j和切分点s，求解下式：