CN110991696B - 一种客流数据缺失填补的方法 - Google Patents

一种客流数据缺失填补的方法 Download PDF

Info

Publication number
CN110991696B
CN110991696B CN201911067242.1A CN201911067242A CN110991696B CN 110991696 B CN110991696 B CN 110991696B CN 201911067242 A CN201911067242 A CN 201911067242A CN 110991696 B CN110991696 B CN 110991696B
Authority
CN
China
Prior art keywords
missing
passenger flow
data
value
filling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911067242.1A
Other languages
English (en)
Other versions
CN110991696A (zh
Inventor
陈曦
蓝志坚
李海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Richstone Technology Co ltd
Original Assignee
Guangzhou Richstone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Richstone Technology Co ltd filed Critical Guangzhou Richstone Technology Co ltd
Priority to CN201911067242.1A priority Critical patent/CN110991696B/zh
Publication of CN110991696A publication Critical patent/CN110991696A/zh
Application granted granted Critical
Publication of CN110991696B publication Critical patent/CN110991696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的客流数据缺失填补的方法,包括以下步骤:S1:获取原始数据集,若无缺失,则退出;S2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;S3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;S4:构建加权移动平均模型,对小比例缺失值填补,进入S6;S5:构建随机森林回归模型,对大比例缺失值填补;S6:若遍历完成则输出数据;否则更新数据集,返回S2。本发明采用一种更加符合时序数据的方法,尤其考虑数据在时间上的连续关系,做出更合理的填补,能够降低相应的填补误差。

Description

一种客流数据缺失填补的方法
技术领域
本发明移动通信、数据处理领域,更具体地,涉及一种客流数据缺失填补的方法。
背景技术
客流数据作为一种典型的时间序列数据,来源广泛,使用价值高。在当下的很多数据库应用中,由于在录入、存储、传输等环节中,经常会出现数据缺失的情况。数据质量的重要性是不言而喻的,而数据缺失问题会丢失大量信息,对后续挖掘分析造成很大的影响。
现有的数据填补方法少有考虑时间上的连续变化性,因此会造成很大的误差。并且现有方法没有考虑缺失值比例的影响,基本都采用一种方法做填补。对小比例的缺失填补,影响工作效率,对大比例的缺失填补,会影响准确度。
发明内容
为了解决现有技术中数据填补方法并无同时考虑时间上连续变化性和考虑时间上的连续变化性的问题,本发明提供了一种客流数据缺失填补的方法。
为解决上述技术问题,本发明的技术方案如下:
一种客流数据缺失填补的方法,包括以下步骤:
S1:获取原始数据集,判断数据集中是否存在数据缺失,若无缺失,则退出;
S2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;
S3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;
S4:构建加权移动平均模型,对小比例缺失值填补,进入S6;
S5:构建随机森林回归模型,对大比例缺失值填补;
S51:对数据集做预处理,构建相应的特征,组成训练样本;
S52:构建缺失填补模型,并训练模型;
S53:利用S52所得模型填补大比例缺失值;
S6:若遍历完成则输出数据;否则更新数据集,返回S2。
由于客流数据中的某段缺失,可能存在较短和较长的两种缺失情况,需要分别考虑,使用不同的方法进行填补。具有如下的优点:
对于长度较短的连续缺失,采用加权移动平均法,能够有效考虑非缺失值和缺失值在时间上的关系,并且此种方法简单易用,操作效率高。对于长度较长的缺失,加权移动平均法并不适用,因为缺失长度太大,不能较好的捕捉到非缺失与缺失之间的关系。而采用随机森林回归模型填补的方法,可以通过构造特征,捕捉到数据的统计分布、时序变化等特征,从而更加准确的完成长度较长的缺失填补工作。
在一种优选方案中,所述的原始数据集为某地的客流统计数据集,具体字段为Time:时间;Value:客流人数。
在一种优选方案中,所述的S2的具体步骤如下:从头开始遍历数据,当遇到缺失值时,将此缺失的索引添加到缺失列表中;若为连续缺失,则把连续缺失值的索引都添加到列表中。
在一种优选方案中,所述的S3的具体步骤如下:
S31:计算当前位置缺失对应的缺失列表长度为L;
S32:判断长度L,与阈值ΔL的关系;
若L≤ΔL,则表示此段缺失较短,继续下一步操作,采用加权移动平均的方法填补;若L>ΔL,则表示此段缺失较长,跳过Step4,进行Step5,利用随机森林回归模型进行填补。
在一种优选方案中,所述的S4的具体步骤如下:
S41:构建加权移动平均模型
Ft=w1xt-1+w2xt-2+w3xt-3+…+wnxt-n
其中,Ft为第t时刻的客流修正值,xt-n为t时刻前n时刻的客流值,其中n为窗口大小,wn为t时刻前n时刻的客流值的对应权重,w1+w2+…+wn=1;
S42:确定滑动窗口n的大小;滑动窗口n的大小,直接体现t时刻客流数据受到前n时刻数据的影响,n的选择依据客流数据的粒度大小;
S43:确定权重w的大小;权重w的长度与滑动窗口大小n是一致的。而权重w=(w1,w2,…,wn),则依据靠近目标时刻越近权重越大的原则,且w1+w2+…+wn=1;
S44:将加权移动平均模型预测的缺失区间的预测值,填补进缺失区间。
在一种优选方案中,所述的S51的具体步骤如下:
S511:数据预处理,构建相应的特征;其中客流数据的信息特征主要分为两部分,基于统计分布和基于时间关系的特征;其中基于统计分布的特征的处理方法为,将客流数据向前做平移变换;基于时间关系的特征包括每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日;
S512:进行数据规范化处理;其中基于统计的平移变换特征和基于时间的每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值特征,做归一化处理;基于时间特征的是否工作日,是否节假日特征,做独热编码;
基于上述数据预处理与特征的构建方法,组成训练数据集。
在一种优选方案中,所述的S52的具体步骤如下:
S521:采用随机森林回归模型对训练样本进行建模,得到最优预测模型,用于预测缺失的客流数据;具体步骤为:将随机森林回归算法中的建立子树的数量nestimators、每棵树的最大深度max depth、结点分裂所需最小样本数min samples split和叶结点最小样本数min samples leaf,分别设置为一个区间列表,在所有候选的参数区间选择中,通过遍历的方法找到效果最优的超参数组合,存储最优模型;
S522:存储最优模型;所述的最优预测模型包括M棵决策树,分别为T1(X)、T2(X)、T3(X)、…Tm(X)…、TM(X),X={x1,x2,x3,…xi…xn,}是预测模型的n维输入向量,每棵决策树产生的预测值分别为:
Figure GDA0003816014910000031
Figure GDA0003816014910000032
所有决策树预测值的平均值即为预测模型的输出;假设客流数据所在输入空间划分为H个单元R1、R2、R3、…Rh…、RH,并且在每个单元Rh上,有一个固定的输出值为ch,训练样本集表示为D={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},那么,对于任一决策树Tm(X),其训练过程如下:
P1:从训练样本集D中q个特征字段中选d个特征作为弱回归器的特征集,且满足d=log2q,所述的特征字段包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日。
P2:遍历d中的切分变量j和切分点s,求解下式:
Figure GDA0003816014910000041
选择出最优的对(j,s),其中,yi是xi的对应输出。
P3:用步骤P2中得到的对(j,s)划分区域,划分成两个子区域,如下:
Figure GDA0003816014910000042
P4:决定相应的输出,输出如下:
Figure GDA0003816014910000043
P5:对两个子区域循环执行步骤P2至步骤P4,直至满足预先设定的停止条件为止;
P6:生成二叉决策树:
Figure GDA0003816014910000044
其中I为指示函数,I(true)=1,I(false)=0;
并行操作步骤P1至步骤P6,生成M棵二叉决策树,即得到预测模型。
在一种优选方案中,所述的S53的具体步骤如下:
S531:获取缺失值的缺失列表,利用步骤S51的方法,构造特征信息,包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日;
S532:利用缺失值区间的特征信息作为预测模型的输入,对缺失值区间的客流数据做出预测。
在一种优选方案中,所述的S6的具体步骤如下:
S61:将S53所得模型预测的缺失区间的预测值,填补进缺失区间;
S62:更新数据集,并进行下一步检验。
与现有技术相比,本发明技术方案的有益效果是:
本发明采用一种更加符合时序数据的方法,尤其考虑数据在时间上的连续关系,做出更合理的填补,能够降低相应的填补误差。
附图说明
图1表示客流数据缺失值填补流程图;
图2表示加权移动平均法预测填补流程图;
图3表示随机森林回归算法预测填补流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种客流数据缺失填补的方法,如图1所示,包括以下步骤:
S1:获取原始数据集,判断数据集中是否存在数据缺失,若无缺失,则退出;
S2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;
S3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;
S4:构建加权移动平均模型,对小比例缺失值填补,进入S6;
S5:构建随机森林回归模型,对大比例缺失值填补;
S51:对数据集做预处理,构建相应的特征,组成训练样本;
S52:构建缺失填补模型,并训练模型;
S53:利用S52所得模型填补大比例缺失值;
S6:若遍历完成则输出数据;否则更新数据集,返回S2。
由于客流数据中的某段缺失,可能存在较短和较长的两种缺失情况,需要分别考虑,使用不同的方法进行填补。具有如下的优点:
对于长度较短的连续缺失,采用加权移动平均法,能够有效考虑非缺失值和缺失值在时间上的关系,并且此种方法简单易用,操作效率高。对于长度较长的缺失,加权移动平均法并不适用,因为缺失长度太大,不能较好的捕捉到非缺失与缺失之间的关系。而采用随机森林回归模型填补的方法,可以通过构造特征,捕捉到数据的统计分布、时序变化等特征,从而更加准确的完成长度较长的缺失填补工作。
实施例2
本实施例提供的一种客流数据缺失填补的方法与实施例1一致,仅对各个步骤进行进一步限定,如图1-3所示,包括以下步骤:
S1:获取原始数据集,判断数据集中是否存在数据缺失,若无缺失,则退出;
S2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;
S3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;
S4:构建加权移动平均模型,对小比例缺失值填补,进入S6;
S5:构建随机森林回归模型,对大比例缺失值填补;
S51:对数据集做预处理,构建相应的特征,组成训练样本;
S52:构建缺失填补模型,并训练模型;
S53:利用S52所得模型填补大比例缺失值;
S6:若遍历完成则输出数据;否则更新数据集,返回S2。
在一种优选方案中,所述的原始数据集为某地的客流统计数据集,具体字段为Time:时间,本实施例中的时间粒度为5min;Value:客流人数。
在一种优选方案中,所述的S2的具体步骤如下:从头开始遍历数据,当遇到缺失值时,将此缺失的索引添加到缺失列表中;若为连续缺失,则把连续缺失值的索引都添加到列表中。
在一种优选方案中,所述的S3的具体步骤如下:
S31:计算当前位置缺失对应的缺失列表长度为L;
S32:判断长度L,与阈值ΔL的关系;
若L≤ΔL,则表示此段缺失较短,继续下一步操作,采用加权移动平均的方法填补;若L>ΔL,则表示此段缺失较长,跳过Step4,进行Step5,利用随机森林回归模型进行填补。
在一种优选方案中,所述的S4的具体步骤如下:
S41:构建加权移动平均模型
Ft=w1xt-1+w2xt-2+w3xt-3+…+wnxt-n
其中,Ft为第t时刻的客流修正值,xt-n为t时刻前n时刻的客流值,其中n为窗口大小,wn为t时刻前n时刻的客流值的对应权重,w1+w2+…+wn=1;
S42:确定滑动窗口n的大小;滑动窗口n的大小,直接体现t时刻客流数据受到前n时刻数据的影响,n的选择依据客流数据的粒度大小,此时n=5;
S43:确定权重w的大小;权重w的长度与滑动窗口大小n是一致的。而权重w=(w1,w2,…,wn),则依据靠近目标时刻越近权重越大的原则,且w1+w2+…+wn=1;
S44:将加权移动平均模型预测的缺失区间的预测值,填补进缺失区间。
在一种优选方案中,所述的S51的具体步骤如下:
S511:数据预处理,构建相应的特征;其中客流数据的信息特征主要分为两部分,基于统计分布和基于时间关系的特征;其中基于统计分布的特征的处理方法为,将客流数据向前做平移变换;如向前平移变换1步示例,如表1所示,
表1平移变换示例
Time Value Shift_l
t X<sub>t</sub> NaN
t+1 X<sub>t+1</sub> X<sub>t</sub>
t+2 X<sub>t+2</sub> X<sub>t+1</sub>
t+3 X<sub>t+3</sub> X<sub>t+2</sub>
…… …… ……
表中:Time为时间,Value为客流数据,Shift_1为Value数据向前平移1步
基于时间关系的特征包括每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日;
S512:进行数据规范化处理;其中基于统计的平移变换特征和基于时间的每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值特征,做归一化处理;基于时间特征的是否工作日,是否节假日特征,做独热编码;
基于上述数据预处理与特征的构建方法,组成训练数据集。
在一种优选方案中,所述的S52的具体步骤如下:
S521:采用随机森林回归模型对训练样本进行建模,得到最优预测模型,用于预测缺失的客流数据;具体步骤为:将随机森林回归算法中的建立子树的数量nestimators、每棵树的最大深度max depth、结点分裂所需最小样本数min samples split和叶结点最小样本数min samples leaf,分别设置为一个区间列表,在所有候选的参数区间选择中,通过遍历的方法找到效果最优的超参数组合,存储最优模型;
S522:存储最优模型;所述的最优预测模型包括M棵决策树,分别为T1(X)、T2(X)、T3(X)、…Tm(X)…、TM(X),X={x1,x2,x3,…xi…xn,}是预测模型的n维输入向量,每棵决策树产生的预测值分别为:
Figure GDA0003816014910000081
Figure GDA0003816014910000082
所有决策树预测值的平均值即为预测模型的输出;假设客流数据所在输入空间划分为H个单元R1、R2、R3、…Rh…、RH,并且在每个单元Rh上,有一个固定的输出值为ch,训练样本集表示为D={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},那么,对于任一决策树Tm(X),其训练过程如下:
P1:从训练样本集D中q个特征字段中选d个特征作为弱回归器的特征集,且满足d=log2 q,所述的特征字段包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日。
P2:遍历d中的切分变量j和切分点s,求解下式:
Figure GDA0003816014910000083
选择出最优的对(j,s),其中,yi是xi的对应输出。
P3:用步骤P2中得到的对(j,s)划分区域,划分成两个子区域,如下:
Figure GDA0003816014910000084
P4:决定相应的输出,输出如下:
Figure GDA0003816014910000085
P5:对两个子区域循环执行步骤P2至步骤P4,直至满足预先设定的停止条件为止;
P6:生成二叉决策树:
Figure GDA0003816014910000091
其中I为指示函数,I(true)=1,I(false)=0;
并行操作步骤P1至步骤P6,生成M棵二叉决策树,即得到预测模型。
在一种优选方案中,所述的S53的具体步骤如下:
S531:获取缺失值的缺失列表,利用步骤S51的方法,构造特征信息,包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日;
S532:利用缺失值区间的特征信息作为预测模型的输入,对缺失值区间的客流数据做出预测。
在一种优选方案中,所述的S6的具体步骤如下:
S61:将S53所得模型预测的缺失区间的预测值,填补进缺失区间;
S62:更新数据集,并进行下一步检验。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种客流数据缺失填补的方法,其特征在于,包括以下步骤:
S1:获取原始数据集,判断数据集中是否存在数据缺失,若无缺失,则退出;
S2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;
具体步骤如下:从头开始遍历数据,当遇到缺失值时,将此缺失的索引添加到缺失列表中;若为连续缺失,则把连续缺失值的索引都添加到列表中;
S3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;
S3的具体步骤如下:
S31:计算当前位置缺失对应的缺失列表长度为L;
S32:判断长度L,与阈值ΔL的关系;
若L≤ΔL,则表示此段缺失较短,继续下一步操作,采用加权移动平均的方法填补;若L>ΔL,则表示此段缺失较长,跳过S4,进行S5;
S4:构建加权移动平均模型,对小比例缺失值填补,进入S6;
S4的具体步骤如下:
S41:构建加权移动平均模型:
Ft=w1xt-1+w2xt-2+w3xt-3+…+wnxt-n
其中,Ft为第t时刻的客流修正值,xt-n为t时刻前n时刻的客流值,其中n为滑动窗口大小,wn为t时刻前n时刻的客流值的对应权重,w1+w2+…+wn=1;
S42:确定滑动窗口n的大小,滑动窗口n的大小,直接体现t时刻客流数据受到前n时刻数据的影响,n的选择依据客流数据的粒度大小;
S43:确定权重w的大小,权重w的长度与滑动窗口大小n是一致的;而权重w=(w1,w2,…,wn),则依据靠近目标时刻越近权重越大的原则,且w1+w2+…+wn=1;
S44:将加权移动平均模型预测的缺失区间的预测值,填补进缺失区间;
S5:构建随机森林回归模型,对大比例缺失值填补;
S51:对数据集做预处理,构建相应的特征,组成训练样本;
S51的具体步骤如下:
S511:数据预处理,构建相应的特征;其中客流数据的信息特征主要分为两部分,基于统计分布和基于时间关系的特征;其中基于统计分布的特征的处理方法为,将客流数据向前做平移变换;基于时间关系的特征包括每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日;
S512:进行数据规范化处理;其中基于统计的平移变换特征和基于时间的每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值特征,做归一化处理;基于时间特征的是否工作日,是否节假日特征,做独热编码;
基于上述数据预处理与特征的构建方法,组成训练数据集;
S52:构建缺失填补模型,并训练模型;
S52的具体步骤如下:
S521:采用随机森林回归模型对训练样本进行建模,得到最优预测模型,用于预测缺失的客流数据;具体步骤为:将随机森林回归算法中的建立子树的数量、每棵树的最大深度、结点分裂所需最小样本数和叶结点最小样本数,分别设置为一个区间列表,在所有候选的参数区间选择中,通过遍历的方法找到效果最优的超参数组合,存储最优模型;
S522:存储最优模型;所述的最优预测模型包括M棵决策树,分别为T1(X)、T2(X)、T3(X)、…Tm(X)…、TM(X),X={x1,x2,x3,…xi...xn,}是预测模型的n维输入向量,每棵决策树产生的预测值分别为:
Figure FDA0003816014900000021
Figure FDA0003816014900000022
所有决策树预测值的平均值即为预测模型的输出;假设客流数据所在输入空间划分为H个单元R1、R2、R3、…Rh…、RH,并且在每个单元Rh上,有一个固定的输出值为ch,训练样本集表示为D={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},那么,对于任一决策树Tm(X),其训练过程如下:
P1:从训练样本集D中q个特征字段中选d个特征作为弱回归器的特征集,且满足d=log2q,所述的特征字段包括平移变换值和每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日;
P2:遍历d中的切分变量j和切分点s,求解下式:
Figure FDA0003816014900000031
选择出最优的对(j,s),其中,yi是xi的对应输出;
P3:用步骤P2中得到的对(j,s)划分区域,划分成两个子区域,如下:
Figure FDA0003816014900000032
P4:决定相应的输出,输出如下:
Figure FDA0003816014900000033
P5:对两个子区域循环执行步骤P2至步骤P4,直至满足预先设定的停止条件为止;
P6:生成二叉决策树:
Figure FDA0003816014900000034
其中I为指示函数,I(true)=1,I(false)=0;
并行操作步骤P1至步骤P6,生成M棵二叉决策树,即得到预测模型;
S53:利用S52所得模型填补大比例缺失值;
S6:若遍历完成则输出数据;否则更新数据集,返回S2。
2.根据权利要求1所述的客流数据缺失填补的方法,其特征在于,所述的原始数据集为某地的客流统计数据集。
3.根据权利要求1所述的客流数据缺失填补的方法,其特征在于,所述的S53的具体步骤如下:
S531:获取缺失值的缺失列表,利用步骤S51的方法,构造特征信息;
S532:利用缺失值区间的特征信息作为预测模型的输入,对缺失值区间的客流数据做出预测。
4.根据权利要求3所述的客流数据缺失填补的方法,其特征在于,所述的S6的具体步骤如下:
S61:将S53所得模型预测的缺失区间的预测值,填补进缺失区间;
S62:更新数据集,并进行下一步检验。
CN201911067242.1A 2019-11-04 2019-11-04 一种客流数据缺失填补的方法 Active CN110991696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911067242.1A CN110991696B (zh) 2019-11-04 2019-11-04 一种客流数据缺失填补的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911067242.1A CN110991696B (zh) 2019-11-04 2019-11-04 一种客流数据缺失填补的方法

Publications (2)

Publication Number Publication Date
CN110991696A CN110991696A (zh) 2020-04-10
CN110991696B true CN110991696B (zh) 2022-11-04

Family

ID=70083153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911067242.1A Active CN110991696B (zh) 2019-11-04 2019-11-04 一种客流数据缺失填补的方法

Country Status (1)

Country Link
CN (1) CN110991696B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563077B (zh) * 2020-05-12 2023-04-25 国网山东省电力公司泰安供电公司 一种电网电压数据缺失填补方法、系统、终端及存储介质
CN113468152A (zh) * 2021-06-04 2021-10-01 国网上海市电力公司 高频用户用电数据清洗方法、系统、设备及存储介质
CN113447970B (zh) * 2021-06-28 2023-05-23 潍柴动力股份有限公司 一种导航数据连续缺失数据填补方法、装置和导航系统
CN114116742B (zh) * 2021-11-18 2023-08-08 佳都科技集团股份有限公司 一种基于地铁综合监控系统的时序数据填补方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810368B1 (en) * 1998-06-29 2004-10-26 International Business Machines Corporation Mechanism for constructing predictive models that allow inputs to have missing values
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843423B2 (en) * 2012-02-23 2014-09-23 International Business Machines Corporation Missing value imputation for predictive models
CN108830417B (zh) * 2018-06-13 2021-01-08 山东师范大学 一种基于arma和回归分析的生活能源消费预测方法及系统
CN109168177B (zh) * 2018-09-19 2022-01-04 广州丰石科技有限公司 基于软采信令的经纬度回填方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810368B1 (en) * 1998-06-29 2004-10-26 International Business Machines Corporation Mechanism for constructing predictive models that allow inputs to have missing values
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于支持向量机的缺失值填补算法;张婵;《计算机应用与软件》;20130515(第05期);全文 *

Also Published As

Publication number Publication date
CN110991696A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991696B (zh) 一种客流数据缺失填补的方法
CN109634924B (zh) 基于机器学习的文件系统参数自动调优方法及系统
CN109168177B (zh) 基于软采信令的经纬度回填方法
CN111932039A (zh) 一种列车到站晚点预测方法、装置、电子设备及存储介质
CN110334208B (zh) 基于贝叶斯信念网络的lkj故障预测诊断方法和系统
CN113328755A (zh) 一种面向边缘计算的压缩数据传输方法
CN117971808B (zh) 企业数据标准层次关系智能构建方法
CN110851450A (zh) 一种基于增量计算的伴随车即时发现方法
CN116561327B (zh) 基于聚类算法的政务数据管理方法
CN116522912B (zh) 一种包装设计语言模型的训练方法、装置、介质及设备
CN117807374A (zh) 备件异常领用数据识别方法、装置和计算机设备
CN116861373A (zh) 一种查询选择率估算方法、系统、终端设备及存储介质
CN111784402A (zh) 基于多通路的下单率预测方法、设备及可读存储介质
CN116796894A (zh) 一种高效深度学习气象预测模型的构建方法
CN116861985A (zh) 一种基于卷积层相对信息熵的神经网络剪枝子网搜索方法
CN111046912A (zh) 特征衍生方法、装置及计算机设备
CN111221864B (zh) 一种基于mysql慢查询日志词频分析的索引智能推荐方法
US10740314B2 (en) System and method of providing a platform for recognizing tabular data
Liu et al. Research on the prediction of short time series based on EMD-LSTM
CN117216490B (zh) 一种智能大数据采集系统
CN117312350B (zh) 钢铁行业碳排放数据管理方法及装置
Manning et al. Volume and Direction of the Atlantic Slave Trade, 1650-1870: Estimates by Markov Chain Carlo Analysis
WO2022156743A1 (zh) 特征构建方法和装置、模型训练方法和装置、设备、介质
CN117932533B (zh) 基于贝叶斯统计的地球科学多源数据融合方法及系统
Yarmohammadi et al. Improving recurrent forecasting in singular spectrum analysis using Kalman filter algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant