CN110275895B - 一种缺失交通数据的填充设备、装置及方法 - Google Patents

一种缺失交通数据的填充设备、装置及方法 Download PDF

Info

Publication number
CN110275895B
CN110275895B CN201910554971.3A CN201910554971A CN110275895B CN 110275895 B CN110275895 B CN 110275895B CN 201910554971 A CN201910554971 A CN 201910554971A CN 110275895 B CN110275895 B CN 110275895B
Authority
CN
China
Prior art keywords
traffic data
algorithm
filling
missing
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910554971.3A
Other languages
English (en)
Other versions
CN110275895A (zh
Inventor
蔡延光
阮嘉琨
蔡颢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910554971.3A priority Critical patent/CN110275895B/zh
Publication of CN110275895A publication Critical patent/CN110275895A/zh
Application granted granted Critical
Publication of CN110275895B publication Critical patent/CN110275895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种缺失交通数据的填充设备、装置、方法及可读存储介质,能够获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据算法参数利用最大偏差相似性准则算法对缺失交通数据集进行聚类,得到聚类簇集合;最终利用KNN填充算法分别对聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。可见,该方案针对KNN填充算法易产生最邻近噪点的问题,使用最大偏差相似性准则来针对缺失交通数据进行聚类,此外针对最大偏差相似性准则算法的参数选取困难的问题,利用骨干粒子群算法对其参数优化。实现了准确填充缺失交通数据的目的,保证了缺失交通数据的分析结果的可靠性。

Description

一种缺失交通数据的填充设备、装置及方法
技术领域
本申请涉及数据填充领域,特别涉及一种缺失交通数据的填充设备、装置、方法及可读存储介质。
背景技术
由于高速路上检测仪器硬件的损坏或软件运作失误等原因,在观察高速公路交通数据的过程中发现,缺失数据是非常常见的。数据缺失会影响到后面的数据分析步骤,导致无法对高速公路上实际的交通状态进行合理分析处理,因而难以对该高速路的交通情况作出准确预测以及报警。
可见,对高速公路的缺失交通数据进行处理是高速公路智能交通数据质量优化控制系统中至关重要的一步,然而现有的缺失数据填充方案的准确性较低,导致即使在填充缺失数据后也无法提升数据分析结果的可靠性。
发明内容
本申请的目的是提供一种缺失交通数据的填充设备、装置、方法及可读存储介质,用以解决现有的缺失数据填充方案的准确性较低,导致即使在填充缺失数据后也无法提升数据分析结果的可靠性的问题。具体方案如下:
第一方面,本申请提供了一种缺失交通数据的填充设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现以下步骤:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
优选的,所述处理器还用于:
获取预先设置的最大偏差相似性准则算法的算法参数的初始取值范围;将所述算法参数作为骨干粒子群算法中骨干粒子的位置向量,利用骨干粒子群算法对所述骨干粒子的位置向量进行优化,得到所述算法参数在所述初始取值范围上的最优取值。
优选的,所述处理器具体用于:
初始化骨干粒子群算法中骨干粒子的位置向量;
对所述骨干粒子的位置向量进行更新;
判断更新后的位置向量是否发生越界行为;
若没有发生,则确定所述更新后的位置向量的适应度数值;
根据所述适应度值,分别对所述骨干粒子的最优位置向量和整个骨干粒子群的最优位置向量进行更新;
在达到预设终止条件时,确定最优位置向量。
优选的,所述处理器具体用于:
根据KNN填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
确定最小的预设数量的欧式距离所对应的目标完整交通数据;
根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺失交通数据进行填充。
第二方面,本申请还提供了一种缺失交通数据的填充装置,包括:
数据获取模块:用于获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;
聚类模块:用于根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;
数据填充模块:用于利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
优选的,缺失交通数据的填充装置还包括:
初始范围设置模块:用于设置最大偏差相似性准则算法的算法参数的初始取值范围;
最优取值确定模块:用于将所述算法参数作为骨干粒子群算法中骨干粒子的位置向量,利用骨干粒子群算法对所述骨干粒子的位置向量进行优化,得到所述算法参数在所述初始取值范围上的最优取值。
优选的,所述数据填充模块包括:
欧式距离确定单元:用于根据KNN填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
目标完整交通数据确定单元:用于确定最小的预设数量的欧式距离所对应的目标完整交通数据;
数据填充单元:用于根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺失交通数据进行填充。
第三方面,本申请还提供了一种缺失交通数据的填充方法,包括:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;
根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;
利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
第四方面,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现以下步骤:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
本申请所提供的一种缺失交通数据的填充设备、装置、方法及可读存储介质,能够获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据算法参数,利用最大偏差相似性准则算法对缺失交通数据集进行聚类,得到聚类簇集合;最终利用KNN填充算法分别对聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
可见,该方案考虑到交通数据特点,基于最大偏差相似性准则算法与KNN填充算法对缺失交通数据进行填充,一方面,针对KNN填充算法易产生最邻近噪点的问题,使用最大偏差相似性准则来针对缺失交通数据进行聚类,另一方面,针对最大偏差相似性准则算法的参数选取困难的问题,利用骨干粒子群算法对其参数优化。最终实现了准确填充缺失交通数据的目的,保证了填充后的交通数据的分析结果的可靠性。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种缺失交通数据的填充设备实施例一的结构示意图;
图2为一种缺失交通数据的填充设备实施例二的填充过程示意图;
图3为本申请提供的对比实验的实验结果示意图;
图4为一种缺失交通数据的填充设备装置实施例的功能框图;
图5为一种缺失交通数据的填充方法的实现流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,采集到的交通数据往往存在缺失数据,缺失数据为后续数据分析过程带来诸多干扰,导致数据分析结果失真。然而,现有的数据填充方法无法准确填充缺失数据,无法提升缺失交通数据分析结果的可靠性。针对该问题,本申请提供一种缺失交通数据的填充设备、装置、方法及可读存储介质,利用基于骨干粒子群算法优化的最大偏差相似性准则算法对缺失交通数据进行聚类,并利用KNN填充算法分别对各个聚类簇中的缺失交通数据进行填充,实现了准确填充缺失交通数据的目的,提升了缺失交通数据的分析结果的可靠性。
下面对本申请提供的一种缺失交通数据的填充设备实施例一进行介绍,参见图1,实施例一包括:
存储器100:用于存储计算机程序;
处理器200:用于执行所述计算机程序,以实现以下步骤:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
上述缺失交通数据集包括缺失交通数据,此外还包括完整交通数据,具体形式为时间序列数据,其中缺失交通数据是指在特定时间未按计划从特定主体获得特定变量的交通数据。
在本实施例中,缺失交通数据的填充设备可以是PC(Personal Computer,个人电脑),也可以是服务器、平板电脑、网络节点等。
存储器100至少包括一种类型的可读存储介质,具体可以包括以下任意一项或多项可读存储介质:闪存、硬盘、多媒体卡、卡型存储器、磁性存储器、磁盘、光盘。在一些实施例中,存储器100可以是缺失交通数据的填充设备的内部存储单元,例如缺失交通数据的填充设备的硬盘;也可以是缺失交通数据的填充设备的外部存储设备,例如缺失交通数据的填充设备上的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器100还可以既包括缺失交通数据的填充设备的内部存储单元,也包括外部存储设备。存储器100不仅可以用于存储安装于缺失交通数据的填充设备的应用软件及各类数据,例如计算机程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器200在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器100中存储的程序代码或处理数据,例如执行计算机程序等。
存储器100与处理器200之间的总线可以是外设部件互连标准总线或扩展工业标准结构总线等,该总线具体可以分为地址总线、数据总线、控制总线。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
具体的,在利用骨干粒子群算法优化最大偏差相似性准则算法的算法参数的过程中,处理器200用于:
获取预先设置的最大偏差相似性准则算法的算法参数的初始取值范围;将所述算法参数作为骨干粒子群算法中骨干粒子的位置向量,利用骨干粒子群算法对所述骨干粒子的位置向量进行优化,得到所述算法参数在所述初始取值范围上的最优取值。
作为一种具体的实施方式,在利用骨干粒子群算法对骨干粒子的位置向量进行优化的过程中,处理器200用于:
初始化骨干粒子群算法中骨干粒子的位置向量;
对所述骨干粒子的位置向量进行更新;
判断更新后的位置向量是否发生越界行为;
若没有发生,则确定所述更新后的位置向量的适应度数值;
根据所述适应度值,分别对所述骨干粒子的最优位置向量和整个骨干粒子群的最优位置向量进行更新;
在达到预设终止条件时,确定最优位置向量。
具体的,在利用KNN填充算法分别对聚类簇集合中聚类簇的缺失交通数据进行填充的过程中,处理器200用于:
根据KNN填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
确定最小的预设数量的欧式距离所对应的目标完整交通数据;
根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺失交通数据进行填充。
本实施例所提供一种缺失交通数据的填充设备,考虑到交通数据特点,基于最大偏差相似性准则算法与KNN填充算法对缺失交通数据进行填充,一方面,针对KNN填充算法易产生最邻近噪点的问题,使用最大偏差相似性准则来针对缺失交通数据进行聚类,另一方面,针对最大偏差相似性准则算法的参数选取困难的问题,利用骨干粒子群算法对其参数优化。最终实现了准确填充缺失交通数据的目的,保证了填充后的交通数据的分析结果的可靠性。
下面开始详细介绍本申请提供的一种缺失交通数据的填充设备实施例二,实施例二基于上述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
实施例二中缺失交通数据的填充设备主要包括存储器和处理器,本实施例主要对缺失交通数据的填充设备的工作流程进行介绍,参见图2,工作流程具体包括:
步骤S21、获取缺失交通数据集;
具体的,上述缺失交通数据集可以为高速公路的缺失交通数据集,根据缺失交通数据集构建n×m的时间序列数据Ai=(Ai1,Ai2,...,Aim),其中i=1,2,...,n,Aij(j=1,2,...,m)为交通数据记录。
步骤S22、执行骨干粒子群算法的初始化操作;
初始化操作主要包括参数设置和种群初始化两个过程,下面分别就这两个过程进行介绍:
参数设置:设置粒子数目为N;粒子群算法迭代最大次数tmax;最大偏差相似性准则算法的参数α,β,γ各自的取值范围分别为[Radown,Raup],[Rβdown,Rβup]与[Rγdown,Rγup]。其中,Radown为α的下界,取值范围为[0.3,0.8];Raup为α的上界,取值范围为[0.9,1.6];Rβdown为β的下界,取值范围为(0,1);Rβup为β的上界,取值范围为[0.3,1);Rγdown为γ的下界,取值范围为(0,0.1];Rγup为γ的上界,取值范围为[0.1,0.5]。作为一种具体的实施方式,本实施例设置骨干粒子群种群数目为N=30,最大迭代次数tmax=1000,Radown=0.7,Raup=0.9,Rβdown=m-1,Rβup=1-α,Rγdown=0.05,Rγup=0.25,m=96。
初始化种群:对每个粒子定义位置为x,将最大偏差相似性准则算法的参数(α,β,γ)作为骨干粒子的位置向量,对每个i,第i只磷虾的位置为xi=(xi1,xi2,xi3),其中xi1∈[Radown,Raup],xi2∈[Rβdown,Rβup],xi3∈[Rγdown,Rγup]。
步骤S23、执行骨干粒子群算法,得到最优粒子位置,以作为最大偏差相似性准则算法的最优参数;
步骤S24、根据上述最优参数,利用最大偏差相似性准则算法对缺失交通数据集进行聚类,得到聚类簇集合;
如图2所示,聚类簇集合包括n个聚类簇。
步骤S25、对于聚类簇集合中的各个聚类簇,根据KNN填充算法对所述聚类簇中的缺失交通数据进行填充;
步骤S26、得到完整交通数据集。
作为一种具体的实施方式,本实施例的步骤S23具体包括以下步骤:
步骤S231:根据骨干粒子群每个个体的位置,计算适应度函数的函数值;
步骤S232:更新骨干粒子群中个体位置;
具体的,更新个体粒子位置公式如式(1)所示:
Figure BDA0002106625010000081
其中,Pbij(t)为i粒子在当前迭代的最优位置的j维度的量,Gbj(t)是当前迭代最优解的位置向量的j维度的量。
步骤S233、判断粒子个体是否有越界行为,若有则重新初始化,否则进入S234;
步骤S234、重新计算全部粒子个体的适应度值;
步骤S235、更新所有粒子个体的Pb,并将粒子群全局历史最优位置赋给Gb;
更新公式如式(2)所示:
Figure BDA0002106625010000091
步骤S236、判断是否达到终止条件,如果达到进入步骤S237,否则跳转到S232;
步骤S237、输出最优粒子位置。
根据前文描述,可以理解的是,本实施例对于骨干粒子每一维度的界限如下:
xminj≤xij(t+1)≤xmaxj (3)
Figure BDA0002106625010000092
Figure BDA0002106625010000093
Figure BDA0002106625010000094
其中xminj及xmaxj分别为全局j维度上的下界和上界。
作为一种具体的实施方式,本实施例的步骤S24具体包括以下步骤:
步骤S241、根据最优粒子位置,确定最大偏差相似性准则算法精度的最优参数;
步骤S242、将交通数据曲线集合赋给F集合,得F={x1,x2,...,xn},将交通数据曲线数量赋给NF,得NF=n,并根据最大偏差相似性准则算法算出n0以及m0
本实施例中,设最大偏差相似性准则算法中聚类结果数据集为D,还未被分类的数据曲线集合为F,F集合里面的数据曲线数量是NF,以及xi作为核心的相似数据集合为S(xi),其中数据曲线数量N(xi)=|S(xi)|,S(xi)集合里其余的曲线跟核心xi总的度量距离d(xi),初始化:
Figure BDA0002106625010000101
NF=0,
Figure BDA0002106625010000102
d(xi)=0。
最大偏差相似性准则内容如下:
(1)设xi和xj所相应时间点之间的绝对差值为Sijk,其中i,j=1,2,...,n,k=1,2,...,m,绝对差值公式如式(7)所示:
Sijk=|xik-xjk| (7)
(2)设所有小于等于γ的Sijk个数为nij,即nij={Sijk≤γ},同时nij被称为xi跟xj之间的相似时点数;相反设mij是能够连续满足Sijk>γ这一条件的Sijk最多的个数,同时称之为xi跟xj的最大连续偏离时点数,其中i,j的取值范围为[1,n];k∈{1,2,…,m};γ是提前设置的一个常数值,并满足0≤γ≤1,是度量xi与xj对应的时间点之间的数据相似性的阈值。当Sijk大于γ时,可确认xik跟xjk是不相似的,相反则表示它们是相似的;关于mij的计算公式如式(8)所示:
Figure BDA0002106625010000103
以高速公路交通数据xi作为参考对象,根据公式(7)来算出xj和参考对象之间的mij以及nij,最大偏差相似性准则如下两条:
(a)设相似度为n0,并让n0=[α×m],其中α是预先设置的常数,取值范围:0≤α≤1-m-1,使得nij≥n0
(b)设偏离度为m0,并让m0=[β×m],其中β是预先设置的常数,取值范围:0≤β≤1-α,使得mij≤m0
若满足最大偏差相似性准则,可以确认xj跟xi是相似的。
步骤S243、对全部i,j=1,2,...,n且i≤j,根据最大偏差相似性准则算法算出nij与mij,并根据式(9)得到xi和xj之间的度量距离:
具体的距离公式为:
Figure BDA0002106625010000111
步骤S244、对全部i,j=1,2,...,n且i≤j,将xi当做中心点,同时把算得的nij和mij分别跟n0、m0对比,对于能够达到最大偏差相似性准则的数据曲线放进S(xi)集合里面,并让S(xi)=S(xi)∪{xj},同样的使S(xj)=S(xj)∪{xi},再让N(xi)=|S(xi)|,通过式(10)得到d(xi):
Figure BDA0002106625010000112
步骤S245、判断NF是否等于0,若是则跳转到S249,反之则执行S246;
步骤S246、在F集合中根据N(xi)值进行降序排序,找到最大N(xi)值对应的对象,同时设y1,y2,...,yt是符合要求的所有对象,yi∈F,i=1,2,...,t,并求数据曲线z0,要求d(z0)=min{d(yi)},且z0∈{y1,y2,...,yt},如果存在不止一个这样的数据曲线z0,要从中选一个。
步骤S247、更新最大偏差相似性准则算法聚类结果数据集D,即D=D∪{S(z0)},并更新未被分类的数据曲线集合为F以及其包含的数据曲线数量NF,即F=F-S(z0),NF=NF-N(xi)。
步骤S248、计算未聚类数据曲线的N值以及距离d,即选取所有z∈F,让S(z)=S(z)-S(z0),得到N(z)=|S(z)|,同时通过式(10)算出d(z),然后跳转到S234;
步骤S249、输出最后的最大偏差相似性准则算法聚类结果数据集D。
作为一种具体的实施方式,本实施例的步骤S25具体包括以下步骤:
S251、对于各个缺失数据,分别判断其属于S24确定的聚类簇集合中哪个聚类簇,根据缺失数据所在簇内的数据构建完整记录的数据矩阵Af=(Af1,Af2,...,Afm),设缺失数据的数量为t,缺失目标为ai(i=1,2,...,t);
S252、计算出同一簇内的每个正常数据记录与该目标ai的欧式距离,放到集合Di;
S253、对欧式距离集合Di里的值进行排序筛选,选取前k个最小的欧式距离值所对应的高速路交通数据作为缺失目标ai的k邻近值;
S254、得到k个邻近值后,计算这k个值的加权平均值Fi,即该缺失数据ai的填补值,令ai=Fi,并令i=i+1;
S255、确定i和t的大小关系,若i﹥t执行S256,否则返回S252;
S256、在所有聚类簇的缺失数据被全部填充完毕,结束算法。
本实施例中,加权平均值F的计算公式如下:
Figure BDA0002106625010000121
其中e为常数,d为欧式距离,xj为k个邻近值的其中一个完整数据。
可见,本实施例提供了一种缺失交通数据的填充设备,上文主要对该设备执行的方案进行了描述,根据上文可知,该方案提供了基于最大偏差相似性准则与KNN的缺失数据填充算法来对缺失交通数据进行填充的方案。具体的,针对最大偏差相似性准则算法的参数选取困难问题,该方案基于骨干粒子群算法对其参数优化;针对KNN填充算法会产生最邻近噪点的问题,该方案使用参数优化后的最大偏差相似性准则算法来针对缺失交通数据中缺失属性对完整交通数据进行聚类,并利用KNN填充算法对聚类得到各个聚类簇进行填充。显著提升了缺失交通数据的填充方案的准确性和实时性。
为证明本实施例的实施效果,本申请还进行了仿真实验,对本申请中基于参数优化后的最大偏差相似性准则算法的KNN填充算法、基于传统的最大偏差相似性准则算法的KNN填充算法、KNN填充算法三种方案进行了对比。如图3所示,在缺失比例由0到50%的区间中华,本申请中基于参数优化后的最大偏差相似性准则算法的KNN填充算法的实施效果均优于其他两种算法,缺失交通数据填补的RMSE值更小,效果更优。
下面对本申请实施例提供的一种缺失交通数据的填充装置进行介绍,如图4所示,该装置包括:
数据获取模块401:用于获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;
聚类模块402:用于根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;
数据填充模块403:用于利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
作为一种具体的实施方式,该装置还包括:
初始范围设置模块:用于设置最大偏差相似性准则算法的算法参数的初始取值范围;
最优取值确定模块:用于将所述算法参数作为骨干粒子群算法中骨干粒子的位置向量,利用骨干粒子群算法对所述骨干粒子的位置向量进行优化,得到所述算法参数在所述初始取值范围上的最优取值。
作为一种具体的实施方式,所述数据填充模块403包括:
欧式距离确定单元:用于根据KNN填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
目标完整交通数据确定单元:用于确定最小的预设数量的欧式距离所对应的目标完整交通数据;
数据填充单元:用于根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺失交通数据进行填充。
本实施例的缺失交通数据的填充装置与前述缺失交通数据的填充设备实施例的实施方案相对应,具体的,本实施例的缺失交通数据的填充装置可以为一组功能模块架构,例如APP程序,用于实现前述缺失交通数据的填充设备的工作流程。
此外,本申请还提供了一种缺失交通数据的填充方法,如图5所示,包括:
步骤S501、获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;
步骤S502、根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;
步骤S503、利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
最后,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现以下步骤:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;利用KNN填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (7)

1.一种缺失交通数据的填充设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现以下步骤:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;利用 KNN 填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集;
其中,所述处理器具体用于:
根据 KNN 填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
确定最小的预设数量的欧式距离所对应的目标完整交通数据;根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺失交通数据进行填充。
2.如权利要求 1 所述的缺失交通数据的填充设备,其特征在于,所述处理器还用于:
获取预先设置的最大偏差相似性准则算法的算法参数的初始取值范围;将所述算法参数作为骨干粒子群算法中骨干粒子的位置向量,利用骨干粒子群算法对所述骨干粒子的位置向量进行优化,得到所述算法参数在所述初始取值范围上的最优取值。
3.如权利要求 2 所述的缺失交通数据的填充设备,其特征在于,所述处理器具体用于:
初始化骨干粒子群算法中骨干粒子的位置向量;
对所述骨干粒子的位置向量进行更新;
判断更新后的位置向量是否发生越界行为;
若没有发生,则确定所述更新后的位置向量的适应度数值;
根据所述适应度数 值,分别对所述骨干粒子的最优位置向量和整个骨干粒子群的最优位置向量进行更新;
在达到预设终止条件时,确定最优位置向量。
4.一种缺失交通数据的填充装置,其特征在于,包括:
数据获取模块:用于获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;
聚类模块:用于根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;
数据填充模块:用于利用 KNN 填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集;
其中,所述数据填充模块包括:
欧式距离确定单元:用于根据 KNN 填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
目标完整交通数据确定单元:用于确定最小的预设数量的欧式距离所对应的目标完整交通数据;
数据填充单元:用于根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺失交通数据进行填充。
5.如权利要求 4 所述的缺失交通数据的填充装置,其特征在于,还包括:
初始范围设置模块:用于设置最大偏差相似性准则算法的算法参数的初始取值范围;
最优取值确定模块:用于将所述算法参数作为骨干粒子群算法中骨干粒子的位置向量,利用骨干粒子群算法对所述骨干粒子的位置向量进行优化,得到所述算法参数在所述初始取值范围上的最优取值。
6.一种缺失交通数据的填充方法,其特征在于,包括:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;
根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;
利用 KNN 填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集;
其中,所述利用 KNN 填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充包括:
根据 KNN 填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
确定最小的预设数量的欧式距离所对应的目标完整交通数据;
根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺失交通数据进行填充。
7.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现以下步骤:
获取待填充的缺失交通数据集,并获取利用骨干粒子群算法优化得到的最大偏差相似性准则算法的算法参数;根据所述算法参数,利用最大偏差相似性准则算法对所述缺失交通数据集进行聚类,得到聚类簇集合;利用 KNN 填充算法分别对所述聚类簇集合中聚类簇的缺失交通数据进行填充,得到完整交通数据集;
其中,所述处理器具体用于:
根据 KNN 填充算法,确定所述聚类簇中缺失交通数据与所述聚类簇中各个完整交通数据之间的欧氏距离;
确定最小的预设数量的欧式距离所对应的目标完整交通数据;
根据所述目标完整交通数据的加权平均值,对所述聚类簇中的缺
失交通数据进行填充。
CN201910554971.3A 2019-06-25 2019-06-25 一种缺失交通数据的填充设备、装置及方法 Active CN110275895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910554971.3A CN110275895B (zh) 2019-06-25 2019-06-25 一种缺失交通数据的填充设备、装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910554971.3A CN110275895B (zh) 2019-06-25 2019-06-25 一种缺失交通数据的填充设备、装置及方法

Publications (2)

Publication Number Publication Date
CN110275895A CN110275895A (zh) 2019-09-24
CN110275895B true CN110275895B (zh) 2021-07-06

Family

ID=67962338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910554971.3A Active CN110275895B (zh) 2019-06-25 2019-06-25 一种缺失交通数据的填充设备、装置及方法

Country Status (1)

Country Link
CN (1) CN110275895B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046977A (zh) * 2019-12-30 2020-04-21 成都康赛信息技术有限公司 基于em算法和knn算法的数据预处理方法
CN113065574A (zh) * 2021-02-24 2021-07-02 同济大学 一种半导体制造系统数据预处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407258A (zh) * 2016-08-24 2017-02-15 广东工业大学 一种缺失数据预测方法及装置
CN106708659A (zh) * 2016-12-02 2017-05-24 上海电机学院 一种自适应最近邻缺失数据的填充方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936958B2 (en) * 2017-02-28 2021-03-02 International Business Machines Corporation Sequencing of input prompts for data structure completion
CN108846434A (zh) * 2018-06-11 2018-11-20 广东工业大学 一种基于改进K-means聚类算法的缺失数据填充方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407258A (zh) * 2016-08-24 2017-02-15 广东工业大学 一种缺失数据预测方法及装置
CN106708659A (zh) * 2016-12-02 2017-05-24 上海电机学院 一种自适应最近邻缺失数据的填充方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《kNN填充算法的分析和改进研究》;黄樑昌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110115(第01期);第I138-1111页 *
《基于优化决策树和EM的缺失数据填充算法》;梁秉毅 等;《自动化与信息工程》;20171031;第38卷(第5期);第37-43页 *
《基于最大偏差相似性准则的交通流聚类算法》;黄何列 等;《计算机应用研究》;20180831;第35卷(第8期);第2274-2276、2292页 *
《精电火花电磁波特征及识别的研究》;杨凯宁;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180315(第03期);第I140-229页 *

Also Published As

Publication number Publication date
CN110275895A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN107808122B (zh) 目标跟踪方法及装置
CN112232495B (zh) 预测模型的训练方法、装置、介质和计算设备
CN108932301B (zh) 数据填充方法及装置
CN110275895B (zh) 一种缺失交通数据的填充设备、装置及方法
CN109978006B (zh) 人脸图像的聚类方法和装置
CN115755954B (zh) 巡检路径规划方法、系统、计算机设备及存储介质
CN116681104B (zh) 分布式空间图神经网络的模型建立及实现方法
CN111898682A (zh) 基于多个源模型修正新模型的方法、装置以及计算机设备
Alimo et al. Optimization combining derivative-free global exploration with derivative-based local refinement
CN113436223B (zh) 点云数据的分割方法、装置、计算机设备和存储介质
CN116112563A (zh) 一种基于流行度预测的双策略自适应缓存替换方法
CN114417095A (zh) 一种数据集划分方法及装置
CN114168318A (zh) 存储释放模型的训练方法、存储释放方法及设备
CN116433050B (zh) 应用于农业大数据管理系统的异常报警方法及系统
CN111258968B (zh) 企业冗余数据清理方法、装置及大数据平台
CN115391745B (zh) 一种基于概率匹配平均法的降水预报订正方法及系统
CN111177190A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN111091022A (zh) 机器视觉的效能评估方法与系统
CN112991080A (zh) 关键节点计算方法、系统、电子设备及存储介质
CN110675424A (zh) 一种图像中目标物的跟踪方法、系统及相关装置
CN108090604A (zh) 基于梯形公式改进的gm(1,1)模型预测方法
CN111833199A (zh) 社区结构的划分方法、装置、设备及计算机可读介质
WO2024012179A1 (zh) 模型训练方法、目标检测方法及装置
CN116614392B (zh) 路由开销确定方法、路由开销监控方法及装置
CN115543226B (zh) 一种闪存数据存储处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant