CN106202335A - 一种基于云计算框架的交通大数据清洗方法 - Google Patents

一种基于云计算框架的交通大数据清洗方法 Download PDF

Info

Publication number
CN106202335A
CN106202335A CN201610517414.0A CN201610517414A CN106202335A CN 106202335 A CN106202335 A CN 106202335A CN 201610517414 A CN201610517414 A CN 201610517414A CN 106202335 A CN106202335 A CN 106202335A
Authority
CN
China
Prior art keywords
data
cluster centre
cluster
block
eigenvalue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610517414.0A
Other languages
English (en)
Other versions
CN106202335B (zh
Inventor
温晓岳
沈坚
单振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinjiang Technology Co.,Ltd.
Original Assignee
Enjoyor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enjoyor Co Ltd filed Critical Enjoyor Co Ltd
Priority to CN201610517414.0A priority Critical patent/CN106202335B/zh
Publication of CN106202335A publication Critical patent/CN106202335A/zh
Application granted granted Critical
Publication of CN106202335B publication Critical patent/CN106202335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于云计算框架的交通大数据清洗方法,首先,扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的邻近二次均值填充;然后,将具有相似数据变化规律的数据聚成一类,获得该路段数据的聚类中心;最后,新数据匹配距离最小的聚类中心编号,进行异常数据的更新或剔除。本发明在云计算(Hadoop的Map/Reduce)框架下,针对交通数据高维、海量、数据更新快的特点,利用集群系统的并行计算能力来解决面临的海量交通数据的快速清洗问题,能够快速且有效的挖掘交通数据相似性特征,用于清洗异常数据。

Description

一种基于云计算框架的交通大数据清洗方法
技术领域
本发明属于智能交通系统范畴,涉及一种基于云计算框架的交通大数据清洗方法。
背景技术
智能交通系统有助于改善交通通行情况,对于受交通拥堵困扰的城市,交通拥堵问题越来越受到人们的关注。交通传感器是智能交通系统数据的重要来源。但是受设备精度、设备故障、采集环境等多种因素的影响,往往会采集到异常或出错的数据。这将降低智能交通系统大部分应用(比如交通状态估计、交通状态预测)的准确性。因此,需要对交通数据进行清洗,填补缺失数据、剔除出错数据、修正异常数据。目前使用的交通传感器种类多、采样频率高,系统将面对海量的交通数据,在清洗过程中需要考虑处理效率。
Map/Reduce是一种编程模型,用于大规模数据集的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将程序运行在分布式系统上。针对具体应用,实现该模型需要指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。因此,采用Map/Reduce框架时,重点是设计Map和Reduce两个函数。
通过调研发现,现有交通数据清洗方面的工作包括:王晓原等《交通流数据清洗与状态辨识及优化控制关键理论方法》结合中国高速公路道路交通基础设施现状和未来发展的需要,对我国的交通流状态辨识框架及其关键理论和方法进行了研究,提出了交通流数据清洗的方法;他们的文章《交通流数据清洗规则研究》也提出了交通数据清洗的规则。这些规则都是结合交通流理论提出,适合高速路等道路的情况,本专利从数据本身出发,采用了聚类获取交通运行规律的方法,适用于城市道路等交通复杂度高的情况;专利《基于时空分析的交通流数据清洗方法》采用交通流在时间和空间上的关系,提出了数据清洗的方法;国外的研究工作者还提出了状态相空间重构模型、小波分解模型、神经网络、支持向量机等方法,但是复杂度都较高,很难实际应用于处理大数据。同时,上述工作都没有考虑面对T级别(日处理量大于500G)交通大数据的情况,包括如何进行高效数据处理。
现有的传感器采集交通数据存在数据缺失、数据异常和数据错误等问题,所指的数据缺失为由于传感器或网络通信原因智能交通系统未采集到数据或缺失了某一维的数据;数据异常为由于传感器本身设备误差或环境偶发因素引起的数据偏离正常值;数据错误为采集或传输出错,导致的数据严重偏离正常值,出现错误。
发明内容
为了克服已有交通数据清洗方式的处理效率较低、无法适用于大数据的不足,本发明提供了一种提升处理效率、有效适用于大数据的基于云计算框架的交通大数据清洗方法,在云计算(Hadoop的Map/Reduce)框架下,针对交通数据高维、海量、数据更新快的特点,利用集群系统的并行计算能力来解决面临的海量交通数据的快速清洗问题,能够快速且有效的挖掘交通数据相似性特征,用于清洗异常数据。
本发明解决其技术问题所采用的技术方案是:
一种基于云计算平台的交通大数据清洗方法,包括以下步骤:
步骤1:缺失数据补全
扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的均值填充;需要根据数据产生的位置进行分发,由不同的子节点并行处理;
步骤2:聚类获取路段特征数据
将具有相似数据变化规律的数据聚成一类,获得该路段数据的特征值,所述特征值为聚类中心为;每个聚类过程由不同节点完成,特征值的获取由reduce步骤完成,步骤如下:
步骤2.1:根据路段标号r对数据集τ进行分割,获得N个数据块,然后,每个数据块分割为M个子数据块,获得N×M个子数据块,并分发给子节点;
步骤2.2:子节点把数据块分配给N×M个Map函数,每个MAP任务处理一个子数据块;
步骤2.3:在Map函数中,首先,对子数据块进行聚类,获得聚类中心ci(i=1,2,3,...,K),聚类中心数目K由压缩因子α确定,K=floor(α*N),floor表示向下取整;然后,离散化聚类中心,以道路标号(r)为键值构造数据对象进行分发,数据对象属性包含键值、聚类中心ci和中心点数目K、传感器数据集合、数据元素和位置信息,所述键值为路段标号r;
步骤2.4:在Reduce函数中,合并多个子数据块的聚类中心,获得特征值xl(l=1,2,3,...,K′),K′为特征值个数,步骤为:
2.4.1)计算两个聚类中心(ci、cj)之间的欧式距离lij,获得两个聚类中心之间的最小欧式距离lmin,lmin=min(|ci-cj|),其中i,j∈K且i≠j,|*|表示欧式距离;
2.4.2)特征值计算采用:xl=avg(c1,c2,...,ck),k为满足合并条件的聚类中心个数,当多个聚类中心ck满足合并条件lij<(1+α)*lmin时,特征值为多个聚类中心的平均值,当一个聚类中心ck与其他聚类中心的欧式距离都不满足合并条件时,特征值为它自身;
2.4.3)若K′<K,聚类过程结束;反之,调整压缩因子α=α*1.5,扩大压缩因子继续聚类,重新进行步骤2.2到步骤2.4;
步骤2.5:将特征值xl写入以路段标号为行标的数据集到分布式文件系统,完成数据清洗过程。
进一步,所述清洗方法还包括以下步骤:
步骤3:更新和剔除异常数据,步骤如下:
步骤3.1:根据道路标号r分发数据集给子节点;
步骤3.2:在Map函数中,首先读取数据d,找出距离最小的聚类中心编号,搜索特征值xl(l=1,2,3,...,K′),当|xl-d|距离最小时,将i赋值给m;然后,以聚类中心编号m为键值构造对象进行分发,对象属性包括聚类中心编号m、聚类中心差值|xm-d|、数据本身d、传感器数据集合和位置信息;
步骤3.3:在Reduce函数中,若聚类中心差值(|xm-d|<α*|xm|),正常数据不处理;若聚类中心差值(|xm-d|>5α*|xm|),剔除数据;若不符合这两种情况,更新数据,如下公式:d′=d-(d-xm)*α,最后,数据d′写入以路段标号为行标的数据到分布式文件系统,清洗过程完成。
再进一步,所述步骤1中,缺失数据补全的步骤如下:
步骤1.1:在Map函数中,首先,读入历史数据,获取数据元素的数值;然后,解析出数据产生的位置信息,获得路段标号r;最后,以r为键值构造数据对象并分发,数据对象属性包含键值、传感器数据集合、缺失信息、数据元素和位置信息;
步骤1.2:在Reduce函数中,首先,计算子数据块各维的均值μ和标准差δ;选取(μ-δ,μ+δ)范围的子数据进行计算均值获得μ2,填充缺失数据;最后,写入以路段标号为行标的数据集τ到分布式文件系统。
本发明的有益效果主要表现在:本发明利用云计算平台的并行计算能力来解决交通大数据清洗时的计算速度问题;以数据清洗为目标,以聚类方法为基础,提出了新的交通数据清洗思路和方法;该方法能快速聚类,挖掘交通数据相似性特征,实现对异常的交通数据的分布式处理,保障后续针对数据的各项应用的准确性和鲁棒性。
附图说明
图1是一种基于云计算框架的交通大数据清洗方法的流程图。
图2是合并多个子数据块的聚类中心示意图
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于云计算平台的交通大数据清洗方法,包括以下步骤:
步骤1:缺失数据补全
扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的均值填充。整个过程,需要根据数据产生的位置(数据采集的路段)进行分发,由不同的子节点并行处理。具体步骤如下:
步骤1.1:在Map函数中,首先,读入历史数据,获取数据元素的数值;然后,解析出数据产生的位置信息,获得路段标号(r);最后,以r为键值构造数据对象并分发,数据对象属性包含键值、传感器数据集合、缺失信息、数据元素和位置信息,所述键值为路段标号r;
步骤1.2:在Reduce函数中,首先,计算子数据块各维的均值(μ)和标准差(δ);选取(μ-δ,μ+δ)范围的子数据进行计算均值获得μ2,填充缺失数据;最后,写入以路段标号为行标的数据集(τ)到分布式文件系统。
步骤2:聚类获取路段特征数据
将具有相似数据变化规律的数据聚成一类,获得该路段数据的特征值(聚类中心)。为提高计算效率,每个聚类过程由不同节点完成。因为节点不能直接通信,所以最后特征值的获取由reduce步骤完成。具体步骤如下:
步骤2.1:根据路段标号(r)对数据集(τ)进行分割,获得N个数据块。然后,每个数据块分割为M个子数据块,获得N×M个子数据块,并分发给子节点;
步骤2.2:子节点把数据块分配给N×M个Map函数,每个MAP任务处理一个子数据块;
步骤2.3:在Map函数中,首先,对子数据块进行聚类(可选用Kmeans、层次聚类等能产生聚类中心的聚类方法),获得聚类中心ci(i=1,2,3...,K)。聚类中心数目K由压缩因子α(初始值为常数,小于1,比如0.05)确定,K=floor(α*N),floor表示向下取整;然后,离散化聚类中心,以道路标号(r)为键值构造数据对象进行分发,数据对象属性包含键值(r)、聚类中心(ci)和中心点数目(K)、传感器数据集合、数据元素和位置信息;
步骤2.4:在Reduce函数中,合并多个子数据块的聚类中心,获得特征值xl(l=1,2,3,...,K′),K′为特征值个数,步骤为:
2.4.1)计算两个聚类中心(ci、cj)之间的欧式距离lij,获得两个聚类中心之间的最小欧式距离lmin,lmin=min(|ci-cj|),其中i,j∈K且i≠j,|*|表示欧式距离;
2.4.2)特征值计算采用:xl=avg(c1,c2,...,ck),k为满足合并条件的聚类中心个数,当多个聚类中心ck满足合并条件lij<(1+α)*lmin时,特征值为多个聚类中心的平均值,当一个聚类中心ck与其他聚类中心的欧式距离都不满足合并条件时,特征值为它自身。
2.4.3)若K′<K,聚类过程结束;反之,调整压缩因子α=α*1.5,扩大压缩因子继续聚类,重新进行步骤2.2到步骤2.4。
步骤2.5:将特征值xl写入以路段标号为行标的数据集到分布式文件系统
步骤3:更新和剔除异常数据
新采集的需要清洗的数据被分发到各个子节点,首先,进行缺失数据补全。然后,查找异常数据;最后,进行异常数据的更新或剔除。具体步骤如下:
步骤3.1:根据道路标号(r)分发数据集给子节点;
步骤3.2:在Map函数中,首先读取数据d,找出距离最小的聚类中心编号,搜索特征值xl(l=1,2,3,...,K′,当|xl-d|距离最小时,将i赋值给m;然后,以聚类中心编号(m)为键值构造对象进行分发,对象属性包括聚类中心编号(m)、聚类中心差值(|xm-d|)、数据本身(d)、传感器数据集合和位置信息
步骤3.3:在Reduce函数中,若聚类中心差值(|xm-d|<α*|xm|),正常数据不处理;若聚类中心差值(|xm-d|>5α*|xm|),剔除数据;若不符合这两种情况,更新数据,如下公式:d′=d-(d-xm)*α。最后,数据d′写入以路段标号为行标的数据到分布式文件系统,清洗过程完成。
本实施例的数据来自安装浙江省杭州市天目山路和余杭塘路,紫金花路和莫干山路之间400多条路段的传感器,或者行驶在这些路段的GPS浮动车。传感器包括浮动车GPS、SCATS线圈、微波雷达和卡口视频数据。四源数据只采用了速度或速率的结果,作为本实施例的输入。数据采集时间为2013年7月,共30天数据,原始数据总量共473.2GB。其中,前28天的数据用于聚类获取路段特征数据,后2天数据用于对方法效果的测试。在性能测试中,采用的是8台物理计算机(16核,1.6GHz CPU)。
步骤101,原始数据清洗。在Map函数中,首先,读入一行数据,获取数据元素的数值;然后,解析出数据产生的位置信息,获得路段标号(r);最后,以r为键值构造数据对象并分发,数据对象属性包含键值(r)、传感器数据集合、缺失信息和位置信息。以莫干山路-文二路-文一路为例,获得路段标号为267,以r为键值构造数据对象并分发。
步骤102:在Reduce函数中,首先,计算子数据块速度的均值(μ)、标准差(δ);然后,选取(μ-δ,μ+δ)范围数据进行均值计算获得μ2,填充缺失数据;最后,写入以路段标号为行标的数据到分布式文件系统。
步骤103:根据路段标号(r)对数据集进行分割,获得30个数据块。然后,每个数据块分割为20个子数据块,获得30*20个子数据块,并分发给子节点。子节点把数据块分配给30*20个Map函数,每个MAP任务处理一个子数据块;这里的数据以一个数据块为例。
步骤104:在Map函数中,首先,对子数据块进行聚类(实施过程中采用Kmeans),获得初始值聚类中心。聚类中心数目K=80;然后,以道路标号(r)为键值构造数据对象进行分发,数据对象属性包含键值(r)、聚类中心(ci)和中心点数目(K);
步骤105:在Reduce函数中,合并多个子块的聚类中心(ci),获得特征值xl(l=1,2,3,...,K′);
步骤106:在Map函数中,首先,计算每一行数据(d)和聚类中心的聚类,找出距离最小的聚类中心编号m;然后,以聚类中心编号m为键值构造对象进行分发,对象属性包括聚类中心编号(m)、聚类中心差值(|xm-d|)、数据本身(d)。
步骤107:在Reduce函数中,若聚类中心差值(|xm-d|<α*|xm|),正常数据不处理;若聚类中心差值(|xm-d|>5α*|xm|),剔除数据;若不符合这两种情况,更新数据,如下公式:d′=d-(d-xm)*α。最后,数据d′写入以路段标号为行标的数据到分布式文件系统。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于云计算平台的交通大数据清洗方法,其特征在于:包括以下步骤:
步骤1:缺失数据补全
扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的均值填充;需要根据数据产生的位置进行分发,由不同的子节点并行处理;
步骤2:聚类获取路段特征数据
将具有相似数据变化规律的数据聚成一类,获得该路段数据的特征值,所述特征值为聚类中心为;每个聚类过程由不同节点完成,特征值的获取由reduce步骤完成,步骤如下:
步骤2.1:根据路段标号r对数据集τ进行分割,获得N个数据块,然后,每个数据块分割为M个子数据块,获得N×M个子数据块,并分发给子节点;
步骤2.2:子节点把数据块分配给N×M个Map函数,每个MAP任务处理一个子数据块;
步骤2.3:在Map函数中,首先,对子数据块进行聚类,获得聚类中心ci(i=1,2,3,...,K),聚类中心数目K由压缩因子α确定,K=floor(α*N),floor表示向下取整;然后,离散化聚类中心,以道路标号(r)为键值构造数据对象进行分发,数据对象属性包含键值、聚类中心ci和中心点数目K、传感器数据集合、数据元素和位置信息,所述键值为路段标号r;
步骤2.4:在Reduce函数中,合并多个子数据块的聚类中心,获得特征值xl(l=1,2,3,...,K′),K′为特征值个数,步骤为:
2.4.1)计算两个聚类中心(ci、cj)之间的欧式距离lij,获得两个聚类中心之间的最小欧式距离lmin,lmin=min(|ci-cj|),其中i,j∈K且i≠j,|*|表示欧式距离;
2.4.2)特征值计算采用:xl=avg(c1,c2,...,ck),k为满足合并条件的聚类中心个数,当多个聚类中心ck满足合并条件lij<(1+α)*lmin时,特征值为多个聚类中心的平均值,当一个聚类中心ck与其他聚类中心的欧式距离都不满足合并条件时,特征值为它自身;
2.4.3)若K′<K,聚类过程结束;反之,调整压缩因子α=α*1.5,扩大压缩因子继续聚类,重新进行步骤2.2到步骤2.4;
步骤2.5:将特征值xl写入以路段标号为行标的数据集到分布式文件系统,完成数据清洗过程。
2.如权利要求1所述的基于云计算平台的交通大数据清洗方法,其特征在于:所述清洗方法还包括以下步骤:
步骤3:更新和剔除异常数据,步骤如下:
步骤3.1:根据道路标号r分发数据集给子节点;
步骤3.2:在Map函数中,首先读取数据d,找出距离最小的聚类中心编号,搜索特征值xl(l=1,2,3,...,K′),当|xl-d|距离最小时,将i赋值给m;然后,以聚类中心编号m为键值构造对象进行分发,对象属性包括聚类中心编号m、聚类中心差值|xm-d|、数据本身d、传感器数据集合和位置信息;
步骤3.3:在Reduce函数中,若聚类中心差值(|xm-d|<α*|xm|),正常数据不处理;若聚类中心差值(|xm-d|>5α*|xm|),剔除数据;若不符合这两种情况,更新数据,如下公式:d′=d-(d-xm)*α,最后,数据d′写入以路段标号为行标的数据到分布式文件系统,清洗过程完成。
3.如权利要求1或2所述的基于云计算平台的交通大数据清洗方法,其特征在于:所述步骤1中,缺失数据补全的步骤如下:
步骤1.1:在Map函数中,首先,读入历史数据,获取数据元素的数值;然后,解析出数据产生的位置信息,获得路段标号r;最后,以r为键值构造数据对象并分发,数据对象属性包含键值、传感器数据集合、缺失信息、数据元素和位置信息;
步骤1.2:在Reduce函数中,首先,计算子数据块各维的均值μ和标准差δ;选取(μ-δ,μ+δ)范围的子数据进行计算均值获得μ2,填充缺失数据;最后,写入以路段标号为行标的数据集τ到分布式文件系统。
CN201610517414.0A 2016-06-28 2016-06-28 一种基于云计算框架的交通大数据清洗方法 Active CN106202335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610517414.0A CN106202335B (zh) 2016-06-28 2016-06-28 一种基于云计算框架的交通大数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610517414.0A CN106202335B (zh) 2016-06-28 2016-06-28 一种基于云计算框架的交通大数据清洗方法

Publications (2)

Publication Number Publication Date
CN106202335A true CN106202335A (zh) 2016-12-07
CN106202335B CN106202335B (zh) 2019-06-28

Family

ID=57464827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610517414.0A Active CN106202335B (zh) 2016-06-28 2016-06-28 一种基于云计算框架的交通大数据清洗方法

Country Status (1)

Country Link
CN (1) CN106202335B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067852A (zh) * 2017-06-06 2017-08-18 陈俊竹 应用于公共管理教学的信息系统及其使用方法
CN107092637A (zh) * 2017-02-16 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN107241693A (zh) * 2017-05-08 2017-10-10 上海世脉信息科技有限公司 一种大数据环境下无坐标传感器位置确定方法
CN107958027A (zh) * 2017-11-16 2018-04-24 南京邮电大学 一种具有QoS保障的传感网数据获取方法
CN109165818A (zh) * 2018-08-02 2019-01-08 国网湖北省电力有限公司电力科学研究院 一种用于电气设备风险评估的负点计算方法
CN109189771A (zh) * 2018-08-17 2019-01-11 浙江捷尚视觉科技股份有限公司 一种基于离线和在线聚类的车型数据库清洗方法
CN109242209A (zh) * 2018-10-12 2019-01-18 北京交通大学 基于K-means聚类的铁路突发事件分级预警方法
CN109359679A (zh) * 2018-10-10 2019-02-19 洪月华 适用于广域网的分布式交通大数据并行聚类方法
CN110399685A (zh) * 2019-07-29 2019-11-01 云南电网有限责任公司电力科学研究院 电容型设备缺陷等级预测方法及装置
CN111028004A (zh) * 2019-11-28 2020-04-17 国网吉林省电力有限公司 一种基于大数据技术的市场评估分析方法
CN111191687A (zh) * 2019-12-14 2020-05-22 贵州电网有限责任公司 基于改进K-means算法的电力通信数据聚类方法
CN113377753A (zh) * 2021-06-09 2021-09-10 国网吉林省电力有限公司 一种蓄热式电锅炉负荷数据清洗系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064974A (zh) * 2013-01-10 2013-04-24 东南大学 基于时空分析的交通流数据清洗方法
CN103577602A (zh) * 2013-11-18 2014-02-12 浪潮(北京)电子信息产业有限公司 一种二次聚类方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064974A (zh) * 2013-01-10 2013-04-24 东南大学 基于时空分析的交通流数据清洗方法
CN103577602A (zh) * 2013-11-18 2014-02-12 浪潮(北京)电子信息产业有限公司 一种二次聚类方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092637B (zh) * 2017-02-16 2020-01-31 北京星选科技有限公司 数据处理方法及装置
CN107092637A (zh) * 2017-02-16 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN107241693A (zh) * 2017-05-08 2017-10-10 上海世脉信息科技有限公司 一种大数据环境下无坐标传感器位置确定方法
CN107241693B (zh) * 2017-05-08 2020-06-30 上海世脉信息科技有限公司 一种大数据环境下无坐标传感器位置确定方法
CN107067852A (zh) * 2017-06-06 2017-08-18 陈俊竹 应用于公共管理教学的信息系统及其使用方法
CN107958027A (zh) * 2017-11-16 2018-04-24 南京邮电大学 一种具有QoS保障的传感网数据获取方法
CN109165818A (zh) * 2018-08-02 2019-01-08 国网湖北省电力有限公司电力科学研究院 一种用于电气设备风险评估的负点计算方法
CN109165818B (zh) * 2018-08-02 2022-02-08 国网湖北省电力有限公司电力科学研究院 一种用于电气设备风险评估的负点计算方法
CN109189771A (zh) * 2018-08-17 2019-01-11 浙江捷尚视觉科技股份有限公司 一种基于离线和在线聚类的车型数据库清洗方法
CN109359679A (zh) * 2018-10-10 2019-02-19 洪月华 适用于广域网的分布式交通大数据并行聚类方法
CN109242209A (zh) * 2018-10-12 2019-01-18 北京交通大学 基于K-means聚类的铁路突发事件分级预警方法
CN110399685A (zh) * 2019-07-29 2019-11-01 云南电网有限责任公司电力科学研究院 电容型设备缺陷等级预测方法及装置
CN111028004A (zh) * 2019-11-28 2020-04-17 国网吉林省电力有限公司 一种基于大数据技术的市场评估分析方法
CN111191687A (zh) * 2019-12-14 2020-05-22 贵州电网有限责任公司 基于改进K-means算法的电力通信数据聚类方法
CN111191687B (zh) * 2019-12-14 2023-02-10 贵州电网有限责任公司 基于改进K-means算法的电力通信数据聚类方法
CN113377753A (zh) * 2021-06-09 2021-09-10 国网吉林省电力有限公司 一种蓄热式电锅炉负荷数据清洗系统

Also Published As

Publication number Publication date
CN106202335B (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN106202335A (zh) 一种基于云计算框架的交通大数据清洗方法
Wang et al. Fast large-scale trajectory clustering
Madkour et al. A survey of shortest-path algorithms
Mao et al. Mining spatiotemporal patterns of urban dwellers from taxi trajectory data
CN110135599B (zh) 无人机电力巡检点云智能化处理与分析服务平台
CN109272170B (zh) 一种基于Louvain算法的交通小区划分系统
CN106651188A (zh) 一种输变电设备多源状态评估数据处理方法及其应用
WO2022227303A1 (zh) 信息处理方法、装置、计算机设备及存储介质
CN107315856A (zh) 一种基于图数据库的电网gis的建模方法及装置
CN102830446B (zh) 一种可预测气象数据的智能气象站系统
CN104572833B (zh) 一种映射规则创建方法及装置
CN109859480B (zh) 基于复杂网络的拥堵路段建模和评估方法
CN107194533B (zh) 一种配电网全信息模型构建方法及系统
CN107832876A (zh) 基于MapReduce框架的分区最大负荷预测方法
CN105138600A (zh) 基于图结构匹配的社交网络分析方法
CN105335478B (zh) 构建城市土地空间立体调查数据语义关联的方法和装置
CN106530702A (zh) 一种基于交通指数的随机动态网络交通规划方法
CN107679127A (zh) 基于地理位置的点云信息并行提取方法及其系统
Yu et al. Identifying traffic clusters in urban networks based on graph theory using license plate recognition data
CN104408918B (zh) 基于MapReduce计算框架的浮动车数据与道路匹配的方法
Gupta et al. Urban data integration using proximity relationship learning for design, management, and operations of sustainable urban systems
CN115129795A (zh) 一种基于地球空间网格的数据空时存储方法
CN202735528U (zh) 一种可预测气象数据的智能气象站系统
Zhu et al. On using broadcast index for efficient execution of shortest path continuous queries
Singh et al. A comparative analysis of distributed clustering algorithms: A survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Patentee after: Yinjiang Technology Co.,Ltd.

Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Patentee before: ENJOYOR Co.,Ltd.