CN116166655B - 大数据清洗系统 - Google Patents

大数据清洗系统 Download PDF

Info

Publication number
CN116166655B
CN116166655B CN202310455286.1A CN202310455286A CN116166655B CN 116166655 B CN116166655 B CN 116166655B CN 202310455286 A CN202310455286 A CN 202310455286A CN 116166655 B CN116166655 B CN 116166655B
Authority
CN
China
Prior art keywords
data
cleaning
value
missing
engine spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310455286.1A
Other languages
English (en)
Other versions
CN116166655A (zh
Inventor
洪流
柴东元
李小飞
刘志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snegrid Electric Technology Co ltd
Original Assignee
Snegrid Electric Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snegrid Electric Technology Co ltd filed Critical Snegrid Electric Technology Co ltd
Priority to CN202310455286.1A priority Critical patent/CN116166655B/zh
Publication of CN116166655A publication Critical patent/CN116166655A/zh
Application granted granted Critical
Publication of CN116166655B publication Critical patent/CN116166655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种大数据清洗系统,包括:采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓;调度平台DolphinScheduler用于配置数据采集任务,将采集器采集的原始数据传输至分布式文件系统存储,并通过协调服务端zookeeper进行协调服务,将分布式文件系统中存储的原始数据传输至计算引擎Spark进行清洗,以及将清洗后的原始数据分别存储至多个数仓,以满足多种数据使用需求。本发明实施例的大数据清洗系统,通过采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓能够对庞大的数据进行高效地清洗,保证了大数据分析以及评估结果的准确性和价值性,对光伏电站的运维和相关用电指标地预测起到了根本性保障。

Description

大数据清洗系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种大数据清洗系统。
背景技术
太阳能光伏是目前非常有竞争优势的可再生能源,将是未来电网不可或缺的重要组成,因此,光伏电站将会越来越多。光伏电站相关电力设备所采集数据体量庞大且指标繁多,1GW的电站,1年的历史数据大概在20-30T。光伏电站涉及到的数据分析包括:灰尘预警、离散率分析、区域功率预测等。实际应用中数据往往含有不完整、不正确或不相关的脏数据。目前,针对此部分异常数据,相关技术仅通过传统过滤、替换等常规手段进行处理,此部分经过处理的数据有较强的人为定性。如果数据没有被正确地清洗,那么再复杂的智能分析算法也不能获得理想的分析结果,并且随着数据指标类型的增多及数据量增长,传统数据处理涉及到的清洗方法会增加设备投入成本以及性能上存在不可预知的瓶颈。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的在于提出一种大数据清洗系统,以对大数据进行有效地清洗。
为达到上述目的,本发明实施例提出了一种大数据清洗系统,所述系统包括:采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓;所述调度平台DolphinScheduler用于配置数据采集任务,将所述采集器采集的原始数据传输至所述分布式文件系统存储,并通过所述协调服务端zookeeper进行协调服务,将所述分布式文件系统中存储的原始数据传输至所述计算引擎Spark进行清洗,以及将清洗后的原始数据分别存储至多个所述数仓,以满足多种数据使用需求。
另外,本发明实施例的大数据清洗系统还可以具有如下附加技术特征:
根据本发明的一个实施例,所述计算引擎Spark用于:确定所述原始数据中的缺失值位置;对所述原始数据中的重复数据进行剔除,得到第一清洗数据;根据所述缺失值位置对所述第一清洗数据进行缺失值填充,得到第二清洗数据;对所述第二清洗数据进行异常值检测和替换,得到第三清洗数据,作为所述清洗后的原始数据。
根据本发明的一个实施例,所述原始数据为时间序列数据,所述计算引擎Spark在确定所述原始数据中的缺失值位置时,具体用于:初始化Spark Context;将存储所述原始数据的弹性分布式数据集rdd转换为数据帧DataFrame,并将所述数据帧DataFrame映射成视图表view table;利用SparkSQL中的max(‘ab’)函数和min(‘ab’)函数基于所述视图表view table获取所述原始数据对应的实际时间序列;利用SparkSQL中的repeat(‘ab’,num)函数,基于所述实际时间序列,得到理论时间序列;根据所述理论时间序列和所述实际时间序列得到缺失时间序列,所述缺失时间序列包括所述缺失值位置。
根据本发明的一个实施例,所述计算引擎Spark在对所述原始数据中的重复数据进行剔除时,具体用于:利用SparkSQL中的Row_number()函数基于所述视图表view table进行开窗分组排序,以使单一时刻对应一条数据。
根据本发明的一个实施例,所述计算引擎Spark还用于:利用SparkSQL中的unionall()函数对所述缺失时间序列和所述第一清洗数据进行聚合,得到待算法处理文件;其中,所述计算引擎Spark基于所述待算法处理文件根据所述缺失值位置对所述第一清洗数据进行缺失值填充。
根据本发明的一个实施例,所述计算引擎Spark根据所述缺失值位置对所述第一清洗数据进行缺失值填充,得到第二清洗数据时,具体用于:利用线性回归模型对所述缺失值位置进行缺失值预测,得到所述缺失值位置的预测值;使用所述预测值填充相应的缺失值位置,得到所述第二清洗数据。
根据本发明的一个实施例,所述计算引擎Spark在对所述第二清洗数据进行异常值检测和替换,得到第三清洗数据时,具体用于:计算得到所述第二清洗数据的第一均值;通过箱线图法找出所述第二清洗数据中的异常值;通过所述第一均值替换所述异常值,得到所述第三清洗数据。
根据本发明的一个实施例,所述计算引擎Spark在通过箱线图法找出异常值时,具体用于:通过四分位法找出所述第二清洗数据中的下四分位数和上四分位数;根据所述下四分位数和所述上四分位数,得到上须和下须,并将小于所述下须或大于所述上须的数据,确定为所述异常值;其中,所述下四分位数记为Q1,所述上四分位数记为Q2,所述下须记为S1,所述上须记为S2,Q1表示所述第二清洗数据由小到大排列后位于第25%位置的数值,Q2表示所述第二清洗数据由小到大排列后位于第75%位置的数值,S1= Q1-1.5*(Q2-Q1),S2=Q2+1.5(Q2+Q1)。
根据本发明的一个实施例,所述计算引擎Spark在通过所述第一均值替换所述异常值之后,还用于:计算得到所述第一均值替换所述异常值后的第二清洗数据的第二均值;通过三倍标准差法识别出所述第一均值替换所述异常值后的第二清洗数据中的异常值,记为第二异常值;通过第二均值替换所述第二异常值。
根据本发明的一个实施例,多个所述数仓包括数仓Hbase、数仓Doris和数仓Clickhouse中的至少两者。
本发明实施例的大数据清洗系统,通过采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓能够对庞大的数据进行高效地清洗,保证了大数据分析以及评估结果的准确性和价值性,对光伏电站的运维和相关用电指标地预测起到了根本性保障。同时,减小了服务器等设备的成本投入。
附图说明
图1是本发明一实施例的大数据清洗系统的结构示意图;
图2是本发明一实施例的计算引擎Spark工作的流程示意图;
图3是本发明一实施例的计算引擎Spark在确定原始数据中的缺失值位置时的流程示意图;
图4是本发明一实施例的计算引擎Spark根据缺失值位置对第一清洗数据进行缺失值填充,得到第二清洗数据时的流程示意图;
图5是本发明一实施例的计算引擎Spark在对第二清洗数据进行异常值检测和替换,得到第三清洗数据时的流程示意图;
图6是本发明一实施例的箱线图的示例图;
图7是本发明一实施例的计算引擎Spark在通过箱线图法找出异常值时的流程示意图;
图8是本发明另一实施例的计算引擎Spark在对第二清洗数据进行异常值检测和替换,得到第三清洗数据时的流程示意图;
图9是本发明一实施例的大数据清洗系统具体工作流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的大数据清洗系统。
图1是本发明一实施例的大数据清洗系统的结构示意图。
如图1所示,大数据清洗系统1包括:采集器10、分布式文件系统20、调度平台DolphinScheduler30、协调服务端zookeeper40、计算引擎Spark50和多个数仓60;调度平台DolphinScheduler30用于配置数据采集任务,将采集器10采集的原始数据传输至分布式文件系统20存储,并通过协调服务端zookeeper40进行协调服务,将分布式文件系统20中存储的原始数据传输至计算引擎Spark50进行清洗,以及将清洗后的原始数据分别存储至多个数仓60,以满足多种数据使用需求。
具体地,采集器10可定时采集光伏设备组件测点数据,依据每个光伏设备测点对应的协议将数据生成文件,调度平台DolphinScheduler30配置dataX和Flume等数据采集任务,将数据上送至分布式文件系统20。通过协调服务端zookeeper40协调服务,将原始数据通过计算引擎Spark50入库到各个数仓60中。
可选地,采集器10可每隔10min采集一次光伏电站的数据。
作为一个示例,还可通过计算引擎Flink对原始数据进行清洗。
其中,调度平台DolphinScheduler30进行整个数据生命周期的调度管理。
本发明实施例的大数据清洗系统1,通过采集器10、分布式文件系统20、调度平台DolphinScheduler30、协调服务端zookeeper40、计算引擎Spark50和多个数仓60能够对庞大的数据进行高效地清洗,保证了大数据分析以及评估结果的准确性和价值性,对光伏电站的运维和相关用电指标的预测起到了根本性保障。同时,减小了服务器等设备的成本投入。
在本发明的一些实施例中,如图2所示,计算引擎Spark50用于:
S1,确定原始数据中的缺失值位置。
S2,对原始数据中的重复数据进行剔除,得到第一清洗数据。
S3,根据缺失值位置对第一清洗数据进行缺失值填充,得到第二清洗数据。
S4,对第二清洗数据进行异常值检测和替换,得到第三清洗数据,作为清洗后的原始数据。
其中,计算引擎Spark50包括SparkStreaming、SparkSQL、SparkMLlib等组件。
在该实施例中,计算引擎Spark50基于内存的数据处理允许运行更加复杂的数据转换,在整个数据处理生命周期中不会Shuffle(集群范围内跨节点、跨进程的数据分发)到磁盘,在内存层面即可完成所有计算。计算引擎Spark50对数据处理的速度较快,效率更高。
在本发明的一些实施例中,原始数据为时间序列数据,如图3所示,计算引擎Spark50在确定原始数据中的缺失值位置时,具体用于:
S11,初始化Spark Context。
S12,将存储原始数据的弹性分布式数据集rdd转换为数据帧DataFrame,并将数据帧DataFrame映射成视图表view table。
S13,利用SparkSQL中的max(‘ab’)函数和min(‘ab’)函数基于视图表view table获取原始数据对应的实际时间序列。
S14,利用SparkSQL中的repeat(‘ab’,num)函数,基于实际时间序列,得到理论时间序列。
具体地,可利用repeat('ab',num) 函数来重复炸裂实际时间序列,获取理论时间序列。其中,重复炸裂实际时间序列表示将指定的字符串重复指定的次数并返回。根据数据出现最晚时刻和最早时刻的差获取该炸裂次数,接着获取最早时刻和最晚时刻之间应该出现的时刻次数,最后利用时间函数进行替换生成理论时间序列。
S15,根据理论时间序列和实际时间序列得到缺失时间序列,缺失时间序列包括缺失值位置。
具体地,将理论时间序列和实际时间序列进行关联,过滤出缺失时间序列。
在本发明的一些实施例中,计算引擎Spark50在对原始数据中的重复数据进行剔除时,具体用于:利用SparkSQL中的Row_number()函数基于视图表view table进行开窗分组排序,以使单一时刻对应一条数据。
其中,将所有单一时刻对应的数据进行整理,可得到第一清洗数据。
作为一个示例,可先初始化Spark Context。再将存储原始数据的弹性分布式数据集rdd转换为数据帧DataFrame,并将数据帧DataFrame映射成视图表view table。最后利用SparkSQL中的Row_number()函数基于视图表view table进行开窗分组排序,以使单一时刻对应一条数据。
在该实施例中,通过对原始数据中的重复值进行处理,能够避免同一时刻出现重复多次推送情况,减少了数据量,便于数据处理。
在本发明的一些实施例中,计算引擎Spark50还用于:利用SparkSQL中的unionall()函数对缺失时间序列和第一清洗数据进行聚合,得到待算法处理文件;其中,计算引擎Spark50基于待算法处理文件根据缺失值位置对第一清洗数据进行缺失值填充。
具体地,可在缺失时间序列和第一清洗数据进行聚合后,依据处理标识形成一份待算法处理文件。
在本发明的一些实施例中,如图4所示,计算引擎Spark50根据缺失值位置对第一清洗数据进行缺失值填充,得到第二清洗数据时,具体用于:
S31,利用线性回归模型对缺失值位置进行缺失值预测,得到缺失值位置的预测值。
S32,使用预测值填充相应的缺失值位置,得到第二清洗数据。
具体地,利用线性回归模型对缺失值位置进行缺失值预测,是通过建立响应变量关于自变量的回归模型来预测缺失数据。
可通过下式表示第i个缺失值的填充值:
Figure SMS_1
其中,
Figure SMS_2
表示第i个缺失值的填充值,/>
Figure SMS_3
表示第一清洗数据中第i时刻对应的数据,
Figure SMS_4
和/>
Figure SMS_5
表示参数,/>
Figure SMS_6
和/>
Figure SMS_7
可通过构造损失函数求出,/>
Figure SMS_8
表示第一清洗数据中单一数据的数量。
作为一个示例,通过构造损失函数求出
Figure SMS_9
和/>
Figure SMS_10
,用于:
通过如下公式累计计算每一个样本点结果值和当前函数值的差值的平方:
Figure SMS_11
Figure SMS_12
,继续推导,转换成矩阵如下:
Figure SMS_13
其中,
Figure SMS_15
表示真实值矩阵,/>
Figure SMS_19
表示特征值矩阵,/>
Figure SMS_21
,/>
Figure SMS_16
表示权重矩阵,
Figure SMS_18
。需要说明的是,对其求解关于/>
Figure SMS_20
的最小值,起止/>
Figure SMS_22
和/>
Figure SMS_14
均已知,利用二次函数直接求导,导数为零的位置表示/>
Figure SMS_17
的值,即最小值。确定最小值后即可确定上述公式。
在该实施例中,通过对第一清洗数据中的缺失值进行填充,能够保证数据的完整性,形成一份较为完整数据集。通过利用线性回归模型对缺失值位置进行缺失值预测,该预测结果较为准确,有利于后续工作人员对数据的分析和使用。
在本发明的一些实施例中,如图5所示,计算引擎Spark50在对第二清洗数据进行异常值检测和替换,得到第三清洗数据时,具体用于:
S41,计算得到第二清洗数据的第一均值。
S42,通过箱线图法找出第二清洗数据中的异常值。
S43,通过第一均值替换异常值,得到第三清洗数据。
作为一个示例,如图6所示,通过箱线图找出第二清洗数据中的异常值并替换,包括:第一步,根据第二清洗数据分别计算得到上须、下须、上四分位数、均值、中位数、下四分位数、异常点;第二步,去除异常点,并循环使用均值替换填充第二清洗数据中的空余位置。
在该实施例中,通过箱线图法能够直观明了地确定异常值,有利于对数据中的异常值进行清洗。
在本发明的一些实施例中,如图7所示,计算引擎Spark50在通过箱线图法找出异常值时,具体用于:
S421,通过四分位法找出第二清洗数据中的下四分位数和上四分位数。
S422,根据下四分位数和上四分位数,得到上须和下须,并将小于下须或大于上须的数据,确定为异常值。
其中,下四分位数记为Q1,上四分位数记为Q2,下须记为S1,上须记为S2,Q1表示第二清洗数据由小到大排列后位于第25%位置的数值,Q2表示第二清洗数据由小到大排列后位于第75%位置的数值,S1= Q1-1.5*(Q2-Q1),S2= Q2+1.5(Q2+Q1)。
在该实施例中,通过使用四分位法能够较少受到异常值的影响,使得确定的异常值较为准确。
在本发明的一些实施例中,如图8所示,计算引擎Spark50在通过第一均值替换异常值之后,还用于:
S431,计算得到第一均值替换异常值后的第二清洗数据的第二均值。
S432,通过三倍标准差法识别出第一均值替换异常值后的第二清洗数据中的异常值,记为第二异常值。
S433,通过第二均值替换第二异常值。
具体地,三倍标准差法可用公式表示为:
Figure SMS_23
。其中,
Figure SMS_24
,N表示样本的数量,/>
Figure SMS_25
表示第i个样本,/>
Figure SMS_26
表示全体样本的平均值,/>
Figure SMS_27
表示正常样本,小于/>
Figure SMS_28
或大于/>
Figure SMS_29
的数据标记为异常样本。
在该实施例中,对通过箱线图法剔除异常值后,继续通过三倍标准差法进行异常值的剔除,能够进一步去除数据中遗漏的异常值。
在本发明的一些实施例中,多个数仓60包括数仓Hbase、数仓Doris和数仓Clickhouse中的至少两者。
其中,数仓60还包括数仓Hive、数仓Mysql。
具体地,对清洗后原始数据,可利用调度平台DolphinScheduler30调度工作流,可分为不同应用方向:
通过ClickHouse客户端自带导入命令load file到查询库ClickHouse供web页面进行查询展示修复后数据。
通过Spark LOAD命令将数据加载到数仓Doris,供数据分析、数据挖掘等操作。
通过Flink CDC同步数据至应用数据库,做BI报表等应用展示。
作为一个示例,如图9所示,说明本发明的具体工作流程:
采集器10通过各类型站点采集格式为.txt的文本数据,并上传至Flume和/或dataX。
分布式文件系统20将数据原始数据传输至计算引擎Spark50进行清洗,其中,清洗过程包括:重复值处理、缺失值处理和异常值处理。
计算引擎Spark50将清洗后的数据分别发送到多个数仓60。
应当理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
同时,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种大数据清洗系统,其特征在于,所述系统包括:采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓;
所述调度平台DolphinScheduler用于配置数据采集任务,将所述采集器采集的原始数据传输至所述分布式文件系统存储,并通过所述协调服务端zookeeper进行协调服务,将所述分布式文件系统中存储的原始数据传输至所述计算引擎Spark进行清洗,以及将清洗后的原始数据分别存储至多个所述数仓,以满足多种数据使用需求;
所述计算引擎Spark用于:
确定所述原始数据中的缺失值位置;
对所述原始数据中的重复数据进行剔除,得到第一清洗数据;
根据所述缺失值位置对所述第一清洗数据进行缺失值填充,得到第二清洗数据;
对所述第二清洗数据进行异常值检测和替换,得到第三清洗数据,作为所述清洗后的原始数据;
所述原始数据为时间序列数据,所述计算引擎Spark在确定所述原始数据中的缺失值位置时,具体用于:
初始化Spark Context;
将存储所述原始数据的弹性分布式数据集rdd转换为数据帧DataFrame,并将所述数据帧DataFrame映射成视图表view table;
利用SparkSQL中的max(‘ab’)函数和min(‘ab’)函数基于所述视图表view table获取所述原始数据对应的实际时间序列;
利用SparkSQL中的repeat(‘ab’,num)函数,基于所述实际时间序列,得到理论时间序列;
根据所述理论时间序列和所述实际时间序列得到缺失时间序列,所述缺失时间序列包括所述缺失值位置;
所述计算引擎Spark在对所述原始数据中的重复数据进行剔除时,具体用于:
利用SparkSQL中的Row_number()函数基于所述视图表view table进行开窗分组排序,以使单一时刻对应一条数据;
所述计算引擎Spark还用于:
利用SparkSQL中的union all()函数对所述缺失时间序列和所述第一清洗数据进行聚合,得到待算法处理文件;
其中,所述计算引擎Spark基于所述待算法处理文件根据所述缺失值位置对所述第一清洗数据进行缺失值填充。
2.根据权利要求1所述的大数据清洗系统,其特征在于,所述计算引擎Spark根据所述缺失值位置对所述第一清洗数据进行缺失值填充,得到第二清洗数据时,具体用于:
利用线性回归模型对所述缺失值位置进行缺失值预测,得到所述缺失值位置的预测值;
使用所述预测值填充相应的缺失值位置,得到所述第二清洗数据。
3.根据权利要求1所述的大数据清洗系统,其特征在于,所述计算引擎Spark在对所述第二清洗数据进行异常值检测和替换,得到第三清洗数据时,具体用于:
计算得到所述第二清洗数据的第一均值;
通过箱线图法找出所述第二清洗数据中的异常值;
通过所述第一均值替换所述异常值,得到所述第三清洗数据。
4.根据权利要求3所述的大数据清洗系统,其特征在于,所述计算引擎Spark在通过箱线图法找出异常值时,具体用于:
通过四分位法找出所述第二清洗数据中的下四分位数和上四分位数;
根据所述下四分位数和所述上四分位数,得到上须和下须,并将小于所述下须或大于所述上须的数据,确定为所述异常值;
其中,所述下四分位数记为Q1,所述上四分位数记为Q2,所述下须记为S1,所述上须记为S2,Q1表示所述第二清洗数据由小到大排列后位于第25%位置的数值,Q2表示所述第二清洗数据由小到大排列后位于第75%位置的数值,S1= Q1-1.5*(Q2-Q1),S2= Q2+1.5(Q2+Q1)。
5.根据权利要求4所述的大数据清洗系统,其特征在于,所述计算引擎Spark在通过所述第一均值替换所述异常值之后,还用于:
计算得到所述第一均值替换所述异常值后的第二清洗数据的第二均值;
通过三倍标准差法识别出所述第一均值替换所述异常值后的第二清洗数据中的异常值,记为第二异常值;
通过第二均值替换所述第二异常值。
6.根据权利要求1所述的大数据清洗系统,其特征在于,多个所述数仓包括数仓Hbase、数仓Doris和数仓Clickhouse中的至少两者。
CN202310455286.1A 2023-04-25 2023-04-25 大数据清洗系统 Active CN116166655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310455286.1A CN116166655B (zh) 2023-04-25 2023-04-25 大数据清洗系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310455286.1A CN116166655B (zh) 2023-04-25 2023-04-25 大数据清洗系统

Publications (2)

Publication Number Publication Date
CN116166655A CN116166655A (zh) 2023-05-26
CN116166655B true CN116166655B (zh) 2023-07-07

Family

ID=86416763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310455286.1A Active CN116166655B (zh) 2023-04-25 2023-04-25 大数据清洗系统

Country Status (1)

Country Link
CN (1) CN116166655B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495026B (zh) * 2023-11-17 2024-07-09 汇智智能科技有限公司 一种基于物联网的生产线制造运营管理系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015989A (zh) * 2016-01-27 2017-08-04 博雅网络游戏开发(深圳)有限公司 数据处理方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10185930B1 (en) * 2014-12-01 2019-01-22 Arimo, Inc. Collaboration using shared documents for processing distributed data
CN110019152A (zh) * 2017-07-27 2019-07-16 润泽科技发展有限公司 一种大数据清洗方法
CN109165202A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种多源异构大数据的预处理方法
CN109446184B (zh) * 2018-08-28 2020-04-14 湖南大唐先一科技有限公司 基于大数据分析平台的发电大数据预处理方法及系统
CN109597857A (zh) * 2018-12-06 2019-04-09 中电工业互联网有限公司 一种基于Spark的物联网大数据计算方法
CN110543903B (zh) * 2019-08-23 2022-02-15 国网江苏省电力有限公司电力科学研究院 一种gis局部放电大数据系统的数据清洗方法及系统
CN111522801A (zh) * 2020-03-25 2020-08-11 平安科技(深圳)有限公司 分布式的数据库动态扩容方法、装置、设备及存储介质
US11210271B1 (en) * 2020-08-20 2021-12-28 Fair Isaac Corporation Distributed data processing framework
CA3131616A1 (en) * 2021-09-22 2023-03-22 The Toronto-Dominion Bank System and method for detecting anomalous activity based on a data distribution
CN113672687B (zh) * 2021-10-25 2022-02-15 北京值得买科技股份有限公司 一种电商大数据处理方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015989A (zh) * 2016-01-27 2017-08-04 博雅网络游戏开发(深圳)有限公司 数据处理方法和装置

Also Published As

Publication number Publication date
CN116166655A (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN106779505B (zh) 一种基于大数据驱动的输电线路故障预警方法及系统
AU2022204116A1 (en) Verification method for electrical grid measurement data
CN106600447B (zh) 一种变电站巡检机器人集中监控系统大数据云分析方法
CN111191878A (zh) 一种基于异常分析的台区及电能表状态评价方法及系统
CN116166655B (zh) 大数据清洗系统
CN104537429A (zh) 一种基于数据仓库与数据挖掘技术的短期负荷预测方法及装置
CN110992210A (zh) 一种动态智能抄表方法及系统
CN117391499A (zh) 光伏电站可靠性评价方法及其装置
CN113792939A (zh) 基于混合威布尔分布的电能表可靠性预测方法及装置
CN110968703B (zh) 基于lstm端到端抽取算法的异常计量点知识库构建方法及系统
CN116992346A (zh) 一种基于人工智能大数据分析的企业生产数据处理系统
CN117556366B (zh) 基于数据筛选的数据异常检测系统及方法
CN117670256B (zh) 基于bim技术的工程造价精准控制系统及方法
CN117436846B (zh) 基于神经网络的设备预测性维护方法及系统
CN116720983A (zh) 一种基于大数据分析的供电设备异常检测方法及系统
CN114706845B (zh) 一种电表数据排查方法及系统
CN114676015A (zh) 一种测控装置运行状态监测自检报告自动生成方法及系统
CN107121616B (zh) 一种用于对智能仪表进行故障定位的方法和装置
CN114897394A (zh) 用电量监管系统及方法
CN114139706A (zh) 储能资源的评价系统
CN113590608A (zh) 一种基于数据流处理的用户用电信息即采即校方法
CN110727667A (zh) 一种电力设备一致性管理系统
CN113872200B (zh) 一种中压配网停电事件诊断识别方法、系统及存储介质
CN112348074B (zh) 基于数据驱动的配电网停电事件精准化诊断方法、装置及系统
CN113541600B (zh) 光伏电站支路故障判断方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant