CN116166655B

CN116166655B - 大数据清洗系统

Info

Publication number: CN116166655B
Application number: CN202310455286.1A
Authority: CN
Inventors: 洪流; 柴东元; 李小飞; 刘志飞
Original assignee: Snegrid Electric Technology Co ltd
Current assignee: Snegrid Electric Technology Co ltd
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-07
Anticipated expiration: 2043-04-25
Also published as: CN116166655A

Abstract

本发明公开了一种大数据清洗系统，包括：采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓；调度平台DolphinScheduler用于配置数据采集任务，将采集器采集的原始数据传输至分布式文件系统存储，并通过协调服务端zookeeper进行协调服务，将分布式文件系统中存储的原始数据传输至计算引擎Spark进行清洗，以及将清洗后的原始数据分别存储至多个数仓，以满足多种数据使用需求。本发明实施例的大数据清洗系统，通过采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓能够对庞大的数据进行高效地清洗，保证了大数据分析以及评估结果的准确性和价值性，对光伏电站的运维和相关用电指标地预测起到了根本性保障。

Description

大数据清洗系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种大数据清洗系统。

背景技术

太阳能光伏是目前非常有竞争优势的可再生能源，将是未来电网不可或缺的重要组成，因此，光伏电站将会越来越多。光伏电站相关电力设备所采集数据体量庞大且指标繁多，1GW的电站，1年的历史数据大概在20-30T。光伏电站涉及到的数据分析包括：灰尘预警、离散率分析、区域功率预测等。实际应用中数据往往含有不完整、不正确或不相关的脏数据。目前，针对此部分异常数据，相关技术仅通过传统过滤、替换等常规手段进行处理，此部分经过处理的数据有较强的人为定性。如果数据没有被正确地清洗，那么再复杂的智能分析算法也不能获得理想的分析结果，并且随着数据指标类型的增多及数据量增长，传统数据处理涉及到的清洗方法会增加设备投入成本以及性能上存在不可预知的瓶颈。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的目的在于提出一种大数据清洗系统，以对大数据进行有效地清洗。

为达到上述目的，本发明实施例提出了一种大数据清洗系统，所述系统包括：采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓；所述调度平台DolphinScheduler用于配置数据采集任务，将所述采集器采集的原始数据传输至所述分布式文件系统存储，并通过所述协调服务端zookeeper进行协调服务，将所述分布式文件系统中存储的原始数据传输至所述计算引擎Spark进行清洗，以及将清洗后的原始数据分别存储至多个所述数仓，以满足多种数据使用需求。

另外，本发明实施例的大数据清洗系统还可以具有如下附加技术特征：

根据本发明的一个实施例，所述计算引擎Spark用于：确定所述原始数据中的缺失值位置；对所述原始数据中的重复数据进行剔除，得到第一清洗数据；根据所述缺失值位置对所述第一清洗数据进行缺失值填充，得到第二清洗数据；对所述第二清洗数据进行异常值检测和替换，得到第三清洗数据，作为所述清洗后的原始数据。

根据本发明的一个实施例，所述原始数据为时间序列数据，所述计算引擎Spark在确定所述原始数据中的缺失值位置时，具体用于：初始化Spark Context；将存储所述原始数据的弹性分布式数据集rdd转换为数据帧DataFrame，并将所述数据帧DataFrame映射成视图表view table；利用SparkSQL中的max（‘ab’）函数和min（‘ab’）函数基于所述视图表view table获取所述原始数据对应的实际时间序列；利用SparkSQL中的repeat（‘ab’，num）函数，基于所述实际时间序列，得到理论时间序列；根据所述理论时间序列和所述实际时间序列得到缺失时间序列，所述缺失时间序列包括所述缺失值位置。

根据本发明的一个实施例，所述计算引擎Spark在对所述原始数据中的重复数据进行剔除时，具体用于：利用SparkSQL中的Row_number()函数基于所述视图表view table进行开窗分组排序，以使单一时刻对应一条数据。

根据本发明的一个实施例，所述计算引擎Spark还用于：利用SparkSQL中的unionall()函数对所述缺失时间序列和所述第一清洗数据进行聚合，得到待算法处理文件；其中，所述计算引擎Spark基于所述待算法处理文件根据所述缺失值位置对所述第一清洗数据进行缺失值填充。

根据本发明的一个实施例，所述计算引擎Spark根据所述缺失值位置对所述第一清洗数据进行缺失值填充，得到第二清洗数据时，具体用于：利用线性回归模型对所述缺失值位置进行缺失值预测，得到所述缺失值位置的预测值；使用所述预测值填充相应的缺失值位置，得到所述第二清洗数据。

根据本发明的一个实施例，所述计算引擎Spark在对所述第二清洗数据进行异常值检测和替换，得到第三清洗数据时，具体用于：计算得到所述第二清洗数据的第一均值；通过箱线图法找出所述第二清洗数据中的异常值；通过所述第一均值替换所述异常值，得到所述第三清洗数据。

根据本发明的一个实施例，所述计算引擎Spark在通过箱线图法找出异常值时，具体用于：通过四分位法找出所述第二清洗数据中的下四分位数和上四分位数；根据所述下四分位数和所述上四分位数，得到上须和下须，并将小于所述下须或大于所述上须的数据，确定为所述异常值；其中，所述下四分位数记为Q1，所述上四分位数记为Q2，所述下须记为S1，所述上须记为S2，Q1表示所述第二清洗数据由小到大排列后位于第25%位置的数值，Q2表示所述第二清洗数据由小到大排列后位于第75%位置的数值，S1= Q1-1.5*（Q2-Q1），S2=Q2+1.5（Q2+Q1）。

根据本发明的一个实施例，所述计算引擎Spark在通过所述第一均值替换所述异常值之后，还用于：计算得到所述第一均值替换所述异常值后的第二清洗数据的第二均值；通过三倍标准差法识别出所述第一均值替换所述异常值后的第二清洗数据中的异常值，记为第二异常值；通过第二均值替换所述第二异常值。

根据本发明的一个实施例，多个所述数仓包括数仓Hbase、数仓Doris和数仓Clickhouse中的至少两者。

本发明实施例的大数据清洗系统，通过采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓能够对庞大的数据进行高效地清洗，保证了大数据分析以及评估结果的准确性和价值性，对光伏电站的运维和相关用电指标地预测起到了根本性保障。同时，减小了服务器等设备的成本投入。

附图说明

图1是本发明一实施例的大数据清洗系统的结构示意图；

图2是本发明一实施例的计算引擎Spark工作的流程示意图；

图3是本发明一实施例的计算引擎Spark在确定原始数据中的缺失值位置时的流程示意图；

图4是本发明一实施例的计算引擎Spark根据缺失值位置对第一清洗数据进行缺失值填充，得到第二清洗数据时的流程示意图；

图5是本发明一实施例的计算引擎Spark在对第二清洗数据进行异常值检测和替换，得到第三清洗数据时的流程示意图；

图6是本发明一实施例的箱线图的示例图；

图7是本发明一实施例的计算引擎Spark在通过箱线图法找出异常值时的流程示意图；

图8是本发明另一实施例的计算引擎Spark在对第二清洗数据进行异常值检测和替换，得到第三清洗数据时的流程示意图；

图9是本发明一实施例的大数据清洗系统具体工作流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的大数据清洗系统。

图1是本发明一实施例的大数据清洗系统的结构示意图。

如图1所示，大数据清洗系统1包括：采集器10、分布式文件系统20、调度平台DolphinScheduler30、协调服务端zookeeper40、计算引擎Spark50和多个数仓60；调度平台DolphinScheduler30用于配置数据采集任务，将采集器10采集的原始数据传输至分布式文件系统20存储，并通过协调服务端zookeeper40进行协调服务，将分布式文件系统20中存储的原始数据传输至计算引擎Spark50进行清洗，以及将清洗后的原始数据分别存储至多个数仓60，以满足多种数据使用需求。

具体地，采集器10可定时采集光伏设备组件测点数据，依据每个光伏设备测点对应的协议将数据生成文件，调度平台DolphinScheduler30配置dataX和Flume等数据采集任务，将数据上送至分布式文件系统20。通过协调服务端zookeeper40协调服务，将原始数据通过计算引擎Spark50入库到各个数仓60中。

可选地，采集器10可每隔10min采集一次光伏电站的数据。

作为一个示例，还可通过计算引擎Flink对原始数据进行清洗。

其中，调度平台DolphinScheduler30进行整个数据生命周期的调度管理。

本发明实施例的大数据清洗系统1，通过采集器10、分布式文件系统20、调度平台DolphinScheduler30、协调服务端zookeeper40、计算引擎Spark50和多个数仓60能够对庞大的数据进行高效地清洗，保证了大数据分析以及评估结果的准确性和价值性，对光伏电站的运维和相关用电指标的预测起到了根本性保障。同时，减小了服务器等设备的成本投入。

在本发明的一些实施例中，如图2所示，计算引擎Spark50用于：

S1，确定原始数据中的缺失值位置。

S2，对原始数据中的重复数据进行剔除，得到第一清洗数据。

S3，根据缺失值位置对第一清洗数据进行缺失值填充，得到第二清洗数据。

S4，对第二清洗数据进行异常值检测和替换，得到第三清洗数据，作为清洗后的原始数据。

其中，计算引擎Spark50包括SparkStreaming、SparkSQL、SparkMLlib等组件。

在该实施例中，计算引擎Spark50基于内存的数据处理允许运行更加复杂的数据转换，在整个数据处理生命周期中不会Shuffle（集群范围内跨节点、跨进程的数据分发）到磁盘，在内存层面即可完成所有计算。计算引擎Spark50对数据处理的速度较快，效率更高。

在本发明的一些实施例中，原始数据为时间序列数据，如图3所示，计算引擎Spark50在确定原始数据中的缺失值位置时，具体用于：

S11，初始化Spark Context。

S12，将存储原始数据的弹性分布式数据集rdd转换为数据帧DataFrame，并将数据帧DataFrame映射成视图表view table。

S13，利用SparkSQL中的max（‘ab’）函数和min（‘ab’）函数基于视图表view table获取原始数据对应的实际时间序列。

S14，利用SparkSQL中的repeat（‘ab’，num）函数，基于实际时间序列，得到理论时间序列。

具体地，可利用repeat('ab',num) 函数来重复炸裂实际时间序列，获取理论时间序列。其中，重复炸裂实际时间序列表示将指定的字符串重复指定的次数并返回。根据数据出现最晚时刻和最早时刻的差获取该炸裂次数，接着获取最早时刻和最晚时刻之间应该出现的时刻次数，最后利用时间函数进行替换生成理论时间序列。

S15，根据理论时间序列和实际时间序列得到缺失时间序列，缺失时间序列包括缺失值位置。

具体地，将理论时间序列和实际时间序列进行关联，过滤出缺失时间序列。

在本发明的一些实施例中，计算引擎Spark50在对原始数据中的重复数据进行剔除时，具体用于：利用SparkSQL中的Row_number()函数基于视图表view table进行开窗分组排序，以使单一时刻对应一条数据。

其中，将所有单一时刻对应的数据进行整理，可得到第一清洗数据。

作为一个示例，可先初始化Spark Context。再将存储原始数据的弹性分布式数据集rdd转换为数据帧DataFrame，并将数据帧DataFrame映射成视图表view table。最后利用SparkSQL中的Row_number()函数基于视图表view table进行开窗分组排序，以使单一时刻对应一条数据。

在该实施例中，通过对原始数据中的重复值进行处理，能够避免同一时刻出现重复多次推送情况，减少了数据量，便于数据处理。

在本发明的一些实施例中，计算引擎Spark50还用于：利用SparkSQL中的unionall()函数对缺失时间序列和第一清洗数据进行聚合，得到待算法处理文件；其中，计算引擎Spark50基于待算法处理文件根据缺失值位置对第一清洗数据进行缺失值填充。

具体地，可在缺失时间序列和第一清洗数据进行聚合后，依据处理标识形成一份待算法处理文件。

在本发明的一些实施例中，如图4所示，计算引擎Spark50根据缺失值位置对第一清洗数据进行缺失值填充，得到第二清洗数据时，具体用于：

S31，利用线性回归模型对缺失值位置进行缺失值预测，得到缺失值位置的预测值。

S32，使用预测值填充相应的缺失值位置，得到第二清洗数据。

具体地，利用线性回归模型对缺失值位置进行缺失值预测，是通过建立响应变量关于自变量的回归模型来预测缺失数据。

可通过下式表示第i个缺失值的填充值：

其中，

表示第i个缺失值的填充值，/>

表示第一清洗数据中第i时刻对应的数据，

和/>

表示参数，/>

和/>

可通过构造损失函数求出，/>

表示第一清洗数据中单一数据的数量。

作为一个示例，通过构造损失函数求出

和/>

，用于：

通过如下公式累计计算每一个样本点结果值和当前函数值的差值的平方：

令

，继续推导，转换成矩阵如下：

其中，

表示真实值矩阵，/>

表示特征值矩阵，/>

，/>

表示权重矩阵，

。需要说明的是，对其求解关于/>

的最小值，起止/>

和/>

均已知，利用二次函数直接求导，导数为零的位置表示/>

的值，即最小值。确定最小值后即可确定上述公式。

在该实施例中，通过对第一清洗数据中的缺失值进行填充，能够保证数据的完整性，形成一份较为完整数据集。通过利用线性回归模型对缺失值位置进行缺失值预测，该预测结果较为准确，有利于后续工作人员对数据的分析和使用。

在本发明的一些实施例中，如图5所示，计算引擎Spark50在对第二清洗数据进行异常值检测和替换，得到第三清洗数据时，具体用于：

S41，计算得到第二清洗数据的第一均值。

S42，通过箱线图法找出第二清洗数据中的异常值。

S43，通过第一均值替换异常值，得到第三清洗数据。

作为一个示例，如图6所示，通过箱线图找出第二清洗数据中的异常值并替换，包括：第一步，根据第二清洗数据分别计算得到上须、下须、上四分位数、均值、中位数、下四分位数、异常点；第二步，去除异常点，并循环使用均值替换填充第二清洗数据中的空余位置。

在该实施例中，通过箱线图法能够直观明了地确定异常值，有利于对数据中的异常值进行清洗。

在本发明的一些实施例中，如图7所示，计算引擎Spark50在通过箱线图法找出异常值时，具体用于：

S421，通过四分位法找出第二清洗数据中的下四分位数和上四分位数。

S422，根据下四分位数和上四分位数，得到上须和下须，并将小于下须或大于上须的数据，确定为异常值。

其中，下四分位数记为Q1，上四分位数记为Q2，下须记为S1，上须记为S2，Q1表示第二清洗数据由小到大排列后位于第25%位置的数值，Q2表示第二清洗数据由小到大排列后位于第75%位置的数值，S1= Q1-1.5*（Q2-Q1），S2= Q2+1.5（Q2+Q1）。

在该实施例中，通过使用四分位法能够较少受到异常值的影响，使得确定的异常值较为准确。

在本发明的一些实施例中，如图8所示，计算引擎Spark50在通过第一均值替换异常值之后，还用于：

S431，计算得到第一均值替换异常值后的第二清洗数据的第二均值。

S432，通过三倍标准差法识别出第一均值替换异常值后的第二清洗数据中的异常值，记为第二异常值。

S433，通过第二均值替换第二异常值。

具体地，三倍标准差法可用公式表示为：

。其中，

，N表示样本的数量，/>

表示第i个样本，/>

表示全体样本的平均值，/>

表示正常样本，小于/>

或大于/>

的数据标记为异常样本。

在该实施例中，对通过箱线图法剔除异常值后，继续通过三倍标准差法进行异常值的剔除，能够进一步去除数据中遗漏的异常值。

在本发明的一些实施例中，多个数仓60包括数仓Hbase、数仓Doris和数仓Clickhouse中的至少两者。

其中，数仓60还包括数仓Hive、数仓Mysql。

具体地，对清洗后原始数据，可利用调度平台DolphinScheduler30调度工作流，可分为不同应用方向：

通过ClickHouse客户端自带导入命令load file到查询库ClickHouse供web页面进行查询展示修复后数据。

通过Spark LOAD命令将数据加载到数仓Doris，供数据分析、数据挖掘等操作。

通过Flink CDC同步数据至应用数据库，做BI报表等应用展示。

作为一个示例，如图9所示，说明本发明的具体工作流程：

采集器10通过各类型站点采集格式为.txt的文本数据，并上传至Flume和/或dataX。

分布式文件系统20将数据原始数据传输至计算引擎Spark50进行清洗，其中，清洗过程包括：重复值处理、缺失值处理和异常值处理。

计算引擎Spark50将清洗后的数据分别发送到多个数仓60。

应当理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

同时，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种大数据清洗系统，其特征在于，所述系统包括：采集器、分布式文件系统、调度平台DolphinScheduler、协调服务端zookeeper、计算引擎Spark和多个数仓；

所述调度平台DolphinScheduler用于配置数据采集任务，将所述采集器采集的原始数据传输至所述分布式文件系统存储，并通过所述协调服务端zookeeper进行协调服务，将所述分布式文件系统中存储的原始数据传输至所述计算引擎Spark进行清洗，以及将清洗后的原始数据分别存储至多个所述数仓，以满足多种数据使用需求；

所述计算引擎Spark用于：

确定所述原始数据中的缺失值位置；

对所述原始数据中的重复数据进行剔除，得到第一清洗数据；

根据所述缺失值位置对所述第一清洗数据进行缺失值填充，得到第二清洗数据；

对所述第二清洗数据进行异常值检测和替换，得到第三清洗数据，作为所述清洗后的原始数据；

所述原始数据为时间序列数据，所述计算引擎Spark在确定所述原始数据中的缺失值位置时，具体用于：

初始化Spark Context；

将存储所述原始数据的弹性分布式数据集rdd转换为数据帧DataFrame，并将所述数据帧DataFrame映射成视图表view table；

利用SparkSQL中的max（‘ab’）函数和min（‘ab’）函数基于所述视图表view table获取所述原始数据对应的实际时间序列；

利用SparkSQL中的repeat（‘ab’，num）函数，基于所述实际时间序列，得到理论时间序列；

根据所述理论时间序列和所述实际时间序列得到缺失时间序列，所述缺失时间序列包括所述缺失值位置；

所述计算引擎Spark在对所述原始数据中的重复数据进行剔除时，具体用于：

利用SparkSQL中的Row_number()函数基于所述视图表view table进行开窗分组排序，以使单一时刻对应一条数据；

所述计算引擎Spark还用于：

利用SparkSQL中的union all()函数对所述缺失时间序列和所述第一清洗数据进行聚合，得到待算法处理文件；

其中，所述计算引擎Spark基于所述待算法处理文件根据所述缺失值位置对所述第一清洗数据进行缺失值填充。

2.根据权利要求1所述的大数据清洗系统，其特征在于，所述计算引擎Spark根据所述缺失值位置对所述第一清洗数据进行缺失值填充，得到第二清洗数据时，具体用于：

利用线性回归模型对所述缺失值位置进行缺失值预测，得到所述缺失值位置的预测值；

使用所述预测值填充相应的缺失值位置，得到所述第二清洗数据。

3.根据权利要求1所述的大数据清洗系统，其特征在于，所述计算引擎Spark在对所述第二清洗数据进行异常值检测和替换，得到第三清洗数据时，具体用于：

计算得到所述第二清洗数据的第一均值；

通过箱线图法找出所述第二清洗数据中的异常值；

通过所述第一均值替换所述异常值，得到所述第三清洗数据。

4.根据权利要求3所述的大数据清洗系统，其特征在于，所述计算引擎Spark在通过箱线图法找出异常值时，具体用于：

通过四分位法找出所述第二清洗数据中的下四分位数和上四分位数；

根据所述下四分位数和所述上四分位数，得到上须和下须，并将小于所述下须或大于所述上须的数据，确定为所述异常值；

其中，所述下四分位数记为Q1，所述上四分位数记为Q2，所述下须记为S1，所述上须记为S2，Q1表示所述第二清洗数据由小到大排列后位于第25%位置的数值，Q2表示所述第二清洗数据由小到大排列后位于第75%位置的数值，S1= Q1-1.5*（Q2-Q1），S2= Q2+1.5（Q2+Q1）。

5.根据权利要求4所述的大数据清洗系统，其特征在于，所述计算引擎Spark在通过所述第一均值替换所述异常值之后，还用于：

计算得到所述第一均值替换所述异常值后的第二清洗数据的第二均值；

通过三倍标准差法识别出所述第一均值替换所述异常值后的第二清洗数据中的异常值，记为第二异常值；

通过第二均值替换所述第二异常值。

6.根据权利要求1所述的大数据清洗系统，其特征在于，多个所述数仓包括数仓Hbase、数仓Doris和数仓Clickhouse中的至少两者。