CN110888850B - 一种基于电力物联网平台的数据质量检测方法 - Google Patents

一种基于电力物联网平台的数据质量检测方法 Download PDF

Info

Publication number
CN110888850B
CN110888850B CN201911226439.5A CN201911226439A CN110888850B CN 110888850 B CN110888850 B CN 110888850B CN 201911226439 A CN201911226439 A CN 201911226439A CN 110888850 B CN110888850 B CN 110888850B
Authority
CN
China
Prior art keywords
data
time
real
electric power
power internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911226439.5A
Other languages
English (en)
Other versions
CN110888850A (zh
Inventor
常英贤
孙锡洲
范春磊
徐康
卢媛
冷小洁
栾卫平
杨尉
穆芮
顾建伟
王伟
荣俊兴
李维娜
张睿
杨冉昕
赵慧群
周子程
张志浩
黄征
冯逊
周学军
张赟
王文亮
高丰
施举鹏
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
State Grid Corp of China SGCC
Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Original Assignee
Nanjing University of Aeronautics and Astronautics
State Grid Corp of China SGCC
Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics, State Grid Corp of China SGCC, Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201911226439.5A priority Critical patent/CN110888850B/zh
Publication of CN110888850A publication Critical patent/CN110888850A/zh
Application granted granted Critical
Publication of CN110888850B publication Critical patent/CN110888850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于电力物联网平台的数据质量检测方法,包括数据采集、分析及异常检测,异常检测包括在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器;提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造停止条件及深度预设最大值;构建多颗隔离树;构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,对量测实时流数据计算平均分割深度,依深度值确定是否是异常数据;按时间分界点初始化历史数据,修改实时数据的消费偏移量,保证批处理和实时处理数据无缝衔接。上述方法能提升泛在电力物联网平台数据质量。

Description

一种基于电力物联网平台的数据质量检测方法
技术领域
本发明涉及数据质量检测方法技术领域,尤其涉及一种基于电力物联网平台的数据质量检测方法。
背景技术
当前国家电网公司信息内网建成了覆盖公司总部及27家省(市)公司的两级全业务统一数据中心分析域,初步具备了数据接入、数据存储计算、数据分析应用相关能力,实现公司核心业务系统数据的接入及整合汇聚,支撑了各专业数据分析类应用的构建,全业务统一数据中心已成为国家电网公司泛在电力物联网平台的重要组成部分。
全业务统一数据中心分析域在数据分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题,具体如下:
技术组件多样,应用难度大。分析域主要包括数据接入、数据存储、数据计算等方面的多个技术组件,涉及厂商多,组件之间技术集成复杂,对专业能力要求高,应用难度大。
找数据困难,数据应用门槛高。一是当前分析域未形成完整的数据资源目录,数据资源检索困难;二是分析域目前尚未构建数据服务,数据应用复用性差,增加数据应用难度。
数据模型管控机制待完善。当前全域数据模型尚不成熟,需要在应用过程中快速持续迭代;另外,数据模型管控基于人工线下流程处理,效率低,响应慢。
因此,一套成熟完整的电力物联网平台的数据质量检测方法的设计与实现,具有现实意义。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种基于电力物联网平台的数据质量检测方法,以便通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。
为了实现上述目的,本发明提出了一种基于电力物联网平台的数据质量检测方法,包括以下步骤:
步骤1、数据采集,其包括以下步骤:
步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;
步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;
步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;
步骤2、数据分析,其包括以下步骤:
步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;
步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;
步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求;
步骤3、数据异常检测,其包括以下步骤:
步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器;
步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值;
步骤303、引入集成学习方法,构建多颗隔离树;
步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据,当深度值的大小超过预设的最大值,则为异常,反之,数据是正常;
步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。
优选的是,在所述步骤102中,通过消息队列、数据复制或ETL形式,将采集到的数据按照预定频度传送至数据存储层。
本发明的该方案的有益效果在于上述基于电力物联网平台的数据质量检测方法能够通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。
具体实施方式
下面对本发明的具体实施方式作进一步的说明。
本发明所涉及的基于电力物联网平台的数据质量检测方法包括以下步骤:
步骤1、数据采集,其包括以下步骤:
步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据。采集的数据类型包括结构化数据、非结构化数据、采集量测类数据以及E格式文件和特定规约的消息数据,例如一些特殊部门或者某项业务需要收集某一个电力系统指标数据的时候,我们就需要对此类需求进行特定规约收集。
步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测。其中可以通过消息队列、数据复制、ETL等形式,将采集到的数据按照一定频度传送至数据存储层。其中根据相关需求对数据进行加工计算,例如是根据相关业务部门或者电力检测对于某一项业务数据的需要进行筛选判定,此时,对数据进行一些阈值筛选和数据源转换计算,以方便后续数据质量检测。
步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库。
步骤2、数据分析,其包括以下步骤:
步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模。随着操作时间的增加,量测数据异常的概率增加。假设已知n个量测数据异常类型,并且有第i个量测异常类型的数据集Xi,还有一个正常数据的量测数据集Xnormal。然后可以获得一个训练量测数据集X={X1,X2,…,Xn,Xnormal},normal=n+1。对于任何量测数据集,它可能包含新的未知数据异常X'new,X'={X'1,…,X'n,X'normal,X'new},new=n+2。上述方法针对量测数据,分类识别出新出现的量测数据异常X'new
步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算。
步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求。
步骤3、数据异常检测,其包括以下步骤:
步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器。
步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值。
步骤303、引入集成学习方法,构建多颗隔离树。由于随机特性,仅仅构建一颗隔离树并不能良好的进行异常判断,故引入集成学习方法,构建多颗隔离树。
步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据。当深度值的大小超过预设的最大值,则为异常,反之,数据是正常。
步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。
本发明所涉及的基于电力物联网平台的数据质量检测方法具有以下优点:
(1)提升电力物联网平台数据质量:随着国家电网业务规模的不断扩大,全业务统一数据中心分析域在数据分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题。通过分析泛在电力物联网平台接入实时数据的类型、采集时间、数据项、数据间逻辑关系等,对量测类实时数据进行建模,实时进行数据质量检测,从而进一步提升物联网平台数据质量。
(2)提升电力物联网平台数据应用能力:当前国家电网业务规模日趋庞大,数据规模也日益增多。数据应用能力包括数据分析和数据服务两部分。数据分析是为分析模型和分析算法提供管理,为数据报表与可视化展示提供工具集。通过本方法,可以有效提升数据应用能力,更好的挖掘出数据的价值。
(3)提升数据管理能力以及平台的数据处理效率:随着互联网的快速发展,每时每分都在产生数据,大数据时代,如何更好的利用好业务平台所产生的数据,是极其重要的也是必须重视的。数据管理能力包括数据资源管理和运营管理两部分。本方法既能做到加强数据管理能力,同时还能进一步提高系统的效率和资源的有效性。

Claims (1)

1.一种基于电力物联网平台的数据质量检测方法,其特征在于:包括以下步骤:
步骤1、数据采集,其包括以下步骤:
步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;其中,通过消息队列、数据复制或ETL形式,将采集到的数据按照预定频度传送至数据存储层;
步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;
步骤2、数据分析,其包括以下步骤:
步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;
步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;
步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求;
步骤3、数据异常检测,其包括以下步骤:
步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器;
步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值;
步骤303、引入集成学习方法,构建多颗隔离树;
步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据,当深度值的大小超过预设的最大值,则为异常,反之,数据是正常。
CN201911226439.5A 2019-12-04 2019-12-04 一种基于电力物联网平台的数据质量检测方法 Active CN110888850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911226439.5A CN110888850B (zh) 2019-12-04 2019-12-04 一种基于电力物联网平台的数据质量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911226439.5A CN110888850B (zh) 2019-12-04 2019-12-04 一种基于电力物联网平台的数据质量检测方法

Publications (2)

Publication Number Publication Date
CN110888850A CN110888850A (zh) 2020-03-17
CN110888850B true CN110888850B (zh) 2023-07-21

Family

ID=69750197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911226439.5A Active CN110888850B (zh) 2019-12-04 2019-12-04 一种基于电力物联网平台的数据质量检测方法

Country Status (1)

Country Link
CN (1) CN110888850B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143341A (zh) * 2021-11-23 2022-03-04 上海电力大学 用于智能能源的现代建筑数据收集平台
CN116471307B (zh) * 2023-06-20 2023-08-22 北京中科朗易科技有限责任公司 物联网异构数据级联传输方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN110189232A (zh) * 2019-05-14 2019-08-30 三峡大学 基于孤立森林算法的用电信息采集数据异常分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543765A (zh) * 2018-08-23 2019-03-29 江苏海平面数据科技有限公司 一种基于改进IForest的工业数据去噪方法
CN110032557B (zh) * 2019-04-12 2024-04-26 国网安徽省电力有限公司阜阳供电公司 一种基于大数据的电网设备状态异常监测方法及系统
CN110334105B (zh) * 2019-07-12 2022-09-09 河海大学常州校区 一种基于Storm的流数据异常检测方法
CN110399935A (zh) * 2019-08-02 2019-11-01 哈工大机器人(合肥)国际创新研究院 基于孤立森林机器学习的机器人实时异常监测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN110189232A (zh) * 2019-05-14 2019-08-30 三峡大学 基于孤立森林算法的用电信息采集数据异常分析方法

Also Published As

Publication number Publication date
CN110888850A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN108415789B (zh) 面向大规模混合异构存储系统的节点故障预测系统及方法
CN110865929A (zh) 异常检测预警方法及系统
CN113360358B (zh) 一种自适应计算it智能运维健康指数的方法及系统
CN115225536B (zh) 一种基于无监督学习的虚拟机异常检测方法及系统
CN110703057A (zh) 基于数据增强和神经网络的电力设备局部放电诊断方法
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
CN110888850B (zh) 一种基于电力物联网平台的数据质量检测方法
CN114118224A (zh) 一种基于神经网络的全系统遥测参数异常检测系统
CN108170769A (zh) 一种基于决策树算法的装配制造质量数据处理方法
CN112685459A (zh) 一种基于K-means集群算法的攻击源特征识别方法
CN112785108A (zh) 一种基于调控云的电网运行数据关联分析方法及系统
CN110853744A (zh) 一种大数据下医院质控管理系统
Lv et al. A data fusion and data cleaning system for smart grids big data
CN109594967A (zh) 一种基于录井大数据的卡钻事故检测预警方法
CN113723637B (zh) 一种面向船舶维修体系的经济性修理级别分析方法及系统
WO2024027487A1 (zh) 基于智能运维场景的健康度评价方法及装置
CN113726558A (zh) 基于随机森林算法的网络设备流量预测系统
CN109165854B (zh) 空管运行效率等级评估方法及其装置
CN111930725A (zh) 一种配用电数据压缩、融合方法及装置
CN106649034A (zh) 一种可视化智能运维方法及平台
CN106709522B (zh) 一种基于改进模糊三角数的高压电缆施工缺陷分级方法
CN112306730B (zh) 基于历史项目伪标签生成的缺陷报告严重程度预测方法
Du et al. Unstructured log oriented fault diagnosis for operation and maintenance management
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统
CN114416415A (zh) 鸿蒙操作系统用远程在线故障检测方法及系统、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant