CN110888850A - 一种基于电力物联网平台的数据质量检测方法 - Google Patents
一种基于电力物联网平台的数据质量检测方法 Download PDFInfo
- Publication number
- CN110888850A CN110888850A CN201911226439.5A CN201911226439A CN110888850A CN 110888850 A CN110888850 A CN 110888850A CN 201911226439 A CN201911226439 A CN 201911226439A CN 110888850 A CN110888850 A CN 110888850A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- real
- power internet
- things platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于电力物联网平台的数据质量检测方法,包括数据采集、分析及异常检测,异常检测包括在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器;提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造停止条件及深度预设最大值;构建多颗隔离树;构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,对量测实时流数据计算平均分割深度,依深度值确定是否是异常数据;按时间分界点初始化历史数据,修改实时数据的消费偏移量,保证批处理和实时处理数据无缝衔接。上述方法能提升泛在电力物联网平台数据质量。
Description
技术领域
本发明涉及数据质量检测方法技术领域,尤其涉及一种基于电力物联网平台的数据质量检测方法。
背景技术
当前国家电网公司信息内网建成了覆盖公司总部及27家省(市)公司的两级全业务统一数据中心分析域,初步具备了数据接入、数据存储计算、数据分析应用相关能力,实现公司核心业务系统数据的接入及整合汇聚,支撑了各专业数据分析类应用的构建,全业务统一数据中心已成为国家电网公司泛在电力物联网平台的重要组成部分。
全业务统一数据中心分析域在数据分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题,具体如下:
技术组件多样,应用难度大。分析域主要包括数据接入、数据存储、数据计算等方面的多个技术组件,涉及厂商多,组件之间技术集成复杂,对专业能力要求高,应用难度大。
找数据困难,数据应用门槛高。一是当前分析域未形成完整的数据资源目录,数据资源检索困难;二是分析域目前尚未构建数据服务,数据应用复用性差,增加数据应用难度。
数据模型管控机制待完善。当前全域数据模型尚不成熟,需要在应用过程中快速持续迭代;另外,数据模型管控基于人工线下流程处理,效率低,响应慢。
因此,一套成熟完整的电力物联网平台的数据质量检测方法的设计与实现,具有现实意义。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种基于电力物联网平台的数据质量检测方法,以便通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。
为了实现上述目的,本发明提出了一种基于电力物联网平台的数据质量检测方法,包括以下步骤:
步骤1、数据采集,其包括以下步骤:
步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;
步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;
步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;
步骤2、数据分析,其包括以下步骤:
步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;
步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;
步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求;
步骤3、数据异常检测,其包括以下步骤:
步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器;
步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值;
步骤303、引入集成学习方法,构建多颗隔离树;
步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据,当深度值的大小超过预设的最大值,则为异常,反之,数据是正常;
步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。
优选的是,在所述步骤102中,通过消息队列、数据复制或ETL形式,将采集到的数据按照预定频度传送至数据存储层。
本发明的该方案的有益效果在于上述基于电力物联网平台的数据质量检测方法能够通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。
具体实施方式
下面对本发明的具体实施方式作进一步的说明。
本发明所涉及的基于电力物联网平台的数据质量检测方法包括以下步骤:
步骤1、数据采集,其包括以下步骤:
步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据。采集的数据类型包括结构化数据、非结构化数据、采集量测类数据以及E格式文件和特定规约的消息数据,例如一些特殊部门或者某项业务需要收集某一个电力系统指标数据的时候,我们就需要对此类需求进行特定规约收集。
步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测。其中可以通过消息队列、数据复制、ETL等形式,将采集到的数据按照一定频度传送至数据存储层。其中根据相关需求对数据进行加工计算,例如是根据相关业务部门或者电力检测对于某一项业务数据的需要进行筛选判定,此时,对数据进行一些阈值筛选和数据源转换计算,以方便后续数据质量检测。
步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库。
步骤2、数据分析,其包括以下步骤:
步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模。随着操作时间的增加,量测数据异常的概率增加。假设已知n个量测数据异常类型,并且有第i个量测异常类型的数据集Xi,还有一个正常数据的量测数据集Xnormal。然后可以获得一个训练量测数据集X={X1,X2,…,Xn,Xnormal},normal=n+1。对于任何量测数据集,它可能包含新的未知数据异常X'new,X'={X'1,…,X'n,X'normal,X'new},new=n+2。上述方法针对量测数据,分类识别出新出现的量测数据异常X'new。
步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算。
步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求。
步骤3、数据异常检测,其包括以下步骤:
步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器。
步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值。
步骤303、引入集成学习方法,构建多颗隔离树。由于随机特性,仅仅构建一颗隔离树并不能良好的进行异常判断,故引入集成学习方法,构建多颗隔离树。
步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据。当深度值的大小超过预设的最大值,则为异常,反之,数据是正常。
步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。
本发明所涉及的基于电力物联网平台的数据质量检测方法具有以下优点:
(1)提升电力物联网平台数据质量:随着国家电网业务规模的不断扩大,全业务统一数据中心分析域在数据分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题。通过分析泛在电力物联网平台接入实时数据的类型、采集时间、数据项、数据间逻辑关系等,对量测类实时数据进行建模,实时进行数据质量检测,从而进一步提升物联网平台数据质量。
(2)提升电力物联网平台数据应用能力:当前国家电网业务规模日趋庞大,数据规模也日益增多。数据应用能力包括数据分析和数据服务两部分。数据分析是为分析模型和分析算法提供管理,为数据报表与可视化展示提供工具集。通过本方法,可以有效提升数据应用能力,更好的挖掘出数据的价值。
(3)提升数据管理能力以及平台的数据处理效率:随着互联网的快速发展,每时每分都在产生数据,大数据时代,如何更好的利用好业务平台所产生的数据,是极其重要的也是必须重视的。数据管理能力包括数据资源管理和运营管理两部分。本方法既能做到加强数据管理能力,同时还能进一步提高系统的效率和资源的有效性。
Claims (2)
1.一种基于电力物联网平台的数据质量检测方法,其特征在于:包括以下步骤:
步骤1、数据采集,其包括以下步骤:
步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;
步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;
步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;
步骤2、数据分析,其包括以下步骤:
步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;
步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;
步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求;
步骤3、数据异常检测,其包括以下步骤:
步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器;
步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值;
步骤303、引入集成学习方法,构建多颗隔离树;
步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据,当深度值的大小超过预设的最大值,则为异常,反之,数据是正常;
步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。
2.根据权利要求1所述的基于电力物联网平台的数据质量检测方法,其特征在于:在所述步骤102中,通过消息队列、数据复制或ETL形式,将采集到的数据按照预定频度传送至数据存储层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911226439.5A CN110888850B (zh) | 2019-12-04 | 2019-12-04 | 一种基于电力物联网平台的数据质量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911226439.5A CN110888850B (zh) | 2019-12-04 | 2019-12-04 | 一种基于电力物联网平台的数据质量检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888850A true CN110888850A (zh) | 2020-03-17 |
CN110888850B CN110888850B (zh) | 2023-07-21 |
Family
ID=69750197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911226439.5A Active CN110888850B (zh) | 2019-12-04 | 2019-12-04 | 一种基于电力物联网平台的数据质量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888850B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143341A (zh) * | 2021-11-23 | 2022-03-04 | 上海电力大学 | 用于智能能源的现代建筑数据收集平台 |
CN116471307A (zh) * | 2023-06-20 | 2023-07-21 | 北京中科朗易科技有限责任公司 | 物联网异构数据级联传输方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488610A (zh) * | 2015-11-23 | 2016-04-13 | 国网山东省电力公司信息通信公司 | 一种电力应用系统故障实时分析诊断系统及方法 |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN109543765A (zh) * | 2018-08-23 | 2019-03-29 | 江苏海平面数据科技有限公司 | 一种基于改进IForest的工业数据去噪方法 |
CN110032557A (zh) * | 2019-04-12 | 2019-07-19 | 国网安徽省电力有限公司阜阳供电公司 | 一种基于大数据的电网设备状态异常监测方法及系统 |
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
CN110334105A (zh) * | 2019-07-12 | 2019-10-15 | 河海大学常州校区 | 一种基于Storm的流数据异常检测算法 |
CN110399935A (zh) * | 2019-08-02 | 2019-11-01 | 哈工大机器人(合肥)国际创新研究院 | 基于孤立森林机器学习的机器人实时异常监测方法及系统 |
-
2019
- 2019-12-04 CN CN201911226439.5A patent/CN110888850B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488610A (zh) * | 2015-11-23 | 2016-04-13 | 国网山东省电力公司信息通信公司 | 一种电力应用系统故障实时分析诊断系统及方法 |
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN109543765A (zh) * | 2018-08-23 | 2019-03-29 | 江苏海平面数据科技有限公司 | 一种基于改进IForest的工业数据去噪方法 |
CN110032557A (zh) * | 2019-04-12 | 2019-07-19 | 国网安徽省电力有限公司阜阳供电公司 | 一种基于大数据的电网设备状态异常监测方法及系统 |
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
CN110334105A (zh) * | 2019-07-12 | 2019-10-15 | 河海大学常州校区 | 一种基于Storm的流数据异常检测算法 |
CN110399935A (zh) * | 2019-08-02 | 2019-11-01 | 哈工大机器人(合肥)国际创新研究院 | 基于孤立森林机器学习的机器人实时异常监测方法及系统 |
Non-Patent Citations (2)
Title |
---|
余翔: "基于孤立森林算法的用电数据异常检测研究" * |
李新鹏: "基于孤立森林算法的电力调度流数据异常检测方法" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143341A (zh) * | 2021-11-23 | 2022-03-04 | 上海电力大学 | 用于智能能源的现代建筑数据收集平台 |
CN116471307A (zh) * | 2023-06-20 | 2023-07-21 | 北京中科朗易科技有限责任公司 | 物联网异构数据级联传输方法、装置、设备及介质 |
CN116471307B (zh) * | 2023-06-20 | 2023-08-22 | 北京中科朗易科技有限责任公司 | 物联网异构数据级联传输方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110888850B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107124394B (zh) | 一种电力通信网络安全态势预测方法和系统 | |
CN110493025A (zh) | 一种基于多层有向图的故障根因诊断的方法及装置 | |
CN112785108A (zh) | 一种基于调控云的电网运行数据关联分析方法及系统 | |
CN112685459A (zh) | 一种基于K-means集群算法的攻击源特征识别方法 | |
CN109711664B (zh) | 一种基于大数据的输变电设备健康评估系统 | |
CN112183906B (zh) | 一种基于多模型组合模型的机房环境预测方法及系统 | |
CN110888850A (zh) | 一种基于电力物联网平台的数据质量检测方法 | |
CN110995153A (zh) | 一种光伏电站的异常数据检测方法、装置及电子设备 | |
CN117667585B (zh) | 一种基于运维质量管理数据库的运维效率评估方法及系统 | |
CN117171548B (zh) | 一种基于电网大数据的网络安全态势智能预测方法 | |
CN106649034B (zh) | 一种可视化智能运维方法及平台 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
WO2024027487A1 (zh) | 基于智能运维场景的健康度评价方法及装置 | |
CN111930725A (zh) | 一种配用电数据压缩、融合方法及装置 | |
CN111597502A (zh) | 基于模糊理论的电力监控系统无线接入安全评估方法及装置 | |
CN109165854B (zh) | 空管运行效率等级评估方法及其装置 | |
CN114500229B (zh) | 基于时空信息的网络告警定位及分析方法 | |
CN116341716A (zh) | 一种基于数字孪生的智能降损方法 | |
Chen et al. | Machine learning-based anomaly detection of ganglia monitoring data in HEP Data Center | |
CN106816871B (zh) | 一种电力系统状态相似性分析方法 | |
CN112507290B (zh) | 配电设备故障概率预判方法、装置及存储介质 | |
Du et al. | Unstructured log oriented fault diagnosis for operation and maintenance management | |
Tan et al. | Research on Fault Prediction Model Based on 5G Data Center | |
Peng et al. | Research on data quality detection technology based on ubiquitous state grid internet of things platform | |
CN113064812A (zh) | 一种项目开发过程质量缺陷预测方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |