CN117076863A - 一种面向发电领域的数据规范化治理方法及系统 - Google Patents
一种面向发电领域的数据规范化治理方法及系统 Download PDFInfo
- Publication number
- CN117076863A CN117076863A CN202311064897.XA CN202311064897A CN117076863A CN 117076863 A CN117076863 A CN 117076863A CN 202311064897 A CN202311064897 A CN 202311064897A CN 117076863 A CN117076863 A CN 117076863A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- point
- power generation
- generation field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000010248 power generation Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000004519 manufacturing process Methods 0.000 claims abstract description 30
- 238000013500 data storage Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000007726 management method Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013524 data verification Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 abstract description 2
- 238000012423 maintenance Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000013439 planning Methods 0.000 abstract description 2
- 238000013523 data management Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012958 reprocessing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向发电领域的数据规范化治理方法及系统,涉及发电领域数据统筹技术领域,包括,收集发电领域相关数据,并根据收集到的数据制定规范;系统自动采集业务数据;完成数据接入,数据处理,数据存储,数据驱动;对生产数据进行分析及处理。本发明所述方法可以有效解决目前多个业务系统存在多头报送且报送目标众多,方式混杂,数据采集点不稳定,数据无统一的管控组织且手工填报数据没有统一的填报系统,导致报送数据缺乏统一审核流程,以及报送数据关注指标众多,完全依靠人工处置,报送时间集中,且报送量大的问题,实现风机设备健康状态可洞察,为电厂运维及技术人员提供机组性能优化建议。
Description
技术领域
本发明涉及发电领域数据统筹技术领域,尤其涉及一种面向发电领域的数据规范化治理方法及系统。
背景技术
当前,世界经济整体复苏,全球能源需求增速放缓,但从长远来看能源依然紧缺,国际油价波动、科技和信息化水平的不断提高以及环境问题的日益突出,能源的开发利用面临着新的挑战。世界各国逐步开始新能源的开发和探索,推动了能源产业的快速转型,云计算、人工智能等关键技术的突破也加速了能源产业的转型。一场以新能源大规模开发利用为显著标志,以低能耗、低污染、低排放为基础的,以云大物移智等先进信息技术为驱动力的,新一轮能源产业革命正在世界范围内兴起,能源正在朝着一个多元化、智能化能源时代演进。
建分公司随着企业持续发展以及信息化建设应用的持续深入,各种各样大大小小的系统如办公自动化系统、水情监测系统、市场营销系统等。在这些应用系统中产生了大量的甚至海量的业务数据,存在着大量有价值的信息,但由于各个应用系统采用的技术不尽相同,数据格式及编码不同,导致在企业内部业务数据各自独立,缺乏数据交互以及汇总提炼的基础。从表层看数据基础薄弱、数据不完整和不一致,但从深层次看数据管理体制不健全、内部管理职能不清等因素是导致数据问题的根本原因,具体现状及问题如下:目前多个业务系统存在多头报送且报送目标众多,方式混杂等问题;数据采集点存在不稳定性,有时会中断;数据无统一的管控组织;手工填报数据没有统一的填报系统;报送数据缺乏统一审核流程;报送数据关注指标众多,完全依靠人工处置;存在原本可以采集的手工填报数据;报送时间集中,且报送量大;报送方式复杂多样,面向信息系统众多。
发明内容
鉴于上述现有技术中存在的问题,提出了本发明。
因此,本发明提供了一种面向发电领域的数据规范化治理方法,能够解决传统的技术中存在数据基础薄弱、数据不完整和不一致,且数据管理体制不健全、内部管理困难的问题。
为解决上述技术问题,本发明提供如下技术方案,一种面向发电领域的数据规范化治理方法,包括:收集发电领域相关数据,并根据收集到的数据制定规范;系统自动采集业务数据;完成数据接入,数据处理,数据存储,数据驱动;对生产数据进行分析及处理。
作为本发明所述的面向发电领域的数据规范化治理方法的一种优选方案,其中:所述预处理包括,所述制定规范包括,制定主数据及数据服务接口标准规范,对企业数据现状调研,根据需求分析报告,编制生产类主数据标准体系规范、分类编码规范和KPI指标体系规范、数据共享服务接口标准规范,形成数据存储、分析主题和数据共享统一标准。
作为本发明所述的面向发电领域的数据规范化治理方法的一种优选方案,其中:所述自动采集业务数据包括,完成数据接入、完成对多元异构数据融合;所述业务数据的范围包括,若数据有业务系统支持,则项目研究范围内公司下属水电、火电、风电、光伏电厂的生产数据,其中数据来源基于已接入公司的电厂SIS系统数据、电厂监控系统、电厂水情系统数据及公司综合业务信息管理系统,数据类型包括关系型数据库数据、应用系统数据、生产实时数据、半结构化数据;若数据无业务系统支持,则提供统一数据填报入口。
作为本发明所述的面向发电领域的数据规范化治理方法的一种优选方案,其中:所述数据处理是对来自多种数据源的不同类型数据进行数据预处理,包括一致性检查、去重、校验、处理无效值、缺失值处理操作,并进行噪声数据辨析及清洗方法,提取有效数据。
作为本发明所述的面向发电领域的数据规范化治理方法的一种优选方案,其中:所述数据预处理包括,若数据有业务系统支持,则通过K-近邻算法对缺失值进行填补,对于需要确定类别及数值的数据点,计算数据点与已知类别的数据点的距离,选取距离最近的K个点,并对K个点所属的类别进行筛选,筛选出聚点最多的数据类别,将未知类别的数据点归类为聚类点最多的类别,具体步骤如下:
d = sqrt[(x1- x2)2+ (y1- y2)2];
其中,d表示所求数据点与业务系统支持的电厂生产数据点的距离,x、y分别表示电厂的结构化数据和半结构化数据点,x1、y1表示所求数据点对应的标值,x2、y2表示已知数据点对应的标值;在处理缺失值时,当d>3.5时,用K个最近邻的数据点的连续变量的平均值进行缺失值的填补;当d≤3.5时,用K个最近邻的数据点的离散变量的众数来填补缺失值。
作为本发明所述的面向发电领域的数据规范化治理方法的一种优选方案,其中:所述数据预处理还包括,在数据填补完成后,通过Tukey算法对异常值进行再筛选和再处理,首先计算数据集的第一四分位数Q1和第三四分位数Q3,然后计算四分位数间距,即IQR= Q3 - Q1;计算数据点集下界和上界,其中下界为:Q1 - 1.5IQR,上界为:Q3 + 1.5IQR,最后,将位于下界以下或上界以上的数据点视为异常值并进行处理;若数据有业务系统支持且在处理缺失值时d>3.5,则数据集的异常值通过系统的逻辑单元进行数据来源追溯,定位数据类别,针对异常数据点的类别在对应点位对数据进行核销,并对核销后的缺位数据通过K-近邻算法进行缺失值的二次填补,直至数据核准无误为止;若数据有业务系统支持且在处理缺失值时d≤3.5,则数据集的异常值无需溯源,直接定位异常值数据点位,并将对应点位的数据进行核销,核销后根据同类别数据点的离散变量的众数进行填补,若核销数据的数据填补完成后,仍识别位异常值,则通过同类别数据点连续变量的平均值进行缺失值的填补;若数据无业务系统支持且数据点出现异常值,则直接将对应点位的数据核销处理;数据核销及填补完成后,对已处理的数据重新进行校验,具体过程如下:
;
其中,恒小于0,为数据点类别赋值;/>为第一序列数集,包括同类别关键点位数据值;/>恒小于1,为非关键点位数据值误差分子;t为第二序列数集,包括同类别非关键点位数据值;k为生产基数,且k∈[0.7,3.6];当/>时,确认输入的校验数据合格且数据值误差率在容错范围内,允许系统对数据进行编码传输,若数据有业务系统支持,则直接上传数据平台,由第一码块对数据进行录入、压缩、存储以及识别;若数据无业务系统支持,则将通过上级岗位授权,将数据录入可供操作的业务系统中,由业务系统直接上传数据平台,由第二码块对数据进行标注、录入、压缩、存储以及识别,最终实现数据的完整输出;当时,确认输入的校验数据不合格且数据值误差率不在容错范围内,则将数据录入寄存器中,并对问题数据段进行标记补录,并对数据点已更改的部分进行核销,重新执行全部操作步骤,直至数据最终输出为/>为止。
本发明的另外一个目的是提供面向发电领域的数据规范化治理系统,其能通过实现面向发电领域的数据规范化治理方法,解决现有技术中数据采集点存在不稳定性且数据报送方式复杂多样,面向信息系统众多的问题。
作为本发明所述的面向发电领域的数据规范化治理系统的一种优选方案,其中:所述系统包括,数据采集单元,用于采集发电领域相关数据;系统逻辑单元,用于根据收集到的数据制定规范,完成系统自动化采集业务数据,实现数据接入,数据处理,数据存储,数据驱动;数据处理单元,用于通过算法实现数据的预处理;数据存储单元,用于对采集、计算以及驱动阶段的数据进行存储;数据主控台,对于数据工程的全过程进行跟踪处理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现面向发电领域的数据规范化治理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现面向发电领域的数据规范化治理方法的步骤。
本发明的有益效果:本发明方法基于噪声数据辨析及清洗算法,获取数据规范化治理模型,通过采用自动化采集技术并结合人工填报手段,将多源异构的海量数据进行采集、汇聚、治理、存储、分析、访问和管理,提供统一指标口径和统一的数据API标准接口,提升数据质量,解决多头上报,为生产主题分析以及后续开展深度应用提供平台支撑。利用风电机组历史数据及实时运行数据对风电场运行状态进行评估,并结合人工智能和机器学习技术,实现风机设备健康状态可洞察,为电厂运维及技术人员提供机组性能优化建议。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种面向发电领域的数据规范化治理方法流程示意图;
图2为本发明一个实施例提供的一种面向发电领域的数据规范化治理方法的生产数据治理及分析仿真界面示意图;
图3为本发明一个实施例提供的一种面向发电领域的数据规范化治理系统具体架构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1-图2,为本发明的第一个实施例,该实施例提供了一种面向发电领域的数据规范化治理方法,包括:
S1:收集发电领域相关数据,并根据收集到的数据制定规范;
更进一步的,所述制定规范包括,制定主数据及数据服务接口标准规范,对企业数据现状调研,根据需求分析报告,编制生产类主数据标准体系规范、分类编码规范和KPI指标体系规范、数据共享服务接口标准规范,形成数据存储、分析主题和数据共享统一标准。
S2:系统自动采集业务数据。
更进一步的,所述自动采集业务数据包括,完成数据接入、完成对多元异构数据融合;所述业务数据的范围包括,若数据有业务系统支持,则项目研究范围内公司下属水电、火电、风电、光伏电厂的生产数据,其中数据来源基于已接入公司的电厂SIS系统数据、电厂监控系统、电厂水情系统数据及公司综合业务信息管理系统,数据类型包括关系型数据库数据、应用系统数据、生产实时数据、半结构化数据;若数据无业务系统支持,则提供统一数据填报入口。
S3:完成数据接入,数据处理,数据存储,数据驱动。
更进一步的,所述数据处理是对来自多种数据源的不同类型数据进行数据预处理,包括一致性检查、去重、校验、处理无效值、缺失值处理操作,并进行噪声数据辨析及清洗方法,提取有效数据。
应说明的是,所述数据预处理包括,若数据有业务系统支持,则通过K-近邻算法对缺失值进行填补,对于需要确定类别及数值的数据点,计算数据点与已知类别的数据点的距离,选取距离最近的K个点,并对K个点所属的类别进行筛选,筛选出聚点最多的数据类别,将未知类别的数据点归类为聚类点最多的类别,具体步骤如下:
d = sqrt[(x1- x2)2+ (y1- y2)2];
其中,d表示所求数据点与业务系统支持的电厂生产数据点的距离,x、y分别表示电厂的结构化数据和半结构化数据点,x1、y1表示所求数据点对应的标值,x2、y2表示已知数据点对应的标值。
更进一步的,在处理缺失值时,当d>3.5时,用K个最近邻的数据点的连续变量的平均值进行缺失值的填补;当d≤3.5时,用K个最近邻的数据点的离散变量的众数来填补缺失值。
应说明的是,所述数据预处理还包括,在数据填补完成后,通过Tukey算法对异常值进行再筛选和再处理,首先计算数据集的第一四分位数Q1和第三四分位数Q3,然后计算四分位数间距,即IQR = Q3 - Q1;计算数据点集下界和上界,其中下界为:Q1 - 1.5IQR,上界为:Q3 + 1.5IQR,最后,将位于下界以下或上界以上的数据点视为异常值并进行处理。
更进一步的,若数据有业务系统支持且在处理缺失值时d>3.5,则数据集的异常值通过系统的逻辑单元进行数据来源追溯,定位数据类别,针对异常数据点的类别在对应点位对数据进行核销,并对核销后的缺位数据通过K-近邻算法进行缺失值的二次填补,直至数据核准无误为止。
更进一步的,若数据有业务系统支持且在处理缺失值时d≤3.5,则数据集的异常值无需溯源,直接定位异常值数据点位,并将对应点位的数据进行核销,核销后根据同类别数据点的离散变量的众数进行填补,若核销数据的数据填补完成后,仍识别位异常值,则通过同类别数据点连续变量的平均值进行缺失值的填补。
应说明的是,若数据无业务系统支持且数据点出现异常值,则直接将对应点位的数据核销处理。
更进一步的,数据核销及填补完成后,对已处理的数据重新进行校验,具体过程如下:
;
其中,恒小于0,为数据点类别赋值;/>为第一序列数集,包括同类别关键点位数据值;/>恒小于1,为非关键点位数据值误差分子;t为第二序列数集,包括同类别非关键点位数据值;k为生产基数,且k∈[0.7,3.6]。
应说明的是,当时,确认输入的校验数据合格且数据值误差率在容错范围内,允许系统对数据进行编码传输,若数据有业务系统支持,则直接上传数据平台,由第一码块对数据进行录入、压缩、存储以及识别;若数据无业务系统支持,则将通过上级岗位授权,将数据录入可供操作的业务系统中,由业务系统直接上传数据平台,由第二码块对数据进行标注、录入、压缩、存储以及识别,最终实现数据的完整输出;
还应说明的是,当时,确认输入的校验数据不合格且数据值误差率不在容错范围内,则将数据录入寄存器中,并对问题数据段进行标记补录,并对数据点已更改的部分进行核销,重新执行全部操作步骤,直至数据最终输出为/>为止。
更进一步的,所述数据存储是生产数据治理及分析应用的数据中心,集中生产实时系统、厂站监控系统、水情系统生产类业务数据以及新增生产业务系统的数据,具备为集团公司、福新公司、省调地调提供公司生产类业务当前、历史的全量明细等数据,数据存储需要实现各类数据的集中存储与统一管理,满足大量、多样化数据的存储需求,并支持后续数据分析、数据挖掘所需数据;所述数据驱动的步骤包括围绕区域公司运营的风电机组运行数据进行深度挖掘。
S4:对生产数据进行分析及处理。
更进一步的,生产数据治理及分析应用系统的步骤包括生产数据治理及分析应用系统为了提升服务开发效率,简化服务注册,服务调用等工作,可快速接入新服务,方便用户快速获取和使用数据,再通过web界面实现数据服务接口的服务发布、审核、共享,零编码服务架构,无需编程人员开发代码。
实施例2
为本发明的一个实施例,提供了一种面向发电领域的数据规范化治理方法,为了验证本发明的有益效果,通过实验进行科学论证。
通过大量实验运算,获取方案在K-近邻算法下最优选值,需要说明的是,最优选值是缺失值填补差异率最低且填补数据值能力最强的阈值范围,实现如下表所示:
表1 算法不同选值的实验数据结果比对
算法输出值 | 差异率 | 填补效率 |
(1.1,2.0) | 0.863 | 74% |
(2.1,3.0) | 0.628 | 80% |
(3.1,4.0) | 0.536 | 82% |
(4.1,5.0) | 0.771 | 66% |
如上表所示,(3.1,4.0)阈值范围为策略分配的最佳节点,故取中间值3.5为方案最优选值。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
实施例3
参照图3,为本发明的一个实施例,提供了一种面向发电领域的数据规范化治理系统。
所述系统包括,数据采集单元,用于采集发电领域相关数据;系统逻辑单元,用于根据收集到的数据制定规范,完成系统自动化采集业务数据,实现数据接入,数据处理,数据存储,数据驱动;数据处理单元,用于通过算法实现数据的预处理;数据存储单元,用于对采集、计算以及驱动阶段的数据进行存储;数据主控台,对于数据工程的全过程进行跟踪处理。
图3为面向电力多源异构的数据治理与共享服务模型的架构。通过该图可以看出,该模型主要包括异构数据源、数据治理与共享服务中心和企业应用三个部分和层次。其中,异构数据源主要是指电力企业在以往不同时期基于不同目的开发的相应信息系统或者当前企业运行中相关数据的产生渠道,是数据治理及共享服务模式运行中的基础性资源,也是数据治理及共享服务的内容主体;数据治理与共享服务中心是面向电力多源异构的数据化集成平台,其主要是接收异构数据源传送的相关数据信息,并为接收的数据提供相应的存储空间,在系统需要的时候,对相关的数据信息进行格式或者结构的转换,最终输出可以直接供企业应用的数据信息;企业应用主要是为企业管理者提供直接性的数据应用功能操作的面板、终端等内容,其是实现多源异构数据治理与共享的前端,也是数据共享服务效果的最终呈现方式。
本发明是一种基于噪声数据辨析及清洗算法并获取数据规范化治理模型的面向发电领域的数据规范化治理技术。本方法首先收集发电领域相关数据,并根据收集到的数据制定规范,再通过系统自动采集业务数据,完成多系统的数据接入,数据处理,数据存储,数据驱动,最后对生产数据进行分析及处理。
实施例4
本发明第三个实施例,其不同于前两个实施例的是:
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
Claims (9)
1.一种面向发电领域的数据规范化治理方法,其特征在于:包括,
收集发电领域相关数据,并根据收集到的数据制定规范;
系统自动采集业务数据;
完成数据接入,数据处理,数据存储,数据驱动;
对生产数据进行分析及处理。
2.如权利要求1所述的一种面向发电领域的数据规范化治理方法,其特征在于:所述制定规范包括,制定主数据及数据服务接口标准规范,对企业数据现状调研,根据需求分析报告,编制生产类主数据标准体系规范、分类编码规范和KPI指标体系规范、数据共享服务接口标准规范,形成数据存储、分析主题和数据共享统一标准。
3.如权利要求2所述的一种面向发电领域的数据规范化治理方法,其特征在于:所述自动采集业务数据包括,完成数据接入、完成对多元异构数据融合;所述业务数据的范围包括,若数据有业务系统支持,则项目研究范围内公司下属水电、火电、风电、光伏电厂的生产数据,其中数据来源基于已接入公司的电厂SIS系统数据、电厂监控系统、电厂水情系统数据及公司综合业务信息管理系统,数据类型包括关系型数据库数据、应用系统数据、生产实时数据、半结构化数据;若数据无业务系统支持,则提供统一数据填报入口。
4.如权利要求3所述的一种面向发电领域的数据规范化治理方法,其特征在于:所述数据处理是对来自多种数据源的不同类型数据进行数据预处理,包括一致性检查、去重、校验、处理无效值、缺失值处理操作,并进行噪声数据辨析及清洗方法,提取有效数据。
5.如权利要求4所述的一种面向发电领域的数据规范化治理方法,其特征在于:所述数据预处理包括,若数据有业务系统支持,则通过K-近邻算法对缺失值进行填补,对于需要确定类别及数值的数据点,计算数据点与已知类别的数据点的距离,选取距离最近的K个点,并对K个点所属的类别进行筛选,筛选出聚点最多的数据类别,将未知类别的数据点归类为聚类点最多的类别,具体步骤如下:
d = sqrt[(x1 - x2)2 + (y1 - y2)2];
其中,d表示所求数据点与业务系统支持的电厂生产数据点的距离,x、y分别表示电厂的结构化数据和半结构化数据点,x1、y1表示所求数据点对应的标值,x2、y2表示已知数据点对应的标值;
在处理缺失值时,当d>3.5时,用K个最近邻的数据点的连续变量的平均值进行缺失值的填补;当d≤3.5时,用K个最近邻的数据点的离散变量的众数来填补缺失值。
6.如权利要求5所述的一种面向发电领域的数据规范化治理方法,其特征在于:所述数据预处理还包括,在数据填补完成后,通过Ty算法对异常值进行再筛选和再处理,首先计算数据集的第一四分位数Q1和第三四分位数Q3,然后计算四分位数间距,即IQR = Q3 - Q1,
计算数据点集下界和上界,
其中下界为:Q1 - 1.5IQR,上界为:Q3 + 1.5IQR,最后,将位于下界以下或上界以上的数据点视为异常值并进行处理;
若数据有业务系统支持且在处理缺失值时d>3.5,则数据集的异常值通过系统的逻辑单元进行数据来源追溯,定位数据类别,针对异常数据点的类别在对应点位对数据进行核销,并对核销后的缺位数据通过K-近邻算法进行缺失值的二次填补,直至数据核准无误为止;
若数据有业务系统支持且在处理缺失值时d≤3.5,则数据集的异常值无需溯源,直接定位异常值数据点位,并将对应点位的数据进行核销,核销后根据同类别数据点的离散变量的众数进行填补,若核销数据的数据填补完成后,仍识别位异常值,则通过同类别数据点连续变量的平均值进行缺失值的填补;
若数据无业务系统支持且数据点出现异常值,则直接将对应点位的数据核销处理;
数据核销及填补完成后,对已处理的数据重新进行校验,具体过程如下:
;
其中,恒小于0,为数据点类别赋值;/>为第一序列数集,包括同类别关键点位数据值;/>恒小于1,为非关键点位数据值误差分子;t为第二序列数集,包括同类别非关键点位数据值;k为生产基数,且k∈[0.7,3.6];
当时,确认输入的校验数据合格且数据值误差率在容错范围内,允许系统对数据进行编码传输,若数据有业务系统支持,则直接上传数据平台,由第一码块对数据进行录入、压缩、存储以及识别;若数据无业务系统支持,则将通过上级岗位授权,将数据录入可供操作的业务系统中,由业务系统直接上传数据平台,由第二码块对数据进行标注、录入、压缩、存储以及识别,最终实现数据的完整输出;
当时,确认输入的校验数据不合格且数据值误差率不在容错范围内,则将数据录入寄存器中,并对问题数据段进行标记补录,并对数据点已更改的部分进行核销,重新执行全部操作步骤,直至数据最终输出为/>为止。
7.一种采用如权利要求1~6任一所述的面向发电领域的数据规范化治理方法的系统,其特征在于:所述系统包括,
数据采集单元,用于采集发电领域相关数据;
系统逻辑单元,用于根据收集到的数据制定规范,完成系统自动化采集业务数据,实现数据接入,数据处理,数据存储,数据驱动;
数据处理单元,用于通过算法实现数据的预处理;
数据存储单元,用于对采集、计算以及驱动阶段的数据进行存储;
数据主控台,对于数据工程的全过程进行跟踪处理。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064897.XA CN117076863A (zh) | 2023-08-23 | 2023-08-23 | 一种面向发电领域的数据规范化治理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064897.XA CN117076863A (zh) | 2023-08-23 | 2023-08-23 | 一种面向发电领域的数据规范化治理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076863A true CN117076863A (zh) | 2023-11-17 |
Family
ID=88703857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311064897.XA Pending CN117076863A (zh) | 2023-08-23 | 2023-08-23 | 一种面向发电领域的数据规范化治理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076863A (zh) |
-
2023
- 2023-08-23 CN CN202311064897.XA patent/CN117076863A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107402976B (zh) | 一种基于多元异构模型的电网多源数据融合方法及系统 | |
CN111461668A (zh) | 一种基于流程自动化技术的数字化审计系统及方法 | |
CN103577605A (zh) | 基于数据融合和数据挖掘的数据仓库及其应用方法 | |
CN103473672A (zh) | 企业级数据中心的元数据质量稽核系统、方法及平台 | |
CN112181960B (zh) | 一种基于AIOps的智能运维框架系统 | |
Ni et al. | Blockchain-based BIM digital project management mechanism research | |
Wang et al. | Exploring the application of digital data management approach for facility management in Shanghai’s high-rise buildings | |
CN112785427B (zh) | 基于电力数据的企业信用分析系统 | |
CN112612819A (zh) | 一种抽水蓄能电站大数据分析挖掘方法及系统 | |
CN111538720B (zh) | 电力行业基础数据清理的方法及系统 | |
CN115934856A (zh) | 一种构造综合能源数据资产的方法和系统 | |
Zhao et al. | [Retracted] An Innovation and Entrepreneurship Management System for Universities Based on Cluster Analysis Theory | |
CN113254517A (zh) | 一种基于互联网大数据的服务提供方法 | |
CN117291575A (zh) | 设备检修方法、装置、计算机设备和存储介质 | |
CN112306992A (zh) | 一种基于互联网的大数据平台 | |
US20100318343A1 (en) | Smart data access layer for supervisory information system | |
CN111581918A (zh) | 铁路工程数据交付方法及装置 | |
CN117076863A (zh) | 一种面向发电领域的数据规范化治理方法及系统 | |
CN107194529B (zh) | 基于挖掘技术的配电网可靠性经济效益分析方法及装置 | |
Safadi et al. | Mapping for the future: Business intelligence tool to map regional housing stock | |
Liu et al. | Research on middle platform construction and large data analysis of power enterprises based on Aliyun | |
CN113159721A (zh) | 一种基于设备全生命周期的物联网平台 | |
Chang et al. | Implementation of smart factory for sme: Focusing on data acquisition and monitoring | |
Liu | Effective combination and application path of computer big data analysis and cloud computing network technology | |
Liu | RETRACTED: Research on the Application of Artificial Intelligence in Energy Science and Engineering Monitoring Software Engineering Technology under the Background of Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |