CN109522367B - 电网统一信息模型的数据处理装置和方法 - Google Patents
电网统一信息模型的数据处理装置和方法 Download PDFInfo
- Publication number
- CN109522367B CN109522367B CN201810993413.2A CN201810993413A CN109522367B CN 109522367 B CN109522367 B CN 109522367B CN 201810993413 A CN201810993413 A CN 201810993413A CN 109522367 B CN109522367 B CN 109522367B
- Authority
- CN
- China
- Prior art keywords
- data
- record
- information model
- incomplete
- uniform information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title abstract description 17
- 238000007726 management method Methods 0.000 claims description 16
- 241001269238 Data Species 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000005611 electricity Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 5
- 238000013499 data model Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001484259 Lacuna Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010937 topological data analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于IEC61970/61968标准的电网统一信息模型的数据处理装置和方法,其包括信息模型构建模块、数据接收模块、数据处理模块和数据装载模块;其中,所述数据处理模块还包括数据判断与裁决子模块,用于当标准统一信息模型所需的数据记录当出现空缺值。通过本发明提供的装置和方法,能够有效的处理电网统一信息模型的数据,提高数据交互性,同时提高了数据处理效率和实用效率。
Description
技术领域
本发明属于大数据挖掘及信息检索领域,尤其涉及一种电网统一信息模型的数据处理装置和方法。
背景技术
目前伴随着信息技术的迅速发展,商务智能技术广泛的应用在IT的各个领域当中。尤其是在以网络技术、数据库技术为支撑的企业当中,规范的、系统的计算机应用建设已成为迫切的需要和发展的趋势。
随着电力业务的发展,电力系统运行信息系统的信息量巨大、种类繁多,我国幅员辽阔,电力系统庞大复杂,经济发展不均衡,电力系统任务情境与运行环境复杂。电网自动化系统存储了大量的电网生产运行数据,随着电网安全性和经济性的精益化管理要求,各部门对于电网运行数据的需求日趋多样和频繁。
但是,现有的电网信息系统的数据格式和形式的并不完全一致,不同程度地造成了不同系统和不同单位数据交互的困难,并且降低了数据使用效率,同时由于系统格式和形式的不同,数据交互过程经常出现数据记录某项空缺,如何填充数据记录中空缺项,也成为需要解决的技术问题。
发明内容
基于此,为克服上述问题,能有效实现电网统一模型的数据的管理,提高数据的处理效率和使用效率,并解决数据交互过程经常出现数据记录某项空缺的技术问题,本发明提供了一种基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置,包括:信息模型构建模块,用于基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义;数据接收模块,用于接收电网各个数据来源系统的原始数据;数据处理模块,其包括数据抽取子模块、数据清洗转换子模块,所述数据抽取子模块用于根据标准统一信息模型抽取数据接收模块接收的原始数据,所述数据清洗转换子模块用于将抽取的原始数据清洗转换成标准统一信息模型数据;数据装载模块,用于按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库;所述数据处理模块还包括数据判断与裁决子模块,用于当标准统一信息模型所需的数据记录出现空缺值时,预测计算并填充空缺值;
本发明还提供了一种基于IEC61970/61968标准的电网统一信息模型的数据处理方法,包括:信息模型构建步骤,基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义;数据接收步骤,接收电网各个数据来源系统的原始数据;数据处理步骤,根据标准统一信息模型抽取数据接收模块接收的原始数据,并将抽取的原始数据清洗转换成标准统一信息模型数据;数据装载步骤,按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库;其中,所述数据处理步骤还包括数据判断与裁决子步骤,当标准统一信息模型所需的数据记录出现空缺值时,预测计算并填充空缺值。
本发明还提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
进一步地,本发明还提供了,所述数据判断与裁决子模块预测计算并填充空缺值以及所述数据判断与裁决子步骤包括:步骤1、将同一属性的标准统一信息模型数据分为完整数据集合和非完整数据集合;步骤2、遍历完整数据集合的数据记录,然后遍历非完整数据集合的数据记录,所述数据记录的全部字段包括第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;步骤3、对于任意任一条非完整数据记录X和其对应的同一属性完整数据记录Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的距离XYsimal,其中p的取值范围为1到M;步骤4、根据所述距离,得到与每一条非完整数据记录Xi距离最近的即XYsimal取值最小的K个完整数据记录Y1-Yk,其中Y1为距离第一最近即XYsimal取值最小的完整数据记录,其中K为自然数;步骤5、对于非完整数据记录Xi中的属于第二类字段的空缺项S即S=Null的项,分别找出K个完整数据记录Y1-YK中相对应的项B1-BK,填充Xi中的空缺项S为其中μn为Bn项的权值,所述离散类型为非数值类型;将所述S值作为预测值填充至对应的空缺值以得到标准统一信息模型数据的完整数据记录。
进一步地,本发明还提供了,所述步骤3中,两条数据记录XY的距离其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N,Si为计算X和Y的第二类字段中的同一字段Zi的相似度,其中,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
进一步地,本发明还提供了,所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,包括:对于给定的非完整记录X,如果当其对于完整记录Y的 为给定的阈值,则对应的完整数据记录Y是相应的完整数据记录X的距离最近的K个完整数据记录之一,从而得到与非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk;如果所述对于给定的非完整记录X对于所有的完整记录Y的距离均为则令K=2,选取与非完整数据记录Xi距离最近的2个完整数据记录Y1-YK。进一步地,本发明还提供了,所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录X1-Xk,包括,设定K为固定的值,通过比较所述距离的大小,直接得到得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk。
进一步地,本发明还提供了,所述一级主题域包括用户主题域,定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。所述数据来源系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
通过本发明提供的装置和方法,能够有效的处理电网统一信息模型的数据,提高数据交互性,同时提高了数据处理效率和实用效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明的电网统一信息模型的数据处理装置的示例性示意图;
图2是根据本发明的电网统一信息模型的数据处理装置的数据处理模块的示例性示意图;
图3是根据本发明的电网统一信息模型的数据处理方法的示例性流程图。
图4是根据本发明的另一个实施例中的电网统一信息模型的数据处理装置的数据处理模块的示例性示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本发明,在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
下面结合附图和实施例对本发明的技术方案作进一步的说明。
模型是对现实世界中各种事物或实体特征的数字化模拟和抽象,信息模型是对现实世界中的具体对象及具体对象间关系的精确描述,统一信息模型,又称公共信息模型(Common Information Model)是对电网企业运营管理的典型实物对象和业务领域的一套精确描述体系,CIM的原型用于控制中心EMS系统建模和外部系统之间的数据交换,包括状态估计、拓扑分析、网络规划、安全分析、SCADA等业务领域,后被并且扩展到发电、输电、配电等领域。目前,CIM建模范围拓展到电网企业其他相关领域,包括资产管理、生产管理、基建设施管理、配网管理、地理信息系统和设备检修管理等等。
CIM模型不仅能够成为电力行业业务人员有效沟通的共同语言,同时也可以用于指导具体信息系统的建设和集成,从新的系统建设角度看,CIM可以指导系统的数据建模和业务建模,从信息系统集成角度看,CIM可以落实为消息规约,实现同一企业内不同应用系统之间,不同企业之间,不同控制中心之间的数据模型交换。
IEC61970与IEC 61968标准分别提出了电力系统资源(Power System Resource)和设备资产(Asset)的概念,从电力设备的网络拓扑结构和物理实体两个维度关注电网设备。在CIM模型中,电力系统资源(Power System Resource)和设备资产(Asset)之间存在多对多的对象关联关系。两者是相辅相成的。
IEC 61970协议的两大支柱是公共信息模型(CIM,Common Information Model)和组件接口规范(CIS,Component Interface Specification)。CIM公共信息模型定义了信息交换内容的语义,组件接口规范(CIS)规定了信息交换的语法。CIM是整个619701协议框架的基础和核心。
如附图1所示,本发明的电网统一信息模型基于IEC61970与IEC61968标准,在一个实施例中,本发明提供了一种基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置,其主要包括:
信息模型构建模块,用于基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型。所述一级主题域包括但不限于人员、财务、资产、物资、项目、设备、电网、安全、用户、产品、市场和综合,所述二级主题域包括但不限于员工、薪酬、总账和资产台帐。所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义。定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。
在一个实施例中,通过用户主题域模型的用户数据记录为<99011102367981,居民用电普通,正常,供电,生活>。
数据接收模块,用于接收电网各个数据来源系统的原始数据;所述子系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
数据处理模块,其包括数据抽取子模块、数据清洗转换子模块,所述数据抽取子模块用于根据标准统一信息模型抽取数据接收模块接收的原始数据,所述数据清洗转换子模块用于将抽取的原始数据清洗转换成标准统一信息模型数据。
数据装载模块,用于按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库。
如附图2所示,其中,所述数据处理模块还包括数据判断与裁决子模块,用于当标准统一信息模型所需的数据记录当出现空缺值时,预测计算并填充空缺值。
如附图3所示,进一步地,在另一个实施例中,本发明还提供了一种基于IEC61970/61968标准的电网统一信息模型的数据处理方法,其包括:
信息模型构建步骤,基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述一级主题域包括但不限于人员、财务、资产、物资、项目、设备、电网、安全、用户、产品、市场和综合,所述二级主题域包括但不限于员工、薪酬、总账和资产台帐。所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义。定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,A为用户类型;B为任务所处状态,是正常还是紧急;C为任务模型,包括电力系统中的各种任务;D为任务属性集。
在一个实施例中,通过用户主题域模型的用户数据记录为<99011102367981,居民用电普通,正常,供电,生活>。
数据接收步骤,接收电网各个数据来源系统的原始数据;在一些实施例中,所述子系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
数据处理步骤,根据标准统一信息模型抽取数据接收模块接收的原始数据,并将抽取的原始数据清洗转换成标准统一信息模型数据;
数据装载步骤,按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库;
其中,所述数据数据处理步骤还包括数据校验步骤,当标准统一信息模型所需的数据记录出现空缺值时,预测计算并填充空缺值。
在一些实施例中,前述的数据判断与裁决子模块以及数据判断与裁决处理子步骤中所述预测计算并填充空缺值包括:
步骤1、将同一属性的标准统一信息模型数据分为完整数据集合和非完整数据集合。
步骤2、遍历完整数据集合的数据记录,然后遍历非完整数据集合的数据记录,将数据记录的全部字段分为第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量。
在一些实施例中,当第一类字段一般为出现内容差异时,认为两条记录不同的字段;第二类字段一般为出现内容差异时,认为两套记录仍然可能为相同字段的记录。
步骤3、对于任意任一条非完整数据记录X和其对应的相同完整数据记录Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的距离XYsimal,中,p的取值范围为1到M。
在一些实施例中,所述步骤3中,两条数据记录XY的距离其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N,Si为计算X和Y的第二类字段中的同一字段Zi的相似度,其中,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
根据本发明的一种实施方式,其中,XYn simal为最近的K个XYsimal中的第n个;根据本发明的另一个实施例中,μn为用户自定义的值。
在一些实施例中,对于非完整数据记录Xi中的属于第一类字段的空缺项T,即T=Null,使用完整数据记录Y1-Yk中对应的项进行填充。
步骤4、根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,其中Y1为距离第一最近的完整数据记录,其中K为自然数。
在一些实施例中,其中所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,包括:对于给定的非完整记录X,如果当其对于完整记录Y的 为给定的阈值,则对应的完整数据记录Y是相应的完整数据记录X的距离最近的K个完整数据记录之一,从而得到与非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk;如果所述对于给定的非完整记录X对于所有的完整记录Y的距离均为则令K=2,选取与非完整数据记录Xi距离最近的2个完整数据记录Y1-YK。
在一些实施例中,优选为0.5,其值的选择取决于经验和实际需要。
在一些实施例中,其中所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,包括,设定K为固定的值,通过比较所述距离的大小,直接得到得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk。
步骤5、对于非完整数据记录Xi中的空缺项S,分别找出K个完整数据记录Y1-YK中相对应的项B1-BK,则对于非完整数据记录Xi中的空缺项S为
其中μn为Bn项的权值,
将所述S值作为预测值填充至对应的空缺值以得到标准统一信息模型数据的完整数据记录。
如附图4所示,根据本发明的一些实施例中,其中所述数据处理模块还包括数据检验子模块,用于查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类。
在一些实施例中,所述数据数据处理步骤还包括数据校验步骤,查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类。
需要说明的是,根据本发明所述数据处理模块可根据需要设置数据检验子模块、数据判断与裁决子模块之一或二者兼有,以上均是本发明提供的技术方案。相应地,根据本发明的所述数据处理步骤可包括所述数据检验子步骤、数据判断与裁决子步骤之一或二者兼有,以上均是本发明提供的技术方案。
在一个实施例中,本发明提供的基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置和方法中的数据校验模块和数据校验步骤通过以下步骤查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类,
步骤0,初始化标准统一信息模型的待处理数据记录集合;
步骤1,预处理,将数据记录的全部字段分为第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;
步骤2,对于任意两条数据记录X和Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的相似度XYsimal;其中,p的取值范围为1到M;
步骤3,如果 为给定的阈值,则数据记录X和Y是相似重复数据记录,计算得到所有相似重复的数据记录组,得到多个相似数据记录集合,进入步骤5;如果所有数据记录X和Y,则执行步骤6;
步骤4,对于每一个相似数据记录集合,聚合合并保存成一条数据记录,删除其他数据记录;
步骤5,重复执行步骤1-4;
步骤6,结束,得到校验后的标准统一信息模型的待处理数据记录集合。
在一个实施例中,所述步骤2中,两条记录XY的相似度其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N;Si为计算X和Y的第二类字段中的同一字段Zi的相似度,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
在一些实施例中,数据清洗是一个减少错误和不一致性、解决对象识别问题的过程.数据清洗是可以保证数据信息源的数据质量的方法之一,因此数据清洗是构建数据仓库过程中的不可缺少的重要环节。使用数据清洗技术,数据被移到数据仓库时,它们要经过转化,以确保数据的一致性。其基本原理就是通过对“脏数据”或“噪音数据”的产生原因和存在形式进行分析之后,再利用现有的方法策略和技术手段对存在的“噪音数据”进行合理有效的清洗,这样“噪音数据”就被转化成立了能满足相应的应用要求或数据质量要求数据,从而提高数据集的数据的可靠性和准确性。
在一些实施例中,本发明还提供了一种计算机存储介质,其存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现上述的方法。计算机介质指的是能存储信息的任意物质,包括不限于各种ROM、RAM、机械存储器、固体存储器、便携式存储器等等。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
此外,根据公开的本发明的说明书,本发明的其他实现对于本领域的技术人员是明显的。实施方式和/或实施方式的各个方面可以单独或者以任何组合用于本发明的系统和方法中。说明书和其中的示例应该是仅仅看作示例性,本发明的实际范围和精神由所附权利要求书表示。
Claims (9)
1.一种基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置,其特征在于,包括:
信息模型构建模块,用于基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括数据仓库模型定义,数据仓库中的数据模型定义;
数据接收模块,用于接收电网各个数据来源系统的原始数据;
数据处理模块,其包括数据抽取子模块、数据清洗转换子模块,所述数据抽取子模块用于根据标准统一信息模型抽取数据接收模块接收的原始数据,所述数据清洗转换子模块用于将抽取的原始数据清洗转换成标准统一信息模型数据;
数据装载模块,用于按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库;
其中,所述数据处理模块还包括数据判断与裁决子模块,用于当标准统一信息模型所需的数据记录出现空缺值时,预测计算并填充空缺值;
其中所述数据判断与裁决子模块预测计算并填充空缺值包括:
步骤1、将同一属性的标准统一信息模型数据分为完整数据集合和非完整数据集合;
步骤2、遍历完整数据集合的数据记录,然后遍历非完整数据集合的数据记录,所述数据记录的全部字段包括第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;
步骤3、对于任意任一条非完整数据记录X和其对应的同一属性完整数据记录Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的距离XYsimal,其中p的取值范围为1到M;
步骤4、根据所述距离,得到与每一条非完整数据记录Xi距离最近的即XYsimal取值最小的K个完整数据记录Y1-Yk,其中Y1为距离第一最近即XYsimal取值最小的完整数据记录,其中K为自然数;
步骤5、对于非完整数据记录Xi中的属于第二类字段的空缺项S即S=Nul l的项,分别找出K个完整数据记录Y1-YK中相对应的项B1-BK,填充Xi中的空缺项S为
其中μn为Bn项的权值,所述离散类型为非数值类型;
将所述S值作为预测值填充至对应的空缺值以得到标准统一信息模型数据的完整数据记录。
2.如权利要求1所述的数据处理装置,其特征在于,所述步骤3中,两条数据记录XY的距离其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N,Si为计算X和Y的第二类字段中的同一字段Zi的相似度,其中,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
3.如权利要求1所述的数据处理装置,其特征在于,其中所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,包括:
对于给定的非完整记录X,如果当其对于完整记录Y的 为给定的阈值,则对应的完整数据记录Y是相应的完整数据记录X的距离最近的K个完整数据记录之一,从而得到与非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk;
如果所述对于给定的非完整记录X对于所有的完整记录Y的距离均为则令K=2,选取与非完整数据记录Xi距离最近的2个完整数据记录Y1-YK。
4.如权利要求1所述的数据处理装置,其特征在于,其中所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,包括,设定K为固定的值,通过比较所述距离的大小,直接得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk。
5.如权利要求1所述的数据处理装置,其特征在于,其中,所述一级主题域包括用户主题域,定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。
6.如权利要求1或2所述的数据处理装置,其特征在于,其中,所述数据来源系统包括调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
7.一种基于IEC61970/61968标准的电网统一信息模型的数据处理方法,其特征在于,包括:
信息模型构建步骤,基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括数据仓库模型定义,数据仓库中的数据模型定义;
数据接收步骤,接收电网各个数据来源系统的原始数据;
数据处理步骤,根据标准统一信息模型抽取数据接收模块接收的原始数据,并将抽取的原始数据清洗转换成标准统一信息模型数据;
数据装载步骤,按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库;
其中,所述数据处理步骤还包括数据判断与裁决处理子步骤,当标准统一信息模型所需的数据记录出现空缺值时,预测计算并填充空缺值;
其中所述数据判断与裁决处理子步骤包括:
步骤1、将同一属性的标准统一信息模型数据分为完整数据集合和非完整数据集合;
步骤2、遍历完整数据集合的数据记录,然后遍历非完整数据集合的数据记录,所述数据记录的全部字段包括第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;
步骤3、对于任意任一条非完整数据记录X和其对应的同一属性完整数据记录Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的距离XYsimal,其中p的取值范围为1到M;
步骤4、根据所述距离,得到与每一条非完整数据记录Xi距离最近的即XYsimal取值最小的K个完整数据记录Y1-Yk,其中Y1为距离第一最近即XYsimal取值最小的完整数据记录,其中K为自然数;
步骤5、对于非完整数据记录Xi中的属于第二类字段的空缺项S即S=Null的项,分别找出K个完整数据记录Y1-YK中相对应的项B1-BK,填充Xi中的空缺项S为
其中μn为Bn项的权值,所述离散类型为非数值类型;
将所述S值作为预测值填充至对应的空缺值以得到标准统一信息模型数据的完整数据记录。
8.如权利要求7所述的数据处理方法,其特征在于,所述步骤3中,两条数据记录XY的距离其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N,Si为计算X和Y的第二类字段中的同一字段Zi的相似度,其中,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
9.如权利要求7所述的数据处理方法,其特征在于,其中所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,包括:
对于给定的非完整记录X,如果当其对于完整记录Y的 为给定的阈值,则对应的完整数据记录Y是相应的完整数据记录X的距离最近的K个完整数据记录之一,从而得到与非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk;如果所述对于给定的非完整记录X对于所有的完整记录Y的距离均为则令K=2,选取与非完整数据记录Xi距离最近的2个完整数据记录Y1-YK。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810993413.2A CN109522367B (zh) | 2018-08-29 | 2018-08-29 | 电网统一信息模型的数据处理装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810993413.2A CN109522367B (zh) | 2018-08-29 | 2018-08-29 | 电网统一信息模型的数据处理装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522367A CN109522367A (zh) | 2019-03-26 |
CN109522367B true CN109522367B (zh) | 2019-10-18 |
Family
ID=65770788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810993413.2A Active CN109522367B (zh) | 2018-08-29 | 2018-08-29 | 电网统一信息模型的数据处理装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522367B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035027A (zh) * | 2007-04-30 | 2007-09-12 | 亿阳信通股份有限公司 | 网管接口信息交互方法、装置及通知上报方法 |
CN107315768A (zh) * | 2017-05-17 | 2017-11-03 | 上海交通大学 | 基于异构信息模型映射的配网信息交互方法及系统 |
CN107766493A (zh) * | 2017-10-19 | 2018-03-06 | 国网辽宁省电力有限公司 | 一种贴源电网资源模型分析系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7428531B2 (en) * | 2002-02-06 | 2008-09-23 | Jpmorgan Chase Bank, N.A. | Customer information management system and method |
-
2018
- 2018-08-29 CN CN201810993413.2A patent/CN109522367B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035027A (zh) * | 2007-04-30 | 2007-09-12 | 亿阳信通股份有限公司 | 网管接口信息交互方法、装置及通知上报方法 |
CN107315768A (zh) * | 2017-05-17 | 2017-11-03 | 上海交通大学 | 基于异构信息模型映射的配网信息交互方法及系统 |
CN107766493A (zh) * | 2017-10-19 | 2018-03-06 | 国网辽宁省电力有限公司 | 一种贴源电网资源模型分析系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109522367A (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Industrial big data analytics: challenges, methodologies, and applications | |
CN106709035B (zh) | 一种电力多维全景数据的预处理系统 | |
CN104112026B (zh) | 一种短信文本分类方法及系统 | |
CN105956015A (zh) | 一种基于大数据的服务平台整合方法 | |
CN109918452A (zh) | 一种数据处理的方法、装置、计算机存储介质及终端 | |
CN107908738A (zh) | 基于电力专业词库的企业级知识图谱搜索引擎的实现方法 | |
CN107590749A (zh) | 一种配用电数据的处理方法及系统 | |
CN107103064A (zh) | 数据统计方法及装置 | |
Hammad et al. | Application of KDD techniques to extract useful knowledge from labor resources data in industrial construction projects | |
CN108052542A (zh) | 一种基于presto的数据的多维数据的分析方法 | |
Li | Research on big data analysis data acquisition and data analysis | |
CN109977125A (zh) | 一种基于网络安全的大数据安全分析平台系统 | |
CN102495916A (zh) | 一种基于对象匹配的多应用系统全景建模方法 | |
CN104598449A (zh) | 基于偏好的聚类 | |
CN110489749A (zh) | 智能办公自动化系统业务流程优化 | |
CN112883001A (zh) | 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质 | |
CN115564071A (zh) | 一种电力物联网设备数据标签生成方法及系统 | |
CN108647860A (zh) | 基于OpenStack的电力设备状态监测与评估云平台 | |
CN109522292A (zh) | 基于电网标准统一信息模型的数据处理装置和方法 | |
CN104965846B (zh) | MapReduce平台上的虚拟人建立方法 | |
CN109522367B (zh) | 电网统一信息模型的数据处理装置和方法 | |
Zhou et al. | Research Review on Big Data of the Smart Grid | |
CN112784129A (zh) | 一种泵站设备运维数据监管平台 | |
CN111985716B (zh) | 一种客运信息可视化的客运量预测系统 | |
CN117934209B (zh) | 一种基于知识图谱的区域电力系统碳排放大数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |