CN109522292A - 基于电网标准统一信息模型的数据处理装置和方法 - Google Patents

基于电网标准统一信息模型的数据处理装置和方法 Download PDF

Info

Publication number
CN109522292A
CN109522292A CN201810993651.3A CN201810993651A CN109522292A CN 109522292 A CN109522292 A CN 109522292A CN 201810993651 A CN201810993651 A CN 201810993651A CN 109522292 A CN109522292 A CN 109522292A
Authority
CN
China
Prior art keywords
data
information model
record
uniform information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810993651.3A
Other languages
English (en)
Other versions
CN109522292B (zh
Inventor
张雪坚
张梅
黄文思
苏文伟
张莉娜
李金湖
郑建宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Information Center of Yunnan Power Grid Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810993651.3A priority Critical patent/CN109522292B/zh
Publication of CN109522292A publication Critical patent/CN109522292A/zh
Application granted granted Critical
Publication of CN109522292B publication Critical patent/CN109522292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于标准的电网统一信息模型的数据处理装置和方法,其包括信息模型构建模块、数据接收模块、数据处理模块、数据装载模块;数据处理模块还包括数据检验子模块,用于查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类。通过本发明提供的装置和方法,能够有效的处理电网统一信息模型的数据,提高数据交互性,同时提高了数据处理效率和实用效率。

Description

基于电网标准统一信息模型的数据处理装置和方法
技术领域
本发明属于大数据挖掘及信息检索领域,尤其涉及一种电网统一信息模型的数据处理装置和方法。
背景技术
目前伴随着信息技术的迅速发展,商务智能技术广泛的应用在IT的各个领域当中。尤其是在以网络技术、数据库技术为支撑的企业当中,规范的、系统的计算机应用建设已成为迫切的需要和发展的趋势。
随着电力业务的发展,电力系统运行信息系统的信息量巨大、种类繁多,我国幅员辽阔,电力系统庞大复杂,经济发展不均衡,电力系统任务情境与运行环境复杂。电网自动化系统存储了大量的电网生产运行数据,随着电网安全性和经济性的精益化管理要求,各部门对于电网运行数据的需求日趋多样和频繁。
但是,现有的电网信息系统的数据格式和形式的并不完全一致,不同程度地造成了不同系统和不同单位数据交互的困难,并且降低了数据使用效率,同时由于系统格式和形式的不同,数据交互过程经常出现数据记录某项空缺,如何填充数据记录中空缺项,也成为需要解决的技术问题。
发明内容
基于此,为克服上述问题,能有效实现电网统一模型的数据的管理,提高数据的处理效率和使用效率,并解决数据交互过程经常出现数据记录某项空缺的技术问题,本发明提供了一种基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置,包括:信息模型构建模块,用于基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义;数据接收模块,用于接收电网各个数据来源系统的原始数据;数据处理模块,其包括数据抽取子模块、数据清洗转换子模块,所述数据抽取子模块用于根据标准统一信息模型抽取数据接收模块接收的原始数据,所述数据清洗转换子模块用于将抽取的原始数据清洗转换成标准统一信息模型数据;数据装载模块,用于按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库。
进一步地,本发明还提供了一种基于IEC61970/61968标准的电网统一信息模型的数据处理方法,包括:信息模型构建步骤,基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义;数据接收步骤,接收电网各个数据来源系统的原始数据;数据处理步骤,根据标准统一信息模型抽取数据接收模块接收的原始数据,并将抽取的原始数据清洗转换成标准统一信息模型数据;数据装载步骤,按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库。
进一步地,其中,所述数据处理模块还包括检验子模块,用于查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类。所述数据数据处理步骤还包括数据校验步骤,查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类。所述检验子模块用于以及所述数据校验步骤其包括:步骤0,初始化标准统一信息模型的待处理数据记录集合;步骤1,预处理,将数据记录的全部字段分为第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;步骤2,对于任意两条数据记录X和Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的相似度XYsimal;其中,p的取值范围为1到M;步骤3,如果 为给定的阈值,则数据记录X和Y是相似重复数据记录,计算得到所有相似重复的数据记录组,得到多个相似数据记录集合,进入步骤5;如果所有数据记录X和Y,则执行步骤6;步骤4,对于每一个相似数据记录集合,聚合合并保存成一条数据记录,删除其他数据记录;步骤5,重复执行步骤1-4;步骤6,结束,得到校验后的标准统一信息模型的待处理数据记录集合。
进一步地,其中,所述步骤2中,两条记录XY的相似度其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N;Si为计算X和Y的第二类字段中的同一字段Zi的相似度,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
更进一步的,本发明还提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
进一步地,本发明还提供了:所述一级主题域包括用户主题域,定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。所述数据来源系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
通过本发明提供的装置和方法,能够有效的处理电网统一信息模型的数据,提高数据交互性,同时提高了数据处理效率和实用效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明的电网统一信息模型的数据处理装置的示例性示意图;
图2是根据本发明的电网统一信息模型的数据处理装置的数据处理模块的示例性示意图;
图3是根据本发明的电网统一信息模型的数据处理方法的示例性流程图;
图4是根据本发明的另一个实施例中的电网统一信息模型的数据处理装置的数据处理模块的示例性示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本发明,在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
下面结合附图和实施例对本发明的技术方案作进一步的说明。
模型是对现实世界中各种事物或实体特征的数字化模拟和抽象,信息模型是对现实世界中的具体对象及具体对象间关系的精确描述,统一信息模型,又称公共信息模型(Common Information Model)是对电网企业运营管理的典型实物对象和业务领域的一套精确描述体系,CIM的原型用于控制中心EMS系统建模和外部系统之间的数据交换,包括状态估计、拓扑分析、网络规划、安全分析、SCADA等业务领域,后被并且扩展到发电、输电、配电等领域。目前,CIM建模范围拓展到电网企业其他相关领域,包括资产管理、生产管理、基建设施管理、配网管理、地理信息系统和设备检修管理等等。
CIM模型不仅能够成为电力行业业务人员有效沟通的共同语言,同时也可以用于指导具体信息系统的建设和集成,从新的系统建设角度看,CIM可以指导系统的数据建模和业务建模,从信息系统集成角度看,CIM可以落实为消息规约,实现同一企业内不同应用系统之间,不同企业之间,不同控制中心之间的数据模型交换。
IEC61970与IEC 61968标准分别提出了电力系统资源(Power System Resource)和设备资产(Asset)的概念,从电力设备的网络拓扑结构和物理实体两个维度关注电网设备。在CIM模型中,电力系统资源(Power System Resource)和设备资产(Asset)之间存在多对多的对象关联关系。两者是相辅相成的。
IEC 61970协议的两大支柱是公共信息模型(CIM,Common Information Model)和组件接口规范(CIS,Component Interface Specification)。CIM公共信息模型定义了信息交换内容的语义,组件接口规范(CIS)规定了信息交换的语法。CIM是整个619701协议框架的基础和核心。
如附图1所示,本发明提供的电网统一信息模型基于IEC61970与IEC61968标准,在一个实施例中,本发明提供了一种基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置,其主要包括:
信息模型构建模块,用于基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型。所述一级主题域包括但不限于人员、财务、资产、物资、项目、设备、电网、安全、用户、产品、市场和综合,所述二级主题域包括但不限于员工、薪酬、总账和资产台帐。所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义。定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。在一个实施例中,通过用户主题域模型的用户数据记录为<99011102367981,居民用电普通,正常,供电,生活>。
数据接收模块,用于接收电网各个数据来源系统的原始数据;所述子系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
数据处理模块,其包括数据抽取子模块、数据清洗转换子模块,所述数据抽取子模块用于根据标准统一信息模型抽取数据接收模块接收的原始数据,所述数据清洗转换子模块用于将抽取的原始数据清洗转换成标准统一信息模型数据;
数据装载模块,用于按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库;
如附图2所示,其中,所述数据处理模块还包括数据检验子模块,用于查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类。
如附图3所示,进一步地,在另一个实施例中,本发明提供了一种基于IEC61970/61968标准的电网统一信息模型的数据处理方法,其包括:
信息模型构建步骤,基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述一级主题域包括但不限于人员、财务、资产、物资、项目、设备、电网、安全、用户、产品、市场和综合,所述二级主题域包括但不限于员工、薪酬、总账和资产台帐。所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义。定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。
在一个实施例中,通过用户主题域模型的用户数据记录为<99011102367981,居民用电普通,正常,供电,生活>。
数据接收步骤,接收电网各个数据来源系统的原始数据;所述子系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
数据处理步骤,根据标准统一信息模型抽取数据接收模块接收的原始数据,并将抽取的原始数据清洗转换成标准统一信息模型数据;
数据装载步骤,按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库;
在一些实施例中,所述数据数据处理步骤还包括数据校验步骤,查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类。
在一个实施例中,本发明提供的基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置中的检验子模块以及本发明提供的基于IEC61970/IEC61968标准的电网统一信息模型的数据处理方法中的数据校验子步骤通过以下步骤查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类,具体包括:
步骤0,初始化标准统一信息模型的待处理数据记录集合;
步骤1,预处理,将数据记录的全部字段分为第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;
步骤2,对于任意两条数据记录X和Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的相似度XYsimal;其中,p的取值范围为1到M;
步骤3,如果 为给定的阈值,则数据记录X和Y是相似重复数据记录,计算得到所有相似重复的数据记录组,得到多个相似数据记录集合,进入步骤5;如果所有数据记录X和Y,则执行步骤6;
步骤4,对于每一个相似数据记录集合,聚合合并保存成一条数据记录,删除其他数据记录;
步骤5,重复执行步骤1-4;
步骤6,结束,得到校验后的标准统一信息模型的待处理数据记录集合。
在一个实施例中,所述步骤2中,两条记录XY的相似度其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N;Si为计算X和Y的第二类字段中的同一字段Zi的相似度,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
在一些实施例中,如附图4所示,本发明还提供了一种基于IEC61970/61968标准的电网统一信息模型的数据处理装置中的所述数据处理模块还包括数据判断与裁决子模块,用于当标准统一信息模型所需的数据记录当出现空缺值时,预测计算并填充空缺值。
在一些实施例中,本发明还提供了一种基于IEC61970/61968标准的电网统一信息模型的数据处理方法中的所述数据处理步骤还包括数据判断与裁决子步骤,用于当标准统一信息模型所需的数据记录当出现空缺值时,预测计算并填充空缺值。
需要说明的是,根据本发明所述数据处理模块可根据需要设置数据检验子模块、数据判断与裁决子模块之一或二者兼有,以上均是本发明提供的技术方案。相应地,根据本发明的所述数据处理步骤可包括所述数据检验子步骤、数据判断与裁决子步骤之一或二者兼有,以上均是本发明提供的技术方案。
进一步地,在本发明的一些实施例中,前述的数据判断与裁决子模块以及数据判断与裁决处理子步骤中所述预测计算并填充空缺值包括:
步骤1、将同一属性的标准统一信息模型数据分为完整数据集合和非完整数据集合。
步骤2、遍历完整数据集合的数据记录,然后遍历非完整数据集合的数据记录,将数据记录的全部字段分为第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量。
在一些实施例中,当第一类字段一般为出现内容差异时,认为两条记录不同的字段;第二类字段一般为出现内容差异时,认为两套记录仍然可能为相同字段的记录。
步骤3、对于任意任一条非完整数据记录X和其对应的相同完整数据记录Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的距离XYsimal,中,p的取值范围为1到M。
在一些实施例中,所述步骤3中,两条数据记录XY的距离其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N,Si为计算X和Y的第二类字段中的同一字段Zi的相似度,其中,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
根据本发明的一种实施方式,其中,XYn simal为最近的K个XYsimal中的第n个;根据本发明的另一个实施例中,μn为用户自定义的值。
在一些实施例中,对于非完整数据记录Xi中的属于第一类字段的空缺项T,即T=Null,使用完整数据记录Y1-Yk中对应的项进行填充。
步骤4、根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk,其中X1为距离第一最近的完整数据记录,其中K为自然数。
在一些实施例中,其中所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录X1-Xk,包括:对于给定的非完整记录X,如果当其对于完整记录Y的 为给定的阈值,则对应的完整数据记录Y是相应的完整数据记录X的距离最近的K个完整数据记录之一,从而得到与非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk;如果所述对于给定的非完整记录X对于所有的完整记录Y的距离均为则令K=2,选取与非完整数据记录Xi距离最近的2个完整数据记录Y1-YK
在一些实施例中,优选为0.5,其值的选择取决于经验和实际需要。
在一些实施例中,其中所述步骤4根据所述距离,得到与每一条非完整数据记录Xi距离最近的K个完整数据记录X1-Xk,包括,设定K为固定的值,通过比较所述距离的大小,直接得到得到与每一条非完整数据记录Xi距离最近的K个完整数据记录Y1-Yk
步骤5、对于非完整数据记录Xi中的空缺项S,分别找出K个完整数据记录Y1-YK中相对应的项B1-BK,则对于非完整数据记录Xi中的空缺项S为
其中μn为Bn项的权值,
将所述S值作为预测值填充至对应的空缺值以得到标准统一信息模型数据的完整数据记录。
在一些实施例中,数据清洗是一个减少错误和不一致性、解决对象识别问题的过程.数据清洗是可以保证数据信息源的数据质量的方法之一,因此数据清洗是构建数据仓库过程中的不可缺少的重要环节。使用数据清洗技术,数据被移到数据仓库时,它们要经过转化,以确保数据的一致性。其基本原理就是通过对“脏数据”或“噪音数据”的产生原因和存在形式进行分析之后,再利用现有的方法策略和技术手段对存在的“噪音数据”进行合理有效的清洗,这样“噪音数据”就被转化成立了能满足相应的应用要求或数据质量要求数据,从而提高数据集的数据的可靠性和准确性。
本发明还提供了一种计算机存储介质,其存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现上述的方法。计算机介质指的是能存储信息的任意物质,包括不限于各种ROM、RAM、机械存储器、固体存储器、便携式存储器等等。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
此外,根据公开的本发明的说明书,本发明的其他实现对于本领域的技术人员是明显的。实施方式和/或实施方式的各个方面可以单独或者以任何组合用于本发明的系统和方法中。说明书和其中的示例应该是仅仅看作示例性,本发明的实际范围和精神由所附权利要求书表示。

Claims (10)

1.一种基于IEC61970/IEC61968标准的电网统一信息模型的数据处理装置,其特征在于,包括:
信息模型构建模块,用于基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括数据仓库模型定义,数据仓库中的数据模型定义;
数据接收模块,用于接收电网各个数据来源系统的原始数据;
数据处理模块,其包括数据抽取子模块、数据清洗转换子模块,所述数据抽取子模块用于根据标准统一信息模型抽取数据接收模块接收的原始数据,所述数据清洗转换子模块用于将抽取的原始数据清洗转换成标准统一信息模型数据;
数据装载模块,用于按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库。
2.如权利要求1所述的数据处理装置,其特征在于,所述数据处理模块还包括数据检验子模块,用于查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类,包括:
步骤0,初始化标准统一信息模型的待处理数据记录集合;
步骤1,预处理,将数据记录的全部字段分为第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;
步骤2,对于任意两条数据记录X和Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的相似度XYsimal;其中,p的取值范围为1到M;
步骤3,如果 为给定的阈值,则数据记录X和Y是相似重复数据记录,计算得到所有相似重复的数据记录组,得到多个相似数据记录集合,进入步骤5;如果所有数据记录X和Y,则执行步骤6;
步骤4,对于每一个相似数据记录集合,聚合合并保存成一条数据记录,删除其他数据记录;
步骤5,重复执行步骤1-4;
步骤6,结束,得到校验后的标准统一信息模型的待处理数据记录集合。
3.如权利要求2所述的数据处理装置,其特征在于,所述步骤2中,两条记录XY的相似度其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N,Si为计算X和Y的第二类字段中的同一字段Zi的相似度,其中
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
4.如权利要求3所述的数据处理装置,其特征在于,其中,所述一级主题域包括用户主题域,定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。
5.如权利要求4所述的数据处理装置,其特征在于,其中,所述数据来源系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
6.一种基于IEC61970/61968标准的电网统一信息模型的数据处理方法,其特征在于,包括:
信息模型构建步骤,基于IEC61970/61968标准构建标准统一信息模型,定义一级主题域、二级主题域和实体模型;所述实体模型包括但不限于数据仓库模型定义,数据仓库中的数据模型定义;
数据接收步骤,接收电网各个数据来源系统的原始数据;
数据处理步骤,根据标准统一信息模型抽取数据接收模块接收的原始数据,并将抽取的原始数据清洗转换成标准统一信息模型数据;
数据装载步骤,按照标准统一信息模型,将所述标准统一信息模型数据装载至电网标准统一信息模型数据仓库。
7.如权利要求6所述的数据处理方法,其特征在于,所述数据数据处理步骤还包括数据校验步骤,查找校验标准统一信息模型数据的相同或相似数据记录,并对所述相同或相似数据记录聚类,其包括:
步骤0,初始化标准统一信息模型的待处理数据记录集合;
步骤1,预处理,将数据记录的全部字段分为第一类字段F1=(f11,f12,...,f1M)和第二类字段F2=(f21,f22,...,f2N),其中,M和N为第一、二类字段中字段的数量;
步骤2,对于任意两条数据记录X和Y,获得对应的第一类字段F1X=(f1x1,f1x2,...,f1xM)和F1Y=(f1y1,f1y2,...,f1yM);如果f1xp=f1yp、f1xp=Null或者f1yp=Null,那么计算两条数据记录XY的相似度XYsimal,其中,p的取值范围为1到M;
步骤3,如果 为给定的阈值,则数据记录X和Y是相似重复数据记录,计算得到所有相似重复的数据记录组,得到多个相似数据记录集合,进入步骤5;如果所有数据记录X和Y,则执行步骤6;
步骤4,对于每一个相似数据记录集合,聚合合并保存成一条数据记录,删除其他数据记录;
步骤5,重复执行步骤1-4;
步骤6,结束,得到校验后的标准统一信息模型的待处理数据记录集合。
8.如权利要求6所述的数据处理方法,其特征在于,其中,所述步骤2中,两条记录XY的相似度其中,μi为字段Zi对应的相似度权重,i为从1到n的整数值,n=N;
Si为计算X和Y的第二类字段中的同一字段Zi的相似度,
其中|Xzi|和|Yzi|分别表示X和Y的Zi字段的字符数。
9.如权利要求6所述的数据处理方法,其特征在于,其中,所述一级主题域包括用户主题域,定义所述用户主题域模型为X=<ID,B,C,D,E>,其中ID为用户样本标志,B为用户类型;C为任务所处状态,是正常还是紧急;D为任务模型,包括电力系统中的各种任务;E为任务属性集。
10.如权利要求7所述的数据处理方法,其特征在于,其中,所述数据来源系统包括但不限于调度控制中心子系统、资产管理子系统、客户管理子系统和ERP系统。
CN201810993651.3A 2018-08-29 2018-08-29 基于电网标准统一信息模型的数据处理装置和方法 Active CN109522292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810993651.3A CN109522292B (zh) 2018-08-29 2018-08-29 基于电网标准统一信息模型的数据处理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810993651.3A CN109522292B (zh) 2018-08-29 2018-08-29 基于电网标准统一信息模型的数据处理装置和方法

Publications (2)

Publication Number Publication Date
CN109522292A true CN109522292A (zh) 2019-03-26
CN109522292B CN109522292B (zh) 2020-02-18

Family

ID=65770758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810993651.3A Active CN109522292B (zh) 2018-08-29 2018-08-29 基于电网标准统一信息模型的数据处理装置和方法

Country Status (1)

Country Link
CN (1) CN109522292B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502678A (zh) * 2019-08-09 2019-11-26 国网山西省电力公司 大电网调控多维数据融合方法、终端设备及存储介质
CN111046056A (zh) * 2019-12-26 2020-04-21 成都康赛信息技术有限公司 基于数据模式聚类的数据一致性评估方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751435A (zh) * 2008-12-17 2010-06-23 北京市电力公司 用于电力系统的数据交换系统及方法
CN103532744A (zh) * 2013-09-29 2014-01-22 国网辽宁省电力有限公司信息通信分公司 一种智能电网信息通信一体化支撑平台
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN104809597A (zh) * 2015-05-14 2015-07-29 国家电网公司 基于数据融合的数据资源管理平台
CN105138562A (zh) * 2015-07-23 2015-12-09 小米科技有限责任公司 关系型数据库的数据处理方法及装置
CN105550393A (zh) * 2015-11-30 2016-05-04 北京理工大学 一种支持方案快速生成的枪械变型设计方法
CN106354787A (zh) * 2016-08-24 2017-01-25 齐鲁工业大学 一种基于相似度的实体共指消解方法
CN107766493A (zh) * 2017-10-19 2018-03-06 国网辽宁省电力有限公司 一种贴源电网资源模型分析系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751435A (zh) * 2008-12-17 2010-06-23 北京市电力公司 用于电力系统的数据交换系统及方法
CN103532744A (zh) * 2013-09-29 2014-01-22 国网辽宁省电力有限公司信息通信分公司 一种智能电网信息通信一体化支撑平台
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN104809597A (zh) * 2015-05-14 2015-07-29 国家电网公司 基于数据融合的数据资源管理平台
CN105138562A (zh) * 2015-07-23 2015-12-09 小米科技有限责任公司 关系型数据库的数据处理方法及装置
CN105550393A (zh) * 2015-11-30 2016-05-04 北京理工大学 一种支持方案快速生成的枪械变型设计方法
CN106354787A (zh) * 2016-08-24 2017-01-25 齐鲁工业大学 一种基于相似度的实体共指消解方法
CN107766493A (zh) * 2017-10-19 2018-03-06 国网辽宁省电力有限公司 一种贴源电网资源模型分析系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘鸿宁等: "基于SG-CIM的企业数据库模型设计与应用", 《信息技术》 *
赵星: "基于聚类的数据清洗研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502678A (zh) * 2019-08-09 2019-11-26 国网山西省电力公司 大电网调控多维数据融合方法、终端设备及存储介质
CN111046056A (zh) * 2019-12-26 2020-04-21 成都康赛信息技术有限公司 基于数据模式聚类的数据一致性评估方法

Also Published As

Publication number Publication date
CN109522292B (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN107256443A (zh) 基于业务和数据集成的线损实时计算方法
CN107193967A (zh) 一种多源异构行业领域大数据处理全链路解决方案
CN107256247A (zh) 大数据数据治理方法和装置
CN102708149A (zh) 数据质量管理方法和系统
CN109754219A (zh) 一种基于城市管理的大数据管理及分析平台系统
CN107590749A (zh) 一种配用电数据的处理方法及系统
CN102855332A (zh) 一种基于图形数据库的图形配置管理数据库
CN107609987A (zh) 一种面向设备主人的智能变电运维系统
CN107832876A (zh) 基于MapReduce框架的分区最大负荷预测方法
CN108446396A (zh) 一种基于改进型cim模型的电力数据处理方法
Li Research on big data analysis data acquisition and data analysis
CN111985716B (zh) 一种客运信息可视化的客运量预测系统
CN108052542A (zh) 一种基于presto的数据的多维数据的分析方法
CN112148261A (zh) 一种智能船厂数字化服务平台的数据中台设计方法
Dai Designing an accounting information management system using big data and cloud technology
CN109522292A (zh) 基于电网标准统一信息模型的数据处理装置和方法
CN116629802A (zh) 一种用于铁路港口站的大数据平台系统
CN117217412B (zh) 一种基于资源化利用的无废城市建设管理系统
CN117371945A (zh) 一种环境产业的一站式大数据管理服务平台
CN112784129A (zh) 一种泵站设备运维数据监管平台
Yu et al. Research on situational perception of power grid business based on user portrait
CN109522367B (zh) 电网统一信息模型的数据处理装置和方法
Wang [Retracted] The Development Trend of China’s Agricultural Product Cold Chain Logistics from the Perspective of Big Data
CN106651145A (zh) 备件管理系统及方法
US20200204954A1 (en) Computer system for displaying the logistical path of entities over time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant