CN115544181A - 一种基于本体的电网数据集市自动数据加载方法 - Google Patents
一种基于本体的电网数据集市自动数据加载方法 Download PDFInfo
- Publication number
- CN115544181A CN115544181A CN202211303472.5A CN202211303472A CN115544181A CN 115544181 A CN115544181 A CN 115544181A CN 202211303472 A CN202211303472 A CN 202211303472A CN 115544181 A CN115544181 A CN 115544181A
- Authority
- CN
- China
- Prior art keywords
- data
- function
- value
- power grid
- dependent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011068 loading method Methods 0.000 title claims abstract description 52
- 230000008439 repair process Effects 0.000 claims abstract description 101
- 238000004364 calculation method Methods 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 230000001419 dependent effect Effects 0.000 claims description 178
- 230000014509 gene expression Effects 0.000 claims description 127
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 9
- 238000013398 bayesian method Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 9
- 230000005611 electricity Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于本体的电网数据集市自动数据加载方法,该方法包括下述步骤:基于DV建模方法构建电网数据仓库;建立DV不一致数据检测和修复数据集;检测中心点及其附属表,验证数据依赖关系及其成立模式;检测、计算数据语义置信度并确定修复值;构建电网数据集市;建立临时维度表、修复不一致数据并加载维度表数据;建立临时事实表、修复不一致数据并加载事实表数据。本发明利用本体知识库、函数依赖关系和数据语义置信度计算方法,在不变更电网DV数据仓库的情况下,检测和修复不一致数据,实现DV不一致数据的有效管理,最终达到高质量地自动加载电网数据集市的目标。
Description
技术领域
本发明涉及数据仓库技术领域,具体涉及一种基于本体的电网数据集市自动数据加载方法。
背景技术
按多维数据模型及其关联方式来实现数据仓库已经无法满足大数据时代对海量数据的组织要求。因此,电网企业开始引入新的Data Vault(以下简称DV)建模方法,即运用范式建模与分析建模的融合方法构建新型数据仓库,满足对电网大数据组织的特殊要求。
DV建模方法强调建立一个可审计的原始数据层(数据仓库层),关注数据组织的历史性、可追溯性和原子性,适合为来自多个电网源业务系统提供长期历史存储。同时,为支持电网最终用户的数据分析工作,还需要建立数据集市,将原始数据层数据转换成多维(简称MD)数据模型保存的数据,才能满足最终用户利用数据集市数据展开OLAP分析的需求。
电网DV建模方法带来了数据仓库良好的可扩展性,但也放宽了对数据的语义约束。原始数据层集成多个电网源业务系统数据,这些数据即使在各个源系统中都是良好一致的,但集成后却可能带来相互冲突、不一致的数据。传统数据仓库要求在对多源系统集成过程中必须修改不一致数据,但这些修改常常导致新的、更大的错误。因此,电网DV数据仓库要求在原始数据层保留各个源业务系统的数据,而将修改不一致数据的任务延迟到构建数据集市的数据加载过程。因此,在数据集市的数据加载过程中,如何能够高效发现、修复这些不一致数据,并最后完成数据加载就成为电网DV数据仓库建设中亟待解决的技术问题。
目前公开的有关构建DV数据仓库的专利只针对自动化搭建Data Vault数据仓库构建和装载数据的方法和系统装置,并未考虑如何检测DV数据仓库中的不一致数据,以及如何具体修复这些不一致数据,存在以下缺陷:
1)在完成电网DV数据仓库的数据加载后,经常会发现原始数据层中存在不一致的劣质数据,为了保证数据的可跟踪性、可审计性,DV建模方法容许这些来自多个源业务系统的不一致数据集成加载到原始数据层,等到需要分析数据之前,即数据加载到数据集市之前,再处理这些不一致数据,但现有文献缺少关于检测和修复DV中不一致数据的完整解决方案;
2)现有基于统计的数据可信度检测方法,或者删除数据记录的修复方法,常常检测出无效的函数依赖关系和冲突数据,而且简单删除会带来数据缺失等问题,无法满足构建高质量电网数据仓库的数据质量要求。
综上所述,亟需解决的技术问题是:如何将电网DV数据仓库中的原始数据,在保持不变更原始数据层的要求下,发现和修复不一致数据,并高质量地自动加载到数据集市供最终用户使用。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于本体的电网数据集市自动数据加载方法,本发明运用DV建模方法构建电网数据仓库并加载数据,其中的三类数据表保存电网营销数据、设备数据或生产数据等的原始数据;然后构建相应装置,基于本体和函数依赖关系并运用数据语义方法计算其置信度,检测原始数据找出不一致数据;再按照电网业务特点,基于本体、数据语义置信度和函数依赖关系具体修复不一致数据;最后,将电网数据仓库中的数据,按建模顺序自动加载到数据集市中。
为了达到上述目的,本发明采用以下技术方案:
本发明一种基于本体的电网数据集市自动数据加载方法,包括下述步骤:
构建电网DV数据仓库,采用中心点、链接、附属三类表分别保存电网业务实体、关系及其属性数据,作为来源表;
构建电网本体知识库,对多个同类附属表设定标杆附属表和次要附属表;
构建函数依赖表、数据语义置信度计算表和函数依赖修复表;
对函数依赖表中选定中心点的若干函数依赖表达式,查找中心点及其标杆附属表,对标杆附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表;
对函数依赖表中选定中心点的函数依赖表达式,查找对应次要附属表,对次要附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表;
对数据语义置信度计算表中的记录检测函数依赖的成立模式,计算数据语义置信度计算表中的数据置信度,并确定修复值,存入函数依赖修复表;
基于多维模型构建电网数据集市作为目标表,多维模型包括事实表和维度表;
对多维模型的维度表加载数据,对多维模型的事实表加载数据。
作为优选的技术方案,构建函数依赖表,具体表示为:
FD-List(FD_id,T_id,FD-Left,FD-Right,Conf-FD)
其中,FD_id表示函数依赖表达式的标识,T_id表示函数依赖所属的中心点表或链接表标识,FD-Left表示函数依赖表达式的左部名,FD-Right表示函数依赖表达式的右部名,Conf-FD表示函数依赖的数据置信度;
构建数据语义置信度计算表,具体表示为:
DS-Conf(DS_id,FD_id,Sat_id,Bus_key,DTS,FD-L,FD-R,Conf-L,Conf-R,Repair)
其中,DS_id表示该表顺序主键,FD_id表示函数依赖表达式的标识,Sat_id表示附属表标识,Bus_key表示业务键,DTS表示时间戳,FD-L表示函数依赖表达式左部值,FD-R表示函数依赖表达式右部值,Conf-L表示函数依赖表达式左部的数据置信度,Conf-R表示函数依赖表达式右部的数据置信度,Repair表示修复值;
构建函数依赖修复表,具体表示为:
FD-Repair(RP_id,FD_id,Sat_id,Bus_key,DTS,FD-L,FD-R,Repair),其中,RP_id表示该表顺序主键,FD_id表示函数依赖表达式的标识,Sat_id表示附属表标识,Bus_key表示业务键,DTS表示时间戳,FD-L表示函数依赖表达式左部值,FD-R表示函数依赖表达式右部值,Repair表示函数依赖表达式的修复值。
作为优选的技术方案,对函数依赖表中选定中心点的若干函数依赖表达式,查找对应的中心点及其附属表,对标杆附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表,具体步骤包括:
获取同类附属表;
以标杆附属表为主,基于电网本体知识库对次要附属表中的字段名进行匹配;
根据字段名匹配结果,针对附属表中函数依赖表达式左部和函数依赖表达式右部对应的字段值,检测全部数据记录是否满足函数依赖表达式;
基于电网本体知识库将标杆附属表中的最新修改数据判定为满足函数依赖表达式,不输出到数据语义置信度计算表,将标杆附属表中不符合函数依赖的数据字段输出到数据语义置信度计算表。
作为优选的技术方案,对标杆附属表检测函数依赖的成立模式,对于存在成立模式值数据的处理步骤包括:
如果存在一个函数依赖表达式左部值拥有相同函数依赖表达式右部值的记录数量大于不相同函数依赖表达式右部值的记录数量,则将该相同函数依赖表达式右部值作为成立模式值;
将不相同函数依赖表达式右部值的记录输出到函数依赖修复表,更新当前函数依赖修复表对应标识;
对于不存在成立模式值数据的处理步骤包括:
将全部不符合函数依赖的数据记录,输出到数据语义置信度计算表,更新数据语义置信度计算表对应标识。
作为优选的技术方案,所述对函数依赖表中选定中心点的函数依赖表达式,查找对应次要附属表,对次要附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表,具体步骤包括:
将次要附属表某业务键值与时间戳记录的函数依赖表达式左部值和函数依赖表达式右部值与标杆附属表中相应记录且符合函数依赖的对应字段值进行比较,若在函数依赖表达式左部值和函数依赖表达式右部值字段上,次要附属表与标杆附属表的字段值都是一致的,则判定次要附属表记录符合函数依赖;
对次要附属表检测函数依赖的成立模式,基于电网本体知识库将次要附属表中的最新修改数据判定为满足函数依赖表达式,不输出到数据语义置信度计算表,将次要附属表中不符合当前函数依赖的数据记录输出至数据语义置信度计算表。
作为优选的技术方案,将次要附属表某业务键值与时间戳记录的函数依赖表达式左部值和函数依赖表达式右部值与标杆附属表中相应记录且符合函数依赖的对应字段值进行比较;
若在函数依赖表达式左部值字段上,次要附属表与标杆附属表的字段值是一致的,但在函数依赖表达式右部值字段上,次要附属表与标杆附属表的字段值不一致,则将标杆附属表的函数依赖表达式右部字段值作为成立模式值,并输出到函数依赖修复表,更新函数依赖修复表对应标识;
若在函数依赖表达式左部值字段上,次要附属表与标杆附属表的字段值不一致,则该记录输出到数据语义置信度计算表。
作为优选的技术方案,计算数据语义置信度计算表中的数据置信度,并确定修复值,具体步骤包括:
利用本体知识库分别确定函数依赖左部、函数依赖右部的证据属性,按数据语义置信度计算表中的附属表标识,以及函数依赖表达式左部和函数依赖表达式右部的字段名,在电网本体知识库中分别查找标杆附属表或次要附属表左部和右部的决定属性,作为贝叶斯网络的父节点,
基于贝叶斯方法计算得到数据语义置信度计算表中的数据置信度;
根据数据置信度确定修复值。
作为优选的技术方案,基于贝叶斯方法计算得到数据语义置信度计算表中的数据置信度,具体步骤包括:
计算条件概率:根据贝叶斯网络的节点和父节点关系,计算各函数依赖表达式左部值l和函数依赖表达式右部值r出现的次数,按下列式子计算出条件概率:
计算函数依赖表达式左部值l和函数依赖表达式右部值r的数据置信度,并对进行归一化处理:具体表示为:
根据数据置信度确定修复值,具体包括:
当函数依赖表达式左部值相同,但函数依赖表达式右部值各不相同,选择Conf_R’(r)最大值对应的r值作为修复值置入函数依赖修复表,如果Conf_R’(r)值都相等,则选择Conf_L’(l)最大值的记录的r值作为修复值置入函数依赖修复表;
当函数依赖表达式左部值相同,每组有相等数量的函数依赖表达式右部值F,组内函数依赖表达式右部值相等但组间不等,则选择Conf_R’(r)组内累计最大值的r值作为修复值置入函数依赖修复表;如果Conf_R’(r)值组内累计最大值都相等,则选择Conf_L’(l)值组内累计最大值的记录的r值作为修复值置入函数依赖修复表。
作为优选的技术方案,对多维模型的维度表加载数据,具体步骤包括:
利用电网本体知识库和电网数据表命名规则,在目标表中查找客户维度表,确定客户维度表主键与客户中心点业务键名的匹配;
利用电网本体知识库和电网数据表命名规则,在来源表查找客户中心点及其附属表;
将中心点业务键值存入临时维度表;
将与客户维度表相关的标杆附属表数据存入临时维度表;
将与客户维度表相关的次要附属表数据存入临时维度表;
对临时维度表中的每个业务键值,保留一个最新时间戳的记录,删除其余记录;
基于函数依赖修复表,获得标杆附属表标识与函数依赖修复表中附属表标识相同的全部修复记录,获得次要附属表标识与函数依赖修复表中附属表标识相同的全部修复记录,修复临时维度表中的数据;
将临时维度表中的数据,写入对应的客户维度表,完成单个维度表的数据加载;
重复单个维度表的数据加载步骤,对多维模型的所有维度表建立临时维度表。
作为优选的技术方案,对多维模型的事实表加载数据,具体步骤包括:
利用电网本体知识库和电网数据表命名规则,在目标表中查找所要建立的事实表,确定该事实表的主键,以及构成事实表主键中的外键与中心点表业务键名的匹配;
利用电网本体知识库和电网数据表命名规则,确定该事实表对应的链接表,以及链接表下的若干同类附属表;
将该链接表中的业务键值存入临时事实表;
将该链接表的标杆附属表数据存入临时事实表;
将该链接表的次要附属表数据存入临时事实表;
将临时事实表中的数据,写入对应的事实表,时间戳写入事实表的日期维度值,完成单个事实表的数据加载;
重复单个事实表的数据加载步骤,对多维模型的所有事实表建立临时事实表。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于电网DV数据仓库采用容纳不一致数据的策略,实现可跟踪性、可审计性;本发明利用本体知识库和电网命名规则匹配数据表名和字段名语义,区分标杆附属表和次要附属表,再借助函数依赖关系检测DV附属表内和表间的不一致数据,最后,按照电网业务特点,运用数据语义和贝叶斯网络方法计算其置信度,并确定修复值,实现了DV不一致数据的管理方案。
(2)本发明利用电网DV数据中的函数依赖关系和数据语义置信度计算方法,在不变更电网DV数据仓库的情况下,修复不一致数据,并根据电网多维模型特点自动完成数据集市的加载,解决了高质量自动加载数据集市的技术问题。
附图说明
图1为本发明基于本体的电网数据集市自动数据加载方法的流程示意图;
图2为本发明电网DV数据仓库的部分示例图;
图3为本发明获得电网DV数据仓库中包含的函数依赖及其置信度的示例图;
图4为本发明标杆附属表Sat_CustAddr1的数据记录示意图;
图5为本发明次要附属表Sat_CustAddr2的数据记录示意图;
图6为本发明检验标杆附属表函数依赖成立情况后的数据语义置信度计算表示意图;
图7为本发明检验次要附属表函数依赖成立情况后的函数依赖修复表示意图;
图8为本发明条件概率及置信度的计算结果示意图;
图9为本发明数据语义置信度计算表处理后函数依赖修复表结果示意图;
图10为本发明电网多维模型示例图;
图11为本发明客户临时维度表初始数据示意图;
图12为本发明修复后的客户临时维度表示意图;
图13为本发明客户维度表示意图;
图14为本发明写入业务键的临时事实表示意图;
图15为本发明写入标杆附属表数据的临时事实表示意图;
图16为本发明写入事实表的数据示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于本体的电网数据集市自动数据加载方法,包括下述步骤:
S1:构建电网DV数据仓库,其中包括电网DV模型中的三类表及表中存储的数据;假设已获得电网DV数据仓库中包含的函数依赖及其置信度;构建电网本体知识库,其中包括电网业务和输配电设备相关的词汇定义、相互关联的语义信息、DV三类具体表的关系,以及词汇概念的具体实例;对多个同类附属表设定了标杆附属表和次要附属表。此外,还规定一个数据语义置信度阈值α,用于判定数据记录语义和函数依赖成立的标准。
(1)如图2所示,电网DV模型用中心点、链接、附属三类表分别保存电网业务实体、关系和中心点/链接的属性数据;在图中有电网客户中心点表Hub_Cust(有客户附属表Sat_Customer和客户地址附属表Sat_CustAddr1、Sat_CustAddr2)、用电合同中心点表Hub_Contract(有合同附属表Sat_Contract)和服务中心点表Hub_Service(有服务附属表Sat_Service),还有客户-合同链接表Lnk_Cust-Cont和合同-服务链接表Lnk_Cont-Serv(有合同-服务附属表Sat_Usage);
(2)中心点表以业务键为基础连接链接表、附属表,链接表保存多对多关系;
(3)一个中心点或链接可能有多个附属表,每个附属表可对应一个源业务系统,并按时间戳(Load_Date)形成相关属性的不同时期的历史记录,这三类表中保存有记录来源(Rec_Source)属性,可以记录所有源电网业务系统的数据集合。
电网DV模式适合高效存储电网的海量数据,但不利于用户使用数据,所以在电网数据仓库环境中,建立以事实表和维度表为基础的多维模型,用于支持最终用户分析数据。
S2:建立函数依赖表、数据语义置信度计算表和函数依赖修复表。按照电网DV数据仓库特征,遵循以下步骤构建这四种表:
(1)建立函数依赖表FD-List(FD_id,T_id,FD-Left,FD-Right,Conf-FD),其中,FD_id表示函数依赖表达式的标识,T_id表示函数依赖所属的中心点/链接表标识,FD-Left表示函数依赖表达式的左部名,FD-Right表示函数依赖表达式的右部名,Conf-FD表示函数依赖的数据置信度。
(2)输入已确定的函数依赖及其数据置信度(≥α),按函数依赖表达式标识、所属表标识、表达式左部和右部,以及数据置信度分别存入函数依赖表FD-List的FD_id、T_id、FD-Left、FD-Right和Conf-FD字段。
(3)建立数据语义置信度计算表DS-Conf(DS_id,FD_id,Sat_id,Bus_key,DTS,FD-L,FD-R,Conf-L,Conf-R,Repair),其中,DS_id表示该表顺序主键,FD_id表示函数依赖表达式的标识,Sat_id表示附属表标识,Bus_key表示业务键,DTS表示时间戳,FD-L表示函数依赖表达式左部值,FD-R表示函数依赖表达式右部值,Conf-L表示函数依赖表达式左部的数据置信度,Conf-R表示函数依赖表达式右部的数据置信度,Repair表示修复值。
(4)建立函数依赖修复表FD-Repair(RP_id,FD_id,Sat_id,Bus_key,DTS,FD-L,FD-R,Repair),其中,RP_id表示该表顺序主键,FD_id表示函数依赖表达式的标识,Sat_id表示附属表标识,Bus_key表示业务键,DTS表示时间戳,FD-L表示函数依赖表达式左部值,FD-R表示函数依赖表达式右部值,Repair表示函数依赖表达式的修复值。
如图3所示,已获得电网DV数据仓库中包含的函数依赖及其置信度,本实施例规定数据语义置信度阈值为α=0.65;
S3:对函数依赖表FD-List中的某个中心点的若干函数依赖表达式,找到对应的中心点及其附属表,检测这些函数依赖对标杆附属表是否成立,将不符合函数依赖的数据字段输出到数据语义置信度计算表DS-Conf。
S31:获取同类附属表:对这些函数依赖,获取其函数依赖表FD-List中的T_id(中心点标识)和函数依赖表达式左部FD-Left和函数依赖表达式右部FD-Right(非数值型,以下相同),利用用户设定和电网本体知识库,明确同类附属表,以及标杆附属表及次要附属表。
a)获得设定标杆附属表:根据用户设定(利用电网数据表的命名规则),获得标杆附属表,本实施例设定Sat_CustAddr1为标杆附属表;
b)判断是否同类附属表:利用电网本体知识库,证实附属表是函数依赖所属的中心表或链接表T_id下对同一个业务对象的同类特征的属性说明,如:具有用户业务对象的地址特征的附属表;通过查询电网本体知识库可知,Sat_CustAddr1和Sat_CustAddr2均为具有用户业务对象的地址特征的同类附属表;
c)获得全部同类附属表:除标杆附属表外,其他同类附属表表为次要附属表,本实施例Sat_CustAddr1为标杆附属表,Sat_CustAddr2为次要附属表。
S32:表中字段名匹配:利用电网本体知识库,以标杆附属表为主,对多个附属表中的字段名进行匹配,假设有附属表1的字段F1,与附属表2的字段F2,本体知识库的推理有两种方式:
a)如果本体知识库中保存了“F1≡F2”规则,则直接得到肯定结果;
在本实施例中,利用电网本体知识库,以Sat_CustAddr1为主,对次要附属表Sat_CustAddr2中的字段名进行匹配,匹配结果为:Sat_CustAddr1中的“姓名”与Sat_CustAddr2中的“姓名”匹配,Sat_CustAddr1中的“电话”与Sat_CustAddr2中的“固定电话”匹配,Sat_CustAddr1中的“省市”与Sat_CustAddr2中的“省”匹配,Sat_CustAddr1中的“城市”与Sat_CustAddr2中的“市”匹配,Sat_CustAddr1中的“地址”与Sat_CustAddr2中的“用电地址”匹配。
S33:对标杆附属表检测函数依赖的成立模式:根据字段名匹配结果,对附属表中函数依赖表达式左部FD-Left和函数依赖表达式右部FD-Right对应的字段值,检测全部数据记录是否满足函数依赖表达式FD-Left→FD-Right,即对电网业务对象,一个函数依赖表达式左部FD-Left值必须对应一个相同的FD-Right值;
S34:若标杆附属表中有不符合该函数依赖的数据记录,则输出到数据语义置信度计算表DS-Conf:
a)对新数据的处理(最新数据不是错误):利用电网本体知识库,查询相对某函数依赖表达式左部FD-Left值,其对应函数依赖表达式右部FD-Right值是最近更新值,即对新记录,虽然函数左部值与此前相同,但允许函数右部值与此前不同,所以该记录是符合函数依赖的,不输出到数据语义置信度计算表DS-Conf;
b)对存在成立模式值数据的处理:
i)如果存在一个函数依赖表达式左部FD-Left值拥有相同函数依赖表达式右部FD-Right值的记录数量大于不相同函数依赖表达式右部值FD-Right的记录数量,则该多数相同函数依赖表达式右部值FD-Right值将作为成立模式值,不输出到数据语义置信度计算表DS-Conf;
ii)将少数具有不相同函数依赖表达式右部值FD-Right值的记录(记录数>0)直接输出到函数依赖修复表,即生成新的RP_id,当前函数依赖标识置入FD_id,标杆附属表标识置入Sat_id,业务键置入Bus_key,时间戳置入DTS,函数依赖左部值置入FD-L,函数依赖右部值置入FD-R,成立模式值置入Repair。
c)对不存在成立模式数据的处理:将全部不符合函数依赖的数据记录,按以下形式,生成新的该表顺序主键DS_id,当前函数依赖标识置入FD_id,标杆附属表标识置入Sat_id,业务键值置入Bus_key,时间戳置入DTS,函数依赖左部值置入FD-L,函数依赖右部值置入FD-R,输出到数据语义置信度计算表DS-Conf。
如图4所示,设有标杆附属表Sat_CustAddr1的数据记录,如图5所示,设有次要附属表Sat_CustAddr2的数据记录;
在本实施例中,对函数依赖“城市→省市”,检测标杆附属表Sat_CustAddr1全部数据记录,发现该函数依赖存在成立模式问题,即对业务键为“CU006”、“CU007”的两条记录,虽然函数依赖左部的“城市”字段都有值“福州市”,但函数依赖右部的“省市”字段上分别有值“福建省”和“广东省”,因此判定不存在成立模式,如图6所示,在数据语义置信度计算表DS-Conf中存入记录(“DS001”,“FD018”,“Sat_CustAddr1”,“CU006”,“2022/9/21”,“福州市”,“福建省”,“”,“”,“”)、(“DS002”,“FD018”,“Sat_CustAddr1”,“CU007”,“2022/9/21”,“福州市”,“广东省”,“”,“”,“”)。
S4:对函数依赖表FD-List中的该中心点的这些函数依赖表达式,在次要附属表中,获取与若干函数依赖表达式左部FD-Left和函数依赖表达式右部FD-Right对应的字段值,检测全部数据记录是否符合函数依赖,将不符合函数依赖的数据字段输出到数据语义置信度计算表DS-Conf。
S41:与标杆附属表中符合函数依赖的记录比较:对除DS-Conf保存的数据记录之外的标杆附属表记录,按前述字段名匹配结果,将次要附属表某业务键值与时间戳记录的函数依赖表达式左部FD-Left值和函数依赖表达式右部FD-Right值与标杆附属表中相应记录且符合函数依赖的对应字段值进行比较,按比较结果分别处理:
a)若在FD-Left和FD-Right字段上,次要附属表与标杆附属表的字段值都是一致的,则这些次要附属表记录符合函数依赖;
b)若在FD-Left字段上,次要附属表与标杆附属表的字段值是一致的,但在FD-Right字段上次要附属表与标杆附属表的字段值不一致,则将标杆附属表的FD-Right字段值作为成立模式值,并直接输出到函数依赖修复表,即生成新的RP_id,当前函数依赖标识置入FD_id,次要附属表标识置入Sat_id,业务键值置入Bus_key,时间戳置入DTS,次要附属表函数依赖左部值置入FD-L、右部值置入FD-R,成立模式值置入Repair;
c)若在FD-Left字段上,次要附属表与标杆附属表的字段值不一致,则该记录输出到数据语义置信度计算表DS-Conf,即生成新的DS_id,当前函数依赖标识置入FD_id,次要附属表标识置入Sat_id,业务键值置入Bus_key,时间戳置入DTS,函数依赖左部值置入FD-L,函数依赖右部值置入FD-R,输出到数据语义置信度计算表DS-Conf。
S42:对次要附属表检测函数依赖的成立模式:对与DS-Conf保存的标杆附属表数据记录对应的次要附属表数据记录,检测其是否满足表达式函数依赖表达式FD_Left→FD_Right,即对电网业务对象,一个FD_Left值必须对应一个相同的FD_Right值;
S43:若这些次要附属表中有不符合该函数依赖的数据记录,则输出到数据语义置信度计算表DS-Conf:
a)对更新数据的处理:利用电网本体知识库,查询相对某FD_Left值,其对应FD_Right值是最近更新值,即对最新记录,虽然函数左部值与此前相同,但允许函数右部值与此前不同,所以该记录是符合函数依赖的,不输出到DS-Conf表;
b)对存在成立模式值数据的处理:
i)如果存在一个函数依赖表达式左部值FD_Left拥有相同函数依赖表达式右部值FD_Right的记录数量大于不相同函数依赖表达式右部值FD_Right的记录数量,则该多数相同函数依赖表达式右部值FD_Right将作为成立模式值,不输出到数据语义置信度计算表DS-Conf;
ii)将少数具有不相同FD_Right值的记录(记录数>0)直接输出到函数依赖修复表,即生成新的RP_id,当前函数依赖标识置入FD_id,次要附属表标识置入Sat_id,业务键置入Bus_key,时间戳置入DTS,函数依赖左部值置入FD_L,函数依赖右部值置入FD_R,成立模式值置入Repair。
c)对不存在成立模式数据的处理:将全部不符合函数依赖的数据记录,按以下形式,生成新的DS_id,当前函数依赖标识置入FD_id,次要附属表标识置入Sat_id,业务键值置入Bus_key,时间戳置入DTS,函数依赖左部值置入FD_L,函数依赖右部值置入FD_R,输出到数据语义置信度计算表DS-Conf。
在本实施例中,检测次要附属表Sat_CustAddr2函数依赖成立模式并处理不符合函数依赖的数据记录。对函数依赖“市→省”,有“CU003”和“CU008”两条记录,当与标杆附属表中相应记录(按前面的同义词匹配,对应标杆附属表的“城市”和“省市”字段)进行比较时,发现在函数依赖表达式左部FD-Left(市)字段上,次要附属表与标杆附属表的字段值是一致的,但在FD-Right字段(省)上次要附属表与标杆附属表的字段值不一致的情况,如图7所示,输出函数依赖修复表记录(“RP001”,“FD021”,“Sat_CustAddr2”,“CU203”,“2022/9/21”,“广州市”,“福建省”,“广东省”)、(“RP002”,“FD021”,“Sat_CustAddr2”,“CU208”,“2022/9/21”,“厦门市”,“广东省”,“福建省”)。
在本实施例中,检测已保存入数据语义置信度计算表DS-Conf的“CU006”、“CU007”标杆附属表两条记录对应的次要附属表记录,检测结果显示,这些次要附属表记录满足函数依赖“市→省”的成立模式,所以这些记录不存入数据语义置信度计算表DS-Conf。
S5:对数据语义置信度计算表DS-Conf中的记录检测函数依赖的成立模式,计算数据语义置信度计算表DS-Conf中的数据置信度,并确定修复值,存入函数依赖修复表。
S51:对数据语义置信度计算表DS-Conf中的次要附属表记录,检测函数依赖的成立模式:对表中该函数依赖对应的FD-L和FD-R字段,检测此表全部记录是否满足该记录FD_id的表达式FD-Left→FD-Right,即对电网业务对象,一个FD-L值必须对应一个相同的FD-R值;
S52:对符合函数依赖的数据记录,则删除其记录:
a)对符合函数依赖数据的处理:按照业务键值与时间戳查标杆附属表,如果未查到相同键记录,且如果一个FD-L值对应一个相同的FD-R值,则从数据语义置信度计算表DS-Conf表中删除之;
b)对存在成立模式值数据的处理:
i)如果存在一个FD-L值拥有相同FD-R值的记录数量大于不相同FD-R值的记录数量,则该多数相同FD-R值将作为成立模式值,从数据语义置信度计算表DS-Conf中删除这些存在模式值的记录;
ii)将具有少数不相同FD-R值的记录(记录数>0)直接存入到函数依赖修复表,即生成新的RP_id,当前函数依赖标识置入FD_id,次要附属表标识置入Sat_id,业务键值置入Bus_key,时间戳置入DTS,函数依赖左部值置入FD-L,函数依赖右部值置入FD-R,成立模式值置入Repair;
iii)从数据语义置信度计算表DS-Conf中删除这些少数不相同FD-R值并已存入函数依赖修复表的记录。
S53:对数据语义置信度计算表DS-Conf中的全部记录,计算数据置信度,确定修复值:对数据语义置信度计算表DS-Conf中的记录,根据数据语义,计算数据语义置信度计算表DS-Conf中的数据置信度,确定修复值。
a)利用本体知识库分别确定函数依赖左右部的证据属性:按数据语义置信度计算表DS-Conf中的附属表标识Sat_id,以及FD_id涉及的函数依赖表达式(FD-List中)左部FD-Left和函数依赖表达式右部FD-Right的字段名,在电网本体知识库中分别查找标杆附属表或次要附属表左部和右部的决定属性,即左部和右部所依赖的属性,作为证据属性(父节点),然后,按贝叶斯方法,进行下述计算:
i)计算条件概率:根据贝叶斯网络的节点和父节点关系,计算各FD-L值l和FD-R值r出现的次数,按下列式子计算出条件概率:
ii)按照如下公式计算数据语义置信度计算表DS-Conf中FD-L和FD-R实例值l和r的数据置信度,并归一化处理。
归一化公式:
b)根据数据置信度确定修复值:不符合函数依赖的若干数据记录有两种情况,分别按以下处理:
i)函数依赖表达式左部值FD-L相同,但若干函数依赖表达式右部值FD-R各不相同,则选择Conf_R’(r)最大值的r值作为修复值置入这些若干记录的Repair字段;如果Conf_R’(r)值都相等,则选择Conf_L’(l)最大值的记录的r值作为修复值置入这些若干记录的Repair字段;
ii)FD-L值相同,但存在两组以上,即每组有相等数量的函数依赖表达式右部值FD-R,组内函数依赖表达式右部值FD-R相等但组间不等,则选择Conf_R’(r)组内累计最大值的r值作为修复值置入这些若干记录的Repair字段;如果Conf_R’(r)值组内累计最大值都相等,则选择Conf_L’(l)值组内累计最大值的记录的r值作为修复值置入这些若干记录的Repair字段。
S54:生成函数依赖修复表的修复记录:对数据语义置信度计算表DS-Conf中的记录,合并相同的FD_id,Sat_id,Bus_key,DTS,FD-L,FD-R记录,仅保留其第1条记录;将所有数据语义置信度计算表DS-Conf中记录存入函数依赖修复表FD-Repair,其中新生成该表顺序主键RP_id,将数据语义置信度计算表DS-Conf的FD_id,Sat_id、Bus_key、DTS、FD-L、FD-R和Repair分别置入FD-Repair表对应字段名。
S55:若函数依赖表FD-List中还有涉及其他中心点的函数依赖未处理,则获取其他中心点的函数依赖,转到步骤S3。
在本实施例中,数据语义置信度计算表DS-Conf中仅有两条记录,但其FD_L值相同,FD_R值不同,不符合函数依赖FD_id的成立模式,不能删除。
在本实施例中,根据电网本体知识库,确定数据语义置信度计算表DS-Conf中涉及的函数依赖FD_Left为“城市”所依赖的属性为“地址”,FD_Left为“市”所依赖的属性为“用电地址”,FD_Right为“省市”所依赖的属性为“城市”,FD_Right为“省”所依赖的属性为“市”,将所依赖的属性作为该左部或右部依赖的属性,按照贝叶斯方法计算条件概率及置信度,如图8所示,得到具体计算结果;
对数据语义置信度计算表DS-Conf中的“DS001”、“DS002”两条记录,属于FD_L值相同,但若干FD_R值各不相同,则选择Conf_R’(r)组内累计最大值的“福建省”为修复值置入这两条记录的Repair字段。
合并数据语义置信度计算表DS-Conf的记录后,生成新记录并存入函数依赖修复表FD-Repair,如图9所示,得到处理结果;
S6:采用多维模型,构建电网数据集市作为目标表,其中包括电网多维模型中的两类表(事实表和维度表),本实施例步骤S1构建的电网DV数据仓库作为来源表。
如图10所示,得到电网多维模型,在图中有电网业务对象的维度表:客户维度表MD_Customer、用电合同维度表MD_Contract和服务维度表MD_Service,以及日期维度表,还有用电情况事实表MD_Usage。
S7:对多维模型的维度表加载数据。假设由来源表中的客户对象(涉及中心点及其附属表),向目标表中的客户维度表(关于电网客户对象仅有一个维度表)中加载数据。
S71:利用电网本体知识库和电网数据表命名规则,在目标表中找到客户维度表,明确客户维度表主键名与客户中心点业务键名的匹配,如Cust_key作为主键。
S72:在来源表中找到客户中心点及其附属表:利用电网本体知识库和电网数据表命名规则(都带有Customer标识或同义词),可确定客户维度表对应的中心点表是客户中心点,同样,可确定该中心点下有若干类附属表,同类附属表并区分标杆附属表和次要附属表(按命名规则标杆附属表带有BS标识)。
S73:将中心点业务键值存入临时维度表:
a)按目标表的维度表模式,建立一个临时维度表(需另外增加一个时间戳字段);
b)按步骤S72中确定的中心点业务键与临时维度表业务键相同,将中心点业务键全部存入临时维度表业务键。
S74:将与客户维度表相关的标杆附属表数据存入临时维度表:
a)利用电网本体知识库和电网数据表命名规则,确定标杆附属表各字段与临时维度表的各字段的对应关系;
b)按临时维度表中已有业务键值,将标杆附属表中相同业务键值的其他字段数据(包括时间戳),全部存入临时维度表;因时间戳不同,相同业务键值可能有多条记录。
S75:将与客户维度表相关的次要附属表数据存入临时维度表:
a)利用电网本体知识库和电网数据表命名规则,确定次要附属表各字段与临时维度表的各字段的对应关系;
b)对次要附属表中的全部记录,按业务键值和时间戳与临时维度表中已有记录比较:
i)如果有匹配记录,则用次要附属表记录,补充尚无具体值的临时维度表字段,已有具体值字段不存入;
ii)如果无匹配记录,则用次要附属表记录的具体值,存入临时维度表字段(包括时间戳)。
S76:删除临时维度表中的多余记录:对临时维度表中的每个业务键(如Cust_key)值,仅保留一个最新时间戳的记录,其余记录删除;
S77:利用函数依赖修复表,修复临时维度表中的数据:可以利用本体知识库进行字段名匹配。
a)从函数依赖修复表FD-Repair中,获得标杆附属表标识与Sat_id相同的全部修复记录,按Bus_key、DTS值检索临时维度表中的数据记录集合A,并根据FD_id查询函数依赖表FD-List中的对应T_id的获得标杆附属表FD-Left和FD-Right的字段名,从而确定FD-L和FD-R值对应的字段名,如果在集合A中的FD-Left和FD-Right的字段名与FD-L和FD-R值匹配,则将该FD-R值修复为FD-Repair表的该Repair字段值;
b)从函数依赖修复表FD-Repair中,获得次要附属表标识与Sat_id相同的全部修复记录,按Bus_key、DTS值检索临时维度表中的数据记录集合B,并根据FD_id查询函数依赖表FD-List中的对应T_id的获得次要附属表FD-Left和FD-Right的字段名,从而确定FD-L和FD-R值对应的字段名,如果在集合B中的FD-Left和FD-Right的字段名与FD-L和FD-R值匹配,则将该FD-R值修复为FD-Repair表的该Repair字段值。
S78:将临时维度表中的数据,存入对应的客户维度表(不存入时间戳)。
S79:重复本步骤,对多维模型的其他维度表建立临时维度表。
在本实施例中,以MD_Customer为例进行说明。假设由来源表中的客户业务对象,即客户中心点Hub_Customer及其附属表Sat_Customer、Sat_CustAddr1、Sat_CustAddr2,向目标表中的客户维度表中加载数据。
1)利用电网本体知识库和电网数据表命名规则,在目标表中找到客户维度表MD_Customer,确定客户维度表主键与客户中心点业务键是匹配的,即将客户中心点Hub_Customer的业务键Cust_key作为MD_Customer的主键。
2)利用电网本体知识库和电网数据表命名规则(都带有Customer标识或同义词),可确定客户维度表对应的中心点是客户中心点Hub_Customer,同样,可确定该中心点下有附属表Sat_Customer、Sat_CustAddr1、Sat_CustAddr2,同类附属表Sat_CustAddr1、Sat_CustAddr2,并区分为标杆附属表Sat_CustAddr1和次要附属表Sat_CustAddr2。
3)将客户中心点Hub_Customer业务键值Cust_key存入临时维度表:首先建立一个临时维度表(需另外增加一个时间戳字段),再将中心点业务键Cust_key值全部存入临时维度表业务键字段。
4)将与客户维度表相关的标杆附属表Sat_CustAddr1数据存入临时维度表:
a)利用电网本体知识库和电网数据表命名规则,确定标杆附属表各字段与临时维度表的各字段的对应关系为姓名-姓名,电话-电话,省市-省市,城市-城市,地址-用电地址;
b)按临时维度表中已有业务键值,将标杆附属表中相同业务键值的其他字段数据(包括时间戳),全部存入临时维度表,在本实施例中,各业务键只有一个时间戳,客户临时维度表存入10条记录。
5)将与客户维度表相关的次要附属表为Sat_CustAddr2,将其数据存入临时维度表:
a)利用电网本体知识库和电网数据表命名规则,确定次要附属表各字段与临时维度表的各字段的对应关系为姓名-姓名,固定电话-电话,省-省市,市-城市,用电地址-用电地址;
b)因次要附属表Sat_CustAddr2中的记录,皆与临时维度表中记录匹配,无需为临时维度表补充具体值,所以,如图11所示,客户临时维度表仍然是10条记录;
6)因客户临时维度表中每个Cust_key都仅有一条记录,不存在多余记录,临时表保持不变。
7)利用函数依赖修复表FD-Repair,修复客户临时维度表中的数据:
a)从函数依赖修复表FD-Repair中,获得标杆附属表标识Sat_CustAdddr1与Sat_id相同的全部修复记录RP003和RP004,按Bus_key、DTS值检索临时维度表中的数据记录集合A,包括图11中的第6、7条记录。其中,第6条记录不用修复,第7条记录的“省市”字段修复为“福建省”。
b)从函数依赖修复表FD-Repair中,获得次要附属表标识Sat_CustAdddr2与Sat_id相同的全部修复记录RP001和RP002,按Bus_key、DTS值检索临时维度表中的数据记录集合B,包括图11中的第3、8条记录。然后利用本体知识库,确定“省”和“市”对应为临时表中的“省市”和“城市”字段,但未发现FD_L和FD_R值匹配,所以不用修复。
如图12所示,得到经过修复后的客户临时维度表。
8)如图13所示,将客户临时维度表中的数据,存入对应的客户维度表MD_Customer。
9)重复本步骤,对多维模型的其他维度表加载数据。
S8:对多维模型的事实表加载数据。假设由来源表中的业务对象关系(如合同-服务链接及其附属表),向目标表中的事实表(如用电情况事实表)中加载数据。
S81:利用电网本体知识库和电网数据表命名规则,在目标表中找到用电情况事实表,明确用电情况事实表的主键,以及构成事实表主键中的外键与中心点表业务键名的匹配,如Cust_key和Cont_key等。
S82:在来源表中找到合同-服务链接及其附属表,以及相关的中心点表:利用电网本体知识库和电网数据表命名规则(带有Lnk_Cont-Serv、Customer、Contract和Service标识或同义词),可确定用电情况事实表对应的链接表是合同-服务链接表,同样,可确定该链接表下的若干同类附属表,区分为标杆附属表和次要附属表(如标杆附属表的命名规则带有BS标识)。
S83:将链接表中的业务键值存入临时事实表:
a)建立临时表:按目标表的事实表模式,建立一个临时事实表;
b)业务键存入临时表:
i)检查业务键:如果目标表主键包含的外键数大于来源链接表中的外键数+1,需要查询函数依赖表FD-List,寻找目标表中外键与外键之间的函数依赖关系和对应的来源表链接,如果找到隐含函数依赖和对应的来源表链接,则继续,否则报告出错,算法结束;
ii)确定业务键:如果目标表主键包含的外键数等于来源链接表中的外键数,或者目标表主键中的外键之间存在函数依赖和对应的来源表链接,利用本体知识库检测这些外键相互匹配,如果匹配,则继续,否则报告出错,算法结束;
iii)向临时表存入业务键值:以来源表链接中的外键,以及包含外键函数依赖的链接(若有),获得目标表外键的对应实例值,按顺序存入临时事实表。
S84:将合同-服务链接表的标杆附属表数据存入临时事实表:
a)利用电网本体知识库和电网数据表命名规则,确定标杆附属表各字段与临时事实表的各字段的对应关系,也确定日期维度表的主键;
b)按临时事实表中已有业务键值,将标杆附属表中相同业务键值的其他字段数据(包括时间戳),全部存入临时事实表;因时间戳不同,相同业务键值组合可能有多条不同时间戳的记录。
S85:将合同-服务链接表的次要附属表数据存入临时事实表:
a)利用电网本体知识库和电网数据表命名规则,确定次要附属表各字段与临时事实表的各字段的对应关系;
b)对次要附属表中的全部记录,按业务键值组合和时间戳与临时事实表中已有记录比较:
i)如果有匹配记录,则用次要附属表记录,补充尚无具体值的临时维度表字段,已有具体值字段不存入;
ii)如果无匹配记录,则用次要附属表记录的具体值,存入临时维度表字段(包括时间戳)。
S86:将临时事实表中的数据,存入对应的事实表,时间戳存入事实表的日期维度值。
S87:重复本步骤,对多维模型的其他事实表加载数据。
1)在本实施例中,利用电网本体知识库和电网数据表命名规则,在目标表中找到用电情况事实表MD_Usage,明确其主键包含:Cust_key、Cont_key、Serv_key、Date_id,其中Cust_key与中心点表Hub_Customer的业务键匹配,Cont_key与中心点表Hub_Contract的业务键匹配,Serv_key与中心点表Hub_Service的业务键匹配。
2)在本实施例中,利用电网本体知识库和电网数据表命名规则,在来源表中找到合同-服务链接Lnk_Cont-Serv及其附属表Sat_Cont-Serv,以及相关的中心点:Hub_Customer、Hub_Contract和Hub_Service。确定用电情况事实表MD_Usage对应链接表Lnk_Cont-Serv,其标杆附属表为Sat_Cont-Serv。
3)如图14所示,将链接表中的业务键值存入临时事实表:
a)按目标表的事实表模式,建立一个临时事实表;
b)业务键存入临时表:
i)检查目标表主键包含的外键数为4,而来源链接表中的外键数为2,应查询FD_List,找到目标表中外键与外键之间的函数依赖关系FD001:Cont_key→Cust_key和链接标识Lnk_Cust-Cont;
ii)确定目标表主键包含的外键为:Cust_key、Cont_key、Serv_key,以及日期维度标识Date_id;
iii)以Cont_key的键值为基础,获取来源表Lnk_Cont-Serv与Lnk_Cust-Cont的外键联接对应实例值,按顺序存入临时事实表。
4)如图15所示,将合同-服务链接表Lnk_Cont-Serv的标杆附属表数据存入临时事实表:
a)利用电网本体知识库和电网数据表命名规则,确定Sat_Cont-Serv的Load_Date时间戳字段对应日期维度表的主键Date_id;Sat_Cont-Serv与临时事实表各字段的对应关系为:其中Sat_Cont-Serv的“用电量”对应临时事实表中的“用电量”,Sat_Cont-Serv的“金额”对应临时事实表中的“金额”。
b)按临时事实表中已有业务键值,将标杆附属表中相同业务键值的其他字段数据(包括时间戳),全部存入临时事实表。
5)本实施例中,合同-服务链接表Lnk_Cont-Serv没有次要附属表,所以临时事实表保持不变。
6)如图16所示,将临时事实表中的数据,存入对应的事实表。
7)重复本步骤,对多维模型的其他事实表加载数据。
S9:至此,已加载多维模型目标表中的全部数据。
本发明利用本体知识库和电网命名规则,借助函数依赖关系检测实体数据表内和表间的不一致数据,再按照电网业务特点,获得部分不一致数据修复值,也运用数据语义方法计算置信度确定修复值,最后,在不变更DV数据仓库的情况下,修改不一致数据,自动完成数据集市的加载。
本发明利用本体知识库和电网命名规则匹配数据表名和字段名语义,区分标杆附属表和次要附属表,再借助函数依赖检测DV附属表内和表间的不一致性,最后,按照电网业务特点,运用数据语义和贝叶斯网络方法计算其置信度,并确定修复值,实现了DV不一致数据管理方案。
本发明运用电网DV数据中的函数依赖关系方法,在不变更电网DV数据仓库的情况下,修复不一致数据;自动完成数据集市的加载,解决了高质量自动加载数据集市的技术问题。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于本体的电网数据集市自动数据加载方法,其特征在于,包括下述步骤:
构建电网DV数据仓库,采用中心点、链接、附属三类表分别保存电网业务实体、关系及其属性数据,作为来源表;
构建电网本体知识库,对多个同类附属表设定标杆附属表和次要附属表;
构建函数依赖表、数据语义置信度计算表和函数依赖修复表;
对函数依赖表中选定中心点的若干函数依赖表达式,查找中心点及其标杆附属表,对标杆附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表;
对函数依赖表中选定中心点的函数依赖表达式,查找对应次要附属表,对次要附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表;
对数据语义置信度计算表中的记录检测函数依赖的成立模式,计算数据语义置信度计算表中的数据置信度,并确定修复值,存入函数依赖修复表;
基于多维模型构建电网数据集市作为目标表,多维模型包括事实表和维度表;
对多维模型的维度表加载数据,对多维模型的事实表加载数据。
2.根据权利要求1所述的基于本体的电网数据集市自动数据加载方法,其特征在于,构建函数依赖表,具体表示为:
FD-List(FD_id,T_id,FD-Left,FD-Right,Conf-FD)
其中,FD_id表示函数依赖表达式的标识,T_id表示函数依赖所属的中心点表或链接表标识,FD-Left表示函数依赖表达式的左部名,FD-Right表示函数依赖表达式的右部名,Conf-FD表示函数依赖的数据置信度;
构建数据语义置信度计算表,具体表示为:
DS-Conf(DS_id,FD_id,Sat_id,Bus_key,DTS,FD-L,FD-R,Conf-L,Conf-R,Repair)
其中,DS_id表示该表顺序主键,FD_id表示函数依赖表达式的标识,Sat_id表示附属表标识,Bus_key表示业务键,DTS表示时间戳,FD-L表示函数依赖表达式左部值,FD-R表示函数依赖表达式右部值,Conf-L表示函数依赖表达式左部的数据置信度,Conf-R表示函数依赖表达式右部的数据置信度,Repair表示修复值;
构建函数依赖修复表,具体表示为:
FD-Repair(RP_id,FD_id,Sat_id,Bus_key,DTS,FD-L,FD-R,Repair),其中,RP_id表示该表顺序主键,FD_id表示函数依赖表达式的标识,Sat_id表示附属表标识,Bus_key表示业务键,DTS表示时间戳,FD-L表示函数依赖表达式左部值,FD-R表示函数依赖表达式右部值,Repair表示函数依赖表达式的修复值。
3.根据权利要求1所述的基于本体的电网数据集市自动数据加载方法,其特征在于,对函数依赖表中选定中心点的若干函数依赖表达式,查找对应的中心点及其附属表,对标杆附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表,具体步骤包括:
获取同类附属表;
以标杆附属表为主,基于电网本体知识库对次要附属表中的字段名进行匹配;
根据字段名匹配结果,针对附属表中函数依赖表达式左部和函数依赖表达式右部对应的字段值,检测全部数据记录是否满足函数依赖表达式;
基于电网本体知识库将标杆附属表中的最新修改数据判定为满足函数依赖表达式,不输出到数据语义置信度计算表,将标杆附属表中不符合函数依赖的数据字段输出到数据语义置信度计算表。
4.根据权利要求1所述的基于本体的电网数据集市自动数据加载方法,其特征在于,对标杆附属表检测函数依赖的成立模式,对于存在成立模式值数据的处理步骤包括:
如果存在一个函数依赖表达式左部值拥有相同函数依赖表达式右部值的记录数量大于不相同函数依赖表达式右部值的记录数量,则将该相同函数依赖表达式右部值作为成立模式值;
将不相同函数依赖表达式右部值的记录输出到函数依赖修复表,更新当前函数依赖修复表对应标识;
对于不存在成立模式值数据的处理步骤包括:
将全部不符合函数依赖的数据记录,输出到数据语义置信度计算表,更新数据语义置信度计算表对应标识。
5.根据权利要求1所述的基于本体的电网数据集市自动数据加载方法,其特征在于,所述对函数依赖表中选定中心点的函数依赖表达式,查找对应次要附属表,对次要附属表检测函数依赖的成立模式,将不符合函数依赖的数据字段输出到数据语义置信度计算表,具体步骤包括:
将次要附属表某业务键值与时间戳记录的函数依赖表达式左部值和函数依赖表达式右部值与标杆附属表中相应记录且符合函数依赖的对应字段值进行比较,若在函数依赖表达式左部值和函数依赖表达式右部值字段上,次要附属表与标杆附属表的字段值都是一致的,则判定次要附属表记录符合函数依赖;
对次要附属表检测函数依赖的成立模式,基于电网本体知识库将次要附属表中的最新修改数据判定为满足函数依赖表达式,不输出到数据语义置信度计算表,将次要附属表中不符合当前函数依赖的数据记录输出至数据语义置信度计算表。
6.根据权利要求5所述的基于本体的电网数据集市自动数据加载方法,其特征在于,将次要附属表某业务键值与时间戳记录的函数依赖表达式左部值和函数依赖表达式右部值与标杆附属表中相应记录且符合函数依赖的对应字段值进行比较;
若在函数依赖表达式左部值字段上,次要附属表与标杆附属表的字段值是一致的,但在函数依赖表达式右部值字段上,次要附属表与标杆附属表的字段值不一致,则将标杆附属表的函数依赖表达式右部字段值作为成立模式值,并输出到函数依赖修复表,更新函数依赖修复表对应标识;
若在函数依赖表达式左部值字段上,次要附属表与标杆附属表的字段值不一致,则该记录输出到数据语义置信度计算表。
7.根据权利要求1所述的基于本体的电网数据集市自动数据加载方法,其特征在于,计算数据语义置信度计算表中的数据置信度,并确定修复值,具体步骤包括:
利用本体知识库分别确定函数依赖左部、函数依赖右部的证据属性,按数据语义置信度计算表中的附属表标识,以及函数依赖表达式左部和函数依赖表达式右部的字段名,在电网本体知识库中分别查找标杆附属表或次要附属表左部和右部的决定属性,作为贝叶斯网络的父节点,
基于贝叶斯方法计算得到数据语义置信度计算表中的数据置信度;
根据数据置信度确定修复值。
8.根据权利要求7所述的基于本体的电网数据集市自动数据加载方法,其特征在于,基于贝叶斯方法计算得到数据语义置信度计算表中的数据置信度,具体步骤包括:
计算条件概率:根据贝叶斯网络的节点和父节点关系,计算各函数依赖表达式左部值l和函数依赖表达式右部值r出现的次数,按下列式子计算出条件概率:
计算函数依赖表达式左部值l和函数依赖表达式右部值r的数据置信度,并对进行归一化处理:具体表示为:
根据数据置信度确定修复值,具体包括:
当函数依赖表达式左部值相同,但函数依赖表达式右部值各不相同,选择Conf_R’(r)最大值对应的r值作为修复值置入函数依赖修复表,如果Conf_R’(r)值都相等,则选择Conf_L’(l)最大值的记录的r值作为修复值置入函数依赖修复表;
当函数依赖表达式左部值相同,每组有相等数量的函数依赖表达式右部值F,组内函数依赖表达式右部值相等但组间不等,则选择Conf_R’(r)组内累计最大值的r值作为修复值置入函数依赖修复表;如果Conf_R’(r)值组内累计最大值都相等,则选择Conf_L’(l)值组内累计最大值的记录的r值作为修复值置入函数依赖修复表。
9.根据权利要求1所述的基于本体的电网数据集市自动数据加载方法,其特征在于,对多维模型的维度表加载数据,具体步骤包括:
利用电网本体知识库和电网数据表命名规则,在目标表中查找客户维度表,确定客户维度表主键与客户中心点业务键名的匹配;
利用电网本体知识库和电网数据表命名规则,在来源表查找客户中心点及其附属表;
将中心点业务键值存入临时维度表;
将与客户维度表相关的标杆附属表数据存入临时维度表;
将与客户维度表相关的次要附属表数据存入临时维度表;
对临时维度表中的每个业务键值,保留一个最新时间戳的记录,删除其余记录;
基于函数依赖修复表,获得标杆附属表标识与函数依赖修复表中附属表标识相同的全部修复记录,获得次要附属表标识与函数依赖修复表中附属表标识相同的全部修复记录,修复临时维度表中的数据;
将临时维度表中的数据,写入对应的客户维度表,完成单个维度表的数据加载;
重复单个维度表的数据加载步骤,对多维模型的所有维度表建立临时维度表。
10.根据权利要求1所述的基于本体的电网数据集市自动数据加载方法,其特征在于,对多维模型的事实表加载数据,具体步骤包括:
利用电网本体知识库和电网数据表命名规则,在目标表中查找所要建立的事实表,确定该事实表的主键,以及构成事实表主键中的外键与中心点表业务键名的匹配;
利用电网本体知识库和电网数据表命名规则,确定该事实表对应的链接表,以及链接表下的若干同类附属表;
将该链接表中的业务键值存入临时事实表;
将该链接表的标杆附属表数据存入临时事实表;
将该链接表的次要附属表数据存入临时事实表;
将临时事实表中的数据,写入对应的事实表,时间戳写入事实表的日期维度值,完成单个事实表的数据加载;
重复单个事实表的数据加载步骤,对多维模型的所有事实表建立临时事实表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211303472.5A CN115544181A (zh) | 2022-10-24 | 2022-10-24 | 一种基于本体的电网数据集市自动数据加载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211303472.5A CN115544181A (zh) | 2022-10-24 | 2022-10-24 | 一种基于本体的电网数据集市自动数据加载方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115544181A true CN115544181A (zh) | 2022-12-30 |
Family
ID=84719475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211303472.5A Pending CN115544181A (zh) | 2022-10-24 | 2022-10-24 | 一种基于本体的电网数据集市自动数据加载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544181A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874009A (zh) * | 2024-03-13 | 2024-04-12 | 云筑信息科技(成都)有限公司 | 一种数仓模型创建和管理的系统 |
-
2022
- 2022-10-24 CN CN202211303472.5A patent/CN115544181A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874009A (zh) * | 2024-03-13 | 2024-04-12 | 云筑信息科技(成都)有限公司 | 一种数仓模型创建和管理的系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4856627B2 (ja) | 部分的クエリーキャッシング | |
US20140222793A1 (en) | System and Method for Automatically Importing, Refreshing, Maintaining, and Merging Contact Sets | |
CN111078780A (zh) | 一种ai优化数据治理的方法 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN103514223A (zh) | 一种数据仓库数据同步方法和系统 | |
CN111008521B (zh) | 生成宽表的方法、装置及计算机存储介质 | |
CN112256698B (zh) | 一种基于多哈希函数的表关系自动关联方法 | |
WO2023279684A1 (zh) | 一种基于命名规则和缓存机制的知识图谱构建的操作方法 | |
CN110674231A (zh) | 一种面向数据湖的用户id集成方法和系统 | |
CN101013426B (zh) | 信息管理装置以及信息管理方法 | |
US20080294673A1 (en) | Data transfer and storage based on meta-data | |
JP2006178848A (ja) | データベース・システム、データベース・システムのためのコンピュータ実行可能な方法、プログラムおよびデータベース・システムにおける索引テーブルをアップデートする方法 | |
CN113204335B (zh) | 面向协同建模的uml模型合并与一致性检测方法及系统 | |
CN115329011A (zh) | 数据模型的构建方法、数据查询的方法、装置及存储介质 | |
Glake et al. | Data management in multi-agent simulation systems | |
CN115544181A (zh) | 一种基于本体的电网数据集市自动数据加载方法 | |
CN111241293A (zh) | 一种基于学术文献构建的知识图谱算法 | |
CN114462894A (zh) | 一种基于数据分析的电商订单物料替换的辅助决策方法 | |
CN115391323A (zh) | 一种基于电网数据仓库的自动提取函数依赖方法 | |
CN111737529A (zh) | 一种多源异构数据采集方法 | |
CN115544178A (zh) | 一种基于电网dv数据仓库的自动生成多维模型方法 | |
Altın et al. | Analyzing The Encountered Problems and Possible Solutions of Converting Relational Databases to Graph Databases | |
CN116594795B (zh) | 面向数据中台的错误检测和修复方法 | |
CN118069701B (zh) | 反向查询链路的构建方法、装置、计算机设备及存储介质 | |
CN117472918B (zh) | 数据处理方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |