CN109101656B - 一种基于本体的关联数据质量评估方法 - Google Patents
一种基于本体的关联数据质量评估方法 Download PDFInfo
- Publication number
- CN109101656B CN109101656B CN201811004187.7A CN201811004187A CN109101656B CN 109101656 B CN109101656 B CN 109101656B CN 201811004187 A CN201811004187 A CN 201811004187A CN 109101656 B CN109101656 B CN 109101656B
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation
- associated data
- attribute
- ontology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims abstract description 83
- 238000013507 mapping Methods 0.000 claims abstract description 64
- 238000013178 mathematical model Methods 0.000 claims abstract description 17
- 238000011157 data evaluation Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 9
- 238000001303 quality assessment method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000007547 defect Effects 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 16
- 230000018109 developmental process Effects 0.000 description 16
- 238000011160 research Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 239000003208 petroleum Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005553 drilling Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及的是一种基于本体的关联数据质量评估方法,具体为:一、关联数据质量评估数学模型定义;二、进行LDQAM数学模型向本体模型的映射;三、约束规则与推理规则制定,在使用本体进行关联数据质量评估时,利用本体的约束规则和推理规则来进行数据筛选,从而进一步进行评估;四、关联书质量评估原型系统搭建,基于上述规则进行评估系统构建,为数据评估进行服务;五、进行数据评估服务,利用构建的原型系统进行数据评估,并验证系统的有效性。本发明结合关联数据以及数据质量技术,用于发现目前网络上已发布关联数据中有关完整性、语义有效性、语义一致性、语义准确性、可用性等维度方面的缺陷,并给出相应解决方案。
Description
技术领域
本发明涉及数据科学中的大数据数据质量评估技术,具体涉及一种基于本体的关联数据质量评估方法。
背景技术
随着网络逐步进入3.0时代,文档网络将逐渐被数据网络所取代,网络上的数据更加趋向于多样化、个性化和海量化。从网络获取数据不仅能满足用户对于数据多样化和个性化的需求,更为实现海量数据共享服务打下基础,特别是Tim Berners-Lee提出关联数据标准规范以后,该技术越来越受到人们关注,并且在世界范围得到了迅速的发展。关联数据作为语义网的最佳实践方式,可以根据不同数据之间,不同数据集的关系进行有规则的链接,使不同数据之间得到一种关联,从而使数据间建立了自然的“关系”。利用资源描述框架(RDF)作为关联数据的载体,使网络资源有了被计算机理解的可能。关联数据的发展为语义网的发展奠定基础,语义网也成为关联数据发展的主要动力。
语义网就是能够使计算机利用数据间语义进行智能的计算和判断,与Web3.0的智能化网络不谋而合。从而使关联数据成为网络数据共享交互的关键。关联数据的发布量也呈爆炸型增长,从2007年5月1号发布12个关联数据集到2018年6月28号,这个新兴的数据网络包含了1,205个关联数据集。然而,随着关联数据的不断发展,越来越多的问题也呈现出来:关联数据是由不同的企事业单位和个人发布的,不同关联数据发布单位在地域、文化、语言等方面有着较大差异,导致关联数据在发布时所使用的的标准不同;或者待发布的数据源中的数据本身就存在质量问题;或者在发布过程中,进行数据映射与转换过程中也会存在一些问题;或者不同数据集之间链接的不稳定,而导致了不同的关联数据集之间存在一些数据质量问题。关联数据质量就指是在网络上共享的关联数据能够满足特定用户的期望的程度或者是可用程度。关联数据质量的评估标准以Tim Berners-Lee提出的“关联数据四原则”、“关联数据五星标准”、“绿色关联数据”为基础,从关联数据内容、关联数据描述、关联数据系统和关联数据应用四个方面进行评估。网上发布的关联数据集已经涵盖了多种领域,如媒体、地理、生命科学和政府等。但是,我们可以看到网络上的数据质量存在很大差异。例如,从半结构化来源提取的数据通常出现信息不一致性和不完整性问题。随着关联数据的发展和使用,关联数据质量逐渐得到了人们的关注。影响关联数据质量的因素有很多,有的是因为链接URI有效性问题;有的是在发布之前没有对语义的有效性、一致性、准确性以及句法的准确性等方面进行检测;还有一些是因为数据自身问题。关联数据的质量问题为关联数据使用及语义网的发展都带来了巨大的挑战。国外针对关联数据质量已经有了一定的研究,最早可以追溯到2003年Golbeck等对于“Trust Networks”的研究,虽然当时关联数据这一概念还没有被提出,但是“Trust Networks”的研究已经属于关联数据质量的研究范畴了。2010年在Data Engineering Workshops会议上提出了《Profiling linkedopen data with ProLOD》方法,标志着关联数据质量的研究进入新的时代,随后关联数据质量研究与应用成为了热点问题,随着关联数据质量的研究与发展,已经有一些针对关联数据质量问题的评估工具投入使用。但是目前已有的关联数据质量评估工具相对整个关联数据评估维度来说都较为片面。例如,RDFStats就是针对可理解性和相关性两个维度进行评估;RDFAlerts就是针对可用性、语义有效性、语义一致性三个维度进行评估[7];TripleCheckMate能够对互联性、安全性等近十个维度进行评估,但是相对于能够影响关联数据质量的190多个细致维度来说都相对片面;,目前已经有一些工具能够进行关联数据质量评估,在对目前主流的工具进行介绍和对比发现目前的评估工具都在不同方面存在一些不足,而且现有的评估工具也都不具有扩展性,易操作性,导致关联数据质量评估工具并不能为我们提供良好的评估服务。因此发明提出一种易扩展且易用性高的关联数据质量评估模型来解决这些问题。
发明内容
本发明的目的是提供一种基于本体的关联数据质量评估方法,这种基于本体的关联数据质量评估方法用于解决目前的评估方法存在关联数据质量缺乏统一的检测与评估模型的问题。
本发明解决其技术问题所采用的技术方案是:这种基于本体的关联数据质量评估方法:
步骤一:进行关联数据质量评估数学模型定义
关联数据质量通过多个质量维度进行描述,包括链接有效性、语义关联性、句法准确性、数据实体准确性,通过对这些数据质量维度的评估达到对关联数据的数据质量评估的目的;
LDQAM评估的数学模型定义:
定义1:任何关联数据质量评估都形式化为一个七元组:
Spvard<DOM,S,P,V,A,R,D>
其中,
Dom-领域,评估的关联数据隶属的领域;
S-关联数据集,
P-关联数据的属性集,
V-关联数据的数据集实例,即属性值,
A-关联数据评估中用到的算法集,
D-关联数据评估维度,
R-关联数据评估规则集;
定义2:关联数据集:关联数据中的所有实体都有一个唯一的URI,通过网络上的Http协议用URI定位并找到相应数据,根据关联数据共享权限,实例集用URI和所属数据领域进行描述:
S=<URI,Dom>
其中URI表示的是关联数据集中各个实例的链接的集合,Dom标识的是该关联数据集所属的领域;
定义3:关联数据的属性集:关联数据中的数据能够形成关联的必要因素就是属性,这些属性的集合即为关联数据的属性集,不同的实例只有通过属性的链接才能形成相应的关联性:
P=<Predicates,Type>
其中Predicates表示的属性的集合,Type表示属性的类型,即对象属性和数据属性;
定义4:关联数据的数据项:关联数据的作用是将数据关联在一起,数据项是关联数据中属性值的集合:
V=<Value,Weight>
其中Value表示的属性的集合,Weight表示属性的在评估中的权重,
定义5:关联数据评估算法集:由评估算法所构成的集合;
A={algi|Define(algi),1≤i≤n}
其中Define(algi)是对评估算法的定义;
定义6:规则集合:每个评估维度所包含规则的集合,描述如下:
R=<DIMi,Ruleij>,
其中的i=1,2,……,n,j=1,2,....,m,在同一个维度可以有多个规则。
Ruleij表示在维度i上的第j个规则;
步骤二:进行LDQAM数学模型向本体模型的映射
将本体形式化为五元组O=<C,R,F,A,I,>,其中C-类,R-关系,F-函数,A-公理,I-实例,根据给出的LDQAM的数学模型,从关联数据质量通用模型到本体模式的映射规则如下:
1:关联数据集到本体实例的映射;
2:维度到本体类的映射;
3:属性集到本体属性的映射;
4:规则集到公理的映射;
5:数据集到属性实例的映射;
6:算法集到本体类的映射。
映射规则如下:
(1)关联数集S的映射
关联数据集是指需要进行评估的数据集链接的集合;关联数据集到本体实例的映射主要是对本体类实例进行映射,映射过程如下:
其中,IUname表示以链接命名的本体实例;
(2)维度到本体类的映射
维度集是指评估维度的集合,通常映射成本体中的类,映射过程如下:
其中,Cdim表示以维度名字命名的本体类;
(3)属性集到本体属性的映射
属性集即实体属性的集合,关联数据属性映射成本体属性,映射过程如下:
其中,Property有分为DataProperty和ElementProperty两种,具体分类原则是根据predicate后面所接的Value值所决定的,当Value为另一对象是Property为ElementProperty,否则为DataProperty;
(4)数据集到属性实例
实例集是指数据集记录实例的集合,映射成本体类的实例或本体属性实例,映射过程如下:
(5)算法集到本体类的映射
算法集是数据质量评估算法的集合,映射成以算法名称命名的本体类,映射过程如下:
规则集中包含的是与评估维度相对应的规则,对于选定评估维度的数据集,制定评估维度对应的评估规则;在规则集中,规则分为数据项约束规则、类约束规则和语义约束规则;根据制定的映射规则,将关联数据质量数学模型转化为本体;
步骤三:约束规则与推理规则制定
关联数据质量评估约束规则
每个关联数据质量问题都件建立在数据的属性、属性值上面,属性分为数据属性和对象属性;关联数据质量评估约束规则通过对相应的属性和属性值进行分析,然后制定相应的约束规则;
关联数据推理规则
选择基于关联数据质量本体的SWRL规则推理,解决效率低问题,实现自动化功能,通过SWRL规则实现了关联数据属性与关联数据质量约束规则之间关系的推理,关联数据质量约束规则与任务之间的推理,通过推理结果实现关联数据质量约束规则与任务名称之间关系推理;
规则1:如果存在URI X,如果一个链接含有Http前缀Y,当一个实例同时存在上述条件,则该实例可被访问。【TestedClass(?x)∧URIPrefix(?y)→AvailableURI(?x,?y)】
规则2:根据关联数据URI的特点,制定数据集与数据集属性之间的关系,如果数据集X存在必要属性HasURI Z,数据集属性Y存在必要属性HasURI A,并且A是以Z作为前缀,那么数据集属性Y是数据集X的属性;
【TestedClass(?x)∧TestedProperty(?y)∧hasURI(?x,?z)∧hasURI(?y,?a)∧swrlb:startsWith(?a,?z)→hasProperties(?x,?y)】;
步骤四:关联书质量评估原型系统搭建:
验证本体描述的关联数据质量约束规则,并依据质量约束规则实施对数据集中的某个属性的质量检测;
步骤五:进行数据评估服务
(1)确定评估领域,对必须的领域特有规则进行添加;
(2)根据相关数据集URI进行数据遍历,获取该关联数据集中所有实例的URI,并验证关联数据质量中链接有效性、可用性;
(3)根据遍历得到的URI集进行关联数据属性的评估,对于数据项相关方面进行评估;
(4)将利用相关规则评估得到的问题数据进行提取和存储,并给出最终评估结果;
(5)分析用户对评估结果的满意度,对方法的相关设定进行调整,即用户反馈再生产模式,最终得到标准评估方法及评估结果,便于进行数据清洗。
本发明具有以下有益效果:
1、通过本发明提供的评估方法,可以灵活的选定评估维度,可以选择对单一维度指标进行关联数据质量评估,也可以同时对多个维度的关联数据质量进行评估。
2、通过本发明提供的评估方法,可以人性化的对评估标准进行阈值设定,结合国际关联数据质量标准,可以适用于不同规模的数据质量评估。
3、通过本发明提供的评估方法,可以对关联数据中的完整性、语义有效性、语义一致性、语义准确性、可用性等维度进行评估,并返回的评估结果,可有效筛选问题数据。
4、通过本方法利用本体具有的关系描述特性,可以通过本体对本体进行属性约束和推理,进而达到对实体数据的约束和推理。
具体实施方式
下面对本发明作进一步的说明:
这种基于本体的关联数据质量评估方法:
步骤一:进行关联数据质量评估数学模型定义
关联数据质量问题是在传统的数据质量问题基础之上增加了关联性,关联数据质量可以通过多个质量维度进行描述,包括链接有效性、语义关联性、句法准确性、数据实体准确性等,通过对这些数据质量维度的评估达到对关联数据的数据质量评估的目的。
下面给出LDQAM评估的数学模型定义:
定义1:任何关联数据质量评估都可以形式化为一个七元组:
Spvard<DOM,S,P,V,A,R,D>
其中,
Dom-领域(Domain),评估的关联数据隶属的领域,例如政府数据、科学数据、石油数据等。
S-关联数据集(Subject),
P-关联数据的属性集(Predicates),
V-关联数据的数据集实例。即属性值(Value),
A-关联数据评估中用到的算法集(Algorithm),
D-关联数据评估维度(Dimension),
R-关联数据评估规则集(Rule)。
定义2:关联数据集:关联数据中的所有实体都有一个唯一的URI,通过网络上的Http协议可用URI定位并找到相应数据。根据关联数据共享权限,实例集可以用URI和所属数据领域进行描述:
S=<URI,Dom>
其中URI表示的是关联数据集中各个实例的链接的集合,Dom标识的是该关联数据集所属的领域。
定义3:关联数据的属性集:关联数据中的数据能够形成关联的必要因素就是属性(即谓语),这些属性的集合即为关联数据的属性集,不同的实例只有通过属性的链接才能形成相应的关联性:
P=<Predicates,Type>
其中Predicates表示的属性的集合,Type表示属性的类型,即对象属性和数据属性。
定义4:关联数据的数据项:关联数据的作用是将数据关联(Linking)在一起,数据项是关联数据中属性值的集合:
V=<Value,Weight>
其中Value表示的属性的集合,Weight表示属性的在评估中的权重,
定义5:关联数据评估算法集:由评估算法所构成的集合。
A={algi|Define(algi),1≤i≤n}
其中Define(algi)是对评估算法的定义。
定义6:规则集合(Rule):每个评估维度所包含规则的集合,描述如下:
R=<DIMi,Ruleij>,
其中的i=1,2,……,n,j=1,2,....,m,在同一个维度可以有多个规则。
Ruleij表示在维度i上的第j个规则。
步骤二:进行LDQAM数学模型向本体模型的映射
将本体形式化为五元组O=<C,R,F,A,I,>,其中C-类,R-关系,F-函数,A-公理,I-实例。根据给出的LDQAM的数学模型,从关联数据质量通用模型到本体模式的映射规则如下:
1:关联数据集到本体实例的映射;
2:维度到本体类的映射;
3:属性集到本体属性的映射;
4:规则集到公理的映射;
5:数据集到属性实例的映射;
6:算法集到本体类的映射。
具体的映射规则如下:
(1)关联数集S的映射
关联数据集是指需要进行评估的数据集链接的集合。关联数据集到本体实例的映射主要是对本体类实例进行映射,映射过程如下:
其中,IUname表示以链接命名的本体实例。
(2)维度到本体类的映射
维度集是指评估维度的集合,通常映射成本体中的类,映射过程如下:
其中,Cdim表示以维度名字命名的本体类。
(3)属性集到本体属性的映射
属性集即实体属性的集合,关联数据属性映射成本体属性,映射过程如下:
其中,Property有分为DataProperty和ElementProperty两种,具体分类原则是根据predicate后面所接的Value值所决定的,即当Value为另一对象是Property为ElementProperty(对象属性),否则为DataProperty(数据属性)。
(4)数据集到属性实例
实例集是指数据集记录实例的集合,映射成本体类的实例或本体属性实例,映射过程如下:
(5)算法集到本体类的映射
算法集是数据质量评估算法的集合,映射成以算法名称命名的本体类,映射过程如下:
规则集中包含的是与评估维度相对应的规则,对于选定评估维度的数据集,制定评估维度对应的评估规则。在规则集中,规则分为数据项约束规则、类约束规则和语义约束规则等。有些约束规则可直接用OWL约束来实现,另外一些约束规则映射成本体公理或函数。根据制定的映射规则,将关联数据质量数学模型转化为本体。
步骤三:约束规则与推理规则制定
关联数据质量评估约束规则
每个关联数据质量问题都件建立在数据的属性、属性值上面,属性分为数据属性和对象属性。关联数据质量评估约束规则通过对相应的属性和属性值进行分析,然后制定相应的约束规则。提出关联数据质量约束规则的定义以及在本体中的具体描述。其具体说明如下表所示。
关联数据推理规则
推理是为了在已知的关联数据质量管理知识中,推理出隐含的知识,例如传统的数据质量管理中对于数据质量约束规则的描述主要采用元数据技术,有些也将规则直接用SQL规则库来描述等,但是在开发数据质量管理系统时,一般需要获取任务名称后,然后循环判断是否符合任务名称,这样就需要多次访问数据库。有时则可能需要通过间接关系才能找到需要的信息,可能消耗更多的时间才能实现需要的功能,因此本文选择了基于关联数据质量本体的SWRL规则推理,解决效率低问题,不仅如此,还能实现自动化功能。通过SWRL规则实现了关联数据属性与关联数据质量约束规则之间关系的推理,关联数据质量约束规则与任务之间的推理,通过推理结果实现关联数据质量约束规则与任务名称之间关系推理等,下面举例说明推理规则。
规则1:如果存在URI X,如果一个链接含有Http前缀Y,当一个实例同时存在上述条件,则该实例可被访问。【TestedClass(?x)∧URIPrefix(?y)→AvailableURI(?x,?y)】
规则2:根据关联数据URI的特点,制定数据集与数据集属性之间的关系,如果数据集X存在必要属性HasURI Z,数据集属性Y存在必要属性HasURIA,并且A是以Z作为前缀,那么数据集属性Y是数据集X的属性。
【TestedClass(?x)∧TestedProperty(?y)∧hasURI(?x,?z)∧hasURI(?y,?a)∧swrlb:startsWith(?a,?z)→hasProperties(?x,?y)】
步骤四:关联书质量评估原型系统搭建
为验证本体描述的关联数据质量约束规则,并依据质量约束规则实施对数据集中的某个属性的质量检测,下面以石油领域的油田开发生产数据为实例,验证关联数据质量本体构建的合理性以及推理规则的有效性,并利用推理的结果进行关联数据质量问题的检测与评估。目前,油田开发生产数据存储在Oralce10g中,其中主要以钻井地质信息表(DAA02)、射孔数据表(DAA09)等数据表为例,表中主要有待评估字段JH(井号)、完井日期(WJRQ)等十余个字段。
原型系统开发环境
实验环境为一台联想Lenovo Product启天CPU/8G/64位/Win7台式计算机,原型系统是基于java语言进行开发,调用Jena API对OWL和RDF文件进行访问,利用D2R对目标数据进行关联发布,下表为原型系统开发主要环境。
油田开发生产数据发布
本文利用D2R-Server实现油田开发数据的关联发布,将存储在Oralce10g中的油田开发生产数据利用D2R生成关联数据所需的映射文件(该映射文件用于进行关系数据和关联数据之间的映射转换)。最后利用D2R进行关联数据发布,实现油田开发数据的动态发布。这里生成的URI主要是表示实例和实例间的关系,为下文的关联数据评估做准备。
步骤五:进行数据评估服务
1:确定评估领域,对必须的领域特有规则进行添加。
2:根据相关数据集URI进行数据遍历,获取该关联数据集中所有实例的URI,并验证关联数据质量中链接有效性、可用性等
3:根据遍历得到的URI集进行关联数据属性的评估,对于数据项相关方面进行评估。
4:将利用相关规则评估得到的问题数据进行提取和存储,并给出最终评估结果。
5:分析用户对评估结果的满意度,对方法的相关设定进行调整,即用户反馈再生产模式。最终得到标准评估方法及评估结果,便于进行数据清洗。
在此用一评估实例对此方法进行验证:
S1:为验证本体描述的关联数据质量约束规则,并依据质量约束规则实施对数据集中的某个属性的质量检测,下面以石油领域的油田开发生产数据为实例,验证关联数据质量本体构建的合理性以及推理规则的有效性,并利用推理的结果进行关联数据质量问题的检测与评估。目前,油田开发生产数据存储在Oralce 10g中,其中主要以钻井地质信息表(DAA02)、射孔数据表(DAA09)等数据表为例,表中主要有待评估字段JH(井号)、完井日期(WJRQ)等十余个字段。并将该数据集发布成关联数据以供评估使用。
S2:根据给定的油田开发关联数据的URI,对整个数据集进行URI遍历,并通过下面的公式对URI进行有效性评估:
其中FURIs是错误关联数据的集合,F(x)是关联数据URI的评估函数。利用上述函数将关联数据集中的错误URI筛选出来,并将其转储,最后显示给用户。
S3:利用本体对于语义的描述以及其对于属性约束的特性,根据本体中的规则对关联数据集进行相关的数据项以及语义相关信息进行评估,并且对相关的属性进行推理,挖掘有关的隐含信息。并对其做出合理评估。
S4:为了将评估结果和错误数据提供给用户,以供用户进行相关的决策和评断,我们在评估中会将有问题的数据(包括URI,属性和属性值)存储到临时数据文件中,并在最后为用户提供可视化的错误数据呈现。
S5:对于所有由系统筛选的错误数据,用户都可以进行查看,并对结果做出相应的评价,系统将对用户的回馈反应进行相关的调整。提高评估的准确度,为数据清洗提供精准的数据保障。
本发明是对于网络上发布的关联数据进行数据质量评估,针对关联数据质量缺乏统一的检测与评估模型的问题,提出了关联数据质量评估模型LDQAM(Linked DataQuality Assessment Model),该模型集数据质量规则表示、数据质量维度和评价指标等诸多因素于一体,以关联数据集中的三元组为原子,利用本体实现对关联数据的各种规则等的建模,通过推理实现对数据集中特定属性约束规则的发现,最后使用评估算法将规则和数据建立联系,从而实现对关联数据数据质量的有效检查与评估,其输出结果为后续的数据清洗提供依据。本方法是结合关联数据以及数据质量技术包括关联数据四原则和关联数据五星标准,用于发现目前网络上已发布关联数据中有关完整性、语义有效性、语义一致性、语义准确性、可用性等维度方面的缺陷,并给出了相应解决方案。
Claims (1)
1.一种基于本体的关联数据质量评估方法,其特征在于包括如下步骤:
步骤一:进行关联数据质量评估数学模型定义;
关联数据质量通过多个质量维度进行描述,包括链接有效性、语义关联性、句法准确性、数据实体准确性,通过对这些数据质量维度的评估达到对关联数据的数据质量评估的目的;
关联数据质量评估模型LDQAM评估的数学模型定义:
定义1:任何关联数据质量评估都形式化为一个七元组:
Spvard<Dom,S,P,V,A,R,D>
其中,
Dom-领域,评估的关联数据隶属的领域;
S-关联数据集,
P-关联数据的属性集,
V-关联数据的数据集实例,即属性值,
A-关联数据评估中用到的算法集,
D-关联数据评估维度,
R-关联数据评估规则集;
定义2:关联数据集:关联数据中的所有实体都有一个唯一的URI,通过网络上的Http协议用URI定位并找到相应数据,根据关联数据共享权限,实例集用URI和所属数据领域进行描述:
S=<URI,Dom>
其中URI表示的是关联数据集中各个实例的链接的集合,Dom标识的是该关联数据集所属的领域;
定义3:关联数据的属性集:关联数据中的数据能够形成关联的必要因素就是属性,这些属性的集合即为关联数据的属性集,不同的实例只有通过属性的链接才能形成相应的关联性:
P=<Predicates,Type>
其中Predicates表示的属性的集合,Type表示属性的类型,即对象属性和数据属性;
定义4:关联数据的数据项:关联数据的作用是将数据关联在一起,数据项是关联数据中属性值的集合:
V=<Value,Weight>
其中Value表示的属性的集合,Weight表示属性的在评估中的权重,
定义5:关联数据评估算法集:由评估算法所构成的集合;
A={algi|Define(algi),1≤i≤n}
其中Define(algi)是对评估算法的定义;
定义6:规则集合:每个评估维度所包含规则的集合,描述如下:
R=<DIMi,Ruleij>,
其中的i=1,2,……,n,j=1,2,....,m,在同一个维度有多个规则,
Ruleij表示在维度i上的第j个规则;
步骤二:进行LDQAM数学模型向本体模型的映射;
将本体形式化为五元组O=<C,R,F,A,I,>,其中C-类,R-关系,F-函数,A-公理,I-实例,根据给出的LDQAM的数学模型,从关联数据质量通用模型到本体模式的映射规则如下:
1:关联数据集到本体实例的映射;
2:维度到本体类的映射;
3:属性集到本体属性的映射;
4:规则集到公理的映射;
5:数据集到属性实例的映射;
6:算法集到本体类的映射;
映射规则如下:
(1)关联数集S的映射;
关联数据集是指需要进行评估的数据集链接的集合;关联数据集到本体实例的映射是对本体类实例进行映射,映射过程如下:
其中,IUname表示以链接命名的本体实例;
(2)维度到本体类的映射;
维度集是指评估维度的集合,映射成本体中的类,映射过程如下:
其中,Cdim表示以维度名字命名的本体类;
(3)属性集到本体属性的映射;
属性集即实体属性的集合,关联数据属性映射成本体属性,映射过程如下:
其中,Property有分为DataProperty和ElementProperty两种,具体分类原则是根据predicate后面所接的Value值所决定的,当Value值为对象时,Property为ElementProperty,否则为DataProperty;
(4)数据集到属性实例;
实例集是指数据集,记录实例的集合,映射成本体类的实例或本体属性实例,映射过程如下:
(5)算法集到本体类的映射;
算法集是数据质量评估算法的集合,映射成以算法名称命名的本体类,映射过程如下:
规则集中包含的是与评估维度相对应的规则,对于选定评估维度的数据集,制定评估维度对应的评估规则;在规则集中,规则分为数据项约束规则、类约束规则和语义约束规则;根据制定的映射规则,将关联数据质量数学模型转化为本体;
步骤三:约束规则与推理规则制定;
关联数据质量评估约束规则;
每个关联数据质量问题都建立在数据的属性、属性值上面,属性分为数据属性和对象属性;关联数据质量评估约束规则通过对相应的属性和属性值进行分析,然后制定相应的约束规则;
关联数据推理规则:
选择基于关联数据质量本体的SWRL规则推理,通过SWRL规则实现了关联数据属性与关联数据质量约束规则之间关系的推理,关联数据质量约束规则与任务之间的推理,通过推理结果实现关联数据质量约束规则与任务名称之间关系推理;
规则1:如果存在URI X,如果一个链接含有Http前缀Y,当一个实例同时存在上述条件,则该实例可被访问,【TestedClass(?x)∧URIPrefix(?y)→AvailableURI(?x,?y)】;
规则2:根据关联数据URI的特点,制定数据集与数据集属性之间的关系,如果数据集X存在必要属性HasURI Z,数据集属性Y存在必要属性HasURI A,并且A是以Z作为前缀,那么数据集属性Y是数据集X的属性;
【TestedClass(?x)∧TestedProperty(?y)∧hasURI(?x,?z)∧hasURI(?y,?a)∧swrlb:startsWith(?a,?z)→hasProperties(?x,?y)】;
步骤四:关联数据质量评估原型系统搭建:
验证本体描述的关联数据质量约束规则,并依据质量约束规则实施对数据集中的任一属性的质量检测;
步骤五:进行数据评估服务;
(1)确定评估领域,对必须的领域特有规则进行添加;
(2)根据相关数据集URI进行数据遍历,获取该关联数据集中所有实例的URI,并验证关联数据质量中链接有效性、可用性;
(3)根据遍历得到的URI集进行关联数据属性的评估,对于数据项相关方面进行评估;
(4)将利用相关规则评估得到的问题数据进行提取和存储,并给出最终评估结果;
(5)分析用户对评估结果的满意度,对方法的设定进行调整,即用户反馈再生产模式,最终得到标准评估方法及评估结果,便于进行数据清洗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811004187.7A CN109101656B (zh) | 2018-08-30 | 2018-08-30 | 一种基于本体的关联数据质量评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811004187.7A CN109101656B (zh) | 2018-08-30 | 2018-08-30 | 一种基于本体的关联数据质量评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109101656A CN109101656A (zh) | 2018-12-28 |
CN109101656B true CN109101656B (zh) | 2021-05-25 |
Family
ID=64864384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811004187.7A Active CN109101656B (zh) | 2018-08-30 | 2018-08-30 | 一种基于本体的关联数据质量评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109101656B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990585B (zh) * | 2019-11-29 | 2024-01-30 | 上海勘察设计研究院(集团)股份有限公司 | 构建行业知识图谱的多源数据和时间序列处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916272A (zh) * | 2010-08-10 | 2010-12-15 | 南京信息工程大学 | 用于深层网数据集成的数据源选择方法 |
WO2012122122A1 (en) * | 2011-03-07 | 2012-09-13 | Health Fidelity, Inc. | Systems and methods for processing patient history data |
CN106354799A (zh) * | 2016-08-26 | 2017-01-25 | 河海大学 | 基于数据质量的主题数据集多层分面过滤方法与系统 |
CN106844718A (zh) * | 2017-02-08 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 数据集合的确定方法和装置 |
-
2018
- 2018-08-30 CN CN201811004187.7A patent/CN109101656B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916272A (zh) * | 2010-08-10 | 2010-12-15 | 南京信息工程大学 | 用于深层网数据集成的数据源选择方法 |
WO2012122122A1 (en) * | 2011-03-07 | 2012-09-13 | Health Fidelity, Inc. | Systems and methods for processing patient history data |
CN106354799A (zh) * | 2016-08-26 | 2017-01-25 | 河海大学 | 基于数据质量的主题数据集多层分面过滤方法与系统 |
CN106844718A (zh) * | 2017-02-08 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 数据集合的确定方法和装置 |
Non-Patent Citations (5)
Title |
---|
Towards Ontology-based Data Quality Inference in Large-scale Sensor Networks;Sam Esswein,etal;《2012 12th IEEE/ACM International Symposium on Cluster,Cloud and Grid Computing》;20120614;全文 * |
基于Neo4j的海量石油领域本体数据存储研究;宫法明等;《计算机科学》;20180630;全文 * |
基于语义标注的数据资源库元数据质量自动评估方法研究;郭晓明等;《计算机应用与软件》;20180630;全文 * |
数据质量约束规则的本体描述及推理研究;袁满等;《吉林大学学报(信息科学版)》;20171130;全文 * |
通用数据质量评估模型及本体实现;张晓冉,袁满;《计算机研究与发展》;20180630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109101656A (zh) | 2018-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Franklin et al. | From databases to dataspaces: a new abstraction for information management | |
Lanti et al. | The NPD Benchmark: Reality Check for OBDA Systems. | |
Pernelle et al. | An automatic key discovery approach for data linking | |
Purohit et al. | Semantic property graph for scalable knowledge graph analytics | |
Debattista et al. | Linked'Big'Data: towards a manifold increase in big data value and veracity | |
Novikov et al. | Querying big data | |
Myroshnichenko et al. | Mapping ER schemas to OWL ontologies | |
Li | Data profiling for semantic web data | |
Hu et al. | A Virtual Dataspaces Model for large-scale materials scientific data access | |
CN109101656B (zh) | 一种基于本体的关联数据质量评估方法 | |
Mai et al. | Support and centrality: Learning weights for knowledge graph embedding models | |
Wang et al. | An ontology-based approach for marine geochemical data interoperation | |
Tzompanaki et al. | Reasoning based on property propagation on CIDOC-CRM and CRMdig based repositories. | |
Pandey et al. | Research collaboration and authorship pattern in the field of semantic digital libraries | |
Wang et al. | [Retracted] Construction and Knowledge Mining of Traditional Chinese Medicine Ancient Books Bibliographic Abstracts Database Based on Genetic Algorithm and BP Neural Network | |
Devezas et al. | Characterizing the hypergraph-of-entity and the structural impact of its extensions | |
Wang et al. | Summarizing personal dataspace based on user interests | |
Naik et al. | DESIGN AND DEVELOPMENT OF SIMULATION TOOL FOR TESTING SEO COMPLIANCE OF A WEB PAGE-A CASE STUDY. | |
Zhang | Design and implementation of university asset management system based on discriminant analysis and decision tree model | |
Tyer et al. | Automatic metadata capture and grid computing | |
Wilcke et al. | D16. 3: final report on data mining | |
Sellami et al. | Leveraging enterprise knowledge graphs for efficient bridging between business data with large-scale web data | |
Gertz et al. | Integrating scientific data through external, concept-based annotations | |
Leclercq et al. | Investigating a multi-paradigm system for the management of archaeological data: Corpus Lapidum Burgundiae | |
Chen et al. | Analysis and modeling of the semantically associated network on the Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231008 Address after: 163319 High tech Zone Technology Incubator Phase I Project No. 1 Incubator 7-401402 in Daqing City, Heilongjiang Province Patentee after: Heilongjiang Xinmeida Electronic Technology Development Co.,Ltd. Address before: 163319 No. 99 Xuefu Street, Daqing Hi-tech Development Zone, Heilongjiang Province Patentee before: NORTHEAST PETROLEUM University |