CN116467278A - 一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法 - Google Patents
一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法 Download PDFInfo
- Publication number
- CN116467278A CN116467278A CN202310057057.4A CN202310057057A CN116467278A CN 116467278 A CN116467278 A CN 116467278A CN 202310057057 A CN202310057057 A CN 202310057057A CN 116467278 A CN116467278 A CN 116467278A
- Authority
- CN
- China
- Prior art keywords
- rdf
- temporal
- attribute
- tetrad
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002123 temporal effect Effects 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008030 elimination Effects 0.000 title claims abstract description 15
- 238000003379 elimination reaction Methods 0.000 title claims abstract description 15
- 238000013499 data model Methods 0.000 claims abstract description 22
- 238000013461 design Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 11
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000003252 repetitive effect Effects 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004883 computer application Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其包括以下步骤:步骤1、构建时态RDF四元组数据模型,将时态信息作为RDF三元组扩展的新增元组,将三元组扩展为蕴含时态信息的四元组模型,并对扩展后的时态RDF四元组数据模型进行定义;步骤2、采用面向文档的非关系型MongoDB数据库对时态RDF四元组实例数据进行存储;步骤3、对存储在MongoDB数据库中文本形式的时态RDF四元组数据使用基于加权的设计算法查找出重复度较高的实例属性,对这些冗余实例属性在已经构建出的本体库中进行消除。本发明所设计基于RDF四元组的查询模型用于具有时态特性的资源时效果较为显著,同时解决了由重复性实例属性造成的本体多义性问题。
Description
技术领域
本发明属于时态数据模型构建与数据语义处理技术相结合的领域,具体是一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法。
背景技术
由于现代计算机应用的快速发展与普及,越来越多不同年龄的用户人群和不同领域的社会组织广泛地参与到互联网世界的活动之中,由此而带来的数据容量巨大化、数据格式多样化、数据内容丰富化等特点。而这些数据往往又与时间属性有着千丝万缕的联系。
正是由于应用系统所展示的数据信息都随着时间的更迭而不断变化,在当前大数据、人工智能等技术背景下,挖掘出数据随时间的变化规律变得十分具有意义。由此,基于传统领域的时态数据挖掘技术逐渐得到学术界和工程界的广泛关注和研究。但是,对时间属性数据进行一系列的操作与分析之前,首先需要对现有的数据进行时态建模,为数据添加时态信息的标签,这样能够更好地服务基于时间的数据挖掘技术。
从文档版本管理研究的角度出发,时态模型也提供了一种行之有效的管理方案。而计算机应用系统的逐渐大型化和复杂化也导致了管理系统不断产生的文档版本变得更加繁琐。而目前大多数应用系统采用文档快照或者基于变化内容的方式进行文档的版本管理,但是都存在数据冗余度过大或历史版本恢复性能低下等缺点。时态模型的数据可以根据不同时间查找到文档对象的不同版本,能够综合有效地解决数据冗余度问题和提升历史版本的恢复性能。
而伴随着语义Web和知识工程的发展,资源描述框架(Resource DescriptionFramework,RDF)在数据和知识的表示和处理方面形成了更加系统和全面的技术体系结构,成为知识表示的主要形式之一。基于RDF在数据和知识表示方面的优势,近年来有许多研究者提出使用RDF进行时态数据表示和管理。使用RDF数据模型表示时态数据可以保证时态数据语义的准确和灵活描述,也有助于实现时态数据在物联网场景各种应用中的共享。
另一方面,伴随着语义Web的快速发展,以RDF格式描述的资源数据增多,而现在的RDF存储管理系统已经无法适应RDF数据的高速增长,尤其是在满足大数据存储、高性能查询和低增加修改等需求时更加困难。在开放式环境下构建和维护本体系统时,会出现本体多义性的问题,由于不同的组织或人员对于同一领域的本体库知识实例进行维护或添加时可能会出现重复描述实例的问题,也就是同一对象的不同描述实例可能存在相互矛盾的情况,出现多义性。
本发明的目的在于提供一种面向MongoDB存的时态RDF四元组模型及冗余属性消除方法,针对股票、天气、新闻等具有时间特性的资源时效果较为显著,实现了对时间敏感数据的精确描述,同时解决了本体库知识实例中由于重复性实例属性而造成的本体多义性问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,构建时态RDF四元组数据模型,然后,将时态RDF四元组模型的数据存储到非关系型MongoDB数据库中,最后使用一种基于加权的方法实现对重复性实例属性的查找。本发明所设计模型用于具有时态特性的资源时效果较为显著,同时解决了由重复性实例属性造成的本体多义性问题。本发明的技术方案如下:
一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其包括以下步骤:
步骤1、构建时态RDF四元组数据模型,将时态信息作为RDF三元组扩展的新增元组,将三元组扩展为蕴含时态信息的四元组模型,并对扩展后的时态RDF四元组数据模型进行定义;
步骤2、采用面向文档的非关系型MongoDB数据库对时态RDF四元组实例数据进行存储;
步骤3、对存储在MongoDB数据库中文本形式的时态RDF四元组数据使用基于加权的设计算法查找出重复度较高的实例属性,对这些冗余实例属性在已经构建出的本体库中进行消除。
进一步的,所述步骤1中,时态RDF四元组模型的构建为RDF三元组扩展时态信息的方式构建时态RDF四元组,具体步骤如下:
(1):在多种时态表示方法中选取时态表示方式,确定以时间点和时间间隔作为时间戳来表示时态信息,时间区间即表示对象在该时间区间开始到该时间区间终点为止都是有效的;时间戳,即表示某对象在该时间点上存在有效;
(2):对数据的时态信息进行提取,时态信息可分为三种,有效性时间、事务性时间和用户自定义时间,选取有效性时间,即数据模型中描述历史、现在甚至未来随时间变化的有效性状态信息作为新增元组对三元组进行扩展,以时间戳和数据更新次数作为时态信息构成四元组;
(3):对添加的时态信息的RDF四元组模型进行概念定义,给出样例进行说明,并给出时态RDF图的时间点和时间区间表述形式。
进一步的,所述步骤1时态RDF(资源描述框架,一种用于描述Web资源的标记语言)四元组模型构建当中的资源描述框架RDF和RDF词汇描述语言RDF Schema是W3C(万维网联盟,又称W3C理事会)提出的描述Web上信息资源的标准语言,描述了RDF模型的类之间的语义关系,采用唯一确定URI来标识语义Web上的资源,并用属性和属性值来描述资源;RDF的基本结构是由包含节点的边和图进行组成的;两个节点和一条边组成一个三元组,即以主语-谓语-宾语(s,p,o)的陈述形式,也可以表示理解为资源、属性、值的概念关系;通过主语、谓语、宾语的语法形式把属性,属性值和资源联系起来,形成一个完整的资源描述;其中主语描述的是事物的资源,谓语对应的是描述属性标识的资源,宾语是属性的值,为资源或者字面量;当宾语为资源的时候,所表述的是资源与资源之间的关系,如果是字面量则为对资源属性的描述,即为对资源属性以及属性值的声明,并把这种声明称为陈述。
进一步的,所述时态RDF四元组数据模型的表示语法如下:
时间点表示:(s,p,o,[t]-n),t∈T,n∈N.
时间区间表示:(s,p,o,[ts,te]-n),ts,te∈T&ts≤te,n∈N.
在时态RDF四元组模型中(s,p,o)是上述提到的标准RDF三元组主语-谓语-宾语的表述形式;
[t]-n或[ts,te]-n是时态RDF四元组的时态信息部分,且时间信息左右两端均为闭区间。t,ts和te的数据类型为xsd:date,T={[ts,te]|xsd:date}为时域。值得注意的是时间点信息用[t]表示,时间区间信息用[ts,te]表示,当ts=te时,时间区间(s,p,o,[ts,te]-n)等价于时间点(s,p,o,[t]-n),其中t=ts=te;
[t]-n或[ts,te]-n中的n表示更新计数信息,即这个时态RDF四元组更新了n次,n的默认值为1;n的变化是基于事物性时间的变化,即数据在数据库中真实存在的时间,最大的n代表这个时态RDF四元组最新的历史记录,以更新计数n为基础,通过对查询结果集进行排序,可以快速找到四元组的变更记录,并可以在需要时创建事物对数据进行回滚;当1-n中的任意数字m(1≤m≤n)不包含在查询的结果集中,则说明更新次数为m的三元组被删除。
进一步的,所述步骤2中采用面向文档的MongoDB数据库对构建后的时态RDF四元组数据实例以文本形式进行存储及管理,具体步骤如下:
(1):构建MongoDB集合作为类似数据库中的表,创建时态RDF四元组集合;
(2):使用Jena通过分解规则将时态RDF四元组的信息分别存入相应的集合中;
(3):采用RDFS语法作为索引为主要的集合建立索引。
进一步的,所述使用Jena通过分解规则将时态RDF四元组的信息分别存入相应的集合中,Jena是语义网研究的开源工具,是一个是基于JAVA的语义网应用框架,其主要结构可分为三层:Graph Layer(视图层)、EnhGraph Layer(视图加强层)、Model Layer(模型层),使用Jena工具可以实现RDF(资源描述框架)和XML(可标记扩展语言)的解析,Jena设有表示图(Graph)、资源(Resource)、属性(Property)和文本(Literal)的对象类,通过这些类提供的方法实现对RDF四元组信息的分解处理,同时Jena工具也可用于RDF(资源描述框架)数据的查询;
采用RDFS(资源描述框架模式语法作为索引为主要的集合建立索引,RDFS是RDF的元语言,也是对RDF的一种扩展。RDFS中的语句表示也是三元组格式,将RDF资源以分组的形式分成各个类别,并声明子类(subClassOf)、属性(property)、子属性(subPropertyOf)以及属性的域(domain)和范围(range)。
进一步的,所述步骤3中对存储在MongoDB的时态RDF四元组模型数据使用基于加权的方式设计算法查找出重复较高的实例属性,可对这些冗余属性进行消除,具体步骤如下:
(1):定义时态RDF四元组实例数据的属性的出现频率,并对计算公式进行说明;
(2):定义时态RDF四元组实例数据的属性重复度,并对计算公式进行说明;
(3):对属性值的比较使用字符串相似度比较法Humming Distance方法;
(4):综合考虑以上三个因素作为查找依据对重复度较高实例属性进行查找,并可再找出这些冗余实例属性后在本体库中对其进行消除。
进一步的,所述步骤3的步骤具体如下:定义G为实例集合G={g1,g2,...,gq},M表示属性集合M={m1,m2,...,mn},T表示时态信息属性T={t1,t2,...,tn},属性集合对应信息出现频率为ω={ω1,ω2,...,ωn}(0≤ω≤1,0≤i≤n).其中ωi为属性mi伴随时态信息属性ti的出现频率,计算公式如下
2.属性集合M={m1,m2,...,mn},时态信息属性集合T={t1,t2,...,tn},对应的重复值重复度的集合为V={v1,v2,...,vn},属性重复度vi(0≤i≤1)的计算公式如下:
3.对属性值的比较使用字符串相似度方法Humming Distance,设字符串为a和b,则它们的相似度为:
4.最后综合考虑上述三点因素,如有任意两个实例g1和g2分别在字符串a和b内,g1≠g2且g1,g2属于G,且M1,M2分别为g1和g2的属性集合,则g1和g2的相似度计算方法为
Sim(g1,g2)=ωi×vi×Sim(a,b)
5.对于相似度较高,重复度较高的冗余实例属性在已经构建好的本体库中进行消除。
本发明的优点及有益效果如下:
(1)在步骤1中所述的提供了一种基于时态RDF四元组的数据模型,能够挖掘数据中的时态信息,对于如股票、天气、新闻等具有时态特性的资源时提供更高效的查询模型,实现对蕴含时态信息数据的精确描述。
(2)在步骤2中所述采用非关系性MongoDB数据库对构建的时态RDF四元组数据进行高效存储及管理。传统的关系型数据库更注重于事物的处理,在查询速度及扩展性上也较为劣势。在处理大量Web资源数据且事务性要求较低的环境下,MongoDB数据库作为面向文档的NOSQL数据库,更便于进行后续重复性实例属性的比较和查找,并且在数据存储和查询方面也更加高效。
(3)在步骤3中所述采用加权的方法给出比较策略和对比公式,通过这种基于字符串比较的方式找出重复性实例属性,一定程度上解决了由于不同组织或者人员在构建或维护同一领域本体时而导致的本体多义性问题。
(4)在步骤1中提出的时态RDF四元组数据模型也为RDF查询语言SPARQL提供了更多查询优化的思路,在面对不同类型的资源时,选用合适的数据模型,能够以最小代价、最高准确率的执行计划进行查询。
(5)现有的数据查询方案基本都是直接基于数据库的,少数会对数据进行操作,本发明基于RDF对数据模型进行操作为将来语义互操作工作打下坚定基础。
附图说明
图1是本发明提供优选实施例时间点表示的时态RDF四元组模型图。
图2是时间点表示的时态RDF四元组模型。
图3是基于MongoDB的时态RDF四元组存储模式。
图4是本发明提供的总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图4所示,一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,包括以下步骤:
1:构建时态RDF四元组数据模型,将时态信息作为RDF三元组扩展的新增元组,将三元组扩展为蕴含时态信息的四元组模型,并对扩展后的时态RDF四元组数据模型进行定义。
2:采用面向文档的非关系型MongoDB数据库对时态RDF四元组实例数据进行存储,以此实现对时态RDF四元组数据实例的有效管理。
3:对存储在MongoDB数据库中文本形式的时态RDF四元组数据使用基于加权的方法设计算法查找出重复度较高的实例属性,可对这些冗余实例属性在已经构建出的本体库中进行消除。
进一步,步骤1中,所述时态RDF四元组模型的构建为RDF三元组扩展时态信息的方式构建时态RDF四元组,具体步骤如下:
(1):在多种时态表示方法中选取合适的时态表示方式,确定以时间点和时间间隔作为时间戳来表示时态信息,时间区间即表示对象在该时间区间开始到该时间区间终点为止都是有效的。时间戳,即表示某对象在该时间点上存在有效性。
(2):对数据的时态信息进行提取,时态信息可分为三种,有效性时间、事务性时间和用户自定义时间,本发明选取有效性时间,即数据模型中描述历史、现在甚至未来随时间变化的有效性状态信息作为新增元组对三元组进行扩展,以时间戳和数据更新次数作为时态信息构成四元组。
(3):对添加的时态信息的RDF四元组模型进行概念定义,给出样例进行说明,并给出时态RDF图的时间点和时间区间表述形式。
进一步,步骤2中所述采用面向文档的MongoDB数据库对构建后的时态RDF四元组数据实例以文本形式进行有效的存储及管理具体步骤如下:
(1):构建MongoDB集合作为类似数据库中的表,创建时态RDF四元组集合。
(2):使用Jena通过分解规则将时态RDF四元组的信息分别存入相应的集合中。
(3):采用RDFS语法作为索引为主要的集合建立索引,以提高查询的效率。
进一步,步骤3中所述对存储在MongoDB的时态RDF四元组模型数据使用基于加权的方式设计算法查找出重复较高的实例属性,可对这些冗余属性进行消除,具体步骤如下:
(1):定义时态RDF四元组实例数据的属性的出现频率,并对计算公式进行说明。
(2):定义时态RDF四元组实例数据的属性重复度,并对计算公式进行说明。
(3):值得说明的是,本发明主要是基于文本相似性来查找冗余实例数据的,故对属性值的比较我们使用字符串相似度比较法Humming Distance方法。
(4):综合考虑以上三个因素作为查找依据对重复度较高实例属性进行查找,并可再找出这些冗余实例属性后在本体库中对其进行消除。
本发明为一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,在其步骤1时态RDF四元组模型构建当中的资源描述框架RDF和RDF词汇描述语言RDF Schema是W3C(World Wide Web Consirtium)提出的描述Web上信息资源的标准语言,描述了RDF模型的类之间的语义关系,采用唯一确定URI来标识语义Web上的资源,并用属性和属性值来描述资源。RDF的基本结构是由包含节点的边和图进行组成的。两个节点和一条边组成一个三元组,即以主语-谓语-宾语(s,p,o)的陈述形式,也可以表示理解为资源、属性、值的概念关系。通过主语、谓语、宾语的语法形式把属性,属性值和资源联系起来,形成一个完整的资源描述。其中主语描述的是事物的资源,谓语对应的是描述属性标识的资源,宾语是属性的值,可以为资源或者字面量。当宾语为资源的时候,所表述的是资源与资源之间的关系,如果是字面量则为对资源属性的描述,即为对资源属性以及属性值的声明,并把这种声明称为陈述。
本发明将时间信息以及更新计数信息作为新增元组加入传统RDF三元组内构成时态RDF四元组的表示形式从而描述蕴含时间信息的资源,具体如下所述,为了用时间信息和更新统计次数信息表示时态数据,本发明的基本思想是在保留RDF三元的基本形式的前提下,将时间信息和更新计数信息作为新增元组,即时态信息,将传统RDF三元组扩展为蕴含时态信息的四元组表述形式,即构成四元组(s,p,o,[t]-n)的表述形式。
在时态信息的表示选择上,本发明采用有效性时间作为时间信息t,即描述数据模型中历史、现在甚至未来随时间变化的有效性状态信息的时间作为本发明的时间信息。值得说明的是有效性时间可以是时间点,也可以是时间区间,时间区间是表示数据在该时间区间开始直到该时间区间结束之间都是有效的。时间区间的边界值有开始时间点ts和结束时间点te表示。与此同时,为了能够进一步描述时态信息,也为了能够在数据库中查询到数据的历史版本以及当数据存在误更新等原因时能够进行版本回滚,本发明添加了一个更新技术信息n。具体时态RDF四元组数据模型的表示语法如下:
时间点表示:(s,p,o,[t]-n),t∈T,n∈N.
时间区间表示:(s,p,o,[ts,te]-n),ts,te∈T&ts≤te,n∈N.
在时态RDF四元组模型中(s,p,o)是上述提到的标准RDF三元组主语-谓语-宾语的表述形式。
[t]-n或[ts,te]-n是时态RDF四元组的时态信息部分,且时间信息左右两端均为闭区间。t,ts和te的数据类型为xsd:date,T={[ts,te]|xsd:date}为时域。值得注意的是时间点信息用[t]表示,时间区间信息用[ts,te]表示,当ts=te时,时间区间(s,p,o,[ts,te]-n)等价于时间点(s,p,o,[t]-n),其中t=ts=te。
[t]-n或[ts,te]-n中的n表示更新计数信息,即这个时态RDF四元组更新了n次,n的默认值为1。n的变化是基于事物性时间的变化,即数据在数据库中真实存在的时间,最大的n代表这个时态RDF四元组最新的历史记录,以更新计数n为基础,通过对查询结果集进行排序,可以快速找到四元组的变更记录,并可以在需要时创建事物对数据进行回滚。特别需要说明的是当1-n中的任意数字m(1≤m≤n)不包含在查询的结果集中,则说明更新次数为m的三元组被删除。
为了更好的理解这个模型,在这里简单给出一个时态RDF四元组模型的实例。
Example:代表学生李雷的个人信息的时态RDF四元组模型数据样例
@prefix rdf:<http:www.w3.org/19999/2/22-rdf-syntax-ns#>.
@prefix rdfs:<htttp://www.w3.org/2000/01/rdf-schema#>.
@prefix xsd:<http://www.w3.org/2001/XMLSchema#>.
<LiLei><Name>"LiLei″.
<LiLei><hasBirthCity>"ChongQing″[2000-01-01]-1.
<LiLei><Study_In>″CQUPT″[2018-09-01,2019-07-01]-1.
<LiLei><study_In>″CQUPT″[2019-09-01,2020-07-01]-2.
<LiLei><study_In>″CQUPT″[2020-09-01,2021-07-01]-3.
<LiLei><Study_In>"CQUPT″[2021-09-01,2022-07-01]-4.
<LiLei><Credit_Hour>″20"[2019-07-01]-1.
<LiLei><Credit_Hour>″45"[2020-07-01]-2.
<LiLei><Credit_Hour>″76"[2020-07-01]-3.
<LiLei><Credit_Hour>″100"[2020-07-01]-4.
以上展示了一个数据实例,包括一名学生的个人信息,包括出生信息,入学时间信息和每学年开始已修学分,时间采用该以天为最小单位。从以上所述可以看出该模型不仅可以表示时态信息,还可以表示随时间变化的更新计数信息。
此外本发明还在基于RDF的词汇表中定义了一些新的符合时态RDF四元组模型的几个属性:
rdft:hasTime代表时间信息采用时间点的方式。
rdft:hasStartTime代表时间信息采用时间区间的方式,且存在开始时间。
rdft:hasEndTime代表时间信息采用时间区间的方式,且存在结束时间。
rdft:hasUpdateNum代表时态RDF四元组更新计数信息。
时间点作为时间信息d(s,p,o,[t]-n)的语法描述形式
?statement rdf:type rdf:Statement.
?statement rdf:sub ject s.
?statement rdf:predicate p.
?statement rdf:ob ject o.
?dare rdft:hasTime t.
?date rdft:hasUpdateNum n.
时间区间作为时间信息d(s,p,o,[ts,te]-n)的语法描述形式
?statement rdf:type rdf:Statement.
?statement rdf:sub ject s.
?statement rdf:predicate p.
?statement rdf:ob ject o.
?date rdft:hasStartTime ts.
?date rdft:hasEndTime te.
?date rdft:hasUpdateNum n.
基于上述所给出两个的时态RDF四元组模型数据样例以及新定义的RDF词汇表属性,在此进行样例描述,第一个四元组表示学生李雷2000-01-01出生于重庆,第二个四元组表示他所读学校是重庆邮电大学在2021-09-01和2022-07-01之间。
<LiLei><hasBirthCity>"ChongQing"[2000-01-01]-1.
<LiLei><Study_In>"CQUPT"[2021-09-01,2022-07-01]-4.
rdf:type rdf:Statement.
rdf:sub ject<LiLei>.
rdf:predicate<hasBirthCity>.
rdf:ob ject"ChongQing".
?date rdf:type rdf:Property.
?date rdft:hasTime"2000-01-01″^^xsd:date.
?date rdft:hasUpdateNum″1"^^xsd:integer.
rdf:sub ject<LiLei>.
rdf:predicate<Study_In>.
rdf:object″CQUPT".
?date rdf:type rdf:Property.
?date rdft:hasStartTime"2021-09-01″^^xsd:dare.
?date rdft:hasEndTime"2022-07-01″^^xsd:date.
?date rdft:hasUpdateNum″4″^^xsd:integer。
与传统RDF模型类似,每个时态RDF四元组可表示为一个时态RDF图,S和P和0分别表示主语谓语和宾语,T表示新增元组即时态信息,根据时间点和时间区间分别如图1和图2表示。
在其步骤2中所述采用面向文档的非关系型MongoDB数据库存储并管理构建后的时态RDF四元组数据实例具体实施方式如下。
使用XML语言按照RDF的规范数据需要使用本体库进行存储,在数据量高速增长的环境下,这将是一个十分巨大的文件,直接对这些数据文件进行操作效率是很低的,此时选用合适的数据库是非常重要的。在处理大量数据时,普遍对于事物的要求是很低的,所以在对时态RDF四元组模型构建完成后,在众多的数据库中,本发明选用基于NOSQL的面向文档的MongoDB数据库作为时态RDF四元组的存储数据库。MongoDB数据库的数据都是通过文档的形式进行存储的,所以其高访问读取速度的优点非常适用于此环境。
解析工具选用通常的Jena进行解析,将解析后的属性值以字符串的形式存储到MongoDB数据库中。下面是MongoDB数据库存储的模式设计,存储模式图如图3所示。
MongoDB上的数据都是以文档的形式来进行存储的,MongoDB中的文档即与关系型数据库中的行为等价关系,集合则相当于关系型数据库中的表。具体步骤如下:
1.创建一个一个名为t-rdf的数据库。
2.创建t-RDF和t-RDFS集合。
3.使用Jena通过分解规则将时态RDF四元组的元组信息分别存入响应的集合中。
4.值得说明的是,在MongoDB数据库中的索引顺序是非常重要的,任意的打乱或重排序都有可能会影响到查找的效率。
在其步骤3中对存储在MongoDB数据库中的时态RDF四元组数据使用基于加权的方式设计算法查找出重复度较高的实例属性并进行消除,具体实施方式如下。
本体是一定领域的公共词汇表的集合,可以采用不同程度的形式化表示,通过本体界定了领域中术语的含义及其之间的关系。在本体的构建过程中会使用很多用相关领域的信息来描述该领域,这种构建过程在多人构建情况下彼此之间并无交互,也没有数据的共享。在这种情况下的本体概念的定义就会出现一些定义不明确或者对相同对象的理解互不一致造成的语义多重性的不一致问题。
为了解决上述的语义多重性问题,本发明涉及了一种基于加权的方式来查找重复度较高的实例属性,并可将其在构建好的本体库中进行消除。通过对RDF定义可以得知,RDF是用三元组的形式进行描述的,在一个本体库中的URI是唯一的,他标记着所描述对象的唯一性,本发明提出的基于RDF时态数据模型与此相同也通过唯一的URI对资源进行描述,所以可以通过相同的URI来查找等价的实例。
在RDF描述资源的定义中,所有的概念、属性都是同等重要的。但是在实际应用中,用户通常会根据自己的需求对某些属性添加或者减少使用,本发明通过基于加权的方式通过文本的相似性区别这些属性的重要程度,并识别出重复度较高的实例属性。
1.定义G为实例集合G={g1,g2,...,gq},M表示属性集合M={m1,m2,...,mn},T表示时态信息属性T={t1,t2,...,tn},属性集合对应信息出现频率为ω={ω1,ω2,...,ωn}(0≤ω≤1,0≤i≤n).其中ωi为属性mi伴随时态信息属性ti的出现频率。计算公式如下
2.属性集合M={m1,m2,...,mn},时态信息属性集合T={t1,t2,...,tn},对应的重复值重复度的集合为V={v1,v2,...,vn}。属性重复度vi(0≤i≤1)的计算公式如下:
3.对属性值的比较本发明使用字符串相似度方法Humming Distance,设字符串为a和b,则它们的相似度为:
4.最后综合考虑上述三点因素,如有任意两个实例g1和g2分别在字符串a和b内,g1≠g2且g1,g2属于G,且M1,M2分别为g1和g2的属性集合,则g1和g2的相似度计算方法为
Sim(g1,g2)=ωi×vi×Sim(a,b)
5.对于相似度较高,重复度较高的冗余实例属性在已经构建好的本体库中进行消除。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (8)
1.一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,包括以下步骤:
步骤1、构建时态RDF四元组数据模型,将时态信息作为RDF三元组扩展的新增元组,将三元组扩展为蕴含时态信息的四元组模型,并对扩展后的时态RDF四元组数据模型进行定义;
步骤2、采用面向文档的非关系型MongoDB数据库对时态RDF四元组实例数据进行存储;
步骤3、对存储在MongoDB数据库中文本形式的时态RDF四元组数据使用基于加权的设计算法查找出重复度较高的实例属性,对这些冗余实例属性在已经构建出的本体库中进行消除。
2.根据权利要求1所述的一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,所述步骤1中,时态RDF四元组模型的构建为RDF三元组扩展时态信息的方式构建时态RDF四元组,具体步骤如下:
(1):在多种时态表示方法中选取时态表示方式,确定以时间点和时间间隔作为时间戳来表示时态信息,时间区间即表示对象在该时间区间开始到该时间区间终点为止都是有效的;时间戳,即表示某对象在该时间点上存在有效;
(2):对数据的时态信息进行提取,时态信息可分为三种,有效性时间、事务性时间和用户自定义时间,选取有效性时间,即数据模型中描述历史、现在甚至未来随时间变化的有效性状态信息作为新增元组对三元组进行扩展,以时间戳和数据更新次数作为时态信息构成四元组;
(3):对添加的时态信息的RDF四元组模型进行概念定义,给出样例进行说明,并给出时态RDF图的时间点和时间区间表述形式。
3.根据权利要求2所述的一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,所述步骤1时态RDF资源描述框架四元组模型构建当中的资源描述框架RDF和RDF词汇描述语言RDF Schema是W3C万维网联盟提出的描述Web上信息资源的标准语言,描述了RDF模型的类之间的语义关系,采用唯一确定URI来标识语义Web上的资源,并用属性和属性值来描述资源;RDF的基本结构是由包含节点的边和图进行组成的;两个节点和一条边组成一个三元组,即以主语-谓语-宾语(s,p,o)的陈述形式,也可以表示理解为资源、属性、值的概念关系;通过主语、谓语、宾语的语法形式把属性,属性值和资源联系起来,形成一个完整的资源描述;其中主语描述的是事物的资源,谓语对应的是描述属性标识的资源,宾语是属性的值,为资源或者字面量;当宾语为资源的时候,所表述的是资源与资源之间的关系,如果是字面量则为对资源属性的描述,即为对资源属性以及属性值的声明,并把这种声明称为陈述。
4.根据权利要求3所述的一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,所述时态RDF四元组数据模型的表示语法如下:
时间点表示:(s,p,o,[t]-n),t∈T,n∈N.
时间区间表示:(s,p,o,[ts,te]-n),ts,te∈T&ts≤te,n∈N.
在时态RDF四元组模型中(s,p,o)是上述提到的标准RDF三元组主语-谓语-宾语的表述形式;
[t]-n或[ts,te]-n是时态RDF四元组的时态信息部分,且时间信息左右两端均为闭区间。t,ts和te的数据类型为xsd:date,T={[ts,te]|xsd:date}为时域。值得注意的是时间点信息用[t]表示,时间区间信息用[ts,te]表示,当ts=te时,时间区间(s,p,o,[ts,te]-n)等价于时间点(s,p,o,[t]-n),其中t=ts=te;
[t]-n或[ts,te]-n中的n表示更新计数信息,即这个时态RDF四元组更新了n次,n的默认值为1;n的变化是基于事物性时间的变化,即数据在数据库中真实存在的时间,最大的n代表这个时态RDF四元组最新的历史记录,以更新计数n为基础,通过对查询结果集进行排序,可以快速找到四元组的变更记录,并可以在需要时创建事物对数据进行回滚;当1-n中的任意数字m(1≤m≤n)不包含在查询的结果集中,则说明更新次数为m的三元组被删除。
5.根据权利要求3所述的一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,所述步骤2中采用面向文档的MongoDB数据库对构建后的时态RDF四元组数据实例以文本形式进行存储及管理,具体步骤如下:
(1):构建MongoDB集合作为类似数据库中的表,创建时态RDF四元组集合;
(2):使用Jena通过分解规则将时态RDF四元组的信息分别存入相应的集合中;
(3):采用RDFS语法作为索引为主要的集合建立索引。
6.根据权利要求5所述的一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,所述使用Jena通过分解规则将时态RDF四元组的信息分别存入相应的集合中,Jena是语义网研究的开源工具,是一个是基于JAVA的语义网应用框架,其主要结构可分为三层:Graph Layer(视图层)、EnhGraph Layer(视图加强层)、Model Layer(模型层),使用Jena工具可以实现RDF(资源描述框架)和XML(可标记扩展语言)的解析,Jena设有表示图(Graph)、资源(Resource)、属性(Property)和文本(Literal)的对象类,通过这些类提供的方法实现对RDF四元组信息的分解处理,同时Jena工具也可用于RDF(资源描述框架)数据的查询;
采用RDFS(资源描述框架模式语法作为索引为主要的集合建立索引,RDFS是RDF的元语言,也是对RDF的一种扩展。RDFS中的语句表示也是三元组格式,将RDF资源以分组的形式分成各个类别,并声明子类(subClassOf)、属性(property)、子属性(subPropertyOf)以及属性的域(domain)和范围(range)。
7.根据权利要求5所述的一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,所述步骤3中对存储在MongoDB的时态RDF四元组模型数据使用基于加权的方式设计算法查找出重复较高的实例属性,可对这些冗余属性进行消除,具体步骤如下:
(1):定义时态RDF四元组实例数据的属性的出现频率,并对计算公式进行说明;
(2):定义时态RDF四元组实例数据的属性重复度,并对计算公式进行说明;
(3):对属性值的比较使用字符串相似度比较法Humming Distance方法;
(4):综合考虑以上三个因素作为查找依据对重复度较高实例属性进行查找,并可再找出这些冗余实例属性后在本体库中对其进行消除。
8.根据权利要求7所述的一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法,其特征在于,所述步骤3的步骤具体如下:定义G为实例集合G={g1,g2,...,gq},M表示属性集合M={m1,m2,...,mn},T表示时态信息属性T={t1,t2,...,tn},属性集合对应信息出现频率为ω={ω1,ω2,...,ωn}(0≤ω≤1,0≤i≤n).其中ωi为属性mi伴随时态信息属性ti的出现频率,计算公式如下
属性集合M={m1,m2,...,mn},时态信息属性集合T={t1,t2,...,tn},对应的重复值重复度的集合为V={v1,v2,...,vn},属性重复度vi(0≤i≤1)的计算公式如下:
对属性值的比较使用字符串相似度方法Humming Distance,设字符串为a和b,则它们的相似度为:
最后综合考虑上述三点因素,如有任意两个实例g1和g2分别在字符串a和b内,g1≠g2且g1,g2属于G,且M1,M2分别为g1和g2的属性集合,则g1和g2的相似度计算方法为
Sim(g1,g2)=ωi×vi×Sim(a,b);
对于相似度较高,重复度较高的冗余实例属性在已经构建好的本体库中进行消除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310057057.4A CN116467278A (zh) | 2023-01-13 | 2023-01-13 | 一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310057057.4A CN116467278A (zh) | 2023-01-13 | 2023-01-13 | 一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467278A true CN116467278A (zh) | 2023-07-21 |
Family
ID=87177669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310057057.4A Pending CN116467278A (zh) | 2023-01-13 | 2023-01-13 | 一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467278A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076581A (zh) * | 2023-10-12 | 2023-11-17 | 之江实验室 | 用于非关系型数据库的数据设置方法和存储介质 |
-
2023
- 2023-01-13 CN CN202310057057.4A patent/CN116467278A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076581A (zh) * | 2023-10-12 | 2023-11-17 | 之江实验室 | 用于非关系型数据库的数据设置方法和存储介质 |
CN117076581B (zh) * | 2023-10-12 | 2024-03-19 | 之江实验室 | 用于非关系型数据库的数据设置方法和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goasdoué et al. | RDF graph summarization for first-sight structure discovery | |
Hotho et al. | BibSonomy: A social bookmark and publication sharing system | |
Zhang et al. | Temporal data representation and querying based on RDF | |
Liu et al. | Answering Structured Queries on Unstructured Data. | |
CN101393565A (zh) | 基于本体的面向虚拟博物馆的搜索方法 | |
CN113239111B (zh) | 一种基于知识图谱的网络舆情可视化分析方法及系统 | |
US20240061831A1 (en) | Generating Object Morphisms During Object Search | |
CN116108194A (zh) | 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备 | |
Zaniolo et al. | User-friendly temporal queries on historical knowledge bases | |
CN116467278A (zh) | 一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法 | |
Álvarez-García et al. | Compact and efficient representation of general graph databases | |
Gunaratna et al. | Alignment and dataset identification of linked data in semantic web | |
Wen et al. | KAT: Keywords-to-SPARQL translation over RDF graphs | |
Liu et al. | PAIRPQ: an efficient path index for regular path queries on knowledge graphs | |
Li et al. | Answering why-not questions on top-k augmented spatial keyword queries | |
CN114691845B (zh) | 语义搜索方法、装置、电子设备、存储介质及产品 | |
Kettouch et al. | Using semantic similarity for schema matching of semi-structured and linked data | |
Lu et al. | Language engineering for the Semantic Web: A digital library for endangered languages | |
Ahmed et al. | Web to Semantic Web & Role of Ontology | |
Sartori et al. | Entity-based keyword search in web documents | |
Gayathri et al. | Semantic search on summarized RDF triples | |
Haw et al. | Transforming data-centric eXtensible markup language into relational databases using hybrid approach | |
Suganya et al. | XML query-answering support system using association mining technique | |
US20240354318A1 (en) | System and method for searching tree based organizational hierarchies, including topic hierarchies, and generating and presenting search interfaces for same | |
EP4086782A1 (en) | Visualization data reuse in a data analysis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |