CN106777372A - 一种基于语义网本体的蜂流器数据导流和数据转化方法 - Google Patents

一种基于语义网本体的蜂流器数据导流和数据转化方法 Download PDF

Info

Publication number
CN106777372A
CN106777372A CN201710061645.XA CN201710061645A CN106777372A CN 106777372 A CN106777372 A CN 106777372A CN 201710061645 A CN201710061645 A CN 201710061645A CN 106777372 A CN106777372 A CN 106777372A
Authority
CN
China
Prior art keywords
data
rdf
owl
field
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710061645.XA
Other languages
English (en)
Other versions
CN106777372B (zh
Inventor
王东升
陈涛
刘金贵
田野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semantic (shanghai) Mdt Infotech Ltd
Original Assignee
Semantic (shanghai) Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semantic (shanghai) Mdt Infotech Ltd filed Critical Semantic (shanghai) Mdt Infotech Ltd
Priority to CN201710061645.XA priority Critical patent/CN106777372B/zh
Publication of CN106777372A publication Critical patent/CN106777372A/zh
Application granted granted Critical
Publication of CN106777372B publication Critical patent/CN106777372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义网本体的蜂流器数据导流和数据转化方法,包括:1)初始化数据源,根据选择的数据源类型,加载不同数据源数据的驱动链接,并以可视化的页面方式展示,得到包括表和数据字段信息的数据表;2)选择所述数据表中可以公开的表和数据字段;3)根据步骤2)中选择的表和数据字段生成OWL/RDF映射文件,所述OWL/RDF映射文件记录了公开的表和字段;4)依据所述OWL/RDF映射文件转化数据源中的每一行实例数据,依照OWL/RDF里描述的概念和属性关系,对应生成RDF实例数据和OWL本体文件;5)将所述转换生成的RDF实例数据和OWL本体文件加密和授权传输至云存储语义数据库。

Description

一种基于语义网本体的蜂流器数据导流和数据转化方法
技术领域
本发明属于计算机数据库领域,更具体而言涉及数据导流和数据转化。
背景技术
在大数据、数据挖掘或相关领域,研究人员一般通过爬虫程序爬取网页数据,但由于数据格式多种多样,很难有效得到大量高质量、且准确的数据;并且数据时效性不高,更新和管理这些数据需花费大量的时间和资金成本。再者说,即使有的数据提供者提供了API接口或者可以直接获取数据(如通过购买方式),但由于大多数的企事业单位或政府部门的数据源并没有提供统一的数据管理方式,因此想要得到更广泛的实时数据仍然非常困难。
语义网及其本体技术是一种标准化的、分布式的机器可读的数据模式。该技术可以快速有效地将分布在不同地区、不同源头、不同形式的多个数据融合到一起,成为一个语义层面链接的整体。它不仅支持一般性查询,同时也支持带有推理的查询,更具有特色的是还可以融入基于本体数据的一阶逻辑推理。在语义网的背景下,关联数据(Linked Data)是用来发布和链接各类数据、信息和知识的一套规范和准则,是语义网的最佳实践方法,其最大特点是可以在不同数据源之间建立语义链接,对不同资源进行整合。
然而,本领域中缺少一种方法,用来以统一的、自动化的方式直接对接不同种类的数据源(如Oracle、Mysql、PostgreSQL、Sql server、XML、CSV、Excel等),并将其转化成统一的数据格式(RDF),同时过滤隐私数据,最终将RDF数据传送到第三方数据库平台。
发明内容
本发明旨在直接对接各类数据源,并通过一定机制(格式转化、过滤隐私数据等)引导到第三方数据库的一体化数据引流程序。本发明提供了一种基于原始数据的点对点本体转化方法,所述方法包括将被对接的原始数据以及被选择的开放字段转化为RDF格式,并且通过点对点的对接、单线链接和加密机制,传输到第三方数据库,形成在传输之前格式上已被统一、隐私上已被过滤、内容上已被加密的统一数据。
因此,本发明提供了一种集成化的数据导流方法,所述配置方法和工作原理包括以下步骤:
1)初始化数据源,根据选择的数据源类型,加载不同数据源数据(静态归档文件数据和动态数据库数据)的驱动链接;对于静态归档文件数据,可以采用线下进行数据字段的控制;对于动态数据库数据,则可以以可视化的页面方式展示,得到包括表和数据字段信息的数据表;
2)选择步骤1)获得的数据表中可以公开的表和数据字段,优选所述数据表上提供可点击选择的快捷方式,对可以开放的表和数据字段进行筛选,并优选所述数据表上提供输入过滤条件,例如age>20等;
3)根据步骤2)中选择的表和数据字段生成OWL/RDF映射文件,所述OWL/RDF映射文件记录了公开的表和字段,优选根据URI标准自动描述出需要转化成的目标格式;
4)依据所述OWL/RDF映射文件转化数据源中的每一行实例数据,依照OWL/RDF里描述的概念和属性关系,对应生成RDF实例数据和OWL本体文件;
5)将所述转换生成的RDF实例数据和OWL本体文件加密和授权传输至云存储语义数据库,优选通过用户输入数据传输的地址,同时输入用户名和密码,此信息包含授权信息和加密信息,确保传输过程安全。
在一个实施方案中,本发明的方法的步骤1)中,所述数据源包括静态归档文件数据(如:XML数据、CSV数据、Excel数据)和动态数据库数据(如:Oracle数据、Mysql数据、PostgreSQL数据、Sql server数据)。
在一个实施方案中,本发明的方法的步骤1)中,对于静态归档文件数据,每次使用者上传最新的归档文件即可;对于动态数据库数据,使用者输入自己的数据库地址和账号,系统用网页和表单的可视化方式展示所有表和字段信息,供使用者进行选择操作。
在一个实施方案中,在本发明的方法的步骤2)中,在所述数据表上提供自定义隐私数据的选择过滤,或者提供可对接数据的选择。优选地,在步骤2)中,系统将会记录上次数据对接后的数据点进行标记,重复对接时,只会对接最新生成的数据,而屏蔽已经对接的数据,提高数据对接的效率。
优选地,可以对动态数据库数据根据关系型数据库中读取的表及字段进行可开放选择;对于静态归档的文件数据,可以线下控制可供开放的字段。
在一个实施方案中,在本发明的步骤3)的OWL/RDF映射文件中,所述OWL/RDF映射文件的内容为各开放的数据字段到RDF数据的映射规则。该步骤中,所述OWL本体文件可按领域划分,建立领域本体,使用领域本体对OWL本体文件从概念层面进行对应和链接,然后通过实体的关系表示(使用owl:sameAs关联实体)实现相同概念层面的融合(“sameAs”)。
在一个实施方案中,在本发明的步骤3)中,优选基于第三方服务器发布机构关联数据的URI标准,根据所述URI标准将所述表和字段自动描述出需要转化成的目标格式。
在本发明的优选实施方案中,所述URI标准包括如下元素:
元素1:图名(named graph),图名描述每个被对接的数据源都被保存的存储地址,例如../graph/图名,以方便提取特定的RDF集合。
元素2:概念/属性(concept/property),概念/属性是指本体OWL/RDF中通过属性对概念之间的关系进行的描述。例如,存储在../ontology/图名/概念名或属性名中。
元素3:实例(Instance),实例是指对应于概念的具体实体描述,相当于面向对象里的目标(Object)。例如,存储在../resource/图名/实例名中。
在一个实施方案中,在本发明的方法的步骤4)中,所述RDF实例数据为根据步骤3)中的OWL/RDF映射文件所转换的数据源中的数据记录,形式可以为RDF序列化格式,如:RDF/XML、TTL、N3等;所述OWL本体文件的形式同样可以为RDF序列化格式,只是该文件存储的是数据结构信息。
在一个实施方案中,在本发明的步骤5)中,进行分段式传输,对于规模较大的数据集,采取实时、分段的方式来传输数据,优选在步骤4)中在转化数据源中的实例数据的同时进行数据备份,并根据网络情况动态切割不同大小的数据的方式,网络状况良好切割的数据大小大,网络状况不好切割的数据大小小。
在一个实施方案中,本发明的方法优选还包括云存储服务器备份机制,每个被对接的数据源都被保存在一个图名中,其备份与所述图名对应。例如,../graph/图名_backup。优选在步骤4)中在转化数据源中的实例数据的同时进行数据备份,并根据网络情况动态切割不同大小的数据的方式,网络状况良好切割的数据大小大,网络状况不好切割的数据大小小。
在最优选的实施方案中,在步骤3)中生成OWL/RDF映射文件的同时将备份数据指令传递给服务器进行数据备份,并在步骤4)中在转化数据源中的实例数据的同时进行数据备份,并根据转化数据源中的实例数据的速度和网络情况动态切割不同大小的数据的方式,转化数据源中的实例数据的速度快则切割的数据大小大,否则切割的数据大小小;网络状况良好切割的数据大小大,否则切割的数据大小小。
在一个实施方案中,在本发明的步骤5)中,所述转换生成的RDF实例数据和OWL本体文件存储在云存储语义数据库中,优选经过筛选机制,忽略RDF实例数据和OWL本体文件中与云存储语义数据库中重复的数据项;对于已经存在于云存储语义数据库中的数据项,将新数据与已存数据进行对比,如果当前RDF实例数据和OWL本体文件中的记录与之有差异,则反馈给使用者进行修改,并由使用者再次返回经确认后的数据项代替云存储语义数据库中的数据项,并将云存储语义数据库中的原数据项存档备查。
本发明的基于语义网本体的蜂流器数据导流和数据转化方法是通过一种统一的、自动化的方式直接对接不同种类的数据源(静态归档文件数据:XML、CSV、Excel,动态数据库数据:Oracle、Mysql、PostgreSQL、Sqlserver),并转化成统一的数据格式(RDF)、过滤隐私数据,然后传送到第三方数据库平台。整个方法流程采用一体化集成方式,适用于多种类型的数据源,特别是关系型数据库,可以使数据传送变得实时、高效、格式统一,并且可以提供通用的数据服务。基于此,本发明可以使得科研人员、应用开发者、数据分析者等从单一平台获取多源头的数据,同领域、同行业的多个机构可以轻松实现数据互联互通。
本发明实现了对关系型数据库的数据源和非关系型数据库的数据源的整合。本发明实现了不同数据源在同一平台上处理,使用者看到的是转化之后的数据,不会受到数据源呈现形式的干扰。另外,本发明对数据的整合还实现了不同使用者、异地进行数据整合,都上传至云存储服务器的云端数据库存储地址,整合了资源,提高了效率。
附图说明
通过以下附图对本发明进行说明:
图1.本发明的蜂流器整体框架;
图2.本发明的蜂流器定时任务列表;
图3.本发明的方法创建目标数据库链接;
图4.本发明的方法选择开放表与列,并可以进行条件过滤;
图5.本发明的方法填写字段描述信息,并上传至云端数据库服务器。
具体实施方式
在本发明中,数据的驱动链接和可视化展示是指集成不同数据源的链接驱动,如静态归档文件数据(CSV、Excel、XML)和动态数据库数据(如:Mysql、Oracle、PostgreSQL、SQL Server),为一体。静态归档文件数据,使用者可以在对接前,线下进行字段的控制;动态数据库数据,使用者输入自己的数据库地址和账号时,系统用网页和表单的可视化方式展示所有表和字段信息,供使用者进行选择操作。
在本发明中,实现对不同数据源的数据的驱动链接和可视化展示的方式可以如下:对于动态数据库数据的数据源(如:Mysql、Oracle、PostgreSQL、SQL Server),可以通过数据库提供的如JDBC驱动进行加载,并查询得到数据库的表及数据字段;对于静态归档文件数据的数据源(如XML、CSV、Excel等),可以进行结构解析,例如通过第三方的类库,如采用dom4j.jar进行XML文件的解析,采用jxl.jar进行Excel数据结构的解析。
首先,本发明利用语义网和关联数据的相关技术(RDF、OWL、Ontology等)作为数据标准格式和统一格式,对不同数据源中的原始数据进行统一转化。使得所有数据都可以通过SPARQL语句进行实时查询和访问。而且,本发明还引入了隐私数据的过滤机制和数据重构机制,并且提供了与第三方数据库单管道对接等的方法。所以,本发明提供了一种更智能、更有效保护数据隐私、更符合点到点的数据传输的方法。
其次,发明人制定了特定的数据转化标准,使其适应源数据传送到第三方数据库后的数据表达方式和展示形式。
最后,本发明是一种集成化的数据导流方法,提供一种统一的数据转化、数据过滤和数据重构表达的方法,旨在为多个数据源提供一种统一可行的数据服务。
在本发明中,蜂流器是指从源数据到语义数据库的点到点单线保密对接流程。
在本发明的优选实施方案中,本发明的集成化的数据导流方法可以包括以下步骤:
1)初始化数据库链接,实现对不同数据源的驱动链接和可视化展示,得到表和字段信息;
2)选择可以公开的表和字段,实现数据表的点击选择的快捷方式,对可以开放的数据字段进行筛选,优选输入过滤条件,如age>20等;
3)生成OWL/RDF映射文件,所述OWL/RDF映射文件记录了公开的表和字段,并根据本发明的URI定义,自动描述出需要转化成的目标格式;
4)根据所述OWL/RDF映射文件,转化对应数据并生成RDF实例数据和OWL本体文件;
5)将所生成的RDF实例数据和OWL本体文件加密和授权传输至云存储语义数据库,用户需要输入数据需要的地址,同时输入用户名和密码,此信息包含授权信息和加密信息,确保传输过程安全。
在上述方法的步骤1)中,实现对不同数据源的驱动链接,包括Excel、MySQL、Oracle、SQL Server、PostgreSQL、XML、CSV数据库的链接和可视化展示。图2所示是获取链接的截图,图3展示了初始化链接后可以看到的不同的表和字段信息。
在上述方法的步骤2)中,实现数据表的点击选择的快捷方式,进行筛选可以开放的数据字段。还可以输入过滤条件,在客户端自定义隐私数据的选择过滤或可对接数据的选择。被对接的数据源数据库和/或被对接者可以自定义选择要开放的表和字段,规避不希望开放的表和字段。每个字段又可以加上条件(如年龄>20等),来保护用户的隐私数据,从而达到有选择性的开放数据。其方式与SQL中的方式类似,如age>20等。如图4展示了人工点击表和字段的方式,选择可以公开的表和字段。
在上述方法的步骤3)中,实现步骤2)中选择的部分表和字段,到OWL/RDF映射文件的转化。此OWL/RDF映射文件记录了公开的表和字段,并根据本发明的URI标准,自动描述出需要转化成的目标格式。图5展示给用户在步骤2)中选择后的字段的列表总结,并鼓励用户补充更多的描述性信息。
在上述方法的一个实施方案中,在步骤3)中,基于第三方服务器发布机构关联数据的URI标准。因为一般机构不具备发布关联数据的能力,或不希望自己的服务器承担那部分工作,所以第三方服务器发布关联数据的时候,如果希望发布4星或5星模型关联数据,就需要对管理的多个源头进行系统的管理。
关联数据的五星标准常被用来判断关联数据的质量,1星:数据上网;2星:特有格式发布(如Excel格式);3星:非专有格式发布(如CSV格式);4星:采用语义网和关联数据的公开标准发布(RDF、OWL、SPARQL等);5星:数据之间建立链接形成关联数据(Linked Data)。所以,本发明制定了基于第三方服务器发布机构关联数据的发布URI标准。
在上述方法中,如步骤3)中所描述,第三方服务器的授权发布方式,一般会代理发布多个数据源,这时候管理不同的数据,融合同领域的数据,就成为第三方服务器统筹数据的优势。本发明从领域划分,建立领域本体,对概念层面的schema进行与领域本体的对应和链接,然后通过owl:sameAs的关系表示,实现概念层面“sameAs”融合。
在上述方法的一个实施方案中,所述方法优选还包括备份机制,每个被对接的数据源都被保存在一个图名(named graph)中,其备份与所述图名对应,而当更新数据的时候,如果中途更新失败,很可能破坏当前数据。本发明的方法备份机制可以是,在更新数据前先对数据进行备份。本发明的方法备份机制还可以是,默认每一段时间例如每24小时,第三方服务器自动备份当前数据库到图名_backup中。例如,一个图名为http://www.usources.cn/graph/sh_police_cn的数据地址,对应了一个http://www.usources.cn/graph/sh_police_cn_backup的图,并存放了其该时间段(例如24小时)之内的备份数据。最优选的备份数据方案是,为了避免备份数据延迟更新数据,生成OWL/RDF映射文件的同时将备份数据指令传递给服务器进行数据备份。
在上述方法的步骤4)中,在步骤3)完成后,实现根据映射文件对特定数据进行到特定格式转化和生成的自动化步骤。即在步骤3)中点击成功后,会进入步骤4)后台转化引擎自动转化数据;成功后会跳转到步骤5)。
在上述方法的步骤5)中,进行分段式传输,对于规模较大的数据集,采取实时的、分段的方式来传输数据。举例来说,当一次性上传的数据较大时间过长时,一旦传输失败,下次必须重新从头上传,很大程度上影响了数据传输的效率。本发明的方法采用了切割同等大小的数据的方式,继而分别传送和记录,即使在某一段传输失败的情况下,下次传送可以从断点处的数据包开始继续传送。优选地,本发明的方法采用了根据网络情况动态切割不同大小的数据的方式,网络状况良好切割的数据大小大,网络状况不好切割的数据大小小,以优化数据传输效果。
在上述方法的步骤5)中,用户需要输入数据需要的地址,同时输入用户名和密码,此信息包含授权信息和加密信息,确保传输过程安全。这样即保证了可以远程处理,又保证了数据的安全。
在本发明中,还提供了第三方服务器发布机构关联数据的URI标准。URI,即统一资源标识符(Uniform Resource Identifier)。
下面的URI标准包括的元素都用:http://www.usources.cn作为示例的基础server的URL。URL,即统一资源定位符(Uniform Resource Locator)。
元素1图名(named graph):
http://www.usources.cn/graph/agentName
注:agentName起名规则考虑出现同名的公司,可以为公司名+种类/地点等;或者使用官网的“.”改成“_”形式,如baike.baidu.com改成baike_baidu_com,例如,http://www.usources.cn/graph/baike_baidu_com。
元素2概念/属性(concept/property):
http://www.usources.cn/ontology/agentName/ConceptOrPropertyName
例如,http://www.usources.cn/ontology/baike_baidu_com/Person;
再例如,http://www.usources.cn/ontology/baike_baidu_com/personName。
元素3实例(Instance):
http://www.usources.cn/resource/agentName/instanceName
例如,http://www.usources.cn/resource/baike_baidu_com/李白。
最后,当直接点击这些链接时,http://www.usources.cn/graph/*和http://www.usources.cn/ontology/*和http://www.usources.cn/resource/*的网址,自动过滤到后台,进行查询sparql并返回页面或结果。
优点是:例如http://www.usources.cn/ontology/BaikeBaidu/Person这样的URL可以定位出graph为http://www.usources.cn/graph/BaikeBaidu/,然后去查询这个资源,并生成页面;其次,服务器保留path/graph/*;path/ontology/*;和path/resource三个路径模式,遇到此访问,应自动转到可查询访问该资源信息的页面。

Claims (10)

1.一种集成化的数据导流方法,所述方法包括:
1)初始化数据源,根据选择的数据源类型(静态归档文件数据和动态数据库数据),加载不同数据源数据的驱动链接,并以可视化的页面方式展示,得到包括表和数据字段信息的数据表;
2)选择步骤1)获得的数据表中可以公开的表和数据字段,优选所述数据表上提供可点击选择的快捷方式,对可以开放的表和数据字段进行筛选,并优选所述数据表上提供输入过滤条件;
3)根据步骤2)中选择的表和数据字段生成OWL/RDF映射文件,所述OWL/RDF映射文件记录了公开的表和字段;
4)依据所述OWL/RDF映射文件转化数据源中的每一行实例数据,依照OWL/RDF里描述的概念和属性关系,对应生成RDF实例数据和OWL本体文件;
5)将所述转换生成的RDF实例数据和OWL本体文件加密和授权传输至云存储服务器的云存储语义数据库。
2.根据权利要求1所述的方法,所述数据源选自:Oracle数据、Mysql数据、PostgreSQL数据、Sqlserver数据、XML数据、CSV数据和Excel数据。
3.根据权利要求1所述的方法,在步骤1)中,当使用者输入自己的数据库地址和账号时,系统用网页和表单的可视化方式展示所有表和字段信息,优选按照URI标准生成所述数据源的图名,如果云存储服务器中存所述图名,调取已经存在云存储服务器的与所述图名有关的数据,并且将上述用网页和表单的可视化方式展示所有表和字段信息中重复的表和字段信息屏蔽或者作出标记供使用者参考。
4.根据权利要求1所述的方法,在步骤2)中,在所述数据表上提供自定义隐私数据的选择过滤,或者提供可对接数据的选择,对于关系型数据库中读取的表及字段进行可开放选择;对于非关系型数据库的数据源,在读取的数据字段中选择可供开放的字段。
5.根据权利要求1所述的方法,在步骤3)的OWL/RDF映射文件中,所述OWL/RDF映射文件的内容为各开放的数据字段到RDF数据的映射规则。
6.根据权利要求1所述的方法,在步骤4)中,所述OWL本体文件按领域划分,建立领域本体,使用领域本体对OWL本体文件从概念层面进行对应和链接,然后通过实体的关系表示实现相同概念层面的融合。
7.根据权利要求1所述的方法,在步骤3)中,根据URI标准将所述表和字段自动描述出需要转化成的目标格式,所述URI标准包括如下元素:
图名,所述图名描述每个被对接的数据源都被保存的存储地址;
概念/属性,所述概念/属性是指本体OWL/RDF中通过属性对概念之间的关系进行的描述;
实例,所述实例是指对应于概念的具体实体描述。
8.根据权利要求1所述的方法,在步骤4)中,所述RDF实例数据为根据步骤3)中的OWL/RDF映射文件所转换的数据源中的数据记录,形式可以为RDF序列化格式,如:RDF/XML、TTL、N3等;所述OWL本体文件的形式同样为RDF序列化格式,只是该文件存储的是数据结构信息。
9.根据权利要求1所述的方法,在步骤5)中,进行分段式传输,对于规模较大的数据集,采取实时、分段的方式来传输数据,优选在步骤4)中在转化数据源中的实例数据的同时进行数据备份,并根据网络情况动态切割不同大小的数据的方式,网络状况良好切割的数据大小大,网络状况不好切割的数据大小小。优选经过筛选机制,忽略所述RDF实例数据和OWL本体文件中与云存储语义数据库中重复的数据项;对于已经存在于云存储语义数据库中的数据项,将新数据与已存数据进行对比,如果当前RDF实例数据和OWL本体文件中的记录与之有差异,则反馈给使用者进行修改,使用者再次返回经确认后的数据项代替云存储语义数据库中的数据项,并将云存储语义数据库中的原数据项存档备查。
10.根据权利要求1所述的方法,所述方法还包括云存储服务器备份机制,每个被对接的数据源都被保存在一个图名中,优选在步骤3)中,生成OWL/RDF映射文件的同时将备份数据指令传递给云存储服务器进行数据备份。
CN201710061645.XA 2017-01-26 2017-01-26 一种基于语义网本体的蜂流器数据导流和数据转化方法 Active CN106777372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710061645.XA CN106777372B (zh) 2017-01-26 2017-01-26 一种基于语义网本体的蜂流器数据导流和数据转化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710061645.XA CN106777372B (zh) 2017-01-26 2017-01-26 一种基于语义网本体的蜂流器数据导流和数据转化方法

Publications (2)

Publication Number Publication Date
CN106777372A true CN106777372A (zh) 2017-05-31
CN106777372B CN106777372B (zh) 2019-08-27

Family

ID=58955199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710061645.XA Active CN106777372B (zh) 2017-01-26 2017-01-26 一种基于语义网本体的蜂流器数据导流和数据转化方法

Country Status (1)

Country Link
CN (1) CN106777372B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795476A (zh) * 2019-10-16 2020-02-14 北京百分点信息科技有限公司 一种本体库的数据写入方法及装置
CN111400411A (zh) * 2020-03-04 2020-07-10 河南安冉云网络科技有限公司 一种Excel数据的处理方法、系统及设备
CN111949680A (zh) * 2019-05-17 2020-11-17 杭州海康威视数字技术股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN112631561A (zh) * 2020-12-29 2021-04-09 智慧神州(北京)科技有限公司 数据源对接的方法、装置、处理器和数据源对接的系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882290A (zh) * 2010-07-14 2010-11-10 上海交通大学 互联网环境下基于情境本体的服务集成方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN105224630A (zh) * 2015-09-24 2016-01-06 中国科学院自动化研究所 基于语义网本体数据的集成方法
CN106021306A (zh) * 2016-05-05 2016-10-12 上海交通大学 基于本体匹配的案例搜索系统
CN106066871A (zh) * 2016-05-30 2016-11-02 中国人民解放军装备学院 一种基于开放接口的多源异构数据源访问方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882290A (zh) * 2010-07-14 2010-11-10 上海交通大学 互联网环境下基于情境本体的服务集成方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN105224630A (zh) * 2015-09-24 2016-01-06 中国科学院自动化研究所 基于语义网本体数据的集成方法
CN106021306A (zh) * 2016-05-05 2016-10-12 上海交通大学 基于本体匹配的案例搜索系统
CN106066871A (zh) * 2016-05-30 2016-11-02 中国人民解放军装备学院 一种基于开放接口的多源异构数据源访问方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈鑫 等: "基于多源异构数据聚合技术的电力物联网设备全景信息构架模型研究与应用", 《南方电网技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949680A (zh) * 2019-05-17 2020-11-17 杭州海康威视数字技术股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN110795476A (zh) * 2019-10-16 2020-02-14 北京百分点信息科技有限公司 一种本体库的数据写入方法及装置
CN110795476B (zh) * 2019-10-16 2022-03-08 北京百分点科技集团股份有限公司 一种本体库的数据写入方法及装置
CN111400411A (zh) * 2020-03-04 2020-07-10 河南安冉云网络科技有限公司 一种Excel数据的处理方法、系统及设备
CN111400411B (zh) * 2020-03-04 2024-04-19 河南安冉云网络科技有限公司 一种Excel数据的处理方法、系统及设备
CN112631561A (zh) * 2020-12-29 2021-04-09 智慧神州(北京)科技有限公司 数据源对接的方法、装置、处理器和数据源对接的系统

Also Published As

Publication number Publication date
CN106777372B (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
US9940341B2 (en) Apparatus and method for web marketing tools for digital archives—web portal advertising arts
CN108512691A (zh) 基于Hadoop的云自动预警运维监控系统
Tao et al. Enterprise application architecture development based on DoDAF and TOGAF
CN106777372A (zh) 一种基于语义网本体的蜂流器数据导流和数据转化方法
Jin et al. Mapping hotspots and emerging trends of business model innovation under networking in Internet of Things
CN109033113A (zh) 数据仓库和数据集市的管理方法及装置
CN104951954A (zh) 快速消费品调研系统
Srinivasa et al. Network Data Analytics
ES2900746T3 (es) Sistemas y métodos para distribuir eficazmente mensajes de alerta
Idowu et al. A model and architecture for building a sustainable national open government data (OGD) portal
Vafopoulos et al. Insights in global public spending
Li et al. Optimal Design of an Information Management System for Government: A Bridge between Government and Citizens
Futrelle et al. Semantic middleware for e-science knowledge spaces
Guerrero-Contreras et al. A collaborative semantic annotation system in health: towards a SOA design for knowledge sharing in ambient intelligence
Liu et al. The advanced data service architecture for modern enterprise information system
Day Resource discovery, interoperability and digital preservation: some aspects of current metadata research and development
Sharma et al. Krishikosh a Digital Repository to Disseminate Agricultural Knowledge
Shi et al. Implementing social media: Practical reflections from county governments during Hurricane Matthew
JP2008541296A (ja) パーソナル化可能情報ネットワーク
Kulkarni et al. Ontology augmented data lake system for policy support
US20180046720A1 (en) XoomDat, real-time search and analytics information system
Aljubairah et al. A conceptual approach to traffic data wrangling
Xiong et al. Defaultable bond markets with jumps
US20240045884A1 (en) System and method for cloud-based replication of data
Doyle et al. Internet of Water: Research and Development Toward a Linked Data System and Foundational Knowledge Network for the Internet of Water

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant