CN110377600A - 一种面向rdf三元组的专业数据直接映射方法 - Google Patents
一种面向rdf三元组的专业数据直接映射方法 Download PDFInfo
- Publication number
- CN110377600A CN110377600A CN201910488661.6A CN201910488661A CN110377600A CN 110377600 A CN110377600 A CN 110377600A CN 201910488661 A CN201910488661 A CN 201910488661A CN 110377600 A CN110377600 A CN 110377600A
- Authority
- CN
- China
- Prior art keywords
- data
- rdf
- rdf triple
- search index
- accessibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013507 mapping Methods 0.000 title claims abstract description 17
- 238000013506 data mapping Methods 0.000 claims abstract description 49
- 239000012634 fragment Substances 0.000 claims abstract description 5
- 230000002349 favourable effect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种面向RDF三元组的专业数据直接映射方法,包括以下步骤:预处理长字符串类型的RDF三元组;对长整型RDF三元组进行分割处理;构建RDF数据的可达性查询索引;保存RDF数据的可达性查询索引;获取待映射的数据文件;配置数据映射逻辑;获取数据映射逻辑并对其进行解析,生成数据映射代码;执行数据映射代码;解析数据中的逻辑段,获得SQL片段;根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;生成嵌入有上述SQL语句的数据映射脚本。本发明可以高效、准确地建立大规模RDF数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。
Description
技术领域
本发明涉及专业数据直接映射技术领域,尤其涉及一种面向RDF三元组的专业数据直接映射方法。
背景技术
资料描述框架,简称RDF,是用于描述Web资源的标记语言,同时也是整个语义网系统结构中的核心,它被广泛用于描述互联网上存在的各种信息资源,数据映射是指将源数据通过某种数据加工步骤映射为目标数据的过程,通常而言,源数据以及目标数据都是数据表的字段,而数据加工步骤则使用结构化查询语言语句来表示,用于描述数据映射的数据称为数据映射逻辑,基于数据映射逻辑可以生成用于实现数据映射的代码;
在现有技术中,数据映射逻辑通常采用文字描述的方式,将数据映射逻辑转化为对应的代码过程往往需要开发人员通过手工编写,或在部分自动生成的基础上结合大量的手工修改才能完成,不仅效率低,还容易导致代码与数据映射逻辑不一致的情况发生,并且现有RDF三元组的专业数据的可达性查询方式无法满足快速有效处理数据的需求。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种面向RDF三元组的专业数据直接映射方法,可以高效、准确地建立大规模RDF数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。
(二)技术方案
为解决上述问题,本发明提出了一种面向RDF三元组的专业数据直接映射方法,包括以下步骤:
S1、预处理长字符串类型的RDF三元组,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;
S2、利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;
S3、利用数据索引文件夹构建RDF数据的可达性查询索引;
S4、对构建的RDF数据的可达性查询索引进行验证和评估;
S5、保存构建的RDF数据的可达性查询索引;
S6、获取待映射的数据文件;
S7、配置数据映射逻辑;
S8、获取数据映射逻辑并对其进行解析,生成数据映射代码;
S9、执行数据映射代码,进行数据映射;
S10、解析数据中的逻辑段,获得SQL片段;
S11、根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;
S12、生成嵌入有上述SQL语句的数据映射脚本。
优选的,在S1中,每个长整型RDF三元组包括主体、谓词和客体。
优选的,在S2中,预设框架为MapReduce框架或Spark框架。
优选的,在S2中,还包括对长整型RDF三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。
优选的,每个类别的索引文件夹中包含有多个子文件。
优选的,在S3中,具体包括以下步骤:利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类;根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定RDF数据的可达性查询索引的非根节点等价类;利用RDF数据的可达性查询索引的根节点等价类、RDF数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定 RDF数据的可达性查询索引的根节点等价类与非根节点等价类的谓词;生成RDF 数据的可达性查询索引。
优选的,在S10中,具体包括以下步骤:解析逻辑段的段名称并获得与逻辑段相对应的SQL语句中的操作关键词;解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数;解析所述逻辑段中的附加文本字段,获得附加文本;基于操作关键词、操作参数和附加文本生成SQL片段。
优选的,在S12中,具体包括以下步骤:获得数据映射脚本公用部分的模板文件;将SQL语句嵌入模板文件以生成数据映射脚本。
本发明的上述技术方案具有如下有益的技术效果:
本发明可以高效、准确地建立大规模RDF数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。
附图说明
图1为本发明提出的一种面向RDF三元组的专业数据直接映射方法的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种面向RDF三元组的专业数据直接映射方法,包括以下步骤:
S1、预处理长字符串类型的RDF三元组,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;
S2、利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;
S3、利用数据索引文件夹构建RDF数据的可达性查询索引;
S4、对构建的RDF数据的可达性查询索引进行验证和评估;
S5、保存构建的RDF数据的可达性查询索引;
S6、获取待映射的数据文件;
S7、配置数据映射逻辑;
S8、获取数据映射逻辑并对其进行解析,生成数据映射代码;
S9、执行数据映射代码,进行数据映射;
S10、解析数据中的逻辑段,获得SQL片段;
S11、根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;
S12、生成嵌入有上述SQL语句的数据映射脚本。
在一个可选的实施例中,在S1中,每个长整型RDF三元组包括主体、谓词和客体。
在一个可选的实施例中,在S2中,预设框架为MapReduce框架或Spark框架。
在一个可选的实施例中,在S2中,还包括对长整型RDF三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。
在一个可选的实施例中,每个类别的索引文件夹中包含有多个子文件。
在一个可选的实施例中,在S3中,具体包括以下步骤:
利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类;
根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定RDF数据的可达性查询索引的非根节点等价类;
利用RDF数据的可达性查询索引的根节点等价类、RDF数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类与非根节点等价类的谓词;
生成RDF数据的可达性查询索引。
在一个可选的实施例中,在S10中,具体包括以下步骤:
解析逻辑段的段名称并获得与逻辑段相对应的SQL语句中的操作关键词;
解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数;
解析所述逻辑段中的附加文本字段,获得附加文本;
基于操作关键词、操作参数和附加文本生成SQL片段。
在一个可选的实施例中,在S12中,具体包括以下步骤:
获得包括所述数据映射脚本的公用部分的模板文件;
将所述SQL语句嵌入所述模板文件以生成所述数据映射脚本。
本发明中,首先对长字符串类型的RDF三元组进行预处理,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;利用预设框架对长整型RDF 三元组进行分割处理,生成数据索引文件夹;
利用数据索引文件夹构建RDF数据的可达性查询索引,包括利用主体-谓词 -客体索引文件夹和客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类,根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定RDF数据的可达性查询索引的非根节点等价类,利用RDF数据的可达性查询索引的根节点等价类、RDF数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类与非根节点等价类的谓词,生成RDF数据的可达性查询索引;
对构建的RDF数据的可达性查询索引进行验证和评估;保存构建的RDF数据的可达性查询索引;获取待映射的数据文件;配置数据映射逻辑;获取数据映射逻辑并对其进行解析,生成数据映射代码;执行数据映射代码,进行数据映射;解析数据中的逻辑段,获得SQL片段,包括解析逻辑段的段名称并获得与逻辑段相对应的SQL语句中的操作关键词,解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数,解析所述逻辑段中的附加文本字段,获得附加文本,基于操作关键词、操作参数和附加文本生成SQL片段;
根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;生成嵌入有上述SQL语句的数据映射脚本,包括获得数据映射脚本公用部分的模板文件,将 SQL语句嵌入模板文件以生成数据映射脚本;
本发明可以高效、准确地建立大规模RDF数据的可达性查询索引,扩展性好,易于实现,并且能够自动地基于数据映射逻辑生成相应的代码,显著提高了数据映射的执行效率,确保了生成的代码与数据映射逻辑的一致性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (8)
1.一种面向RDF三元组的专业数据直接映射方法,其特征在于,包括以下步骤:
S1、预处理长字符串类型的RDF三元组,获得与各长字符串类型的RDF三元组相对应的长整型RDF三元组;
S2、利用预设框架对长整型RDF三元组进行分割处理,生成数据索引文件夹;
S3、利用数据索引文件夹构建RDF数据的可达性查询索引;
S4、对构建的RDF数据的可达性查询索引进行验证和评估;
S5、保存构建的RDF数据的可达性查询索引;
S6、获取待映射的数据文件;
S7、配置数据映射逻辑;
S8、获取数据映射逻辑并对其进行解析,生成数据映射代码;
S9、执行数据映射代码,进行数据映射;
S10、解析数据中的逻辑段,获得SQL片段;
S11、根据SQL片段拼接生成与数据加工步骤相对应的SQL语句;
S12、生成嵌入有上述SQL语句的数据映射脚本。
2.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S1中,每个长整型RDF三元组包括主体、谓词和客体。
3.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S2中,预设框架为MapReduce框架或Spark框架。
4.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S2中,还包括对长整型RDF三元组进行分类操作,并生成与每种分类方式相对应的数据索引文件夹。
5.根据权利要求4所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,每个类别的索引文件夹中包含有多个子文件。
6.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S3中,具体包括以下步骤:
利用主体-谓词-客体索引文件夹和客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类;
根据集合的独立性定理,利用主体-客体后代索引文件夹、根节点等价类以及客体等价类索引文件夹中的内容确定RDF数据的可达性查询索引的非根节点等价类;
利用RDF数据的可达性查询索引的根节点等价类、RDF数据的可达性查询索引的非根节点等价类、客体索引文件夹和主体-谓词-客体索引文件夹中的内容确定RDF数据的可达性查询索引的根节点等价类与非根节点等价类的谓词;
生成RDF数据的可达性查询索引。
7.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S10中,具体包括以下步骤:
解析逻辑段的段名称并获得与逻辑段相对应的SQL语句中的操作关键词;
解析逻辑段中的参数字段并获得与操作关键词相关联的操作参数;
解析所述逻辑段中的附加文本字段,获得附加文本;
基于操作关键词、操作参数和附加文本生成SQL片段。
8.根据权利要求1所述的一种面向RDF三元组的专业数据直接映射方法,其特征在于,在S12中,具体包括以下步骤:
获得数据映射脚本公用部分的模板文件;
将SQL语句嵌入模板文件以生成数据映射脚本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910488661.6A CN110377600A (zh) | 2019-06-06 | 2019-06-06 | 一种面向rdf三元组的专业数据直接映射方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910488661.6A CN110377600A (zh) | 2019-06-06 | 2019-06-06 | 一种面向rdf三元组的专业数据直接映射方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377600A true CN110377600A (zh) | 2019-10-25 |
Family
ID=68249845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910488661.6A Pending CN110377600A (zh) | 2019-06-06 | 2019-06-06 | 一种面向rdf三元组的专业数据直接映射方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377600A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120303668A1 (en) * | 2011-05-24 | 2012-11-29 | Oracle International Corporation | Method and system for presenting rdf data as a set of relational views |
US20140172780A1 (en) * | 2012-12-18 | 2014-06-19 | Sap Ag | Data Warehouse Queries Using SPARQL |
CN106933844A (zh) * | 2015-12-30 | 2017-07-07 | 中国科学院深圳先进技术研究院 | 面向大规模rdf数据的可达性查询索引的构建方法 |
CN108829884A (zh) * | 2018-06-27 | 2018-11-16 | 中国建设银行股份有限公司 | 数据映射方法及装置 |
-
2019
- 2019-06-06 CN CN201910488661.6A patent/CN110377600A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120303668A1 (en) * | 2011-05-24 | 2012-11-29 | Oracle International Corporation | Method and system for presenting rdf data as a set of relational views |
US20140172780A1 (en) * | 2012-12-18 | 2014-06-19 | Sap Ag | Data Warehouse Queries Using SPARQL |
CN106933844A (zh) * | 2015-12-30 | 2017-07-07 | 中国科学院深圳先进技术研究院 | 面向大规模rdf数据的可达性查询索引的构建方法 |
CN108829884A (zh) * | 2018-06-27 | 2018-11-16 | 中国建设银行股份有限公司 | 数据映射方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102609451B (zh) | 面向流式数据处理的sql查询计划生成方法 | |
CN106528797A (zh) | 基于Elasticsearch的DSL查询方法 | |
JP2510946B2 (ja) | 関連デ―タベ―ス管理システムへの問い合わせの最適化方法及び結果の構文解析方法 | |
CN106610999A (zh) | 查询处理方法和装置 | |
CN106407302B (zh) | 支持通过简单sql调用中间件数据库特有功能的方法 | |
CN108881172A (zh) | 报文的解析方法及装置 | |
US10614126B2 (en) | Textual query editor for graph databases that performs semantic analysis using extracted information | |
TWI588816B (zh) | 一種語言交互方法 | |
CN109815283A (zh) | 一种异构数据源可视化查询方法 | |
CN105630500B (zh) | 一种用于cim/xml数据处理的方法 | |
US10896180B2 (en) | Statement parsing method for database statement | |
CN106126564A (zh) | 一种基于动态模板语言渲染的方法 | |
US8468449B1 (en) | Generating CSS shorthand properties | |
CN102325161B (zh) | 一种基于查询工作量估算的xml分片方法 | |
CN110209699B (zh) | 一种基于openEHR Composition模板的数据接口动态生成与执行方法 | |
CN114064601A (zh) | 存储过程转换方法、装置、设备和存储介质 | |
CN1238834C (zh) | 一种口语识别理解的识别分析方法 | |
CN110377600A (zh) | 一种面向rdf三元组的专业数据直接映射方法 | |
CN109271560A (zh) | 一种基于树模板的链接数据关键词查询方法 | |
CN103064885A (zh) | 一种实现多关键词同步输入系统及方法 | |
CN107562955A (zh) | 一种sql语句的快速生成方法 | |
CN112632333A (zh) | 查询语句生成方法、装置、设备及计算机可读存储介质 | |
CN105528424B (zh) | 大数据环境下实现数据持久化的系统及方法 | |
CN103631854A (zh) | 基于模型对象化语义的icd与scd一致性校验方法 | |
CN106933844A (zh) | 面向大规模rdf数据的可达性查询索引的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |