CN112000725B - 一种面向多源异构资源的本体融合前处理方法 - Google Patents

一种面向多源异构资源的本体融合前处理方法 Download PDF

Info

Publication number
CN112000725B
CN112000725B CN202010886887.4A CN202010886887A CN112000725B CN 112000725 B CN112000725 B CN 112000725B CN 202010886887 A CN202010886887 A CN 202010886887A CN 112000725 B CN112000725 B CN 112000725B
Authority
CN
China
Prior art keywords
data
ontology
label
relation
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010886887.4A
Other languages
English (en)
Other versions
CN112000725A (zh
Inventor
张凯
涂志莹
初佃辉
张麟宇
申义
黎阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010886887.4A priority Critical patent/CN112000725B/zh
Publication of CN112000725A publication Critical patent/CN112000725A/zh
Application granted granted Critical
Publication of CN112000725B publication Critical patent/CN112000725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向多源异构资源的本体融合前处理方法,所述方法包括如下步骤:S1、提取本体模型中的实体概念;S2、提取本体模型中的关系概念;S3、提取本体模型中的属性概念;S4、导出JSON数据文件;S5、发现所要获取的数据存在的明显结构,用正则表达式表示上述两种结构;S6、返回满足正则表达式结构的内容在源数据的下标;S7、获取满足条件的子字符串;S8、对子字符串进一步做字符串匹配;S9、对每个源数据的标签进行融合;S10、存储数据,保存格式为结构化的格式。本发明能够根据本体建模的结果,将其转成JSON叙述,并给出面向异构(半)结构化数据的一致化融合的语法结构定义。

Description

一种面向多源异构资源的本体融合前处理方法
技术领域
本发明属于计算机服务技术领域,涉及一种面向多源异构资源的本体融合前处理方法,具体涉及一种将非结构化、半结构化的资源转换成结构化资源的方法。
背景技术
近些年来,随着互联网的迅速发展,知识图谱技术逐渐应用于各个领域。本体指的是形式化、对于共享概念体系的明确而又详细的说明。本体提供的是一种共享词表,是在特定领域之中那些存在的对象类型或概念及其属性的相互关系。
目前分布在互联网上的资源常常以分散、异构的形式存在,另外还具有冗余、噪音和非完备的特点。互联网资源可分为三类:非结构化资源、半结构化资源和结构化资源。非结构化资源是资源结构不规则或不完整,没有预定义的资源模型,不方便用数据库二维逻辑表来表现的资源,常见的非结构化资源有图片、图像和音频。半结构化资源是结构化资源的一种形式,它不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分割语义元素以及对记录和字段进行分层,常见的半结构化资源有XML和JSON。结构化资源是指可以使用关系型数据库表示和存储,表现形式是二维的数据,常见的结构化资源有CSV表。
知识图谱的构建分为以下过程:构建系统架构、知识融合、知识验证、知识建模、知识获取和数据存储。知识图谱的构建是一个浩大的工程。知识融合,目的是将不同数据源获取的知识进行融合构建数据之间的关联,包括实体对齐、属性对齐、规范化等,更多的是做一个数据的映射、实体的匹配,还涉及到本体的构建和融合。知识验证是确保知识图谱的一致性和准确性。知识图谱的构建是一个动态的过程,当引入新知识时,需要判断新知识是否正确,如果新知识正确,就要进行相关实体和关系的更新。知识建模是建立图谱的数据模式,有两种方法:一种是自顶向下的方法,专家手工编辑形成数据模式;另一种是自底而上的方法,基于行业内现有的高质量行业数据源中进行映射。知识存储是非常重要的环节,选择关系型数据还是非关系型数据库。
知识图谱中数据的常用存储格式是RDF、RDFS、OWL和XSD等,它们都是基于XML编写的源数据。斯坦福大学开发的工具Protégé,是基于知识的编辑器。此工具支持导入和导出OWL,描述的是SPO即主语-谓语-宾语(Subject-Predication-Object)三元组。主语和宾语是实体,谓语是关系。此外实体还有属性,属性有取值范围,这就形成了(Entity-Relation-Entity)三元组。
目前已经存在的是RDF、RDFS、OWL和XSD格式的数据,这些格式之间已经可以相互转换,但是无法从本体元模型,对标签进行提取。
基于上述研究背景可以发现,异构(半)结构化数据的一致化融合,能够实现半(非)结构化数据和结构化数据的转换。
发明内容
为了解决现有技术中存在的以上问题,本发明对于互联网内多源异构数据,提出了一种面向多源异构资源的本体融合前处理方法。本发明能够根据本体建模的结果,将其转成JSON叙述,并给出面向异构(半)结构化数据的一致化融合的语法结构定义。从本体元模型,自动指导标签提取,生成标签结果,以达到多源异构资源处理,从而满足本体建模数据的需要。
本发明的目的是通过以下技术方案实现的:
一种面向多源异构资源的本体融合前处理方法,如图1所示,包括如下步骤:
步骤S1、提取本体模型中的实体概念,具体步骤如下:
(1)根据owl:Class标签,进行筛选,提取本体中的实体概念,存入关系型数据库MySQL;
(2)根据实体概念名称,按照GBK编码顺序排序,去掉重复的实体;
步骤S2、提取本体模型中的关系概念,具体步骤如下:
(1)检索类型为owl:OjectProperty的标签,提取出域(Domain)和范围(Range),即提取出(owl:Class,owl:OjectProperty,owl:Class)的三元组,存入非关系型数据库TDB;
(2)查询关系中是否存在反(逆)关系,如果存在,用inverse代替;
(3)查询关系中是否存在函数关系,如果存在,用functional表示;
(4)查询关系中是否存在(非)对称关系,如果存在,对称关系用symmetric表示,非对称关系用asymmetric表示;
(5)查询关系中是否存在传递性,如果存在,用transitive表示;
(6)查询关系中是否存在(非)自反性,如果存在,自反性用reflexive表示,非自反性用irreflexive表示;
(7)根据关系名称,按照GBK的编码顺序进行排序,去掉重复的关系;
步骤S3、提取本体模型中的属性概念,具体步骤如下:
(1)检索类型为owl:DatatypeProperty的标签,提取出实体ID、属性名称和属性取值范围,存入非关系数据库MySQL;
(2)根据属性概念名称,按照GBK编码排序,去掉名称和取值范围相同的属性;
步骤S4、存入Redis数据库并导出JSON数据文件:
非关系型数据库Redis的存储方式是键值存储,与JSON的格式相同,所以选择Redis作为最终数据库,具体步骤如下:
(1)引入关键字label,遍历MySQL数据库的Entity表;
(2)遍历TDB数据库,查找三元组(owl:Class,owl:OjectProperty,owl:Class),确定每个关系的域Domin和取值范围Range;
(3)遍历MySQL数据库,取出属性名,根据实体ID,找到对应的标签,将属性名作为关键字,其键值初值为null;
(4)当全部的实体、关系和属性都存入Redis数据库,导出数据库,即导出JSON文件;
步骤S5、发现JSON文件中存在的明显结构:“字符+冒号+字符”或者“字符+等号+字符”,用正则表达式表示上述两种结构;
步骤S6、返回满足正则表达式结构的内容在源数据的下标:
定义findIndex(pattern,str)方法,该方法返回满足正则表达式结构的内容在源数据的下标;
步骤S7、获取满足条件的子字符串:
使用字符串处理方法substring(start,stop)方法,提取出满足正则表达式的字符串;
步骤S8、对步骤S7获取的子字符串进一步做字符串匹配:
使用字符串处理方法split(‘:’)或split(‘=’)方法,提取出关键字和键值;
步骤S9、对每个源数据的标签进行融合:
重复步骤S5到S8,根据多标签融合方法,将多个同义标签融合成一个标签;
步骤S10、存储数据,保存格式为结构化的格式,例如MySQL和CSV表。
JSON格式数据是半结构化的数据,MySQL和CSV表示结构化的数据,这样就实现了从半结构化数据到结构化数据的转换。
相比于现有技术,本发明具有如下优点:
1、本发明能够实现从本体模型到半结构化数据格式的转换。从本体模型出发,对元模型中的实体、关系和属性进行处理,结合MySQL、TDB和Redis数据库,将实体的label、关系的三元组、属性的数据类型进行拼接,最终以关键字和键值的形式存储到Redis数据库中,最后导出JSON叙述。
2、本发明能够实现从半结构化数据格式到结构化数据的转换。以JSON叙述的文件为例,能够实现半结构化数据(JSON格式数据)到格式化数据(二维表数据)的转换。
3、本发明充分考虑到异构数据的数据杂的特点,使用正则表达式做到精准匹配,从本体元模型出发,对标签进行提取。
4、本发明在源数据融合的过程中,提出了多标签融合机制,根据此机制,可以将多个同义标签融合成一个标签,极大提高了标签的提取效率。
附图说明
图1为本发明面向多源异构资源的本体融合前处理方法的流程图。
图2为本体建模转成JSON叙述的示意图。
图3为本发明的实现面向异构(半)结构化数据的一致化融合的语法结构定义的示意图。
图4为多标签融合方法流程图。
图5为具体应用实例。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
具体实施方式一、本实施方式提供了一种本体建模转成JSON叙述的方法,如图2所示,所述方法包括以下步骤:
步骤S1、提取本体模型中的实体概念:
本步骤主要是针对本体模型中的实体概念,本体模型实质是图的结构,满足图的数据结构。遍历本体模型中的全部标签,筛选出owl:Class标签,同时提取出实体概念,存入关系型数据库MySQL的Entity表。根据存入的实体概念名称,按照GBK编码顺序排序,去掉重复的实体。
步骤S2、提取本体模型中的关系概念:
本步骤主要是针对本体模型中的关系概念。遍历本体模型中的全部标签,检索类型为owl:OjectProperty的标签,提取出域和范围,即取出(owl:Class,owl:OjectProperty,owl:Class)的三元组,存进非关系型数据库TDB中。然后根据关系名称,按照GBK编码顺序进行排序。查询关系中是否存在反(逆)关系;如果存在,用inverse代替;查询关系中是否存在函数关系;如果存在,用functional表示。查询关系中是否存在(非)对称关系;如果存在,对称关系用symmetric表示,非对称关系用asymmetric表示。查询关系中是否存在传递性;如果存在,用transitive表示。查询关系中是否存在(非)自反性;如果存在,自反性用reflexive表示,非自反性用irreflexive表示。具体的流程图如图2所示。
步骤S3、提取本体模型中的属性概念和取值范围:
本步骤主要是针对本体模型中的属性概念和属性的取值范围。遍历本体模型中的全部标签,检索类型为owl:DatatypeProperty的标签,提取出实体ID、属性名称和属性取值范围,存入非关系数据库MySQL的Property表。最后,根据属性概念名称,按照GBK编码排序,去掉名称和取值范围相同的属性。
步骤S4、存入Redis数据库并导出数据文件:
本步骤主要是针对JSON描述文件的生成,即本体模型转成JSON描述的最后一步。非关系型数据库Redis的存储方式是键值存储,与JSON的格式相同,所以选择Redis作为最终数据库。首先引入关键字label,遍历MySQL数据库的Entity表。即每一个实体是一个label,其键值是实体名。遍历TDB数据库,查找三元组(owl:Class,owl:OjectProperty,owl:Class),确定每个关系的域Domin和取值范围Range。遍历MySQL数据库的Property表,取出属性名,根据实体ID,找到对应的label,将属性名作为关键字,其键值初值为null。当全部的实体、关系和属性都存进Redis数据库,导出数据库,即导出JSON文件。
具体实施方式二、本实施方式提供了一种面向异构(半)结构化数据的一致化融合的语法结构定义方法,如图3所示,所述方法包括以下步骤:
步骤S1、发现所要获取的数据存在的明显结构:
异构(半)结构数据是杂乱无章的,但也要寻找潜在规律,本发明使用正则表达式匹配的规则,提出两种匹配方法。第一种是“字符+冒号+字符”用'[a-zA-Z0-9]+\\:[a-zA-Z0-9]+'表示;第二种是“字符+等号+字符”用'[a-zA-Z0-9]+\\=[a-zA-Z0-9]+'表示。
步骤S2、返回满足正则表达式结构的内容在源数据的下标:
为了提取满足步骤S1内满足正则表达式的数据,使用findIndex(pattern,str)方法,得到匹配字符串的下标,为步骤S3做好数据准备,其中:pattern表示预获取数据存在的明显结构,在步骤S1中的正则表达式方法;str表示待处理字符串,待处理数据是JSON,str则是读取的JSON内容。通过此方法,可以获得满足正则表达式结构的内容在源数据的下标。
步骤S3、获取满足条件的子字符串:
通过步骤S2得到满足正则表达式字符串的下标,为了提取子字符串,使用字符串处理方法substring(start,stop)方法,提取出满足正则表达式的字符串。
步骤S4、对步骤S3获取的子字符串进一步做字符串匹配:
使用字符串处理方法split(‘:’)方法,将关键字和键值分开,提取出关键字和键值,加入Result文件。
步骤S5、对每个源数据的处理结果进行融合,提出多标签融合方法:
互联网内的数据多而杂,并不是单一数据,而是多源异构的数据。重复步骤S1到S4,对每个数据源的结果进行融合和去重,融合过程需要使用聚类,存储最终融合后的结果。不同的源数据得到的期望结果都是关键字和键值。如果同组关键字和键值不存在,则将新的关键字和键值加入Result文件,否则排除该键值对。
多标签融合方法,将多个描述不同但语义想近的标签匹配为同一标签,如图4所示,多标签融合方法具体方法如下叙述:
(1)对标签进行编号,遍历全部标签。将每个标签映射到一个向量空间。每个标签被看作由一系列独立的词语组成的,将每个标签进行向量化表示。
(2)每一个标签都用一个n维向量表示,分别计算每个标签与其他标签的语义相似度r,使用皮尔森相关系数,公式如公式(1)所示:
Figure BDA0002655845490000101
式中:Xi表示X标签值的第i维向量值,
Figure BDA0002655845490000102
表示X标签值的平均值,Yi表示Y标签值的第i维向量值,
Figure BDA0002655845490000103
表示Y标签值的平均值。
(3)定义标签融合标准
(i)r≥0.65,标签可以融合,保留其中任意一个标签。
(ii)r<0.65,标签不可融合,标签全都保留。
步骤S6、存储数据,保存格式为结构化的格式,例如MySQL和CSV表。
所有的关键字和键值都存在Result文件内,它是有序的,为了让其更具结构化,将其存入二维表MySQL表或CSV表内,更方便查询操作。后续异构数据也可以在表的基础上进行修改。
需要说明的是,本发明中的各个模块(或单元)是逻辑意义上的,具体实现时,多个模块(或单元)可以合并成一个模块(或单元),一个模块(或单元)也可拆分成多个模块(或单元)。
具体实施方式三:图5描述的是教职工的本体模型。Assistant_Professor、Staff_Member、Professor、Associate_Professor和Staff_Member是Academic_Staff_Member的子类。
本体建模转成JSON叙述的步骤如下:第一步,提取模型中的实体概念,删选标签为owl:Class,提取出实体为Course、Literal、Professor、Assistant_Professor、Staff_Member、Academic_Staff_Member和Staff_Member,并将上述概念存入Mysql的Entity表。第二步,提取模型中的关系概念,删选标签为owl:ObjectProperty,并取出(Course,involves,Academic_Staff_Member)、(staff_Member,id,Literal)和(staff_Member,phone,Literal)三元组存入TDB数据库,并且这些关系没有声明自反性等,不用标注。第三步,提取模型中的属性概念,此例中没有属性。故省略。第四步、存入Redis数据库并导出数据文件。
面向异构(半)结构化数据的一致化融合的语法结构定义步骤如下:发现获取的数据存在的明显结构,用正则表达式'[a-zA-Z0-9]+\\:[a-zA-Z0-9]+'表示。最终得到“id”:“Literal”、“phone”:“Literal”、“isTaughBy”:“Academic_Staff_Member”和“involves”:“Academic_Staff_Member”这四个子字符串。使用splite(‘:’)方法提取出:“id”、“phone”、“isTaughBy”和“involves”。这是一个源数据的处理结果。同理,另一个源文件的处理结果是:“id”、“telphone”、“name”和“property”。通过计算相似度,phone和telphone的相似度比0.65高,将其融合,保留phone。现在的融合结果是“id”、“phone”、“isTaughBy”、“involves”、“name”和“property”。然后将其存入二维表,这就实现了标签的提取。

Claims (6)

1.一种面向多源异构资源的本体融合前处理方法,其特征在于所述方法包括如下步骤:
步骤S1、提取本体模型中的实体概念,具体步骤如下:
(1)根据owl:Class标签,进行筛选,提取本体中的实体概念,存入关系型数据库MySQL;
(2)根据实体概念名称,按照GBK编码顺序排序,去掉重复的实体;
步骤S2、提取本体模型中的关系概念,具体步骤如下:
(1)检索类型为owl:OjectProperty的标签,提取出(owl:Class,owl:OjectProperty,owl:Class)的三元组,存入非关系型数据库TDB;
(2)查询关系中是否存在反关系和逆关系,如果存在,用inverse代替;
(3)查询关系中是否存在函数关系,如果存在,用functional表示;
(4)查询关系中是否存在对称关系和非对称关系,如果存在,对称关系用symmetric表示,非对称关系用asymmetric表示;
(5)查询关系中是否存在传递性,如果存在,用transitive表示;
(6)查询关系中是否存在自反性和非自反性,如果存在,自反性用reflexive表示,非自反性用irreflexive表示;
(7)根据关系名称,按照GBK的编码顺序进行排序,去掉重复的关系;
步骤S3、提取本体模型中的属性概念,具体步骤如下:
(1)检索类型为owl:DatatypeProperty的标签,提取出实体ID、属性名称和属性取值范围,存入非关系数据库MySQL;
(2)根据属性概念名称,按照GBK编码排序,去掉名称和取值范围相同的属性;
步骤S4、存入Redis数据库并导出JSON数据文件;
步骤S5、发现JSON数据文件中存在的明显结构:“字符+冒号+字符”或者“字符+等号+字符”,用正则表达式表示上述两种结构;
步骤S6、返回满足正则表达式结构的内容在源数据的下标;
步骤S7、获取满足条件的子字符串;
步骤S8、对步骤S7获取的子字符串进一步做字符串匹配,提取出关键字和键值;
步骤S9、对每个源数据的标签进行融合:
重复步骤S5到S8,根据多标签融合方法,将多个同义标签融合成一个标签,多标签融合方法的具体步骤如下:
(1)对标签进行编号,遍历全部标签,将每个标签映射到一个向量空间,每个标签被看作由一系列独立的词语组成的,将每个标签进行向量化表示;
(2)每一个标签都用一个n维向量表示,分别计算每个标签与其他标签的语义相似度r;
(3)定义标签融合标准:
(i)r≥0.65,标签可以融合,保留其中任意一个标签;
(ii)r<0.65,标签不可融合,标签全都保留;
步骤S10、存储数据,保存格式为结构化的格式。
2.根据权利要求1所述的面向多源异构资源的本体融合前处理方法,其特征在于所述步骤S4的具体步骤如下:
(1)引入关键字label,遍历MySQL数据库的Entity表;
(2)遍历TDB数据库,查找三元组(owl:Class,owl:OjectProperty,owl:Class),确定每个关系的域Domin和取值范围Range;
(3)遍历MySQL数据库,取出属性名,根据实体ID,找到对应的标签,将属性名作为关键字,其键值初值为null;
(4)当全部的实体、关系和属性都存入Redis数据库,导出数据库,即导出JSON文件。
3.根据权利要求1所述的面向多源异构资源的本体融合前处理方法,其特征在于所述步骤S5中,“字符+冒号+字符”用'[a-zA-Z0-9]+\\:[a-zA-Z0-9]+'表示;“字符+等号+字符”用'[a-zA-Z0-9]+\\=[a-zA-Z0-9]+'表示。
4.根据权利要求1所述的面向多源异构资源的本体融合前处理方法,其特征在于所述步骤S6中,定义findIndex(pattern,str)方法,使用该方法返回满足正则表达式结构的内容在源数据的下标。
5.根据权利要求1所述的面向多源异构资源的本体融合前处理方法,其特征在于所述步骤S7中,使用字符串处理方法substring(start,stop)方法,提取出满足正则表达式的字符串。
6.根据权利要求1所述的面向多源异构资源的本体融合前处理方法,其特征在于所述步骤S8中,使用字符串处理方法split(‘:’)或split(‘=’)方法,提取出关键字和键值。
CN202010886887.4A 2020-08-28 2020-08-28 一种面向多源异构资源的本体融合前处理方法 Active CN112000725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010886887.4A CN112000725B (zh) 2020-08-28 2020-08-28 一种面向多源异构资源的本体融合前处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010886887.4A CN112000725B (zh) 2020-08-28 2020-08-28 一种面向多源异构资源的本体融合前处理方法

Publications (2)

Publication Number Publication Date
CN112000725A CN112000725A (zh) 2020-11-27
CN112000725B true CN112000725B (zh) 2023-03-21

Family

ID=73466279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010886887.4A Active CN112000725B (zh) 2020-08-28 2020-08-28 一种面向多源异构资源的本体融合前处理方法

Country Status (1)

Country Link
CN (1) CN112000725B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612840A (zh) * 2020-12-29 2021-04-06 清华大学 异构数据的处理方法、装置、设备及存储介质
CN113139022B (zh) * 2021-04-29 2022-09-13 同济大学 一种基于混合规则的企业物流数据按需融合方法
CN113360518B (zh) * 2021-06-07 2023-03-21 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113792157B (zh) * 2021-09-14 2022-10-25 哈尔滨工业大学 一种面向领域机理知识库的构建方法
CN113626564B (zh) * 2021-10-09 2021-12-17 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
TWI810946B (zh) * 2022-05-24 2023-08-01 鴻海精密工業股份有限公司 圖像識別方法、電腦設備及儲存介質
CN115328909A (zh) * 2022-08-05 2022-11-11 广东外语外贸大学南国商学院 面向数据资产增值的大数据加工成形方法与模型
CN116627635B (zh) * 2023-05-11 2024-07-02 中电金信软件有限公司 一种资源使用方法、装置及电子设备
CN116756253B (zh) * 2023-08-18 2023-10-27 北京四维纵横数据技术有限公司 关系型数据库的数据存储、查询方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8433715B1 (en) * 2009-12-16 2013-04-30 Board Of Regents, The University Of Texas System Method and system for text understanding in an ontology driven platform
US9208223B1 (en) * 2010-08-17 2015-12-08 Semantifi, Inc. Method and apparatus for indexing and querying knowledge models
CN111221887A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种对数据湖服务器中的数据进行管理和访问的方法
CN111078868A (zh) * 2019-06-04 2020-04-28 中国人民解放军92493部队参谋部 基于知识图谱分析的装备试验体系规划决策的方法及系统
CN110309234B (zh) * 2019-06-14 2023-06-09 广发证券股份有限公司 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN110321394A (zh) * 2019-07-09 2019-10-11 中国电子科技集团公司第二十八研究所 基于知识图谱的网络安全数据组织方法及计算机存储介质
CN111428054B (zh) * 2020-04-14 2022-11-01 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111538847A (zh) * 2020-04-16 2020-08-14 北方民族大学 一种宁夏水稻知识图谱构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法

Also Published As

Publication number Publication date
CN112000725A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112000725B (zh) 一种面向多源异构资源的本体融合前处理方法
CN111708773B (zh) 一种多源科创资源数据融合方法
Su et al. ODE: Ontology-assisted data extraction
KR101082814B1 (ko) 키워드를 이용한 온톨로지 정보 검색 방법 및 장치
CN111753099A (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
Comyn-Wattiau et al. Model driven reverse engineering of NoSQL property graph databases: The case of Neo4j
CN114218472A (zh) 基于知识图谱的智能搜索系统
CN113094449B (zh) 基于分布式键值库的大规模知识图谱存储方法
CN107992608B (zh) 一种基于关键字上下文的sparql查询语句自动生成方法
Abbes et al. MongoDB-based modular ontology building for big data integration
CN110019554B (zh) 数据驱动型应用的数据模型、数据建模系统和方法
CN113377739A (zh) 知识图谱应用方法、平台、电子设备及存储介质
CN115658919A (zh) 一种文化信息数字化存储方法
Ren et al. Rules and implementation for generating Ontology from relational database
CN114880483A (zh) 一种元数据知识图谱构建方法、存储介质及系统
Pasha et al. Building domain ontologies from relational database using mapping rules
Xu et al. Semantic annotation of ontology by using rough concept lattice isomorphic model
Tang et al. Ontology-based semantic retrieval for education management systems
Mahmoud et al. Using semantic web technologies to improve the extract transform load model
Su-Cheng et al. Mapping of extensible markup language-to-ontology representation for effective data integration
Gebril et al. Transforming Relational Databases into OWL Ontology: Methods and Perspectives
Alaoui et al. Automatic Mapping of Relational Databases to OWL Antology
Fang et al. RDF Date Storage Scheme Based on Graph Database
Singh et al. An architecture of DSP tool for publishing the heterogeneous data in dataspace
Meng et al. Factor Query Language (FQL): A Fundamental Language for the Next Generation of Intelligent Database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant