CN106202564A - 一种基于ElasticSearch的本体关系数据搜索框架 - Google Patents

一种基于ElasticSearch的本体关系数据搜索框架 Download PDF

Info

Publication number
CN106202564A
CN106202564A CN201610622437.8A CN201610622437A CN106202564A CN 106202564 A CN106202564 A CN 106202564A CN 201610622437 A CN201610622437 A CN 201610622437A CN 106202564 A CN106202564 A CN 106202564A
Authority
CN
China
Prior art keywords
data
elasticsearch
schema
relation
ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610622437.8A
Other languages
English (en)
Inventor
王明君
柳廷娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201610622437.8A priority Critical patent/CN106202564A/zh
Publication of CN106202564A publication Critical patent/CN106202564A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种基于ElasticSearch的本体关系数据搜索框架。该基于ElasticSearch的本体关系数据搜索框架,通过对本体建模完成了本体的构建,通过对ES中数据Schema的建模实现了数据在ES中的存储,最终通过本体搜索算法以及关系计算算法实现了本体以及关系数据的搜索,进而实现了多维度、全息化、动态化的信息检索、关联、整合、统计和分析。

Description

一种基于ElasticSearch的本体关系数据搜索框架
技术领域
本发明涉及数据搜索技术领域,特别涉及一种基于ElasticSearch的本体关系数据搜索框架。
背景技术
本体的概念在上世纪90年代一经提出就引起了计算机各个领域激烈讨论与研究。本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明。本体的描述语言没有一致的标准,不同领域中构建的本体也存在很大的区别,不同本体的构建过程也相互不同。
在信息检索领域中,可以分为以下各个流程:首先构建应用领域的本体;收集信息源中的数据,并参照已经建立的本体,把收集来的数据按规定的格式进行本体实例的构建;对用户检索界面获取的查询请求,进行对本体实例以及相关关系的查询,经过对查询到的数据进行重新组织;按照一定的格式对查询的结果进行数据返回并显示。
语义网的实现是本体应用的终极目标,经过多年的研究与演化,语义网也有以前的定义:把web数据转化为计算机可理解的数据,转变为更加一般的概念:本体以及本体之间关系的表现形式。在构建好的本体上层再添加对本体之间关系的信息,从而把孤立的本体数据联系起来,从而实现更加广泛、新颖的应用。
本体经过20多年的研究,已经形成了很多构建方法以及本体描述方式。本体的描述可以有:非形式化语言、半非形式化语言、半形式化语言、形式化语言这四种方式。本体的构建也有最耗时耗力的人工构建,经由半自动构建,发展到了自动化构建。本体的构建速度越来越快,构建效果也越来越好。但是本体构建过程还有很多难点不易攻克,如:本体的构建过程是个费时费力的过程,需要完整的工程化、系统化的方法来支持,目前特定的领域本体还需要专家进行参与;通用的大规模本体很少,大多本体只是针对某个具体应用领域或应用而构造的;在实际应用中,不同本体之间常常需要进行映射、扩充与合并处理,以及根据特定的需要从一个大的本体中提取满足要求的小的本体等操作;此外,当现实的知识体系发生变化时,先前构造的本体必须作出相应的演化以保持本体与现实的一致性,这都是本体工程所需研究的问题。
语义网在发展过程中已逐步演化为知识图谱,知识图谱的描述与构建亦有很多方式。描述可用本体论语言(OWL Web Ontology Language),亦可用资源描述框架RDF(Resource Description Framework)来进行描述。
传统的搜索引擎只能搜索出现关键词的文档或者可以搜索一些简单的关系(如百度百科中的亲属信息),很难在搜索过程中对搜索的结果再进行相应的关系信息处理。基于此,本发明设计了一种基于ElasticSearch的本体关系数据搜索框架。该方法基于自定义本体描述Schema来进行本体定义,并结合ElasticSearch中基本数据结构Document,手动创建对应关系,保证数据的完备性;并通过手动或半自动方式构建本体与本体或属性与属性的关系数据结构,最终生成三元组(本体1,关系,本体2)或者(属性1,关系,属性2)的形式,这样的三元组即表示一条关系。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于ElasticSearch的本体关系数据搜索框架。
本发明是通过如下技术方案实现的:
一种基于ElasticSearch的本体关系数据搜索框架,其特征在于包括以下步骤:
(1)对本体以及关系的描述进行确定,本体描述Schema的确定标志着本体可以被更加精确的描述,描述Schema是本体构建的基础;
(2)从原始数据中进行本体以及关系的构建,原始数据分为结构化数据以及非结构化数据,采用自动与人工结合的方式来实现本体以及关系的构建,人工再对构建好的本体数据进行校正,保证数据的高质量;
(3)通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据;
(4)用ElasticSearch工具进行数据搜索,并最终展示。
所述步骤(2)中,结构化数据包括人,事,物,地点和机构数据;非结构化数据包括网页文档和图片数据。
所述步骤(3)中,在ES框架中保存本体的Schema与所述步骤(1)中本体描述Schema相一致。
本发明的有益效果是:该基于ElasticSearch的本体关系数据搜索框架,通过对本体建模完成了本体的构建,通过对ES中数据Schema的建模实现了数据在ES中的存储,最终通过本体搜索算法以及关系计算算法实现了本体以及关系数据的搜索,进而实现了多维度、全息化、动态化的信息检索、关联、整合、统计和分析。
附图说明
附图1为本发明基于ElasticSearch的本体关系数据搜索框架结构示意图。
附图2为本发明基于ElasticSearch的本体关系数据搜索框架方法示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于ElasticSearch的本体关系数据搜索框架,包括以下步骤:
(1)对本体以及关系的描述进行确定,本体描述Schema的确定标志着本体可以被更加精确的描述,描述Schema是本体构建的基础;
(2)从原始数据中进行本体以及关系的构建,原始数据分为结构化数据以及非结构化数据,采用自动与人工结合的方式来实现本体以及关系的构建,人工再对构建好的本体数据进行校正,保证数据的高质量,这样可以把人的价值发挥到最大,使得工作更加智能;
所述步骤(2)中,结构化数据包括人,事,物,地点和机构数据;非结构化数据包括网页文档和图片数据。
(3)通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据;
所述步骤(3)中,在ES框架中保存本体的Schema与所述步骤(1)中本体描述Schema相一致。
(4)用ElasticSearch工具进行数据搜索,并最终展示。
下面以公安行业中的人、案、物、单位等概念为例进行说明。
1、确定本体描述Schema:在领域内专家的帮助下,针对公安行业中的人、案、物、单位等概念进行抽象,并通过描述Schema的形式对不同的本体进行描述,具体如下:
(1)人本体主要包括:姓名、性别、出生日期、民族、学历、行政区划、证件号(身份证、军官证等)籍贯等;
(2)案本体主要包括:案件类型、案件说明、时间、地址、当事人名、单位、警号、警员名、警情单号、主要线索(关键词)等;
(3)物本体主要包括:物品名称、物品种类、物品颜色、物品所有人、物品购买路径等;
(4)单位本体主要包括:单位名称、单位编号、法人代表、法人代表证件号、单位所在地区、详细地址、联系电话等。
2、确定ElasticSearch框架Schema:通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据,在ES中保存本体的Schema通常与本体描述Schema相一致。
(1)人本体主要包括:姓名(Name)、性别(Gender)、出生日期(Birthday)、民族(Nation)、学历(Education)、行政区划(Address)、证件号(ID)籍贯(Birthplace)等;
(2)案本体主要包括:案件类型(CaseType)、案件说明(Content)、时间(Time)、地址(Address)、当事人名(PName)、单位(Organization)、警号(PoliceID)、警员名(PoliceName)、警情单号(CaseID)、主要线索(KeyWord)等;
(3)物本体主要包括:物品名称(Name)、物品种类(Type)、物品颜色(Color)、物品所有人(Owner)、物品购买路径(BuyBy)等;
(4)单位本体主要包括:单位名称(Name)、单位编号(ID)、法人代表(Representative)、法人代表证件号(RepID)、单位所在地区(State)、详细地址(Address)、联系电话(Telephone)等。
该基于ElasticSearch的本体关系数据搜索框架,通过底层的数据构建可以把感兴趣的东西抽象成本体,通过对本体的建立、导入、关联关系建立、图关系计算等功能对搜索过程进行技术实现,并对展示进行统一化标准建立。
由于该基于ElasticSearch的本体关系数据搜索框架把整个流程都进行了把控,每个功能流程分离,可以实现功能的重用,并通过技术的支持不仅可以实现实体的查询,还可以实现对关系的查询,最终对整个查询进行了实现,从而对数据的整个描述更加丰满,提供给用户更加详细的信息,有着广阔的应用前景。

Claims (3)

1.一种基于ElasticSearch的本体关系数据搜索框架,其特征在于包括以下步骤:
(1)对本体以及关系的描述进行确定,本体描述Schema的确定标志着本体可以被更加精确的描述,描述Schema是本体构建的基础;
(2)从原始数据中进行本体以及关系的构建,原始数据分为结构化数据以及非结构化数据,采用自动与人工结合的方式来实现本体以及关系的构建,人工再对构建好的本体数据进行校正,保证数据的高质量;
(3)通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据;
(4)用ElasticSearch工具进行数据搜索,并最终展示。
2.根据权利要求1所述的基于ElasticSearch的本体关系数据搜索框架,其特征在于:所述步骤(2)中,结构化数据包括人,事,物,地点和机构数据;非结构化数据包括网页文档和图片数据。
3.根据权利要求1所述的基于ElasticSearch的本体关系数据搜索框架,其特征在于:所述步骤(3)中,在ES框架中保存本体的Schema与所述步骤(1)中本体描述Schema相一致。
CN201610622437.8A 2016-08-02 2016-08-02 一种基于ElasticSearch的本体关系数据搜索框架 Pending CN106202564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610622437.8A CN106202564A (zh) 2016-08-02 2016-08-02 一种基于ElasticSearch的本体关系数据搜索框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610622437.8A CN106202564A (zh) 2016-08-02 2016-08-02 一种基于ElasticSearch的本体关系数据搜索框架

Publications (1)

Publication Number Publication Date
CN106202564A true CN106202564A (zh) 2016-12-07

Family

ID=57498605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610622437.8A Pending CN106202564A (zh) 2016-08-02 2016-08-02 一种基于ElasticSearch的本体关系数据搜索框架

Country Status (1)

Country Link
CN (1) CN106202564A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874819A (zh) * 2017-05-11 2018-11-23 上海醇聚信息科技有限公司 一种数据库的数据挖掘方法
CN108874924A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 搜索服务的创建方法、装置及计算机可读存储介质
CN112528044A (zh) * 2020-12-22 2021-03-19 北京明略软件系统有限公司 用于知识抽取的方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827125A (zh) * 2010-03-31 2010-09-08 吉林大学 语义Web服务本体及其应用
US7926027B2 (en) * 2004-10-19 2011-04-12 Microsoft Corporation Binding to business objects and web services
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7926027B2 (en) * 2004-10-19 2011-04-12 Microsoft Corporation Binding to business objects and web services
CN101827125A (zh) * 2010-03-31 2010-09-08 吉林大学 语义Web服务本体及其应用
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜康等: "基于ElasticSearch 的元数据搜索与共享平台", 《计算机与现代化》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874819A (zh) * 2017-05-11 2018-11-23 上海醇聚信息科技有限公司 一种数据库的数据挖掘方法
CN108874819B (zh) * 2017-05-11 2021-09-03 上海醇聚信息科技有限公司 一种数据库的数据挖掘方法
CN108874924A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 搜索服务的创建方法、装置及计算机可读存储介质
CN108874924B (zh) * 2018-05-31 2022-11-04 康键信息技术(深圳)有限公司 搜索服务的创建方法、装置及计算机可读存储介质
CN112528044A (zh) * 2020-12-22 2021-03-19 北京明略软件系统有限公司 用于知识抽取的方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN110489395B (zh) 自动获取多源异构数据知识的方法
CN107391677B (zh) 携带实体关系属性的中文通用知识图谱的生成方法及装置
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
JP7468929B2 (ja) 地理知識取得方法
CN105989150B (zh) 一种基于大数据环境的数据查询方法及装置
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索系统
CN102087669A (zh) 基于语义关联的智能搜索引擎系统
CN114218400A (zh) 基于语义的数据湖查询系统及方法
CN110275919B (zh) 数据集成方法及装置
Hazber et al. Integration mapping rules: Transforming relational database to semantic web ontology
Steer et al. Cytosm: Declarative property graph queries without data migration
CN109063114B (zh) 能源云平台的异构数据集成方法、装置、终端及存储介质
CN106202564A (zh) 一种基于ElasticSearch的本体关系数据搜索框架
CN116108194A (zh) 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备
CN108959366B (zh) 一种开放性问答的方法
CN106021306A (zh) 基于本体匹配的案例搜索系统
WO2022095121A1 (zh) 一种基于语义本体的广彩瓷知识库的构建方法
Jyothi et al. A study on big data modelling techniques
Futia et al. Training neural language models with sparql queries for semi-automatic semantic mapping
CN105320715A (zh) 基于本体的语义查询方法
CN115905554A (zh) 一种基于多学科分类的中文学术知识图谱构建方法
Xu et al. Semantic annotation of ontology by using rough concept lattice isomorphic model
Mahmoud et al. Using semantic web technologies to improve the extract transform load model
Naz et al. Fully automatic OWL generator from RDB schema

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207