CN109783599A - 基于多种存储介质的知识图谱检索方法及系统 - Google Patents
基于多种存储介质的知识图谱检索方法及系统 Download PDFInfo
- Publication number
- CN109783599A CN109783599A CN201811636233.5A CN201811636233A CN109783599A CN 109783599 A CN109783599 A CN 109783599A CN 201811636233 A CN201811636233 A CN 201811636233A CN 109783599 A CN109783599 A CN 109783599A
- Authority
- CN
- China
- Prior art keywords
- index
- storage
- module
- data
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多种存储介质的知识图谱检索方法及系统,利用全文搜索引擎访问全局ID;将所述全局ID利用图数据库检索相互关联的实体,查询所有关联ID;所述关联ID利用分布式数据存储系统检索结构化数据。本发明有益效果:大幅提升检索结果的广度和深度,为用户提供更加精准快捷的检索体验。
Description
技术领域
本发明涉及信息检索技术领域,具体来说,涉及一种基于多种存储介质的知识图谱检索方法及系统。
背景技术
随着互联网的发展,网络数据内容呈现爆炸式增长的态势。互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。
全文检索是目前广泛应用的主流检索技术。通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户。
全文检索的方法主要分为按字检索和按词检索两种:一种是按字检索是对文章中的每一个字建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。另一种是按词检索是对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的。
知识图谱(Knowledge Graph),显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱以其强大的语义处理能力和开放组织能力,为数据信息的精准快速检索提供技术基础。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于多种存储介质的知识图谱检索方法及系统,能够传统检索方法中返回的结果只包含关键字内容。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于多种存储介质的知识图谱检索方法,包括以下步骤:
利用全文搜索引擎访问全局ID;
将所述全局ID利用图数据库检索相互关联的实体,查询所有关联ID;
所述关联ID利用分布式数据存储系统检索结构化数据。
进一步地,所述利用全文搜索引擎访问唯一全局ID包括:
索引文件通过语言处理生成系列词;
将所述系列词通过创建索引生成反向索引表;
通过索引存储将所述反向索引表输入存储装置。
进一步地,所述利用全文搜索引擎访问唯一全局ID还包括:
分析查询语句生成系列词;
分析所述系列词生成查询树;
通过索引存储将索引读入存储装置;
利用所述查询树搜索所述索引生成文档链表,对所述文档链表进行交差。
进一步地,所述将全局ID利用图数据库检索相互关联的实体,查询所有关联ID包括:
生成数据的图结构模型;
将索引通过属性值查找节点或关系;
结合查询语句进行深度检索。
进一步地,所述关联ID利用分布式数据存储系统检索结构化数据包括:
根据所述全局ID在数据库中查询到对应的结构化数据;
解析所述结构化数据,返回数据信息。
本发明的另一方面,提供一种基于多种存储介质的知识图谱检索系统,包括:
全文检索模块,用于利用全文搜索引擎访问全局ID;
关联检索模块,用于将所述全局ID利用图数据库检索相互关联的实体,查询所有关联ID;
属性检索模块,用于所述关联ID利用分布式数据存储系统检索结构化数据。
进一步地,所述全文检索模块包括:
语言处理模块,用于索引文件通过语言处理生成系列词;
第一生成模块,用于将所述系列词通过创建索引生成反向索引表;
第一存储模块,用于通过索引存储将所述反向索引表输入存储装置。
进一步地,所述全文检索模块还包括:
第一分析模块,用于分析查询语句生成系列词;
第二分析模块,用于分析所述系列词生成查询树;
第二存储模块,用于通过索引存储将索引读入存储装置;
搜索模块,用于利用所述查询树搜索所述索引生成文档链表,对所述文档链表进行交差。
进一步地,所述查询模块包括:
第二生成模块,用于生成数据的图结构模型;
第二查询模块,用于将索引通过属性值查找节点或关系;
深度检索模块,用于结合查询语句进行深度检索。
进一步地,所述检索模块包括:
第三查询模块,用于根据全局ID在数据库中查询到对应的结构化数据;
解析模块,用于解析结构化数据,返回数据信息。
本发明的有益效果:实现检索广度和深度的提升,提供更加全面和精准的检索结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于多种存储介质的知识图谱检索方法的流程图;
图2是根据本发明实施例所述的全文检索的流程图;
图3是根据本发明实施例所述的关联检索的流程图;
图4是根据本发明实施例所述的属性检索的流程图;
图5是根据本发明实施例所述的基于多种存储介质的知识图谱检索系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种基于多种存储介质的知识图谱检索方法,包括以下步骤:
利用全文搜索引擎访问全局ID;
将所述全局ID利用图数据库检索相互关联的实体,查询所有关联ID;
所述关联ID利用分布式数据存储系统检索结构化数据。
具体的,通过关键字使用全文搜索引擎,返回唯一全局ID,其中,全局搜索引擎是ElasticSearch;在图数据库中根据全局ID检索相互关联的实体,返回所有关联ID,其中,图数据库是neo4j;在分布式数据存储系统中,根据每条ID检索相关的结构化数据,最终范围相应的属性结果,其中,分布式数据库是hbase。
如图2所示,在本发明的一个具体实施例中,所述利用全文搜索引擎访问唯一全局ID包括:
索引文件通过语言处理生成系列词;
将所述系列词通过创建索引生成反向索引表;
通过索引存储将所述反向索引表输入存储装置。
具体的,在创建索引的过程中,具体流程如下:
1、一系列被索引文件,其中,全文检索数据库中存储的信息包括工业数据在内的非结构化数据;
2、被索引文件经过语法分析和语言处理形成一系列词;
2.1)将原文档传给分词器,将文档分成一个一个单独的单词,去除标点符号,去除停词。
2.2)将得到的词元传给语言处理组件,经过语言处理,得到一系列词。
3、经过索引创建形成词典和反向索引表;
3.1) 将得到的词传给索引组件,利用得到的词创建一个字典,对字典按字母顺序进行排序,合并相同的词成为文档倒排链表。
4、通过索引存储将索引写入硬盘。
创建索引后通过以上步骤找到想要的数据。
如图2所示,在本发明的一个具体实施例中,所述利用全文搜索引擎访问唯一全局ID还包括:
分析查询语句生成系列词;
分析所述系列词生成查询树;
通过索引存储将索引读入存储装置;
利用所述查询树搜索所述索引生成文档链表,对所述文档链表进行交差。
具体的,搜索过程如下:
a) 用户输入查询语句;
查询语句的语法根据全文检索系统的实现而不同。
b) 对查询语句经过语法分析和语言分析得到一系列词;
c) 通过语法分析得到一个查询树;
d) 通过索引存储将索引读入到内存;
e) 利用查询树搜索索引,从而得到每个词的文档链表,对文档链表进行交差,并得到结果文档;
e.1) 在反向索引表中,分别找出包含每个关键字的文档链表;
e.2)对包含每个关键字的链表进行合并操作,得到既包含关键字1又包含关键字2的文档链表;
e.3)然后,将多个链表进行差操作,得到既包含关键字1又包含关键字2的数据链表。
f) 返回查询结果。
如图3所示,在本发明的一个具体实施例中,所述将全局ID利用图数据库检索相互关联的实体,查询所有关联ID包括:
生成数据的图结构模型;
具体的,图形数据结构建模:将图数据库中存储的是各数据实体及实体间的关系,图数据库为neo4j;通过分析包括工业数据在内的数据信息,从中提取出各信息的实体节点以及实体之间的关系;通过实体节点及关联关系,生成数据的图结构模型。
将索引通过属性值查找节点或关系;
其中,使用索引以确定在图形数据库中从哪里开始,Neo4j的索引通过特定的属性值查找节点或关系。
结合查询语句进行深度检索。
其中,用户输入查询语句,查询语句的语法根据数据库的使用而不同;深度遍历:在图论中有两个主要顺序算法,深度优先和广度优先算法,根据图数据模型使用效果最佳的算法,最后返回查询结果。
如图4所示,在本发明的一个具体实施例中,在分布式数据存储系统中,根据关联ID检索相关的结构化数据包括:
根据所述全局ID在数据库中查询到对应的结构化数据;
解析所述结构化数据,返回预期格式的数据信息。
具体的,包括用户输入查询语句和根据全局ID在数据库中查询到对应的结构化数据;其中,用户输入查询语句:查询语句的语法根据数据库的使用而不同,使用的是非关系型数据库Hbase;
根据全局ID在数据库中查询到对应的结构化数据具体流程如下:
1) Client通过内部缓存的相关的-ROOT-中的信息和.META.中的信息直接连接,请求数据匹配的HRegionserver;
2)定位到该服务器上与客户请求对应的region,客户请求首先会查询该region在内存中的缓存——memstore;
3)如果在memstore中查到结果则直接将结果返回给client;
4)在memstore中没有查到匹配的数据,接下来会读已持久化的storefile文件中的数据。storefile是按key排序的树形结构的文件,hbase读取磁盘文件按其基本I/O单元读数据;
5)如果在BlockCache中能查到要造的数据则返回结果,否则就读去相应的storefile文件中读取block的数据,如果还没有读到要查的数据,就将该数据block放到HRegionServer的blockcache中,然后接着读下一block块儿的数据,一直到这样循环的block数据直到找到要请求的数据并返回结果;如果将该region中的数据都没有查到要找的数据,最后接直接返回null,表示没有找的匹配的数据。
如图5所示,本发明的另一方面,提供一种基于多种存储介质的知识图谱检索系统,包括:
全文检索模块,用于利用全文搜索引擎访问全局ID;
关联检索模块,用于将所述全局ID利用图数据库检索相互关联的实体,查询所有关联ID;
属性检索模块,用于所述关联ID利用分布式数据存储系统检索结构化数据。
在本发明的一个具体实施例中,所述全文检索模块包括:
语言处理模块,用于索引文件通过语言处理生成系列词;
第一生成模块,用于将所述系列词通过创建索引生成反向索引表;
第一存储模块,用于通过索引存储将所述反向索引表输入存储装置。
在本发明的一个具体实施例中,所述全文检索模块还包括:
第一分析模块,用于分析查询语句生成系列词;
第二分析模块,用于分析所述系列词生成查询树;
第二存储模块,用于通过索引存储将索引读入存储装置;
搜索模块,用于利用所述查询树搜索所述索引生成文档链表,对所述文档链表进行交差。
在本发明的一个具体实施例中,所述查询模块包括:
第二生成模块,用于生成数据的图结构模型;
第二查询模块,用于将索引通过属性值查找节点或关系;
深度检索模块,用于结合查询语句进行深度检索。
在本发明的一个具体实施例中,所述检索模块包括:
第三查询模块,用于根据全局ID在数据库中查询到对应的结构化数据;
解析模块,用于解析结构化数据,返回数据信息。
综上所述,借助于本发明的上述技术方案,实现检索广度和深度的提升,提供更加全面和精准的检索结果;由传统的文本指定检索转为海量数据的检索、从文本分析为核心转变成了知识发现为核心、使检索结果真正为用户想要的结果而不是单纯的给出相关词条。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多种存储介质的知识图谱检索方法,其特征在于,包括以下步骤:
利用全文搜索引擎访问全局ID;
将所述全局ID利用图数据库检索相互关联的实体,查询所有关联ID;
所述关联ID利用分布式数据存储系统检索结构化数据。
2.根据权利要求1所述的基于多种存储介质的知识图谱检索方法,其特征在于,所述利用全文搜索引擎访问唯一全局ID包括:
索引文件通过语言处理生成系列词;
将所述系列词通过创建索引生成反向索引表;
通过索引存储将所述反向索引表输入存储装置。
3.根据权利要求1所述的基于多种存储介质的知识图谱检索方法,其特征在于,所述利用全文搜索引擎访问唯一全局ID还包括:
分析查询语句生成系列词;
分析所述系列词生成查询树;
通过索引存储将索引读入存储装置;
利用所述查询树搜索所述索引生成文档链表,对所述文档链表进行交差。
4.根据权利要求1所述的基于多种存储介质的知识图谱检索方法,其特征在于,所述将全局ID利用图数据库检索相互关联的实体,查询所有关联ID包括:
生成数据的图结构模型;
将索引通过属性值查找节点或关系;
结合查询语句进行深度检索。
5.根据权利要求1-4任一项所述的基于多种存储介质的知识图谱检索方法,其特征在于,所述关联ID利用分布式数据存储系统检索结构化数据包括:
根据所述全局ID在数据库中查询到对应的结构化数据;
解析所述结构化数据,返回数据信息。
6.一种基于多种存储介质的知识图谱检索系统,其特征在于,包括:
全文检索模块,用于利用全文搜索引擎访问全局ID;
关联检索模块,用于将所述全局ID利用图数据库检索相互关联的实体,查询所有关联ID;
属性检索模块,用于所述关联ID利用分布式数据存储系统检索结构化数据。
7.根据权利要求6所述的基于多种存储介质的知识图谱检索系统,其特征在于,所述全文检索模块包括:
语言处理模块,用于索引文件通过语言处理生成系列词;
第一生成模块,用于将所述系列词通过创建索引生成反向索引表;
第一存储模块,用于通过索引存储将所述反向索引表输入存储装置。
8.根据权利要求6所述的基于多种存储介质的知识图谱检索系统,其特征在于,所述全文检索模块还包括:
第一分析模块,用于分析查询语句生成系列词;
第二分析模块,用于分析所述系列词生成查询树;
第二存储模块,用于通过索引存储将索引读入存储装置;
搜索模块,用于利用所述查询树搜索所述索引生成文档链表,对所述文档链表进行交差。
9.根据权利要求6所述的基于多种存储介质的知识图谱检索系统,其特征在于,所述查询模块包括:
第二生成模块,用于生成数据的图结构模型;
第二查询模块,用于将索引通过属性值查找节点或关系;
深度检索模块,用于结合查询语句进行深度检索。
10.根据权利要求6-9任一项所述的基于多种存储介质的知识图谱检索系统,其特征在于,所述检索模块包括:
第三查询模块,用于根据全局ID在数据库中查询到对应的结构化数据;
解析模块,用于解析结构化数据,返回数据信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811636233.5A CN109783599A (zh) | 2018-12-29 | 2018-12-29 | 基于多种存储介质的知识图谱检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811636233.5A CN109783599A (zh) | 2018-12-29 | 2018-12-29 | 基于多种存储介质的知识图谱检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109783599A true CN109783599A (zh) | 2019-05-21 |
Family
ID=66497967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811636233.5A Pending CN109783599A (zh) | 2018-12-29 | 2018-12-29 | 基于多种存储介质的知识图谱检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783599A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797243A (zh) * | 2020-07-03 | 2020-10-20 | 中国烟草总公司湖南省公司 | 知识图谱数据系统构建方法、系统、终端及可读存储介质 |
CN111858483A (zh) * | 2020-07-29 | 2020-10-30 | 湖南泛联新安信息科技有限公司 | 基于多种数据库与文件系统的软件样本混合存储系统 |
CN111930879A (zh) * | 2020-07-10 | 2020-11-13 | 银盛支付服务股份有限公司 | 一种基于管理系统的全文搜索引擎方法及系统 |
CN113761213A (zh) * | 2020-06-01 | 2021-12-07 | Tcl科技集团股份有限公司 | 一种基于知识图谱的数据查询系统、方法及终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943810A (zh) * | 2016-10-13 | 2018-04-20 | 分众(中国)信息技术有限公司 | 楼宇信息地图的构建方法 |
CN108446367A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种基于知识图谱的包装行业数据搜索方法及设备 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
CN108920716A (zh) * | 2018-07-27 | 2018-11-30 | 中国电子科技集团公司第二十八研究所 | 基于知识图谱的数据检索与可视化系统及方法 |
-
2018
- 2018-12-29 CN CN201811636233.5A patent/CN109783599A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943810A (zh) * | 2016-10-13 | 2018-04-20 | 分众(中国)信息技术有限公司 | 楼宇信息地图的构建方法 |
CN108446367A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种基于知识图谱的包装行业数据搜索方法及设备 |
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
CN108920716A (zh) * | 2018-07-27 | 2018-11-30 | 中国电子科技集团公司第二十八研究所 | 基于知识图谱的数据检索与可视化系统及方法 |
Non-Patent Citations (3)
Title |
---|
VOLVO: "《https://www.talkwithtrend.com/Article/242835 twt企业IT交流平台》", 3 December 2018 * |
姜韶华 等: "《BIM空间关系数据的云存储与检索方法研究》", 《图学学报》 * |
杨强: "《基于知识图谱的核电设备知识平台建设》", 《数字中国 能源互联-2018电力行业信息化年会论文集》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761213A (zh) * | 2020-06-01 | 2021-12-07 | Tcl科技集团股份有限公司 | 一种基于知识图谱的数据查询系统、方法及终端设备 |
CN111797243A (zh) * | 2020-07-03 | 2020-10-20 | 中国烟草总公司湖南省公司 | 知识图谱数据系统构建方法、系统、终端及可读存储介质 |
CN111930879A (zh) * | 2020-07-10 | 2020-11-13 | 银盛支付服务股份有限公司 | 一种基于管理系统的全文搜索引擎方法及系统 |
CN111858483A (zh) * | 2020-07-29 | 2020-10-30 | 湖南泛联新安信息科技有限公司 | 基于多种数据库与文件系统的软件样本混合存储系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
US7519582B2 (en) | System and method for performing a high-level multi-dimensional query on a multi-structural database | |
US8756245B2 (en) | Systems and methods for answering user questions | |
US7792829B2 (en) | Table querying | |
US9424294B2 (en) | Method for facet searching and search suggestions | |
US6772141B1 (en) | Method and apparatus for organizing and using indexes utilizing a search decision table | |
Van Zwol et al. | Faceted exploration of image search results | |
KR101646754B1 (ko) | 모바일 시멘틱 검색 장치 및 그 방법 | |
CN109783599A (zh) | 基于多种存储介质的知识图谱检索方法及系统 | |
US20150154306A1 (en) | Method for searching related entities through entity co-occurrence | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
JP2004178604A (ja) | 情報検索装置及びその方法 | |
US8700624B1 (en) | Collaborative search apps platform for web search | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
Papadakos et al. | On exploiting static and dynamically mined metadata for exploratory web searching | |
Nawazish et al. | Integrating “random forest” with indexing and query processing for personalized search | |
Guerra et al. | Supporting image search with tag clouds: a preliminary approach | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
GB2520993A (en) | Indexing presentation slides | |
Priyadarshini et al. | Semantic clustering approach for documents in distributed system framework with multi-node setup | |
Saissi et al. | Towards XML schema extraction from deep web | |
KR100434718B1 (ko) | 문서 색인 시스템 및 그 방법 | |
Bharambe et al. | Landscape of web search results clustering algorithms | |
Xiao-Shu et al. | Cloud computing oriented retrieval technology based on big data | |
Chuang et al. | Improving the effectiveness of POI search by associated information summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190521 |
|
RJ01 | Rejection of invention patent application after publication |