CN112395365B - 一种知识图谱批量离线查询解决方案 - Google Patents
一种知识图谱批量离线查询解决方案 Download PDFInfo
- Publication number
- CN112395365B CN112395365B CN201910747130.4A CN201910747130A CN112395365B CN 112395365 B CN112395365 B CN 112395365B CN 201910747130 A CN201910747130 A CN 201910747130A CN 112395365 B CN112395365 B CN 112395365B
- Authority
- CN
- China
- Prior art keywords
- degree
- batch
- query
- entities
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种知识图谱批量离线查询解决方案,该解决方案核心思路是将原有的图谱数据库内部执行的多度查询分解为多个1度K层展开,辅以图谱数据库的部分改造,具体实施细节如下:1)首先由Java应用程序往Spark Graphx传入开始检索的批量实体。有益效果在于:本发明通过对批量实体进行分类存储,并对图谱数据库进行了定制化改造,使得接口可接收的K层展开目标实体不局限于单个,而是允许按照类型对多个实体进行批量处理,从而减少应用程序和图谱数据库之间的交互通信次数,进而能够在实体及关系的总和超过100亿的数据量下,进行1万个以上节点的K层展开和多对多实体关系1度以上的批量离线查询时,能够有效将耗时降低到60秒,提高了查询的效率。
Description
技术领域
本发明涉及到知识图谱的快速批量查询技术领域,尤其涉及一种知识图谱批量离线查询解决方案。
背景技术
知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
当在实体及关系的总和超过100亿的数据量下,进行1万个以上节点的K层展开和多对多实体关系1度以上的批量离线查询时,图谱数据库原有提供的查询功能返回结果耗时超过30分钟,查找效率低下,不能满足用户需求。
发明内容
本发明的目的就在于为了解决上述问题而提供一种知识图谱批量离线查询解决方案。
本发明通过以下技术方案来实现上述目的:
一种知识图谱批量离线查询解决方案,该解决方案核心思路是将原有的图谱数据库内部执行的多度查询分解为多个1度K层展开,辅以图谱数据库的部分改造,具体实施细节如下:
1)首先由Java应用程序往Spark Graphx传入开始检索的批量实体;
2)Spark Graphx应用程序对批量实体进行分类,分批在图谱数据库中进行1度K层展开,结果存入Hive;
3)Spark Graphx应用程序取得该批次的K层展开结果,对1度关联的实体进行下一次的1度K层展开,按这样的过程重复执行,直到到达指定的查询深度或者没有更多的关联实体为止;
4)在全部1度K层展开执行结束后,Spark Graphx应用程序加载所有的中间结果,关系数据按照上一度结果的终点连接下一度结果的起点的形式进行拼接,然后返回最终的结果集;
5)该方案同时对图谱数据库进行了定制化改造,接口可接收的K层展开目标实体不局限于单个,而是允许按照类型对多个实体进行批量处理,从而减少应用程序和图谱数据库之间的交互通信次数。
进一步的,该知识图谱批量离线查询解决方案的软件运行流程如下:
1)由Program-01组装查询条件并交由Program-02进行步骤2查询;
2)由Program-02利用Spark Graphx分布式计算技术分步分批查询得到实体及关系数据,并组装最终结果。
进一步的,在实体及关系的总和超过100亿的数据量下,进行1万个以上节点的K层展开和多对多实体关系1度以上的批量离线查询时,能够有效将耗时降低到60秒。
本发明的有益效果在于:
本发明通过对批量实体进行分类存储,并对图谱数据库进行了定制化改造,使得接口可接收的K层展开目标实体不局限于单个,而是允许按照类型对多个实体进行批量处理,从而减少应用程序和图谱数据库之间的交互通信次数,进而能够在实体及关系的总和超过100亿的数据量下,进行1万个以上节点的K层展开和多对多实体关系1度以上的批量离线查询时,能够有效将耗时降低到60秒,提高了查询的效率。
附图说明
图1为本发明所述的一种知识图谱批量离线查询解决方案的软件运行流程框图。
附图标记说明如下:
Program-01:计算机Java语言编写的应用程序;
Program-02:基于图计算分布式引擎Spark Graphx编写的计算模块;
DataCluster-01:图谱数据库集群;
DB-01至DB-n:图谱数据库集群中的单个数据库服务器;
Flow-01:指代知识图谱离线查询过程的第1个步骤;
Flow-02:指代知识图谱离线查询过程的第2个步骤。
具体实施方式
下面结合附图来详细说明本发明。
一种知识图谱批量离线查询解决方案,该解决方案核心思路是将原有的图谱数据库内部执行的多度查询分解为多个1度K层展开,辅以图谱数据库的部分改造,具体实施细节如下:
1)首先由Java应用程序往Spark Graphx传入开始检索的批量实体;
2)Spark Graphx应用程序对批量实体进行分类,分批在图谱数据库中进行1度K层展开,结果存入Hive;
3)Spark Graphx应用程序取得该批次的K层展开结果,对1度关联的实体进行下一次的1度K层展开,按这样的过程重复执行,直到到达指定的查询深度或者没有更多的关联实体为止;
4)在全部1度K层展开执行结束后,Spark Graphx应用程序加载所有的中间结果,关系数据按照上一度结果的终点连接下一度结果的起点的形式进行拼接,然后返回最终的结果集;
5)该方案同时对图谱数据库进行了定制化改造,接口可接收的K层展开目标实体不局限于单个,而是允许按照类型对多个实体进行批量处理,从而减少应用程序和图谱数据库之间的交互通信次数。
本实施例中,该知识图谱批量离线查询解决方案的软件运行流程如下:
1)由Program-01组装查询条件并交由Program-02进行步骤2查询;
2)由Program-02利用Spark Graphx分布式计算技术分步分批查询得到实体及关系数据,并组装最终结果。
本实施例中,在实体及关系的总和超过100亿的数据量下,进行1万个以上节点的K层展开和多对多实体关系1度以上的批量离线查询时,能够有效将耗时降低到60秒。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种知识图谱批量离线查询方法,其特征在于:将原有的图谱数据库内部执行的多度查询分解为多个1度K层展开,辅以图谱数据库的部分改造,具体实施细节如下:
1)首先由Java应用程序往Spark Graphx传入开始检索的批量实体;
2)Spark Graphx应用程序对批量实体进行分类,分批在图谱数据库中进行1度K层展开,结果存入Hive;
3)Spark Graphx应用程序取得该批次的K层展开结果,对1度关联的实体进行下一次的1度K层展开,按这样的过程重复执行,直到到达指定的查询深度或者没有更多的关联实体为止;
4)在全部1度K层展开执行结束后,Spark Graphx应用程序加载所有的中间结果,关系数据按照上一度结果的终点连接下一度结果的起点的形式进行拼接,然后返回最终的结果集;
该知识图谱批量离线查询方法的软件运行流程如下:
1)由Program-01组装查询条件并交由Program-02进行步骤2) 查询;
2)由Program-02利用Spark Graphx分布式计算技术分步分批查询得到实体及关系数据,并组装最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910747130.4A CN112395365B (zh) | 2019-08-14 | 2019-08-14 | 一种知识图谱批量离线查询解决方案 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910747130.4A CN112395365B (zh) | 2019-08-14 | 2019-08-14 | 一种知识图谱批量离线查询解决方案 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395365A CN112395365A (zh) | 2021-02-23 |
CN112395365B true CN112395365B (zh) | 2022-02-08 |
Family
ID=74602699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910747130.4A Active CN112395365B (zh) | 2019-08-14 | 2019-08-14 | 一种知识图谱批量离线查询解决方案 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395365B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290560B (zh) * | 2023-11-23 | 2024-02-23 | 支付宝(杭州)信息技术有限公司 | 图计算任务中获取图数据的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537065A (zh) * | 2014-12-29 | 2015-04-22 | 北京奇虎科技有限公司 | 一种搜索结果的推送方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9483733B2 (en) * | 2013-09-09 | 2016-11-01 | Xerox Corporation | Global regular expression backreferences |
US10324964B2 (en) * | 2014-01-16 | 2019-06-18 | Massachusetts Institute Of Technology | Method and systems for enhanced ontology assisted querying of data stores |
CN105069039B (zh) * | 2015-07-22 | 2018-05-18 | 山东大学 | 一种基于spark平台的内存迭代的重叠社区并行发现方法 |
CN107480685B (zh) * | 2016-06-08 | 2021-02-23 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN108959613B (zh) * | 2018-07-17 | 2021-09-03 | 杭州电子科技大学 | 一种面向rdf知识图谱的语义近似查询方法 |
CN109684377A (zh) * | 2018-12-13 | 2019-04-26 | 深圳市思迪信息技术股份有限公司 | 通用大数据实时处理开发平台及其数据处理方法 |
-
2019
- 2019-08-14 CN CN201910747130.4A patent/CN112395365B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537065A (zh) * | 2014-12-29 | 2015-04-22 | 北京奇虎科技有限公司 | 一种搜索结果的推送方法及系统 |
Non-Patent Citations (1)
Title |
---|
"Automatic Generation of a Qualified Medical Knowledge Graph and Its Usage for Retrieving Patient Cohorts from Electronic Medical Records";Travis Goodwin等;《2013 IEEE Seventh International Conference on Semantic Computing》;20130918;第363-370页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112395365A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038222B (zh) | 数据库缓存实现方法及其系统 | |
US20120072412A1 (en) | Evaluating execution plan changes after a wakeup threshold time | |
CN110908641B (zh) | 基于可视化的流计算平台、方法、设备和存储介质 | |
CN110162522A (zh) | 一种分布式数据搜索系统及方法 | |
CN111176627A (zh) | 一种基于微服务的前后端分离的装置与方法 | |
CN108073641B (zh) | 查询数据表的方法和装置 | |
CN111723270A (zh) | Rpa机器人的搜索方法、装置和设备 | |
CN112395365B (zh) | 一种知识图谱批量离线查询解决方案 | |
CN108140022A (zh) | 数据查询方法和数据库系统 | |
CN104484413A (zh) | 一种获得搜索结果的方法和装置 | |
CN113961643A (zh) | 搜索引擎更新方法及其装置、设备、介质、产品 | |
CN113722600A (zh) | 应用于大数据的数据查询方法、装置、设备及产品 | |
CN111221852A (zh) | 基于大数据的混合查询处理方法及装置 | |
CN113220710A (zh) | 数据查询方法、装置、电子设备以及存储介质 | |
CN116204550A (zh) | 数据库查询语句的优化方法、存储介质与设备 | |
CN115982230A (zh) | 数据库的跨数据源查询方法、系统、设备及存储介质 | |
CN115857918A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112905598B (zh) | 基于接口实现分离的图任务中间结果存储方法及系统 | |
CN112835905B (zh) | 一种数组类型列的索引方法、装置、设备以及存储介质 | |
CN113064914A (zh) | 数据提取方法及装置 | |
CN114461454A (zh) | 数据恢复方法、装置、存储介质及电子设备 | |
CN114547083A (zh) | 数据处理方法、装置及电子设备 | |
CN114547007A (zh) | 一种大数据特征提取方法、设备及计算机可读存储介质 | |
CN112435151A (zh) | 一种基于关联分析的政务信息数据处理方法及系统 | |
CN113076330A (zh) | 查询处理方法、装置、数据库系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |