CN116578712A - 一种基于知识图谱领域知识库的检索和图谱分析方法 - Google Patents
一种基于知识图谱领域知识库的检索和图谱分析方法 Download PDFInfo
- Publication number
- CN116578712A CN116578712A CN202310257433.4A CN202310257433A CN116578712A CN 116578712 A CN116578712 A CN 116578712A CN 202310257433 A CN202310257433 A CN 202310257433A CN 116578712 A CN116578712 A CN 116578712A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- knowledge base
- application server
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 107
- 238000010276 construction Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 39
- 238000002372 labelling Methods 0.000 claims description 29
- 238000007726 management method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009877 rendering Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 6
- 238000013079 data visualisation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱领域知识库的检索和图谱分析方法,包括如下步骤:将知识图谱领域知识库内容管理数据进行存储;构建知识图谱领域知识库检索功能;将知识图谱领域知识库知识构建数据进行存储;搭建知识图谱领域知识库图谱构建功能;采用所述知识图谱领域知识库图谱进行智能分析。本发明提供的基于知识图谱领域知识库的检索和图谱分析方法、设备和计算机可读存储介质,在满足功能的前提下,优化内容的展示体验、减少用户的搜索关键词复杂性,同时保证检索结果的准确性。
Description
技术领域
本发明涉及知识图谱技术领域,具体而言,涉及一种基于知识图谱领域知识库的检索和图谱分析方法、设备和计算机可读存储介质。
背景技术
本发明对于背景技术的描述属于与本发明相关的相关技术,仅仅是用于说明和便于理解本发明的发明内容,不应理解为申请人明确认为或推定申请人认为是本发明在首次提出申请的申请日的现有技术。
随着深度学习方法的迅速发展,自然语言的文本信息数据提取也随之增加,现有的知识构建知识库平台都是单一指向领域的检索或者知识构建平台,并没有采用知识库检索和知识图谱构建相结合的数据可视化模式,并且对多领域支持不太友好,没有同义词词云功能,数据提取准确率不高。并且现有的知识库平台大多都缺少知识库检索和知识图谱相结合过程,要么仅支持知识库的检索,要么支持的知识图谱构建分析仅支持结构化数据,并没有形成多领域的知识库,缺少一定的智能性和灵活性。所以领域知识库检索和知识构建相结合有着极大的影响。
正是由于目前市面上的知识图谱平台没有基于领域知识库检索和图谱分析相结合的产品,无法实现将非结构化的文本信息一步到位的转化为可视化的图谱数据。众所周知,如果能够使用尽量少的描述就能够找到自己感兴趣的内容并以一种可视化的图形结构展示,则可以进一步提高工作效率。相对于文本来说,更进一步的图谱图像更容易被形象理解和掌握关键信息。目前大多数的知识图谱平台都是基于结构化数据或者基于非结构化文档库但并不支持图谱分析,并且不能按照实际需求创建多个不同的领域,不同领域同义词词云,而影响检索的精准度、识别度。对于非结构化数据,如何满足对于信息的高精度、领域化、完备性等功能,是当前文本检索和数据分析面临的突出问题。
综上,现有技术的缺点、不足包括:知识库检索和知识构建缺少相结合场景;平台局限于单一领域,没有实现领域的多样化;检索和知识构建的准确度不高,没有领域同义词词云功能,领域术语同义词识别率不高;知识库配置的方便性和灵活性不高,没有权限配置或者没有多知识库服务功能。
为了解决上述技术问题,本发明提出了一种基于知识图谱领域知识库的检索和图谱分析方法、设备和计算机可读存储介质,实现一个高精准度、领域化、知识库检索产品并且实现知识图谱分析可视化平台,开发的基于知识图谱的知识库平台用于构建领域知识库的检索和图谱分析的平台,优化检索流程,提升检索精准度,结合图谱分析,并且实现知识库数据可视化。在满足功能的前提下,优化内容的展示体验、减少用户的搜索关键词复杂性,同时保证检索结果的准确性。
发明内容
本发明提供了一种基于知识图谱领域知识库的检索和图谱分析方法、设备和计算机可读存储介质,实现一个高精准度、领域化、知识库检索产品并且实现知识图谱分析可视化平台,开发的基于知识图谱的知识库平台用于构建领域知识库的检索和图谱分析的平台,优化检索流程,提升检索精准度,结合图谱分析,并且实现知识库数据可视化。在满足功能的前提下,优化内容的展示体验、减少用户的搜索关键词复杂性,同时保证检索结果的准确性。
本发明第一方面的实施例提供了一种基于知识图谱领域知识库的检索和图谱分析方法,包括如下步骤:将知识图谱领域知识库内容管理数据进行存储,把非数据结构化的自然语言提取为结构化数据,识别内容中的内容信息并存储到ElasticSearch中;构建知识图谱领域知识库检索功能,采用ElasticSearch的全文检索技术,配置动态化权重比例条件进行查询,采用短语匹配和模糊查询相结合的查询条件进行数据检索;将知识图谱领域知识库知识构建数据进行存储,把数据结构化后自然语言提取通过抽取模型和语义规则进行智能提取标注结果,识别其中的知识图谱构建信息并存储到ElasticSearch和ArangoDB中;搭建知识图谱领域知识库图谱构建功能;采用知识图谱领域知识库图谱进行智能分析,采用知识模型对文档库进行智能分析,进行模型训练后生成稳定的模型库。
优选地,将知识图谱领域知识库内容管理数据进行存储步骤中,所存储的文本内容存储结构包括创建时间、内容类型、段落ID、领域信息、文章标题、段落标题、段落内容。
优选地,构建知识图谱领域知识库检索功能的步骤,包括如下操作:应用服务端与解析引擎服务端进行初始化操作;应用服务端向前端请求原文解析内容;ElasticSearch通过应用服务端获取原文解析内容,并返回原文解析内容至应用服务端;前端将返回的原文解析内容进行页面渲染;前端选择模型和规则库进行预标注,并将预标注内容传递至应用服务端;解析引擎服务端自应用服务端获取预标注内容;解析引擎服务端进行模型和规则库解析;应用服务端自解析引擎服务端获取标注数据;前端自应用服务端获取标注数据并进行渲染页面;前端进行实体标注、关系标注、标签标注;应用服务端自前端获取标注选项设置,并判断设置是否成功;若设置成功,则前端进行同义词标注,并发送至应用服务端,应用服务端判断保存是否成功;若保存成功,则前端进行标注数据、更新文档库,并发送至应用服务端;应用服务端将更新标识数据发送至ElasticSearch;应用服务端返回操作成功信息至前端。
优选地,将知识图谱领域知识库知识构建数据进行存储步骤中,所存储的知识图谱数据存储结构包括版本信息、领域信息、词语关联数组信息、数据坐标、创建时间、文章ID、段落ID、数据属性类型。
优选地,词语关联数组信息包括同义词关联信息、相似词语信息、标记词语信息、分词词语信息;数据属性类型包括实体、关系、事件。
优选地,搭建知识图谱领域知识库图谱构建功能的步骤,包括如下操作:前端将查询知识图谱构建标注结果发送至检索服务端;ElasticSearch通过检索服务端获取查询知识图谱构建标注结果;进行页面渲染以及标注属性词语高亮显示传递至前端;通过前端进行词语点击、进行图谱展开,并传递至检索服务端;根据查询词语,拼接查询词语并传递至ArangoDB;ArangoDB返回图遍历结果至检索服务端;进行页面渲染、显示知识图谱、展示统计信息至前端。
优选地,采用知识图谱领域知识库图谱进行智能分析的步骤,包括如下操作:进行初始化,解析引擎服务端请求获取模型和规则库,应用服务端返回模型和规则库至解析引擎服务端;前端新建以及编辑任务至应用服务端,应用服务端判断保存是否成功;若保存成功,则反馈至前端,应用服务端开始训练;ElasticSearch于应用服务端获取原文集数据、标注数据;ElasticSearch处理后返回数据至应用服务端;应用服务端开始训练任务并反馈至解析引擎服务端;解析引擎服务端返回训练任务ID;应用服务端向解析引擎服务端请求训练任务进度;解析引擎服务端进行模型训练;解析引擎服务端生成模型,并上传模型文件至atlas-oss;atlas-oss返回模型URL地址至解析引擎服务端;解析引擎服务端完成训练任务,并返回模型URL地址至应用服务端;应用服务端通知前端训练任务完成;通过前端查看任务详情;解析引擎服务端向应用服务端请求训练状态及详情;解析引擎服务端返回训练状态及详情至应用服务端;前端显示训练状态及详情;前端请求保存模型;应用服务端保存模型至解析引擎服务端;atlas-oss拉取模型,并进行模型更新;解析引擎服务端获取更新后的模型并传递给应用服务端,完成模型更新;应用服务端反馈前端操作成功。
优选地,搭建知识图谱领域知识库图谱构建功能步骤中,采用ElasticSearch和ArangoDB相结合的检索查询,根据领域知识库检索结果,查询关联的内容知识构建存储的ElasticSearch数据,做图构建词语高亮显示,通过页面点击图谱词语,以查询相关词语为起点,在ArangoDB查询数据返回形成知识图谱图形。
本发明第二方面的实施例还提供了一种基于知识图谱领域知识库的检索和图谱分析设备,其包括存储器和处理器;其中,存储器用于存储可执行程序代码;处理器用于读取存储器中存储的可执行程序代码以执行基于知识图谱领域知识库的检索和图谱分析方法。
本发明第三方面的实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现基于知识图谱领域知识库的检索和图谱分析方法。
本发明提供的基于知识图谱领域知识库的检索和图谱分析方法、设备和计算机可读存储介质,实现一个高精准度、领域化、知识库检索产品并且实现知识图谱分析可视化平台,开发的基于知识图谱的知识库平台用于构建领域知识库的检索和图谱分析的平台,优化检索流程,提升检索精准度,结合图谱分析,并且实现知识库数据可视化。在满足功能的前提下,优化内容的展示体验、减少用户的搜索关键词复杂性,同时保证检索结果的准确性。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法的流程图;
图2示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法的文本内容存储结构图;
图3示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中领域知识库检索时序图;
图4示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中知识图谱数据存储结构图;
图5示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中知识图谱构建查询时序图;
图6示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中知识图谱构建训练模型时序图;
图7是本说明书基于知识图谱领域知识库的检索和图谱分析设备的一个实施例的结构图;
图8是本说明书基于知识图谱领域知识库的检索和图谱分析方法的计算机可读存储介质的一个实施例的结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下述讨论提供了本发明的多个实施例。虽然每个实施例代表了发明的单一组合,但是本发明不同实施例可以替换,或者合并组合,因此本发明也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含A、B、C,另一个实施例包含B和D的组合,那么本发明也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
图1示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法的流程图。如图1所示,基于知识图谱领域知识库的检索和图谱分析方法,包括如下步骤:步骤S01,将知识图谱领域知识库内容管理数据进行存储,把非数据结构化的自然语言提取为结构化数据,识别内容中的内容信息并存储到ElasticSearch中;步骤S02,构建知识图谱领域知识库检索功能,采用ElasticSearch的全文检索技术,配置动态化权重比例条件进行查询,采用短语匹配和模糊查询相结合的查询条件进行数据检索;步骤S03,将知识图谱领域知识库知识构建数据进行存储,把数据结构化后自然语言提取通过抽取模型和语义规则进行智能提取标注结果,识别其中的知识图谱构建信息并存储到ElasticSearch和ArangoDB中;步骤S04,搭建知识图谱领域知识库图谱构建功能;步骤S05,采用知识图谱领域知识库图谱进行智能分析,采用知识模型对文档库进行智能分析,进行模型训练后生成稳定的模型库。
图2示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法的文本内容存储结构图。如图2所示,知识图谱领域知识库内容管理数据存储;把非数据结构化的自然语言提取为结构化数据,识别内容中的文章标题、段落标题、段落内容、同义词内容等信息存储到ElasticSearch中。内容存储以段落为最小单位进行存储,并同时做内容词语的同义词替换。每个属性中,有详细划分了各自附带的子属性,以便更加智能的进行知识库分析。
图3示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中领域知识库检索时序图;如图3所示,知识图谱领域知识库检索功能。采用ElasticSearch的全文检索技术,根据内容标题、段落标题、段落内容配置动态化权重比例条件进行查询,采用短语匹配和模糊查询相结合的查询条件进行数据检索,可根据内容解析时间、匹配度进行结果排序。
图4示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中知识图谱数据存储结构图;如图4所示,知识图谱领域知识库知识构建数据存储。把数据结构化后自然语言提取通过抽取模型和语义规则进行智能提取标注结果,识别其中的实体、关系、事件等知识图谱构建信息存储到ElasticSearch和ArangoDB中。内容存储以标注属性为最小单位进行存储,并关联内容解析的段落信息。同时存储的时候,为了更好的提高搜索的精准度,还会额外存储关联的同义词词云数据。
图5示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中知识图谱构建查询时序图;如图5所示,知识图谱领域知识库图谱构建功能。采用ElasticSearch和ArangoDB相结合的检索查询,根据领域知识库检索结果,查询关联的内容知识构建存储的ElasticSearch数据,做图构建词语高亮显示,通过页面点击图谱词语,可以查询相关词语为起点,在ArangoDB查询数据返回形成一个知识图谱图形,同时支持(K层展开、全路径、最短路径)图谱功能操作,并有丰富的数据统计面板和查询过滤规则。
图6示出根据本发明实施例的基于知识图谱领域知识库的检索和图谱分析方法中知识图谱构建训练模型时序图;如图6所示,知识图谱领域知识库图谱智能分析。采用知识模型对文档库进行智能分析,不同的领域模型库在不断对大批量的文档库进行模型训练中,生成一个稳定的模型库之后,可智能提取文档库的内容实体、关系、事件标识信息,减少人工标识的时间和精力成本,显著提升文档库的标识任务。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,将知识图谱领域知识库内容管理数据进行存储步骤中,所存储的文本内容存储结构包括创建时间、内容类型、段落ID、领域信息、文章标题、段落标题、段落内容。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,构建知识图谱领域知识库检索功能的步骤,包括如下操作:应用服务端与解析引擎服务端进行初始化操作;应用服务端向前端请求原文解析内容;ElasticSearch通过应用服务端获取原文解析内容,并返回原文解析内容至应用服务端;前端将返回的原文解析内容进行页面渲染;前端选择模型和规则库进行预标注,并将预标注内容传递至应用服务端;解析引擎服务端自应用服务端获取预标注内容;解析引擎服务端进行模型和规则库解析;应用服务端自解析引擎服务端获取标注数据;前端自应用服务端获取标注数据并进行渲染页面;前端进行实体标注、关系标注、标签标注;应用服务端自前端获取标注选项设置,并判断设置是否成功;若设置成功,则前端进行同义词标注,并发送至应用服务端,应用服务端判断保存是否成功;若保存成功,则前端进行标注数据、更新文档库,并发送至应用服务端;应用服务端将更新标识数据发送至ElasticSearch;应用服务端返回操作成功信息至前端。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,将知识图谱领域知识库知识构建数据进行存储步骤中,所存储的知识图谱数据存储结构包括版本信息、领域信息、词语关联数组信息、数据坐标、创建时间、文章ID、段落ID、数据属性类型。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,词语关联数组信息包括同义词关联信息、相似词语信息、标记词语信息、分词词语信息;数据属性类型包括实体、关系、事件。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,搭建知识图谱领域知识库图谱构建功能的步骤,包括如下操作:前端将查询知识图谱构建标注结果发送至检索服务端;ElasticSearch通过检索服务端获取查询知识图谱构建标注结果;进行页面渲染以及标注属性词语高亮显示传递至前端;通过前端进行词语点击、进行图谱展开,并传递至检索服务端;根据查询词语,拼接查询词语并传递至ArangoDB;ArangoDB返回图遍历结果至检索服务端;进行页面渲染、显示知识图谱、展示统计信息至前端。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,采用知识图谱领域知识库图谱进行智能分析的步骤,包括如下操作:进行初始化,解析引擎服务端请求获取模型和规则库,应用服务端返回模型和规则库至解析引擎服务端;前端新建以及编辑任务至应用服务端,应用服务端判断保存是否成功;若保存成功,则反馈至前端,应用服务端开始训练;ElasticSearch于应用服务端获取原文集数据、标注数据;ElasticSearch处理后返回数据至应用服务端;应用服务端开始训练任务并反馈至解析引擎服务端;解析引擎服务端返回训练任务ID;应用服务端向解析引擎服务端请求训练任务进度;解析引擎服务端进行模型训练;解析引擎服务端生成模型,并上传模型文件至atlas-oss;atlas-oss返回模型URL地址至解析引擎服务端;解析引擎服务端完成训练任务,并返回模型URL地址至应用服务端;应用服务端通知前端训练任务完成;通过前端查看任务详情;解析引擎服务端向应用服务端请求训练状态及详情;解析引擎服务端返回训练状态及详情至应用服务端;前端显示训练状态及详情;前端请求保存模型;应用服务端保存模型至解析引擎服务端;atlas-oss拉取模型,并进行模型更新;解析引擎服务端获取更新后的模型并传递给应用服务端,完成模型更新;应用服务端反馈前端操作成功。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,搭建知识图谱领域知识库图谱构建功能步骤中,采用ElasticSearch和ArangoDB相结合的检索查询,根据领域知识库检索结果,查询关联的内容知识构建存储的ElasticSearch数据,做图构建词语高亮显示,通过页面点击图谱词语,以查询相关词语为起点,在ArangoDB查询数据返回形成知识图谱图形。
本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法,基于知识图谱的领域知识库检索和知识图谱构建,主要包括知识库内容管理、知识库服务管理、以及模型管理、规则管理、知识库标注任务图谱构建数据抽取。本领域技术人员应当理解:基于用户中心设置用户权限分配;模型管理、规则管理识别出标注结果,规则正则表达式定义了根据标注项提出信息,抽取模型可预测抽取出图谱构架信息;同义词库词云管理,在智能解析过程中,自动替换文档中的不同领域同义词。
与现有技术相比,本发明实施例提供的基于知识图谱领域知识库的检索和图谱分析方法具有如下优点:支持不同的知识库领域,增加同义词词云管理,提高专业词语的通用性,能够按照实际需求创建多个不同的基于知识图谱的领域,支持根据不同的知识图谱本体设置得出不同的知识图谱;实现将非结构化文本信息转换为可用于知识库检索数据,并可关联转换为图谱构建图的数据可视化平台;平台可支持多知识库服务,具有专属访问链接。可以选择具体的内容做知识库检索和图谱构建,并增加权限配置;基于知识抽取模型、规则配置提取知识库文本信息中的图谱三元组数据,形成图谱分析图像。
图7是本说明书基于知识图谱领域知识库的检索和图谱分析设备的一个实施例的结构图;下面参考图7,其示出了适于用来实现本公开实施例的基于知识图谱领域知识库的检索和图谱分析设备300的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开实施例的方法中限定的上述功能。
图8是本说明书基于知识图谱领域知识库的检索和图谱分析方法的计算机可读存储介质的一个实施例的结构图。如图8所示,根据本公开实施例的计算机可读存储介质40,其上存储有非暂时性计算机可读指令41。当该非暂时性计算机可读指令41由处理器运行时,执行前述的本公开各实施例的基于知识图谱领域知识库的检索和图谱分析方法的全部或部分步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:构建基础页面,所述基础页面的页面代码用于搭建所述业务页面运行所需的环境和/或实现同类业务场景中抽象出的相同的工作流程;构建一个或多个页面模板,所述页面模板用于提供业务场景中实现业务功能的代码模板;基于相应的所述页面模板,通过业务场景的每一个页面的具体功能的代码转换,生成业务场景的每一个页面的最终页面代码;将生成的所述每一个页面的最终页面代码合并入所述基础页面的页面代码,生成所述业务页面的代码。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:构建基础页面,所述基础页面的页面代码用于搭建所述业务页面运行所需的环境和/或实现同类业务场景中抽象出的相同的工作流程;构建一个或多个页面模板,所述页面模板用于提供业务场景中实现业务功能的代码模板;基于相应的所述页面模板,通过业务场景的每一个页面的具体功能的代码转换,生成业务场景的每一个页面的最终页面代码;将生成的所述每一个页面的最终页面代码合并入所述基础页面的页面代码,生成所述业务页面的代码。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本发明提供的基于知识图谱领域知识库的检索和图谱分析方法、设备和计算机可读存储介质,将知识图谱与领域知识库相结合,能够按照实际需求创建多个不同的基于知识图谱本体的领域,不限定领域,可以用于知识库的检索和知识图谱构建;全面的功能,支持权限配置,知识服务可选择具体的知识内容进行检索和知识图谱构建,可视化的知识库检索界面和图谱构建相关联,丰富的数据可视化展示;丰富的领域同义词库词云,大大减少了领域专家维护管理知识库的重复工作,并在知识库检索做同义词替换,提高了提取准确率;支持从非结构化的自然语言文本信息中提取数据并将其结构化,进而将结构化的数据一步到位转换为知识图谱数据的形式,实现从文本信息到图展示的数据可视化,使信息更直观、更全面;在满足功能的前提下,优化内容的展示体验、减少用户的搜索关键词复杂性,同时保证检索结果的准确性。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的某些实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,包括如下步骤:
将知识图谱领域知识库内容管理数据进行存储,把非数据结构化的自然语言提取为结构化数据,识别内容中的内容信息并存储到ElasticSearch中;
构建知识图谱领域知识库检索功能,采用ElasticSearch的全文检索技术,配置动态化权重比例条件进行查询,采用短语匹配和模糊查询相结合的查询条件进行数据检索;
将知识图谱领域知识库知识构建数据进行存储,把数据结构化后自然语言提取通过抽取模型和语义规则进行智能提取标注结果,识别其中的知识图谱构建信息并存储到ElasticSearch和ArangoDB中;
搭建知识图谱领域知识库图谱构建功能;
采用所述知识图谱领域知识库图谱进行智能分析,采用知识模型对文档库进行智能分析,进行模型训练后生成稳定的模型库。
2.根据权利要求1所述的基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,所述将知识图谱领域知识库内容管理数据进行存储步骤中,所存储的文本内容存储结构包括创建时间、内容类型、段落ID、领域信息、文章标题、段落标题、段落内容。
3.根据权利要求1所述的基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,所述构建知识图谱领域知识库检索功能的步骤,包括如下操作:
应用服务端与解析引擎服务端进行初始化操作;
应用服务端向前端请求原文解析内容;
ElasticSearch通过应用服务端获取所述原文解析内容,并返回原文解析内容至应用服务端;
前端将返回的原文解析内容进行页面渲染;
前端选择模型和规则库进行预标注,并将预标注内容传递至应用服务端;
解析引擎服务端自应用服务端获取预标注内容;
解析引擎服务端进行模型和规则库解析;
应用服务端自解析引擎服务端获取标注数据;
前端自应用服务端获取标注数据并进行渲染页面;
前端进行实体标注、关系标注、标签标注;
应用服务端自前端获取标注选项设置,并判断设置是否成功;
若设置成功,则前端进行同义词标注,并发送至应用服务端,应用服务端判断保存是否成功;
若保存成功,则前端进行标注数据、更新文档库,并发送至应用服务端;
应用服务端将更新标识数据发送至ElasticSearch;
应用服务端返回操作成功信息至前端。
4.根据权利要求1所述的基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,所述将知识图谱领域知识库知识构建数据进行存储步骤中,所存储的知识图谱数据存储结构包括版本信息、领域信息、词语关联数组信息、数据坐标、创建时间、文章ID、段落ID、数据属性类型。
5.根据权利要求4所述的基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,所述词语关联数组信息包括同义词关联信息、相似词语信息、标记词语信息、分词词语信息;所述数据属性类型包括实体、关系、事件。
6.根据权利要求1所述的基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,所述搭建知识图谱领域知识库图谱构建功能的步骤,包括如下操作:
前端将查询知识图谱构建标注结果发送至检索服务端;
ElasticSearch通过检索服务端获取查询知识图谱构建标注结果;
进行页面渲染以及标注属性词语高亮显示传递至前端;
通过前端进行词语点击、进行图谱展开,并传递至检索服务端;
根据查询词语,拼接查询词语并传递至ArangoDB;
ArangoDB返回图遍历结果至检索服务端;
进行页面渲染、显示知识图谱、展示统计信息至前端。
7.根据权利要求1所述的基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,所述采用所述知识图谱领域知识库图谱进行智能分析的步骤,包括如下操作:
进行初始化,解析引擎服务端请求获取模型和规则库,应用服务端返回模型和规则库至解析引擎服务端;
前端新建以及编辑任务至应用服务端,应用服务端判断保存是否成功;
若保存成功,则反馈至前端,应用服务端开始训练;
ElasticSearch于应用服务端获取原文集数据、标注数据;
ElasticSearch处理后返回数据至应用服务端;
应用服务端开始训练任务并反馈至解析引擎服务端;
解析引擎服务端返回训练任务ID;
应用服务端向解析引擎服务端请求训练任务进度;
解析引擎服务端进行模型训练;
解析引擎服务端生成模型,并上传模型文件至atlas-oss;
atlas-oss返回模型URL地址至解析引擎服务端;
解析引擎服务端完成训练任务,并返回模型URL地址至应用服务端;
应用服务端通知前端训练任务完成;
通过前端查看任务详情;
解析引擎服务端向应用服务端请求训练状态及详情;
解析引擎服务端返回训练状态及详情至应用服务端;
前端显示训练状态及详情;
前端请求保存模型;
应用服务端保存模型至解析引擎服务端;
atlas-oss拉取模型,并进行模型更新;
解析引擎服务端获取更新后的模型并传递给应用服务端,完成模型更新;
应用服务端反馈前端操作成功。
8.根据权利要求1-7中任意一项所述的基于知识图谱领域知识库的检索和图谱分析方法,其特征在于,所述搭建知识图谱领域知识库图谱构建功能步骤中,采用ElasticSearch和ArangoDB相结合的检索查询,根据领域知识库检索结果,查询关联的内容知识构建存储的ElasticSearch数据,做图构建词语高亮显示,通过页面点击图谱词语,以查询相关词语为起点,在ArangoDB查询数据返回形成知识图谱图形。
9.一种基于知识图谱领域知识库的检索和图谱分析设备,其包括存储器和处理器;其中,所述存储器用于存储可执行程序代码;所述处理器用于读取所述存储器中存储的可执行程序代码以执行根据权利要求1-8任意一项所述的基于知识图谱领域知识库的检索和图谱分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的基于知识图谱领域知识库的检索和图谱分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310257433.4A CN116578712A (zh) | 2023-03-09 | 2023-03-09 | 一种基于知识图谱领域知识库的检索和图谱分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310257433.4A CN116578712A (zh) | 2023-03-09 | 2023-03-09 | 一种基于知识图谱领域知识库的检索和图谱分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116578712A true CN116578712A (zh) | 2023-08-11 |
Family
ID=87541985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310257433.4A Pending CN116578712A (zh) | 2023-03-09 | 2023-03-09 | 一种基于知识图谱领域知识库的检索和图谱分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116578712A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391192A (zh) * | 2023-12-08 | 2024-01-12 | 杭州悦数科技有限公司 | 基于图数据库的利用llm从pdf构建知识图谱的方法及装置 |
-
2023
- 2023-03-09 CN CN202310257433.4A patent/CN116578712A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391192A (zh) * | 2023-12-08 | 2024-01-12 | 杭州悦数科技有限公司 | 基于图数据库的利用llm从pdf构建知识图谱的方法及装置 |
CN117391192B (zh) * | 2023-12-08 | 2024-03-15 | 杭州悦数科技有限公司 | 基于图数据库的利用llm从pdf构建知识图谱的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9323731B1 (en) | Data extraction using templates | |
EP3842963A1 (en) | Method and device for acquiring poi state information, apparatus, and computer storage medium | |
US20170344631A1 (en) | Task completion using world knowledge | |
JP2008204444A (ja) | データ処理装置、データ処理方法及び検索装置 | |
WO2022111591A1 (zh) | 页面生成方法和装置、存储介质和电子设备 | |
US6862601B2 (en) | Method, system, and program for transforming files from a source file format to a destination file format | |
WO2023160500A1 (zh) | 百科信息展示方法、装置、设备和介质 | |
CN104462056A (zh) | 基于深度文档分析的主动知识指导 | |
CN105637509A (zh) | 在图像内搜索和注释 | |
CN109508361A (zh) | 用于输出信息的方法和装置 | |
CN109299244A (zh) | 一种在线文档检索方法、装置、存储介质及电子设备 | |
CN116578712A (zh) | 一种基于知识图谱领域知识库的检索和图谱分析方法 | |
CN110457325B (zh) | 用于输出信息的方法和装置 | |
CN112182255A (zh) | 用于存储媒体文件和用于检索媒体文件的方法和装置 | |
CN114356962A (zh) | 一种数据查询方法、装置、电子设备和存储介质 | |
KR20210120203A (ko) | 웹 페이지에 기반한 메타데이터 생성방법 | |
CN116644089A (zh) | 查询语句生成方法、装置、设备及存储介质 | |
CN108509442B (zh) | 搜索方法和装置、服务器以及计算机可读存储介质 | |
CN109857838B (zh) | 用于生成信息的方法和装置 | |
CN115774712A (zh) | 元数据管理方法、系统、设备及存储介质 | |
CN110309442B (zh) | 展现端数据的映射方法、装置、设备及介质 | |
CN113094286A (zh) | 页面测试方法和装置、存储介质和电子设备 | |
KR20210084641A (ko) | 정보를 송신하는 방법 및 장치 | |
CN112148751A (zh) | 用于查询数据的方法和装置 | |
CN112559758A (zh) | 构建知识图谱的方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |