CN116450776A - 基于知识图谱的油气管网法律法规及技术标准检索系统 - Google Patents
基于知识图谱的油气管网法律法规及技术标准检索系统 Download PDFInfo
- Publication number
- CN116450776A CN116450776A CN202310436375.1A CN202310436375A CN116450776A CN 116450776 A CN116450776 A CN 116450776A CN 202310436375 A CN202310436375 A CN 202310436375A CN 116450776 A CN116450776 A CN 116450776A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- oil
- gas pipe
- pipe network
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033228 biological regulation Effects 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000006698 induction Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 230000009193 crawling Effects 0.000 description 8
- 241000239290 Araneae Species 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 125000003275 alpha amino acid group Chemical group 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱的油气管网法律法规及技术标准检索系统,该系统包括数据库模块、知识图谱模块和检索模块,其中所述数据库模块能够收集油气管网法律法规和技术标准,并构建油气管网知识数据库;所述知识图谱模块能够对所述油气管网知识数据库中各个知识点进行实体关系关联,形成知识图谱;所述检索模块能够接收用户查询请求,并根据所述查询请求与所述知识图谱中知识点的相关度排序,展示检索结果。采用本公开的系统,不仅能够精准定位到用户所需查找的条款内容,还能够返回与该条款关联性较大的知识点内容,方便快捷。
Description
技术领域
本公开一般涉及信息处理技术领域,具体涉及一种基于知识图谱的油气管网法律法规及技术标准检索系统。
背景技术
随着油气管网技术的不断发展,出台了大量涉及油气管网的法律法规及技术标准,体系庞杂,并且版本迭代多。
然而,相关技术的检索方式只能返回用户所输入关键词对应的内容,具有局限性,同时若输入关键词不准确,还容易出现检索失败的不良结果。
发明内容
鉴于相关技术中的上述缺陷或不足,期望提供一种基于知识图谱的油气管网法律法规及技术标准检索系统,不仅能够精准定位到用户所需查找的条款内容,还能够返回与该条款关联性较大的知识点内容,方便快捷。
本公开提供一种基于知识图谱的油气管网法律法规及技术标准检索系统,所述系统包括:
数据库模块,配置用于收集油气管网法律法规和技术标准,并构建油气管网知识数据库;
知识图谱模块,配置用于对所述油气管网知识数据库中各个知识点进行实体关系关联,形成知识图谱;
检索模块,配置用于接收用户查询请求,并根据所述查询请求与所述知识图谱中知识点的相关度排序,展示检索结果。
可选地,在本公开一些实施例中,所述知识图谱模块包括:
关联单元,配置用于将所述油气管网法律法规和技术标准中属性类型相同的知识点进行属性信息关联,并根据各个知识点之间的实体关系建立语义网络;
训练单元,配置用于从所述语义网络中选取训练集与测试集分别对神经网络模型进行训练与测试,以使所述神经网络模型可解析分类所述油气管网法律法规和技术标准中各个条款内容,并重组为知识点。
可选地,在本公开一些实施例中,所述知识图谱模块还包括:
归纳单元,配置用于根据所述语义网络中不同属性类型下的实体关系依次建立主节点和次节点,形成可视化图形数据库。
可选地,在本公开一些实施例中,所述属性类型包括层次范畴、施行历史、适用范围、所处章节和正文信息。
可选地,在本公开一些实施例中,所述检索模块包括:
第一获取单元,配置用于获取所述查询请求;
计算单元,配置用于将所述查询请求的关键字与所述知识点的语义字段进行匹配并计算相关度;
展示单元,配置用于展示经过所述相关度排序的检索结果。
可选地,在本公开一些实施例中,所述查询请求对应的检索类型包括关键字查询和分类查询。
可选地,在本公开一些实施例中,所述系统还包括:
推荐模块,配置用于分析用户使用习惯和历史查询信息,并对推荐内容进行预测。
可选地,在本公开一些实施例中,所述系统还包括:
问答模块,配置用于获取用户输入问题,并根据从所述输入问题中抽取的关键词在所述知识图谱中进行模板匹配,形成问题答案。
可选地,在本公开一些实施例中,所述问答模块包括:
第二获取单元,配置用于获取所述输入问题;
关键词抽取单元,配置用于从所述输入问题中抽取所述关键词;
匹配单元,配置用于从所述输入问题中获取语义词和疑问词,并在所述知识图谱中查询与所述语义词相关联的节点和关系数据;
拼接单元,配置用于根据所述关键词和所述疑问词对所述节点和关系数据进行字符串拼接,得到所述问题答案。
可选地,在本公开一些实施例中,所述问答模块还包括:
去重单元,配置用于当所述关键词的数量为多个时,对所述关键词进行去重处理。
从以上技术方案可以看出,本公开实施例具有以下优点:
本公开实施例提供了一种基于知识图谱的油气管网法律法规及技术标准检索系统,该系统以各个知识点为基准进行实体关系关联,并形成知识图谱,使得划分更加细腻,便于精准定位到用户所需查找的条款内容,同时根据用户查询请求与知识图谱中知识点的相关度排序来展示检索结果,从而能够返回与条款关联性较大的知识点内容,可靠性强,提升了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1为本公开实施例提供的一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图2为本公开实施例提供的另一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图3为本公开实施例提供的又一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图4为本公开实施例提供的一种神经网络模型的架构示意图;
图5为本公开实施例提供的再一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图6为本公开另一实施例提供的一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图7为本公开实施例提供的一种检索过程示意图;
图8为本公开另一实施例提供的又一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图9为本公开实施例提供的一种统计语言模型的训练和预测示意图;
图10为本公开另一实施例提供的再一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图11为本公开又一实施例提供的一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图;
图12为本公开又一实施例提供的再一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图。
实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面通过图1至图12详细地阐述本公开实施例提供的基于知识图谱的油气管网法律法规及技术标准检索系统。
请参考图1,其为本公开实施例提供的一种基于知识图谱的油气管网法律法规及技术标准检索系统的结构框图。该系统100包括数据库模块101、知识图谱模块102和检索模块103,其中数据库模块101能够收集油气管网法律法规和技术标准,并构建油气管网知识数据库;知识图谱模块102能够对油气管网知识数据库中各个知识点进行实体关系关联,形成知识图谱;而检索模块103能够接收用户查询请求,并根据查询请求与知识图谱中知识点的相关度排序,展示检索结果。
示例性地,下面对系统100中各个模块的工作过程或者组成结构进行说明。比如,数据库模块101通过官方网站和网络爬虫来收集公开的现有版本及历史版本的油气管网法律法规和技术标准,并构建油气管网知识数据库。需要说明的是,本公开实施例中爬虫爬取频率、爬取范围和代理管理器均可设置,这样设置的好处在于调整爬取频率能够防止频率过高所导致的网站崩溃,调整爬取范围能够根据网站中的油气管网相关关键字进行爬取,而通过代理管理器能够防止目标网站的ip访问限制;以及,爬取数据可编辑化处理能够防止爬取的内容无法被识别,进而格式化数据存入油气管网知识数据库。
可选地,如图2所示,本公开实施例中数据库模块101包括采集单元1011和知识点抽取单元1012。其中,采集单元1011包括但不限于SpiderManager、Spider、PageParser和PageSaver等;SpiderManager用于Spider的总数控制以及爬取的URL集合;Spider用于具体的抓取工作,即给Spider一个URL,Spider就可以下载这个URL的内容;PageParser用于解析Spider抓取到的页面内容,对于包含URL的索引页面,通过UrlPageParser进行解析,来解析出更多的URL并添加到 SpiderManager的url_queue里面以供 SpiderManager 继续抓取,而对于包含油气管网法律法规和技术标准的页面,通过ContentPageParser进行解析,从这类页面中可以解析出油气管网法律法规和技术标准的全部内容;以及,PageSaver用于将ContentPageParser解析出来的油气管网法律法规和技术标准存储到油气管网知识数据库。
知识点抽取单元1012能够为知识图谱模块102训练神经网络模型时提供所需的知识点库,即该知识点抽取单元1012的输入为爬取到的油气管网法律法规和技术标准文件,输出为油气管网法律法规和技术标准的关键章节的依存关系。经过优选后的知识点所对应内容涵盖了油气管网法律法规和技术标准中的全部内容,同时使用垂直结构对油气管网法律法规和技术标准的版本迭代内容按照颁布年份进行堆叠处理,直观展现出法律法规的历史变迁。
可选地,本公开实施例使用OceanBase数据库进行开发,并选择最合适的编码方式进行编码,减少了数据大小。由此,油气管网知识数据库在传输数据时文件大小可以得到较好控制,大大降低了对带宽的要求,并提升了知识点传输速率,适合低成本和小带宽的情况下进行知识点数据的调用及传输。
可选地,本公开实施例中油气管网知识数据库还预留有扩展接口,这样设置的好处是能够接入油气管网管理部门,从而可在第一时间获取最新的油气管网法律法规和技术标准,方便后续更新和维护。
再如,图3所示,知识图谱模块102包括关联单元1021和训练单元1022。其中,关联单元1021能够将油气管网法律法规和技术标准中属性类型相同的知识点进行属性信息关联,创建实体关系统一化,并根据各个知识点之间的实体关系建立语义网络;而训练单元1022能够从语义网络中选取训练集与测试集分别对神经网络模型进行训练与测试,以使神经网络模型可自动解析分类油气管网法律法规和技术标准中各个条款内容,并重组为知识点。例如图4所示,神经网络模型包括输入层、映射层和输出层,实际训练时首先通过一个神经网络(映射网络)将输入词的向量(one-hot编码)映射为一个词嵌入向量(分布式嵌入向量),其次将这个向量通过一个神经网络(预测网络)生成一个预测输出,再次通过损失函数和优化算法训练神经网络参数,使得预测输出尽可能与实际输出相一致,进而得到的映射层的分布式嵌入向量即为词的嵌入向量。
需要说明的是,由于知识点之间具有指向性,各知识点间的关系均被赋予了实体关系说明,而每两个知识点和一条连线便可以组成一个关于油气管网法律法规和技术标准知识点的三元组。
可选地,本公开实施例中属性类型包括但不限于层次范畴、施行历史、适用范围、所处章节和正文信息等。例如,层次范畴是指根据我国法律法规的特点,将油气管网法律法规和技术标准分为国家法律、行政法规、部门规章、地方规章、标准文件和规范性文件,并链接全文以方便用户查看全文信息;施行历史是指知识点的颁布、修订和终止日期以及校订知识点的历史记录,并对历史记录中的知识点也提供所属的全文链接。
可选地,如图5所示,本公开实施例中知识图谱模块102还包括归纳单元1023,该归纳单元1023能够根据语义网络中不同属性类型下的实体关系依次建立主节点和次节点,形成可视化图形数据库。例如,将知识点某一属性下的所有三元组根据需要组成主次节点,同时主次节点中的知识点还保留全部属性信息,从而主次节点可以根据任意属性进行展开和收缩操作,便于理解知识点之间的脉络,一目了然。
再如,图6所示,检索模块103包括第一获取单元1031、计算单元1032和展示单元1033。其中,如图7所示,第一获取单元1031能够获取查询请求,计算单元1032能够将查询请求的关键字与知识点的语义字段进行匹配并计算相关度,而展示单元1033能够展示经过相关度排序的检索结果。
需要说明的是,本公开实施例中查询请求对应的检索类型包括但不限于关键字查询和分类查询。当用户对所需查询的油气管网法律法规和技术标准文件只知道部分信息时,可通过法律法规和技术标准中的关键字来检索,也可从法律法规和技术标准的名称、颁布部门、发文号及颁布日期四个方面进行分类查询。
而计算相关度的模型为向量空间模型,例如将查询请求和文档分别映射到高维空间,查询请求的表示形式为:
(1)
式(1)中,表示第/>个词在查询请求中的权重,/>表示查询请求中所有出现词语的长度。
文档的表示形式为:
(2)
式(2)中,表示每个文档,/>表示第/>个词对于第/>个文档的重要程度。
本公开实施例通过TF-IDF(词频-反向文档频率)进行计算,TF表示词语在某个文档中出现的词频,词频越高,则词语相对于该文档的相关性也越高,而IDF表示词语在其它文档中出现的频率,频率越高,则词语相对于该文档的相关性也越低。TF-IDF能够检验一个词语在文档中的重要性,可通过式(3)进行计算,即:
(3)
式(3)中,表示词语/>在文档中出现的次数,/>表示文档/>中所有的词数,/>表示索引的文档总数,/>表示所有包含词语/>的文档数量。
进一步地,向量之间的相关度可通过余弦向量度量法来计算,即:
(4)
本公开实施例中查询请求和文档的相似性通过向量间夹角的余弦值来衡量,夹角越小则余弦值越大,相似性也就越强。继而通过使用相关度进行排序,可以获得最佳搜索结果。
可选地,本公开一些实施例中当用户对所需查询的法规信息分类体系比较了解时,也可以采用分类查询的方式进行全文查找。此时系统100根据我国法律法规的特点,将油气管网法律法规和技术标准分为国家法律、行政法规、部门规章、地方规章、标准文件和规范性文件等。例如,如果用户想了解“管道”的相关知识,那么可以在查询页面搜索栏中输入“管道”,而系统100则在油气管网法律法规和技术标准知识图谱中进行检索,并将检索结果封装渲染成接口,利用Webview访问该接口以将结果展示给用户。进一步地,系统100可将油气管网法律法规和技术标准知识以图谱与表格的形式展示给用户,而表格的内容包括但不限于法律法规和技术标准的属性信息及匹配检索条件的正文答案等,并依照相关度从上至下在表格中列出所有符合条件的信息,这样设置的好处是有助于用户理解和记忆。
另如,图8所示,系统100还包括推荐模块104,该推荐模块104能够分析用户使用习惯和历史查询信息,并对推荐内容进行预测。需要说明的是,本公开实施例在油气管网法律法规和技术标准对应的知识图谱基础上,同时考虑各个法规和标准的知识量、知识内容及知识属性的不同,因而采用基于规则的知识推理方法与协同过滤的方法相融合来实现智能推荐。例如,智能推荐的原理是获取用户使用习惯和历史查询信息,并通过语义分析对用户使用习惯进行预判,以及采用分支预测方法进行精准预测。
由于自然语言通过上下文文本传递信息,单独的字无法包含所有的语义信息,因此采用各种词和句子相互结合的形式表现出来。例如,一个句子S由N个特定顺序排列的词W(w1,w2,……,wN-1,wN)组成,那么该句子S的概率是N个词w1,w2,……,wN-1,wN的联合概率,即:
p(S) = p(W) = p(w 1 N ) = p(w 1,w 2,…,w N-1,w N ) (5)
而贝叶斯(Bayes)公式是用来描述两个条件概率之间的关系,即:
(6)
式(6)中,表示/>发生的概率,/>表示/>发生的概率,/>表示/>已经发生的情况下发生/>的概率,/>表示/>已经发生的情况下发生/>的概率。
进一步地,根据 Bayes公式,式(5)可以被链式地分解为:
p(w 1 N ) = p(w 1)× p(w 2| w 1)× p(w 3| w 1 2)Lp(w N | w 1 N-1) (7)
式(7)中,p(w 1)、 p(w 2|w 1)、 p(w 3| w 1 2)、L、p(w N | w 1 N-1) 就是统计语言模型的模型参数,w 1 N-1表示第一个词到第N-1个词组成的词序列。其中,统计语言模型是从概率统计角度出发,获取词和句子这些语法单元的概率分布,并根据自然语言上下文相关的特性建立起来的数学模型,简而言之就是用来计算一个句子的概率的概率模型。而如图9所示,获取模型参数就是对样本数据进行训练的目的,在获取到模型参数之后,便可根据上述公式进行计算来得到待测词序列的概率即预测。
又如,图10所示,系统100还包括问答模块105,该问答模块105能够获取用户输入问题,并根据从输入问题中抽取的关键词在知识图谱中进行模板匹配,形成问题答案。例如,问答模块105根据用户以文字方式输入的问题进行理解分析和抽取关键词,并将关键词发送给Web端,然后Web端在知识图谱中进行模板匹配和搜索答案,继而将答案通过数据接口传递给问答模块105,并最终将答案以语音或者文字的方式返回给用户。
可选地,如图11所示,本公开实施例中问答模块105包括但不限于第二获取单元1051、关键词抽取单元1052、匹配单元1053和拼接单元1054。其中,第二获取单元1051能够获取输入问题;关键词抽取单元1052能够从输入问题中抽取关键词,例如对问句采用完全匹配的方式来抽取关键词,而若未成功抽取到关键词,则利用分词工具对问句进行分词,并采用模糊匹配的方式通过类似式(4)的相似度计算公式来抽取关键词;匹配单元1053能够从输入问题中获取语义词和疑问词,并在知识图谱中查询与语义词相关联的节点和关系数据,例如对语义词进行匹配,获取语义词查询语句,之后在知识图谱中进行查询,来获取与语义词相关联的节点和关系数据;拼接单元1054能够根据关键词和疑问词对节点和关系数据进行字符串拼接,得到问题答案。
可选地,如图12所示,本公开一些实施例中问答模块105还包括去重单元1055,该去重单元1055能够当关键词的数量为多个时,对关键词进行去重处理。例如,关键词抽取单元1052抽取到的关键词有多个,此时存在关键词重复的可能,因而通过去重单元1055来对关键词进行去重处理,避免做无用功,由此提高了处理效率。
本公开实施例提供的基于知识图谱的油气管网法律法规及技术标准检索系统,该系统以各个知识点为基准进行实体关系关联,并形成知识图谱,使得划分更加细腻,便于精准定位到用户所需查找的条款内容,同时根据用户查询请求与知识图谱中知识点的相关度排序来展示检索结果,从而能够返回与条款关联性较大的知识点内容,可靠性强,提升了用户体验。
需要说明的是,以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。
Claims (10)
1.一种基于知识图谱的油气管网法律法规及技术标准检索系统,其特征在于,所述系统包括:
数据库模块,配置用于收集油气管网法律法规和技术标准,并构建油气管网知识数据库;
知识图谱模块,配置用于对所述油气管网知识数据库中各个知识点进行实体关系关联,形成知识图谱;
检索模块,配置用于接收用户查询请求,并根据所述查询请求与所述知识图谱中知识点的相关度排序,展示检索结果。
2.根据权利要求1所述的系统,其特征在于,所述知识图谱模块包括:
关联单元,配置用于将所述油气管网法律法规和技术标准中属性类型相同的知识点进行属性信息关联,并根据各个知识点之间的实体关系建立语义网络;
训练单元,配置用于从所述语义网络中选取训练集与测试集分别对神经网络模型进行训练与测试,以使所述神经网络模型可解析分类所述油气管网法律法规和技术标准中各个条款内容,并重组为知识点。
3.根据权利要求2所述的系统,其特征在于,所述知识图谱模块还包括:
归纳单元,配置用于根据所述语义网络中不同属性类型下的实体关系依次建立主节点和次节点,形成可视化图形数据库。
4.根据权利要求2所述的系统,其特征在于,所述属性类型包括层次范畴、施行历史、适用范围、所处章节和正文信息。
5.根据权利要求1所述的系统,其特征在于,所述检索模块包括:
第一获取单元,配置用于获取所述查询请求;
计算单元,配置用于将所述查询请求的关键字与所述知识点的语义字段进行匹配并计算相关度;
展示单元,配置用于展示经过所述相关度排序的检索结果。
6.根据权利要求5所述的系统,其特征在于,所述查询请求对应的检索类型包括关键字查询和分类查询。
7.根据权利要求1至6中任意一项所述的系统,其特征在于,所述系统还包括:
推荐模块,配置用于分析用户使用习惯和历史查询信息,并对推荐内容进行预测。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
问答模块,配置用于获取用户输入问题,并根据从所述输入问题中抽取的关键词在所述知识图谱中进行模板匹配,形成问题答案。
9.根据权利要求8所述的系统,其特征在于,所述问答模块包括:
第二获取单元,配置用于获取所述输入问题;
关键词抽取单元,配置用于从所述输入问题中抽取所述关键词;
匹配单元,配置用于从所述输入问题中获取语义词和疑问词,并在所述知识图谱中查询与所述语义词相关联的节点和关系数据;
拼接单元,配置用于根据所述关键词和所述疑问词对所述节点和关系数据进行字符串拼接,得到所述问题答案。
10.根据权利要求9所述的系统,其特征在于,所述问答模块还包括:
去重单元,配置用于当所述关键词的数量为多个时,对所述关键词进行去重处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436375.1A CN116450776A (zh) | 2023-04-23 | 2023-04-23 | 基于知识图谱的油气管网法律法规及技术标准检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436375.1A CN116450776A (zh) | 2023-04-23 | 2023-04-23 | 基于知识图谱的油气管网法律法规及技术标准检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450776A true CN116450776A (zh) | 2023-07-18 |
Family
ID=87135459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310436375.1A Pending CN116450776A (zh) | 2023-04-23 | 2023-04-23 | 基于知识图谱的油气管网法律法规及技术标准检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450776A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708280A (zh) * | 2023-11-27 | 2024-03-15 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于知识图谱的输电工作票智能检索方法及系统 |
CN117708280B (zh) * | 2023-11-27 | 2024-06-21 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于知识图谱的输电工作票智能检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140098103A1 (en) * | 2012-10-08 | 2014-04-10 | Auckland Uniservices Limited | Information retrieval and presentation methods and systems |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
CN114428862A (zh) * | 2021-12-22 | 2022-05-03 | 国家石油天然气管网集团有限公司 | 基于油气管道的知识图谱构建方法及处理器 |
WO2022142027A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质 |
CN115221332A (zh) * | 2022-06-13 | 2022-10-21 | 北京石油化工学院 | 一种危化品事故事理图谱的构建方法与系统 |
-
2023
- 2023-04-23 CN CN202310436375.1A patent/CN116450776A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140098103A1 (en) * | 2012-10-08 | 2014-04-10 | Auckland Uniservices Limited | Information retrieval and presentation methods and systems |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
WO2022142027A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质 |
CN114428862A (zh) * | 2021-12-22 | 2022-05-03 | 国家石油天然气管网集团有限公司 | 基于油气管道的知识图谱构建方法及处理器 |
CN115221332A (zh) * | 2022-06-13 | 2022-10-21 | 北京石油化工学院 | 一种危化品事故事理图谱的构建方法与系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708280A (zh) * | 2023-11-27 | 2024-03-15 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于知识图谱的输电工作票智能检索方法及系统 |
CN117708280B (zh) * | 2023-11-27 | 2024-06-21 | 国网江苏省电力有限公司扬州供电分公司 | 一种基于知识图谱的输电工作票智能检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838833B (zh) | 基于相关词语语义分析的全文检索系统 | |
EP2210198B1 (en) | System and method for searching for documents | |
WO2021076606A1 (en) | Conceptual, contextual, and semantic-based research system and method | |
US20150254230A1 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
US20040034633A1 (en) | Data search system and method using mutual subsethood measures | |
US20040024756A1 (en) | Search engine for non-textual data | |
US20150206070A1 (en) | Context based co-operative learning system and method for representing thematic relationships | |
US20040024755A1 (en) | System and method for indexing non-textual data | |
US10747759B2 (en) | System and method for conducting a textual data search | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
Cesarano et al. | An intelligent search agent system for semantic information retrieval on the internet | |
CN115374781A (zh) | 文本数据信息挖掘方法、装置、设备 | |
JP2004280569A (ja) | 情報監視装置 | |
CN116226494A (zh) | 一种用于信息搜索的爬虫系统及方法 | |
KR20210032253A (ko) | 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 | |
Djuana et al. | Personalization in tag ontology learning for recommendation making | |
CN116450776A (zh) | 基于知识图谱的油气管网法律法规及技术标准检索系统 | |
JP2010282403A (ja) | 文書検索方法 | |
CN115374108B (zh) | 一种基于知识图谱技术的数据标准生成与自动映射方法 | |
Bakar et al. | A survey: Framework to develop retrieval algorithms of indexing techniques on learning material | |
Abuoda et al. | Automatic Tag Recommendation for the UN Humanitarian Data Exchange. | |
Manna et al. | Information retrieval-based question answering system on foods and recipes | |
Lobo et al. | A novel method for analyzing best pages generated by query term synonym combination | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 | |
Kleb et al. | Ontology based entity disambiguation with natural language patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |