CN117112806B - 一种基于知识图谱的信息结构化方法和装置 - Google Patents
一种基于知识图谱的信息结构化方法和装置 Download PDFInfo
- Publication number
- CN117112806B CN117112806B CN202311319146.8A CN202311319146A CN117112806B CN 117112806 B CN117112806 B CN 117112806B CN 202311319146 A CN202311319146 A CN 202311319146A CN 117112806 B CN117112806 B CN 117112806B
- Authority
- CN
- China
- Prior art keywords
- information
- graph
- knowledge graph
- data format
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 66
- 238000013500 data storage Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 2
- 238000012937 correction Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 102100038367 Gremlin-1 Human genes 0.000 description 1
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于信息技术领域,提供了一种基于知识图谱的信息结构化方法和装置,该方法包括:获取用户输入信息,根据用户输入信息生成预设数据格式,其中,用户输入信息包括自然语言描述信息或表格信息;根据预设数据格式生成对应的图数据库查询语句;根据图数据库查询语句对知识图谱进行关键字段检索;判断是否存在关键字段,若存在,则生成检索结果;若不存在,则调用大语言模型对非结构化文本进行信息抽取,将信息抽取的结果保存至知识图谱,同时生成检索结果;以预设数据格式输出检索结果。根据本发明的一个实施例,降低了获取所需信息的技术门槛,提高了效率,实现一键获取所需信息的结构化数据。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于知识图谱的信息结构化方法和装置。
背景技术
随着互联网和信息技术的高速发展,可获取的信息量也呈现出爆发式增长,信息社会给我们的生活带来了便利,同时也带来了困扰,尤其在一些特定场景下,如行业信息搜集、科研人员的课题研究、猎头公司对人才库信息分析、企业对竞争对手经营情况的调查等,均需要从海量数据中提取信息来分析以便获得自己所需要的关键信息。因此,获取信息已不是一件难事,难点在于如何从海量的信息中获取我们所需要的信息。
由于海量信息存在于各式各样的资料中,比如文档、图片、视频、甚至网页,因此如何从这些非结构化的海量信息中获取我们所需要的关键信息是个难题。为了解决这个问题,目前现有技术中所采用的主要方案包括:通过人工阅读和整理的方式来确定关键信息字段标注,基于正则表达式提取文本信息,或通过机器学习算法做命名实体识别,然后将找到关键信息整理并输出。然而,现有技术所采取的方案获取所需信息存在技术门槛高、效率低的缺陷。
发明内容
本发明实施例提供了一种基于知识图谱的信息结构化方法,旨在降低获取所需信息的技术门槛,提高效率,实现一键获取所需信息的结构化数据。
本发明实施例是这样实现的,提供了一种基于知识图谱的信息结构化方法和装置,包括:
获取用户输入信息,根据所述用户输入信息生成预设数据格式,其中,所述用户输入信息包括自然语言描述信息或表格信息;
根据所述预设数据格式生成对应的图数据库查询语句;
根据所述图数据库查询语句对知识图谱进行关键字段检索;
判断是否存在所述关键字段,若存在,则生成检索结果;
若不存在,则调用大语言模型对非结构化文本进行信息抽取,将所述信息抽取的结果保存至所述知识图谱,同时生成检索结果;
以所述预设数据格式输出所述检索结果。
更进一步地,所述预设数据格式为Markdown格式的表格。
更进一步地,所述知识图谱包括公共知识图谱和私有知识图谱;
其中,所述公共知识图谱包括公开信息抽取结果的数据存储区域;
所述私有知识图谱包括上传文档信息抽取结果的数据存储区域。
更进一步地,所述私有知识图谱,其构建过程包括:对用户上传的文档进行结构化处理和信息抽取,并将信息抽取结果保存至所述私有知识图谱的数据存储区域。
更进一步地,所述调用大语言模型对非结构化文本进行信息抽取,将所述信息抽取的结果保存至知识图谱的步骤,具体为:
通过Prompt指令调用大语言模型对非结构化文本进行信息抽取,若信息不存在,使用预设值填补信息,生成信息抽取的结果;
将所述信息抽取的结果保存至所述私有知识图谱的数据存储区域,实现对所述私有知识图谱的数据更新。
更进一步地,所述检索结果中设置有溯源信息列表,其中所述溯源信息列表用于指示所述检索结果中的信息来源。
更进一步地,所述溯源信息列表包括原文信息链接和信息来源的概率。
本发明实施例还提供了一种基于知识图谱的信息结构化装置,包括:
信息输入单元,用于获取用户输入信息,根据所述用户输入信息生成预设数据格式,其中,所述用户输入信息包括自然语言描述信息或表格信息;
数据转换单元,用于根据所述预设数据格式生成对应的图数据库查询语句;
关键字段检索单元,用于根据所述图数据库查询语句对知识图谱进行关键字段检索;
第一数据处理单元,用于判断是否存在所述关键字段,若存在,则生成检索结果;
第二数据处理单元,用于确定所述判断的结果,若不存在,则调用大语言模型对非结构化文本进行信息抽取,将所述信息抽取的结果保存至所述知识图谱,同时生成检索结果;
信息显示单元,用于以所述预设数据格式输出所述检索结果。
通过将获取的用户输入信息生成预设数据格式,同时以预设数据格式的形式输出检索结果,并以表格模版形式显示,因此简化了用户的操作,降低了获取所需信息的的技术门槛,可直接实现一键获取所需信息的结构化数据,同时通过上述方案提升了信息获取的效率。
由于将用户输入信息生成预设数据格式,当用户要更改需求字段时,只需修改表格中的横纵坐标值即可,因此提高了数据修正的灵活性,降低纠错成本。
另外,由于采用调用大语言模型对用户上传文档进行信息抽取形成私有知识图谱的策略,进一步完善知识图谱的信息,所以提高了抽取结构化信息的效率,降低错误率,确保信息提取的质量。
同时,由于在检索结果中设置有溯源信息列表,所以便于后续查询数据来源,确保信息提取结果的可靠性。
附图说明
图1是本发明实施例提供的基于知识图谱的信息结构化方法的流程图;
图2是本发明实施例提供的知识图谱结构的示意图;
图3是本发明实施例提供的调用大语言模型构建知识图谱的流程图;
图4是本发明实施例提供的基于知识图谱的信息结构化装置的结构示意图;
图5是本发明实施例提供的基于知识图谱的信息结构化系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
考虑到现有信息抽取和结构化的方法获取所需信息技术门槛高、效率低、灵活性和可靠性差,本发明实施例提出一种基于知识图谱的信息结构化方法来降低技术门槛,实现一键获取所需信息的结构化数据,同时提升信息获取的效率,增强数据修正的灵活性和信息来源的可靠性。
实施例一
请参阅图1,本发明提供了一种基于知识图谱的信息结构化方法,包括:
在步骤S1中,获取用户输入信息,根据用户输入信息生成预设数据格式,其中,用户输入信息包括自然语言描述信息或表格信息。
具体地,在本实施例中,用户输入信息为用户需要获取的信息,这些信息并不是按照统一的格式要求存在,而是可能存在于一个文本的某多个段落中或者多个段落中,甚至存在多个文件中。用户根据待研究方向明确需要获取的信息之后,可以通过自然语言描述的方式发出指令,比如用户想要研究某上市公司董事长的履历,输入信息“我想要获取某上市公司董事长的以下信息:姓名、性别、出生年月、公司、职务、学历、毕业院校。”,该指令即为用户输入信息,获取指令后,指令会被解析为系统预设的数据格式。
在一些可能的实施例中,输入界面设置了表格模版,用户也可以直接通过表格模版输入信息,表格模版存在多种视图界面,以基础界面为例,用户通过基础界面输入所需要获取的信息,表格模版的基础界面为由横、纵坐标属性值所构成的表单,其中横、纵坐标属性值反映用户根据待研究方向明确需要获取的信息,填写了横、纵坐标属性值的表格模版即为用户输入信息,获取用户填写了横、纵坐标属性值的表格模版后,被映射成系统预设的数据格式。
在一些可能的实施例中,用户还可以直接通过表格模版输入需要的字段名之后,再选择AI自动填充的方式来查找图数据库。
在另一些可能的实施例中,用户还可以通过机器人助手对话的方式输入所需要获取的信息。
具体地,在本实施例中,预设数据格式可以为CSV格式、json格式、html格式等,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于将用户输入信息生成预设数据格式,当用户要更改需求字段时,只需修改表格中的横纵坐标值即可,因此提高了数据修正的灵活性,降低纠错成本。
在步骤S2中,根据预设数据格式生成对应的图数据库查询语句。
具体地,在本实施例中,通过图数据查询语言SPARQL将预设数据格式的值生成对应的图数据库查询语句,比如,根据预设数据格式的值显示横向属性值为“姓名、公司、职务、学历、毕业院校”,转化为对应的SPARQL语句为:“SELECT ?name ?company ?position
WHERE
{?x foaf:name ?name .
?x foaf:company ?company .
?x foaf:position ?position .
?x foaf:degree ?degree .
?x foaf:grad_from ?grad_from }”
在一些可能的实施例中,根据图数据查询语言将预设数据格式的值生成对应的图数据库查询语句,其中图数据查询语言包括图遍历语言Gremlin、描述性图形查询语言Cypher、声明型文本查询语言nGQL等,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在步骤S3中,根据图数据库查询语句对知识图谱进行关键字段检索。
具体地,在本实施例中,知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是用于增强搜索引擎功能的知识库,旨在描述真实世界中存在的各种实体或概念及其关系,图库保存了知识图谱的全量数据。
具体地,知识图谱构建过程中的所使用的信息抽取方法应当理解为此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明,在本实施例中,主要是基于BERT模型和NER模型作为信息抽取算法,包括对非结构化文本资料做全内容的信息抽取。比如,将非结构化文本资料中的每一句话分别拆解成三种结构,如行为结构、属性结构、关系结构,具体举例说明如下:
行为结构:采用六元组结构,包括时间、主体、动作、客体、参数和条件等元素,抽取主体行为及相关背景信息;
属性结构:采用四元组结构,包括时间、主体、属性以及属性值;
关系结构:采用四元组结构,包括时间,主体1、主体2以及其关系,抽取句子中关系实体对。
通过信息抽取算法将资料中非结构化文本的每一句话拆解成上述三种结构信息之后,将这些信息保存至知识图谱中,以便对知识图谱的数据实现快速检索,提高关键字段检索的效率。
在步骤S4中,判断是否存在所述关键字段,若存在,则生成检索结果。
具体地,在本实施例中,判断图数据库查询语句所要获取的关键字段是否存在于已构建的知识图谱中,如果检索到关键字段,则生成检索结果。其中,检索结果为包含与关键字段有关联的行为、属性、关系等数据结构信息,比如检索的关键字段包括“name\position”,则在知识图谱中存在保存的四元组结构信息“2019年、王某某、任职、董事长”,则将检索到的四元组结构信息作为检索结果。
在步骤S5中,若不存在,则调用大语言模型对非结构化文本进行信息抽取,将信息抽取的结果保存至所述知识图谱,同时生成检索结果。
具体地,在本实施例中,如果检索图数据库查询语句所要获取的关键字段在已构建的知识图谱中不存在,则通过调用大语言模型对非结构化文本进行信息抽取,其中,非结构化文本是指没有固定格式的文本,比如word/excel/pdf等文本,可以通过API的方式调用大语言模型,或者也可以采用其他抽取算法如NER等,大语言模型主要包括如OpenAI的GPT模型、Meta AI的LLaMA模型、Google的BERT模型、XLNet模型,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
具体地,在本实施例中,将调用大语言模型进行信息抽取的结果保存至所述知识图谱,同时生成检索结果。其中,信息抽取的结果即为通过调用大语言模型对非结构化文本进行信息抽取所获得的采用行为结构、属性结构或关系结构所表示的数据,比如抽取信息中的属性结构为采用四元组结构表示信息抽取的结果,包括:时间为2019年、主体为王某某、属性为某科技股份有限公司以及属性值为CEO,信息来源于新闻期刊或上市公司年报等非结构化文本。将信息抽取的结果保存至知识图谱,再根据图数据库查询语句中的关键字段检索,并生成检索结果。
在步骤S6中,以预设数据格式输出所述检索结果。
具体地,在本实施例中,通过步骤S4和步骤S5得到检索结果之后,将检索结果转换为预设数据格式输出。
具体地,在本实施例中,将检索结果输出之后,以表格模版的形式在系统界面上显示,表格模版提供多种视图方便用户进行数据分析,如筛选、多维视图、分组视图、看板视图等。如筛选视图中包括设置筛选条件、新增筛选条件、删除所有筛选等选择按钮,多维视图包括将多个属性值放入在同一表格中多行显示,分组视图可以设置不同的分组属性,按照属性组别罗列显示,看板视图比如将同一类别的数据按照一个看板来展示,存在多个不同类别的看板进行视图界面显示。
通过将获取的用户输入信息生成预设数据格式,同时以预设数据格式的形式输出检索结果,并以表格模版形式显示,因此降低了获取所需信息的技术门槛,可直接实现一键获取所需信息的结构化数据,同时通过上述方案提升了信息获取的效率。
实施例二
具体地,在本实施例中,所述预设数据格式为Markdown格式的表格。其中,由于Markdown格式语法简单,无需特殊编辑工具,兼容性高,可以实现数据格式的自动化来提升数据处理效率,不用根据不同表格手动编写规则代码,可以轻松处理大量数据,因此在本实施例中优选采用Markdown格式的表格映射成图数据库查询语句。
具体地,在本实施例中,用户在获取结构化数据的过程中,只需在表格模版中输入所需的数据字段,即可从非结构化文本信息中获取结构化数据表格,该数据表格还可下载为excel等格式,方便用户分享和分析数据。
实施例三
进一步地,请参阅图2,图2为本发明实施例提供的知识图谱结构的示意图。
在本实施例中,所述知识图谱包括公共知识图谱和私有知识图谱;
具体地,在本实施例中,将知识谱图的存储区域划分为公开信息抽取结果的数据存储区域和上传文档信息抽取结果的数据存储区域,公开信息抽取结果的数据存储区域对应为公共知识图谱,上传文档信息抽取结果的数据存储区域对应为私有知识图谱。
在本实施例中,其中,所述公共知识图谱包括公开信息抽取结果的数据存储区域;
具体地,在本实施例中,公共知识图谱的构建过程包括定期收集上市公司年报、招股说明书等公开报告,并对公开报告资料进行全内容的信息抽取,将信息抽取的结果存储至公开信息抽取结果的数据存储区域。
在本实施例中,所述私有知识图谱包括上传文档信息抽取结果的数据存储区域。
通过设置私有知识图谱对公共知识图谱的信息抽取资料进行数据扩充,以满足可以快速检索到关键信息的需求。
实施例四
在本实施例中,所述私有知识图谱,其构建过程包括:对用户上传的文档进行结构化处理和信息抽取,并将信息抽取结果保存至所述私有知识图谱的数据存储区域。
具体地,在本实施例中,私有知识图谱的构建过程包括对用户上传文档、报告或其他资料等进行信息抽取,例如用户即时上传了十份文档,并且发出指令:“提取这十份文档中的高管信息,包括这些字段:姓名、性别、出生年月、公司、职务、学历、毕业院校”,通过指令调用大语言模型对十份文档的内容进行信息抽取,并将信息抽取的结果存储至上传文档信息抽取结果的数据存储区域。
私有知识图谱的构建为对公共知识图谱内容的扩充,由于公共知识图谱的信息主要来源于对公开报告信息的抽取,存在信息不全的问题,因此构建私有知识图谱对非公开报告信息抽取,更新和扩充知识图谱的内容,达到提高了抽取结构化信息效率的目的。
实施例五
进一步地,请参阅图3,图3为本发明实施例提供的调用大语言模型构建知识图谱的流程图。
在本实施例中,所述调用大语言模型对非结构化文本进行信息抽取,将所述信息抽取的结果保存至知识图谱的步骤,具体为:
在本实施例步骤S31中,系统通过API与大语言模型进行直接的程序化交互,可以自定义模型的行为来执行各种任务,也可以通过API将大语言模型集成到我们的系统中,将大量文本数据批量发送到API进行处理和分析,通过Prompt指令调用大语言模型对非结构化文本进行信息抽取,若信息不存在,使用预设值填补信息,生成信息抽取的结果;
具体地,在本实施例中,可以在不影响用户使用的前提下,不断改进和优化模型,确保其性能始终保持最佳状态。
具体地,在本实施例中,将获取的自然语言描述信息或表格信息转化为Prompt指令,如从董事长履历介绍文本中识别以下项目:
-董事长的姓名
-董事长现在任职的公司
-董事长现任的所有职务
-董事长的最高学历
-董事长获得最高学历的毕业院校
将你的响应格式化为以“姓名”、“公司”、“职务”、“学历”和“毕业院校”为键的JSON对象。
如果信息不存在,请使用预设值填补信息,如使用“未知”作为值填补信息 。
在本实施例步骤S32中,将所述信息抽取的结果保存至所述私有知识图谱的数据存储区域,实现对所述私有知识图谱的数据更新。
具体地,在本实施例中,针对用户即时上传的文件调用大语言模型进行信息抽取,将信息抽取的结果保存至所述私有知识图谱的数据存储区域,实现对私有知识图谱的数据更新,也即实现对知识图谱内容的扩充。
具体地,在本实施例中,检索结果最终以结构化的表格形式输出,比如Markdown格式的表格。
通过调用大数据模型抽取上传文档的信息,采用当信息不存在时使用预设值填补信息防止报错的方式,信息抽取的结果对私有知识图谱的数据更新,以降低错误率,确保信息提取的质量。
实施例六
在本实施例中,所述检索结果中设置有溯源信息列表,其中所述溯源信息列表用于指示所述检索结果中的信息来源。
具体地,在本实施例中,在检索结果的每个单元格都设置有溯源信息,溯源信息即为附带的溯源信息列表,用户可以很清晰的知道这个检索结果的出处信息。
通过溯源信息列表的设置,便于用户后续查询数据来源,可实现在研究数据的基础上进一步深入研究,无需重新检索之前的数据。
实施例七
在本实施例中,所述溯源信息列表包括原文信息链接和信息来源的概率。
具体地,在本实施例中,在做信息抽取时都会保留原文信息或链接,因此检索到的数据中也会保留原文信息或链接。
具体地,在溯源信息列表中显示了每种结果的概率,其中信息来源的概率表示对结果的置信度,信息来源的概率是由模型计算得到的,比如从某个段落中抽取董事长信息,信息来源的概率可以通过条件随机场(CRF)等序列标注模型计算,初始显示的结果是信息来源的概率最高的结果。
比如,我们得到的检索结果是:
姓名 | 公司 |职务 | 学历 | 毕业院校
马某某 | A集团 |董事长(执行董事) | 博士 |中南财经政法大学
溯源信息列表如下:
99% -A集团2022年年度报告
99% -A集团2021年年度报告
95% -互联网新闻报道
…
具体地,在本实施例中,还包括将溯源信息设置超链接,通过下划线表示可以链接到报告原文或具体定位到原出处文档中对应段落。
通过溯源信息列表中的具体链接信息和信息来源的概率显示,来确保信息提取结果的可靠性。
实施例八
请参阅图4,图4为本发明实施例提供的基于知识图谱的信息结构化装置的结构示意图,作为对图1所示的基于知识图谱的信息结构化方法的实现,本实施例提供基于知识图谱的信息结构化装置,该装置实施例与图1所示的方法实施例相对应,该装置包括:
信息输入单元21,用于获取用户输入信息,根据所述用户输入信息生成预设数据格式,其中,所述用户输入信息包括自然语言描述信息或表格信息;
数据转换单元22,用于根据所述预设数据格式生成对应的图数据库查询语句;
关键字段检索单元23,用于根据所述图数据库查询语句对知识图谱进行关键字段检索;
第一数据处理单元24,用于判断是否存在所述关键字段,若存在,则生成检索结果;
第二数据处理单元25,用于确定所述判断的结果,若不存在,则调用大语言模型对非结构化文本进行信息抽取,将所述信息抽取的结果保存至所述知识图谱,同时生成检索结果;
信息显示单元26,用于以所述预设数据格式输出所述检索结果。
本发明实施例的基于知识图谱的信息结构化装置20的有益效果为通过获取用户输入信息,根据用户输入信息生成预设数据格式,其中,用户输入信息包括自然语言描述信息或表格信息;根据预设数据格式生成对应的图数据库查询语句;根据图数据库查询语句对知识图谱进行关键字段检索;判断是否存在关键字段,若存在,则生成检索结果;若不存在,则调用大语言模型对非结构化文本进行信息抽取,将信息抽取的结果保存至知识图谱,同时生成检索结果;以预设数据格式输出检索结果。从而提高了数据修正的灵活性,降低纠错成本,提高抽取结构化信息的效率,降低错误率,确保信息提取的质量。
实施例九
请参阅图5,图5为本发明实施例提供的基于知识图谱的信息结构化系统的结构示意图。
本发明实施例还提供了一种存储介质,存储介质上存储有程序指令,程序指令用于执行上述基于知识图谱的信息结构化方法。
本发明的存储介质的有益效果为通过获取用户输入信息,根据用户输入信息生成预设数据格式,其中,用户输入信息包括自然语言描述信息或表格信息;根据预设数据格式生成对应的图数据库查询语句;根据图数据库查询语句对知识图谱进行关键字段检索;判断是否存在关键字段,若存在,则生成检索结果;若不存在,则调用大语言模型对非结构化文本进行信息抽取,将信息抽取的结果保存至知识图谱,同时生成检索结果;以预设数据格式输出检索结果。从而提高了数据修正的灵活性,降低纠错成本,提高抽取结构化信息的效率,降低错误率,确保信息提取的质量。
本发明可用于众多通用或专用的计算机系统环境或配置中。
例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等。
综上所述,本发明实施例提供的具体实施例一至九的具体实现方式,实现高效地将非结构化文本进行信息结构化的过程,从而解决了技术门槛高、耗时长、提取错误率高、数据修正灵活性差的问题,因此,降低了获取所需信息的技术门槛,实现一键获取所需信息的结构化数据,提高了数据修正的灵活性,降低纠错成本,提高了抽取结构化信息的效率,降低错误率,确保信息提取的质量,便于后续查询数据来源,确保信息提取结果的可靠性。
可以理解的是,本领域技术人员可以在以上实施例的教导下,可对以上各个实施例中各种实施方式进行组合,获得多种实施方式的技术方案。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于知识图谱的信息结构化方法,其特征在于,包括:
获取用户输入信息,所述用户输入信息包括输入界面设置了表格模版,用户通过所述表格模版输入信息,所述表格模版存在多种视图界面,其中,所述表格模版的基础界面为由横、纵坐标属性值所构成的表单,所述横、纵坐标属性值反映用户根据待研究方向明确需要获取的信息,根据所述用户输入信息生成预设数据格式,具体为获取用户填写了横、纵坐标属性值的表格模版后,将所述填写了横、纵坐标属性值的表格模版映射成系统预设的数据格式,其中所述预设数据格式为Markdown格式的表格;
根据所述预设数据格式生成对应的图数据库查询语句,具体为通过图数据查询语言SPARQL将所述预设数据格式的值生成对应的图数据库查询语句,其中所述预设数据格式为Markdown格式的表格,采用所述Markdown格式的表格映射成图数据库查询语句;
根据所述图数据库查询语句对知识图谱进行关键字段检索;
判断是否存在所述关键字段,若存在,则生成检索结果;
若不存在,则通过API将大语言模型集成到系统中,将非结构化文本发送到API进行处理和分析,通过Prompt指令调用大语言模型对非结构化文本进行信息抽取,若信息不存在,使用预设值填补信息,生成信息抽取的结果,将所述信息抽取的结果保存至所述知识图谱,同时生成检索结果;
以所述预设数据格式输出所述检索结果,其中所述预设数据格式为Markdown格式的表格,并以所述表格模版形式显示。
2.如权利要求1所述的基于知识图谱的信息结构化方法,其特征在于,所述知识图谱包括公共知识图谱和私有知识图谱;
其中,所述公共知识图谱包括公开信息抽取结果的数据存储区域;
所述私有知识图谱包括上传文档信息抽取结果的数据存储区域。
3.如权利要求2所述的基于知识图谱的信息结构化方法,其特征在于,所述私有知识图谱,其构建过程包括:对用户上传的文档进行结构化处理和信息抽取,并将信息抽取结果保存至所述私有知识图谱的数据存储区域。
4.如权利要求3所述基于知识图谱的信息结构化方法,其特征在于,所述将所述信息抽取的结果保存至知识图谱的步骤,具体为:
将所述信息抽取的结果保存至所述私有知识图谱的数据存储区域,实现对所述私有知识图谱的数据更新。
5.如权利要求1至4中任一项所述的基于知识图谱的信息结构化方法,其特征在于,所述检索结果中设置有溯源信息列表,其中所述溯源信息列表用于指示所述检索结果中的信息来源。
6.如权利要求5所述的基于知识图谱的信息结构化方法,其特征在于,所述溯源信息列表包括原文信息链接和信息来源的概率。
7.一种基于知识图谱的信息结构化装置,其特征在于,包括:
信息输入单元,用于获取用户输入信息,所述用户输入信息包括输入界面设置了表格模版,用户通过所述表格模版输入信息,所述表格模版存在多种视图界面,其中,所述表格模版的基础界面为由横、纵坐标属性值所构成的表单,所述横、纵坐标属性值反映用户根据待研究方向明确需要获取的信息,根据所述用户输入信息生成预设数据格式,具体为获取用户填写了横、纵坐标属性值的表格模版后,将所述填写了横、纵坐标属性值的表格模版映射成系统预设的数据格式,其中所述预设数据格式为Markdown格式的表格;
数据转换单元,用于根据所述预设数据格式生成对应的图数据库查询语句,具体为通过图数据查询语言SPARQL将所述预设数据格式的值生成对应的图数据库查询语句,其中所述预设数据格式为Markdown格式的表格,采用所述Markdown格式的表格映射成图数据库查询语句;
关键字段检索单元,用于根据所述图数据库查询语句对知识图谱进行关键字段检索;
第一数据处理单元,用于判断是否存在所述关键字段,若存在,则生成检索结果;
第二数据处理单元,用于确定所述判断的结果,若不存在,则通过API将大语言模型集成到系统中,将非结构化文本发送到API进行处理和分析,通过Prompt指令调用大语言模型对非结构化文本进行信息抽取,若信息不存在,使用预设值填补信息,生成信息抽取的结果,将所述信息抽取的结果保存至所述知识图谱,同时生成检索结果;
信息显示单元,用于以所述预设数据格式输出所述检索结果,其中所述预设数据格式为Markdown格式的表格,并以所述表格模版形式显示。
8.一种基于知识图谱的信息结构化设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至6中任一项所述的基于知识图谱的信息结构化方法的各个步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的基于知识图谱的信息结构化方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319146.8A CN117112806B (zh) | 2023-10-12 | 2023-10-12 | 一种基于知识图谱的信息结构化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319146.8A CN117112806B (zh) | 2023-10-12 | 2023-10-12 | 一种基于知识图谱的信息结构化方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117112806A CN117112806A (zh) | 2023-11-24 |
CN117112806B true CN117112806B (zh) | 2024-01-26 |
Family
ID=88813045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311319146.8A Active CN117112806B (zh) | 2023-10-12 | 2023-10-12 | 一种基于知识图谱的信息结构化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112806B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117371973A (zh) * | 2023-12-06 | 2024-01-09 | 武汉科技大学 | 基于知识图谱检索增强的语言模型毕业生就业服务系统 |
CN117540811B (zh) * | 2024-01-09 | 2024-04-09 | 北京大学深圳研究生院 | 一种解决大型语言模型幻觉问题的系统和方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885665A (zh) * | 2019-01-09 | 2019-06-14 | 北京小乘网络科技有限公司 | 一种数据查询方法、装置及系统 |
CN110399457A (zh) * | 2019-07-01 | 2019-11-01 | 吉林大学 | 一种智能问答方法和系统 |
CN110555153A (zh) * | 2019-08-20 | 2019-12-10 | 暨南大学 | 一种基于领域知识图谱的问答系统及其构建方法 |
CN111008309A (zh) * | 2019-12-06 | 2020-04-14 | 北京百度网讯科技有限公司 | 查询方法及装置 |
CN111046154A (zh) * | 2019-11-20 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息检索方法、装置、介质及电子设备 |
CN112800247A (zh) * | 2021-04-09 | 2021-05-14 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信系统 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN114036917A (zh) * | 2021-11-25 | 2022-02-11 | 北京达佳互联信息技术有限公司 | 报告生成方法、装置、计算机设备及存储介质 |
CN114546988A (zh) * | 2022-02-09 | 2022-05-27 | 浪潮云信息技术股份公司 | 一种支持多字段类型markdown数据库文档转sql建表语句的方法 |
CN115563313A (zh) * | 2022-10-25 | 2023-01-03 | 上海交通大学 | 基于知识图谱的文献书籍语义检索系统 |
CN115687572A (zh) * | 2022-10-31 | 2023-02-03 | 北京中电普华信息技术有限公司 | 一种数据信息的检索方法、装置、设备及存储介质 |
CN116402024A (zh) * | 2023-04-08 | 2023-07-07 | 北京易智联科技有限公司 | 一种基于大型语言模型的工程文件生成方法及其系统 |
CN116775906A (zh) * | 2023-06-29 | 2023-09-19 | 中科云谷科技有限公司 | 知识图谱的构建方法、系统、计算机设备和存储介质 |
CN116860997A (zh) * | 2023-07-06 | 2023-10-10 | 北京轻松筹信息技术有限公司 | 知识图谱的构建方法、装置、设备及存储介质 |
-
2023
- 2023-10-12 CN CN202311319146.8A patent/CN117112806B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885665A (zh) * | 2019-01-09 | 2019-06-14 | 北京小乘网络科技有限公司 | 一种数据查询方法、装置及系统 |
CN110399457A (zh) * | 2019-07-01 | 2019-11-01 | 吉林大学 | 一种智能问答方法和系统 |
CN110555153A (zh) * | 2019-08-20 | 2019-12-10 | 暨南大学 | 一种基于领域知识图谱的问答系统及其构建方法 |
CN111046154A (zh) * | 2019-11-20 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息检索方法、装置、介质及电子设备 |
CN111008309A (zh) * | 2019-12-06 | 2020-04-14 | 北京百度网讯科技有限公司 | 查询方法及装置 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN112800247A (zh) * | 2021-04-09 | 2021-05-14 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信系统 |
CN114036917A (zh) * | 2021-11-25 | 2022-02-11 | 北京达佳互联信息技术有限公司 | 报告生成方法、装置、计算机设备及存储介质 |
CN114546988A (zh) * | 2022-02-09 | 2022-05-27 | 浪潮云信息技术股份公司 | 一种支持多字段类型markdown数据库文档转sql建表语句的方法 |
CN115563313A (zh) * | 2022-10-25 | 2023-01-03 | 上海交通大学 | 基于知识图谱的文献书籍语义检索系统 |
CN115687572A (zh) * | 2022-10-31 | 2023-02-03 | 北京中电普华信息技术有限公司 | 一种数据信息的检索方法、装置、设备及存储介质 |
CN116402024A (zh) * | 2023-04-08 | 2023-07-07 | 北京易智联科技有限公司 | 一种基于大型语言模型的工程文件生成方法及其系统 |
CN116775906A (zh) * | 2023-06-29 | 2023-09-19 | 中科云谷科技有限公司 | 知识图谱的构建方法、系统、计算机设备和存储介质 |
CN116860997A (zh) * | 2023-07-06 | 2023-10-10 | 北京轻松筹信息技术有限公司 | 知识图谱的构建方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117112806A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gardener | Statistics for ecologists using R and Excel: data collection, exploration, analysis and presentation | |
CN112035653B (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
CN117112806B (zh) | 一种基于知识图谱的信息结构化方法和装置 | |
JP7375410B2 (ja) | 計算ノートブックインターフェースのためのシステム、方法、プログラム、及び装置 | |
US11748577B1 (en) | Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models | |
US20110276915A1 (en) | Automated development of data processing results | |
Kethavarapu et al. | Concept based dynamic ontology creation for job recommendation system | |
US8260772B2 (en) | Apparatus and method for displaying documents relevant to the content of a website | |
KR102682244B1 (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
Bhatia et al. | Machine Learning with R Cookbook: Analyze data and build predictive models | |
CN115438740A (zh) | 一种多源数据的汇聚融合方法和系统 | |
CN111368167A (zh) | 基于网络爬虫技术的中文文献数据自动化获取方法 | |
US20240062019A1 (en) | Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models | |
CN114328972A (zh) | 基于资源语义关联的数据存储和查询方法和知识库系统 | |
Zhekova et al. | JavaScript Web Scraping Tool for Extraction Information from Agriculture Websites | |
Fuentes | Become a Python data analyst: perform exploratory data analysis and gain insight into scientific computing using Python | |
US20230394021A1 (en) | Computing similarity of tree data structures using metric functions defined on sets | |
Bajpai et al. | Use of data mining in the field of library and information science: an overview | |
Powell et al. | Front-End Kibana (FEK) CS5604 Fall 2019 | |
Marin et al. | Big Data Analysis with Python: Combine Spark and Python to unlock the powers of parallel computing and machine learning | |
Vasiliev | Python for Data Science: A Hands-on Introduction | |
CN117114013B (zh) | 一种基于小样本的语义标注方法及装置 | |
Espadoto et al. | Selecting and sharing multidimensional projection algorithms: a practical view | |
Ankala et al. | Resume analysis for skill-set estimation using HDFS, MapReduce and R | |
Radio et al. | Manifestations of metadata structures in research datasets and their ontic implications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |