CN117453851B - 基于知识图谱的文本索引增强问答方法及系统 - Google Patents
基于知识图谱的文本索引增强问答方法及系统 Download PDFInfo
- Publication number
- CN117453851B CN117453851B CN202311754403.0A CN202311754403A CN117453851B CN 117453851 B CN117453851 B CN 117453851B CN 202311754403 A CN202311754403 A CN 202311754403A CN 117453851 B CN117453851 B CN 117453851B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- text
- graph
- triples
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000012634 fragment Substances 0.000 claims abstract description 34
- 238000010276 construction Methods 0.000 claims abstract description 20
- 238000005516 engineering process Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000003058 natural language processing Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 11
- 239000003623 enhancer Substances 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱的文本索引增强问答方法及系统,包括:构建知识图谱步骤:根据知识语料库,构建带有知识语料库文本索引的知识图谱;知识匹配步骤:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答。本发明将文章或一段话中的不同知识要点分解并用知识三元组这种精确和明确的方式进行编码检索,更容易进行知识整合和信息去噪,提高了检索效率和召回率,减少了检索错误的可能性;本发明在知识图谱的知识三元组中加入文章特定知识点对应段落和句子的索引,从而能够从知识图谱中找到文章语料库的对应语句或特定段落;本发明给大语言模型提供额外信息,从而提高大语言模型在新领域的回答质量。
Description
技术领域
本发明涉及信息检索技术,具体地,涉及一种基于知识图谱的文本索引增强问答方法及系统。
背景技术
随者互联网和企业信息化的发展,产生了大量的非结构化数据,如产品模型、技术文档、管理文本、电子邮件等,文本数据就是最常见的非结构化数据之一。
公开号为CN116646041A的专利文献公开了一种基于大模型提升临床试验受试者匹配精度的方法和系统,应用于大模型的技术领域,其包括获取医学文本信息;构建医学领域大语言模型;通过所述医学领域大语言模型对医学文本信息进行提取并获取专病数据集;通过预设的项目纳排标准对专病数据集匹配对应的临床试验项目,所述项目纳排标准包括不同的临床试验项目以及对应的纳排标准。
公开号为CN116340548A的专利文献公开了一种数据处理方法、装置、电子设备和存储介质,基于目标领域的全量领域知识构建领域知识图谱;获取用于训练或微调所述目标领域的大语言模型所需要的训练数据集或微调数据集;基于所述领域知识图谱,确定所述训练数据集或微调数据集中的各数据的数据质量;根据所述数据质量,对所述训练数据集或微调数据集中的各数据进行筛选。
公开号为CN116628172A的专利文献公开了一种基于知识图谱的政务服务领域多策略融合的对话方法,采用“基于政务服务的图谱构建策略+政务服务图谱多轮问答策略+基于词和语义多阶段召回和排序的FAQ知识库问答策略+多文档检索的抽取式阅读理解问答策略+基于可信知识机制的LLM大语言模型本地知识库策略”的政务服务领域多策略融合对话方法。基于政务领域知识和政务服务流程体系,构建政务服务图谱,再造政务服务业务流程、优化政务服务。针对政务领域数据的特点构建对话相关模型结构,在模型训练的时候,融入政务图谱的知识数据,进一步提高在政务领域下模型的准确率。
科研文献1:Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis,M., ...&Yih, W. T. (2023). Replug: Retrieval-augmented black-box languagemodels. arXiv preprint arXiv:2301.12652.
科研文献2:Mountantonakis, M.,&Tzitzikas, Y. (2023). Using MultipleRDF Knowledge Graphs for Enriching ChatGPT Responses. arXiv preprint arXiv:2304.05774.
上述文献在既往工作中单独使用知识图谱或者文本语料库进行检索而未将其紧密结合,因而存在如下局限性:
a、仅使用文本语料库抽取词向量进行检索,由于自然语言表述的问题,相同或类似的概念可能在文本语料库中用不同方式表达,从而导致语料库冗余,影响检索效率;同时,将文章、段落、或句子进行特征编码和基于特征编码的索引强烈依赖于特征编码的算法和模型,难以对特征编码和检索过程进行人工分析、干预和去噪,从而更容易出现检索错误。本申请使用知识图谱对于文本语料库进行解析编码,可以克服上述问题。
b、由于知识图谱仅由知识三元组构成,而原始语料库的特定段落或语句包含比知识图谱的三元组更丰富的信息,因此仅使用知识图谱生成提示语会导致部分信息的丢失,难以充分利用原始语料库提供的丰富信息。本申请在知识图谱中引入原始语料库的索引,并且根据原始语料库生成提示语,可以更好克服该问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于知识图谱的文本索引增强问答方法及系统。
根据本发明提供的一种基于知识图谱的文本索引增强问答方法,包括:
构建知识图谱步骤:根据知识语料库,构建带有知识语料库文本索引的知识图谱;
知识匹配步骤:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答。
优选的,所述构建知识图谱步骤包括:
构建资料库步骤:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;
提取构建知识图谱步骤:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;
优化步骤:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱步骤生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音。
优选的,所述提取构建知识图谱步骤包括:
预处理步骤:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
组成知识三元组步骤:利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,记录所述知识三元组所在的文本索引;
汇总步骤:将所有抽取出的知识三元组汇总成一个知识图谱。
优选的,所述提取构建知识图谱步骤包括:
生成步骤:利用大语言模型作为知识生成器,根据给定的新领域的文本描述或关键词,自动生成相关的知识三元组,并将其组织为知识图谱的形式;
其中,使用大预言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息。
优选的,所述知识匹配步骤包括:
提取步骤:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
搜索步骤:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配或相似度进行排序;
匹配步骤:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;
生成回答步骤:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;
其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。
本发明还提供一种基于知识图谱的文本索引增强问答系统,包括:
构建知识图谱模块:根据知识语料库,构建带有知识语料库文本索引的知识图谱;
知识匹配模块:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答。
优选的,所述构建知识图谱模块包括:
构建资料库模块:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;
提取构建知识图谱模块:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;
优化模块:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱模块生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音。
优选的,所述提取构建知识图谱模块包括:
预处理模块:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
组成知识三元组模块:利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,记录所述知识三元组所在的文本索引;
汇总模块:将所有抽取出的知识三元组汇总成一个知识图谱。
优选的,所述提取构建知识图谱模块包括:
生成模块:利用大语言模型作为知识生成器,根据给定的新领域的文本描述或关键词,自动生成相关的知识三元组,并将其组织为知识图谱的形式;
其中,使用大预言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息。
优选的,所述知识匹配模块包括:
提取模块:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
搜索模块:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配或相似度进行排序;
匹配模块:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;
生成回答模块:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;
其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。
与现有技术相比,本发明具有如下的有益效果:
1、本发明利用知识图谱结构,从文章或一段话中提取构建知识图谱,在构建知识图谱过程中对文章的语句和内容根据知识点定义进行分解,并将其提取为知识图谱的知识三元组形式以此进行检索。这样可以有效地将文章或一段话中的不同知识要点分解并用知识三元组这种精确和明确的方式进行编码检索,可以联系不同文章的概念点,更容易进行知识整合和信息去噪,提高了检索效率和召回率,减少了检索错误的可能性;
2、本发明在知识图谱的知识三元组中加入文章特定知识点对应段落和句子的索引,从而能够从知识图谱中找到文章语料库的对应语句或特定段落。由于文章的语句或特定段落往往包含比知识图谱的三元组能表达更丰富的信息,因此不同于普通知识图谱问答系统,本发明的知识图谱作为索引提取出文章语料库的对应语句或特定段落生成提示语,可以提取出原有知识语料库中丰富完备的知识信息。
3、本发明将提取出的文本索引加入到提示语中,作为大语言模型的输入,生成回答。这样可以给大语言模型提供额外信息,从而提高大语言模型在新领域的回答质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于知识图谱的文本索引增强问答方法的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1所示,本实施例提供一种基于知识图谱的文本索引增强问答方法,包括:
构建知识图谱步骤:根据知识语料库,构建带有知识语料库文本索引的知识图谱;构建知识图谱步骤具体包括如下步骤:
构建资料库步骤:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;
提取构建知识图谱步骤:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;
优化步骤:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱步骤生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音;
提取构建知识图谱步骤具体包括如下步骤:
预处理步骤:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
组成知识三元组步骤:利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,记录知识三元组所在的文本索引;
汇总步骤:将所有抽取出的知识三元组汇总成一个知识图谱;
提取构建知识图谱步骤还包括如下步骤:
生成步骤:利用大语言模型作为知识生成器,根据给定的新领域的文本描述或关键词,自动生成相关的知识三元组,并将其组织为知识图谱的形式;
其中,使用大预言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息。
知识匹配步骤:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答;知识匹配步骤具体包括如下步骤:
提取步骤:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
搜索步骤:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配或相似度进行排序;
匹配步骤:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;
生成回答步骤:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;
其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。
提取步骤中的预处理过程与预处理步骤中的预处理过程相同,但是两个步骤预处理的目的不同。预处理步骤适用于提取知识三元组,比如说通过取出主体、关系和客体,并将其组成一个知识三元组,或者利用大语言模型作为知识生成器自动生成知识三元组。而提取步骤中,适用于提取问题的关键实体和关系,用于在下个步骤(搜索步骤)中,以抽取出的实体和关系作为查询条件,在知识图谱中搜索和查询相似的知识三元组。也就是说预处理步骤的目的是生成知识三元组,而提取步骤的目的是通过问题获得问题提到的实体和关系,从而在搜索步骤中作为知识库(知识三元组)查询的条件。
在搜索步骤中,以问题抽取出的实体和关系作为查询条件,在知识图谱中给搜索类似的知识三元组,并且根据相似度进行排序。将相似度较高的前K个知识三元组作为搜索到的知识三元组,而相似度比较低的知识三元组(就是排序顺序在K个顺序之后的三元组)直接舍弃不用。这样,仅仅使用相似度较高的前K个知识三元组提取三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段。所以相似度排序适用于筛选那些最相关的知识三元组,而后面匹配文本片段是根据最相关的知识三元组而进行。
生成回答步骤中的回答是由大语言模型的内在对话能力而自动生成的。具体来说,将用户的原本问题,提取出的相关知识三元组,以及提取出的文本片段,用一定的方式组合成大预言模型的输入。举例:“用户提问是【某问题】,而用户提问相关的知识库有【提取出的三元组】,此外和用户提问相关的语料信息有【匹配得到的语料文本片段】。请问用户提问的答案是什么?”大语言模型由于内在语言处理、逻辑分析和通用知识等能力,可以自动根据如上输入生成答案。
本实施例还提供一种基于知识图谱的文本索引增强问答系统,所述基于知识图谱的文本索引增强问答系统可以通过执行所述基于知识图谱的文本索引增强问答方法的流程步骤予以实现,即本领域技术人员可以将所述基于知识图谱的文本索引增强问答方法理解为所述基于知识图谱的文本索引增强问答系统的优选实施方式。
实施例2:
本实施例提供一种基于知识图谱的文本索引增强问答系统,包括:
构建知识图谱模块:根据知识语料库,构建带有知识语料库文本索引的知识图谱;构建知识图谱模块具体包括如下模块:
构建资料库模块:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;
提取构建知识图谱模块:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;
优化模块:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱模块生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音;
提取构建知识图谱模块具体包括如下模块:
预处理模块:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
组成知识三元组模块:利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,记录知识三元组所在的文本索引;
汇总模块:将所有抽取出的知识三元组汇总成一个知识图谱;
提取构建知识图谱模块还包括如下模块:
生成模块:利用大语言模型作为知识生成器,根据给定的新领域的文本描述或关键词,自动生成相关的知识三元组,并将其组织为知识图谱的形式;
其中,使用大预言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息。
知识匹配模块:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答;知识匹配模块具体包括如下模块:
提取模块:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
搜索模块:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配或相似度进行排序;
匹配模块:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;
生成回答模块:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;
其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。
实施例3:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例涉及的知识问答系统包含如下模块:
知识图谱构建模块:
步骤1:从新领域的文献、书籍等资料构建知识语料库,其中知识语料库包含多篇或多段文本,每篇或每段文本都有一个唯一的文本索引;
步骤2:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱,其中知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引。可以选择或同时使用如下方法进行知识图谱提取:
方法1:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析等预处理操作,然后利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,同时记录该知识三元组所在的文本索引;最后将所有抽取出的知识三元组汇总成一个知识图谱;
方法2:利用大语言模型(包括且不限于ChatGPT, GLM等)作为知识生成器,根据给定的新领域(如医疗罕见病、新治疗方法等)的文本描述或关键词,自动生成相关的知识三元组(实体、关系、实体),并将其组织为知识图谱的形式。使用大预言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息,从而提高知识图谱的完整性和准确性。
步骤3:利用现有的知识图谱(如Wikidata, ConceptNet等)作为知识增强器,根据步骤2生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息,以丰富和优化生成的知识图谱。我们也利用图卷积网络(GCN)来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音,提高知识图谱一致性和可靠性。
知识匹配,提示生成和问答模块:
步骤4:根据用户提问,提取出问题的关键实体和关系,具体地,利用自然语言处理技术或大语言模型(包括且不限于ChatGPT, GLM等)对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析等预处理操作。
步骤5:利用基于规则,机器学习或大语言模型的方法从问题中抽取出关键实体和关系,并将其作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配或相似度进行排序;然后根据搜索到的知识三元组,提取出它们所对应的文本索引,并根据文本索引在原有语料库中找到相应的文本片段;
步骤6:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;具体地,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,然后将提示语作为大语言模型(如ChatGPT, GLM等)的输入,利用大语言模型生成回答。具体地,使用语言生成模型(如ChatGPT, GLM等),将生成的提示语作为模型输入的前缀结合用户的提问进行文本生成。 可以采用不同的生成策略,如beam search、nucleus sampling等,获得更准确、多样性的生成结果。我们可以使用预训练好的模型,也可以引入模型调优机制或强化学习,通过设定合适的损失函数或奖励函数,针对我们生成的提示语,引导生成模型输出更贴近问题和知识的回答,优化输出结果。
这项发明介绍了一种使用知识图谱增强的大语言模型进行知识问答的方法。通过构建知识语料库并提取知识图谱,将问题的关键实体和关系与知识图谱进行匹配,再将匹配的文本信息输入大语言模型,生成准确的回答。与传统提示语方法不同,该发明利用知识图谱提取技术将文章中的知识要点分解并索引,为大语言模型提供更丰富的信息,从而提高问答质量。这一方法解决了在新领域问答中数据不足的问题,使得大语言模型能够在没有大量对话数据的情况下,针对特定领域提供高质量回答。
本发明还提供一种基于知识图谱的文本索引增强问答系统,所述基于知识图谱的文本索引增强问答系统可以通过执行所述基于知识图谱的文本索引增强问答方法的流程步骤予以实现,即本领域技术人员可以将所述基于知识图谱的文本索引增强问答方法理解为所述基于知识图谱的文本索引增强问答系统的优选实施方式。
本实施例还提供一种基于知识图谱的文本索引增强问答系统,包括:构建知识图谱模块:根据知识语料库,构建带有知识语料库文本索引的知识图谱;知识匹配模块:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答。
具体的,所述构建知识图谱模块包括:构建资料库模块:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;提取构建知识图谱模块:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;优化模块:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱模块生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音。
具体的,所述提取构建知识图谱模块包括:预处理模块:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;组成知识三元组模块:利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,记录所述知识三元组所在的文本索引;汇总模块:将所有抽取出的知识三元组汇总成一个知识图谱。
具体的,所述提取构建知识图谱模块包括:生成模块:利用大语言模型作为知识生成器,根据给定的新领域的文本描述或关键词,自动生成相关的知识三元组,并将其组织为知识图谱的形式;其中,使用大预言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息。
具体的,所述知识匹配模块包括:提取模块:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;搜索模块:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配或相似度进行排序;匹配模块:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;生成回答模块:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (6)
1.一种基于知识图谱的文本索引增强问答方法,其特征在于,包括:
构建知识图谱步骤:根据知识语料库,构建带有知识语料库文本索引的知识图谱;
知识匹配步骤:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答;
所述构建知识图谱步骤包括:
构建资料库步骤:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;
提取构建知识图谱步骤:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;
优化步骤:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱步骤生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音;
所述知识匹配步骤包括:
提取步骤:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
搜索步骤:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配度或相似度进行排序;
匹配步骤:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;
生成回答步骤:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;
其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。
2.根据权利要求1所述的基于知识图谱的文本索引增强问答方法,其特征在于,所述提取构建知识图谱步骤包括:
预处理步骤:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
组成知识三元组步骤:利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,记录所述知识三元组所在的文本索引;
汇总步骤:将所有抽取出的知识三元组汇总成一个知识图谱。
3.根据权利要求1所述的基于知识图谱的文本索引增强问答方法,其特征在于,所述提取构建知识图谱步骤包括:
生成步骤:利用大语言模型作为知识生成器,根据给定的新领域的文本描述或关键词,自动生成相关的知识三元组,并将其组织为知识图谱的形式;
其中,使用大语言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息。
4.一种基于知识图谱的文本索引增强问答系统,其特征在于,包括:
构建知识图谱模块:根据知识语料库,构建带有知识语料库文本索引的知识图谱;
知识匹配模块:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答;
所述构建知识图谱模块包括:
构建资料库模块:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;
提取构建知识图谱模块:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;
优化模块:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱模块生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音;
所述知识匹配模块包括:
提取模块:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
搜索模块:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配度或相似度进行排序;
匹配模块:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;
生成回答模块:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;
其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。
5.根据权利要求4所述的基于知识图谱的文本索引增强问答系统,其特征在于,所述提取构建知识图谱模块包括:
预处理模块:利用自然语言处理技术对每篇或每段文本进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;
组成知识三元组模块:利用基于规则或基于机器学习的方法从每个句子中抽取出主体、关系和客体,并将其组成一个知识三元组,记录所述知识三元组所在的文本索引;
汇总模块:将所有抽取出的知识三元组汇总成一个知识图谱。
6.根据权利要求4所述的基于知识图谱的文本索引增强问答系统,其特征在于,所述提取构建知识图谱模块包括:
生成模块:利用大语言模型作为知识生成器,根据给定的新领域的文本描述或关键词,自动生成相关的知识三元组,并将其组织为知识图谱的形式;
其中,使用大语言模型生成知识三元组时,不仅考虑文本中的显式信息,还利用大语言模型的涌现能力和泛化性,挖掘文本中的隐含信息和常识信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311754403.0A CN117453851B (zh) | 2023-12-20 | 2023-12-20 | 基于知识图谱的文本索引增强问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311754403.0A CN117453851B (zh) | 2023-12-20 | 2023-12-20 | 基于知识图谱的文本索引增强问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117453851A CN117453851A (zh) | 2024-01-26 |
CN117453851B true CN117453851B (zh) | 2024-03-19 |
Family
ID=89585767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311754403.0A Active CN117453851B (zh) | 2023-12-20 | 2023-12-20 | 基于知识图谱的文本索引增强问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117453851B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719917A (zh) * | 2023-05-25 | 2023-09-08 | 北京中科凡语科技有限公司 | 一种大模型与外部知识相结合的知识问答系统、方法及储存介质 |
CN117033593A (zh) * | 2023-08-09 | 2023-11-10 | 深圳阿尔法分子科技有限责任公司 | 一种增强大语言模型问答特定领域问题能力的方法及系统 |
-
2023
- 2023-12-20 CN CN202311754403.0A patent/CN117453851B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719917A (zh) * | 2023-05-25 | 2023-09-08 | 北京中科凡语科技有限公司 | 一种大模型与外部知识相结合的知识问答系统、方法及储存介质 |
CN117033593A (zh) * | 2023-08-09 | 2023-11-10 | 深圳阿尔法分子科技有限责任公司 | 一种增强大语言模型问答特定领域问题能力的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117453851A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN108519890B (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN111475623B (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
CN111324728B (zh) | 文本事件摘要的生成方法、装置、电子设备及存储介质 | |
Virpioja et al. | Empirical comparison of evaluation methods for unsupervised learning of morphology | |
CN111914062B (zh) | 一种基于关键词的长文本问答对生成系统 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN112417119A (zh) | 一种基于深度学习的开放域问答预测方法 | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及系统 | |
Paredes et al. | Inquire: Large-scale early insight discovery for qualitative research | |
CN115098706A (zh) | 一种网络信息提取方法及装置 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
Fitrianah et al. | Extractive text summarization for scientific journal articles using long short-term memory and gated recurrent units | |
CN114841353A (zh) | 一种融合句法信息的量子语言模型建模系统及其应用 | |
Quemy et al. | ECHR-OD: On building an integrated open repository of legal documents for machine learning applications | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
Ahkouk et al. | Comparative study of existing approaches on the Task of Natural Language to Database Language | |
Barale et al. | Automated refugee case analysis: An nlp pipeline for supporting legal practitioners | |
Passban | Machine translation of morphologically rich languages using deep neural networks | |
CN117453851B (zh) | 基于知识图谱的文本索引增强问答方法及系统 | |
CN116756266A (zh) | 基于外部知识和主题信息的服装文本摘要生成方法 | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |