CN117575026A - 基于外部知识增强的大模型推理分析方法、系统及产品 - Google Patents
基于外部知识增强的大模型推理分析方法、系统及产品 Download PDFInfo
- Publication number
- CN117575026A CN117575026A CN202410063981.8A CN202410063981A CN117575026A CN 117575026 A CN117575026 A CN 117575026A CN 202410063981 A CN202410063981 A CN 202410063981A CN 117575026 A CN117575026 A CN 117575026A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- triplet
- graph
- analyzed
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 157
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 24
- 238000013138 pruning Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000013461 design Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 235000002198 Annona diversifolia Nutrition 0.000 description 3
- 241000282842 Lama glama Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种基于外部知识增强的大模型推理分析方法、系统及产品,涉及数据处理技术领域。该方法包括:通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组;将所述待分析语句输入知识检索模块,得到外部知识图谱三元组;根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。通过本发明实施例的方法,可以通过外部知识的引入和基于图神经网络引导的推理过程设计,实现高度可靠、可解释的大模型推理分析系统。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于外部知识增强的大模型推理分析方法、系统及产品。
背景技术
目前,大模型推理分析系统用于根据输入的文本,其中包含推理依据与假设,判断给出的推理依据是否能推导出假设,该大模型推理分析系统可广泛应用于个性化问答等商业领域。
然而,当前的大模型推理分析系统大多集中在构建大模型思维方式的角度,如构建思维链、思维树、思维图等,这些技术通过扩充大模型在推理过程的中间步骤,在一定程度上提升了大模型的推理能力,但由于无法提升大模型推理分析系统的可解释性,因此,在一定程度上限制了大模型推理分析系统的推理能力。
发明内容
基于上述技术问题,本发明实施例提供一种基于外部知识增强的大模型推理分析方法、系统及产品,以通过外部知识的引入和基于图神经网络引导的推理过程设计,实现了高度可靠、可解释的大模型推理分析系统。
本发明实施例提供了一种基于外部知识增强的大模型推理分析方法,所述方法包括:
通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组;
将所述待分析语句输入知识检索模块,得到外部知识图谱三元组;
根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。
可选的,所述通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组,包括:
基于第一提示文本Prompt,通过所述大模型对所述待分析语句进行纠错处理,得到预处理语句;所述第一提示文本至少包括:所述预处理语句与所述待分析语句的语义一致;所述预处理语句简单直观、无歧义;所述预处理语句中各实体和关系清楚;
基于第二提示文本Prompt,通过所述大模型对所述预处理语句进行知识提取,得到所述内部知识图谱三元组;所述第二提示文本至少包括:对所述预处理语句中的实体进行识别和提取,得到多个实体;在所述待分析语句中确定所述多个实体中的任意两个实体之间是否存在关联关系;若存在,根据存在关联关系的两个实体以及两个实体之间的关联关系生成三元组;确定所述三元组中的头实体、关联关系和尾实体均出现在所述待分析语句中。
可选的,所述将所述待分析语句输入知识检索模块,得到外部知识图谱三元组,包括:
通过所述知识检索模块,对所述待分析语句进行知识检索操作,得到知识检索三元组;
对所述知识检索三元组进行剪枝操作,得到所述外部知识图谱三元组。
可选的,所述通过所述知识检索模块,对所述待分析语句进行知识检索操作,得到知识检索三元组,包括:
通过基于词频的TF-IDF方法对所述待分析语句进行提取操作,得到所述待分析语句的中心词;
通过实体链接方法,在外部知识图谱中对所述中心词进行检索,得到所述知识检索三元组。
可选的,所述对所述知识检索三元组进行剪枝操作,得到所述外部知识图谱三元组,包括:
通过FinBERT模型分别对所述待分析语句和所述知识检索三元组进行编码,得到所述待分析语句的编码特征和所述知识检索三元组的编码特征;
将所述知识检索三元组的编码特征中的每一个编码特征与所述待分析语句的编码特征进行相似度计算;
将相似度最高的前k个知识检索三元组确定为所述外部知识图谱三元组。
可选的,所述根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,包括:
基于所述内部知识图谱三元组和所述外部知识图谱三元组,得到知识图谱三元组;
将所述知识图谱三元组转换为所述上下文子图;
其中,所述上下文子图表示为G=(E,R,A,I);E为所述上下文子图中所有结点的集合,所述上下文子图中的结点为所述知识图谱三元组中的实体或关联关系;R为所述上下文子图中边的集合,若两个实体或者实体和关联关系存在于同一个知识图谱三元组中,则所述两个实体或者所述实体和关联关系在所述上下文子图中对应的结点间存在一条边;,表示如果结点i和结点j之间存在边,则Aij=1;I为单位矩阵,表示为所述上下文子图中每个结点分配一个初始独特编码向量。
可选的,所述图神经网络推理分析模块的训练过程如下:
通过所述大模型对样本分析语句中蕴含的知识进行提取,得到样本内部知识图谱三元组;
将所述样本分析语句输入所述知识检索模块,得到样本外部知识图谱三元组;
根据所述样本内部知识图谱三元组和所述样本外部知识图谱三元组,得到样本上下文子图,将所述样本上下文子图输入待训练的图神经网络推理分析模块,得到样本语句分析结果;
基于所述样本语句分析结果和所述样本分析语句的标签,对所述图神经网络推理分析模块的模型参数进行调整,直至训练完毕,得到所述预先训练好的图神经网络推理分析模块。
本发明实施例第二方面提供了一种基于外部知识增强的大模型推理分析系统,所述系统包括:
基于Prompt的知识提取模块,用于通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组;
外部知识增强模块,用于将所述待分析语句输入知识检索模块,得到外部知识图谱三元组;
图神经网络引导的推理模块,用于根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。
可选的,所述基于Prompt的知识提取模块,包括:
语句纠错子模块,用于基于第一提示文本Prompt,通过所述大模型对所述待分析语句进行纠错处理,得到预处理语句;所述第一提示文本至少包括:所述预处理语句与所述待分析语句的语义一致;所述预处理语句简单直观、无歧义;所述预处理语句中各实体和关系清楚;
知识提取子模块,用于基于第二提示文本Prompt,通过所述大模型对所述预处理语句进行知识提取,得到所述内部知识图谱三元组;所述第二提示文本至少包括:对所述预处理语句中的实体进行识别和提取,得到多个实体;在所述待分析语句中确定所述多个实体中的任意两个实体之间是否存在关联关系;若存在,根据存在关联关系的两个实体以及两个实体之间的关联关系生成三元组;确定所述三元组中的头实体、关联关系和尾实体均出现在所述待分析语句中。
可选的,所述外部知识增强模块,包括:
知识检索子模块,用于通过所述知识检索模块,对所述待分析语句进行知识检索操作,得到知识检索三元组;
剪枝子模块,用于对所述知识检索三元组进行剪枝操作,得到所述外部知识图谱三元组。
可选的,所述知识检索子模块,包括:
中心词提取子模块,用于通过基于词频的TF-IDF方法对所述待分析语句进行提取操作,得到所述待分析语句的中心词;
中心词检索子模块,用于通过实体链接方法,在外部知识图谱中对所述中心词进行检索,得到所述知识检索三元组。
可选的,所述剪枝子模块,包括:
编码子模块,用于通过FinBERT模型分别对所述待分析语句和所述知识检索三元组进行编码,得到所述待分析语句的编码特征和所述知识检索三元组的编码特征;
计算子模块,用于将所述知识检索三元组的编码特征中的每一个编码特征与所述待分析语句的编码特征进行相似度计算;
确定子模块,用于将相似度最高的前k个知识检索三元组确定为所述外部知识图谱三元组。
可选的,所述图神经网络引导的推理模块,包括:
三元组确定子模块,用于基于所述内部知识图谱三元组和所述外部知识图谱三元组,得到知识图谱三元组;
图转换子模块,用于将所述知识图谱三元组转换为所述上下文子图;
其中,所述上下文子图表示为G=(E,R,A,I);E为所述上下文子图中所有结点的集合,所述上下文子图中的结点为所述知识图谱三元组中的实体或关联关系;R为所述上下文子图中边的集合,若两个实体或者实体和关联关系存在于同一个知识图谱三元组中,则所述两个实体或者所述实体和关联关系在所述上下文子图中对应的结点间存在一条边;,表示如果结点i和结点j之间存在边,则Aij=1;I为单位矩阵,表示为所述上下文子图中每个结点分配一个初始独特编码向量。
可选的,所述系统还包括:模型训练模块,所述模型训练模块用于进行所述图神经网络推理分析模块的训练,所述模型训练模块,包括:
内部知识提取子模块,用于通过所述大模型对样本分析语句中蕴含的知识进行提取,得到样本内部知识图谱三元组;
外部知识检索子模块,用于将所述样本分析语句输入所述知识检索模块,得到样本外部知识图谱三元组;
模型推理子模块,用于根据所述样本内部知识图谱三元组和所述样本外部知识图谱三元组,得到样本上下文子图,将所述样本上下文子图输入待训练的图神经网络推理分析模块,得到样本语句分析结果;
模型训练子模块,用于基于所述样本语句分析结果和所述样本分析语句的标签,对所述图神经网络推理分析模块的模型参数进行调整,直至训练完毕,得到所述预先训练好的图神经网络推理分析模块。
本发明实施例第三方面提供了一种电子设备,所述电子设备包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被该处理器执行时实现如本发明实施例第一方面的基于外部知识增强的大模型推理分析方法。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面的基于外部知识增强的大模型推理分析方法。
通过本发明实施例的基于外部知识增强的大模型推理分析方法,不仅通过大模型对待分析语句中蕴含的知识进行充分有效的提取,还通过知识检索模块使用外部知识图谱在一定程度上补充待分析语句的语义信息,以实现辅助推理,以及根据充分提取出的内部知识图谱三元组和辅助推理的外部知识图谱三元组构建上下文子图,将各个单词文本间隐含的语义信息以一种结构化的形式显式的构建出来,最后基于图神经网络引导的推理分析模块对上下文子图进行推理分析,从而提升了大模型推理分析系统的推理能力,实现了高度可靠、可解释、可操纵、可扩展的大模型推理分析系统。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例示出的一种基于外部知识增强的大模型推理分析方法的流程图;
图2是本发明一实施例示出的一种基于Prompt的知识提取阶段的结构示意图;
图3是本发明一实施例示出的一种外部知识增强模块的结构示意图;
图4是本发明一实施例示出的一种图神经网络引导的大模型推理模块的结构示意图;
图5是本发明一实施例示出的一种基于外部知识增强的大模型推理分析系统的整体结构示意图;
图6是本发明一实施例提供的基于外部知识增强的大模型推理分析系统的结构框图;
图7是本发明一实施例示出的一种电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,图1是本发明一实施例示出的一种基于外部知识增强的大模型推理分析方法的流程图,该方法可以应用于基于外部知识增强的大模型推理分析系统。如图1所示,该方法可以包括以下步骤:
步骤S11:通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组。
本实施例中的大模型指的是大型语言模型(Large Language Model,LLM),这个大模型中的“大”主要指模型结构容量大,结构中的参数多,用于预训练大模型的数据量大。大模型LLM是近年来人工智能领域的热点问题,大模型是一种预训练语言模型,通过在海量文本数据上进行预训练,学习到了丰富的语言知识和世界知识,从而能够在各种自然语言处理任务上取得惊人的效果。
针对需要进行推理分析的待分析语句,本实施例可以先通过大模型对待分析语句中蕴含的知识进行充分地提取,以将待分析语句中的所有隐特征以显性知识的形式提取出来,转换为知识图谱的三元组形式,得到内部知识图谱三元组。本实施例中的内部知识图谱三元组指的是从待分析语句中提取出来的知识图谱三元组。
步骤S12:将所述待分析语句输入知识检索模块,得到外部知识图谱三元组。
本实施例中,针对待分析语句,还可以将待分析语句输入至知识检索模块,得到知识检索模块的输出:外部知识图谱三元组。具体的,是通过知识检索模块在海量外部知识中对待分析语句进行检索处理,得到与待分析语句相关的外部知识并以知识图谱的三元组形式展示出来,生成外部知识图谱三元组。本实施例的外部知识图谱三元组指的是根据待分析语句从外部知识图谱中提取出来的知识图谱三元组;该外部知识图谱三元组用于对待分析语句的语义信息进行补充,以使得推理分析模块能够对待分析语句拥有更清晰的背景知识认识与了解,辅助推理分析模块完成更准确、可靠的分类。
需要说明的是,本实施例对上述步骤S11和步骤S12的执行顺序不作任何限定:可以是先执行步骤S11后执行步骤S12,可以是先执行步骤S12后执行步骤S11,还可以是同时执行步骤S11和步骤S12。
步骤S13:根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。
本实施例中,在得到待分析语句的内部知识图谱三元组和外部知识图谱三元组之后,可以将内部知识图谱三元组和外部知识图谱三元组转换得到上下文子图(contentgraph),从而借助预先训练好的图神经网络推理分析模块对上下文子图进行推理分析处理,利用图神经网络对上下文子图的特征进行建模,通过特征结点间的信息传递,完成特征的有效聚合,进而实现大模型推理分析过程,得到推理分析得到的语句分析结果。
其中,本实施例的预先训练好的图神经网络推理分析模块为事先根据大量样本数据训练完成的、可以根据处理得到的上下文图结构进行文本推理分析的推理分析模型。
本实施例的基于外部知识增强的大模型推理分析方法可以广泛应用于个性化问答等领域,例如可以用于进行情感分类或判断,待分析语句可以为电影评价、用户评论等相关文本,从而通过本实施例的方法对待分析进行推理分析,判断对电影或时事的倾向性,得到相关的语句分析结果。
在本实施例中,不仅可以通过大模型对待分析语句中蕴含的知识进行充分有效的提取,还可以通过知识检索模块使用外部知识图谱在一定程度上补充待分析语句的语义信息实现辅助推理,以及,将从待分析语句中得到的内部知识图谱三元组和从外部知识检索得到的外部知识图谱三元组转换为上下文子图,从而将三元组中各个单词文本间隐含的语义信息以一种结构化的形式显式的构建出来,最后基于图神经网络引导的推理分析模块对上下文子图进行推理分析,从而提升了大模型推理分析系统的推理能力,实现了高度可靠、可解释、可操纵、可扩展的大模型推理分析系统。
结合以上实施例,在一种实施方式中,本发明还提供了一种基于外部知识增强的大模型推理分析方法,在该方法中,上述步骤S11具体可以包括步骤S21和步骤S22:
步骤S21:基于第一提示文本Prompt,通过所述大模型对所述待分析语句进行纠错处理,得到预处理语句。
本实施例中,可以借助Prompt技术让大模型对待分析语句中蕴含的知识进行充分提取,并转换为知识图谱的三元组形式,得到内部知识图谱三元组。具体的,由于待分析语句中待推理的文本与需要推理的假设可能存在语法错误、单词拼写错误等,对后续实体链接和知识提取存在较大影响,因此,本实施例先通过大模型对待分析语句进行语句纠错,再通过大模型对待分析语句进行知识提取,从而实现对原始待分析语句中的语义信息进行有效提取。
针对语句纠错部分,可以基于预先设置的第一提示文本Prompt,通过大模型对待分析语句进行纠错处理,实现拼写检查、语法纠正等,得到纠错后的预处理语句。
本实施例的第一提示文本为预先设置的用于语句纠错的提示文本Prompt,第一提示文本至少包括:预处理语句与待分析语句的语义完全一致,不可更改;预处理语句简单直观、易理解且无歧义;预处理语句中各实体和关系清楚,即各实体和关系清晰易懂、简单明了。本实施例的大模型可以为ChatGPT、LLaMa等大型语言模型。
也就是说,可以借助Prompt技术的第一提示文本Prompt,向大模型传达人类指令(instruction),使得大模型能够对输入的待分析语句进行纠错,并保证纠错后的预处理句子满足第一提示文本中的要求。
步骤S22:基于第二提示文本Prompt,通过所述大模型对所述预处理语句进行知识提取,得到所述内部知识图谱三元组。
针对知识提取部分,本实施例中在得到预处理语句之后,可以基于预先设置的第二提示文本Prompt,通过大模型(如ChatGPT、LLaMa等大型语言模型)对预处理语句进行知识三元组的有效提取,得到内部知识图谱三元组。
本实施例的第二提示文本为预先设置的用于三元组知识提取的提示文本Prompt,第二提示文本至少包括:对预处理语句中的实体进行识别和提取,得到多个实体,并保证提取到的实体尽可能简短,但不能是缩写;在待分析语句中确定得到的多个实体中的任意两个实体之间是否存在关联关系;若存在,根据存在关联关系的两个实体以及两个实体之间的关联关系生成三元组,及以三元组(头实体,关系,尾实体)的形式输出;确定生成的三元组中的头实体、关联关系和尾实体均出现在待分析语句中,不可编造。
也就是说,可以借助Prompt技术的第二提示文本Prompt,向大模型传达人类指令(instruction),使得大模型能够对预处理语句进行三元组提取,并保证生成的内部知识图谱三元组满足第二提示文本中的要求。
综上,通过上述两个部分,即可完成对待分析语句中语义信息的有效提取,如下述公式(1)、(2)所示:
公式(1);
公式(2);
其中,Input代表大模型的输入,LLM表示大模型,如ChatGPT、LLaMa等预训练语言模型,prompt表示上述第一提示文本或第二提示文本,raw text表示待分析语句,Knowledge graph triplesraw text代表内部知识图谱三元组。
本实施例旨在借助Prompt技术,通过向ChatGPT等大模型传达人类指令,使得大模型将原始待分析语句中的所有隐特征以显式知识的形式提取出来,输出蒸馏后的内部知识图谱三元组,从而能够将大模型视为知识提取器,有效提取文本语料中的语义信息。以及,本实施例通过对Prompt的巧妙设计能够实现原始待分析语句的内部特征提取,从而更好地辅助后续构图,相比于基于下游任务微调的大模型系统来说,本实施例能够大大减少计算开销,实现模型轻量化部署,提升部署效率。
在一种实施例中,如图2所示,图2是本发明一实施例示出的一种基于Prompt的知识提取阶段的结构示意图。如图2所示,在基于Prompt的知识提取阶段,首先通过大模型对纠正语法等错误的第一提示文本(即步骤S21中的第一提示文本Prompt)和待分析语句进行纠错处理,得到预处理语句;然后通过大模型对知识提取的第二提示文本(即步骤S22中的第二提示文本Prompt)和预处理语句进行三元组提取,得到知识图谱(即内部知识图谱三元组),从而实现待分析语句中蕴含知识的有效提取。
结合以上实施例,在一种实施方式中,本发明还提供了一种基于外部知识增强的大模型推理分析方法,在该方法中,上述步骤S12具体可以包括步骤S31和步骤S32:
步骤S31:通过所述知识检索模块,对所述待分析语句进行知识检索操作,得到知识检索三元组。
本实施例中,知识检索模块可以包括两部分:知识检索部分和剪枝部分,旨在实现对待分析语句背景知识的补充。具体的,针对知识检索部分,可以通过知识检索模块,借助外部知识图谱对待分析语句进行知识检索操作,如在相应的外部知识库中查找待分析语句的相关信息,如待分析语句的相关背景信息等,从而得到知识检索三元组。
步骤S32:对所述知识检索三元组进行剪枝操作,得到所述外部知识图谱三元组。
本实施例中,针对剪枝部分,在检索得到知识检索三元组之后,知识检索三元组中可能引入了知识噪声(knowledge noisy),存在冗余信息。基于此,本实施例会对得到的知识检索三元组进行剪枝操作,得到去除了冗余三元组的知识检索三元组,并将去除了冗余三元组的知识检索三元组作为外部知识图谱三元组,以作为知识检索模块的输出。
示例的,可以通过下述公式(3)对知识检索三元组进行剪枝操作:
Knowledge graph triplesexternal=Prune(Retrieval triples)公式(3);
其中,Knowledge graph triplesexternal为外部知识图谱三元组,Retrievaltriples为知识检索三元组,Prune表示剪枝操作,用于去除冗余信息,实现对高度相关信息的筛选。
在本实施例中,借助外部知识图谱将输入的待分析语句高度相关信息注入到大模型推理分析系统中,以完成更准确、可靠的分类。与现有利用LLM内部参数知识独立完成下游任务的方法不同,基于知识增强的方法旨在充分运用外部知识图谱的知识在一定程度上对原始输入语句的语义信息进行补充,以使得模型能够对待分析语句拥有更清晰的背景知识认识与了解,并通过剪枝操作减少知识噪声的引入,从而实现高质量的辅助推理。
结合以上实施例,本发明还提供了一种基于外部知识增强的大模型推理分析方法,在该方法中,上述步骤S31具体还可以包括步骤S41和步骤S42:
步骤S41:通过基于词频的TF-IDF方法对所述待分析语句进行提取操作,得到所述待分析语句的中心词。
本实施例中,可以通过基于词频的TF-IDF方法对待分析语句进行中心词提取操作,得到待分析语句的中心词。示例的,通过下述公式(4)-(6)获得待分析语句的中心词e:
公式(4);
公式(5);
公式(6);
其中,tf(w,W)是单词w出现在句子W中的频率;idf(w)是单词w在语料中出现的反频率;count(w,W)是单词w出现在句子片段W中的次数;C是文本语料中句子片段的数量;df(w)是文本语料片段中包含单词w的数量。
步骤S42:通过实体链接方法,在外部知识图谱中对所述中心词进行检索,得到所述知识检索三元组。
本实施例中,在得到待分析语句的中心词之后,可以通过实体链接方法在外部知识图谱中对待分析语句的中心词进行检索,得到待分析语句的中心词对应的知识检索三元组。其中,实体链接方法可以为ReFinED等方法,本实施例对此不作限制。示例的,知识检索三元组可以通过下述公式(7)得到:
公式(7);
其中,retrieval triples为知识检索三元组,Retrieval表示检索器,其将原始待分析语句中的实体(即entity in inputs)链接至外部知识图谱中以获得检索到的相关子图三元组,即知识检索三元组。
在本实施例中,通过外部知识检索以相关实体匹配与链接等检索工具完成原始待分析语句关键实体(topic entity)在外部知识图谱中的定位和邻域子图信息的获取,通过外部知识的注入使得推理分析模型能够更好地利用辅助知识增强模型推理能力,提升大模型推理分析系统的模型的稳定性与可靠性。
结合以上实施例,在一种实施方式中,本发明还提供了一种基于外部知识增强的大模型推理分析方法,在该方法中,上述步骤S32具体可以包括步骤S51至步骤S53:
步骤S51:通过FinBERT模型分别对所述待分析语句和所述知识检索三元组进行编码,得到所述待分析语句的编码特征和所述知识检索三元组的编码特征。
在考虑到检索到的知识检索三元组可能存在冗余信息,引入知识噪声,因此本实施例设计基于相似度的剪枝操作,去除知识检索三元组中冗余的三元组。
本实施例可以使用预先训练好的FinBERT模型,分别对待分析语句和所有得到的知识检索三元组(h,r,t)进行编码,得到待分析语句的编码特征和知识检索三元组的编码特征。示例的,可以通过下述公式(8)、(9)得到编码特征:
公式(8);
公式(9);
其中,FinBERT为预先训练好的FinBERT模型,raw text为待分析语句,Enctext为待分析语句的编码特征,retrieval triples为知识检索三元组,Enctriple为知识检索三元组的编码特征。
步骤S52:将所述知识检索三元组的编码特征中的每一个编码特征与所述待分析语句的编码特征进行相似度计算。
本实施例中,在得到待分析语句的编码特征和知识检索三元组的编码特征之后,针对得到的知识检索三元组的编码特征中的每一个编码特征,都与待分析语句的编码特征进行相似度计算。例如,对于知识检索三元组的编码特征中的第k个编码特征,通过下述公式(10)计算相似度:
公式(10);
其中,Simk为第k个编码特征与待分析语句的编码特征的相似度,Enctext为待分析语句的编码特征,Enck为知识检索三元组的编码特征中的第k个编码特征。
步骤S53:将相似度最高的前k个知识检索三元组确定为所述外部知识图谱三元组。
本实施例中,在计算得到所有相似度之后,可以将相似度最高的前k个知识检索三元组确定为剪枝后的外部知识图谱三元组,将前k个之外的知识检索三元组确定为冗余的知识检索三元组进行去除。
在本实施例中,通过基于相似度的剪枝操作有效去除了冗余信息,以相似度比较等剪枝方式完成对高度相关实体的筛选,避免了知识噪声的问题。
在一种实施例中,如图3所示,图3是本发明一实施例示出的一种外部知识增强模块的结构示意图。如图3所示,在外部知识增强阶段中,首先对待分析语句进行中心词提取操作,然后基于提取得到的中心词从外部知识图谱中进行知识检索,得到知识检索三元组;然后将知识检索三元组与待分析语句进行相似度计算,基于相似度对知识检索三元组进行剪枝操作,对高度相关实体进行筛选,以去除冗余信息,从而得到外部知识图谱三元组。
结合以上实施例,在一种实施方式中,本发明还提供了一种基于外部知识增强的大模型推理分析方法,在该方法中,上述步骤S13中的“根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图”具体可以包括步骤S61和步骤S62:
步骤S61:基于所述内部知识图谱三元组和所述外部知识图谱三元组,得到知识图谱三元组。
本实施例中,得到内部知识图谱三元组和外部知识图谱三元组之后,可以基于内部知识图谱三元组和外部知识图谱三元组得到知识图谱三元组。具体的,可以通过以下公式(11)得到知识图谱三元组:
公式(11);
其中,triples为知识图谱三元组, triplesraw text为内部知识图谱三元组,triplesexternal为外部知识图谱三元组,以将triplesexternal作为辅助信息,将入到之前已经提取的内部知识图谱三元组中。
步骤S62:将所述知识图谱三元组转换为所述上下文子图。
本实施例中,在得到知识图谱三元组之后,可以将知识图谱三元组转换为所述多关系图,即上下文子图。具体的,可以将知识图谱三元组中的实体(entity)和关联关系(relation)均视为上下文子图中的结点,若两个实体或者实体和关联关系存在于同一个三元组中,则它们在上下文子图中对应结点间存在一条边。因此,上下文子图可以表示为G=(E,R,A,I)。其中,E为上下文子图中所有结点的集合,即为上下文子图中所有实体和关联关系组成的结点的集合;R为上下文子图中边的集合;,表示如果结点i和结点j之间存在边,则Aij=1;I为单位矩阵,表示为上下文子图中每个结点分配一个初始独特编码向量。
在本实施例中,可以针对得到的通过获得的内部、外部知识构建上下文子图,并根据所构建的上下文子图借助图神经网络实现大模型推理分析过程,提升推理效果,即提升大模型推理分析能力。
在一种实施例中,如图4所示,图4是本发明一实施例示出的一种图神经网络引导的大模型推理模块的结构示意图。如图4所示,根据内部知识图谱三元组和外部知识图谱三元组得到知识图谱三元组之后,可以根据知识图谱三元组转换为上下文图(ContentGraph);然后利用图神经网络对上下文信息进行建模,基于可解释线性模型通过结点间的信息传递,完成特征的有效聚合,进而引导大模型推理过程。
结合以上实施例,在一种实施方式中,本发明还提供了一种基于外部知识增强的大模型推理分析方法,在该方法中,除上述步骤外,还可以图神经网络推理分析模块的训练步骤,具体可以包括步骤S71至步骤S74:
步骤S71:通过所述大模型对样本分析语句中蕴含的知识进行提取,得到样本内部知识图谱三元组。
本实施例中,预先准备有多个训练样本,该训练样本包括:样本分析语句和样本分析语句对应的标签。本实施例可以先通过大模型对样本分析语句中蕴含的知识进行充分地提取,以将样本分析语句中的所有隐特征以显性知识的形式提取出来,转换为知识图谱的三元组形式,得到样本内部知识图谱三元组。本实施例中的样本内部知识图谱三元组指的是在模型训练过程中从样本分析语句中提取出来的知识图谱三元组。
步骤S72:将所述样本分析语句输入所述知识检索模块,得到样本外部知识图谱三元组。
本实施例中,针对样本分析语句,还可以将样本分析语句输入至知识检索模块,得到知识检索模块的输出:样本外部知识图谱三元组。具体的,是通过知识检索模块在海量外部知识中对样本分析语句进行检索处理,得到与样本分析语句相关的外部知识并以知识图谱的三元组形式展示出来,生成样本外部知识图谱三元组。本实施例的样本外部知识图谱三元组指的是在模型训练过程中,根据样本分析语句从外部知识图谱中提取出来的知识图谱三元组;该样本外部知识图谱三元组用于对样本分析语句的语义信息进行补充,以使得推理分析模块能够对样本分析语句拥有更清晰的背景知识认识与了解,辅助推理分析模块完成更准确、可靠的分类。
需要说明的是,本实施例对上述步骤S71和步骤S72的执行顺序不作任何限定:可以是先执行步骤S71后执行步骤S72,可以是先执行步骤S72后执行步骤S71,还可以是同时执行步骤S71和步骤S72。
步骤S73:根据所述样本内部知识图谱三元组和所述样本外部知识图谱三元组,得到样本上下文子图,将所述样本上下文子图输入待训练的图神经网络推理分析模块,得到样本语句分析结果。
本实施例中,在得到样本分析语句的样本内部知识图谱三元组和样本外部知识图谱三元组之后,可以将样本内部知识图谱三元组和样本外部知识图谱三元组转换得到样本上下文子图,从而将样本上下文子图输入至待训练的图神经网络推理分析模块,借助待训练的图神经网络推理分析模块对样本上下文子图进行推理分析处理,得到推理分析得到的样本语句分析结果。
步骤S74:基于所述样本语句分析结果和所述样本分析语句的标签,对所述图神经网络推理分析模块的模型参数进行调整,直至训练完毕,得到所述预先训练好的图神经网络推理分析模块。
本实施例中,在得到样本语句分析结果之后,可以基于样本语句分析结果和样本分析语句的标签,对带训练的图神经网络推理分析模块的模型参数进行调整。具体的,可以是根据样本语句分析结果和样本分析语句的标签计算图神经网络推理分析模块的损失函数值,根据损失函数值对模型的参数进行调整,直至损失函数收敛,确定模型训练完毕,固定模型参数,得到训练好的图神经网络推理分析模块。
结合以上实施例,在一种实施例中,如图5所示,图5是本发明一实施例示出的一种基于外部知识增强的大模型推理分析系统的整体结构示意图。如图5所示,本实施例的基于外部知识增强的大模型推理分析系统包括:基于Prompt的知识提取模块A、外部知识增强模块B和图神经网络引导的大模型推理模块C三个部分。其中,基于Prompt的知识提取模块A,借助Prompt技术让大模型对输入语句中蕴含的知识进行充分提取,并转换为知识图谱的三元组形式;外部知识增强模块B,用于知识检索,以获得原始输入语句的外部辅助知识子图,并通过基于相似度的剪枝操作将背景知识有效注入模型预测;图神经网络引导的大模型推理模块C,通过利用模块A和B获得的内部、外部知识,构建上下文图,借助图神经网络实现大模型推理分析过程;从而通过外部知识的引入和最终分类部分的设计,实现了高度可靠、可解释、可操纵、可扩展的大模型推理分析系统。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
基于同一发明构思,本发明一实施例提供了一种基于外部知识增强的大模型推理分析系统600。参考图6,图6是本发明一实施例提供的基于外部知识增强的大模型推理分析系统的结构框图。如图6所示,该装置600包括:
基于Prompt的知识提取模块601,用于通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组;
外部知识增强模块602,用于将所述待分析语句输入知识检索模块,得到外部知识图谱三元组;
图神经网络引导的推理模块603,用于根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。
可选的,所述基于Prompt的知识提取模块601,包括:
语句纠错子模块,用于基于第一提示文本Prompt,通过所述大模型对所述待分析语句进行纠错处理,得到预处理语句;所述第一提示文本至少包括:所述预处理语句与所述待分析语句的语义一致;所述预处理语句简单直观、无歧义;所述预处理语句中各实体和关系清楚;
知识提取子模块,用于基于第二提示文本Prompt,通过所述大模型对所述预处理语句进行知识提取,得到所述内部知识图谱三元组;所述第二提示文本至少包括:对所述预处理语句中的实体进行识别和提取,得到多个实体;在所述待分析语句中确定所述多个实体中的任意两个实体之间是否存在关联关系;若存在,根据存在关联关系的两个实体以及两个实体之间的关联关系生成三元组;确定所述三元组中的头实体、关联关系和尾实体均出现在所述待分析语句中。
可选的,所述外部知识增强模块602,包括:
知识检索子模块,用于通过所述知识检索模块,对所述待分析语句进行知识检索操作,得到知识检索三元组;
剪枝子模块,用于对所述知识检索三元组进行剪枝操作,得到所述外部知识图谱三元组。
可选的,所述知识检索子模块,包括:
中心词提取子模块,用于通过基于词频的TF-IDF方法对所述待分析语句进行提取操作,得到所述待分析语句的中心词;
中心词检索子模块,用于通过实体链接方法,在外部知识图谱中对所述中心词进行检索,得到所述知识检索三元组。
可选的,所述剪枝子模块,包括:
编码子模块,用于通过FinBERT模型分别对所述待分析语句和所述知识检索三元组进行编码,得到所述待分析语句的编码特征和所述知识检索三元组的编码特征;
计算子模块,用于将所述知识检索三元组的编码特征中的每一个编码特征与所述待分析语句的编码特征进行相似度计算;
确定子模块,用于将相似度最高的前k个知识检索三元组确定为所述外部知识图谱三元组。
可选的,所述图神经网络引导的推理模块603,包括:
三元组确定子模块,用于基于所述内部知识图谱三元组和所述外部知识图谱三元组,得到知识图谱三元组;
图转换子模块,用于将所述知识图谱三元组转换为所述上下文子图;
其中,所述上下文子图表示为G=(E,R,A,I);E为所述上下文子图中所有结点的集合,所述上下文子图中的结点为所述知识图谱三元组中的实体或关联关系;R为所述上下文子图中边的集合,若两个实体或者实体和关联关系存在于同一个知识图谱三元组中,则所述两个实体或者所述实体和关联关系在所述上下文子图中对应的结点间存在一条边;,表示如果结点i和结点j之间存在边,则Aij=1;I为单位矩阵,表示为所述上下文子图中每个结点分配一个初始独特编码向量。
可选的,所述系统600还包括:模型训练模块,所述模型训练模块用于进行所述图神经网络推理分析模块的训练,所述模型训练模块,包括:
内部知识提取子模块,用于通过所述大模型对样本分析语句中蕴含的知识进行提取,得到样本内部知识图谱三元组;
外部知识检索子模块,用于将所述样本分析语句输入所述知识检索模块,得到样本外部知识图谱三元组;
模型推理子模块,用于根据所述样本内部知识图谱三元组和所述样本外部知识图谱三元组,得到样本上下文子图,将所述样本上下文子图输入待训练的图神经网络推理分析模块,得到样本语句分析结果;
模型训练子模块,用于基于所述样本语句分析结果和所述样本分析语句的标签,对所述图神经网络推理分析模块的模型参数进行调整,直至训练完毕,得到所述预先训练好的图神经网络推理分析模块。
基于同一发明构思,本发明另一实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如本发明上述任一实施例所述的基于外部知识增强的大模型推理分析方法中的步骤。
基于同一发明构思,本发明另一实施例提供一种电子设备700,如图7所示。图7是本发明一实施例示出的一种电子设备的示意图。该电子设备包括存储器702、处理器701及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本发明上述任一实施例所述的基于外部知识增强的大模型推理分析方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于外部知识增强的大模型推理分析方法、系统及产品,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于外部知识增强的大模型推理分析方法,其特征在于,所述方法包括:
通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组;
将所述待分析语句输入知识检索模块,得到外部知识图谱三元组;
根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。
2.根据权利要求1所述的方法,其特征在于,所述通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组,包括:
基于第一提示文本Prompt,通过所述大模型对所述待分析语句进行纠错处理,得到预处理语句;所述第一提示文本至少包括:所述预处理语句与所述待分析语句的语义一致;所述预处理语句简单直观、无歧义;所述预处理语句中各实体和关系清楚;
基于第二提示文本Prompt,通过所述大模型对所述预处理语句进行知识提取,得到所述内部知识图谱三元组;所述第二提示文本至少包括:对所述预处理语句中的实体进行识别和提取,得到多个实体;在所述待分析语句中确定所述多个实体中的任意两个实体之间是否存在关联关系;若存在,根据存在关联关系的两个实体以及两个实体之间的关联关系生成三元组;确定所述三元组中的头实体、关联关系和尾实体均出现在所述待分析语句中。
3.根据权利要求1所述的方法,其特征在于,所述将所述待分析语句输入知识检索模块,得到外部知识图谱三元组,包括:
通过所述知识检索模块,对所述待分析语句进行知识检索操作,得到知识检索三元组;
对所述知识检索三元组进行剪枝操作,得到所述外部知识图谱三元组。
4.根据权利要求3所述的方法,其特征在于,所述通过所述知识检索模块,对所述待分析语句进行知识检索操作,得到知识检索三元组,包括:
通过基于词频的TF-IDF方法对所述待分析语句进行提取操作,得到所述待分析语句的中心词;
通过实体链接方法,在外部知识图谱中对所述中心词进行检索,得到所述知识检索三元组。
5.根据权利要求3或4所述的方法,其特征在于,所述对所述知识检索三元组进行剪枝操作,得到所述外部知识图谱三元组,包括:
通过FinBERT模型分别对所述待分析语句和所述知识检索三元组进行编码,得到所述待分析语句的编码特征和所述知识检索三元组的编码特征;
将所述知识检索三元组的编码特征中的每一个编码特征与所述待分析语句的编码特征进行相似度计算;
将相似度最高的前k个知识检索三元组确定为所述外部知识图谱三元组。
6.根据权利要求1所述的方法,其特征在于,所述根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,包括:
基于所述内部知识图谱三元组和所述外部知识图谱三元组,得到知识图谱三元组;
将所述知识图谱三元组转换为所述上下文子图;
其中,所述上下文子图表示为G=(E,R,A,I);E为所述上下文子图中所有结点的集合,所述上下文子图中的结点为所述知识图谱三元组中的实体或关联关系;R为所述上下文子图中边的集合,若两个实体或者实体和关联关系存在于同一个知识图谱三元组中,则所述两个实体或者所述实体和关联关系在所述上下文子图中对应的结点间存在一条边;,表示如果结点i和结点j之间存在边,则Aij=1;I为单位矩阵,表示为所述上下文子图中每个结点分配一个初始独特编码向量。
7.根据权利要求1所述的方法,其特征在于,所述图神经网络推理分析模块的训练过程如下:
通过所述大模型对样本分析语句中蕴含的知识进行提取,得到样本内部知识图谱三元组;
将所述样本分析语句输入所述知识检索模块,得到样本外部知识图谱三元组;
根据所述样本内部知识图谱三元组和所述样本外部知识图谱三元组,得到样本上下文子图,将所述样本上下文子图输入待训练的图神经网络推理分析模块,得到样本语句分析结果;
基于所述样本语句分析结果和所述样本分析语句的标签,对所述图神经网络推理分析模块的模型参数进行调整,直至训练完毕,得到所述预先训练好的图神经网络推理分析模块。
8.一种基于外部知识增强的大模型推理分析系统,其特征在于,所述系统包括:
基于Prompt的知识提取模块,用于通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组;
外部知识增强模块,用于将所述待分析语句输入知识检索模块,得到外部知识图谱三元组;
图神经网络引导的推理模块,用于根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的基于外部知识增强的大模型推理分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的基于外部知识增强的大模型推理分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410063981.8A CN117575026B (zh) | 2024-01-17 | 2024-01-17 | 基于外部知识增强的大模型推理分析方法、系统及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410063981.8A CN117575026B (zh) | 2024-01-17 | 2024-01-17 | 基于外部知识增强的大模型推理分析方法、系统及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117575026A true CN117575026A (zh) | 2024-02-20 |
CN117575026B CN117575026B (zh) | 2024-04-05 |
Family
ID=89892267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410063981.8A Active CN117575026B (zh) | 2024-01-17 | 2024-01-17 | 基于外部知识增强的大模型推理分析方法、系统及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117575026B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880444A (zh) * | 2022-04-08 | 2022-08-09 | 中国人民大学 | 一种基于提示学习的对话推荐系统 |
US20230229960A1 (en) * | 2022-01-19 | 2023-07-20 | Microsoft Technology Licensing, Llc | Systems and methods for facilitating integrative, extensible, composable, and interpretable deep learning |
CN116796744A (zh) * | 2023-05-05 | 2023-09-22 | 西安电子科技大学 | 一种基于深度学习的实体关系抽取方法及系统 |
CN117271748A (zh) * | 2023-11-03 | 2023-12-22 | 浙江师范大学 | 一种基于语言图模型的法案智能分析方法及系统 |
CN117371973A (zh) * | 2023-12-06 | 2024-01-09 | 武汉科技大学 | 基于知识图谱检索增强的语言模型毕业生就业服务系统 |
-
2024
- 2024-01-17 CN CN202410063981.8A patent/CN117575026B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230229960A1 (en) * | 2022-01-19 | 2023-07-20 | Microsoft Technology Licensing, Llc | Systems and methods for facilitating integrative, extensible, composable, and interpretable deep learning |
CN114880444A (zh) * | 2022-04-08 | 2022-08-09 | 中国人民大学 | 一种基于提示学习的对话推荐系统 |
CN116796744A (zh) * | 2023-05-05 | 2023-09-22 | 西安电子科技大学 | 一种基于深度学习的实体关系抽取方法及系统 |
CN117271748A (zh) * | 2023-11-03 | 2023-12-22 | 浙江师范大学 | 一种基于语言图模型的法案智能分析方法及系统 |
CN117371973A (zh) * | 2023-12-06 | 2024-01-09 | 武汉科技大学 | 基于知识图谱检索增强的语言模型毕业生就业服务系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117575026B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112989005B (zh) | 一种基于分阶段查询的知识图谱常识问答方法及系统 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN111339269A (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112926337B (zh) | 一种结合重构句法信息的端到端方面级情感分析方法 | |
CN117609421A (zh) | 基于大语言模型的电力专业知识智能问答系统构建方法 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN112183059A (zh) | 一种中文结构化事件抽取方法 | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN111831792B (zh) | 一种电力知识库构建方法及系统 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
CN116340507A (zh) | 一种基于混合权重和双通道图卷积的方面级情感分析方法 | |
CN117575026B (zh) | 基于外部知识增强的大模型推理分析方法、系统及产品 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN113641789A (zh) | 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |