CN116303980A - 一种大语言模型知识增强方法、系统、电子设备及介质 - Google Patents
一种大语言模型知识增强方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN116303980A CN116303980A CN202310569933.1A CN202310569933A CN116303980A CN 116303980 A CN116303980 A CN 116303980A CN 202310569933 A CN202310569933 A CN 202310569933A CN 116303980 A CN116303980 A CN 116303980A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- background
- language model
- background knowledge
- input content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005065 mining Methods 0.000 claims abstract description 40
- 238000013461 design Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 23
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims 3
- ZKLPARSLTMPFCP-UHFFFAOYSA-N Cetirizine Chemical compound C1CN(CCOCC(=O)O)CCN1C(C=1C=CC(Cl)=CC=1)C1=CC=CC=C1 ZKLPARSLTMPFCP-UHFFFAOYSA-N 0.000 description 17
- 206010039085 Rhinitis allergic Diseases 0.000 description 15
- 201000010105 allergic rhinitis Diseases 0.000 description 15
- 229960001803 cetirizine Drugs 0.000 description 13
- 239000003814 drug Substances 0.000 description 10
- 238000011282 treatment Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 208000003251 Pruritus Diseases 0.000 description 5
- 230000003266 anti-allergic effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- NTYJJOPFIAHURM-UHFFFAOYSA-N Histamine Chemical compound NCCC1=CN=CN1 NTYJJOPFIAHURM-UHFFFAOYSA-N 0.000 description 4
- 229960004342 cetirizine hydrochloride Drugs 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010002198 Anaphylactic reaction Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 208000003455 anaphylaxis Diseases 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009169 immunotherapy Methods 0.000 description 3
- 230000007803 itching Effects 0.000 description 3
- 241000255925 Diptera Species 0.000 description 2
- 201000007100 Pharyngitis Diseases 0.000 description 2
- 239000013566 allergen Substances 0.000 description 2
- 229940074608 allergen extract Drugs 0.000 description 2
- 208000026935 allergic disease Diseases 0.000 description 2
- 229940065524 anticholinergics inhalants for obstructive airway diseases Drugs 0.000 description 2
- 229940125715 antihistaminic agent Drugs 0.000 description 2
- 239000000739 antihistaminic agent Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000812 cholinergic antagonist Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003862 glucocorticoid Substances 0.000 description 2
- 229960001340 histamine Drugs 0.000 description 2
- 210000003630 histaminocyte Anatomy 0.000 description 2
- 230000006058 immune tolerance Effects 0.000 description 2
- 229940065725 leukotriene receptor antagonists for obstructive airway diseases Drugs 0.000 description 2
- 239000003199 leukotriene receptor blocking agent Substances 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 239000000133 nasal decongestant Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 210000003491 skin Anatomy 0.000 description 2
- 239000003381 stabilizer Substances 0.000 description 2
- 229940037128 systemic glucocorticoids Drugs 0.000 description 2
- 229940021747 therapeutic vaccine Drugs 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 206010010744 Conjunctivitis allergic Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 201000008197 Laryngitis Diseases 0.000 description 1
- 241000157593 Milvus Species 0.000 description 1
- 208000024780 Urticaria Diseases 0.000 description 1
- 201000010550 acute laryngitis Diseases 0.000 description 1
- 208000016150 acute pharyngitis Diseases 0.000 description 1
- 208000002205 allergic conjunctivitis Diseases 0.000 description 1
- 201000010435 allergic urticaria Diseases 0.000 description 1
- 230000036783 anaphylactic response Effects 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 208000024998 atopic conjunctivitis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001631 hypertensive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大语言模型知识增强方法、系统、电子设备及介质,其方法包括获取输入内容,对所述输入内容进行分析并挖掘,获得回答所述输入内容所需的背景知识query;根据挖掘得到的所述背景知识query,在领域数据或知识库中进行知识搜索,获得所述背景知识query对应的背景知识结果;将所述背景知识结果作为所述输入内容的背景信息,将所述输入内容和所述背景知识结果通过prompt设计工程生成目标prompt模板;将生成的所述prompt模板输入到大语言模型中,得到回答所述输入内容的推理结果。本发明可以为大语言模型提供推理所需的知识,减少大语言模型推理中的事实类错误;可以充分发挥大语言模型强大的理解和推理能力;减少对搜索部分的过度依赖和要求。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种大语言模型知识增强方法、系统、电子设备及介质。
背景技术
大语言模型(Large Language Model,LLM)是指一类基于神经网络的、具有大规模参数(通常是数十亿个或更多)的语言模型。相比于小规模参数的模型,大语言模型在自然语言理解和推理方面的能力有了质的飞跃,这种表现被称之为“能力涌现”。虽然大语言模型在通用领域各种自然语言任务上表现很出色,但也存在一些局限性,如生成存在事实性错误的信息、消耗大量的计算资源等。
为了减少大语言模型的事实类错误问题,目前主要的解决方案有:
(1)将LLM与搜索引擎相结合,先基于用户输入进行搜索,然后再利用LLM在搜索基础上进行推理。将LLM与搜索结合的方案,因为直接使用用户输入进行搜索,搜索结果的好坏决定了最终回答效果的上限,这对搜索部分的要求很高,而且会限制LLM能力的发挥。
(2)用专业领域数据对LLM进行微调(finetune),增强LLM对该领域的适应性。用领域数据微调LLM的方案,可以提升对于该领域的适应性,但对于事实类错误问题作用有限,而且训练难度大,对资源要求很高。
发明内容
为解决上述大语言模型的事实类错误问题,本发明提供的技术方案为:
一种大语言模型知识增强方法,包括:
获取输入内容,对所述输入内容进行分析并挖掘,获得回答所述输入内容所需的背景知识query;
根据挖掘得到的所述背景知识query,在领域数据或知识库中进行知识搜索,获得所述背景知识query对应的背景知识结果;
将所述背景知识结果作为所述输入内容的背景信息,将所述输入内容和所述背景知识结果通过prompt设计工程生成目标prompt模板;
将生成的所述prompt模板输入到大语言模型中,得到回答所述输入内容的推理结果。
本发明进一步设置为所述背景知识query是通过使用小样本学习以及在线调用大语言模型获得的,包括:获取标注样例,利用所述标注样例和所述输入内容构造背景prompt模板;在线调用大语言模型,得到所述输入内容对应的背景知识query。
本发明进一步设置为所述背景知识query是通过离线调用大语言模型生成训练数据以训练知识挖掘模型,并在线调用知识挖掘模型获得的,包括:获取标注样例和未标注数据,利用所述标注样例和所述未标注数据构造背景prompt模板;离线调用大语言模型生成训练数据,通过所述训练数据训练得到知识挖掘模型;将所述输入内容输入到所述知识挖掘模型,得到所述输入内容对应的背景知识query。
本发明进一步设置为获得所述背景知识结果包括:在领域数据或知识库中分别对所述背景知识query进行搜索,对所述背景知识query进行实体识别和意图分析,获得实体识别结果和意图分析结果;根据所述实体识别结果和所述意图分析结果从领域数据或知识库中进行背景知识的召回;对所召回的背景知识进行排序,得到背景知识子结果;将所有所述背景知识子结果进行融合或拼接,得到所述背景知识结果。
本发明进一步设置为在对背景知识进行召回时,若领域数据为结构化形式,则直接查询领域数据并进行背景知识的召回;若领域数据为非结构化形式,则先对领域数据进行索引构建,所述索引构建包括倒排索引和向量索引,完成所述索引构建后,再通过查询领域数据以召回背景知识;
在对所召回的背景知识进行排序时,若背景知识来源于结构化的领域数据或数据库,则直接按默认召回顺序进行排序;若背景知识来源于非结构化的领域数据,通过排序算法模型对所召回的背景知识进行排序。
本发明进一步设置为prompt设计工程所生成的所述目标prompt模板包括指令部分、背景信息部分、输入数据部分和输出指示部分,所述指令部分为大语言模型需要执行的任务,所述背景信息部分为搜索得到的所述背景知识结果,所述输入数据部分为所述输入内容,所述输出指示部分为大语言模型所要回复所述输入内容的答案。
本发明进一步设置为基于生成的所述目标prompt模板,调用所述大语言模型进行推理,完成所述目标prompt模板中的任务。
一种大语言模型知识增强系统,采用上述大语言模型知识增强方法,包括:
知识需求挖掘模块,对输入内容进行分析和挖掘,得到回答输入内容所需的背景知识query;
背景知识搜索模块,在领域数据或知识库中对背景知识query进行知识搜索,获得背景知识query对应的背景知识结果;
prompt工程模块,将背景知识结果作为输入内容的背景信息,利用输入内容和背景知识结果生成目标prompt模板;
大语言推理模块,对生成的目标prompt模板进行推理得到回答输入内容的推理结果。
一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的大语言模型知识增强方法。
一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的大语言模型知识增强方法。
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本技术方案大语言模型知识增强方法不是直接使用用户输入内容进行搜索,而是先分析挖掘回复用户输入内容所需的背景知识query,然后基于背景知识query进行搜索,再将搜索结果作为大语言模型的背景知识信息来进行辅助推理。可以为大语言模型提供推理所需的知识,减少大语言模型推理中的事实类错误;为大语言模型提供背景知识信息而不是直接的答案,可以充分发挥大语言模型强大的理解和推理能力;背景知识信息查询是多路搜索,减少对搜索部分的过度依赖和要求。
附图说明
图1为本发明实施例1大语言模型知识增强方法流程图。
图2为本发明实施例1大语言模型知识增强方法技术路线示意图。
图3为本发明实施例1背景知识挖掘技术路线示意图。
图4为本发明实施例1知识搜索技术路线示意图。
图5为本发明实施例1无背景知识挖掘下GPT3的回复结果示意图。
图6为本发明实施例1有背景知识挖掘下GPT3的回复结果示意图。
图7为本发明实施例2大语言模型知识增强系统示意图。
图8为本发明实施例3电子设备示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
结合附图1和附图2,本发明技术方案是一种大语言模型知识增强方法,包括:
S100,获取输入内容,对所述输入内容进行分析并挖掘,获得回答所述输入内容所需的背景知识query;
S200,根据挖掘得到的所述背景知识query,在领域数据或知识库中进行知识搜索,获得所述背景知识query对应的背景知识结果;
S300,将所述背景知识结果作为所述输入内容的背景信息,将所述输入内容和所述背景知识结果通过prompt设计工程生成目标prompt模板;
S400,将生成的所述prompt模板输入到大语言模型中,得到回答所述输入内容的推理结果。
在上述实施例中,本发明大语言模型知识增强方法不是直接使用用户输入内容进行搜索,而是先分析挖掘回复用户输入内容所需的背景知识query,然后基于背景知识query进行搜索,再将搜索结果作为大语言模型的背景知识信息来进行辅助推理。
在本实施例中,所述大语言模型(Large Language Model,LLM)是指一类基于神经网络的、具有大规模参数(通常是数十亿个或更多)的语言模型。
在本实施例中,所述背景知识query是通过使用小样本学习以及在线调用大语言模型获得的,包括:获取标注样例,利用所述标注样例和所述输入内容构造背景prompt模板;在线调用大语言模型,得到所述输入内容对应的背景知识query。
在本实施例中,所述背景知识query是通过离线调用大语言模型生成训练数据以训练知识挖掘模型,并在线调用知识挖掘模型获得的,包括:获取标注样例和未标注数据,利用所述标注样例和所述未标注数据构造背景prompt模板;离线调用大语言模型生成训练数据,通过所述训练数据训练得到知识挖掘模型;将所述输入内容输入到所述知识挖掘模型,得到所述输入内容对应的背景知识query。
在上述实施例中,所述背景prompt模板是在挖掘背景知识query产生的prompt模板;而目标prompt模板是最终回答用户输入内容的prompt模板。
在上述实施例中,是两种得到背景知识query的方式:第一种通过使用小样本学习以及在线调用大语言模型获得的,这种方式准确率比较高,但是非常耗费计算资源,因为回复一次用户输入需要调用两次大语言模型;第二种是通过离线调用大语言模型生成训练数据以训练知识挖掘模型,并在线调用知识挖掘模型获得的,如附图3所示,是通过少量的标注样例和大量的未标注数据构造背景prompt模板,离线调用大语言模型生成训练数据,利用训练数据训练得到知识挖掘模型,这种方式可以灵活选择知识挖掘模型的大小,小模型准确率可能会略低一点,但计算效率高,节约计算资源。第二种方式离线调用大语言模型生成训练数据的过程,与第一种方式在线调用大语言模型得到所需背景知识的过程是一样的,可以理解为第二种方式就是把第一种方式的结果保存下来作为知识挖掘模型的训练目标数据。
上述标注样例形式可如下:“用户输入内容:过敏性鼻炎能不能用西替利嗪片?\n背景知识query:1.西替利嗪片功能主治。2.过敏性鼻炎治疗方法。”
将上述形式的标注样例作为小样本学习(few-shot learning)的学习样本,以新的未标注问题作为用户输入,生成新问题的背景知识。如:
“用户输入:过敏性鼻炎能不能用西替利嗪片?\n背景知识query:1.西替利嗪片功能主治。2.过敏性鼻炎治疗方法。\n用户输入:高血压患者能不能喝酒?\n背景知识query:”。
上述标注数据中的用户输入部分不限于单轮的问题,也可以是多轮的对话。为了让大语言模型可以更好的输出我们想要的结果,可以增加一些对任务的描述和对输出的要求。例如给大语言模型设定一个领域专家的角色,限定输出的长度和条数等。具体的prompt内容需要根据实际的任务和大语言模型来调试。
通过上述方式就可以生成大量的背景知识挖掘模型的训练数据。我们可以选择参数量相对较小的生成式模型作为背景知识挖掘模型,比如BART模型。BART模型虽然参数量较小,但在特定任务上,通过标注数据微调可以得到很好的效果。训练好背景知识挖掘模型之后,就可以在与用户的对话过程中,实时生成回答当前问题所需的背景知识query。
在本实施例中,如附图4所示,获得所述背景知识结果包括:在领域数据或知识库中分别对所述背景知识query进行搜索,对所述背景知识query进行实体识别和意图分析,获得实体识别结果和意图分析结果;根据所述实体识别结果和所述意图分析结果从领域数据或知识库中进行背景知识的召回;对所召回的背景知识进行排序,得到背景知识子结果;将所有所述背景知识子结果进行融合或拼接,得到所述背景知识结果。
在上述实施例中,得到所述背景知识结果是一个多路搜索的框架结构,将所需背景知识的多个背景知识query同时进行搜索,分别得到搜索结果后再进行融合输出。
在本实施例中,在对背景知识进行召回时,若领域数据为结构化形式,则直接查询领域数据并进行背景知识的召回;若领域数据为非结构化形式,则先对领域数据进行索引构建,所述索引构建包括倒排索引和向量索引,完成所述索引构建后,再通过查询领域数据以召回背景知识;
在对所召回的背景知识进行排序时,若背景知识来源于结构化的领域数据或数据库,则直接按默认召回顺序进行排序;若背景知识来源于非结构化的领域数据,通过排序算法模型对所召回的背景知识进行排序。
在上述实施例中,例如用户输入“过敏性鼻炎能不能用西替利嗪片?”,通过背景知识挖掘得到以下结果:“背景知识query:1.西替利嗪片功能主治;2.过敏性鼻炎治疗方法”。分别对上述背景知识query进行搜索,大致流程为:
(1)对背景知识query1和背景知识query1进行实体识别和意图分析,实体识别和意图分析的分析结果如:“{‘query’:‘西替利嗪片功能主治’,‘entities’:[{‘name’:‘西替利嗪片’,‘type’:‘药品’}],‘intents’:[{‘intent’:‘药品功能主治查询’,‘score’:1.0}]}”。
(2)根据上述的分析结果对相应的背景知识进行召回,此时分情况讨论:如果领域知识数据是知识图谱或知识库等结构化的形式,那么可以结合上述的实体和意图信息,直接查询结构化知识库得到背景知识;如果领域数据是非结构化文本的形式,那么要先对领域数据进行索引构建。索引构建的方式主要有倒排索引和向量索引两种方式。倒排索引可以使用ElasticSearch等全文检索工具进行构建。向量索引需要先对文本进行向量化,文本向量化可以使用Text2vec等开源工具,也可以使用领域数据训练文本向量表示模型。对文本进行向量化之后,可以使用faiss、Milvus等向量搜索工具进行向量索引构建和查询,得到非结构化文本中的背景知识,具体地根据实际业务场景进行选择。
(3)再对召回结果进行排序,得到更精准的搜索结果如果召回阶段是对结构化知识库的查询,那么一般不需要进行排序,因为召回的结果是相对确定的。如果是非结构化文本的召回结果,往往需要对召回的候选结果进行排序。常用的排序算法模型有GBDT、LambdaRank、BERT等,可以根据实际业务需要进行选择。由于本系统对搜索要求不高,所以排序模型可以选择较为简单的模型,比如GBDT。
(4)最后对所有背景知识子结果进行融合或拼接,得到背景知识结果,如“背景知识:1.盐酸西替利嗪片的功效:盐酸西替利嗪片是常用的一种抗过敏药物,其主要的功效就是抗过敏,也能够有效的阻止组织胺的释放,达到止痒以及缓解过敏反应的效果,可以用于治疗多种过敏性疾病,另外,被蚊虫叮咬之后的皮肤瘙痒也可以应用该药来缓解。\n2.过敏性鼻炎治疗:环境控制:避免或尽可能减少接触相关过敏原。药物治疗:鼻用糖皮质激素、抗组胺药、白三烯受体拮抗剂、肥大细胞膜稳定剂、鼻用减充血剂、鼻用抗胆碱能药。免疫治疗:是治疗过敏性鼻炎的一线治疗方法,临床推荐使用。给患者过敏原提取物(治疗性疫苗),诱导机体免疫耐受。”
在本实施例中,prompt设计工程所生成的所述目标prompt模板包括指令部分、背景信息部分、输入数据部分和输出指示部分,所述指令部分为大语言模型需要执行的任务,所述背景信息部分为搜索得到的所述背景知识结果,所述输入数据部分为所述输入内容,所述输出指示部分为大语言模型所要回复所述输入内容的答案。例如,在上述举例的基础上,目标prompt模板为:“#[背景信息]背景知识:\n1.盐酸西替利嗪片的功效:盐酸西替利嗪片是常用的一种抗过敏药物,其主要的功效就是抗过敏,也能够有效的阻止组织胺的释放,达到止痒以及缓解过敏反应的效果,可以用于治疗多种过敏性疾病,比如过敏性鼻炎、结膜炎、荨麻疹等,另外,被蚊虫叮咬之后的皮肤瘙痒也可以应用该药来缓解。\n2.过敏性鼻炎治疗:环境控制:避免或尽可能减少接触相关过敏原。药物治疗:鼻用糖皮质激素、抗组胺药、白三烯受体拮抗剂、肥大细胞膜稳定剂、鼻用减充血剂、鼻用抗胆碱能药。免疫治疗:是治疗过敏性鼻炎的一线治疗方法,临床推荐使用。给患者过敏原提取物(治疗性疫苗),诱导机体免疫耐受。\n#[指令]以上内容是下列问题的可能相关的背景知识,仅供参考。\n#[输入数据]问题:过敏性鼻炎能不能用西替利嗪片?\n#[输出指示]答案:”。
在上述实施例中,所述目标prompt模板主要是将搜索得到的背景知识结果和用户输入内容相结合生成的,作为大语言模型的prompt输入。
在本实施例中,基于生成的所述目标prompt模板,调用所述大语言模型进行推理,完成所述目标prompt模板中的任务。
在本实施例中,所述大语言模型为GPT3、ChatGPT、LLaMA或ChatGLM等等。
在上述举例的基础上,以GPT3模型为例,分别在无背景知识挖掘和有背景知识挖掘的情况下,调用GPT3模型进行推理。如附图5和附图6所示,无背景知识挖掘情况下GPT3模型对“过敏性鼻炎能不能用西替利嗪片?”的回复是:“不能。西替利嗪片不话用于过敏性鼻炎,它主要用于治疗慢性咽炎、急性咽炎、喉炎、支气管炎等哮瑞病症”。而有背景知识挖掘情况下GPT3模型对“过敏性鼻炎能不能用西替利嗪片?”的回复是:“可以用西替利嗪片,因为该药物具有抗过敏的作用,可以缓解过敏反应,缓解痒推,但是应该根据不同的情况选择最佳的治疗方案,包括药物治疗、环境控制和免疫治疗等”。
因此,从上述的在无背景知识挖掘和有背景知识挖掘的情况下调用GPT3模型进行推理的结果可以看出:大语言模型是通过网络参数来隐式地存储训练数据中的知识,本质上是不确定性的,要从模型本身完全避免事实类错误是不太现实的,如果我们对用户输入问题进行分析挖掘,将直接搜索转换成若干背景知识(如某药品人群禁忌、某药品功能主治、某疾病治疗方式等)的搜索,就能大大提供搜索结果的有效性,同时知识搜索结果作为大语言模型推理的背景信息,让大语言模型能更好的发挥其擅长的语义理解和推理能力。因此,通过知识搜索来为大语言模型推理提供外部知识是一种更好进行回复用户的方式。
本实施例技术方案可以为大语言模型提供推理所需的知识,减少大语言模型推理中的事实类错误;为大语言模型提供背景知识信息而不是直接的答案,可以充分发挥大语言模型强大的理解和推理能力;背景知识信息查询是多路搜索,减少对搜索部分的过度依赖和要求。
实施例2
结合附图7,本发明技术方案是一种大语言模型知识增强系统,采用实施例1所述的大语言模型知识增强方法,包括:
知识需求挖掘模块10,对输入内容进行分析和挖掘,得到回答输入内容所需的背景知识query;
背景知识搜索模块20,在领域数据或知识库中对背景知识query进行知识搜索,获得背景知识query对应的背景知识结果;
prompt工程模块30,将背景知识结果作为输入内容的背景信息,利用输入内容和背景知识结果生成目标prompt模板;
大语言推理模块40,对生成的目标prompt模板进行推理得到回答输入内容的推理结果。
实施例3
结合附图8,本发明技术方案是一种电子设备,所述电子设备包括存储器200和处理器100,所述存储器200存储有计算机程序,所述计算机程序被所述处理器100执行时,使得所述处理器100执行实施例1所述的大语言模型知识增强方法。
实施例4
本发明技术方案是一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现实施例1所述的大语言模型知识增强方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种大语言模型知识增强方法,其特征在于,包括:
获取输入内容,对所述输入内容进行分析并挖掘,获得回答所述输入内容所需的背景知识query;
根据挖掘得到的所述背景知识query,在领域数据或知识库中进行知识搜索,获得所述背景知识query对应的背景知识结果;
将所述背景知识结果作为所述输入内容的背景信息,将所述输入内容和所述背景知识结果通过prompt设计工程生成目标prompt模板;
将生成的所述prompt模板输入到大语言模型中,得到回答所述输入内容的推理结果。
2.根据权利要求1所述的一种大语言模型知识增强方法,其特征在于,所述背景知识query是通过使用小样本学习以及在线调用大语言模型获得的,包括:获取标注样例,利用所述标注样例和所述输入内容构造背景prompt模板;在线调用大语言模型,得到所述输入内容对应的背景知识query。
3.根据权利要求1所述的一种大语言模型知识增强方法,其特征在于,所述背景知识query是通过离线调用大语言模型生成训练数据以训练知识挖掘模型,并在线调用知识挖掘模型获得的,包括:获取标注样例和未标注数据,利用所述标注样例和所述未标注数据构造背景prompt模板;离线调用大语言模型生成训练数据,通过所述训练数据训练得到知识挖掘模型;将所述输入内容输入到所述知识挖掘模型,得到所述输入内容对应的背景知识query。
4.根据权利要求2或3所述的一种大语言模型知识增强方法,其特征在于,获得所述背景知识结果包括:在领域数据或知识库中分别对所述背景知识query进行搜索,对所述背景知识query进行实体识别和意图分析,获得实体识别结果和意图分析结果;根据所述实体识别结果和所述意图分析结果从领域数据或知识库中进行背景知识的召回;对所召回的背景知识进行排序,得到背景知识子结果;将所有所述背景知识子结果进行融合或拼接,得到所述背景知识结果。
5.根据权利要求4所述的一种大语言模型知识增强方法,其特征在于,在对背景知识进行召回时,若领域数据为结构化形式,则直接查询领域数据并进行背景知识的召回;若领域数据为非结构化形式,则先对领域数据进行索引构建,所述索引构建包括倒排索引和向量索引,完成所述索引构建后,再通过查询领域数据以召回背景知识;
在对所召回的背景知识进行排序时,若背景知识来源于结构化的领域数据或数据库,则直接按默认召回顺序进行排序;若背景知识来源于非结构化的领域数据,通过排序算法模型对所召回的背景知识进行排序。
6.根据权利要求5所述的一种大语言模型知识增强方法,其特征在于,prompt设计工程所生成的所述目标prompt模板包括指令部分、背景信息部分、输入数据部分和输出指示部分,所述指令部分为大语言模型需要执行的任务,所述背景信息部分为搜索得到的所述背景知识结果,所述输入数据部分为所述输入内容,所述输出指示部分为大语言模型所要回复所述输入内容的答案。
7.根据权利要求6所述的一种大语言模型知识增强方法,其特征在于,基于生成的所述目标prompt模板,调用所述大语言模型进行推理,完成所述目标prompt模板中的任务。
8.一种大语言模型知识增强系统,其特征在于,采用权利要求1至7中任意一项所述大语言模型知识增强方法,包括:
知识需求挖掘模块,对输入内容进行分析和挖掘,得到回答输入内容所需的背景知识query;
背景知识搜索模块,在领域数据或知识库中对背景知识query进行知识搜索,获得背景知识query对应的背景知识结果;
prompt工程模块,将背景知识结果作为输入内容的背景信息,利用输入内容和背景知识结果生成目标prompt模板;
大语言推理模块,对生成的目标prompt模板进行推理得到回答输入内容的推理结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任意一项所述的大语言模型知识增强方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的大语言模型知识增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310569933.1A CN116303980B (zh) | 2023-05-19 | 2023-05-19 | 一种大语言模型知识增强方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310569933.1A CN116303980B (zh) | 2023-05-19 | 2023-05-19 | 一种大语言模型知识增强方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116303980A true CN116303980A (zh) | 2023-06-23 |
CN116303980B CN116303980B (zh) | 2023-08-15 |
Family
ID=86798199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310569933.1A Active CN116303980B (zh) | 2023-05-19 | 2023-05-19 | 一种大语言模型知识增强方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303980B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631573A (zh) * | 2023-07-25 | 2023-08-22 | 讯飞医疗科技股份有限公司 | 一种处方用药审核方法、装置、设备及存储介质 |
CN116703337A (zh) * | 2023-08-08 | 2023-09-05 | 金现代信息产业股份有限公司 | 一种基于人工智能技术的项目文档审查系统及方法 |
CN116737883A (zh) * | 2023-08-15 | 2023-09-12 | 科大讯飞股份有限公司 | 人机交互方法、装置、设备及存储介质 |
CN116756178A (zh) * | 2023-08-22 | 2023-09-15 | 北京至臻云智能科技有限公司 | 一种基于大语言生成模型的审计方法、系统和审计机器人 |
CN116821318A (zh) * | 2023-08-29 | 2023-09-29 | 中船奥蓝托无锡软件技术有限公司 | 基于大语言模型的业务知识推荐方法、装置及存储介质 |
CN116842126A (zh) * | 2023-08-29 | 2023-10-03 | 青岛网信信息科技有限公司 | 一种利用llm实现知识库精准输出的方法、介质及系统 |
CN116861928A (zh) * | 2023-07-07 | 2023-10-10 | 北京中关村科金技术有限公司 | 指令微调数据的生成方法、装置、设备及介质 |
CN116978511A (zh) * | 2023-09-25 | 2023-10-31 | 字节星球科技(成都)有限公司 | 基于大语言模型的用药风险识别方法、装置及存储介质 |
CN117032722A (zh) * | 2023-08-18 | 2023-11-10 | 上海澜码科技有限公司 | 基于api文档的代码生成方法 |
CN117034921A (zh) * | 2023-07-26 | 2023-11-10 | 中国海洋大学 | 一种基于用户数据的提示学习训练方法、装置和介质 |
CN117034958A (zh) * | 2023-07-21 | 2023-11-10 | 南京领行科技股份有限公司 | 用户意图识别方法、答复生成方法、以及服务器 |
CN117077791A (zh) * | 2023-10-12 | 2023-11-17 | 北京枫清科技有限公司 | 一种基于图数据结构的模型推理方法、装置、设备及介质 |
CN117235220A (zh) * | 2023-09-15 | 2023-12-15 | 之江实验室 | 基于图数据库知识增强的可扩展大语言模型调用方法和装置 |
CN117421415A (zh) * | 2023-12-18 | 2024-01-19 | 北京海纳数聚科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN117667979A (zh) * | 2023-12-08 | 2024-03-08 | 暨南大学 | 基于大语言模型的数据挖掘方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3451189A1 (en) * | 2017-08-30 | 2019-03-06 | Deutsche Telekom AG | A system and method for user query recognition |
US20200356829A1 (en) * | 2019-05-08 | 2020-11-12 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
CN114238584A (zh) * | 2021-12-22 | 2022-03-25 | 中国建设银行股份有限公司 | 信息搜索方法、设备及存储介质 |
CN115293168A (zh) * | 2022-07-27 | 2022-11-04 | 成都包被科技有限公司 | 基于预训练模型语义理解的多语言缩写消歧义算法 |
US20230112921A1 (en) * | 2021-10-01 | 2023-04-13 | Google Llc | Transparent and Controllable Human-Ai Interaction Via Chaining of Machine-Learned Language Models |
CN116092699A (zh) * | 2021-11-05 | 2023-05-09 | 上海仰和华健人工智能科技有限公司 | 一种基于预训练模型的癌症问答交互方法 |
CN116127020A (zh) * | 2023-03-03 | 2023-05-16 | 北京百度网讯科技有限公司 | 生成式大语言模型训练方法以及基于模型的搜索方法 |
-
2023
- 2023-05-19 CN CN202310569933.1A patent/CN116303980B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3451189A1 (en) * | 2017-08-30 | 2019-03-06 | Deutsche Telekom AG | A system and method for user query recognition |
US20200356829A1 (en) * | 2019-05-08 | 2020-11-12 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
US20230112921A1 (en) * | 2021-10-01 | 2023-04-13 | Google Llc | Transparent and Controllable Human-Ai Interaction Via Chaining of Machine-Learned Language Models |
CN116092699A (zh) * | 2021-11-05 | 2023-05-09 | 上海仰和华健人工智能科技有限公司 | 一种基于预训练模型的癌症问答交互方法 |
CN114238584A (zh) * | 2021-12-22 | 2022-03-25 | 中国建设银行股份有限公司 | 信息搜索方法、设备及存储介质 |
CN115293168A (zh) * | 2022-07-27 | 2022-11-04 | 成都包被科技有限公司 | 基于预训练模型语义理解的多语言缩写消歧义算法 |
CN116127020A (zh) * | 2023-03-03 | 2023-05-16 | 北京百度网讯科技有限公司 | 生成式大语言模型训练方法以及基于模型的搜索方法 |
Non-Patent Citations (2)
Title |
---|
EDWARD Y. CHANG: ""Prompting Large Language Models With the Socratic Method"", 《2023 IEEE 13TH ANNUAL COMPUTING AND COMMUNICATION WORKSHOP AND CONFERENCE (CCWC)》, pages 0351 - 0360 * |
阴红志;张帆;丁鼎;赵斌;: "AnswerSeeker:基于互联网挖掘的智能问答系统", 计算机系统应用, no. 01, pages 8 - 19 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861928B (zh) * | 2023-07-07 | 2023-11-17 | 北京中关村科金技术有限公司 | 指令微调数据的生成方法、装置、设备及介质 |
CN116861928A (zh) * | 2023-07-07 | 2023-10-10 | 北京中关村科金技术有限公司 | 指令微调数据的生成方法、装置、设备及介质 |
CN117034958A (zh) * | 2023-07-21 | 2023-11-10 | 南京领行科技股份有限公司 | 用户意图识别方法、答复生成方法、以及服务器 |
CN116631573A (zh) * | 2023-07-25 | 2023-08-22 | 讯飞医疗科技股份有限公司 | 一种处方用药审核方法、装置、设备及存储介质 |
CN117034921B (zh) * | 2023-07-26 | 2024-04-05 | 中国海洋大学 | 一种基于用户数据的提示学习训练方法、装置和介质 |
CN117034921A (zh) * | 2023-07-26 | 2023-11-10 | 中国海洋大学 | 一种基于用户数据的提示学习训练方法、装置和介质 |
CN116703337A (zh) * | 2023-08-08 | 2023-09-05 | 金现代信息产业股份有限公司 | 一种基于人工智能技术的项目文档审查系统及方法 |
CN116737883A (zh) * | 2023-08-15 | 2023-09-12 | 科大讯飞股份有限公司 | 人机交互方法、装置、设备及存储介质 |
CN117032722B (zh) * | 2023-08-18 | 2024-04-26 | 上海澜码科技有限公司 | 基于api文档的代码生成方法 |
CN117032722A (zh) * | 2023-08-18 | 2023-11-10 | 上海澜码科技有限公司 | 基于api文档的代码生成方法 |
CN116756178A (zh) * | 2023-08-22 | 2023-09-15 | 北京至臻云智能科技有限公司 | 一种基于大语言生成模型的审计方法、系统和审计机器人 |
CN116842126A (zh) * | 2023-08-29 | 2023-10-03 | 青岛网信信息科技有限公司 | 一种利用llm实现知识库精准输出的方法、介质及系统 |
CN116842126B (zh) * | 2023-08-29 | 2023-12-19 | 青岛网信信息科技有限公司 | 一种利用llm实现知识库精准输出的方法、介质及系统 |
CN116821318B (zh) * | 2023-08-29 | 2024-01-02 | 中船奥蓝托无锡软件技术有限公司 | 基于大语言模型的业务知识推荐方法、装置及存储介质 |
CN116821318A (zh) * | 2023-08-29 | 2023-09-29 | 中船奥蓝托无锡软件技术有限公司 | 基于大语言模型的业务知识推荐方法、装置及存储介质 |
CN117235220A (zh) * | 2023-09-15 | 2023-12-15 | 之江实验室 | 基于图数据库知识增强的可扩展大语言模型调用方法和装置 |
CN117235220B (zh) * | 2023-09-15 | 2024-03-15 | 之江实验室 | 基于图数据库知识增强的可扩展大语言模型调用装置 |
CN116978511B (zh) * | 2023-09-25 | 2023-12-12 | 字节星球科技(成都)有限公司 | 基于大语言模型的用药风险识别方法、装置及存储介质 |
CN116978511A (zh) * | 2023-09-25 | 2023-10-31 | 字节星球科技(成都)有限公司 | 基于大语言模型的用药风险识别方法、装置及存储介质 |
CN117077791A (zh) * | 2023-10-12 | 2023-11-17 | 北京枫清科技有限公司 | 一种基于图数据结构的模型推理方法、装置、设备及介质 |
CN117667979A (zh) * | 2023-12-08 | 2024-03-08 | 暨南大学 | 基于大语言模型的数据挖掘方法、装置、设备及介质 |
CN117421415A (zh) * | 2023-12-18 | 2024-01-19 | 北京海纳数聚科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116303980B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116303980B (zh) | 一种大语言模型知识增强方法、系统、电子设备及介质 | |
CN101436206B (zh) | 基于本体推理的旅游问答系统答案抽取方法 | |
CN111488467B (zh) | 地理知识图谱的构建方法、装置、存储介质及计算机设备 | |
CN110457431A (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN109408811B (zh) | 一种数据处理方法及服务器 | |
CN107633060B (zh) | 一种信息处理方法及电子设备 | |
JP2017513134A (ja) | オントロジーマッピング方法及び装置 | |
CN111428047B (zh) | 一种基于ucl语义标引的知识图谱构建方法及装置 | |
CN110442823A (zh) | 网站分类方法、网站类型判断方法、存储介质及智能终端 | |
Padhy et al. | Multi relational data mining approaches: A data mining technique | |
CN112016295A (zh) | 症状数据处理方法、装置、计算机设备及存储介质 | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
CN111625633A (zh) | 基于知识图谱的企业制度问答意图识别方法及装置 | |
Singh et al. | Multichannel CNN model for biomedical entity reorganization | |
CN116089581A (zh) | 一种基于知识图谱的智能问答方法 | |
CN111143539A (zh) | 基于知识图谱的教学领域问答方法 | |
US11487795B2 (en) | Template-based automatic software bug question and answer method | |
Ramar et al. | Technical review on ontology mapping techniques | |
Vishwakarma et al. | A review & comparative analysis on various chatbots design | |
CN114253990A (zh) | 数据库查询方法、装置、计算机设备和存储介质 | |
CN111309930B (zh) | 一种基于表示学习的医学知识图谱实体对齐方法 | |
CN116303976B (zh) | 基于网络安全知识图谱的渗透测试问答方法、系统及介质 | |
Peng et al. | MPSC: A multiple-perspective semantics-crossover model for matching sentences | |
KR102655809B1 (ko) | 문단입력에 기초한 질의응답 데이터셋 생성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |