CN117540811B - 一种解决大型语言模型幻觉问题的系统和方法 - Google Patents

一种解决大型语言模型幻觉问题的系统和方法 Download PDF

Info

Publication number
CN117540811B
CN117540811B CN202410026756.7A CN202410026756A CN117540811B CN 117540811 B CN117540811 B CN 117540811B CN 202410026756 A CN202410026756 A CN 202410026756A CN 117540811 B CN117540811 B CN 117540811B
Authority
CN
China
Prior art keywords
content
information
traceable
search
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410026756.7A
Other languages
English (en)
Other versions
CN117540811A (zh
Inventor
魏炜
赖凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN202410026756.7A priority Critical patent/CN117540811B/zh
Publication of CN117540811A publication Critical patent/CN117540811A/zh
Application granted granted Critical
Publication of CN117540811B publication Critical patent/CN117540811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用于大语言模型技术领域,提供了一种解决大型语言模型幻觉问题的系统和方法,所述系统包括:提问信息预处理大模型、信息搜索模块、微调后的溯源大语言模型以及校正模块。由于在进行第一次数据库搜索和可溯源的内容生成后,以提问信息、第一次检索项、第一次搜索结果以及生成的可溯源的内容作为预处理大模型的输入,生成更加精确的第二次检索项,在所述数据库中进行第二次搜索,并根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,对所述可溯源的内容进行校正,返回校正后的可溯源的内容,提高了内容真实性和可信度,纠正可能存在的错误或误导性信息,解决了当前大语言模型的幻觉问题。

Description

一种解决大型语言模型幻觉问题的系统和方法
技术领域
本发明属于大语言模型技术领域,尤其涉及一种解决大型语言模型幻觉问题的系统和方法。
背景技术
自2022年11月30日OpenAI发布ChatGPT以来,大型语言模型(LLM)已经成为人工智能领域的焦点。大模型在理解和生成自然语言方面展现出惊人的能力,但也引发了一个备受关注的问题——幻觉问题。幻觉(Hallucination)是指大模型生成貌似合理连贯,但与输入问题意图不一致、与世界知识不一致、与现实或已知数据不符合或无法验证的内容。大模型的“幻觉”问题在法律、金融、医疗等专业领域是主要挑战之一,制约了其广泛应用。
目前,解决大模型“幻觉”问题的方法主要有两类:一类是对大模型本身的优化,包括模型架构和训练数据集的优化;另一类是引入外部知识库,通过真实、可靠的外部知识解决幻觉问题。
现有的通过外部知识库解决幻觉问题的方案是采用“搜索+大模型生成”的简单组合,即根据用户问句进行关键词或语义搜索,然后使用大模型对搜索结果进行改写输出。这会导致三个问题:(1)搜索问题:用户问句的复杂性、用户意图的模糊性以及背景知识的缺失,导致搜索错误、不精确,甚至未搜索到任何信息,导致大模型产生幻觉输出;(2)大模型生成问题:虽然搜索到了大量信息,但信息中同时存在正确、错误和无关的信息,大模型可能会受到错误或无关信息的干扰,生成错误的或者不符合用户意图的内容。(3)由于大模型本身不可避免的幻觉问题,即使基于完全正确的搜索结果,大模型仍然可能产生错误的输出。以上三个问题直接导致大模型产生幻觉。
发明内容
本发明实施例提供一种解决大型语言模型幻觉问题的系统,旨在解决现有大型语言模型存在幻觉的问题。
本发明实施例是这样实现的,一种解决大型语言模型幻觉问题的系统,所述系统包括:
提问信息预处理大模型,用于获取用户的提问信息,并根据所述提问信息生成用于数据库搜索的第一次检索项;
信息搜索模块,用于根据所述第一次检索项在所述数据库中进行搜索,获得第一次搜索结果;
微调后的溯源大语言模型,用于根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息;
所述提问信息预处理大模型,还用于将所述提问信息、第一次检索项、第一次搜索结果以及可溯源的内容转换为用于所述数据库搜索的第二次检索项;
所述信息搜索模块,还用于根据所述第二次检索项在所述数据库中进行第二次搜索,获得第二次增强搜索结果;以及
校正模块,用于根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,对所述可溯源的内容进行校正,返回校正后的可溯源的内容,所述校正后的可溯源的内容包括内容的溯源信息。
更进一步地,所述校正模块包括:微调后的校正大模型和知识图谱校正插件;
所述微调后的校正大模型,用于根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,返回校正后的可溯源的内容;
所述知识图谱校正插件,用于对校正大模型返回的内容进行多元组信息抽取,并根据知识图谱数据库中的数据判断校正大模型返回的内容是否正确,并在判断所述校正大模型返回的内容不正确时对其进行修正。
更进一步地,所述数据库包括业务子数据库、向量子数据库和知识图谱子数据库中的一个或多个的组合;或者,
所述数据库包括业务子数据库、向量子数据库和知识图谱子数据库中的一个或多个与实时子数据库的组合。
更进一步地,所述第一次检索项/第二次检索项包括:意图识别信息、拆解或转换后的问题子句和/或根据子句提取的关键词组。
更进一步地,所述信息搜索模块包括:
信息搜索单元,用于根据所述第一次检索项在数据库中进行搜索,获得第一次搜索数据,以及根据所述第二次检索项在所述数据库中进行搜索,获得第二次增强搜索数据。
更进一步地,当所述数据库包括两个以上的子数据库时,所述信息搜索模块包括:
数据合并单元,用于将搜索得到的数据进行合并,生成第一次搜索结果或者第二次增强搜索结果。
更进一步地,所述系统还包括:
数据库构建模块,用于从多个来源获取基础数据,并根据所述基础数据构建数据库。
更进一步地,所述微调后的溯源大语言模型包括:大模型溯源生成模块和大模型溯源直接生成模块;
所述大模型溯源生成模块,用于当第一次搜索结果不为空时,根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息;
大模型溯源直接生成模块,用于当第一次搜索结果为空时,直接生成可溯源的内容。
更进一步地,所述溯源信息包括:与所述可溯源的内容对应的角标信息,以及与所述角标信息对应的可溯源的内容的来源标识信息。
本发明实施例还提供一种解决大型语言模型幻觉问题的方法,所述方法包括:
通过提问信息预处理大模型获取用户的提问信息,并根据所述提问信息生成用于数据库搜索的第一次检索项;
通过信息搜索模块根据所述第一次检索项在所述数据库中进行搜索,获得第一次搜索结果;
通过微调后的溯源大语言模型根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息;
通过提问信息预处理大模型将所述提问信息、第一次检索项、第一次搜索结果以及可溯源的内容转换为用于所述数据库搜索的第二次检索项;
通过信息搜索模块根据所述第二次检索项在所述数据库中进行第二次搜索,获得第二次增强搜索结果;
通过校正模块根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,对所述可溯源的内容进行校正,返回校正后的可溯源的内容,所述校正后的可溯源的内容包括内容的溯源信息。
本申请实施例提供的一种解决大型语言模型幻觉问题的系统,由于在进行第一次数据库搜索和可溯源的内容生成后,以基于提问信息、第一次检索项、第一次搜索结果以及生成的可溯源的内容生成的第二次检索项在所述数据库中进行第二次搜索,一方面,新增了第一次检索项、第一次搜索结果和可溯源的内容作为生成第二次检索项的背景知识,生成更加精确、细分的检索项,提高了搜索条件的多样性和准确性,另一方面,由于可溯源的内容中包括溯源信息,可以对答案的来源进行跟踪和验证,从而增加答案的可信度,根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果进行校正处理,进一步提高了答案内容的真实性和可信度,纠正可能存在的错误或误导性信息,解决了当前大语言模型幻觉的问题。
附图说明
图1是本申请实施例提供的解决大型语言模型幻觉问题的系统的应用场景架构图;
图2是本发明实施例提供的一种解决大型语言模型幻觉问题的系统结构示意图;
图3是本发明实施例提供的又一种解决大型语言模型幻觉问题的系统结构示意图;
图4是本发明实施例提供的一种解决大型语言模型幻觉问题的系统中可溯源的内容与内容的溯源信息之间的展现形式的示意图;
图5是本发明实施例提供的一种解决大型语言模型幻觉问题的系统中校正模块的结构示意图;
图6是本发明实施例提供的一种解决大型语言模型幻觉问题的系统中提问信息预处理大模型的结构示意图;
图7是本发明实施例提供的一种解决大型语言模型幻觉问题的系统中信息搜索模块的结构示意图;
图8是本发明实施例提供的再一种解决大型语言模型幻觉问题的系统结构示意图;
图9是本发明实施例提供的一种解决大型语言模型幻觉问题的系统中数据来源与数据库、各数据库之间的关系示意图;
图10是本发明实施例提供的一种解决大型语言模型幻觉问题的系统中微调后的溯源大语言模型的结构示意图;
图11是申请实施例提供的一种解决大型语言模型幻觉问题的方法的流程图;
图12是申请实施例提供的一种解决大型语言模型幻觉问题的方法的时序图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,需要理解的是,对于方向和位置关系的描述中所指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。
此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其它工艺的应用和/或其它材料的使用。
本申请实施例提供的一种解决大型语言模型幻觉问题的系统,新增了第一次检索项、第一次搜索结果和可溯源的内容作为生成第二次检索项的背景知识,提高了搜索条件的多样性和准确性,由于可溯源的内容中包括溯源信息,也增加答案的可信度,在此基础上,根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果进行校正处理,进一步提高了答案内容的真实性和可信度,纠正可能存在的错误或误导性信息,解决了当前大语言模型幻觉的问题。
图1示例性地示出了本申请实施例的解决大型语言模型幻觉问题的系统的应用场景架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场
如图1所示,根据该实施例的系统架构100可以包括终端设备(如智能手机101、平板电脑102与笔记本电脑103等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备通过网络104与服务器105交互,以接收或发送消息等。终端设备可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备输入的用户请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本公开实施例所提供的解决大型语言模型幻觉问题的系统一般可以设置于服务器105中。本公开实施例所提供的解决大型语言模型幻觉问题的系统也可以由不同于服务器105且能够与终端设备和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的解决大型语言模型幻觉问题的系统也可以设置于不同于服务器105且能够与终端设备和/或服务器105通信的服务器或服务器集群中。
或者,本公开实施例所提供的解决大型语言模型幻觉问题的系统也可以运行于终端设备,或者也可以由不同于图1所示的终端设备的其他终端设备执行。相应地,本公开实施例所提供的解决大型语言模型幻觉问题的系统也可以设置于终端设备中,或设置于不同于终端设备的其他终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
实施例一
如图2所示,本实施例提供的一种解决大型语言模型幻觉问题的系统,包括:提问信息预处理大模型110、信息搜索模块120、微调后的溯源大语言模型130以及校正模块140,图中带箭头的虚线和虚线上的序号示出了各模块的工作顺序。
提问信息预处理大模型110,用于获取用户的提问信息,并根据所述提问信息生成用于数据库搜索的第一次检索项。
可选的,用户的提问信息为用户通过客户端输入的信息,可以是文本信息,也可以是语音信息等,具体不做限制。例如,用户的提问信息为针对企业情况的提问信息,如“A公司2021-2023年的营业收入,净利润是多少?”。
可选的,提问信息预处理大模型为经过微调后,能够将用户的问句自动转换成数据搜索的检索项。
可选的,检索项包括意图识别信息、拆解后转换后的问题子句和/或根据子句提取的关键词组,不同的数据库对应的检索项不同。
可选的,由于不同的数据库对于检索项的格式要求不同,需要根据不同的数据库将提问信息处理为系统可以识别的检索项,进而基于该检索项在数据库中进行搜索。如,业务数据库可以识别关键词、向量数据库可以识别文本句子。例如,当提问信息为“A公司2021-2023年的营业收入,净利润是多少?”,对于向量数据库,需要将该文件拆解为多个子问句,包括:“A公司2021年的营业收入是多少?”、“A公司2022年的营业收入是多少?”、“A公司2023年的营业收入是多少?”、“A公司2021年的净利润是多少?”、“A公司2022年的净利润是多少?”、“A公司2023年的净利润是多少?”。
信息搜索模块120,用于根据所述第一次检索项在所述数据库中进行搜索,获得第一次搜索结果。
可选的,所述数据库包括业务子数据库、向量子数据库和知识图谱子数据库中的一个或多个的组合。
可选的,基于业务库的关键词搜索可以实现通过关键词或短语来查找相关信息,返回相关的文档和信息,适用于广泛的查询需求。
可选的,基于向量数据库的向量搜索可以实现语义向量来查找相关内容。通过在向量数据库中存储的特征向量,系统能够迅速检索并返回查询相关的文档和数据。这种搜索方式有助于提高搜索的准确性和效率。
可选的,基于知识图谱数据库的图谱搜索可以实现复杂的图谱查询。可以根据查询信息,提供有关实体、属性、值以及实体之间关系的详细信息。这种搜索方式有助于回答复杂问题和提供深度知识。当数据库为多个不同子数据库的组合时,可以增加问题搜索的维度,获得更多的搜索结果。
本申请实施例提供的这三个子数据库两两组合或者三者结合,可以构成了一个强大的信息存储和检索系统,为问答系统提供了坚实的基础,确保用户获得高质量、准确和有深度的答案。
可选的,所述数据库包括业务子数据库、向量子数据库和知识图谱子数据库中的一个或多个与实时子数据库的组合。在实际应用中,实时子数据库为外部数据库(如百度或google),本申请的解决大型语言模型幻觉问题的系统通过调用其接口,实现数据搜索,其主要作用是补充其他子数据库实时性差的问题,尤其在其他子数据库中缺乏相关数据时,基于外部数据库数据更新及时的特点,实现实时数据搜索(如提问信息为:今天中午的某市温度是多少?)。
微调后的溯源大语言模型130,用于根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息。
现实中存在两种可能,第一种可能为数据库中存在与第一次检索项对应的数据,此时,第一次搜索结果不为空,第二种可能为数据库中不存在与第一次检索项对应的数据,此时,第一次搜索结果为空。在实际应用中,为了尽可能避免出现第一次搜索结果为空的情况,一般会引入实时子数据库,这种情况下,第一次搜索结果将很少出现为空的情形。
可选的,采用公知的方法对溯源大语言模型进行微调,形成微调溯源大语言模型,具体的,可以是给溯源大语言模型输入和输出的示例,让溯源大语言模型参照所提供的示例进行输出。例如准备1000条左右的微调数据(输入和输出的示例)作为微调数据集,然后对通用溯源大语言模型进行微调,微调完毕后,溯源大语言模型生成的内容就是预期的内容。
可选的,溯源信息用于标注可溯源的内容中关键词/句子/段落的来源,可以用于对可溯源的内容进行追溯和确认的,可以是来源、验证信息的途径、数据的可信度等。
可选的,参考图3,为本申请实施例提供的又一种解决大语言模型幻觉的系统的结构,图中带箭头的虚线和虚线上的序号示出了各模块的工作顺序。为了让用户能够感知该系统进行数据搜索的过程,或者为了让用户有参与系统工作过程的考虑,优选的,可溯源的内容的溯源信息包括与可溯源的内容对应的角标信息,以及与角标信息对应的可溯源的内容来源标识信息,相关的可溯源的内容通过客户端向用户展示,并可接收用户针对展示的可溯源的内容进行的编辑操作,例如删除某一条明显存在错误的来源标识信息。
图4示出了一种可溯源的内容与内容的溯源信息之间的展现形式的示例,微调后的溯源大语言模型生成的可溯源的内容包括展示在信息库问答栏下的:
“A公司的营业收入如下所示:
*2013年前3季度营业收入为63,415万元1
*2012年年报营业收入为103,116万元2”。
以上,每句话结尾右上角的数字1和2即为角标信息。
在信息库问答栏的下方,显示来源
“1. A公司消息快报: 业绩稳定增长新开工有望超额完成
2.A公司:ROE已创十年新高,工厂化将开启新纪元”。
以上,“1. A公司消息快报: 业绩稳定增长新开工有望超额完成”,即为与“*2013年前3季度营业收入为63,415万元”的可溯源的内容的角标信息1关联的可溯源的内容来源标识信息,表示“*2013年前3季度营业收入为63,415万元”的内容来源于“1.A公司消息快报:业绩稳定增长新开工有望超额完成”这篇文章。
所述提问信息预处理大模型110,还用于将所述提问信息、第一次检索项、第一次搜索结果以及可溯源的内容转换为用于所述数据库搜索的第二次检索项。
所述信息搜索模块120,还用于根据所述第二次检索项在所述数据库中进行第二次搜索,获得第二次增强搜索结果。
校正模块140,用于根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,对所述可溯源的内容进行校正,输出校正后的可溯源的内容,所述校正后的可溯源的内容包括内容的溯源信息。
本申请实施例提供的解决大型语言模型幻觉问题的系统,在进行第一次数据库搜索和可溯源的内容生成后,以基于提问信息、第一次检索项、第一次搜索结果以及可溯源的内容生成的第二次检索项,在所述数据库中进行第二次搜索,一方面,新增了第一次检索项、第一次搜索结果和可溯源的内容作为第二次搜索的条件,提高了搜索的多样性和准确性,另一方面,由于可溯源的内容中包括溯源信息,可以对答案的来源进行跟踪和验证,从而增加答案的可信度,根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果进行校正处理,进一步提高了答案内容的真实性和可信度,纠正可能存在的错误或误导性信息,解决了当前大语言模型的幻觉问题。
实施例二
图5示出了本申请实施例提供的解决大型语言模型幻觉问题的系统内中校正模块140的结构,具体包括:微调后的校正大模型141和知识图谱校正插件142。
所述微调后的校正大模型141,用于根据所述提问信息、检索项、第一次搜索结果、可溯源的内容以及第二次搜索结果进行校正处理,返回校正后的可溯源的内容。
所述知识图谱校正插件142,用于对校正大模型返回的内容进行多元组信息抽取,并根据知识图谱数据库中的数据判断校正大模型返回的内容是否正确,并在判断所述校正大模型返回的内容不正确时对其进行修正。
可选的,大模型校正是指采用微调后的校正大模型,基于“提问信息、检索项、搜索结果、可溯源的内容和增强搜索结果”,校正错误的生成内容,采用公知的方法对校正大语言模型进行微调,形成微调校正大语言模型,具体的,可以是给校正大语言模型输入和输出的示例,让校正大语言模型参照所提供的示例进行输出。例如准备1000条左右的微调数据(输入和输出的示例)作为微调数据集,然后对通用校正大语言模型进行微调,微调完毕后,校正大语言模型生成的内容就是预期的内容。
可选的,知识图谱校正插件是指对校正大模型返回的内容进行多元组信息抽取,并根据知识图谱数据库中的结构化数据判断生成内容是否正确,并进行强行校正的外部插件。具体来说,知识图谱校正插件提取可溯源的内容的多元组信息,然后与知识图谱的结构化数据进行精确匹配,判断可溯源的内容是否正确,如果错误则对可溯源的内容进行修正。其中,多元组信息包括行为多元组、属性多元组和关系多元组,行为多元组由时间、主体、动作、客体、参数、条件组成。属性多元组由时间、实体、属性、值组成。关系多元组由主体、关系、主体组成。如大模型校正后的内容是“公告显示,2022年A公司营业收入5000亿元”,知识图谱校正插件会提取句子的多元组信息,即(2022年,A公司,营业收入,5000亿元),但匹配到的知识图谱的结构化数据是(2022年,A公司,营业收入,5038.4亿元)。插件判断可溯源内容错误,然后将可溯源的内容改成“年报显示,2022年A公司营业收入5038.4亿元”。
实施例三
图6示出了本申请实施例提供的一种提问信息预处理大模型110的结构,其包括问题预处理单元111,用于将所述提问信息转换为与所述子数据库对应的意图识别信息、拆解后转换后的问题子句和/或根据子句提取的关键词组,或者将所述提问信息、第一次检索项、第一次搜索结果以及可溯源的内容转换为用于数据库搜索的意图识别信息、拆解后转换后的问题子句和/或根据子句提取的关键词组。
可选的,具体的转换过程包括:(1)根据用户的复杂问句,自动识别用户的意图,从而确定对数据库的哪一张表进行检索;(2)将用户的复杂问句自动拆解或转换成可用于数据库检索的子句;(3)根据子句,自动提取关键词组,用于数据库关键词搜索。
本申请实施例提供的解决大型语言模型幻觉问题的系统,通过提问信息预处理大模型110获得意图识别信息、拆解后转换后的问题子句和/或根据子句提取的关键词组,为下一步数据库搜索提供了更加精确的检索项。
实施例四
图7示出了本申请实施例提供的信息搜索模块120的结构,包括信息搜索单元121,用于根据所述第一次检索项在数据库中进行搜索,获得第一次搜索数据,以及根据所述第二次检索项在所述数据库中进行搜索,获得第二次增强搜索数据。
可选的,信息搜索模块120还包括数据合并单元122,用于将搜索得到的数据进行合并,进而生成第一次搜索结果或者第二次搜索结果。
不可避免的,不管是基于一个数据库的搜索还是基于多个数据库的搜索,都可能存在搜索得到的数据包含重复项的问题,而重复数据并不能提供新的有用信息,因此,需要对重复的数据进行去重处理。数据合并单元122将搜索得到的数据进行合并的目作用在于删除重复项。
实施例五
图8示出了本申请实施例提供的解决大型语言模型幻觉问题的系统的结构,该系统还包括数据库构建模块150。
数据库构建模块150,用于从多个来源获取基础数据,并根据所述基础数据构建数据库。
可以理解,数据库构建模块150除了第一次从多个来源获取基础数据,以实现数据库的构建后,后续,则可以按照一定的规则,定期的从多个来源获取基础数据,进而实现对数据库的更新,以保持数据库数据的及时性。
可选的,以该解决大型语言模型幻觉问题的系统应用于企业信息的问答为例,多个基础数据来源包括年度报告、招股说明书、基金年报和财经新闻等。这些来源提供了广泛的财经和企业信息,涵盖了各种不同领域的数据,如公司绩效、财务状况、市场动态以及宏观经济趋势。通过综合利用这些不同来源的数据,我们的系统能够更好地理解和回答用户提出的各种问题,提供高质量的答案,以满足用户需求。数据采集的多样性和广泛性有助于确保系统具备全面的信息背景,为用户提供更多价值。
可选的,所述数据库包括业务子数据库、向量子数据库和知识图谱子数据库中的一个或多个的组合。
可选的,业务子数据库作为上游数据库,存储原始的业务数据,这些数据为系统提供了基本的信息资源,构成答案生成的基础。以该系统应用于企业信息的问答为例,业务数据包括如公司财务报告、基金年度数据和招股说明书等,图9示出了数据来源与数据库,各子数据库之间的关系。
可选的,向量子数据库是对业务子数据库的扩展,存储了从文本数据中提取的特征向量,使系统更高效地的语义检索。
可选的,知识图谱数据库存储了从业务库构建的知识图谱数据,包括实体、关系和属性,用于表示不同概念之间的关联。这个知识图谱充当系统的知识存储和推理引擎,使系统能够理解更高级别的语义和上下文,以更深入地回答用户的问题。
实施例六
图10示出了本申请实施例提供的解决大型语言模型幻觉问题的系统中微调后的溯源大语言模型的结构,其中,微调后的溯源大语言模型130包括大模型溯源生成模块131和大模型溯源直接生成模块132。
大模型溯源生成模块131,用于当第一次搜索结果不为空时,根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息。
大模型溯源直接生成模块132,用于当第一次搜索结果为空时,直接生成可溯源的内容,所述可溯源的内容包括内容的溯源信息。
第一次搜索结果为空,是指数据库没有搜索到目标信息,此时,让大模型自动生成可溯源的内容(目前的ChatGPT就是自动生成内容,不依赖搜索结果),此时,由于相关的可溯源的内容不存在于数据库,因此也不存在溯源信息。
在本申请实施例中,当第一次搜索结果为空时,微调后的溯源大语言模型只能完全基于自身参数直接生成内容,但由于生成的内容没有外部知识库作为约束条件,因此对其准确定和真实性无法确认。本申请通过提问信息预处理大模型110将直接生成的可溯源的内容连同提问信息、第一次检索项转换为第二次检索项后,进行二次搜索,提高了搜索条件的多样性和准确性,同时,通过校正模块140对直接生成的可溯源的内容进行校正处理,进一步提高了答案内容的真实性和可信度,纠正可能存在的错误或误导性信息,解决了当前大语言模型幻觉的问题。
实施例七
以下,对大模型生成第一次检索项和第二次检索项的过程做示例性说明。
根据用户问句A,第一次预处理大模型生成的是检索项B,具体包括用户意图信息、三个子问句和三组关键词[[B11,B12,B13],[B21, B22,B23],[B31,B32,B33]],根据检索项B得到搜索结果C,具体对应C1、C2、C3三个搜索结果,大模型根据ABC生成可溯源的内容D。与第一次输入信息A不同,第二次大模型预处理的输入信息是ABCD, 从而得到更加精确的检索项E,具体包括:[[E11,E12, E13],[E21,E22,E23],[E31,E32,E33],[E41,E42,E43]],根据检索项E得到增强搜索结果F,最后校正模块根据ABCDEF对可溯源的内容D进行校正处理。
其中,第一次生成的检索项:用户意图信息:B11B21B31;子句信息:B12B22B32;三组关键词:B13B23B33。
第二次生成的检索项:用户意图信息:E11E21E31E41;子问信息:E12E22E32E42;三组关键词:E13E23E33E43。
本申请实施例提供的解决大型语言模型幻觉问题的系统,在进行第一次数据库搜索和可溯源的内容生成后,以提问信息、第一次检索项、第一次搜索结果以及可溯源的内容生成的第二次检索项,在所述数据库中进行第二次搜索,一方面,新增了第一次检索项、第一次搜索结果和可溯源的内容作为第二次搜索的条件,提高了搜索的多样性和准确性,另一方面,由于可溯源的内容中包括溯源信息,可以对答案的来源进行跟踪和验证,从而增加答案的可信度,根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果进行校正处理,进一步提高了答案内容的真实性和可信度,纠正可能存在的错误或误导性信息,解决了当前大语言模型的幻觉问题。
实施例八
图11示出本申请实施例提供的一种解决大型语言模型幻觉问题的方法的流程图,图12为该方法的时序图。
在步骤S101中,通过提问信息预处理大模型获取用户的提问信息,并将所述提问信息转换为系统可识别的第一次检索项。
在步骤S102中,通过信息搜索模块根据所述第一次检索项在数据库中进行搜索,获得第一次搜索结果;
在步骤S103中,通过微调后的溯源大语言模型根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息;
在步骤S104中,通过提问信息预处理大模型将所述提问信息、第一次检索项、第一次搜索结果以及可溯源的内容转换为系统可识别的第二次检索项;
在步骤S105中,通过信息搜索模块根据所述第二次检索项在所述数据库中进行第二次搜索,获得第二次搜索结果;
在步骤S106中,通过校正模块对所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果进行校正处理,对所述可溯源的内容进行校正,输出校正后的可溯源的内容,所述校正后的可溯源的内容包括内容的溯源信息。
本申请实施例提供的解决大型语言模型幻觉问题的方法,在进行第一次数据库搜索和可溯源的内容生成后,以基于提问信息、第一次检索项、第一次搜索结果以及可溯源的内容生成的第二次检索项,在所述数据库中进行第二次搜索,一方面,新增了第一次检索项、第一次搜索结果和可溯源的内容作为第二次搜索的条件,尤其以可溯源的内容作为第二次生成检索项的背景知识,生成更加精确、细分的检索项,提高了搜索的多样性和准确性,另一方面,由于可溯源的内容中包括溯源信息,可以对答案的来源进行跟踪和验证,从而增加答案的可信度,根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果进行校正处理,进一步提高了答案内容的真实性和可信度,纠正可能存在的错误或误导性信息,解决了当前大语言模型的幻觉问题。
可以理解的是,本领域技术人员可以在以上实施例的教导下,可对以上各个实施例中各种实施方式进行组合,获得多种实施方式的技术方案。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种解决大型语言模型幻觉问题的系统,其特征在于,所述系统包括:
提问信息预处理大模型,用于获取用户的提问信息,并根据所述提问信息生成用于第一数据库搜索的第一次检索项;
信息搜索模块,用于根据所述第一次检索项在所述第一数据库中进行搜索,获得第一次搜索结果;
微调后的溯源大语言模型,用于根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息;
所述提问信息预处理大模型,还用于将所述提问信息、第一次检索项、第一次搜索结果以及可溯源的内容转换为用于所述第一数据库搜索的第二次检索项;
所述信息搜索模块,还用于根据所述第二次检索项在所述第一数据库中进行第二次搜索,获得第二次增强搜索结果;以及
校正模块,用于根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,对所述可溯源的内容进行校正,返回校正后的可溯源的内容,所述校正后的可溯源的内容包括内容的溯源信息;
所述校正模块包括:微调后的校正大模型和知识图谱校正插件;
所述微调后的校正大模型,用于根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,返回校正后的可溯源的内容;
所述知识图谱校正插件,用于对校正大模型返回的内容进行多元组信息抽取,并根据知识图谱数据库中的数据判断校正大模型返回的内容是否正确,并在判断所述校正大模型返回的内容不正确时对其进行修正;
所述溯源信息用于标注可溯源的内容中关键词/句子/段落的来源,用于对可溯源的内容进行追溯和确认。
2.如权利要求1所述的解决大型语言模型幻觉问题的系统,其特征在于,
所述第一数据库包括业务子数据库、向量子数据库和知识图谱子数据库中的一个或多个的组合;或者,
所述第一数据库包括业务子数据库、向量子数据库和知识图谱子数据库中的一个或多个与实时子数据库的组合。
3.如权利要求1所述的解决大型语言模型幻觉问题的系统,其特征在于,所述第一次检索项/第二次检索项包括:意图识别信息、拆解或转换后的问题子句和/或根据子句提取的关键词组。
4.如权利要求1所述的解决大型语言模型幻觉问题的系统,其特征在于,所述信息搜索模块包括:
信息搜索单元,用于根据所述第一次检索项在第一数据库中进行搜索,获得第一次搜索数据,以及根据所述第二次检索项在所述第一数据库中进行搜索,获得第二次增强搜索数据。
5.如权利要求4所述的解决大型语言模型幻觉问题的系统,其特征在于,所述信息搜索模块包括:
数据合并单元,用于将搜索得到的数据进行合并,生成第一次搜索结果或者第二次增强搜索结果。
6.如权利要求1所述的解决大型语言模型幻觉问题的系统,其特征在于,所述系统还包括:
第一数据库构建模块,用于从多个来源获取基础数据,并根据所述基础数据构建第一数据库。
7.如权利要求1所述的解决大型语言模型幻觉问题的系统,其特征在于,所述微调后的溯源大语言模型包括:大模型溯源生成模块和大模型溯源直接生成模块;
所述大模型溯源生成模块,用于当第一次搜索结果不为空时,根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息;
大模型溯源直接生成模块,用于当第一次搜索结果为空时,直接生成可溯源的内容,所述可溯源的内容包括内容的溯源信息。
8.如权利要求1所述的解决大型语言模型幻觉问题的系统,其特征在于,所述溯源信息包括:与所述可溯源的内容对应的角标信息,以及与所述角标信息对应的可溯源的内容的来源标识信息。
9.一种解决大型语言模型幻觉问题的方法,其特征在于,所述方法包括:
通过提问信息预处理大模型获取用户的提问信息,并根据所述提问信息生成用于第一数据库搜索的第一次检索项;
通过信息搜索模块根据所述第一次检索项在所述第一数据库中进行搜索,获得第一次搜索结果;
通过微调后的溯源大语言模型根据所述第一次搜索结果生成可溯源的内容,所述可溯源的内容包括内容的溯源信息;
通过提问信息预处理大模型将所述提问信息、第一次检索项、第一次搜索结果以及可溯源的内容转换为用于所述第一数据库搜索的第二次检索项;
通过信息搜索模块根据所述第二次检索项在所述第一数据库中进行第二次搜索,获得第二次增强搜索结果;
通过校正模块根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,对所述可溯源的内容进行校正,返回校正后的可溯源的内容,所述校正后的可溯源的内容包括内容的溯源信息;
所述通过校正模块根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,对所述可溯源的内容进行校正,返回校正后的可溯源的内容,所述校正后的可溯源的内容包括内容的溯源信息的步骤,具体包括:
通过微调后的校正大模型根据所述提问信息、第一次检索项、第一次搜索结果、可溯源的内容、第二次检索项以及第二次搜索结果,返回校正后的可溯源的内容;
通过知识图谱校正插件对校正大模型返回的内容进行多元组信息抽取,并根据知识图谱数据库中的数据判断校正大模型返回的内容是否正确,并在判断所述校正大模型返回的内容不正确时对其进行修正;
所述溯源信息用于标注可溯源的内容中关键词/句子/段落的来源,用于对可溯源的内容进行追溯和确认。
CN202410026756.7A 2024-01-09 2024-01-09 一种解决大型语言模型幻觉问题的系统和方法 Active CN117540811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410026756.7A CN117540811B (zh) 2024-01-09 2024-01-09 一种解决大型语言模型幻觉问题的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410026756.7A CN117540811B (zh) 2024-01-09 2024-01-09 一种解决大型语言模型幻觉问题的系统和方法

Publications (2)

Publication Number Publication Date
CN117540811A CN117540811A (zh) 2024-02-09
CN117540811B true CN117540811B (zh) 2024-04-09

Family

ID=89788421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410026756.7A Active CN117540811B (zh) 2024-01-09 2024-01-09 一种解决大型语言模型幻觉问题的系统和方法

Country Status (1)

Country Link
CN (1) CN117540811B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118095267B (zh) * 2024-03-15 2024-08-13 行至智能(北京)技术有限公司 一种基于向量匹配的语言模型回答溯源方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475623A (zh) * 2020-04-09 2020-07-31 北京北大软件工程股份有限公司 基于知识图谱的案件信息语义检索方法及装置
CN115809345A (zh) * 2022-12-01 2023-03-17 西南科技大学 一种基于知识图谱的多源数据差异溯源检索方法
CN116501960A (zh) * 2023-04-18 2023-07-28 百度在线网络技术(北京)有限公司 内容检索方法、装置、设备及介质
CN116501843A (zh) * 2023-02-21 2023-07-28 清华大学 一种面向人类偏好的高效网络检索增强回答方法及系统
CN116775906A (zh) * 2023-06-29 2023-09-19 中科云谷科技有限公司 知识图谱的构建方法、系统、计算机设备和存储介质
CN117009490A (zh) * 2023-08-31 2023-11-07 之江实验室 基于知识库反馈的生成式大语言模型的训练方法和装置
CN117033608A (zh) * 2023-09-28 2023-11-10 中国电子科技集团公司第十研究所 一种基于大语言模型的知识图谱生成式问答方法及系统
CN117112806A (zh) * 2023-10-12 2023-11-24 北京大学深圳研究生院 一种基于知识图谱的信息结构化方法和装置
CN117113937A (zh) * 2023-08-16 2023-11-24 浙江大学 一种基于大规模语言模型的电力领域阅读理解方法和系统
CN117171322A (zh) * 2023-09-14 2023-12-05 华东师范大学 一种基于大型语言模型的智能教育聊天机器人训练方法
CN117290477A (zh) * 2023-09-19 2023-12-26 山东浪潮成方数字服务有限公司 一种基于二次检索增强的生成式建筑知识问答方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230273959A1 (en) * 2020-12-15 2023-08-31 ClearVector, Inc. Computer-implemented methods, systems comprising computer-readable media, and electronic devices for narrative representation of a network computing environment
US20230061906A1 (en) * 2021-08-09 2023-03-02 Samsung Electronics Co., Ltd. Dynamic question generation for information-gathering
US11989527B2 (en) * 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11978434B2 (en) * 2021-09-29 2024-05-07 Microsoft Technology Licensing, Llc Developing an automatic speech recognition system using normalization

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475623A (zh) * 2020-04-09 2020-07-31 北京北大软件工程股份有限公司 基于知识图谱的案件信息语义检索方法及装置
CN115809345A (zh) * 2022-12-01 2023-03-17 西南科技大学 一种基于知识图谱的多源数据差异溯源检索方法
CN116501843A (zh) * 2023-02-21 2023-07-28 清华大学 一种面向人类偏好的高效网络检索增强回答方法及系统
CN116501960A (zh) * 2023-04-18 2023-07-28 百度在线网络技术(北京)有限公司 内容检索方法、装置、设备及介质
CN116775906A (zh) * 2023-06-29 2023-09-19 中科云谷科技有限公司 知识图谱的构建方法、系统、计算机设备和存储介质
CN117113937A (zh) * 2023-08-16 2023-11-24 浙江大学 一种基于大规模语言模型的电力领域阅读理解方法和系统
CN117009490A (zh) * 2023-08-31 2023-11-07 之江实验室 基于知识库反馈的生成式大语言模型的训练方法和装置
CN117171322A (zh) * 2023-09-14 2023-12-05 华东师范大学 一种基于大型语言模型的智能教育聊天机器人训练方法
CN117290477A (zh) * 2023-09-19 2023-12-26 山东浪潮成方数字服务有限公司 一种基于二次检索增强的生成式建筑知识问答方法
CN117033608A (zh) * 2023-09-28 2023-11-10 中国电子科技集团公司第十研究所 一种基于大语言模型的知识图谱生成式问答方法及系统
CN117112806A (zh) * 2023-10-12 2023-11-24 北京大学深圳研究生院 一种基于知识图谱的信息结构化方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions;Lei Huang et al;Computation and Language (cs.CL);20231130;第1-49页 *

Also Published As

Publication number Publication date
CN117540811A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和系统
US20230229677A9 (en) Artificial intelligence-based property data linking system
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
EP3958145A1 (en) Method and apparatus for semantic retrieval, device and storage medium
CN117540811B (zh) 一种解决大型语言模型幻觉问题的系统和方法
US20150026556A1 (en) Systems and Methods for Extracting Table Information from Documents
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
CN107220274B (zh) 一种可视化数据接口集市实现方法
CN104216913A (zh) 问题回答框架
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
WO2024182039A1 (en) Natural language database generation and query system
CN111506621A (zh) 一种数据统计方法及装置
KR20220123187A (ko) 다중 시스템 기반 지능형 질의 응답 방법, 장치와 기기
CN111309930A (zh) 一种基于表示学习的医学知识图谱实体对齐方法
CN114090760B (zh) 表格问答的数据处理方法、电子设备及可读存储介质
CN116414961A (zh) 基于军事领域知识图谱的问答方法和系统
CN117609468A (zh) 生成检索语句的方法及装置
CN117891826A (zh) 一种基于12345数据的垂直领域大模型构建方法及装置
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN110990527A (zh) 自动问答方法及装置、存储介质及电子设备
CN116861881A (zh) 数据处理方法、装置、设备及介质
CN116127047A (zh) 企业信息库的建立方法与装置
Hovy et al. Data Acquisition and Integration in the DGRC's Energy Data Collection Project
CN113297848B (zh) 信息处理方法、装置、设备和存储介质
CN117807176B (zh) 一种基于二维网格化的知识库索引构建方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant