CN117609470A - 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 - Google Patents

基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 Download PDF

Info

Publication number
CN117609470A
CN117609470A CN202311681686.0A CN202311681686A CN117609470A CN 117609470 A CN117609470 A CN 117609470A CN 202311681686 A CN202311681686 A CN 202311681686A CN 117609470 A CN117609470 A CN 117609470A
Authority
CN
China
Prior art keywords
model
data
database
graph
fine tuning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311681686.0A
Other languages
English (en)
Inventor
何牧
李一丁
覃万里
田秋雨
唐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Nanjing Information High Speed Railway Research Institute
Original Assignee
Zhongke Nanjing Information High Speed Railway Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Nanjing Information High Speed Railway Research Institute filed Critical Zhongke Nanjing Information High Speed Railway Research Institute
Priority to CN202311681686.0A priority Critical patent/CN117609470A/zh
Publication of CN117609470A publication Critical patent/CN117609470A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台,解决了传统模型在处理离散变量时可能忽略的重要信息问题,从而实现了更准确和全面的数据分析。利用自然语言处理将用户查询转换为数据库命令,结合结构化和非结构化数据生成的知识图谱,提高了数据查询的效率和准确性。本发明通过langchain技术连接大型语言模型与图数据库,在数据处理和查询的速度、灵活性及扩展性方面具有显著优势,能够有效地处理大规模数据集,满足日益增长的数据需求。总体而言,本发明在提高数据处理效率、用户交互友好性、以及处理复杂数据关系和大量非结构化数据方面带来的改进,为现代数据密集型应用环境提供了强大的支持。

Description

基于大语言模型和知识图谱的问答系统、其构建方法及智能 化数据治理平台
技术领域
本发明涉及大语言模型技术领域,尤其涉及一种基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台。
背景技术
在数据治理领域,现有技术主要围绕传统的数据库管理系统和初步的自然语言处理应用展开。这些技术各自在特定领域显示了优势,但也存在明显的局限。传统数据库管理系统,如MySQL和Oracle,构建在关系数据库管理系统(RDBMS)的基础之上。它们利用表格来组织数据,并通过标准的SQL语言进行数据的查询和操作。这些系统的核心在于它们的数据索引能力和复杂的事务管理机制,旨在维护数据的一致性和完整性。尽管这些系统在数据管理和查询效率方面表现出色,但它们主要处理结构化数据,在处理非结构化数据时能力有限。
随着人工智能和机器学习技术的发展,自然语言处理(NLP)开始被引入数据治理领域。这些技术通过训练大型语言模型,如BERT或GPT系列,来理解和响应自然语言查询,目标是将自然语言指令转换为数据库查询。这种方法在一定程度上简化了用户与数据库的交互,特别是对于非技术用户而言。这些技术在理解用户查询和改善交互体验方面取得了进步,它们在处理复杂的查询和保证数据安全性及隐私方面仍然面临挑战。此外,知识图谱技术通过将数据以图形的方式组织起来,提供了一种直观的视图来理解和分析数据间的复杂关系。尽管自然语言处理和知识图谱技术为数据治理带来了新的可能性,但现有方法在处理大量复合类型数据时仍然效率不高,且在实际系统中的整合应用存在诸多挑战。
尽管传统的数据库管理系统在结构化数据处理方面效率较高,但它们在处理大量非结构化数据时面临着显著的挑战。这些系统通常不具备处理自然语言查询和非结构化文本的能力,导致在实际应用中效率低下。同时,这些系统往往需要专业的SQL知识,无法有效转换复杂查询的问题,从而影响用户体验和交互效率,增加了非技术用户的使用难度。此外,虽然如GPT和BERT这样的大型语言模型在理解和生成自然语言方面展现出巨大潜力,但它们作为闭源模型,在数据安全方面带来了显著的挑战。这些闭源模型的黑盒特性使得用户难以了解和控制数据处理的具体细节,尤其在处理敏感信息时,难以确保数据的安全性和隐私性。另一方面,知识图谱的生成涉及数据提取、分类和关系建模,因此构建知识图谱的成本较高且大规模知识图谱的整合查询也面临挑战。现有技术在整合自然语言处理、知识图谱生成和数据治理方面存在缺陷,大多数现有系统只专注于其中一个或两个方面,缺乏一个综合性的解决方案,可以同时处理结构化和非结构化数据,并且提供高效的用户交互和数据安全保障。
发明内容
发明目的:提出一种基于大语言模型和知识图谱的问答系统,并进一步提出该问答系统的构建方法,以及基于上述问答系统和构建方法所做出的智能化数据治理平台,以解决现有技术存在的上述问题。
第一方面,提出一种基于大语言模型和知识图谱的问答系统,该系统包括用户数据库、大语言模型、图数据库。大语言模型通过第一相互访问通道连接所述用户数据库;大语言模型通过第二相互访问通道连接图数据库,生成知识图谱,将数据转化为图形表示。用户发起生成/调用/查询请求,由所述大语言模型访问用户数据库和图数据库,得到答案后输出给用户。
本发明的第二个方面,提出一种第一方面所公开的基于大语言模型和知识图谱的问答系统的具体构建方法,步骤如下:
选取LLaMA-2作为原始模型;
选取微调数据集,利用所述微调数据集对所述原始模型进行微调,得到微调模型;
针对所述微调模型,选取优化策略进行优化,得到优化模型;
针对所述优化模型进行效果评估,若评估结果符合预期,则输出最终模型;
将所述最终模型通过第一相互访问通道连接用户数据库,通过第二相互访问通道连接图数据库;
在使用时,用户发起生成/调用/查询请求,由所述最终模型访问用户数据库和图数据库,得到答案后输出给用户。
在第二方面进一步的实施例中,所述微调数据集包括CSpider数据集和Chase数据集;
所述Chase数据集包括若干问题序列,涵盖若干数据库,每个所述问题序列都有若干语义注释;所述语义注释包括SQL查询、上下文依赖和架构链接;
利用所述微调数据集,对所述原始模型中的线性变化层进行Lora微调:引入低秩矩阵修改所述原始模型的权重,通过对每个线性变换W添加两个低秩矩阵A和B来实现。
在第二方面进一步的实施例中,所述Lora微调进一步包括:
设原始模型中的线性变换层的权重矩阵为W∈Rd×k,其中d和k分别代表输入和输出的维度;
通过添加两个低秩矩阵A∈Rd×r和B∈Rr×k来修改W,其中,r<<min(d,k);
经过Lora微调后的线性变换表示为:
W′=W+δ(AB)
式中,δ是一个可学习的缩放因子,用于调节低秩更新的影响力度;AB表示低秩更新;
在实际应用中,仅训练A、B和δ,而原始的权重矩阵W保持不变。本发明中,缩放因子δ取0.01有助于确保在训练初期,低秩更新对原始权重矩阵的影响较小,从而使得模型的微调更加平稳。
在第二方面进一步的实施例中,所述选取优化策略进行优化,包括:
利用交叉熵损失衡量所述微调模型生成的SQL序列与真实SQL序列之间的差异,所述交叉熵损失函数表达式如下:
式中,N是样本的数量;C是类别数量;yic是第i个样本的第c个类别的真实标签;pic是模型预测第i个样本的第c个类别的概率。
在第二方面进一步的实施例中,选取优化策略进行优化之后,还包括对输出的模型进行二次微调:
利用L2正则化参数,通过向所述交叉损失函数添加权重参数的平方之和,从而对所述交叉熵损失函数进行优化;L2正则化公式如下:
式中,L(θ)是原始损失函数;λ是正则化系数;θ表示模型参数;
式中,y是真实标签的独热编码;p是模型预测的概率;θ表示模型的权重参数;λ是正则化系数;N是样本数量,C是类别数量;
二次微调后的模型则为优化模型。
在第二方面进一步的实施例中,所述最终模型通过第一相互访问通道连接用户数据库,通过第二相互访问通道连接图数据库;
其中,所述第一相互访问通道为Langchain;所述第二相互访问通道在Langchain的基础之上,融合GraphQAChain;
利用图数据库技术,构建和存储知识图谱,所述知识图谱表示数据之间的关系和结构;GraphQAChain解析用户的查询,并将查询结果映射到图数据库中的相应实体和关系上;利用机器学习算法从图谱中提取相关信息,生成回答。
作为本发明的第三个方面,提出一种智能化数据治理平台,该智能化数据治理平台除了包括如第一方面所公开的基于大语言模型和知识图谱的问答系统之外,还包括结构化数据库交互模块、图数据库交互模块、自然语言查询模块三个组成部分。结构化数据库交互模块用于在数据库中提取文本数据,并将所述文本数据转化为结构化数据。图数据库交互模块针对所述结构化数据和文本数据,利用大语言模型生成不同的知识图谱。自然语言查询模块对所述结构化数据进行查询,对已经生成的所述知识图谱执行信息检索任务。
对于结构化数据,通过大语言模型进行语义识别,然后利用图数据库生成知识图谱;对于文本数据,大语言模型将长文本分类为三元组,然后用于在图数据库中创建全面的知识图谱。
有益效果:本发明在数据治理领域相比现有技术提供了显著的优势。首先,通过采用机器学习技术,尤其是微调过的大型语言模型如LLaMA-2,本平台能够综合考虑多种复杂特征和用户行为模式,解决了传统模型在处理离散变量时可能忽略的重要信息问题,从而实现了更准确和全面的数据分析。其次,利用自然语言处理将用户查询转换为数据库命令,结合结构化和非结构化数据生成的知识图谱,本发明不仅提高了数据查询的效率和准确性,还显著改善了用户体验,特别是对于非技术用户而言。最后,本发明通过langchain技术连接大型语言模型与图数据库(如Neo4j、JanusGraph、Nebula Graph),在数据处理和查询的速度、灵活性及扩展性方面具有显著优势,能够有效地处理大规模数据集,满足日益增长的数据需求,特别适用于需要快速响应和深入洞察的商业环境。总体而言,本发明在提高数据处理效率、用户交互友好性、以及处理复杂数据关系和大量非结构化数据方面带来的改进,为现代数据密集型应用环境提供了强大的支持。
附图说明
图1是本发明大语言模型与数据库的整体框架图。
图2是增加L2正则化前后进行对比图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
实施例1:
本实施例公开一种基于大语言模型和知识图谱的智能化数据治理平台,主要分为如下模块:结构化数据库交互模块,图数据库交互模块,自然语言查询模块,问答系统。每个模块都旨在利用大型语言模型的自然语言理解能力。
结构化数据库交互模块:该模块利用大语言模型的文本处理能力,将自然语言解释和翻译为SQL等结构化查询语言,从而实现“text2sql”功能。此功能有助于将数据写入数据库。此外,该模块采用大语言模型来并发查询数据库内的多个表,从而提高了用户与数据库的交互效率。
图数据库交互模块:该模块针对结构化数据、文本数据等常见数据类型,利用大语言模型进行不同的知识图谱生成。对于结构化数据,通过大语言模型进行语义识别,然后利用图数据库生成知识图谱。对于文本数据,大语言模型将长文本分类为三元组,然后用于在图数据库中创建全面的知识图谱。
自然语言查询模块:除了对数据库中原先的结构化数据进行查询外,该平台通过大型语言模型对已生成的知识图谱执行信息检索任务,以实现用户与数据库之间的高效交互。它允许用户以自然语言形式提出查询,然后模块利用大型语言模型的语义理解能力,将这些查询转换为能够在知识图谱中精准检索所需信息的命令。这不仅提高了查询的精确性,也显著优化了用户体验,使得数据库的使用更加直观和便捷。
问答系统包括用户数据库、大语言模型、图数据库。大语言模型通过第一相互访问通道连接所述用户数据库;大语言模型通过第二相互访问通道连接图数据库,生成知识图谱,将数据转化为图形表示。用户发起生成/调用/查询请求,由所述大语言模型访问用户数据库和图数据库,得到答案后输出给用户。
实施例2:
本实施例进一步公开上述问答系统的构建的细节:选取LLaMA-2作为原始模型;选取微调数据集,利用所述微调数据集对所述原始模型进行微调,得到微调模型;针对所述微调模型,选取优化策略进行优化,得到优化模型;针对所述优化模型进行效果评估,若评估结果符合预期,则输出最终模型;将所述最终模型通过第一相互访问通道连接用户数据库,通过第二相互访问通道连接图数据库;在使用时,用户发起生成/调用/查询请求,由所述最终模型访问用户数据库和图数据库,得到答案后输出给用户。
为了更好的使用效果,在双微调过程中本发明先采用了两个不同数据集微调,分别为CSpider和Chase数据集。其中CSpider是Spider数据集的中文翻译版本。Spider数据集是由耶鲁大学(Yale University)的计算机科学系和Salesforce Research共同发布,是一个用于评估自然语言到SQL翻译系统的大规模、跨数据库基准测试。它包含超过200个独立的数据库和超过10,000个用自然语言提出的查询问题及其对应的SQL查询,涵盖了从简单到高度复杂的多种查询类型。这些问题不仅包括基本的数据库操作,还涉及多表连接、嵌套查询、聚合和排序等高级SQL功能。Spider的设计注重测试模型在不同数据库结构和领域的适应性,以及自然语言理解和SQL生成的准确性。
为了更好地适应中文的使用环境,我们又选用了Chase数据集合进行二次微调。该数据集是由西安交通大学智能软件工程实验室和微软亚洲研究院联合发布,专门用于跨数据库上下文依赖的文本到SQL问题,目前是这一领域最大的中文数据集。该数据集包含5,459个问题序列,覆盖280个数据库,每个问题都有丰富的语义注释,包括SQL查询、上下文依赖和架构链接。
利用所述微调数据集,对所述原始模型中的线性变化层进行Lora微调。
Lora微调主要针对大型语言模型中的线性变换层,例如Transformer模型中的自注意力层和前馈神经网络层。其关键是引入低秩矩阵来修改模型的权重,而不是直接训练整个权重矩阵。具体来说,Lora微调通过对每个线性变换W添加两个低秩矩阵A和B来实现,其大致原理如下:
设原始的线性变换层的权重矩阵为W∈Rd×k其中d和k分别代表输入和输出的维度。Lora微调通过添加两个低秩矩阵A∈Rd×r和B∈Rr×k来修改W。其中,r是远小于d和k的秩(rank),通常r<<min(d,k)。因此,经过Lora微调后的线性变换表示为:
W′=W+δ(AB)
式中,δ是一个可学习的缩放因子,用于调节低秩更新的影响力度;AB表示低秩更新。
在实际应用中,仅需训练A、B和δ而原始的权重矩阵W保持不变。这样可以显著减少模型训练时所需调整的参数数量,同时保持了模型原有的强大能力。通过这种方式,Lora微调为大型语言模型提供了一种既高效又有效的参数更新机制,特别适用于大规模预训练模型的微调。
LLaMA-2作为一款开源大型语言模型,在多方面展现了相较于其他模型的显著优势。其出色的性能体现在对各类自然语言处理任务的高效处理能力上,例如文本理解、生成、摘要和翻译等。LLaMA-2的设计不仅灵活适应多种数据集和应用场景,而且在资源管理上表现高效,即便在资源受限和数据敏感的环境下也能提供良好性能。此外,作为最先进的开源大语言模型之一,LLaMA-2有着大量不同的开源版本,可以适应不同需求的工作场景,这也为不同用户提供了良好的适应性,只需在应对不同需求时选用不同版本的已知模型进行更换即可将平台提供给不同的用户。例如针对英文用户可使用LLaMA-2-vicuna版本进行替换。
而在本发明中考虑到语言以及模型平衡性需求,本发明选用了chinese-alpaca-2-13b的版本。一方面,该版本除了拥有更完善的中文语料库外,13亿参数量也能为模型提供足够的语言处理能力保障。另一方面,在后期维护方面若用户有新增的个性化需求,相对于规模更大的模型(例如拥有70亿参数量的LLaMA-2-70b模型),13亿的参数量在再微调时更加高效,有助于快速更新和部署。同时它运行时所需显存也大幅降低,这使得它在普通的硬件上也能运行,降低了使用的门槛。
优化策略选取:本发明中的lora微调损失函数选取了在翻译工作中常用的交叉熵损失(Cross-Entropy Loss),它可以较好的衡量模型生成的SQL序列与真实SQL序列之间的差异。
交叉熵损失函数表达式如下:
式中,N是样本的数量;C是类别数量;yic是第i个样本的第c个类别的真实标签;pic是模型预测第i个样本的第c个类别的概率。
大语言模型是一种预训练模型,模型已经经过了大量数据的训练,因此原始模型往往已经有着较好的泛化性和实用性。一般来说,模型的微调只需进行一次以达到适应特定工作任务的需求。然而受限于数据集和硬件条件的限制,有时二次微调(即对已微调模型进行再次微调)也是可取的。但二次微调可能导致过拟合,特别是当第二次微调使用的数据集较小或与原始训练数据相差较大时。这种过拟合会使模型过度适应第二次微调数据的特定特征,从而损害其在更广泛数据上的泛化能力。
为了解决这个问题,本发明在二次微调时对算法的损失函数进行了特殊的优化,增加了L2正则化参数。L2正则化通过向损失函数添加权重参数的平方之和来工作,这种方法倾向于使权重分布更均匀和更小,而不是稀疏,有助于防止模型权重过大,从而避免过拟合。L2正则化公式如下:
式中,L(θ)是原始损失函数;λ是正则化系数;θ表示模型参数。因此在本发明中有:
式中,第一部分是多分类问题的交叉熵损失;第二部分是L2正则化项;y是真实标签的独热编码;p是模型预测的概率;θ表示模型的权重参数;λ是正则化系数;N是样本数量,C是类别数量。本发明中正则化系数λ选择1×10-3
通过下图2的学习曲线,我们可以对增加L2正则化前后进行对比。左图为未加入L2正则化学习曲线,右图为加入L2正则化学习曲线。需要说明的是,该学习曲线图非真实情况,仅为根据实验数据抽象的示意图。由图2可知:加入L2正则化前随着训练周期(Epochs)的增加,训练损失(Training Loss)持续下降,表明模型在训练数据上的表现越来越好。然而,验证损失(Validation Loss)在最初下降之后于大约200次训练时开始逐渐上升,这表明模型在新数据或未见过的数据上的表现逐渐变差,这是过拟合的一个典型迹象。加入L2正则化后随着训练周期的增加,训练损失和验证损失都持续下降,并在较低的水平上趋于平稳和接近,说明模型克服了过拟合,有着良好的泛化能力。
模型效果评估:
经过单次微调后大语言模型在验证集中获得了如下(表1)测试结果:
表1:模型验证集准确率表格
easy medium hard extra all
count 248 446 174 166 1034
correct rate 0.790 0.666 0.552 0.301 0.618
经过二次微调后大语言模型在验证集中获得了如下(表2)测试结果:
表2:模型验证集准确率表格
easy medium hard extra all
count 248 446 174 166 1034
correct rate 0.810 0.766 0.660 0.482 0.700
由上表可知,二次微调后的大语言模型在自然语言转换SQL查询语言功能上获得了良好的性能,并且由于所选微调数据集仅仅针对SQL语言,并不影响模型在自然语言上的理解和生成功能。
本发明通过Langchain技术实现了多种图数据库与大语言模型的集成,从而实现了通过自然语言进行图数据库查询和知识图谱生成的功能。以下为所选图数据库及其特征:
①、Neo4j
Neo4j是一个高性能的图形数据库,使用Java语言编写。它以其灵活的“图形模型”而闻名,能够表示复杂的网络结构。Neo4j支持ACID事务(原子性、一致性、隔离性、持久性),允许数据以图的形式存储和检索。它主要用于社交网络、推荐系统、欺诈检测等领域。Neo4j的查询语言是Cypher,专门为图形数据设计,易于学习,且功能强大。
②、JanusGraph
JanusGraph是一个开源的分布式图形数据库,可以支持巨大规模的图形数据。JanusGraph设计用于处理那些包含数十亿个顶点和边的大型图形。它提供了高度的可扩展性和性能,适用于复杂的图形查询和分析。JanusGraph可以与多种存储后端(如Cassandra、HBase、Google Cloud Bigtable)集成,并支持全文检索、地理空间搜索等功能。它的查询语言包括Gremlin和CQL。
③、Nebula Graph
Nebula Graph是一个分布式、可伸缩的图形数据库,旨在提供高并发、低延迟的大规模图形数据处理能力。Nebula Graph具有优异的数据存储和处理性能,适合处理亿级甚至万亿级顶点和边的图形数据。它支持多种复杂的图查询和分析操作,并可以与AI、大数据分析等多种应用场景结合。Nebula Graph使用自己的查询语言nGQL,这是一种类似于SQL的声明式语言。
下表3为三种图数据库的特点对比:
表3:图数据库对比表格
特性 Neo4j JanusGraph Nebula Graph
适用规模 小到中等规模 大规模 超大规模
查询语言 Cypher Gremlin和CQL nGQL
性能 适合复杂查询 高性能,尤其在大数据集 高并发和低延迟,适合超大数据集
社区支持 强大,丰富的资源 活跃的开源社区 正在增长,资源和支持逐步增加
通过表3可知,本发明中的可选图数据库可适应大部分用户需求。
最终模型通过第一相互访问通道连接用户数据库,通过第二相互访问通道连接图数据库;其中,所述第一相互访问通道为Langchain;所述第二相互访问通道在Langchain的基础之上,融合GraphQAChain。
LangChain是一个开发由语言模型驱动的应用程序的框架。是一个封装了大量大语言模型应用开发逻辑和工具集成的开源Python库,提供了标准的模块化组件,集成了不同的大语言模型并将其进行整合,并将它们连接到各种外部数据源。该框架允许自然语言模型(如GPT-3或LLaMA-2)直接与数据库进行交互。Langchain的核心优势在于它提供了一个桥梁,连接了自然语言处理技术与传统的数据库管理系统。通过这种集成,用户可以使用自然语言查询数据库,而无需了解复杂的查询语言如Cypher、SQL。这种能力特别适用于生成复杂的数据库查询,处理高级分析任务,以及构建知识图谱。Langchain的另一个重要特点是其灵活性和扩展性,支持与多种类型的数据库和数据源的连接。这使得Langchain在许多领域中都有广泛的应用,包括但不限于商业智能、数据分析、以及自动化的客户服务。
GraphQAChain是一个创新算法,专门设计用于增强基于图的问答系统。它结合了图数据库技术、自然语言处理和机器学习,以实现从复杂数据集中提取和回答用户查询的功能。GraphQAChain的核心在于将知识图谱与问答算法相结合,使系统能够理解并响应复杂的自然语言查询。在这个框架下,首先利用图数据库技术,构建和存储知识图谱,这些图谱详细地表示了数据之间的关系和结构。然后,GraphQAChain采用先进的自然语言处理模型来解析用户的查询,并将其映射到图数据库中的相应实体和关系上。接着,利用机器学习算法从图谱中提取相关信息,生成准确的回答。
本发明中建立大语言模型与数据库的整体框架如图1所示。集成LLaMA-2模型、用户数据库与Langchain框架,以便模型能够与结构化数据库进行通信以达成数据交互。编写代码以支持LLaMA-2通过Langchain与不同的图数据库连接并执行知识图谱的生成、调用或存储功能。利用LLaMA-2模型和图数据库生成知识图谱,将数据转化为图形表示。集成GraphQAChain,以便用户可以通过向Llama-2提问的方式查询具体的知识图谱。
综上所述,本发明致力于提供一种能够有效的整合自然语言处理和知识图谱生成的数据治理平台,同时保证数据的安全性和隐私。旨在解决现有数据治理技术在处理非结构化数据、提供自然语言支持以及确保数据安全方面的问题。
本发明使用经过二次正则化微调的开源大型语言模型如LLaMA-2,实现自然语言到SQL的转换。利用大型语言模型实现自然语言到SQL语言的转换,本发明极大地优化了数据库的用户交互过程。例如,用户可以通过简单地输入自然语言查询,如“列出所有2023年超过10,000元的销售记录”,系统则自动转换此查询为正确的SQL语句。这种转换机制使得非技术用户无需了解复杂的SQL语法,就能轻松进行数据查询,从而降低了数据查询的技术门槛并提高了用户满意度。同时,自动转换减少了手动编写SQL时可能出现的语法错误和逻辑错误,并且由大语言模型对数据库发出的指令可以进行全局搜索,增加了查询的全面性、准确性和可靠性。此外,这种自动化的查询过程更高效地利用人力资源,并减少了对数据库专家的依赖,从而降低了企业的培训成本。快速准确的数据检索能力还直接支持更高效的数据驱动决策过程,尤其是在需要迅速响应市场变化的商业环境中。总体而言,这项技术在提高用户体验、提升数据处理效率、增加准确性、以及优化企业资源使用等方面带来了显著的有益效果。
本发明以自然语言输入构建知识图谱。本发明的关键创新之一是利用开源大型语言模型,如LLaMA-2,用户可以通过自然语言输入来自动提取数据库中的结构化数据(例如MySQL数据库中的表格)或非结构化的文本数据中的信息构建知识图谱。在处理大段文本数据时进行三元组分类,这种分类方法能够有效地识别和提取数据中的关键实体和它们之间的关系,为知识图谱的创建提供了必要的结构化信息。例如,对于一段产品评论文本,系统能够识别出产品特性、用户感受等关键信息,并将其与产品数据库中的结构化信息相结合。此外,当不同的知识图谱在某些节点上有重叠时,本发明能够将这些图谱融合,形成一个更加全面和连贯的知识网络。这种综合的知识图谱不仅加深了对数据间复杂关系的理解,也为数据分析、决策支持和机器学习提供了丰富的上下文信息。总体而言,这项技术大幅降低了用户构建图谱时进行节点选择的操作难度,降低了知识图谱的构建成本,并且在提升数据可视化、数据分析深度、增强数据洞察的准确性以及提高决策质量方面带来了显著的益处。
本发明通过langchain和GraphQAChain,大语言模型连接了Neo4j等不同的图数据库。Langchain是一个连接大型语言模型与各种数据源的技术框架。而GraphQAChain是一种专注于图数据库中的问答任务的算法。本发明的一个关键创新是应用langchain技术将大型语言模型(如LLaMA-2)与Neo4j等多种常用图数据库相连接,从而实现了一种自然语言输入的方式来生成或调用已生成的知识图谱。并且用户可以通过自然语言直接提问,系统经由GraphQAChain算法基于知识图谱提供精确答案。这一方法的应用不仅大大简化了数据访问和分析的过程,使其更加直接和用户友好,有效降低了图数据库的使用门槛,而且显著提高了数据检索的速度和效率。此外,通过连接不同的图数据库,这种方法提供了高度的灵活性和扩展性,适用于各种数据处理和分析场景,为现代数据密集型应用环境提供了强大的支持。
大语言模型可以基于生成的知识图谱回答用户问题。本发明的另一个关键创新是使用大型语言模型(如LLaMA-2)进行基于知识图谱的问答。这种方法允许用户通过自然语言提出问题,系统则利用生成的知识图谱中提取答案。例如,用户可以询问“杜甫与李白的人际关系是什么?”而系统会分析知识图谱中的数据提取相关信息,以给出准确的回答。这种问答机制的实现显著提升了数据查询的效率和用户体验。对于一个庞大的知识图谱中的多个“低关联度节点”(Low Association Nodes)或者“远距离节点”(Distant Nodes),用户往往无法通过视觉检查立即获取他们的关系。虽然图数据库有对应的查询语言,但对于非技术用户并不友好,而大语言模型可以理解用户自然语言指令快速给出答案,他们无需了解复杂的图数据库查询语言或操作即可获取所需信息。此外,由于系统能够理解和处理复杂的自然语言查询,它提供了更加简洁和灵活的数据访问方式,这对于快速做出基于数据的决策尤为重要。总体而言,该技术在提高信息检索速度、简化用户交互以及加强数据驱动决策支持方面具有显著的优势。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (9)

1.一种基于大语言模型和知识图谱的问答系统,其特征在于,包括:
用户数据库;
大语言模型;所述大语言模型通过第一相互访问通道连接所述用户数据库;所述大语言模型通过第二相互访问通道连接图数据库,生成知识图谱,将数据转化为图形表示;
用户发起生成/调用/查询请求,由所述大语言模型访问用户数据库和图数据库,得到答案后输出给用户。
2.根据权利要求1所述的基于大语言模型和知识图谱的问答系统的构建方法,其特征在于,包括如下步骤:
选取LLaMA-2作为原始模型;
选取微调数据集,利用所述微调数据集对所述原始模型进行微调,得到微调模型;
针对所述微调模型,选取优化策略进行优化,得到优化模型;
针对所述优化模型进行效果评估,若评估结果符合预期,则输出最终模型;
将所述最终模型通过第一相互访问通道连接用户数据库,通过第二相互访问通道连接图数据库;
在使用时,用户发起生成/调用/查询请求,由所述最终模型访问用户数据库和图数据库,得到答案后输出给用户。
3.根据权利要求2所述的基于大语言模型和知识图谱的问答系统的构建方法,其特征在于,所述微调数据集包括CSpider数据集和Chase数据集;
所述Chase数据集包括若干问题序列,涵盖若干数据库,每个所述问题序列都有若干语义注释;所述语义注释包括SQL查询、上下文依赖和架构链接;
利用所述微调数据集,对所述原始模型中的线性变化层进行Lora微调:引入低秩矩阵修改所述原始模型的权重,通过对每个线性变换W添加两个低秩矩阵A和B来实现。
4.根据权利要求3所述的基于大语言模型和知识图谱的问答系统的构建方法,其特征在于,所述Lora微调进一步包括:
设原始模型中的线性变换层的权重矩阵为W∈Rd×k,其中d和k分别代表输入和输出的维度;
通过添加两个低秩矩阵A∈Rd×r和B∈Rr×k来修改W,其中,r<<min(d,k);
经过Lora微调后的线性变换表示为:
W′=W+δ(AB)
式中,δ是一个可学习的缩放因子,用于调节低秩更新的影响力度;AB表示低秩更新;
在实际应用中,仅训练A、B和δ,而原始的权重矩阵W保持不变。
5.根据权利要求2所述的基于大语言模型和知识图谱的问答系统的构建方法,其特征在于,所述选取优化策略进行优化,包括:
利用交叉熵损失衡量所述微调模型生成的SQL序列与真实SQL序列之间的差异,所述交叉熵损失函数表达式如下:
式中,N是样本的数量;C是类别数量;yic是第i个样本的第c个类别的真实标签;pic是模型预测第i个样本的第c个类别的概率。
6.根据权利要求5所述的基于大语言模型和知识图谱的问答系统的构建方法,其特征在于,选取优化策略进行优化之后,还包括对输出的模型进行二次微调:
利用L2正则化参数,通过向所述交叉损失函数添加权重参数的平方之和,从而对所述交叉熵损失函数进行优化;L2正则化公式如下:
式中,L(θ)是原始损失函数;λ是正则化系数;θ表示模型参数;
式中,y是真实标签的独热编码;p是模型预测的概率;θ表示模型的权重参数;λ是正则化系数;N是样本数量,C是类别数量;
二次微调后的模型则为优化模型。
7.根据权利要求2所述的基于大语言模型和知识图谱的问答系统的构建方法,其特征在于,所述最终模型通过第一相互访问通道连接用户数据库,通过第二相互访问通道连接图数据库;
其中,所述第一相互访问通道为Langchain;所述第二相互访问通道在Langchain的基础之上,融合GraphQAChain;
利用图数据库技术,构建和存储知识图谱,所述知识图谱表示数据之间的关系和结构;GraphQAChain解析用户的查询,并将查询结果映射到图数据库中的相应实体和关系上;利用机器学习算法从图谱中提取相关信息,生成回答。
8.一种智能化数据治理平台,其特征在于,包括如权利要求1所述的基于大语言模型和知识图谱的问答系统,还包括:
结构化数据库交互模块;所述结构化数据库交互模块用于在数据库中提取文本数据,并将所述文本数据转化为结构化数据;
图数据库交互模块;所述图数据库交互模块针对所述结构化数据和文本数据,利用大语言模型生成不同的知识图谱;
自然语言查询模块;所述自然语言查询模块对所述结构化数据进行查询,对已经生成的所述知识图谱执行信息检索任务。
9.根据权利要求8所述的智能化数据治理平台,其特征在于:对于结构化数据,通过大语言模型进行语义识别,然后利用图数据库生成知识图谱;
对于文本数据,大语言模型将长文本分类为三元组,然后用于在图数据库中创建全面的知识图谱。
CN202311681686.0A 2023-12-08 2023-12-08 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 Pending CN117609470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311681686.0A CN117609470A (zh) 2023-12-08 2023-12-08 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311681686.0A CN117609470A (zh) 2023-12-08 2023-12-08 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台

Publications (1)

Publication Number Publication Date
CN117609470A true CN117609470A (zh) 2024-02-27

Family

ID=89947978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311681686.0A Pending CN117609470A (zh) 2023-12-08 2023-12-08 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台

Country Status (1)

Country Link
CN (1) CN117609470A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851445A (zh) * 2024-03-08 2024-04-09 浪潮软件科技有限公司 一种大语言模型Text2SQL图表生成方法及装置
CN117874755A (zh) * 2024-03-13 2024-04-12 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法
CN117951314A (zh) * 2024-03-26 2024-04-30 南京众智维信息科技有限公司 一种融合知识图谱与大语言生成模型的生成剧本决策方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019736A (zh) * 2017-12-29 2019-07-16 北京京东尚科信息技术有限公司 基于语言模型的问答匹配方法、系统、设备及存储介质
WO2020224220A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于知识图谱的问答方法、电子装置、设备及存储介质
CN112667799A (zh) * 2021-03-15 2021-04-16 四川大学 一种基于语言模型和实体匹配的医疗问答系统构建方法
CN114817295A (zh) * 2022-04-20 2022-07-29 平安科技(深圳)有限公司 多表Text2sql模型训练方法、系统、装置和介质
CN115238101A (zh) * 2022-09-23 2022-10-25 中国电子科技集团公司第十研究所 一种面向多类型知识库的多引擎智能问答系统
CN116048912A (zh) * 2022-12-20 2023-05-02 中科南京信息高铁研究院 一种基于弱监督学习的云服务器配置异常识别方法
CN116059646A (zh) * 2023-04-06 2023-05-05 深圳尚米网络技术有限公司 一种交互式专家指导系统
CN116737938A (zh) * 2023-07-19 2023-09-12 人民网股份有限公司 基于微调大模型在线数据网络细粒度情感检测方法及装置
CN116821301A (zh) * 2023-06-30 2023-09-29 平安科技(深圳)有限公司 基于知识图谱的问题应答方法、装置、介质及计算机设备
CN117033608A (zh) * 2023-09-28 2023-11-10 中国电子科技集团公司第十研究所 一种基于大语言模型的知识图谱生成式问答方法及系统
CN117033593A (zh) * 2023-08-09 2023-11-10 深圳阿尔法分子科技有限责任公司 一种增强大语言模型问答特定领域问题能力的方法及系统
CN117033641A (zh) * 2023-10-07 2023-11-10 江苏微皓智能科技有限公司 一种大型预训练语言模型的网络结构优化微调方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019736A (zh) * 2017-12-29 2019-07-16 北京京东尚科信息技术有限公司 基于语言模型的问答匹配方法、系统、设备及存储介质
WO2020224220A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 基于知识图谱的问答方法、电子装置、设备及存储介质
CN112667799A (zh) * 2021-03-15 2021-04-16 四川大学 一种基于语言模型和实体匹配的医疗问答系统构建方法
CN114817295A (zh) * 2022-04-20 2022-07-29 平安科技(深圳)有限公司 多表Text2sql模型训练方法、系统、装置和介质
CN115238101A (zh) * 2022-09-23 2022-10-25 中国电子科技集团公司第十研究所 一种面向多类型知识库的多引擎智能问答系统
CN116048912A (zh) * 2022-12-20 2023-05-02 中科南京信息高铁研究院 一种基于弱监督学习的云服务器配置异常识别方法
CN116059646A (zh) * 2023-04-06 2023-05-05 深圳尚米网络技术有限公司 一种交互式专家指导系统
CN116821301A (zh) * 2023-06-30 2023-09-29 平安科技(深圳)有限公司 基于知识图谱的问题应答方法、装置、介质及计算机设备
CN116737938A (zh) * 2023-07-19 2023-09-12 人民网股份有限公司 基于微调大模型在线数据网络细粒度情感检测方法及装置
CN117033593A (zh) * 2023-08-09 2023-11-10 深圳阿尔法分子科技有限责任公司 一种增强大语言模型问答特定领域问题能力的方法及系统
CN117033608A (zh) * 2023-09-28 2023-11-10 中国电子科技集团公司第十研究所 一种基于大语言模型的知识图谱生成式问答方法及系统
CN117033641A (zh) * 2023-10-07 2023-11-10 江苏微皓智能科技有限公司 一种大型预训练语言模型的网络结构优化微调方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱宗奎等: "基于多标签策略的中文知识图谱问答系统研究", 计算机工程, 15 February 2021 (2021-02-15), pages 104 - 109 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851445A (zh) * 2024-03-08 2024-04-09 浪潮软件科技有限公司 一种大语言模型Text2SQL图表生成方法及装置
CN117874755A (zh) * 2024-03-13 2024-04-12 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法
CN117874755B (zh) * 2024-03-13 2024-05-10 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法
CN117951314A (zh) * 2024-03-26 2024-04-30 南京众智维信息科技有限公司 一种融合知识图谱与大语言生成模型的生成剧本决策方法
CN117951314B (zh) * 2024-03-26 2024-06-07 南京众智维信息科技有限公司 一种融合知识图谱与大语言生成模型的生成剧本决策方法

Similar Documents

Publication Publication Date Title
Yu et al. Typesql: Knowledge-based type-aware neural text-to-sql generation
CN117609470A (zh) 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台
US11580147B2 (en) Conversational database analysis
CN109376261B (zh) 基于中级文本语义增强空间的模态独立检索方法和系统
CN113032418B (zh) 一种基于树状模型的复杂自然语言查询转sql方法
WO2021139753A1 (zh) 一种数据库的处理方法和装置
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN115617830A (zh) 一种基于机器学习的数据查询优化处理方法及装置
CN114900346B (zh) 基于知识图谱的网络安全测试方法及系统
Xiong et al. Transferable natural language interface to structured queries aided by adversarial generation
CN115757810A (zh) 一种知识图谱标准本体构建方法
Wang et al. Research on evaluation model of music education informatization system based on machine learning
Zhekova et al. QUESTION PATTERNS FOR NATURAL LANGUAGE TRANSLATION IN SQL QUERIES.
CN114116778A (zh) 一种数据库查询优化方法
CN117349311A (zh) 一种基于改进RetNet的数据库自然语言查询方法
KR20220016641A (ko) 쿼리를 이용한 프레임워크 딥러닝 학습 시스템 및 방법
CN109408592B (zh) 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法
CN114969087A (zh) 基于多视角特征解耦的nl2sql方法和装置
Komendantskaya et al. Proof mining with dependent types
Zhang et al. Research on the construction and realization of data pipeline in machine learning regression prediction
Eldrrat et al. Data Migration from Conventional Databases into NoSQL: Methods and Techniques
Zhou et al. Data mining method based on rough set and fuzzy neural network
Zhao [Retracted] Optimization of Machine Online Translation System Based on Deep Convolution Neural Network Algorithm
KR102605931B1 (ko) 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼
KR102605930B1 (ko) 데이터베이스 상에서 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination