CN117332852A

CN117332852A - 基于知识图谱的大模型训练部署方法及系统

Info

Publication number: CN117332852A
Application number: CN202311190115.7A
Authority: CN
Inventors: 张晨; 周研; 吴菁; 葛子昂
Original assignee: Zhejiang Create Link Technology Co ltd
Current assignee: Zhejiang Create Link Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-01-02

Abstract

本发明公开了一种基于知识图谱的大模型训练部署方法及系统，所述方法包括：基于外网数据构建领域知识图谱；将所述领域知识图谱带入内网中，并存储在内网中的知识库中；基于内网数据生成内部知识图谱；使用知识融合技术将所述内部知识图谱和来自外网的领域知识图谱进行合并融合，形成一个完整且一致的聚合后的应用知识图谱；在部署应用时，将聚合后的所述应用知识图谱作为大语言模型的外部知识库；其效果是：通过将内部知识图谱与来自外网的领域知识图谱合并，增加内网中的数据集的多样性和丰富性，提高模型的性能和质量；能够通过使用聚合后的知识图谱为大模型提供外部知识库，增强大模型的创新性和灵活性，拓展大模型的应用范围和功能。

Description

基于知识图谱的大模型训练部署方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及一种基于知识图谱的大模型训练部署方法及系统。

背景技术

大语言模型(LLM)是基于深度学习的人工智能模型，它能够处理和理解自然语言文本，并且能够生成连贯的自然语言响应。大语言模型通常包括一个编码器和一个解码器，编码器负责将输入的文本转换为一个向量表示，解码器负责根据向量表示生成输出的文本。大语言模型可以通过在大规模的文本数据上进行预训练和微调来提高其性能和适应性。

现有技术中，大语言模型的部署和训练通常需要依赖外网的数据和计算资源。在企业内网场景下，这会带来一些问题，例如：

外网数据可能不符合企业的需求场景，导致模型在业务场景中的适应性不足；例如，外网数据可能包含了与企业无关的领域、话题、风格等信息，而缺乏了企业特有的或重要的领域、话题、风格等信息；

外网数据可能存在安全和隐私风险，影响模型的可信度和可靠性；例如，外网数据可能被恶意篡改或泄露，导致模型学习到错误或敏感的信息；

外网的计算资源通常比较昂贵，长期使用会带来极高的开销；例如，外网的云计算平台或者服务器通常需要按照使用时间或者使用量收费，而大语言模型的训练通常需要消耗大量的时间和资源。

现有技术中，为了解决上述问题，一种常见的方法是在内网中构建自己的数据集和计算资源，然后在内网中部署和训练大模型。然而，这种方法也存在一些问题，例如：

1.内网中的数据集和计算资源可能不足以支持大语言模型的训练，导致模型的性能和质量不高；例如，内网中的数据集可能规模较小、质量较低、覆盖范围较窄等，而内网中的计算资源可能配置较低、数量较少、分布较散等；

2.内网中的数据集可能难以更新和维护，且内网中的计算资源可能不足以支持频繁地重新训练，导致模型的时效性和稳定性不强；例如，内网中的数据集可能难以及时获取最新的信息或者反馈用户的需求变化等，而内网中的计算资源可能难以快速调整或者扩充等；

3.内网中的数据集可能缺乏多样性，导致模型的创新性和灵活性不大；例如，内网中的数据集可能只涉及到企业内部或者特定领域的信息，而忽略了其他领域或者跨领域的信息；

4.内网训练的方法需要在企业内网中配置足够的硬件资源和软件环境，这可能会增加成本、时间和复杂度；同时，内网训练的模型可能无法利用外网的海量数据和知识，导致模型泛化能力不足。

知识图谱是一种用于表示和组织信息的图结构，它可以帮助计算机理解世界中的概念、事实和规则。

因此，将知识图谱与大语言模型相结合，在企业内网场景下如何充分利用外网数据和计算资源，并保证内网需求场景、安全性、效率和模型效果，是当前亟需解决的问题。

发明内容

针对背景技术中所提及的技术缺陷，本发明实施例的目的在于提供一种基于知识图谱的大模型训练部署方法及系统。

为实现上述目的，第一方面，本发明实施例提供了一种基于知识图谱的大模型训练部署方法，所述方法包括：

基于外网数据构建领域知识图谱；

将所述领域知识图谱带入内网中，并存储在内网中的知识库中；

基于内网数据生成内部知识图谱；

使用知识融合技术将所述内部知识图谱和来自外网的领域知识图谱进行合并融合，形成一个完整且一致的聚合后的应用知识图谱；

在部署应用时，将聚合后的所述应用知识图谱作为大语言模型的外部知识库，使所述大语言模型能够在处理和生成自然语言文本时，动态地从所述应用知识图谱中获取和利用存在关联的知识，以提升输出文本的质量和准确性。

作为本申请的一种优选实现方式，所述方法还包括：

在内网中，选择一个预训练好的大语言模型，然后，使用所述领域知识图谱结合内网数据生成训练数据，对所述大语言模型进行微调。

作为本申请的一种具体实现方式，使用所述领域知识图谱结合内网数据生成训练数据，包括以下步骤：

使用查询方法从所述领域知识图谱中检索出与内网数据相关的实体、属性和关系；

使用模板方法或生成方法根据检索出的实体、属性和关系生成训练样本；

使用格式化方法将训练样本转换为所述大语言模型所需的输入输出格式。

作为本申请的一种优选实现方式，在使用微调好的大语言模型进行各种应用时，包括以下几个子步骤：

根据应用需求，从内网数据或用户输入中获取输入文本；

使用编码器将输入文本转换为向量表示；

使用解码器根据向量表示生成输出文本；

根据应用需求，将输出文本转换为可读可展示的格式，并返回给用户或存储在内网中。

第二方面，本发明实施例还提供了一种基于知识图谱的大模型训练部署系统，包括：

第一构建模块，用于基于外网数据构建领域知识图谱；

传输模块，用于将所述领域知识图谱带入内网中，并存储在内网中的知识库中；

第二构建模块，用于基于内网数据生成内部知识图谱；

融合模块，用于使用知识融合技术将所述内部知识图谱和来自外网的领域知识图谱进行合并融合，形成一个完整且一致的聚合后的应用知识图谱；

训练模块，用于在内网中，选择一个预训练好的大语言模型，然后，使用所述领域知识图谱结合内网数据生成训练数据，对所述大语言模型进行微调；

部署模块，用于在部署应用时，将聚合后的所述应用知识图谱作为所述大语言模型的外部知识库，使所述大语言模型能够在处理和生成自然语言文本时，动态地从所述应用知识图谱中获取和利用存在关联的知识，以提升输出文本的质量和准确性。

第三方面，本发明实施例还提供了另一种基于知识图谱的大模型训练部署系统，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如上述第一方面所述的方法步骤。

本发明实施例提供的一种基于知识图谱的大模型训练部署方法及系统，具有如下优点：

通过提前在外网中构建领域知识图谱，从外网中获取和抽取与企业需求场景相关的数据，并将其转化为可用的知识，并带入内网中，减少内网中的数据集的规模和复杂度，降低了模型部署和训练的难度和风险；同时，不需要将内网数据传输到外网中，能够有效地保证数据安全；

通过在内网中生成内部知识图谱，并与来自外网的知识图谱合并，增加内网中的数据集的多样性和丰富性，提高模型的性能和质量；

在内网使用知识图谱结合内网数据对大模型进行微调，能够有效地适应内网的数据分布和应用场景，提高模型的准确性和效率；

能够通过使用聚合后的知识图谱为大模型提供外部知识库，增强大模型的创新性和灵活性，拓展大模型的应用范围和功能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种基于知识图谱的大模型训练部署方法的流程图；

图2是图1的另一流程图；

图3是本发明实施例提供的一种对大语言模型进行微调的应用过程示意图；

图4是本发明实施例提供的一种基于知识图谱的大模型训练部署系统的结构图；

图5是图4所示系统的另一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本实施例中，大模型与大语言模型的含义相同，如BERT、GPT或Transformer等。

知识库技术是一种将结构化和半结构化的知识数据组织和管理的方法和工具。它旨在收集、存储，整合和检索大量的知识，以便在需要时能够方便地获取和利用。

该项技术广泛应用于各个领域，如智能问答系统、语义搜索引擎、专家系统、机器翻译等。

请参考图1及图2，本发明实施例提供的一种基于知识图谱的大模型训练部署方法，所述方法包括：

S101，基于外网数据构建领域知识图谱。

具体地，在外网中，提前准备和抽取知识语料，构建出领域知识图谱。该步骤主要是利用外网中已有的结构化或者半结构化的数据源，以及一些开放领域的知识图谱，根据企业需求场景选择相关的领域和主题，使用知识抽取技术从这些数据源中抽取出实体、属性和关系，并将其组织成领域知识图谱。例如，如果企业需求场景是电商领域，那么可以从这些数据源中抽取出商品、品牌、类别、评价等实体，以及它们之间的属性和关系。

即，在外网中，根据目标领域选择和抽取相关的知识语料，如法律法规、技术文档等。然后，使用知识图谱构建方法对知识语料进行处理，生成所述领域知识图谱。

S102，将所述领域知识图谱带入内网中，并存储在内网中的知识库中。

将领域知识图谱以某种形式(如文件、压缩包)传输到内网中，并存储在内网中专门为知识图谱设计的知识库中；传输过程可以使用加密、压缩等技术保证数据的安全性和完整性；该知识库可以使用一些图数据库技术，来存储和管理知识图谱。

S103，基于内网数据生成内部知识图谱。

具体实现时，在内网中，对内网数据进行抽取，生成内部知识图谱；该步骤主要是利用内网中已有或者新产生的非结构化或者半结构化的数据源，如企业文档、报告、日志等，使用知识抽取技术从这些数据源中抽取出实体、属性和关系，并将其组织成内部知识图谱；其中，所述知识抽取技术主要包括实体识别、属性抽取和关系抽取。

S104，使用知识融合技术将所述内部知识图谱和来自外网的领域知识图谱进行合并融合，形成一个完整且一致的聚合后的应用知识图谱。

具体实现时，使用知识融合技术将内部知识图谱和来自外网的领域知识图谱进行合并，消除冗余和歧义，并形成一个完整且一致的聚合后的应用知识图谱。

S105，在部署应用时，将聚合后的所述应用知识图谱作为大语言模型的外部知识库，使所述大语言模型能够在处理和生成自然语言文本时，动态地从所述应用知识图谱中获取和利用存在关联的知识，以提升输出文本的质量和准确性。

具体实现时，该步骤主要是利用一些知识推理技术，如逻辑推理、图神经网络等，将聚合后的知识图谱作为大语言模型的外部知识库，使大语言模型能够在处理和生成自然语言文本时，动态地从知识图谱中获取和利用相关具有关联的知识。例如，如果大语言模型要生成一个关于电商领域的文本，那么它可以从知识图谱中获取和利用商品、品牌、类别、评价等相关的知识，从而提高文本的质量和准确性。

上述方案，具有如下优点：

进一步地，在另一实施例中，为实现在不增加硬件资源和软件环境的复杂度的情况下，在内网中快速有效地对大语言模型进行微调，从而提高整体应用的性能和价值，提升大模型的学习效果和速度。

参照图3，所述方法还包括：

具体实现时，选择一个预训练好的大模型，如BERT、GPT或Transformer等；然后，使用知识图谱结合内网数据生成训练数据，对大模型进行微调；微调是一种迁移学习方法，能够利用预训练模型的参数和结构，在新的数据集上进行快速和有效的学习，微调过程可以根据不同的任务进行针对性的设置；

本实施例中，使用知识图谱结合内网数据生成训练数据的方法包括以下步骤：

使用查询方法从知识图谱中检索出与内网数据相关的实体、属性和关系；

使用模板方法或生成方法根据检索出的实体、属性和关系生成训练样本；如问答对、对话对、摘要对等；

使用格式化方法将训练样本转换为大模型所需的输入输出格式；如文本序列、张量等。

通过以领域知识图谱为媒介，实现内网数据和外网数据的融合。领域知识图谱是一种由实体、属性和关系组成的结构化数据，能够表示领域内的概念、事实和规则。领域知识图谱可以作为一种高效且安全的方式，在不泄露原始文本内容的情况下，将外网数据和知识转化为可用于内网训练的语料。

通过在外网构建领域知识图谱，能够有效地利用外网的海量数据和知识，提高内网训练的数据质量和知识量，从而提高模型的泛化能力和鲁棒性。领域知识图谱能够以结构化和抽象化的方式表示领域内的核心信息，能够减少冗余和噪声，增加丰富和深度。

在内网使用知识图谱结合内网数据对大模型进行微调，能够有效地适应内网的数据分布和应用场景，提高模型的准确性和效率，从而提高整体应用的性能和价值。知识图谱结合内网数据能够生成高质量和高相关性的训练样本，能够提升大模型的学习效果和速度。微调方法能够充分利用预训练模型的参数和结构，能够减少训练时间和资源消耗。

通过在外网构建领域知识图谱，并将其作为语料带入内网中，本方案不需要将内网数据传输到外网中，能够有效地保证数据安全和模型效果，避免数据泄露、安全风险或法律问题，从而保护用户的隐私和权益。领域知识图谱能够对原始文本内容进行加密和压缩，能够防止数据被窃取或篡改。传输过程也可以使用加密、压缩等技术保证数据的安全性和完整性。

进一步地，在内网中，使用微调好的大模型进行各种应用，如文本生成、文本分类、文本摘要、文本翻译、文本问答等。这些应用可以根据不同的场景设置不同的输入输出格式和交互方式。使用微调好的大模型进行各种应用时，包括以下步骤：

根据应用需求，从内网数据或用户输入中获取输入文本；

使用编码器将输入文本转换为向量表示；

使用解码器根据向量表示生成输出文本；

基于相同的发明构思，本发明实施例提供了一种基于知识图谱的大模型训练部署系统，如图4所示，该系统包括：

第一构建模块，用于基于外网数据构建领域知识图谱；

第二构建模块，用于基于内网数据生成内部知识图谱；

具体地，所述第一构建模块具体用于：

利用外网中已有的结构化或者半结构化的数据源，以及一些开放领域的知识图谱；

根据企业需求场景选择相关的领域和主题，使用知识抽取技术从这些数据源中抽取出实体、属性和关系，并将其组织成领域知识图谱。

其中，使用所述领域知识图谱结合内网数据生成训练数据，包括以下步骤：

进一步地，使用微调好的大语言模型进行各种应用时，包括以下几个子步骤：

根据应用需求，从内网数据或用户输入中获取输入文本；

使用编码器将输入文本转换为向量表示；

使用解码器根据向量表示生成输出文本；

可选地，作为本发明的另一优选实施方式，如图5示，一种基于知识图谱的大模型训练部署系统还可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行如前述方法实施例所描述的方法步骤。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于知识图谱的大模型训练部署方法的实施例中所描述的实现方式，在此不再赘述。

前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于知识图谱的大模型训练部署方法，其特征在于，所述方法包括：

基于外网数据构建领域知识图谱；

基于内网数据生成内部知识图谱；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，使用所述领域知识图谱结合内网数据生成训练数据，包括以下步骤：

4.如权利要求3所述的方法，其特征在于，在使用微调好的大语言模型进行各种应用时，包括以下几个子步骤：

根据应用需求，从内网数据或用户输入中获取输入文本；

使用编码器将输入文本转换为向量表示；

使用解码器根据向量表示生成输出文本；

5.一种基于知识图谱的大模型训练部署系统，其特征在于，包括：

第一构建模块，用于基于外网数据构建领域知识图谱；

第二构建模块，用于基于内网数据生成内部知识图谱；

6.如权利要求5所述的系统，其特征在于，所述第一构建模块具体用于：

7.如权利要求5所述的系统，其特征在于，使用所述领域知识图谱结合内网数据生成训练数据，包括以下步骤：

8.如权利要求7所述的系统，其特征在于，使用微调好的大语言模型进行各种应用时，包括以下几个子步骤：

根据应用需求，从内网数据或用户输入中获取输入文本；

使用编码器将输入文本转换为向量表示；

使用解码器根据向量表示生成输出文本；

9.一种基于知识图谱的大模型训练部署系统，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-4任一项所述的方法步骤。