CN116737129A

CN116737129A - 一种供应链控制塔生成式大语言模型及其构建方法

Info

Publication number: CN116737129A
Application number: CN202310989097.2A
Authority: CN
Inventors: 刘忠强; 周阳; 张溪梦; 张金银; 曾云
Original assignee: Hangzhou Bizhi Technology Co ltd
Current assignee: Hangzhou Bizhi Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-09-12
Anticipated expiration: 2043-08-08
Also published as: CN116737129B

Abstract

本发明公开了一种供应链控制塔生成式大语言模型及其构建方法，包括以下步骤：S201.基于企业历史至今各个系统业务数据，训练供应链控制塔模型；S202.基于供应链专家、企业管理团队、企业业务执行者制定用户输入、输出排序规则和预设模板的集合，构建第一训练集；S203.使用第一训练集对预训练好的第一生成式大语言模型进行有监督调节，得到第二生成式大语言模型；S204.基于供应链控制塔模型构建第一验证集；S205.基于第一验证集，使用第二生成式大语言模型进行有监督调节，得到评估模型；S206.将第二生成式大语言模型，基于评估模型返回的得分进行强化学习方式进行训练，得到供应链控制塔生成式大语言模型。

Description

一种供应链控制塔生成式大语言模型及其构建方法

技术领域

本发明涉及计算机和数据处理技术领域, 尤其是生成式模型、供应链模型、智能搜索等人工智能技术领域，具体涉及一种供应链控制塔生成式大语言模型及其构建方法。

背景技术

目前大语言模型简称LLM（Large Language Model），其本质是生成式模型，能够生成类似人类的流畅响应。

供应链控制塔简称SCT（Supplychain Control Tower），通过链接整个供应链数据、关键业务，帮助企业全面掌握供应商、工厂、仓库、门店等组织状态，把控原材料采购、订单、库存、产能、物流等信息，促进供应链交付水平。

监督学习是指数据集的正确输出已知情况下的一类学习算法。因为输入和输出已知，意味着输入和输出之间有一个关系，监督学习算法就是要发现和总结这种“关系”。监督算法常见的有：线性回归、神经网络、决策树、支持向量机、KNN、朴素贝叶斯算法。

数据增强（Data Augmentation），基于有限的数据生成更多等价（同样有效）的数据，丰富训练数据的分布，使通过训练集得到的模型泛化能力更强。常用的方法有随机旋转、平移、替换同义词、添加噪声等。

在实际企业生产中，发现生成式大语言模型的回答有很多与实际不符，并且许多回答背离实际的业务需求，因为公开的生成式模型是无法兼容企业若干年的业务数据积累和最新的企业业务状态。如，对于“现在我司有哪些销售订单的货物已经准备好”、“销售订单A在采购、生产、物流、回款这些流程中走到哪里，并把已完成的详情以图表形式展示给我”，而这些业务知识信息需要依赖企业内部多个业务系统如：ERP、工厂的生产系统、库存的仓储系统、物流运输系统、企业OA审批系统等等，并且要获取历史的业务数据和当前实时的业务数据，才能生成出准确的结果。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种供应链控制塔生成式大语言模型及其构建方法；能够通过生成式大语言模型结合企业历史数据准确回答用户想要了解的最新数据动向和市场趋势等相关内容，实现更加准确的答案输出。

为实现上述目的，本发明提供一种供应链控制塔生成式大语言模型的构建方法，所述方法包括以下步骤：

S201.基于企业历史至今各个系统业务数据，训练供应链控制塔模型；

S202.基于供应链专家、企业管理团队、企业业务执行者制定用户输入、输出排序规则和预设模板的集合，构建第一训练集；

S203.使用第一训练集对预训练好的第一生成式大语言模型进行有监督调节，得到第二生成式大语言模型；

S204.基于供应链控制塔模型构建第一验证集；

S205.基于第一验证集，使用第二生成式大语言模型进行有监督调节，得到评估模型；

S206.将第二生成式大语言模型，基于评估模型返回的得分进行强化学习方式进行训练，得到供应链控制塔生成式大语言模型。

进一步，步骤201具体实现过程如下：

S301.企业进行数据治理，沉淀数据资产；

S302.对企业的业务线进行业务具体执行过程的细分；

S303.构建单业务领域模型和综合业务领域模型；

S304.训练供应链控制塔模型，将所有模型数据通过API方式提供。

进一步，业务线包括原材料采购、订单、库存、产能和/或物流。

进一步，步骤S202具体实现过程如下：

S401.根据预设模板生成样本：使用预设模板集合，结合标注的输入数据，生成训练集的样本，通过填充预设模板中的占位符或根据规则进行文本替换，将输入转换为预期的输出；

S402.扩充训练集：通过引入随机性或修改模板来生成更多的样本；

S403.数据增强：应用数据增强技术扩大训练数据集；

S404.数据向量化：将文本数据转换为模型可以处理的向量表示；

S405.构建输入输出对：将向量化的输入和输出组合成训练集的输入输出对，构建第一训练集。

进一步，数据增强技术包括随机旋转、平移、替换同义词和/或添加噪声。

进一步，步骤S404中使用Word2Vec或BERT预训练的词嵌入模型实现。

进一步，步骤S203包括：

S501.解析输入文本：使用NLP技术或工具解析输入文本，以确定文本所涉及的功能和任务，根据解析结果，确定需要调用的模型子集；

S502.组织模型子集：根据解析结果，选择需要调用的模型子集，将这些模型进行组织和分类，按照功能或任务将模型进行分组，形成一个模型子集；

S503.调用模型子集：根据解析的功能和任务，将输入文本作为输入参数，调用所选模型子集中的模型API；

S504.获取模型子集的输出：对于每个调用的模型子集，获取其输出结果，根据需要对输出进行进一步处理和转换；

进一步，步骤S204包括：

S601.解析输入文本：对收集到的输入文本使用相同的解析方法，提取有用的信息和结构；

S602.历史至今的企业所有业务数据在供应链控制塔模型中；

S603.评估模型输出：使用供应链控制塔模型，针对每个输入文本，使用生成式大语言模型进行推理，获取模型的输出结果，与期望输出或参考答案进行比对，进行评估；

S604.评估指标定义：定义适当的评估指标来衡量；

S605.执行评估并记录结果：将模型的输出与期望输出进行比对，并计算评估指标，记录每个输入文本的模型输出、期望输出和评估指标值，从而构建第一验证集。

另一方面，本发明提供一种供应链控制塔生成式大语言模型，所述模型用于实现根本发明的方法，所述模型包括第一训练集构建单元、有监督调节训练单元、第一验证集构建单元、有监督调节评估单元和强化学习训练单元。

所述第一训练集构建单元、有监督调节训练单元、第一验证集构建单元、有监督调节评估单元和强化学习训练单元形成一个闭环循环：从第一训练集构建，通过有监督调节训练，再到第一验证集构建和有监督调节评估，最终进入强化学习训练；通过反复进行循环，改进和优化所述供应链控制塔生成式大语言模型。

本发明的供应链控制塔生成式大语言模型能够通过生成式大语言模型结合企业历史数据准确回答用户想要了解的最新数据动向和市场趋势等相关内容，实现更加准确的答案输出，帮助企业应对市场的各种变化，确保能即时访问最新的精准信息。

附图说明

图1示出了根据本发明的供应链控制塔生成式大语言模型的系统架构图；

图2示出了根据本发明的训练供应链控制塔生成式大语言模型的流程图；

图3示出了根据本发明的构建供应链控制塔模型流程图；

图4示出了根据本发明的构建第一训练集的流程图；

图5示出了根据本发明的构建第一训练集过程中对供应链控制塔模型的调用和组合过程流程图；

图6示出了根据本发明的构建第一验证集流程图；

图7示出了根据本发明的举例说明从输入开始到最后输出返回结果和推荐结果的流程图；

图8示出了根据本发明的数据交互流程示意图；

图9示出了根据本发明的整体的训练结构示意图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合图1-图9对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，本发明提供一种供应链控制塔生成式大语言模型的构建方法，整体系统架构可以采用多种介质通过网络访问访问服务器，返回需要的结果。其中多种介质可包括电脑101、手机102和平板电脑103，通过网络104访问服务器105。其中供应链控制塔式一种云解决方案，利用人工智能、机器学习和物联网技术主动管理供应链。实现企业整个供应网络的端到端实时可视性，帮助企业应对市场的各种变化，确保能即时访问最新信息。

如图2所示，根据本发明的供应链控制塔生成式大语言模型的构建方法，包括以下步骤：

S204.基于供应链控制塔模型构建第一验证集；

在机器学习和深度学习中，训练集和验证集是用于模型开发和评估的两个不同的数据集。

训练集（Training Set）是用于模型的训练和参数调整的数据集。当构建一个机器学习模型时，提供一组已知输入和对应的输出（标签），模型通过学习这些样本来调整内部参数，从而能够在给定输入时预测正确的输出。训练集通常是一个较大的数据集，用于模型的学习和优化。训练集具有代表性，涵盖了模型可能遇到的各种情况和样本。

验证集（Validation Set）用于模型的评估和调优。在模型训练过程中，需要评估模型在未见过的数据上的性能，以了解模型是否过拟合（Overfitting）或欠拟合（Underfitting）。为了评估模型的泛化能力，本发明将一部分独立的数据从训练集中分离出来，作为验证集。模型在验证集上的性能可以帮助选择最佳的超参数、模型结构或者进行模型的早停（Early Stopping）等调优操作。

训练集用于模型的训练和参数调整，而验证集用于评估模型的性能和选择最佳的超参数。通过在验证集上评估模型，可以获取模型在未见过的数据上的性能指标，从而帮助优化模型并进行决策。同时，为了保持对模型性能的公正评估，验证集应该是与训练集相互独立、来自同一分布的数据。

其中步骤201具体实现过程如下：

S301.企业进行数据治理，沉淀数据资产；数据治理包括数据预处理和加载，其中：

数据预处理：在模型训练之前，数据需要进行预处理，预处理包括分词、标记化、去除停用词、构建词汇表。预处理有助于将原始文本数据转换为供应链控制塔模型可以理解的格式。

数据加载：对于大规模数据集，通常使用数据加载器或数据流水线技术。数据加载器可以批量读取和处理数据，以提高效率，并确保模型在训练过程中不会因为数据加载而出现瓶颈。

S302.对企业原材料采购、订单、库存、产能、物流等主要业务线进行业务具体执行过程的细分；

S303.构建单业务领域子模型和综合业务领域子模型；

供应链控制塔模型是一个综合性的模型，单业务领域子模型和综合业务领域子模型都是属于供应链控制塔模型下的子模型。

按照供应链业务领域，包括7个单业务领域子模型，分别是销售子模型、计划子模型、采购子模型、仓储子模型、生产子模型、物流子模型、结算子模型，每个单业务领域子模型是将此业务领域根据功能分为若干功能模块。

综合业务领域子模型是将单业务领域子模型中的各个功能模块根据具体的业务流程需要进行组合。组合方式是通过业务流程中的各种业务单据流将各个单业务领域子模型的模块通过组合（在实际业务中2个模块、3个模块或者更多模块都可以组合成一个新的模块），构建成综合业务领域子模型中的新模块。例如：销售子模型-订单管理模块和计划子模型-产能规划模块，两个单业务领域子模型的两个功能模块组合一起为综合业务领域销售计划子模型-动态排产模块，可以在这个子模型中的动态排产模块根据实际订单进行更细致的产能规划，销售部门也可以根据现在的产能规划判断可以再接多少订单。

S304.训练供应链控制塔模型，将单业务领域子模型和综合业务领域子模型数据通过API方式提供。

训练供应链控制塔模型的过程可以分为以下几个步骤：

S3041.定义模型结构：首先，确定供应链控制塔模型的整体结构以及每个子模型、模块和组件的功能和关系。

S3042.收集和准备数据：收集与供应链相关的数据，包括历史数据、实时数据和外部数据。确保数据的质量和完整性，并进行预处理、清洗和转换，以便适应模型的输入格式和要求。

S3043.定义目标函数：根据供应链控制塔的目标和需求，定义目标函数。所述目标函数是关于成本、交付时间、库存水平、客户满意度等方面的指标。

S3044.训练子模型：从最底层的组件开始，使用相应的算法对每个组件进行训练。训练中涉及到各种机器学习算法或优化算法的应用，包括回归模型、分类模型、时间序列模型、深度学习模型等。使用已准备好的数据进行训练，并根据目标函数对模型进行优化。

S3045.整合子模型：在单独训练好的子模型的基础上，将所有子模型整合到供应链控制塔模型中。通过定义对应的接口和数据流，确保各个子模型之间的连接和信息传递通道。

S3046.验证和调优：对训练好的供应链控制塔模型进行验证和测试。使用独立的测试数据集评估模型的性能，并根据实际结果进行调优和改进。并进行多轮迭代，以达到预期的效果。

S3047.部署和监控：一旦模型经过验证并且性能达到预期，将其部署到实际的供应链环境中。同时建立监控机制，定期检查模型的运行状况。

图4示出了构建第一训练集的过程，是对步骤S202的详细阐述。

步骤S202具体实现过程如下：

其中输入数据标注的目的是为了明确指定输入数据的关键部分、特征或标签，以便模型能够学习正确的模式和关联。标注基于任务的特定需求，例如文本分类、命名实体识别或机器翻译等。

预设模板是一组包含占位符或规则的文本模板。占位符可以是诸如"{{名词}}"、"{{动词}}"、"{{形容词}}"等，表示需要从输入数据中填充的部分。规则可以是基于特定模式的替换或转换规则，例如将"{{名词}}"替换为输入数据中的名词，或根据一定规则生成特定文本。

生成训练集样本时，选择一个预设模板，将其中的占位符用具体的值替换，然后将生成的样本与相应的标注进行匹配。这样就可以生成训练集，供模型进行训练和学习。

标注的格式可以根据具体需求来确定，可以是单独的标签、类别或实体，也可以是与输入数据对应的结构化数据。

S402.扩充训练集：通过引入随机性或修改模板来生成更多的样本。这便于模型学习更广泛的输入模式和输出模式。

S403.数据增强：应用数据增强技术，包括随机旋转、平移、替换同义词、添加噪声，以扩大训练数据集。

在训练生成式大语言模型时，数据增强是一种常用的技术，它通过对原始训练数据进行变换和扩充，生成更多的样本，从而增加了模型的训练数据量，提高了模型的泛化能力和鲁棒性。

S404.数据向量化：将文本数据转换为模型可以处理的向量表示，这通常涉及将单词转换为对应的词向量表示，例如使用Word2Vec或BERT等预训练的词嵌入模型。

图5是对构建第一训练集过程中对供应链控制塔模型的调用和组合过程。步骤S203具体包括：

模型子集的是生成式大语言模型的一个子集，包含其中一部分子模型，这些子模型可以组合在一起，形成一个可用于特定任务的小规模模型。模型子集可以是预训练的子模型，也可以是经过调节和优化后的子模型。

在生成式大语言模型中，每个子模型负责处理特定的任务或功能，例如文本生成、文本摘要、情感分析等和供应链控制塔模型下的子模型提供业务数据，根据解析输入文本的结果，系统会根据需要动态地选择一些子模型组合在一起，形成一个特定的模型子集，用于处理当前的输入文本。这样，通过动态组合子模型，生成式大语言模型能够针对不同的任务或功能，灵活地选择最合适的模型子集来处理输入数据，从而实现对不同任务的高效处理。

在一个具体实施例中，如图7所示，例如输入文本为“销售订单10032今天回款了多少”。

解析文本的过程如下：

S5011.分词：将输入文本分割成单词或子句，得到词语序列。例如，本实施例中，分词结果： ["销售订单", "10032", "今天", "回款", "了", "多少"]；

S5012.命名实体识别：识别文本中的命名实体，如“销售订单10032”被识别为一个订单号。"今天"：命名实体类型为日期；"回款"：命名实体类型为动词（可能被标记为动词类）；"多少"：命名实体类型为询问数量。

S5013.词性标注：标注每个词语的词性，如名词、动词等。

S5014.语法分析：分析句子的语法结构，识别主谓宾等成分。

S5015.确定该文本涉及的功能和任务，本实施例中，功能和任务如下：

功能：销售订单查询和回款查询；

任务：根据订单号查询回款金额。

根据任务需求，系统动态地选择对应的模型子集来处理输入文本。在本实施例中，根据功能和任务确定模型子集包括供应链控制塔模型中的2个子模型分别为销售子模型和结算子模型。

销售子模型：用于根据订单号查询订单信息，可能是一个预训练的模型，它可以接收订单号作为输入，并返回与订单号相关的信息，如订单金额、订单状态等。

结算子模型：用于根据订单号查询回款信息，可能也是一个预训练的模型，它可以接收订单号作为输入，并返回与回款相关的信息，如回款金额、回款日期等。

通过动态组合子模型，生成式大语言模型可以根据任务的不同，灵活地选择对应的模型子集来处理输入数据，从而实现对不同任务的高效处理。

S502.组织模型子集：根据解析结果，选择需要调用的模型子集，将这些模型进行组织和分类，可以按照功能或任务将模型进行分组，形成一个模型子集；

具体到本实施例中，将输入文本“销售订单10032今天回款了多少”送入供应链控制塔模型的销售子模型。销售子模型根据输入的订单号"10032"查询相关订单信息，输出结果为："订单10032的回款金额是57800元，回款日期是2023年7月23日。"。

将输入文本“销售订单10032今天回款了多少”送入供应链控制塔模型的结算子模型。该子模型会根据输入的订单号"10032"查询回款信息，输出结果为："订单10032今天回款了57800元。"。

根据模型子集的输出结果，进行进一步处理和转换，例如本实施例中从销售子模型的输出中提取回款金额和回款日期信息，得到回款金额为57800元，回款日期为2023年7月23日。

从结算子模型的输出中提取回款金额信息，得到回款金额为57800元。

进一步处理和转换的结果如下：

将两个子模型的输出结果合并，得到整体的回款信息。本实施例中，生成以下文本作为最终结果："订单10032今天回款了57800元，回款日期是2023年7月23日。"。

在此实施例中，生成式大语言模型动态地调用了供应链控制塔模型的两个子模型：销售子模型和结算子模型，对输入文本进行处理，并获取它们各自的输出结果。然后，通过对这些输出结果进行处理和转换，得到整体的回款信息，提供更完整和详细的回答。

如图6所示，步骤S204包括：

此步骤S601是验证集解析文本：在验证集中，解析文本的目的是为了评估训练得到的模型的性能和泛化能力。与训练集类似，验证集的文本也需要经过相似的预处理步骤，确保输入的格式与模型训练时相同。在验证集上对模型进行评估可以帮助了解模型在未见过的数据上的表现，以及发现可能存在的过拟合或欠拟合问题。

前文中步骤S501中是训练集解析文本：在训练集中，解析文本的主要目的是为了对模型进行训练。二者数据处理方式不同：在训练集中，预处理步骤通常较为严格，以确保数据的质量和一致性。而在验证集中，预处理的方式可能会略有不同，更侧重于保留更多原始的特征，以更好地代表真实世界的数据分布。

S602.历史至今的企业所有业务数据在供应链控制塔模型中；

现今某一个阶段之前的所有业务数据用于模型的训练和调整，通常在训练阶段预处理并存储在模型训练的环境中。

在实际应用阶段，数据来自企业的数据库或数据仓库，供模型实时获取和处理，从而做出实时的决策和优化。

对于供应链控制塔模型，期望输出或参考答案是指针对每个输入文本（例如供应链中的业务场景描述），实现正确、预期的输出结果。这些期望输出可以来自以下来源：

实际数据：如果对于某些供应链业务场景，已经存在实际的数据和对应的正确结果，可以直接使用这些数据作为期望输出。

验证集：在模型训练过程中，将一部分数据分离出来作为验证集，这些数据同样需要有对应的期望输出，以便在训练过程中对模型进行验证。

S604.评估指标定义：定义适当的评估指标来衡量；

本发明中使用Perplexity评估指标：

Perplexity用于对模型在测试集上的预测能力进行估计。Perplexity数值越低表示模型在测试集上的表现越好；Perplexity的计算公式为：

其中，N为测试集中样本的数量，为模型预测生成第i个样本的概率。

图7是一个具体实施例展示说明从输入开始到最后输出返回结果和推荐结果的流程图。在文本框中输入“销售订单10032今天回款了多少”之后，根据组合模型子集的输出，得到“订单10032，人民币，57800，金额类”，因此最终的输出是“销售订单10032今天的回款金额是¥57800元”，同时根据输入的文本序列和模型子集返回的结果，预测下一个可能的问题列表是：

“A.是否查询本月月初至今的回款金额，B.是否将本月的回款金额以图表形式展示”；

另一个实施例中，例如用户输入：

用户在页面发起对话并提出问题或请求，例如：“我需要了解目前库存情况和预计的销售数据”。

解析文本阶段：

生成式大语言模型会对用户的输入进行预处理，进行分词、去除停用词等操作，以便更好地理解用户的意图，然后解析用户输入的文本，得到两方面：提取功能和提取任务。

提取功能：

功能是指用户输入中所需的具体功能或操作。通过解析用户输入，可以确定用户希望生成式大语言模型提供什么样的功能，例如查询库存情况、预测销售趋势、获取供应链信息等。提取功能有助于确定提取生成式大语言模型所需要进行的具体任务。

提取任务：

任务是指用户输入中需要生成式大语言模型执行的具体任务或问题。通过解析用户输入，确定了功能之后，可以确定模型应该执行什么样的任务，例如回答用户的问题、生成相应的业务数据等。提取任务有助于模型聚焦在特定的任务上，避免在生成结果时偏离用户需求。

数据交互阶段：

提取功能侧

查询库存情况：用户希望了解当前的库存数量和库存状态。

预测销售数据：用户希望获取关于未来销售的预测信息，例如预计销售量、销售趋势等。

提取任务侧

查询库存情况任务：根据用户的需求，生成式大语言模型应该查询供应链控制塔模型的仓储子模型，获取当前的库存情况，并准备将查询结果呈现给用户。

预测销售数据任务：根据用户输入的需求，生成式大语言模型应该使用供应链控制塔模型的销售子模型，获取对未来的销售数据预测的结果，并将预测结果生成并呈现给用户。

根据生成的具体任务，去调用对应的子模型，有2种方式，一种是子模型直接从业务系统获取原始数据，例如：当前库存数量；还有一种数据是业务数据需要经过子模型处理之后提供出来，例如：销售数据预测的结果。

具体子模型的数据交互方式如下：

消息队列和事件驱动：使用消息队列作为模型之间的中介，当一个模型生成结果后，将结果发布到消息队列中，其他模型订阅该消息队列并获取结果。这种方式可以实现实时的模型交互和数据传输。

API接口：每个模型可以封装为API服务，其他模型通过调用API接口来获取结果。这种方式适用于需要实时响应和较高并发的场景。API可以使用RESTful或GraphQL等协议进行通信。

共享数据库表：模型之间可以共享数据库表作为数据交互的方式。当一个模型生成结果后，将结果存储在共享数据库表中，其他模型可以通过查询数据库表来获取结果。数据库可以是关系型数据库（如MySQL、PostgreSQL）或者NoSQL数据库（如MongoDB）。

数据缓存：为了提高模型交互的效率，可以使用数据缓存机制。当一个模型处理过一次数据后，将结果缓存起来，下次同样的数据到来时，可以直接返回缓存结果，避免重复计算。

分布式计算平台：如果模型需要在大规模数据上进行计算，可以使用分布式计算平台来进行模型交互，以充分利用集群资源。

事件触发和订阅：模型之间可以通过事件触发和订阅机制进行数据交互。当一个模型生成了特定事件时，其他订阅了该事件的模型可以接收并处理相应的数据。

关于数据转换与对齐：

将供应链控制塔模型的结果转换为生成式大语言模型可以接受的格式，确保数据在两种模型之间对齐。数据传输格式：模型之间交互的数据需要统一的传输格式，常见的数据传输格式有JSON、Protobuf、Avro等。使用统一的数据传输格式可以简化数据交互过程。

生成式大语言模型推理和结果展示：

将用户输入和供应链控制塔模型的结果输入到生成式大语言模型中进行推理。生成式大语言模型可能会结合用户的问题和供应链控制塔的结果，将真实的的业务数据和生成的推理结果一起返回前端展示，例如回答用户的问题：“根据我们的预测，目前库存充足，其数量为十万台，预计未来两周的销售量将会增加。”；

这里主要通过API的方式将生成的结果展示在前端。

反馈与更新：

如果用户需要更多信息或提出进一步的问题，生成式大语言模型可以根据用户反馈重新进行提取功能和任务，并再次进行推理和生成。

具体地，如图8所示，本发明根据一个具体实施例，介绍系统中各个模型之间的数据交互流程如下：

S100.用户实时请求：用户在Web界面中输入问题并点击发送，用户实时请求通过HTTPS协议以JSON格式封装成HTTP POST请求，发送到服务器。所述输入问题例如为"我需要了解目前库存情况和预计的销售数据"。

S200.生成式大语言模型网关层：收到HTTPS请求，解析出JSON数据，然后将输入问题以Protocol Buffers（一种二进制序列化协议）格式封装成gRPC请求，发送到生成式大语言模型逻辑层。

S300.生成式大语言模型逻辑层：收到gRPC请求，开始处理。

本发明的模块之间的数据交互通过函数调用的方式，例如“特征加载（文本预处理（Query分析））”，每层函数的返回结果，是下一层函数的输入。

根据实现的不同方式，进行函数间的相互调用，包括：

A：Query分析模块：解析Protocol Buffers格式的gRPC请求，提取出用户的问题"我需要了解目前库存情况和预计的销售数据"。

B：文本预处理模块：该模块接收Query分析模块传入的问题，对问题字符串进行处理，包括分词、词性标注等预处理操作，这个过程需要通过NLP库如NLTK或SpaCy进行，将原始的文本数据转化为模型可处理的数值型数据。

C：特征加载模块：接收文本预处理模块的输出，并构建相应的特征查询请求生成SQL查询语句，这个过程需要通过SQLAlchemy等ORM库将用户问题映射为对数据库的查询，通过数据库连接池和SQL协议将查询请求发送到生成式大语言模型访问代理层。

D：Transformer实时生成模块：该模块接收特征加载模块获取的特征数据和文本预处理模块的预处理文本，并且将特征数据和预处理文本输入到Transformer模型进行预测。这个过程主要通过深度学习框架如TensorFlow或PyTorch进行，它们会接受特征数据和预处理文本作为输入，通过神经网络模型进行计算，输出预测结果。

E：强化学习模块：RLHF（Reinforcement Learning from Human Feedback）即使用强化学习的方法，利用人类反馈信号直接优化语言模型。该模块接收Transformer实时生成模块的输出，并使用交互式学习方法，当模型生成一条文本时，它会请求用户对其进行评估，例如问用户是否觉得该文本合理、准确、有意义等等。通过分析用户的反馈，模型可以确定哪些方面需要改进，并尝试生成更高质量的文本，通常是在回答用户的答案的右下方出现，供用户进行判断。

F：预测结果缓存模块：此模块接收RLHF处理的文本，将问题和生成的答案作为键值对存储到分布式缓存系统，分布式缓存系统为Memcached或Redis。数据交互方式主要通过缓存的API进行，数据传输方式可以是在内网的TCP/IP通信。

G：少无结果补充：如果后处理文本不满足某些条件，例如长度不足，此模块从预定义的备选答案库中选择一个最佳的答案。这一步需要设计一种打分或者排序机制来选择最合适的答案。

H：反馈模块（ABTest）：记录用户的反馈，将记录通过日志系统以友好的格式发送到数据中心，用于进行A/B测试。这涉及数据交互方式（通过日志系统记录和发送数据），数据处理方式（格式化日志，分析用户反馈）。

S400.生成式大语言模型访问代理层：逻辑层通过SQLAlchemy等ORM库将特征加载生成的SQL执行，通过数据库连接池和SQL协议将查询请求发送到生成式大语言模型超大规模特征存储层和供应链控制塔模型存储并返回数据。

S500.生成式大语言模型超大规模特征存储模块：存储训练过程中生成的特征数据在redis中，并响应特征访问代理层的查询请求。数据可能会定期从硬盘或其他持久化存储设备加载到内存中，以提高查询效率。特征存储模块会提供一个类似"SELECT * FROMfeatures WHERE id IN (...)"的SQL接口方式提供数据。

S600.供应链控制塔模型存储模块：业务系统中等业务数据通过生成式大语言模型业务数据生产，数据分别通过离线和实时两种方式提供存储数据。供应链控制塔模型存储模块提供一个类似"SELECT * FROM sales_data WHERE date > ?"的SQL接口向上层提供数据。

S700.生成式大语言模型训练特征生产模块：使用离线的处理方式，进行大规模互联网文本数据生成特征，然后存入Redis供生成式大语言模型超大规模特征存储使用。

S800.生成式大语言模型业务数据生产模块：数据生成过程主要通过离线的批处理方式，例如使用Spark等分布式计算框架，生成的数据通常会通过Parquet等格式存储在文件系统或对象存储中，然后通过ETL任务导入业务数据存储中。数据传输主要通过文件系统或者网络进行，使用HDFS分布式文件系统来存储和传输大量的数据。

本发明还提供一种供应链控制塔生成式大语言模型，如图9所示，所述模型包括第一训练集构建单元801、有监督调节训练单元802、第一验证集构建单元803、有监督调节评估单元804、强化学习训练单元805。

其中，第一训练集构建单元801：对应于步骤S202。功能：该单元的功能是收集和准备用于模型训练的大规模数据集，也称为第一训练集。这些数据集可能包含供应链中的业务场景描述、历史业务数据、以及与业务任务相关的文本和标签等。

有监督调节训练单元802：对应于步骤S203。功能：在该单元中，使用第一训练集构建的数据对预训练的生成式大语言模型进行调节。调节的目的是在供应链控制塔领域中让模型更好地适应任务的特定要求，提高模型的性能和准确性，调节后获得第二训练集。

第一验证集构建单元803：对应于步骤S204。功能：在该单元中，构建第一验证集，这是用于评估模型性能的数据集。验证集中包含供应链场景的输入文本以及对应的期望输出或参考答案。

有监督调节评估单元804：对应于步骤S205。功能：在该单元中，使用第一验证集构建的数据对已进行有监督调节的模型进行评估。通过比较模型输出和期望输出，计算评估指标来衡量模型性能。

强化学习训练单元805：对应于步骤S206。功能：在该单元中，使用强化学习技术对生成式大语言模型进行训练。强化学习可以进一步优化模型的输出，使其更加符合实际需求，提高模型的表现。

第一训练集构建单元收集和准备了用于模型训练的数据集，而有监督调节训练单元则使用这些数据对预训练的生成式大语言模型进行调节。有监督调节训练单元对预训练模型进行调节后，得到在供应链控制塔任务上更优化的生成式大语言模型。然后，第一验证集构建单元使用这个调节后的模型来生成文本，并构建验证集，包含输入文本和期望输出（参考答案）。这样，第一验证集构建单元提供了评估模型性能所需的数据。有监督调节评估单元使用第一验证集来评估已进行有监督调节的生成式大语言模型。通过对模型输出和期望输出进行比对，并计算评估指标，有监督调节评估单元提供了有关模型性能的信息，为后续优化和改进提供指导。有监督调节评估单元的结果可能显示模型在某些供应链任务上性能尚有提升空间。这时，使用强化学习技术对生成式大语言模型进行进一步训练和优化，以得到更加专业化和符合实际需求的输出。

由此，这五个单元形成了一个完整的闭环循环：从第一训练集构建，通过有监督调节训练，再到第一验证集构建和有监督调节评估，最终进入强化学习训练。这样的循环可以反复进行，不断地改进和优化模型，使其在供应链控制塔任务中表现得更加优秀。通过这种关联，可以不断地训练和改进模型，逐步使其适应实际供应链业务场景的需求。

其中，有监督调节是指在预训练的生成式大语言模型上使用有标签数据（即带有期望输出或参考答案）进行进一步训练。具体实现有监督调节的步骤如下：

T1.加载预训练模型：首先，将预训练的生成式大语言模型加载到训练环境中。

T2.数据准备：使用第一训练集构建单元准备的数据集，将其转换为适合模型调节的格式。通常，数据需要进行分词、编码等预处理操作。

T3.定义任务和损失函数：对于供应链控制塔任务，需要明确定义任务类型，例如文本生成、文本分类等。根据任务类型，选择适当的损失函数，如交叉熵损失函数或自定义的损失函数。

T4.模型调节：将准备好的数据输入到预训练模型中，并根据定义的任务和损失函数，通过反向传播算法进行模型调节。调节过程中，模型的参数根据有标签数据的信息进行调整，以适应供应链控制塔任务的特定要求。

T5.迭代优化：多次迭代调节过程，直到模型收敛或达到预定的训练轮数。每轮迭代中，使用不同的数据样本进行训练，以增加数据多样性。

T6.保存调节后模型：调节完成后，保存调节后的生成式大语言模型，用于后续评估和应用。

相较于现有技术，本发明在以下方面具有重要区别和技术优势：

1.全面建模供应链业务领域：供应链控制塔模型专门针对供应链业务领域进行设计和优化。与通用性的大语言模型相比，该生成式大语言模型更加专业化和针对性，能够充分理解和解决供应链领域的特定问题和任务。

2.综合性的模型结构：生成式大语言模型不仅涵盖了供应链控制塔的各个子模型，如销售、计划、采购、仓储、生产、物流和结算子模型，还能将这些子模型根据业务流程和业务单据流进行灵活组合。这样的综合性模型结构可以更好地支持供应链业务的整体规划和优化。

3.数据驱动的模型训练：通过第一训练集构建和有监督调节训练，生成式大语言模型可以充分利用大规模的历史业务数据，从而实现数据驱动的训练。这将使得模型在供应链场景中具有更好的泛化能力和适应性。

4.深度优化供应链决策：生成式大语言模型可以生成更加准确、细致的供应链决策建议。它能够考虑各个业务领域的模块和单元之间的关联，从而综合考虑供应链各个环节，优化供应链运作效率和降低成本。

5.强化学习的进一步优化：强化学习训练单元的使得生成式大语言模型能够在生成过程中不断优化自身输出，并通过与环境的交互来不断改进生成策略。这将使得模型更加智能、自适应，逐步迈向智能供应链控制塔的目标。

6.增强供应链决策支持能力：通过生成式大语言模型，供应链管理者和决策者能够获得更全面、详细的决策支持，包括销售预测、库存优化、生产计划、物流路线规划等。这将使得供应链管理更加科学、高效，降低运营风险并提升竞争力。

本发明的生成式大语言模型相较于现有技术，在供应链控制塔领域具有更高的专业性、针对性和灵活性，能够更好地解决供应链中的各种问题和挑战。通过数据驱动的训练和强化学习的优化，它能够为企业提供更强大、智能的供应链决策支持，帮助企业实现高效、可持续的供应链运作，进而获得更大的技术效果和技术优势。

本发明流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，可以实现在任何计算机刻度介质中，以供指令执行系统、装置或设备，所述计算机可读介质可以是任何包含存储、通信、传播或传输程序以供执行系统、装置或设备使用。包括只读存储器、磁盘或光盘等。

在本说明书的描述中，参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，本领域的技术人员可以在不产生矛盾的情况下，将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。

上述内容虽然已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。

Claims

1.一种供应链控制塔生成式大语言模型的构建方法，其特征在于，所述方法包括以下步骤：

S202.基于用户输入输出排序规则和预设模板的集合，构建第一训练集；

S204.基于供应链控制塔模型构建第一验证集；

S206.将第二生成式大语言模型，基于评估模型返回的得分进行强化学习方式进行训练，得到供应链控制塔生成式大语言模型；

训练供应链控制塔模型，包括：

S3041.定义模型结构：确定供应链控制塔模型的整体结构以及每个子模型、模块和组件的功能和关系；

S3042.收集和准备数据：收集与供应链相关的数据，包括历史数据、实时数据和外部数据；确保数据的质量和完整性，并进行预处理、清洗和转换，以便适应模型的输入格式和要求；

S3043.定义目标函数：根据供应链控制塔的目标和需求，定义目标函数；所述目标函数是关于成本、交付时间、库存水平、客户满意度等方面的指标；

S3044.训练子模型：从最底层的组件开始，使用相应的算法对每个组件进行训练；；

S3045.整合子模型：在单独训练好的子模型的基础上，将所有子模型整合到供应链控制塔模型中；通过定义对应的接口和数据流，确保各个子模型之间的连接和信息传递通道；

S3046.验证和调优：对训练好的供应链控制塔模型进行验证和测试；

S3047.部署和监控：模型经过验证并且性能达到预期，将其部署到实际的供应链环境中。

2.根据权利要求1所述的一种供应链控制塔生成式大语言模型的构建方法，其特征在于，步骤201具体实现过程如下：

S301.企业进行数据治理，沉淀数据资产；

S302.对企业的业务线进行业务具体执行过程的细分；

S303.构建单业务领域模型和综合业务领域模型；

3.根据权利要求2所述的一种供应链控制塔生成式大语言模型的构建方法，其特征在于，业务线包括原材料采购、订单、库存、产能和/或物流。

4.根据权利要求1所述的一种供应链控制塔生成式大语言模型的构建方法，其特征在于，步骤S202具体实现过程如下：

S403.数据增强：应用数据增强技术扩大训练数据集；

5.根据权利要求4所述的一种供应链控制塔生成式大语言模型的构建方法，其特征在于，数据增强技术包括随机旋转、平移、替换同义词和/或添加噪声。

6.根据权利要求4所述的一种供应链控制塔生成式大语言模型的构建方法，其特征在于，步骤S404中使用Word2Vec或BERT预训练的词嵌入模型实现。

7.根据权利要求1所述的一种供应链控制塔生成式大语言模型的构建方法，其特征在于，步骤S203包括：

S505.组合成期望的输出：根据每个模型子集的输出结果，可以根据解析的功能和任务，决定如何组合和整合不同模型子集的输出。

8.根据权利要求1所述的一种供应链控制塔生成式大语言模型的构建方法，其特征在于，步骤S204包括：

S602.历史至今的企业所有业务数据在供应链控制塔模型中；

S604.评估指标定义：定义适当的评估指标来衡量；

9.一种供应链控制塔生成式大语言模型，所述模型用于实现根据权利要求1-8任一项所述的方法，其特征在于，所述模型包括第一训练集构建单元、有监督调节训练单元、第一验证集构建单元、有监督调节评估单元和强化学习训练单元。

10.根据权利要求9所述的一种供应链控制塔生成式大语言模型，其特征在于，所述第一训练集构建单元、有监督调节训练单元、第一验证集构建单元、有监督调节评估单元和强化学习训练单元形成一个闭环循环：从第一训练集构建，通过有监督调节训练，再到第一验证集构建和有监督调节评估，最终进入强化学习训练；通过反复进行循环，改进和优化所述供应链控制塔生成式大语言模型。