CN117217820A

CN117217820A - 供应链采购需求智能集成预测方法及系统

Info

Publication number: CN117217820A
Application number: CN202311353157.8A
Authority: CN
Inventors: 徐嘉文; 张乐; 彭张林; 朱旭辉; 朱克毓; 王鑫悦; 刘文涛; 周俊飞
Original assignee: Hefei Guoxuan High Tech Power Energy Co Ltd
Current assignee: Hefei Gotion High Tech Power Energy Co Ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-12-12

Abstract

本发明提供供应链采购需求智能集成预测方法及系统，方法包括：提取预测目标产品的关联上、下游产品信息，进行清洗预处理、特征选择操作，构建成员私有数据集，加密实体对齐得到加密实体；基于公有数据集D进行垂直联邦学习，以协同训练预置机器学习模型得到加密模型；基于stacking方法确定元学习器XGBoost以及基学习器，进行集成学习，计算权重，修正初级学习器的灵敏性差异，得到集成模型；在预置隐私保护协议下，利用服务端向各协调方发起预测计算，返回参与方本地计算结果，利用服务端汇总生成采购需求预测结果。本发明解决了协同采购时存在企业隐私数据泄露、单一预测模型存在灵敏度盲区、易于过拟合、预测模型对特征变动的鲁棒性较低的技术问题。

Description

供应链采购需求智能集成预测方法及系统

技术领域

本发明涉及联邦学习技术领域，具体涉及供应链采购需求智能集成预测方法及系统。

背景技术

随着近年来新能源、储能等领域的快速发展，锂离子电池产业随之迅速发展。传统新能源企业通过调整内部管理模式、组织结构，整合周边资源等方式应对动态变化的市场需求，但成效微弱。集群式供应链的出现，使得相关价值产业链的上下游企业不得不相互协同，以发挥产业集群的规模优势，从而降低交易成本。其中，采购又是整条供应链生产销售的源头，公开资料显示，当企业的原材料采购费用降低1％，就都相当于产品销售额增加了8～10％。本发明以锂电铜箔为应用背景，其产业链上游主要为电解铜、废铜、铜锭、硫酸等原材料；中游为铜箔生产供应环节，主要产品有压延铜箔和电解铜箔；下游主要应用于消费电子、汽车电子、动力电池、通讯设备、航空航天、储能等领域。由此可见，新能源行业制造商，受外部影响因素众多，牵一发而动全身。因此，协同采购作为一种新型的采购方式应运而生，它使具有相同采购需求的新能源电池生产制造业和供应商能够根据供应链的供需情况以及实时库存等信息及时调整自身策略。通过建立完备的信息共享机制和健全的激励措施，协同采购提高了整条新能源电池产业链的利润和效率，同时也大大降低了采购企业的风险和成本。因此，协同采购逐渐成为新能源电池产业链中主要的采购模式。

工业互联网、工业大数据的发展，无疑推动着工业数据要素市场的发展和成形。尽管工业大数据目前主要在企业内部或供应链间分享流通，但进一步的跨域流通和交易需求已经不远——这需要以安全为前提。现有的协同采购模式中，多方基于数据层面协同工作，使用机器学习方法在数据聚合后训练模型，用于指导供应链需求预测等工作。然而，在这种情况下，每一方都可以获得对方的详细数据。显然，简单的数据融合并不符合法律法规保障数据安全和隐私的要求。而对敏感数据的保护，通常又与供应链协同相冲突，使得信息无法充分共享。

目前，可用于供应链需求预测的主要方法有统计学预测方法：如自回归移动平均模型(Autoregressive Moving Average model,ARMA)、差分自回归移动平均模型(Autoregressive Integrated Moving Average model,ARIMA))；基于机器学习预测方法：如随机森林(Random Forests，RF)、支持向量机(Support Vector Machine，SVM)、极端梯度提升(eXtreme Gradient Boosting，XGBoost)等；以及基于机器学习预测方法：长短期记忆模型(long short-term memory neural network,LSTM)、卷积神经网络(conventionalneural networks,CNN)等。例如公布号为CN116228292A的现有发明专利申请文献《一种考虑惯量波动的电力现货市场价格预测方法》采用累积式自回归移动平均模型，以确定整个电力系统的负荷预测值，再构建ARMA-GARCH模型预测风速以确定风电出力的预测值，从而评估风电机组所提供的虚拟惯量，然后建立含最小惯量的带频率安全约束的机组组合模型，将负荷预测和风电出力预测代入带频率安全约束的机组组合模型中，从而得到电力现货市场出清价格。以及公布号为CN115760210A的现有发明专利申请文献《一种基于IPSO-LSTM模型的医药销售预测系统及方法》包括数据采集与处理模块、药品分类模块、药品需求预测模块和数据可视化模块等。数据采集与处理模块用于采集药品历史数据，同时对药品数据进行预处理；药品分类模块提供药品分类服务；药品需求预测模块，采用了IPSO-LSTM算法对医院药品需求情况进行预测，预测流行病传播情况，结合各区域环境条件和各个医院往年医药销售情况进行预测，预测数据提供给销售人员与医院进行销售对接；数据可视化模块提供可视化界面显示各种数据。然而，单一模型的缺点在于：特征变量会随着时间、外部环境等动态变化，每个维度的变化程度也不尽相同。不同算法的学习模型或者算法相同参数不同的学习模型，对于数据的学习方式与认知形式都具有一定的差异性,导致彼此的决策边界与数据感知灵敏度不相同，这将导致不同算法对某些特征波动感知不灵敏，出现灵敏度盲区。此外单一模型严格依赖完整序列易产生过拟合，大大降低了模型泛化能力。

现有技术存在协同采购时存在企业隐私数据泄露、单一预测模型存在灵敏度盲区、易于过拟合、预测模型对特征变动的鲁棒性较低的技术问题。

发明内容

本发明所要解决的技术问题在于：如何解决现有技术中协同采购时存在企业隐私数据泄露、单一预测模型存在灵敏度盲区、易于过拟合、预测模型对特征变动的鲁棒性较低的技术问题。

本发明是采用以下技术方案解决上述技术问题的：供应链采购需求智能集成预测方法包括：

S1、使供应链成员提取预测目标产品的关联上、下游产品信息，对关联上、下游信息进行清洗预处理、特征选择操作，以构建得到成员私有数据集D_F1、D_F2、D_F3，据以进行加密实体对齐，得到加密实体；

S2、根据加密实体的加密信息，使供应链成员基于公有数据集D进行垂直联邦学习，以协同训练预置机器学习模型，以得到加密模型；

S3、对加密模型，基于stacking方法确定元学习器XGBoost以及基学习器，以进行集成学习并计算权重，修正加密模型中，不少于2个初级学习器的灵敏性差异，以得到集成模型；

S4、在预置隐私保护协议下，根据集成模型，利用服务端向各协调方发起预测计算，以得到并返回参与方的本地计算结果，利用服务端汇总生成采购需求预测结果。

本发明可在确保各供应链成员方数据隐私安全的同时，建立低风险信息共享机制，充分发挥协同采购的优势，实现高维大数据环境下供应链采购求的智能预测。本发明与现有技术相比解决了协同采购时存在企业隐私数据泄露、单一预测模型存在灵敏度盲区、易于过拟合的缺陷。

在更具体的技术方案中，步骤S1包括：

S11、数据预处理；

在参与方，删除关联上、下游信息的缺失值、异常值以及重复数据，归一化至统一量纲，以得到清洗数据；

S12、集成处理清洗数据，以合并相同含义字段值，据以生成私有数据集D_F1、D_F2、D_F3；

S13、利用下述逻辑，进行特征选择操作，以得到特征互关系信息；

式中，p(x＝x_i)代表特征x内第i个离散点的概率密度函数；

S14、根据预设阈值，保留适用输入特征；

S15、根据适用输入特征，进行加密实体对齐，据以确定加密实体。

由于成员公司的用户群体不同，本发明确保参与方不需要暴露各自的原始数据便可以对齐共同用户，提高了操作安全性。本发明基于互信息，对成员私有数据集进行初步的特征选择以消除冗余信息，生成合理规模的数据集，此外通过加密算法确保了本地数据的安全性、可用性。

本发明在协同采购场景下，成员企业具备重叠的数据空间，可按时间周期进行数据对齐，满足垂直联邦学习的设定。通过多个参与方联合建模，达到扩充特征数量，能够大大提升采购需求的预测能力。

在更具体的技术方案中，步骤S15包括：

S151、利用预置云工具，生成公钥和私钥；

S152、对加密信息中的待加密明文进行编码，以得到密文；

S153、利用下述逻辑对密文进行同态加密操作：

C3＝C1*C2(mod n)

式中，C1、C2为密文，C3为同态加密密文；

S154、利用下述逻辑，对同态加密密文进行解密操作：

M＝C^dmod n

式中M为明文，RSA同态加密中，n为两个大质数p、q的乘积，e和d满足(e*d)mod((p-1)*(q-1))＝1；随后分别将(n,e)作为公钥，(n,d)作为私钥，C为待解密的密文，d是上面私钥(n,d)里的数字。

在更具体的技术方案中，步骤S2包括：

S21、利用服务端创建加密秘钥，将公钥发送给协同成员F1、F2、F3的客户端；

S22、服务端从初级学习器池随机选择一个本地模型作为初始化基学习器，客户端初始化本地模型参数θ；

S23、利用服务端，对初始化学习器进行迭代操作，以对预置机器学习模型进行参数更新，以得到新全局参数；

S24、利用客户端，根据本地模型参数θ，处理得到并上传梯度结合附加隐私掩码至服务端；

S25、针对基学习器池中的每个时序模型，重复执行步骤S23至S24，直至所有全局基学习器收敛。

本发明在加密模型训练训练过程中，首次引入垂直联邦学习的思想，可信计算平台仅收集模型相关的参数，而不接触任何原始数据，在确保企业内部数据安全的同时，充分发挥了协同采购的优势。

在更具体的技术方案中，步骤S3包括：

S31、拆分已加密公有数据集D，以得到原始训练集D_train、原始测试集D_test：

D_train＝{(x_i,y_i)|i＝1,2,…,m}

D_test＝{(x_i,y_i)|i＝m+1,m+2,…,n}

式中，p为样本特征维度，y_i为需求预测标签；

S32、将原始训练集D_train，随机平均分成k部分，以得到平分训练集；

S32、根据平分训练集、测试集，对加密模型进行K折交叉验证，以生成stacking框架元学习器数据集；

S33、针对每一个基学习器，重复执行步骤S32，以得到当前优化基学习器；

S34、对当前优化基学习器，求取均方根误差RMSE、平均绝对误差MAE以及分数综合评估模型性能，据以进行模型评估：

式中,y_i为真值，表示模型预测值，/>表示真实值的平均，n为数据条数。

本发明考虑到单一模型的特征灵敏性、易于过拟合等问题，基于stacking的集成学习方法可融合多个基学习器在时序预测上的优点，形成更为精准的需求预测结果。

在更具体的技术方案中，步骤S33包括：

S331、对基学习器，生成预测矩阵：

P＝[P₁,…,P_k]^3×m,R＝[r_m+1,…,r_n]^3×(n-m)；

S332、利用下述逻辑表达元学习器的训练集与测试集特征

在更具体的技术方案中，步骤S332中，对元学习器XGBoost，利用下述逻辑表达采购需求预测树模型：

式中，K表示树的总数，f_k代表第k棵树，表示对特征向量x_i的预测结果；

元学习器XGBoost的损失函数包括：预测误差Obj(σ)以及模型结构复杂程度Ω(f_k)：

式中，n表示样本总数，r表示损失函数，Ω(f_k)表示第k棵树的复杂度，ω_j表示树结构中第j个叶子节点的预测值，γ、λ分别是L1、L2正则的权重因子，即给这两项施加不同的关注度，达到模型性能的权衡。σ是一个抽象的机器学习模型内部参数，例如回归树的节点权重。

本发明基于stacking方法确定元学习器，计算合适的权重，修正上一步训练好的多个初级学习器灵敏性差异，提升预测模型的泛化能力。本发明选择三个常规的神经网络模型[CNN，LSTM，GRU]作为基学习器池，通过结合模型各自在周期序列处理的优点，达到预测性能提升的目的；元学习器则选择XGBoost模型，采用了正则化与列抽样的方法，一定程度上抑制了过拟合现象，泛化能力较强；同时损失函数中引入了二阶导数，拥有较高准确性。

在更具体的技术方案中，步骤S34包括：

S341、利用下述逻辑求取均方根误差RMSE、平均绝对误差MAE；

S342、利用下述逻辑，求取当前优化基学习器的分数综合评估模型性能R²，据以进行模型评估：

在更具体的技术方案中，步骤S4包括：

S41、在服务端查询与当前需求预测相关的供应链成员的id：[F_id]、待预测样本id：[X_id]以及基学习器索引κ，并向各客户端下发供应链成员的id：[F_id]、待预测样本id：[X_id]以及以及基学习器索引κ；

S42、参与方接受供应链成员的id：[F_id]、待预测样本id：[X_id]以及以及基学习器索引κ，据以构建对应预测数据集，并根据基学习器索引κ，利用相应基学习器进行预测并上传本地预测结果；

S43、服务端接收并汇总本地预测结果，执行下一轮基学习器预测，迭代执行步骤S41至步骤S43，直至所有基学习器完成预测；

S44、利用元学习器，以所有基学习器的输出作为输入特征，生成采购需求预测结果。

在更具体的技术方案中，供应链采购需求智能集成预测系统包括：

私有数据集构建模块，用以使供应链成员根据提取预测目标产品的关联上、下游产品信息，对关联上、下游信息进行清洗预处理、特征选择操作，以构建得到成员私有数据集D_F1、D_F2、D_F3，据以进行加密实体对齐，得到加密实体；

加密模型训练模块，用以根据加密实体的加密信息，使供应链成员基于公有数据集D进行垂直联邦学习，以协同训练预置机器学习模型，以得到加密模型，加密模型训练模块与私有数据集构建模块连接；

模型集成学习模块，用以对加密模型，基于stacking方法确定元学习器XGBoost以及基学习器，以进行集成学习，计算合适的权重，修正加密模型中，不少于2个初级学习器的灵敏性差异，以得到集成模型，模型集成学习模块与加密模型训练模块连接；

预测结果生成模块，用以在预置隐私保护协议下，根据集成模型，利用服务端向各协调方发起预测计算，以得到并返回参与方的本地计算结果，利用服务端汇总生成采购需求预测结果，预测结果生成模块与模型集成学习模块连接。

本发明相比现有技术具有以下优点：本发明可在确保各供应链成员方数据隐私安全的同时，建立低风险信息共享机制，充分发挥协同采购的优势，实现高维大数据环境下供应链采购求的智能预测。本发明与现有技术相比解决了协同采购时存在企业隐私数据泄露、单一预测模型存在灵敏度盲区、易于过拟合的缺陷。

本发明解决了现有技术中存在的协同采购时存在企业隐私数据泄露、单一预测模型存在灵敏度盲区、易于过拟合、预测模型对特征变动的鲁棒性较低的技术问题。

附图说明

图1为本发明实施例1的供应链采购需求智能集成预测方法基本步骤示意图；

图2为本发明实施例1的垂直联邦学习需求预测算法框架图；

图3为本发明实施例1的对齐后数据示意图；

图4为本发明实施例1的构建成员私有数据集的具体步骤示意图；

图5为本发明实施例1的对成员私有数据集的各个部分进行加密具体步骤示意图；

图6为本发明实施例1的加密模型训练的具体步骤示意图；

图7为本发明实施例1的模型集成学习的具体步骤示意图；

图8为本发明实施例1的预测结果生成的具体步骤示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

在本实施例中，在进行联邦训练之前，联邦学习从业者需要确定参与方和服务器，并创建联邦学习环境。参与方需要准备本地训练数据集和根据实际应用场景确定的本地神经网络模型。

在本实施例中，以锂电池产业链为例，参与方为参加联邦学习的供应链上下游成员企业，可信计算平台为阿里云。为了便于描述，上、中、下游各选择一家企业作为实例，且各企业数据集仅包含部分特征。其中，F1：某上游铜箔制造商，本地训练数据集包括时间字段、历史订单X1、库存数据X2、生产计划X3；F2：某中游电芯制造商，本地训练数据集包括时间字段、客户合同X4、生产计划X5、产能数据X6、历史采购需求(标签)Y；F3：某下游新能源汽车企业，本地训练数据集包括时间字段、销售利润X7、生产计划X8、客户订单X9。为满足模型集成，规定基学习器池由LSTM、CNN、GRU三类时序预测模型作为基学习器，元学习器采用XGBoost。由此，中游企业F2可基于上述数据与模型，借助第三方(阿里云)精确、安全地预测未来的物料采购需求。协同采购场景下，成员企业具备重叠的数据空间，可按时间周期进行数据对齐，满足垂直联邦学习的设定。通过多个参与方联合建模，达到扩充特征数量，能够大大提升采购需求的预测能力。

如图1、图2及图3所示，本发明提供的供应链采购需求智能集成预测方法，包括以下基本步骤：

S1、构建成员私有数据集；

在本实施例中，各供应链成员基于预定规则提取与需求预测目标产品相关联的上、下游产品信息，于本地完成数据清洗预处理、特征选择，生成私有数据集D_F1、D_F2、D_F3；

在本实施例中，F1～F3代表供应链协同成员公司。加密实体对齐等操作。在本实施例中，上、下游产品信息包括但不限于：库存、生产计划以及销售订单。对齐后的数据参阅图2。

如图4所示，在本实施例中，构建成员私有数据集的步骤S1，还包括以下具体步骤：

S11、数据预处理；

在本实施例中，各供应链成员内部数据存储形式存在差异，不同系统的数据表和字段格式也不同。因此首先要在本地端对数据进行清洗，主要删除缺失值、异常值和重复的数据，归一化至统一量纲；接着对数据进行集成，合并相同含义的字段值，生成私有数据集D_F1、D_F2、D_F3；

S12、特征选择；

在本实施例中，为进一步消除无关变量的冗余数据对于预测的负面影响，对于给定任意两个特征(属性)，(X_F1，Y_F1)～D_F1计算其互信息：

其中，p(x＝x_i)代表特征X内第i个离散点的概率密度函数。根据不同阈值保留互信息值较大的特征作为输入；

S13、加密实体对齐；

如图5所示，在本实施例中，基于RSA同态加密算法生成的密钥对成员私有数据集的各个部分进行加密的具体步骤包括：

S131、阿里云生成公钥和私钥，在RSA同态加密中，公钥为(n,e)，私钥为(n,d)，在本实施例中，n为两个大质数p、q的乘积，e和d满足(e*d)mod((p-1)*(q-1))＝1；

S132、对要加密的明文进行编码，在本实施例中，采用例如统一转换为整数，随后对明文进行同态加密操作。将明文M的加密等价于对其进行指数运算：C＝M^emod n，其中C为密文；

S133、对密文进行同态加密操作，在本实施例中，将两个密文C1、C2的乘法操作等价于对其进行指数运算：C3＝C1*C2(mod n)，其中C3为密文；

S134、对密文进行解密操作，在本实施例中，将密文C的解密等价于对其进行指数运算：M＝C^dmod n，其中M为明文。

S2、加密模型训练；

在本实施例中，在确定公有加密实体后，供应链成员基于公有数据集D协同地训练机器学习模型，首先，基于加密信息交互完成本地端局部模型训练；接着，服务端接收局部参数后进行全局优化；随后服务端下发更新后的全局模型参数至参与方，反复迭代直至模型收敛。垂直联邦学习的引入，使得全局模型可以在不访问原始成员数据的情况下，仅通过局部模型的梯度更新模拟在全局数据上的预测效果。具体而言，可采用常规的FedAvg聚合方法，即计算多个参与方模型梯度的平均值作为全局模型的更新值。

如图6所示，加密模型训练的步骤S2，还包括以下具体步骤：

S21、可信计算平台S(服务端)创建加密秘钥，将公钥发送给协同成员F1、F2、F3(客户端)；

S22、从初级学习器池随机选择一个本地模型作为初始化基学习器，同时参与方随机初始化本地模型参数θ；

S23、就服务端S(阿里云为例)而言，假定K＝3表示参与方(客户端)的个数；B表示每一次本地更新时的数据量，即批大小；E为本地更新的次数，η表示学习率。针对每一轮迭代：首先以一定比例C计算随机m个参与方：m＝max(C·K,1)；接着，并行计算所有选中参与方，更新其本地参数(i代表第i个参与方)得到/>加密后传输至服务端；最后，服务端解密后整合所有/>得到最新的全局参数/>完成本轮的参数更新；

S24、对于参与方(客户端)而言，首先将私有数据集按照批大小B划分成若干块；接着，算出每一块数据(b)损失的梯度，然后基于随机梯度下降法(SGD)更新梯度：最后，重新计算的梯度结合附加隐私掩码R_Fi加密后上传至服务端；

S25、针对基学习器池的每个时序模型重复前述步骤S23与S24，直至所有全局基学习器收敛。

S3、模型集成学习；

在本实施例中，基于stacking方法确定元学习器，计算合适的权重，修正上一步训练好的多个初级学习器灵敏性差异，提升预测模型的泛化能力。在这里我们选择三个常规的神经网络模型[CNN，LSTM，GRU]作为基学习器池，通过结合模型各自在周期序列处理的优点，达到预测性能提升的目的；元学习器则选择XGBoost模型，采用了正则化与列抽样的方法，一定程度上抑制了过拟合现象，泛化能力较强；同时损失函数中引入了二阶导数，拥有较高准确性。

如图7所示，在本实施例中，模型集成学习的步骤S3，包括以下具体步骤：

S31、数据集构建；

在本实施例中，拆分已加密公有数据集D，训练集和测试集分别表示为：

D_train＝{(x_i,y_i)|i＝1,2,…,m}

D_test＝{(x_i,y_i)|i＝m+1,m+2,…,n}

其中，p为样本特征维度，y_i为需求预测标签。进一步针对原始训练集D_train，随机且平均分成k部分,那么第j部分表示为/>剩余部分表示为/>

S32、K折交叉验证；

在本实施例中，基学习器索引κ决定了可信计算平台S当前训练的模型M_κ，为了生成stacking框架中元学习器的数据集，基于K折交叉验证聚合多个基学习器的预测结果，具体方式是：M_κ分别利用和/>作为训练集和测试集构建k个交叉验证子模型，每个交叉验证子模型对子模型中的测试集/>将得到预测结果P_i,j；对原始测试集D_test得到预测结果R_i,j。通过k个交叉验证子模型，初级学习器M_κ从原始的训练集和测试集中，分别得到预测向量：

其中，为k次交叉验证过程对第n个样本的预测均值；

S33、针对每一个基学习器，重复前述步骤S32；在本实施例中，由于这里共有3个基学习器，则可生成预测矩阵P＝[{₁,…,P_k]^3×m,R＝[r_m+1,…,r_n]^3×(n-m)，则元学习器训练集与测试集特征可表示为：

在本实施例中，元学习器为XGBoost，则其关于采购需求预测的树模型表示为：

其中：K表示树的总数；f_k代表第k棵树；表示对特征向量x_i的预测结果。进而XGBoost的损失函数由两部分组成，其中第1部分为预测误差，第2部分为模型结构的复杂程度：

其中n表示样本总数；r表示损失函数；Ω(f_k)表示第k棵树的复杂度；ω_j表示树结构中第j个叶子节点的预测值。

S34、模型评估；

在本实施例中，基于均方根误差(RMSE)、平均绝对误差(MAE)、R²分数综合评估模型性能：

其中,y_i为真值，表示模型预测值，/>表示真实值的平均，n为数据条数。RMSE对于较大误差的权重较高，取值范围[0,+∞]，越小越好；MAE中误差值的权重一致，取值范围[0,+∞]，越小越好；R²则是对预测结果与真实值间差距的平方进行归一化，方便比较模型间的差距，取值范围[0,1]，越接近1表示模型越好。

S4、模型预测结果生成；

在本实施例中，新样本的特征也分散于各个参与方中，并且不能对外公开，每个参与方知道自己的特征，但是对其他参与方的特征一无所知。因此，分类过程需要在隐私保护的协议下，由服务端S发起计算，各参与方协调进行，返回本地计算结果，再由服务端统一汇总形成最终结果。

如图8所示，在本实施例中，预测结果生成的步骤S4，还包括以下具体步骤：

S41、可信计算平台X(服务端)查询与当前需求预测相关供应链成员id：[F_id]、待预测样本id：[X_id]以及基学习器索引κ，并向各参与方统一下发[F_id、X_id、κ]；

S42、参与方接受预测指令后，构建对应预测数据集，并根据κ采取相应基学习器完成预测，上传本地预测结果；

S43、服务端接收到回传的预测结果，统一汇总后，执行下一轮基学习器预测，迭代前述步骤S41至S43，直至所有基学习器完成预测；

S44、元学习器根据所有基学习器的输出作为输入特征，形成模型最终的集成预测结果。

综上，本发明可在确保各供应链成员方数据隐私安全的同时，建立低风险信息共享机制，充分发挥协同采购的优势，实现高维大数据环境下供应链采购求的智能预测。本发明与现有技术相比解决了协同采购时存在企业隐私数据泄露、单一预测模型存在灵敏度盲区、易于过拟合的缺陷。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.供应链采购需求智能集成预测方法，其特征在于，所述方法包括：

S1、使供应链成员提取预测目标产品的关联上、下游产品信息，对所述关联上、下游信息进行清洗预处理、特征选择操作，以构建得到成员私有数据集D_F1、D_F2、D_F3，据以进行加密实体对齐，得到加密实体；

S2、根据所述加密实体的加密信息，使供应链成员基于公有数据集D进行垂直联邦学习，以协同训练预置机器学习模型，以得到加密模型；

S3、对所述加密模型，基于stacking方法确定元学习器XGBoost以及基学习器，以进行集成学习并计算权重，修正所述加密模型中，不少于2个初级学习器的灵敏性差异，以得到集成模型；

S4、在预置隐私保护协议下，根据所述集成模型，利用服务端向各协调方发起预测计算，以得到并返回所述参与方的本地计算结果，利用所述服务端汇总生成采购需求预测结果。

2.根据权利要求1所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S1包括：

S11、数据预处理；

在所述参与方，删除所述关联上、下游信息的缺失值、异常值以及重复数据，归一化至统一量纲，以得到清洗数据；

S12、集成处理所述清洗数据，以合并相同含义字段值，据以生成所述私有数据集D_F1、D_F2、D_F3；

式中，p(x＝x_i)代表特征X内第i个离散点的概率密度函数；

S14、根据预设阈值，保留适用输入特征；

S15、根据所述适用输入特征，进行加密实体对齐，据以确定所述加密实体。

3.根据权利要求2所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S15包括：

S151、利用预置云工具，生成公钥和私钥；

S152、对所述加密信息中的待加密明文进行编码，以得到密文；

S153、利用下述逻辑对所述密文进行同态加密操作：

C3＝C1*C2(mod n)

式中，C1、C2为所述密文，C3为同态加密密文；

S154、利用下述逻辑，对所述同态加密密文进行解密操作：

M＝C^dmod n

式中M为明文，RSA同态加密中，n为两个大质数p、q的乘积，C为待解密的密文。

4.根据权利要求1所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S2包括：

S21、利用所述服务端创建加密秘钥，将公钥发送给协同成员F1、F2、F3的客户端；

S22、所述服务端从初级学习器池随机选择一个本地模型作为初始化基学习器，所述客户端初始化本地模型参数θ；

S23、利用所述服务端，对所述初始化学习器进行迭代操作，以对所述预置机器学习模型进行参数更新，以得到新全局参数；

S24、利用所述客户端，根据所述本地模型参数θ，处理得到并上传梯度结合附加隐私掩码至所述服务端；

S25、针对基学习器池中的每个时序模型，重复执行所述步骤S23至S24，直至所有全局基学习器收敛。

5.根据权利要求1所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S3包括：

S31、拆分已加密公有数据集D，以得到原始训练集、原始测试集：

D_train＝{(x_i,y_i)|i＝1,2,…,m}

D_test＝{(x_i,y_i)|i＝m+1,m+2,…,n}

式中，p为样本特征维度，y_i为需求预测标签；

S32、将所述原始训练集D_train，随机平均分成k部分，以得到平分训练集；

S32、根据所述平分训练集、所述测试集，对所述加密模型进行K折交叉验证，以生成stacking框架元学习器数据集；

S33、针对每一个所述基学习器，重复执行所述步骤S32，以得到所述当前优化基学习器；

S34、对所述当前优化基学习器，求取均方根误差RMSE、平均绝对误差MAE以及分数综合评估模型性能，据以进行模型评估：

6.根据权利要求5所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S33包括：

S331、对所述基学习器，生成预测矩阵：

P＝[P₁,…,P_k]^3×m,R＝[r_m+1,…,r_n]^3×(n-m)；

S332、利用下述逻辑表达所述元学习器的训练集与测试集特征

7.根据权利要求6所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S332中，对所述元学习器XGBoost，利用下述逻辑表达采购需求预测树模型：

所述元学习器XGBoost的损失函数包括：预测误差Obj(σ)以及模型结构复杂程度Ω(f_k)：

式中，n表示样本总数，r表示损失函数，Ω(f_k)表示第k棵树的复杂度，ω_j表示树结构中第j个叶子节点的预测值，γ、λ分别是L1、L2正则的权重因子，σ是抽象的机器学习模型内部参数。

8.根据权利要求5所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S34包括：

S341、利用下述逻辑求取所述均方根误差RMSE、所述平均绝对误差MAE；

S342、利用下述逻辑，求取所述当前优化基学习器的所述分数综合评估模型性能R²，据以进行模型评估：

9.根据权利要求1所述的供应链采购需求智能集成预测方法，其特征在于，所述步骤S4包括：

S41、在所述服务端查询与当前需求预测相关的所述供应链成员的id：[F_id]、待预测样本id：[X_id]以及基学习器索引κ，并向各所述客户端下发所述供应链成员的id：[F_id]、所述待预测样本id：[X_id]以及以及所述基学习器索引k；

S42、参与方接受所述供应链成员的id：[F_id]、所述待预测样本id：[X_id]以及以及所述基学习器索引κ，据以构建对应预测数据集，并根据所述基学习器索引κ，利用相应基学习器进行预测并上传本地预测结果；

S43、所述服务端接收并汇总所述本地预测结果，执行下一轮基学习器预测，迭代执行所述步骤S41至所述步骤S43，直至所有所述基学习器完成预测；

S44、利用所述元学习器，以所有所述基学习器的输出作为输入特征，生成所述采购需求预测结果。

10.供应链采购需求智能集成预测系统，其特征在于，所述系统包括：

私有数据集构建模块，用以使供应链成员根据提取预测目标产品的关联上、下游产品信息，对所述关联上、下游信息进行清洗预处理、特征选择操作，以构建得到成员私有数据集D_F1、D_F2、D_F3，据以进行加密实体对齐，得到加密实体；

加密模型训练模块，用以根据所述加密实体的加密信息，使供应链成员基于公有数据集D进行垂直联邦学习，以协同训练预置机器学习模型，以得到加密模型，所述加密模型训练模块与所述私有数据集构建模块连接；

模型集成学习模块，用以对所述加密模型，基于stacking方法确定元学习器XGBoost以及基学习器，以进行集成学习，计算合适的权重，修正所述加密模型中，不少于2个初级学习器的灵敏性差异，以得到集成模型，所述模型集成学习模块与所述加密模型训练模块连接；

预测结果生成模块，用以在预置隐私保护协议下，根据所述集成模型，利用服务端向各协调方发起预测计算，以得到并返回所述参与方的本地计算结果，利用所述服务端汇总生成采购需求预测结果，所述预测结果生成模块与所述模型集成学习模块连接。