CN116645130A

CN116645130A - 基于联邦学习与gru结合的汽车订单需求量预测方法

Info

Publication number: CN116645130A
Application number: CN202310421463.4A
Authority: CN
Inventors: 杨科华; 王鹏; 姚成伟
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-08-25

Abstract

本发明公开了一种基于联邦学习与GRU结合的汽车订单需求量预测方法，包括获取历史汽车订单数据并处理得到训练数据集和验证数据集；采用构建的训练数据集训练GRU模型构建GRU预测模型；针对GRU预测模型进行处理构建最终的GRU预测模型；采用基于联邦学习的方法针对最终的GRU预测模型进行训练处理，构建若干客户端本地模型；采用知识蒸馏的方法针对构建的若干个客户端本地模型进行迁移处理，构建联邦学习全局预测模型；采用构建的联邦学习全局预测模型，完成对汽车订单需求量的预测处理；本发明充分考虑预测信息，有效保障数据的隐私安全；而且本发明的预测精度高、通信成本低、模型稳定性强。

Description

基于联邦学习与GRU结合的汽车订单需求量预测方法

技术领域

本发明属于联邦机器学习与需求预测技术领域，具体涉及一种基于联邦学习与GRU结合的汽车订单需求量预测方法。

背景技术

在目前的机器学习中，针对汽车订单需求量进行预测的方法基本要使用大量的订单数据，通过集中式机器学习来训练模型，但集中式机器学习也会受限于单服务器的计算资源有限，大规模的数据会导致训练速度不佳等问题，严重阻碍机器学习的发展。虽然提出了分布式机器学习，但中心服务器需要收集使用多个下游零售商的订单数据进行模型训练，数据在传输过程中完全裸露，这无疑会导致零售商的真实数据泄露，致使数据隐私与数据安全无法得到保障，同时也面临着零售商可能不愿意提供数据的难题。

为了保护终端设备用户或零售商的敏感数据，同时又能满足于集中式机器学习的模型精度要求，降低中心服务器的资源负载，联邦学习应运而生。联邦学习作为一种分布式机器学习技术，各客户端无需上传其敏感数据，而只需共享其本地模型参数更新，中心服务器通过与终端设备不断通信传输信息，并且传输过程是经过加密的，中心服务器会聚合来自各客户端的本地模型，聚合后的模型成为下一轮迭代的全局模型，重复这个过程，直到中心服务器全局模型收敛，因此联邦学习能够使多个参与方在保护数据隐私、满足合法合规的要求下进行机器学习，并得到最终的可用模型。

但在联邦学习中，终端设备与中心服务器需要多轮通信交互才能够获得目标精度的全局模型对于复杂的模型训练，如：深度学习模型的训练，每次模型更新可能包含数百万个参数，每一次的更新模型将耗费大量的通信成本，甚至成为模型训练瓶颈；此外，由于终端设备的异构性，每个设备网络状态的不可靠性以及互联网连接速度的不对称性，如：下载速度大于上传速度，也将导致终端设备上传更新参数延迟，致使模型训练瓶颈进一步恶化。

综上所述，在当前的预测方法中，大多数方法的模型建立存在一定的问题；且用户数据的保密性不够，预测的准确度仍有待提高。

发明内容

本发明的目的在于提供一种预测精度高、通信成本低、数据安全性强的基于联邦学习与GRU结合的汽车订单需求量m预测方法。

本发明提供的这种基于联邦学习与GRU结合的汽车订单需求量预测方法，包括如下步骤：

S1.获取历史汽车订单数据，针对得到的数据进行预处理，并构建训练数据集和验证数据集；

S2.采用步骤S1构建的训练数据集，针对GRU模型进行训练处理，构建GRU预测模型；

S3.采用动态规划的方法针对步骤S2构建的GRU预测模型进行处理，构建最终的DP-GRU预测模型；

S4.采用基于联邦学习的方法针对步骤S3构建的DP-GRU预测模型进行训练处理，构建若干个客户端本地模型；

S5.采用知识蒸馏的方法针对步骤S4构建的若干个客户端本地模型进行迁移处理，构建联邦学习全局预测模型；

S6.采用步骤S5构建的联邦学习全局预测模型，完成对汽车订单需求量的预测处理。

步骤S1所述的获取历史汽车订单数据，针对得到的数据进行预处理，并构建训练数据集和验证数据集，具体包括：

(1)获取历史汽车订单数据，针对其中缺失的数据进行补充；

(2)将步骤(1)得到的历史数据转换为时间序列数据，X＝[x₁,x₂,…,x_t-1,x_t]，同时设定时间步timestep，根据前timestep的数据预测后面的数据；

(3)将步骤(2)得到的时间序列数据按照设定尺寸的时间窗格式，转化成一个二维的矩阵，针对二维数据矩阵利用softmax函数进行归一化处理，并设定映射后数据值域的上界值和下界值。

步骤S2所述的采用步骤S1构建的训练数据集，针对GRU模型进行训练处理，构建GRU预测模型，具体包括：

采用下述公式描述GRU预测模型：

其中，x_t是时刻t的输入变量，r_t为重置门在时刻t的输出变量或权重，z_t为更新门在时刻t的输出变量或权重，h_t为当前时刻t的状态记忆变量，h_t-1为上一时刻t-1的状态记忆变量，为候选集，/>W_r、W_z分别为候选集、更新门和重置门的权重系数，σ为sigmoid激活函数，[·]为两个向量间的连接，*为矩阵间的乘积；

采用Dropout方法针对GRU模型训练过程中存在的过拟合问题进行处理；

在模型的输出端采用全连接层，并选择ReLU作为激活函数，得到模型的预测值，采用下述公式进行表示：

其中，为GRU模型在t时刻的一个输出值，W_o为输出层的权重，b_o为偏置项。

步骤S3所述的采用动态规划的方法针对步骤S2构建的GRU预测模型进行处理，构建最终的DP-GRU预测模型，具体包括：

将步骤S1中设定的timestep的序列任务转换为若干个长度为p的预测任务，p为输入值x_i的个数；在构建预测t+1时刻的模型输入时，将t-1时刻的输入向量X_t-1和t时刻的预测值Y_t同时引入，使得模型在预测t+1时刻的信息时能够考虑之前的预测信息；

设置模型输入序列X，长度为p；输出序列Y，长度为q；l为滚动步长，且0≤l≤p，0≤p-l≤q，得到模型输入向量序列的更新公式，表示如下所示：

X_t＝X_t-1[x′₁,x′₂,…,x′_l]+Y_t[y₁,y₂,…,y_p-l]

其中，X_t由X_t-1和Y_t组成，X_t-1为DP-GRU模型预测t时刻的预测值Y_t的输入序列，x′₁,x′₂,…,x′_l为上一时刻逆序选择的l个输入值，y₁,y₂,…,y_p-l为顺序选择的p-l个预测值，每个时刻都可以滚动选择l个输入值与p-l个预测值作为下一时刻的输入序列；采用下述公式表示最终的t+1时刻的预测结果：

Y_t+1＝f_GRU(X_t)

其中，f_GRU(·)为设置的GRU模型参数更新公式，Y_t+1为t+1时刻的预测结果。

步骤S4所述的采用基于联邦学习的方法针对步骤S3构建的最终的GRU预测模型进行训练处理，构建若干个客户端本地模型，具体包括：

1)通过云中心服务器初始化全局模型W_G，并初始化全局变量，包括：定义所有边缘客户端的数目为N，给定的客户端数量为M个,n_k为客户端k拥有的数据量，n＝n₁+…n_M为M个客户端的总数据量，向量表示客户端被选择参与训练的离散概率分布，表示客户端k在每一轮通信中被选择的概率，注意力向量分数为边缘客户端选择概率分布为P＝[p₁,p₂,…,p_M]，每个客户端的注意力向量分数对应于客户端被选中参与训练的概率，并在第一轮通信中初始化

2)采取动态规划客户端方案，在联邦学习训练初始时，选择设定数量的边缘客户端参与到本地训练中，随着通信轮次不断增加，不断增加参与到本地训练中的边缘客户端数量，直到最终模型收敛或所有客户端都加入到训练中为止；

3)在第t轮通信时，云中心服务器根据客户端选择概率分布P＝[p₁,p₂,…,p_k]从客户端子集S_t中随机选择K个客户端加入到本地训练中，W_i ^(t)表示在第t轮通信时第i个客户端返回的本地模型训练结果；

4)各个边缘客户端首先获取当前通信轮次的全局模型然后采取随机梯度下降方法，使用本地训练集数据对GRU预测模型进行本地训练；

当本地训练结束后，将训练得到的网络输出值调用scaler.inverse_transform()函数进行反归一化处理，需要注意的是输出的预测值的shape要和归一化前的数据shape一致，再计算各个客户端的真实值与预测值之间的误差，判断误差是否满足设定的预测精度要求，若满足要求则对测试集进行预测；若不满足要求则各个本地客户端会将自己的本地模型权重参数W_i ^(t)及其他参数信息经加密后返回给云中心服务器；

5)云中心服务器收到各个客户端发送的本地模型参数信息后，基于注意力机制，云中心服务器会首先使用欧氏距离来度量每个参与训练的边缘客户端本地模型与全局模型之间的差异，采用下述公式进行表示：

其中，为第t轮训练后客户端i的欧氏距离，也就是客户端i的本地模型与全局模型之间的差异，/>为第t+1轮时的全局模型，W_i ^(t)为第t轮时客户端i上传给中心服务器的本地模型，||·||表示计算欧氏距离；

获取差异后，对于参与训练的每个客户端，更新其注意力向量分数，采用下述公式描述更新公式：

其中，α为注意力分数衰减率，且α∈[0,1]，为客户端i在第t轮时的注意力向量分数，/>为客户端i在第t+1轮时的注意力向量分数，/>为当前轮次参与训练的客户端集合S_t中客户端k在第t轮时的注意力向量分数，/>为客户端k在第t轮时的欧氏距离，/>为客户端i在第t轮时的欧氏距离；

对于每一个没有被选择参与到训练中的边缘客户端j，令同时更新客户端选择概率分布/>针对欧氏距离不满足设定数值的客户端，或本地模型性能不满足设定要求的客户端而言，在下一轮通信将提高被选中参与到本地训练中的概率，从而减少全局模型在所有边缘客户端中的性能差异性；

6)云中心服务器对所有得到的客户端模型进行加权聚合，采用下述公式表示模型聚合：

得到加权平均处理后的模型参数W^(t+1)。

步骤S5所述的采用知识蒸馏的方法针对步骤S4构建的若干个客户端本地模型进行迁移处理，构建联邦学习全局预测模型，具体包括：

假设客户端为N＝{1,2,…,n}，每个客户端i只能访问本地的隐私数据集D_i，采用下述公式描述损失函数：

式中L_i(W_G,D_i)为客户端i的本地损失函数，k表示客户端i的本地数据D_i的样本数量，ω_i为模型训练参数，x_j为输入数据，y_j为实际输出数据，f(x_j)为DP-GRU模型的预测输出数据；利用SGD算法优化损失函数，通过梯度下降法改变参数ω_i从而最小化本地损失函数，加速收敛；

其中L(W_G)为全局模型的损失函数，N是客户端集合，| |为获取总的客户端数目，为获取一个全局模型W_G，使得损失函数最小；

在损失函数公式的基础上，重新定义客户端i采取知识蒸馏后的本地损失函数L_per,i(W_i)，采用下述公式进行描述：

其中，L_i(W_G,D_i)为未进行知识蒸馏之前的客户端i的本地损失函数；s为student，表示联邦学习全局模型；t为teachers，表示集成后的本地模型；D_p表示公共数据集，每个参与训练的客户端均能够访问；σ(·)为softmax函数，L_KL(·)表示Kullback-Leiblerdivergence函数，λ∈(0,1)为加权系数，用于控制student学习teachers的程度，T为蒸馏温度；

知识蒸馏方法通过基于梯度下降的优化方式，训练联邦学习全局模型与集成后的本地模型，使得联邦学习全局模型与集成后的本地模型具有相似的泛化能力，进行J轮蒸馏，在蒸馏过程中，各个本地模型通过蒸馏样本数据集n得到各自模型的logit输出f(W_i ^(t),n)，并用于训练云中心服务器上的联邦学习全局模型，知识蒸馏过程中的模型参数更新采用下述公式表示：

其中，W^(t,j)表示第t轮训练中第j次蒸馏的全局模型，j表示第j次蒸馏，η表示学习率，L表示客户端i的本地蒸馏损失函数，f(·)表示本地模型的logit输出的求解函数，logit输出也就是该模型的最后一个全连接层的输出，将各个本地模型的logit输出的平均值作为整体迁移的知识；

经过J轮知识蒸馏，令：

为新的全局模型，模型训练进入下一轮的迭代；重复上述步骤，直至全局模型收敛，得到最终的联邦学习全局预测模型/>同时联邦学习训练结束。

本发明提供的这种基于联邦学习与GRU结合的汽车订单需求量预测方法，提出基于动态规划思想改进的GRU网络预测模型，使得模型充分考虑预测信息；同时将GRU模型与联邦学习相结合，有效保障数据的隐私安全，针对各个汽车零售商的汽车订单需求量进行预测，解决“梯度弥散”和“梯度爆炸”问题；引入基于欧氏距离的注意力机制，提高所有边缘客户端设备对于全局模型的整体收益；而且本发明的预测精度高、通信成本低、模型稳定性强。

附图说明

图1为本发明方法的方法流程示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于联邦学习与GRU结合的汽车订单需求量预测方法，包括如下步骤：

S1.获取历史汽车订单数据，针对得到的数据进行预处理，并构建训练数据集和验证数据集；具体包括：

(1)获取历史汽车订单数据，针对其中缺失的数据，例如某款汽车缺少某个日期的订单量，使用加权平均的方法对其进行补充；

(3)将步骤(2)得到的时间序列数据按照设定尺寸的时间窗格式，转化成一个二维的矩阵，针对二维数据矩阵利用softmax函数进行归一化处理，并设定映射后数据值域的上界值和下界值；本发明中将上界值设定为1，下界值设定为-1；

S2.采用步骤S1构建的训练数据集，针对GRU模型进行训练处理，构建GRU预测模型；具体包括：

采用下述公式描述GRU预测模型：

采用Dropout方法针对GRU模型训练过程中存在的过拟合问题进行处理；本发明中将Dropout的抛弃阈值设置为0.2；

其中，为GRU模型在t时刻的一个输出值，W_o为输出层的权重，b_o为偏置项；

S3.采用动态规划的方法针对步骤S2构建的GRU预测模型进行处理，构建最终的DP-GRU预测模型；具体包括：

X_t＝X_t-1[x′₁,x′₂,…,x′_l]+Y_t[y₁,y₂,…,y_p-l]

Y_t+1＝f_GRU(X_t)

其中，f_GRU(·)为设置的GRU模型参数更新公式，Y_t+1为t+1时刻的预测结果；

S4.采用基于联邦学习的方法针对步骤S3构建的最终的GRU预测模型进行训练处理，构建若干个客户端本地模型；具体包括：

1)通过云中心服务器初始化全局模型W_G，并初始化全局变量，包括：定义所有边缘客户端的数目为N，给定的客户端数量为M个,n_k为客户端k拥有的数据量，n＝n₁+…n_M为M个客户端的总数据量，向量表示客户端被选择参与训练的离散概率分布，表示客户端k在每一轮通信中被选择的概率，注意力向量分数为边缘客户端选择概率分布为P＝[p₁,p₂,…,p_M]，每个客户端的注意力向量分数分别对应于客户端被选中参与训练的概率，并在第一轮通信中初始化

2)采取动态规划客户端方案，在联邦学习训练初始时，选择设定数量的边缘客户端参与到本地训练中，随着通信轮次不断增加，逐步增加参与到本地训练中的边缘客户端数量，直到最终模型收敛或所有客户端都加入到训练中为止；在本发明的训练最开始时，只随机选择10％的边缘客户端参与到训练中，每经过固定ΔT通信轮次后，多选择10％的边缘客户端加入到训练中，直到最终模型收敛或所有客户端都加入到训练中为止；

得到加权平均处理后的模型参数W^(t+1)；

S5.采用知识蒸馏的方法针对步骤S4构建的若干个客户端本地模型进行迁移处理，构建联邦学习全局预测模型；具体包括：

经过J轮知识蒸馏，令：

为新的全局模型，模型训练进入下一轮的迭代；重复上述步骤，直至全局模型收敛，得到最终的联邦学习全局预测模型/>同时联邦学习训练结束；

Claims

1.一种基于联邦学习与GRU结合的汽车订单需求量预测方法，包括如下步骤：

2.根据权利要求1所述的基于联邦学习与GRU结合的汽车订单需求量预测方法，其特征在于步骤S1所述的获取历史汽车订单数据，针对得到的数据进行预处理，并构建训练数据集和验证数据集，具体包括：

(1)获取历史汽车订单数据，针对其中缺失的数据进行补充；

3.根据权利要求2所述的基于联邦学习与GRU结合的汽车订单需求量预测方法，其特征在于步骤S2所述的采用步骤S1构建的训练数据集，针对GRU模型进行训练处理，构建GRU预测模型，具体包括：

采用下述公式描述GRU预测模型：

4.根据权利要求3所述的基于联邦学习与GRU结合的汽车订单需求量预测方法，其特征在于步骤S3所述的采用动态规划的方法针对步骤S2构建的GRU预测模型进行处理，构建最终的DP-GRU预测模型，具体包括：

X_t＝X_t-1[x′₁,x′₂,…,x′_l]+Y_t[y₁,y₂,…,y_p-l]

Y_t+1＝f_GRU(X_t)

5.根据权利要求4所述的基于联邦学习与GRU结合的汽车订单需求量预测方法，其特征在于步骤S4所述的采用基于联邦学习的方法针对步骤S3构建的最终的GRU预测模型进行训练处理，构建若干个客户端本地模型，具体包括：

当本地训练结束后，将训练得到的网络输出值调用scaler.inverse_transform()函数进行反归一化处理，需要注意的是输出的预测值的shape要和归一化前的数据shape一致，再计算各个客户端的真实值与预测值之间的误差，判断误差是否满足设定的预测精度要求，若满足要求则对测试集进行预测；若不满足要求则各个本地客户端将自己的本地模型权重参数W_i ^(t)及其他参数信息经加密后返回给云中心服务器；

其中，为第t轮训练后客户端i的欧氏距离，/>为第t+1轮时的全局模型，W_i ^(t)为第t轮时客户端i上传给中心服务器的本地模型，||·||表示计算欧氏距离；

得到加权平均处理后的模型参数W^(t+1)。

6.根据权利要求5所述的基于联邦学习与GRU结合的汽车订单需求量预测方法，其特征在于步骤S5所述的采用知识蒸馏的方法针对步骤S4构建的若干个客户端本地模型进行迁移处理，构建联邦学习全局预测模型，具体包括：

其中，L_i(W_G,D_i)为未进行知识蒸馏之前的客户端i的本地损失函数；s为student，表示联邦学习全局模型；t为teachers，表示集成后的本地模型；D_p表示公共数据集，每个参与训练的客户端均能够访问；σ(·)为softmax函数，L_KL(·)表示Kullback-Leibler divergence函数，λ∈(0,1)为加权系数，用于控制student学习teachers的程度，T为蒸馏温度；

经过J轮知识蒸馏，令：