CN113378243B

CN113378243B - 一种基于多头注意力机制的个性化联邦学习方法

Info

Publication number: CN113378243B
Application number: CN202110792988.XA
Authority: CN
Inventors: 胡凯; 陆美霞; 吴佳胜; 李姚根; 金俊岚
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-09-29
Anticipated expiration: 2041-07-14
Also published as: CN113378243A

Abstract

本发明公开了一种基于多头注意力机制的个性化联邦学习方法，其特征在于包含以下步骤：步骤一：搭建联邦学习局部模型多头注意力机制模型：将多头注意力机制用于最经典的卷积神经网络中，通过多头注意力机制，保留关键信息，更好地进行特征提取和选择，提高识别的准确性；步骤二：搭建联邦学习全局模型多头注意力机制模型：考虑到各个局部模型的个性化问题对全局模型的影响，在将全局模型参数发送给局部模型时，根据模型的个性化特性做出相应变化。本发明可以考虑到提取特征的相关性，以及考虑到各个客户端合理的个性化带来的数据差异性的方法，能够在保证准确率提高的基础上，增加数据的个性化程度。

Description

一种基于多头注意力机制的个性化联邦学习方法

技术领域

本发明属于隐私保护和数据安全技术领域，具体涉及一种基于多头注意力机制的个性化联邦学习方法。

背景技术

在人工智能领域，人们对隐私保护和数据安全的关注度也不断提高，联邦学习作为一种保护数据隐私的分布式的机器学习/深度学习框架，能够为数据孤岛，数据离散化严重，数据异构，数据分布不均衡等问题提供良好的解决方案。现阶段，机器学习和深度学习也在各领域获得了巨大成功，为联邦学习算法模型能够得到较好的性能奠定了基础。

但是常规的联邦学习算法为了方便，对于各局部模型参数仅仅做了平均化处理，既没有考虑到提取特征的相关性，也没有考虑到各个客户端合理的个性化带来的数据差异性。局部数据在局部模型训练一定迭代次数后的局部模型参数会对全局模型产生影响，相似的参与方可能拥有相似局部训练数据，而随机选取的参与方可能拥有不同的训练数据，相似数据在一定迭代次数训练的局部模型和不同的训练数据训练出的局部模型存在差异性，因此训练差异性较大的数据会产生非常不同的模型参数更新，因此，其存在既没有考虑到提取特征的相关性，也没有考虑到各个客户端合理的个性化带来的数据差异性的问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于多头注意力机制的个性化联邦学习方法，其可以考虑到提取特征的相关性，以及考虑到各个客户端合理的个性化带来的数据差异性的方法，能够在保证准确率提高的基础上，增加数据的个性化程度。

为实现上述技术目的，本发明采取的技术方案为：

一种基于多头注意力机制的个性化联邦学习方法，其特征在于包含以下步骤：

步骤一：搭建联邦学习局部模型多头注意力机制模型：将多头注意力机制用于最经典的卷积神经网络中，通过多头注意力机制，保留关键信息，更好地进行特征提取和选择，提高识别的准确性；

步骤二：搭建联邦学习全局模型多头注意力机制模型：考虑到各个局部模型的个性化问题对全局模型的影响，在将全局模型参数发送给局部模型时，根据模型的个性化特性做出相应变化。

上述的步骤一中搭建联邦学习局部模型多头注意力机制模型包含以下步骤：

第一步：从服务器获得最新的模型更新数据集为D_k，随机将数据集D_k划分为批量B的大小，将其放入网络模型训练；

第二步：搭建卷积层，采用最经典的卷积神经网络CNN，达到提取特征的目的，加入多头注意力机制，如式(1)、(2)和(3)所示，根据输入的特定部分的重要性根据其与输出的相关性计算一个权重，可以给到输入的元素分配一个相关分数，并忽略有噪声的部分，通过多头注意力机制，保留关键信息，更好地进行特征提取和选择，提高识别的准确性。

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (2)

其中，Q是查询矩阵，V和K是矩阵的键值，是缩放因子，用于调节，防止Q、K的内积太大，对queries，keys以及values进行n次不同的线性映射，学习到的线性映射分别映射到d_k,d_k以及d_v维，分别对每一个映射之后的得到的queries，keys以及values进行attention函数的Concat并行操作，生成d_v维的output值，/>是d_k/h，d_k/h以及d_v/h维度的多头注意力机制的权重矩阵，W^o是d₀维的输出权重矩阵；

第三步：局部更新模型参数，如式(4)所示，之后将当前局部模型参数，发送给全局模型。

ω←Concat(head₁，head₂，...，head_n)ω (4)

其中，对多头进行attention函数的Concat并行操作，是批梯度，α为学习率，ω为局部模型参数。

上述的步骤二中搭建联邦学习全局模型多头注意力机制模型包含以下步骤：

第一步：在全局模型上，设计和采用了一个适用于多头注意力机制的联邦学习上传和分配的框架，为了初步减少局部模型个性化问题对全局模型的影响，先用联邦平均算法聚合局部模型参数到全局模型，并将聚合后的模型更新发回给客户端，重复进行这一过程，直至模型收敛、达到最大迭代次数或者达到最大训练时间，保存此时的全局模型参数，将这一步骤作为预训练；

第二步：计算出当前局部模型参数和预处理后全局模型参数的距离，得出模型间的差异性从而为局部模型制定个性化系数，具体如式(6)、(7)所示。

其中，λ_k为初始聚合到全局模型的局部模型系数因子，w₀为预处理过后全局模型的权重参数，为第k个客户端当前在局部数据训练局部模型后的权重参数，计算预处理后权重参数和当前局部模型权重参数的差值，f函数保证数据在0到1之间，可以减少差异较大的数据的占比从而初步解决模型个性化问题对聚合的影响，减少数据噪声增加的风险，之后对数据做了归一化处理，保证多分类的概率之和为1；

第三步：按照局部模型参数和预处理后全局模型参数的差异性将局部模型的模型参数聚合到全局模型，将局部的更新模型参数赋予个性化系数λ_k后发送给服务器，服务器将接收到的模型参数进行聚合，最后对收到的模型参数使用加权平均，具体如式(8)所示。

其中，n_k为第k个参与方的局部数据量，为此时局部模型的参数，之后服务器将聚合后的模型参数/>发送给所有参与方；

第四步：对于联邦平均算法对模型个性化的影响，计算全局模型参数在当前局部模型上的重要性得分，将其作为注意力头系数分配给局部模型，具体如式(9)、(10)所示。

其中，为局部数据训练局部模型的参数更新，θ_i为根据局部的个性化问题给全局模型的权重赋予变量系数，将变量系数和全局模型的参数相乘，将/>发送给各参与方。

本发明通过局部多头注意力机制可以帮助捕捉本地特征的相关性，提高本地模型的性能，从而增加模型参数的个性化程度；全局多头注意力机制可以在将全局模型参数发送给局部模型时，根据模型的个性化特性做出相应变化。

本发明的优点在于以下几点：可以考虑到提取特征的相关性，以及考虑到各个客户端合理的个性化带来的数据差异性的方法，能够在保证准确率提高的基础上，增加数据的个性化程度。

附图说明

图1为本发明局部模型多头注意力机制模型的工作流程图；

图2为本发明全局模型多头注意力机制模型的工作流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作出进一步说明：

一种基于多头注意力机制的个性化联邦学习方法，其特征在于：其特征在于包含以下步骤：

实施例中，步骤一中搭建联邦学习局部模型多头注意力机制模型包含以下步骤：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (2)

ω←Concat(head₁，head₂，...，head_n)ω (4)

实施例中，步骤二中搭建联邦学习全局模型多头注意力机制模型包含以下步骤：

本发明具体工作流程如下：首先按照WMO认可的27项极端气候指极端气候指数定义计算22个CMIP6模式的历史时期1961-2014和未来不同路径(ssp245,ssp585)下的强降水、连续干日、平均总降水、连续最大5日降水等气候指数；进一步按照IPCC组织推荐的定义，计算22个CMIP6模式输出的全球平均温升到达工业革命前水平的1.5度、2度、3度的时间点前后20年年的数据切片；进而获得训练期、检验期和预估期的模式资料；根据所采用的来自于中国气象局的0.5×0.5°逐日观测降水数据集(CN5.1)的空间格点信息，采用双线性插值插值算法，将模式结果插值到与观测资料空间分辨率一致的0.5×0.5°的格点上，得到格点化降水；为了消除不同参量间的数值范围的影响，将每个模式的5个时段的四个极端气候指数数据进行标准化，采用数据减去原始数据平均值除以标准方差进行标准化；最后将每个模式的5个时段的四个极端气候指数数据由空间格点的时间序列按照时间-空间交替的顺序映射成一列一维的数据，将22个不同CMIP6模式的映射数据的按照模式名的首字母顺序排列成一个二维数据矩阵，最后一列为观测结果，进而得到集成的数据集；将数据集中的1961-1993年训练数据集分别输入到BP神经网络、LSTM神经网络、卷积神经网络、K均值聚类算法、随机森林、多元线性回归等6种机器学习模型，利用不同机器学习模型的参数优化函数，优化调整6种学习模型的输入参数，得到参数最优调整的参数化的机器学习模型；将1994-2014年数据输入训练好的机器学习模型，采用对应观测数据，评估机器预估结果；评估指标采用不同机器模型输出结果与观测数据空间分布的相关系数及偏差大小计算的技巧分数评定，其中R为机器模型输出结果与观测相关系，σ_f为模型与观测的方差接近程度，R₀为模型与观测的最高相关系数。模型模拟性能越好，其S分数越高；根据模式模拟性能的技巧评分S，给不同模式分配集成的权重，其中第i个机器学习模型对应的集成权重由/>决定，构成集成的最优机器学习模型；最后输入未来不同增温下的预估数据，利用集成的模型给出最优的概率集成预估，即降水变化相对目前1994-2014年参考阶段的值超过某一阈值(ΔT_th)的概率P，则可用式表示：/>

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于多头注意力机制的个性化联邦学习方法，其特征在于包含以下步骤：

步骤二：搭建联邦学习全局模型多头注意力机制模型：考虑到各个局部模型的个性化问题对全局模型的影响，在将全局模型参数发送给局部模型时，根据模型的个性化特性做出相应变化；

所述的步骤一中搭建联邦学习局部模型多头注意力机制模型包含以下步骤：

第二步：搭建卷积层，采用最经典的卷积神经网络CNN，达到提取特征的目的，加入多头注意力机制，如式(1)、(2)和(3)所示，根据输入的特定部分的重要性根据其与输出的相关性计算一个权重，可以给到输入的元素分配一个相关分数，并忽略有噪声的部分，通过多头注意力机制，保留关键信息，更好地进行特征提取和选择，提高识别的准确性：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (2)

这里，

其中，Q是查询矩阵，V和K是矩阵的键值，是缩放因子，用于调节，防止Q、K的内积太大，对queries，keys以及values进行n次不同的线性映射，学习到的线性映射分别映射到d_k,d_k以及d_v维，分别对每一个映射之后的得到的queries，keys以及values进行attention函数的Concat并行操作，生成d_v维的output值，W_i ^Q，W_i ^K，W_i ^V是d_k/h，d_k/h以及d_v/h维度的多头注意力机制的权重矩阵，W^O是d_o维的输出权重矩阵；

第三步：局部更新模型参数，如式(4)所示，之后将当前局部模型参数，发送给全局模型：

ω←Concat(head₁,head₂,…,head_n)ω (4)

其中，对多头进行attention函数的Concat并行操作，是批梯度，α为学习率，ω为局部模型参数；

所述的步骤二中搭建联邦学习全局模型多头注意力机制模型包含以下步骤：

第二步：计算出当前局部模型参数和预处理后全局模型参数的距离，得出模型间的差异性从而为局部模型制定个性化系数，具体如式(6)、(7)所示：

第三步：按照局部模型参数和预处理后全局模型参数的差异性将局部模型的模型参数聚合到全局模型，将局部的更新模型参数赋予个性化系数λ_k后发送给服务器，服务器将接收到的模型参数进行聚合，最后对收到的模型参数使用加权平均，具体如式(8)所示：

第四步：对于联邦平均算法对模型个性化的影响，计算全局模型参数在当前局部模型上的重要性得分，将其作为注意力头系数分配给局部模型，具体如式(9)、(10)所示：

其中，为局部数据训练局部模型的参数更新，θ_k为根据局部的个性化问题给全局模型的权重赋予变量系数，将变量系数和全局模型的参数相乘，将/>发送给各参与方。