CN116610958A

CN116610958A - 面向无人机群水库水质检测的分布式模型训练方法及系统

Info

Publication number: CN116610958A
Application number: CN202310735109.9A
Authority: CN
Inventors: 毛莺池; 王佳俊; 曾伟; 李金洁; 熊定松; 张本腾; 王龙宝; 吴启华; 秦鑫; 安可君; 戴继聪; 张巍明; 王四霞
Original assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-08-18

Abstract

本发明公开一种面向无人机群水库水质检测的分布式模型训练方法及系统，在每一轮训练过程中，无人机从参数服务器接收到全局模型，对接收到的全局模型进行迭代训练，将交叉熵损失函数替换为焦点损失函数，平衡各类别样本在总损失值中的占比，降低本地模型对多数类样本的偏好性；在本地训练结束之后，无人机将模型梯度和损失值上传到参数服务器，参数服务器从接收到的模型梯度中选择主导梯度，并根据主导梯度对所有本地梯度进行修正，来缓解本地模型梯度间的冲突，最终提高水质检测模型的精度。本发明降低了中央服务器的负载，避免了模型训练时敏感数据泄露的风险，解决本地梯度在全局聚合阶段产生梯度冲突的问题，有助于更准确地识别水质问题。

Description

面向无人机群水库水质检测的分布式模型训练方法及系统

技术领域

本发明涉及一种面向无人机群水库水质检测的分布式模型训练方法及系统，属于分布式计算和水质检测技术领域。

背景技术

随着深度神经网络、计算机算法和算力的发展，人工智能迎来了新的发展高峰。智能终端设备与云计算服务器的普及使得自然语言处理、计算机视觉等先进机器学习技术应用到我们的日常生活中。在水库水质检测系统中可能涉及到大量的敏感数据，如水位、水质监测数据、水库地理等信息，这些数据需要得到保护。使用传统的集中式学习方法可能会存在数据泄露的风险，而基于联邦刚学习的分布式训练可以在不共享原始数据的情况下进行模型训练，从而更好地保护数据隐私。此外，水库水质检测系统中存在多个无人机，使用传统的集中式学习方法需要将所有数据上传到中心服务器进行模型训练，会导致大量的通信开销和网络负载。而基于联邦学习的分布式训练可以在本地设备上进行模型训练，并只将模型参数上传到中心服务器进行聚合，从而降低通信开销和网络负载。

但是在水库水质检测系统中，无人机之间的数据是非独立同分的。具体来说，在不同的时间、不同的位置，受环境、光照、角度等因素的影响，从而导致采集到的数据具有一定的差异性。这种无人机之间的数据非独立同分布也称为数据异质性。数据异质性使得每个无人机在本地对水质检测模型进行迭代训练时，将本地模型向本地最优解的方向进行更新。由于数据异质性，所以无人机的本地最优解也不一致，因此本地梯度之间出现了较大的差异，导致全局聚合阶段产生了梯度冲突。梯度冲突会严重影响水质检测模型精度，因此如何缓解梯度冲突，来提高水质检测模型的精度，在无人机水库水质检测系统中变得至关重要。

为了缓解梯度冲突问题，数据增强、正则化和自适应等方法被相继提出。数据增强是将异质数据变为同质数据，避免梯度冲突现象的发生。但是这种方法通常需要某种形式的数据共享或依赖于代表总体数据分布的代理数据集的可用性，适用性在一定程度上受到限制。正则化方法通过扼制本地模型与全局模型的差距，来减少本地梯度的发散程度。但是通过这些方法训练出的本地模型依然对少数类样本识别性能较差而对多数类样本识别性能较好，本地模型的偏好性依然较强，所以全局聚合阶段的简单加权平均，仍然会产生梯度冲突问题，导致全局模型测试精度受损。

发明内容

发明目的：针对集中式水质检测模型训练时的隐私泄露风险、服务器负载高、通信带宽不足，以及分布式训练时梯度冲突导致的水质检测模型精度受损的问题，本发明基于焦点损失函数梯和主导梯度修正技术，提供了一种面向无人机群水库水质检测的分布式模型训练方法及系统，能够缓解本地模型对各类样本识别性能的差异，利用优质的主导梯度检测并修正存在冲突的梯度，从而避免在全局聚合阶段发生模型梯度冲突，提高水质检测模型的精度，避免因为误判或漏判导致对水质问题的忽视或延误处理，有助于及早发现水质问题，避免水质问题扩大和加剧，保障水质安全。

技术方案：一种面向无人机群水库水质检测的分布式模型训练方法，包括以下步骤：

1)无人机集群水库水质检测系统由N架带有本地数据集并具有模型训练能力的无人机和一个参数服务器组成。在每一轮训练之初，参数服务器随机选择K(0＜K＜N)(其中N为无人机的总数)个无人机参与该轮训练，并将全局模型w^t发送给选定的K个无人机。所述本地数据集包括溶解氧、PH值、悬浮物浓度、叶绿素含量、水温、水库水体表面图像、水库水位图像和水库周边环境图像等数据。

2)无人机接收来自参数服务器的全局模型w^t，将本地模型初始化为w^t，并在本地所拥有的数据集上进行E次本地迭代训练。在每次本地迭代训练过程中，将交叉熵损失函替换为重构后的焦点损失函数，来提高难分类样本对总损失值的贡献度，减小各类样本的训练损失差异。在本地训练结束后将本地梯度/>和本地损失/>上传到参数服务器。

3)参数服务器在接收到来自无人机的梯度和损失后，计算每个梯度的投影异常值和梯度异常值，其中梯度异常值越大说明梯度异常程度越小。然后将梯度异常值进行降序排列，选择前个梯度作为主导梯度，其中λ∈(0，1]表示主导梯度选取比率。

4)参数服务器检测接收到的本地模型梯度和主导梯度之间是否存在冲突。如果存在梯度冲突，为避免水质检测模型精度受损，可以根据主导梯度对本地模型梯度进行修正，从而减弱梯度冲突的程度。最后聚合修正后的本地模型梯度，生成新的全局模型。然后重复步骤1)-4)直到全局模型收敛或达到指定的通信轮次。使用最终得到的全局模型作为水质检测模型，并将水质检测模型下发到所有无人机。然后无人机根据水质检测模型和日常采集到的溶解氧、PH值、叶绿素含量和水库水体表面图像等数据对关键水质指标进行分类，然后收集所有无人机上的检测数据进行多指标综合水质评价和趋势分析。进一步的，所述步骤2)中的焦点损失函数如下：

FL(p_t)＝-β(1-p_t)^γlog(p_t)

其中β表示损失缩放参数，γ表示损失聚焦参数，p_t表示模型预测预测概率。以二分类为例，p_t的表示形式如下：

其中p∈[0，1]表示模型输出对类别标签为y＝1的样本的预测概率。

定义上传的模型梯度为：

其中t表示当前通信轮次，表示无人机k经过E次本地迭代训练所得到的本地模型，w^t表示本轮分布式训练之初，从参数服务器接收到的全局模型。

进一步的，所述步骤3)中无人机上的梯度投影异常值和梯度异常值的具体计算步骤如下：

无人机i的梯度投影异常值p_i计算公式如下：

其中K表示参与分布式训练的无人机的数量，p_i，j表示无人机i与无人机j的梯度投影异常值，p_i，j的计算公式如下：

其中表示无人机i的梯度模长，/>表示无人机i的梯度和无人机j的梯度夹角的余弦值。

由上述内容可知，p_i越大，梯度异常程度越小，说明当前梯度较优。我们用l_i表示无人机i的损失值，那么l_i越小，模型预测值与真实标签越相近，说明模型性能较好。为实现p_i与l_i具有相同单调性，设计用p_i与1/l_i相乘作为对梯度异常值的衡量标准。无人机i的梯度异常值z_i计算公式如下：

其中p_i代表了更新梯度的质量，l_i代表了模型的性能。梯度异常值z_i与p_i和l_i强相关，使得梯度异常值的衡量标准更加全面。

服务器将异常梯度数组z＝{z₁，...，z_K}降序排列得到并根据参数λ∈(0，1]选取前/>个梯度异常值所对应的梯度作为主导梯度/>

进一步的，所述步骤4)检测本地梯度与主导梯度与之间是否存在冲突，和根据主导梯度修正方法对该本地梯度进行修正的具体步骤如下：

判断本地梯度与主导梯度与之间是否存在冲突的公式如下：

其中表示无人机i的本地梯度，/>表示一个主导梯度。如果/>和/>的内积小于0则表示/>和/>之间存在梯度冲突。那么使用/>对/>进行梯度调整的具体公式如下：

然后检测当前本地梯度与每个主导梯度是否存在梯度冲突，如果存在，则用与当前本地梯度存在梯度冲突的主导梯度对当前本地梯度进行修正。当所有本地梯度都修正完毕后，参数服务器对修正后的本地梯度进行聚合，具体公式如下：

然后根据聚合后的梯度，得到下一轮的全局模型，公式如下：

w^t+1＝w^t+g^t。

一种无人机集群水库水质检测系统，包括N架带有溶解氧、PH值、悬浮物浓度、叶绿素含量、水温、水库水体表面图像、水库水位图像和水库周边环境图像等数据在内的本地数据集并具有模型训练能力的无人机和一个参数服务器。在本系统中，参数服务器选择部分无人机参与训练，并将全局模型下发至选定的无人机。无人机无需将本地数据发送至服务器，而是基于无人机本地算力和本地数据对接收到的模型执行一定轮次的本地训练，然后将本地模型梯度上传至参数服务器，参数服务器进行全局聚合，形成新的全局模型，如此循环直至全局模型收敛，将最后的全局模型作为水质检测模型。在水质检测模型训练完成之后，将全局模型下发到每架无人机上，然后无人机根据水质检测模型对日常采集到的pH值、溶解氧含量、叶绿素含量水体表面图像数据对水质检测的关键指标进行分类。从而实现实时监测与预警，并且可以收集多架无人机上的检测结果，进一步根据检测结果进行多指标综合评价和趋势分析，为水质管理和保护提供决策支持和科学依据。通过对检测结果的反馈和调整，可以对模型进行定期的优化与改进，以提高模型的准确性和泛化能力，适应不同场景的水质检测需求。

具体来说，在每一轮训练之初，参数服务器随机选择K(0＜K＜N)(其中N为无人机的总数)个无人机参与该轮训练，并将全局模型w^t发送给选定的K个无人机。

无人机接收来自参数服务器的全局模型w^t，将本地模型初始化为w^t，并在本地所拥有的数据集上进行E次本地迭代训练。在每次本地迭代训练过程中，将交叉熵损失函替换为重构后的焦点损失函数，来提高难分类样本对总损失值的贡献度，减小各类样本的训练损失差异。在本地训练结束后将本地梯度/>和本地损失/>上传到参数服务器。

参数服务器在接收到来自无人机的梯度和损失后，计算每个梯度的投影异常值和梯度异常值，其中梯度异常值越大说明梯度异常程度越小。然后将梯度异常值进行降序排列，选择前个梯度作为主导梯度，其中λ∈(0，1]表示主导梯度选取比率。

参数服务器检测主导梯度与本地梯度之间是否存在冲突。如果存在梯度冲突，则根据主导梯度修正方法对该梯度进行修正。最后聚合修正后的本地梯度，更新全局模型。直到全局模型收敛或达到指定的通信轮次。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的面向无人机群水库水质检测的分布式模型训练方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的面向无人机群水库水质检测的分布式模型训练方法的计算机程序。

有益效果：与现有技术相比，本发明提供的面向无人机群水库水质检测的分布式模型训练方法及系统，通过重构焦点损失函数和主导梯度修正技术，分别对本地训练过程中的损失值占比和本地梯度的方向进行了修正。重构后的焦点损失函数根据损失缩放因子和损失聚焦因子，提高少数类样本对损失函数的贡献度，从而均衡各类样本在总损失值中的占比，缓解本地模型对各类样本识别性能的差异，为全局模型提供高质量本地更新梯度。主导梯度修正方法利用优质的主导梯度检测并修正存在冲突的无人机模型梯度，从而避免在全局聚合阶段发生模型梯度冲突，提高全局模型的精度。本发明缓解了在无人机之间数据为异质数据时的梯度冲突问题，减轻了水质检测模型的本地偏好性，提升了水质检测模型的精度，可以更快地找到污染源头，从而减少治理的成本和时间，提高水质管理效率和水质治理效果。

附图说明

图1为具体实施例的系统应用场景；

图2为具体实施例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

面向无人机群水库水质检测的分布式模型训练方法及系统，通过焦点损失函数和主导梯度修正技术，分别对分布式学习的本地训练阶段和全局聚合阶段进行了损失修正和梯度修正，平衡各类别样本在总损失值中的占比，缓解本地模型梯度间的冲突，最终提高水质检测模型的精度,有助于及早发现水质问题，避免水质问题扩大和加剧，保障水质安全。

图1为本实施例的无人机集群分布式模型训练应用场景。

无人机集群水库水质检测系统中有N个无人机，各个无人机使用自己的本地数据训练模型，产生用于模型更新的梯度；使用主导梯度修正方法，平衡各类样本在本地损失中的占比，减少模型梯度的偏好性，并在全局聚合阶段调整本地梯度，减少梯度之间的冲突，提高水质模型精度，从而更快地找到污染源头，从而减少治理的成本和时间。

面向无人机群水库水质检测的分布式模型训练方法，包括以下步骤：

步骤1)在每一轮分布式训练之初，参数服务器随机选择K(0＜K＜N)(其中N为无人机的总数)个无人机参与该轮训练，并将全局模型w^t发送给选定的K个无人机。

步骤2)无人机接收来自参数服务器的全局模型w^t，将本地模型初始化为w^t，并在本地所拥有的数据集上进行E次本地迭代训练。在每次本地迭代训练过程中，将交叉熵损失函替换为重构后的焦点损失函数，来提高难分类样本对总损失值的贡献度，减小各类样本的训练损失差异。在本地训练结束后将本地梯度/>和本地损失/>上传到参数服务器。

焦点损失函数如下：

FL(p_t)＝-β(1-p_t)^γlog(P_t)

定义上传的模型梯度为：

步骤3)参数服务器在接收到来自无人机的梯度和损失后，计算每个梯度的投影异常值和梯度异常值，其中梯度异常值越大说明梯度异常程度越小。然后将梯度异常值进行降序排列，选择前个梯度作为主导梯度，其中λ∈(0，1]表示主导梯度选取比率。

无人机上的梯度投影异常值和梯度异常值的具体计算步骤如下：

无人机i的梯度投影异常值p_i计算公式如下：

步骤4)参数服务器检测主导梯度与本地梯度之间是否存在冲突。如果存在梯度冲突，则根据主导梯度修正方法对该梯度进行修正。最后聚合修正后的本地梯度，更新全局模型。然后重复步骤1)-4)直到模型收敛或达到指定的通信轮次。

检测本地梯度与主导梯度与之间是否存在冲突，和根据主导梯度修正方法对该本地梯度进行修正的具体步骤如下：

判断本地梯度与主导梯度与之间是否存在冲突的公式如下：

然后检测当前本地梯度与每个主导梯度是否存在梯度冲突，如果存在，则用该主导梯度对当前本地梯度进行修正。当所有本地梯度都修正完毕后，参数服务器对修正后的本地梯度进行聚合，具体公式如下：

w^t+1＝w^t+g^t。

一种无人机集群水库水质检测系统，包括N架带有本地数据集并具有模型训练能力的无人机和一个参数服务器。

在每一轮训练之初，参数服务器随机选择K(0＜K＜N)(其中N为无人机的总数)个无人机参与该轮训练，并将全局模型w^t发送给选定的K个无人机。

无人机接收来自参数服务器的全局模型ω^t，将本地模型初始化为w^t，并在本地所拥有的数据集上进行E次本地迭代训练。在每次本地迭代训练过程中，将交叉熵损失函替换为重构后的焦点损失函数，来提高难分类样本对总损失值的贡献度，减小各类样本的训练损失差异。在本地训练结束后将本地梯度/>和本地损失/>上传到参数服务器。

显然，本领域的技术人员应该明白，上述的本发明实施例的面向无人机群水库水质检测的分布式模型训练方法及系统可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种面向无人机群水库水质检测的分布式模型训练方法，其特征在于，包括以下步骤：

1)无人机集群水库水质检测系统由N架带有本地数据集并具有模型训练能力的无人机和一个参数服务器组成；在每一轮训练之初，参数服务器随机选择K(0＜K＜N)个无人机参与该轮训练，并将全局模型w^t发送给选定的K个无人机，其中N为无人机的总数；

2)无人机接收来自参数服务器的全局模型w^t，将本地模型初始化为w^t，并在本地所拥有的数据集上进行E次本地迭代训练；在每次本地迭代训练过程中，将交叉熵损失函替换为重构后的焦点损失函数；在本地训练结束后将本地梯度/>和本地损失/>上传到参数服务器；

3)参数服务器在接收到来自无人机的梯度和损失后，计算每个梯度的投影异常值和梯度异常值，其中梯度异常值越大说明梯度异常程度越小；然后将梯度异常值进行降序排列，选择前个梯度作为主导梯度，其中λ∈(0，1]表示主导梯度选取比率；

4)参数服务器检测主导梯度与本地梯度之间是否存在冲突。如果存在梯度冲突，则根据主导梯度修正方法对该梯度进行修正；最后聚合修正后的本地梯度，更新全局模型；然后重复步骤1)-4)直到全局模型收敛或达到指定的通信轮次。

2.根据权利要求1所述的面向无人机群水库水质检测的分布式模型训练方法，其特征在于，所述步骤2)中的焦点损失函数如下：

FL(p_t)＝-β(1-p_t)^γlog(p_t)

其中β表示损失缩放参数，γ表示损失聚焦参数，p_t表示模型预测预测概率，对于二分类，p_t的表示形式如下：

其中p∈[0，1]表示模型输出对类别标签为y＝1的样本的预测概率；

定义上传的模型梯度为：

3.根据权利要求1所述的面向无人机群水库水质检测的分布式模型训练方法，其特征在于，所述步骤3)中无人机上的梯度投影异常值和梯度异常值的具体计算步骤如下：

无人机i的梯度投影异常值p_i计算公式如下：

其中表示无人机i的梯度模长，/>表示无人机i的梯度和无人机j的梯度夹角的余弦值；

p_i越大，梯度异常程度越小，说明当前梯度较优；用l_i表示无人机i的损失值，那么l_i越小，模型预测值与真实标签越相近，说明模型性能较好；为实现p_i与l_i具有相同单调性，设计用p_i与1/l_i相乘作为对梯度异常值的衡量标准；无人机i的梯度异常值z_i计算公式如下：

其中p_i代表了更新梯度的质量，l_i代表了模型的性能；

4.根据权利要求1所述的面向无人机群水库水质检测的分布式模型训练方法，其特征在于，所述步骤4)检测本地梯度与主导梯度与之间是否存在冲突，和根据主导梯度修正方法对该本地梯度进行修正的具体步骤如下：

判断本地梯度与主导梯度与之间是否存在冲突的公式如下：

其中表示无人机i的本地梯度，/>表示一个主导梯度；如果/>和/>的内积小于0则表示/>和/>之间存在梯度冲突；那么使用/>对/>进行梯度调整的具体公式如下：

然后检测当前本地梯度与每个主导梯度是否存在梯度冲突，如果存在，则用与当前本地梯度存在梯度冲突的主导梯度对当前本地梯度进行修正；当所有本地梯度都修正完毕后，参数服务器对修正后的本地梯度进行聚合，具体公式如下：

w^t+1＝w^t+g^t。

5.一种无人机集群水库水质检测系统，其特征在于，包括N架带有本地数据集并具有模型训练能力的无人机和一个参数服务器；

在每一轮训练之初，参数服务器随机选择K(0＜K＜N)个无人机参与该轮训练，并将全局模型w^t发送给选定的K个无人机，N为无人机的总数；

无人机接收来自参数服务器的全局模型w^t，将本地模型初始化为w^t，并在本地所拥有的数据集上进行E次本地迭代训练；在每次本地迭代训练过程中，将交叉熵损失函替换为重构后的焦点损失函数；在本地训练结束后将本地梯度/>和本地损失/>上传到参数服务器；

参数服务器在接收到来自无人机的梯度和损失后，计算每个梯度的投影异常值和梯度异常值，其中梯度异常值越大说明梯度异常程度越小；然后将梯度异常值进行降序排列，选择前个梯度作为主导梯度，其中λ∈(0，1]表示主导梯度选取比率；

参数服务器检测主导梯度与本地梯度之间是否存在冲突；如果存在梯度冲突，则根据主导梯度修正方法对该梯度进行修正；最后聚合修正后的本地梯度，更新全局模型；直到全局模型收敛或达到指定的通信轮次。

6.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-4中任一项所述的面向无人机群水库水质检测的分布式模型训练方法。

7.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-4中任一项所述的面向无人机群水库水质检测的分布式模型训练方法的计算机程序。