CN114021168B

CN114021168B - 基于联邦学习的地铁基坑开挖风险识别方法及装置

Info

Publication number: CN114021168B
Application number: CN202111319605.3A
Authority: CN
Inventors: 廖龙辉; 杨川; 全丽蓉; 廖奎安; 梁逸飞
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-05-24
Anticipated expiration: 2041-11-09
Also published as: CN114021168A

Abstract

本发明实施例公开了基于联邦学习的地铁基坑开挖风险识别方法及装置。该方法包括参与联邦学习的各个客户端节点获取地铁基坑的监测数据，并得到标准样本；各个客户端节点对本地的标准样本进行加密对齐处理，并从加密后的标准样本筛选出目标数据集；各个客户端节点基于目标数据集训练风险识别模型得到模型局部参数；服务端节点汇总所有模型局部参数，得到更新后的模型全局参数，并反馈给各客户端节点；各客户端节点持续地对模型局部参数进行迭代、上传和接收，直至服务端节点对应的损失函数收敛，得到优化后的风险识别模型；采用验证集测试优化后的风险识别模型，得到最优的风险识别模型；利用最优的风险识别模型确定识别结果。该方法准确性更高。

Description

基于联邦学习的地铁基坑开挖风险识别方法及装置

技术领域

本发明涉及风险识别技术领域，尤其涉及一种基于联邦学习的地铁基坑开挖风险识别方法及装置。

背景技术

地铁基坑开挖风险因素识别是地铁施工安全管理的重点内容，也是保证地铁基坑开挖施工安全进行的前提。然而，传统的风险因素识别方法主要是依靠人工经验排查、专家现场讨论等，存在较大的主观性；并且随着施工环境越来越复杂，风险的种类也越来越多，传统方法已不能及时、全面地识别风险因素。因此，迫切需要更加客观、快速、智能的地铁深大基坑开挖风险识别方法。

近年来，随着信息通信和物联网技术在建筑行业的兴起，国内外学者正将以“大数据+机器学习”为代表的人工智能方法应用于地铁基坑开挖风险因素识别。例如，国内学者提出了基于知识的风险识别模型，通过构建地铁施工安全风险知识库，基于规则智能推理出风险因素，但是完整收集安全风险知识是一大难点。针对识别方法，也有不少学者提出了利用人工神经网络(Artificial Neural Networks，ANN)、支持向量机(Support VectorMachine，SVM)和随机森林 (Random Forest，RF)等机器学习的方法，来识别地铁基坑施工风险因素。国外在地铁施工风险识别领域有较成熟的体系，并率先将物联网和数据挖掘等技术应用于地铁施工风险因素识别。例如，有学者提出了一种数据挖掘的方法，利用K-means聚类和遗传算法(Genetic Algorithm，GA)筛选出识别关键区域情况的最优特征，但是其关注的重点是风险存在的关键区域和发生时间。此外，利用过往地铁基坑施工案例，通过文本挖掘来识别风险因素也有大量的研究。

当前，越来越多智能设备在地铁施工现场的使用，产生了多源、异构、海量的工程大数据，并且各参与方数据有所不同，造成“数据孤岛”现象。另一方面，上述识别方法的共性还在于将设备和机器连接到物联网，会使采集的数据暴露在网络犯罪面前，数据传输的保护、防范恶意窃取信息的能力十分薄弱。因此，在保证数据隐私的条件下，如何更加有效地利用工程大数据背后的信息实时、准确地识别地铁基坑开挖风险因素是当前亟待解决的技术问题。

发明内容

本发明实施例提供了一种基于联邦学习的地铁基坑开挖风险识别方法及装置，旨在解决现有技术中地铁基坑开挖风险因素的识别准确率较低的问题。

第一方面，本发明实施例提供了一种基于联邦学习的地铁基坑开挖风险识别方法，其包括：

参与联邦学习的各个客户端节点获取地铁基坑的监测数据，并对所述监测数据进行预处理，得到标准样本，所述样本数据包括施工的影响因素和影响因素对应的数据值以及时间标签；

服务端节点创建密钥对，并将所述密钥对中的公钥发送至各所述客户端节点，将所述密钥对中的私钥保留在本地，同时将预置的风险识别模型的全局初始参数广播至各所述客户端节点；

各个所述客户端节点获取所述服务端节点下发的公钥和全局初始参数，基于所述公钥对标准样本进行加密处理，利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集，并将所述目标数据集划分为训练集和验证集；

各个所述客户端节点基于所述训练集和全局初始参数对本地的风险识别模型进行训练，得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至所述服务端节点；

所述服务端节点采用私钥对各所述局部参数进行解密，并汇总所有所述模型局部参数，得到更新后的模型全局参数；

所述服务端节点继续将更新后的模型全局参数下发至各所述客户端节点，使各所述客户端节点持续对自身的模型局部参数进行迭代，直至所述服务端节点对应的损失函数收敛，得到优化后的风险识别模型，并采用所述验证集对优化后的风险识别模型进行K次测试，得到最优的风险识别模型；

所述服务端节点输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。

第二方面，本发明实施例提供了一种基于联邦学习的地铁基坑开挖风险识别装置，包括客户端和服务端：

所述客户端包括：

第一交互模块，用于获取地铁基坑的监测数据，并对监测数据进行预处理，得到标准样本；以及，获取服务端节点下发的公钥和全局初始参数，基于所述公钥对标准样本进行加密处理，利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集，并将所述目标数据集划分为训练集和验证集；以及，基于所述训练集和全局初始参数对本地的风险识别模型进行训练，得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至服务端；

所述服务端包括：

第二交互模块，用于创建密钥对，并将所述密钥对中的公钥发送至各客户端，将所述密钥对中的私钥保留在本地，同时将预置的风险识别模型的全局初始参数广播至各所述客户端；以及，采用私钥对各局部参数进行解密，并汇总所有所述局部参数，得到更新后的模型全局参数；以及，继续将更新后的模型全局参数下发至各所述客户端，使各所述客户端持续对自身的模型局部参数进行迭代，直至服务端对应的损失函数收敛，得到优化后的风险识别模型，并采用所述验证集对优化后的风险识别模型进行K次测试，得到最优的风险识别模型；以及，输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。

本发明实施例提供了基于联邦学习的地铁基坑开挖风险识别方法及装置。该方法包括参与联邦学习的各个客户端节点获取地铁基坑的监测数据，并对监测数据进行预处理，得到标准样本；服务端节点创建密钥对，并将密钥对中的公钥发送至各客户端节点，将密钥对中的私钥保留在本地，同时将预置的风险识别模型的全局初始参数广播至各客户端节点；各个客户端节点获取服务端节点下发的公钥和全局初始参数，基于公钥对标准样本进行加密处理，利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集，并将目标数据集划分为训练集和验证集；各个客户端节点基于训练集和全局初始参数对风险识别模型进行训练，得到模型局部参数并采用公钥对模型局部参数加密后发送至服务端节点；服务端节点采用私钥对各模型局部参数进行解密，汇总所有模型局部参数，得到更新后的全局模型参数；服务端节点继续将更新后的模型全局参数下发至各客户端节点，使各客户端节点持续对自身的模型局部参数进行迭代，直至服务端节点对应的损失函数收敛，得到优化后的风险识别模型，并采用验证集对优化后的风险识别模型进行K次测试，得到最优的风险识别模型；所述服务端节点输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。该方法基于客户端节点-服务端节点的异步分布式架构的联邦机器学习方法，解决了地铁基坑施工所产生的环境监测数据非独立同分布的问题，能有效利用工程大数据，提升了地铁基坑开挖风险识别的准确度和效率；此外，通过联邦学习加密算法，客户端节点的本地数据不会参与学习，只是中间参数参与风险识别模型训练，这样不仅有利于对风险识别模型进行更新，降低时间成本，同时也保护了本地一些敏感的数据，更重要的是，为模型参数数据在物联网中的传递提供了安全保障，防止恶意窃取数据信息。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别方法的流程示意图；

图2为图1中步骤S110的的子流程示意图；

图3为图1中步骤S140的的子流程示意图；

图4为图1中步骤S160的的子流程示意图；

图5为本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1所示，图1为本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别方法的流程示意图，该方法包括步骤S110～S160。

步骤S110、参与联邦学习的各个客户端节点获取地铁基坑的监测数据，并对所述监测数据进行预处理，得到标准样本，所述样本数据包括施工的影响因素和影响因素对应的数据值以及时间标签；

本实施例中，从各个参与联邦学习的客户端节点获取地铁基坑开挖的环境监测数据。为了防止监测数据的维度，对样本数据进行标准化处理，得到标准样本。其中，监测数据包括地铁基坑开挖的影响因素及对应的数据值以及时间标签。影响因素包括塌方、滑坡、坍塌、泥石流、支护结构失稳、沉降、裂缝、透水、管涌等。监测数据包括土压力、边坡位移、内部温度、地下水位、土壤含水量等。客户端节点为智能监测终端。

如图2所示，在一实施例中，步骤S110包括：

步骤S210、遍历所述样本数据，检测是否存在缺失数据；

步骤S220、若是，则以缺失数据相邻两个样本的均值作为所述缺失数据的值，得到补全数据；

步骤S230、对所述补全数据进行标准化处理，得到所述标准样本。

本实施例中，对样本数据进行预处理，具体包括如下步骤：遍历所有样本数据，检测是否存在缺失数据，若存在缺失数据，则以缺失数据相邻两个样本的均值作为缺失数据的值，得到补全数据。可选地，缺失值的处理方法还包括矩阵补全、高维映射、极大似然估计等。接着对补全数据进行标准化处理，得到标准样本。标准化处理采用min-max方法，将数据映射到[0，1]区间，以提高机器学习模型的收敛速度，min-max方法如下所示：

其中，x′为预处理之后的样本数据，x为样本数据原始值，x_max为样本数据最大值，x_min为样本数据最小值。

步骤S120、服务端节点创建密钥对，并将所述密钥对中的公钥发送至各所述客户端节点，同时将预置的风险识别模型的全局初始参数广播至各所述客户端节点，所述服务端节点将所述密钥对中的私钥保留在本地；

本实施例中，为便于服务端节点和客户端节点的数据传输安全，服务端节点生成密钥对，并将密钥对中的公钥发送至各客户端节点，密钥对中的私钥保存在本地。同时，服务端将预置风险识别模型的全局初始参数广播至各客户端节点。其中，服务端节点采用同态加密技术，是一种公钥加密算法，基于公钥 Key，客户端对原始数据进行加密，服务端得到密文计算结果后利用私钥进行对应的同态解密，其过程不会泄露任何原始内容，具体包括以下步骤：利用加密函数初始化公钥对Key：Encrypt(W₀)→I₀，其中，W₀是未加密的全局初始参数，I₀是加密后的全局初始参数。此外，加密算法还可以是安全多方计算、差分隐私等。

步骤S130、各个所述客户端节点获取所述服务端节点下发的公钥和全局初始参数，基于所述公钥对标准样本进行加密处理，利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集，并将所述目标数据集划分为训练集和验证集；

本实施例中，为了对各客户端节点的标准样本进行保护，各客户端节点获取服务端节点下发的公钥和全局初始参数，基于公钥对标准样本进行加密处理，利用隐私保护集合交集技术对齐加密后的标准样本，各客户端节点之间以具有相同特征(时间维度)的标准样本进行对齐匹配，并以具有相同时间特征的样本作为目标数据集。为了得到最优的风险识别模型，将目标样本划分为训练集和验证集。隐私保护交集技术用于在样本对齐时，在不暴露每一个客户端节点独有的样本数据情况下，找到各个客户端节点持有的样本数据的交集，在本例中，是指筛选出具有相同特征的样本数据。

在一实施例中，步骤S130包括：

将所有客户端划分为K个集合，K次不重复地以其中一个集合的目标样本作为验证集，剩下K-1个集合的目标样本作为训练集。

本实施例中，为了方便匹配，可预先对时间维度进行ID标识，即对相同时刻的不同影响因素的样本数据标记相同的ID，再根据ID进行匹配。接着利用 K-fold技术将标准样本划分为训练集和验证集，具体步骤如下：将所有客户端划分为K个集合，K次不重复地以其中一个集合的目标样本作为验证集，剩下K-1 个集合的目标样本作为训练集。其中，优选K＝5或K＝10。

步骤S140、各个所述客户端节点基于所述训练集和全局初始参数对风险识别模型进行训练，得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至所述服务端节点；

本实施例中，各个客户端节点基于训练集和全局初始参数对风险识别模型进行训练，得到模型局部参数并采用公钥对局部参数加密后发送至服务端节点。其中，用于训练和更新风险识别模型的参数或梯度的机器学习算法可以是人工神经网络(ArtificialNeural Networks,ANN)、极端梯度提升(Extreme Gradient Boosting，XGBoost)、支持向量机(Support Vector Machine,SVM)和随机森林 (Random Forest,RF)等。

如图3所示，在一实施例中，当风险识别模型为随机森林模型时，步骤S140 包括：

步骤S310、预设所述风险识别模型的决策树个数，节点的样本数量阈值，并以分类回归树算法作为所述风险识别模型的分类属性选择算法；

步骤S320、根据预置基尼系数计算函数计算当前客户端对应训练集中各影响因素的基尼系数，以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性；

步骤S330、将属于分类属性的样本和剩下的样本划分为两个新的节点，对两个新的节点的样本继续进行基尼系数的计算，确定新的分类属性，并根据新的分类属性划分出新的节点，直至节点的样本数量小于所述节点样本数量阈值，则结束分裂，得到所述模型局部参数。

本实施例中，各客户端节点基于训练集和全局初始参数对风险识别模型进行训练，具体包括：设置RF模型内决策树个数为N，节点的样本数量阈值，分类属性选择算法为分类回归树(CART)算法；假设第i个客户端节点的训练集为D_i(d₁,d₂,d₃,...,d_n)，影响因素为F_i(f₁,f₂,f₃,...,f_m)，节点的样本数量阈值为n_i， i＝1,2,3,...,K；计算训练集中每一个影响因素下的基尼(Gini)系数，选择Gini 系数最小的影响因素作为节点的分类属性；根据分类属性将节点将属于分类属性的样本和剩下的样本划分为左右两个节点，分别包含训练集D_i(d₁,d₂,d₃,...,d_n)分裂而成的数据集D_i1和数据集D_i2；对两个子节点的样本继续进行基尼系数的计算，确定新的分类属性，并根据新的分类属性划分出新的节点，直至节点样本的数量小于节点样本数量阈值n_i，则结束分裂，得到局部模型参数。其中，Gini 系数越小表示集合中被选中的样本被分错的概率就越小，不确定越小，样本的纯度越高。基尼系数计算函数如下：

其中，k表示当前训练集中影响因素的数量，k＝1,2,...,β；p_k表示选中的样本属于第k种影响的概率。

进一步的，训练集D_i(d₁,d₂,d₃,...,d_n)分裂而成的数据集D_i1和数据集D_i2后，训练集D_i(d₁,d₂,d₃,...,d_n)的Gini系数由以下公式计算：

式中，|D_i|表示训练集D_i(d₁,d₂,d₃,...,d_n)中样本的个数。

进一步的，本实施例还可以采用基于边缘计算的FedAVG(联邦平均算法) 方法，以更好的解决样本数据非独立同分布的问题，具体包括：将客户端节点的样本数据存储在边缘服务器中，利用边缘服务器的计算能力计算训练集中各影响因素的Gini系数，以达到随机森林模型的节点分裂，直至得到最优的局部模型参数。

步骤S150、所述服务端节点采用私钥对各所述模型局部参数进行解密，并汇总所有所述模型局部参数，得到更新后的模型全局参数；

本实施例中，服务端节点采用私钥对客户端节点上传的局部参数进行解密，汇总所有局部参数，得到更新后的全局模型参数。其中，针对基于概率的机器学习方法，可以取局部参数的均值；针对非概率机器学习算法，服务端节点汇总模型全局参数的计算公式可以如下：

式中，i表述客户端节点的数量，K-1表示训练集的数量，

表示第i个客户端节点的模型局部参数，

表示权重参数，I′₀表示模型全局参数。

步骤S160、所述服务端节点继续将更新后的模型全局参数下发至各所述客户端节点，使各所述客户端节点持续对自身的模型局部参数进行迭代，直至所述服务端节点对应的损失函数收敛，得到优化后的风险识别模型，并采用所述验证集对优化后的风险识别模型进行K次测试，得到最优的风险识别模型；

步骤S170、所述服务端节点输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。

本实施例中，基于联邦学习方法，服务端节点继续将更新后的模型全局参数下发至各客户端节点，各客户端节点按更新后的模型全局参数及训练集持续对自身的模型局部参数进行迭代，直至服务端节点全局风险识别模型的损失函数收敛，即得到优化后的风险识别模型，接着采用验证集对优化后的风险识别模型进行K次测试，得到最优的风险识别模型；最后服务端节点的最优的风险识别模型的识别结果作为地铁基坑的开挖风险因素。其中，损失函数可以是基于最小二乘法的平方损失函数、指数损失函数、极大似然函数等。

如图4 所示，在一实施例中，步骤S160包括：

步骤S410、所述服务端节点基于所述验证集对优化后的风险识别模型进行 K次误差计算，得到K个均方误差；

步骤S420、比较K个所述均方误差，得到最小均方误差；

步骤S430、以所述最小均方误差对应的风险识别模型作为最优的风险识别模型。

本实施例中，服务端节点基于验证集对优化后的风险识别模型进行K次误差计算，得到对应的K个均方误差；接着比较K个均方误差，从K个均方误差中筛选出最小均方误差，显然，最小均方误差对应的风险识别模型即为最优的风险识别模型。

该方法中针对地铁基坑开挖过程中，智能设备所采集的多源、异构、海量大数据，导致数据应用不充分和“数据孤岛”的问题，提供基于联邦学习的地铁基坑开挖风险识别方法，解决了地铁基坑施工所产生的环境监测数据非独立同分布的问题，能有效利用工程大数据，提升了地铁基坑开挖风险识别的准确度和效率；通过联邦学习加密算法，本地数据不会参与学习，只是中间参数参与模型训练，这样不仅有利于快速对识别模型进行更新，降低时间成本，同时也保护了本地一些敏感的数据，更重要的是，为模型参数数据在物联网中的传递提供了安全保障，防止恶意窃取数据信息。

本发明实施例还提供一种基于联邦学习的地铁基坑开挖风险识别装置，该基于联邦学习的地铁基坑开挖风险识别装置用于执行前述基于联邦学习的地铁基坑开挖风险识别方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别装置的示意性框图。该基于联邦学习的地铁基坑开挖风险识别装置100可以配置于服务端节点中。

如图5所示，基于联邦学习的地铁基坑开挖风险识别装置100包括客户端 110和服务端120。

客户端110包括：

第一交互模块，用于获取地铁基坑的监测数据，并对监测数据进行预处理，得到标准样本；以及，获取服务端节点下发的公钥和全局初始参数，基于所述公钥对标准样本进行加密处理，根据相同特征(时间维度)从加密后的标准样本中筛选出目标数据集，并将所述目标数据集划分为训练集和验证集；以及，基于所述训练集和全局初始参数对风险识别模型进行训练，得到模型局部参数并采用所述公钥对所述局部参数加密后发送至服务端；

服务端120包括：

第二交互模块，用于创建密钥对，并将所述密钥对中的公钥发送至各客户端，将所述密钥对中的私钥保留在本地，同时将预置的风险识别模型的全局初始参数广播至各所述客户端；以及，采用私钥对各局部参数进行解密，汇总所有所述局部参数，得到更新后的模型全局参数；以及，继续将更新后的模型全局参数下发至各所述客户端，使各所述客户端持续对自身的局部参数进行迭代，直至服务端节点对应的损失函数收敛，得到优化后的风险识别模型，并采用所述验证集对优化后的风险识别模型进行K次测试，得到最优的风险识别模型；以及，最优的风险识别模型输出的识别结果作为地铁基坑的开挖风险因素。

在一实施例中，所述第一交互模块包括：

检测单元，用于遍历所述监测数据，检测是否存在缺失数据；

补全单元，用于若所述监测数据存在缺失数据，则以缺失数据相邻两个监测数据的均值作为所述缺失数据的值，得到补全数据；

标准化单元，用于对所述补全数据进行标准化处理，得到所述标准样本。

在一实施例中，所述第一交互模块包括：

划分单元，用于将所有客户端划分为K个集合，K次不重复地以其中一个集合的目标样本作为验证集，剩下K-1个集合的目标样本作为训练集。

在一实施例中，所述第一交互模块包括：

设置单元，用于预设所述风险识别模型的决策树个数，节点的样本数量阈值，并以分类回归树算法作为所述风险识别模型的分类属性选择算法；

计算单元，用于根据预置基尼系数计算函数计算每一个影响因素下客户端节点对应训练集的基尼系数，以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性；

训练单元，用于将属于分类属性的样本和剩下的样本划分为两个新的节点，对两个新的节点的样本继续进行基尼系数的计算，确定新的分类属性，并根据新的分类属性划分出新的节点，直至节点中出现节点样本的数量小于所述节点样本数量阈值，则结束分裂，得到所述模型局部参数。

在一实施例中，所述第二交互模块包括：

误差计算单元，用于所述服务端节点基于所述验证集对优化后的风险识别模型进行K次误差计算，得到K个均方误差；

比较单元，用于比较K个所述均方误差，得到最小均方误差；

确定单元，用于以所述最小均方误差对应的风险识别模型作为最优的风险识别模型。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务端节点，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于联邦学习的地铁基坑开挖风险识别方法，其特征在于，包括：

参与联邦学习的各个客户端节点获取地铁基坑的监测数据，并对所述监测数据进行预处理，得到标准样本，所述监测数据包括施工的影响因素和影响因素对应的数据值以及时间标签；

所述服务端节点采用私钥对各所述模型局部参数进行解密，并汇总所有所述模型局部参数，得到更新后的模型全局参数；

2.根据权利要求1所述的基于联邦学习的地铁基坑开挖风险识别方法，其特征在于，所述对所述监测数据进行预处理，得到标准样本，包括：

遍历所述监测数据，检测是否存在缺失数据；

若是，则以缺失数据相邻两个样本的均值作为所述缺失数据的值，得到补全数据；

对所述补全数据进行标准化处理，得到所述标准样本。

3.根据权利要求1所述的基于联邦学习的地铁基坑开挖风险识别方法，其特征在于，所述将所述目标数据集划分为训练集和验证集，包括：

将所有客户端划分为K个集合，K次不重复地以其中一个集合的目标数据集作为验证集，剩下K-1个集合的目标数据集作为训练集。

4.根据权利要求1所述的基于联邦学习的地铁基坑开挖风险识别方法，其特征在于，所述风险识别模型为随机森林模型，所述各个所述客户端节点基于所述训练集和全局初始参数对本地的风险识别模型进行训练，得到模型局部参数，包括：

预设所述风险识别模型的决策树个数，节点的样本数量阈值，并以分类回归树算法作为所述风险识别模型的分类属性选择算法；

根据预置基尼系数计算函数计算当前客户端节点对应训练集中的基尼系数，以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性；

将属于分类属性的样本和剩下的样本划分为两个新的节点，对两个新的节点的样本继续进行基尼系数的计算，确定新的分类属性，并根据新的分类属性划分出新的节点，直至节点的样本数量小于所述样本数量阈值，则结束分裂，得到所述模型局部参数。

5.根据权利要求4所述的基于联邦学习的地铁基坑开挖风险识别方法，其特征在于，所述基尼系数计算函数如下：

其中，k表示当前训练集中影响因素的数量，k＝1，2，...，β，p_k表示选中的样本属于第k种影响的概率。

6.根据权利要求3所述的基于联邦学习的地铁基坑开挖风险识别方法，其特征在于，所述服务端节点继续将更新后的模型全局参数下发至各所述客户端节点，使各所述客户端节点持续对自身的模型局部参数进行迭代，直至所述服务端节点对应的损失函数收敛，得到优化后的风险识别模型，并采用所述验证集对优化后的风险识别模型进行K次测试，得到最优的风险识别模型，包括：

所述服务端节点基于所述验证集对优化后的风险识别模型进行K次误差计算，得到K个均方误差；

比较K个所述均方误差，得到最小均方误差；

以所述最小均方误差对应的风险识别模型作为最优的风险识别模型。

7.一种基于联邦学习的地铁基坑开挖风险识别装置，其特征在于，包括：客户端和服务端；

所述客户端包括：

所述服务端包括：

8.根据权利要求7所述的基于联邦学习的地铁基坑开挖风险识别装置，其特征在于，所述第一交互模块包括：

9.根据权利要求7所述的基于联邦学习的地铁基坑开挖风险识别装置，其特征在于，所述第一交互模块包括：

划分单元，用于将所有客户端划分为K个集合，K次不重复地以其中一个集合的样本数据作为验证集，剩下K-1个集合的样本数据作为训练集。

10.根据权利要求7所述的基于联邦学习的地铁基坑开挖风险识别装置，其特征在于，所述第一交互模块包括：

计算单元，用于根据预置基尼系数计算函数计算当前客户端节点对应训练集的基尼系数，以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性；

训练单元，用于将属于分类属性的样本和剩下的样本划分为两个新的节点，对两个新的节点的样本继续进行基尼系数的计算，确定新的分类属性，并根据新的分类属性划分出新的节点，直至节点的样本数量小于所述样本数量阈值，则结束分裂，得到所述模型局部参数。