CN114021168B - 基于联邦学习的地铁基坑开挖风险识别方法及装置 - Google Patents
基于联邦学习的地铁基坑开挖风险识别方法及装置 Download PDFInfo
- Publication number
- CN114021168B CN114021168B CN202111319605.3A CN202111319605A CN114021168B CN 114021168 B CN114021168 B CN 114021168B CN 202111319605 A CN202111319605 A CN 202111319605A CN 114021168 B CN114021168 B CN 114021168B
- Authority
- CN
- China
- Prior art keywords
- model
- risk identification
- node
- parameters
- identification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了基于联邦学习的地铁基坑开挖风险识别方法及装置。该方法包括参与联邦学习的各个客户端节点获取地铁基坑的监测数据,并得到标准样本;各个客户端节点对本地的标准样本进行加密对齐处理,并从加密后的标准样本筛选出目标数据集;各个客户端节点基于目标数据集训练风险识别模型得到模型局部参数;服务端节点汇总所有模型局部参数,得到更新后的模型全局参数,并反馈给各客户端节点;各客户端节点持续地对模型局部参数进行迭代、上传和接收,直至服务端节点对应的损失函数收敛,得到优化后的风险识别模型;采用验证集测试优化后的风险识别模型,得到最优的风险识别模型;利用最优的风险识别模型确定识别结果。该方法准确性更高。
Description
技术领域
本发明涉及风险识别技术领域,尤其涉及一种基于联邦学习的地铁基坑开挖风险识别方法及装置。
背景技术
地铁基坑开挖风险因素识别是地铁施工安全管理的重点内容,也是保证地铁基坑开挖施工安全进行的前提。然而,传统的风险因素识别方法主要是依靠人工经验排查、专家现场讨论等,存在较大的主观性;并且随着施工环境越来越复杂,风险的种类也越来越多,传统方法已不能及时、全面地识别风险因素。因此,迫切需要更加客观、快速、智能的地铁深大基坑开挖风险识别方法。
近年来,随着信息通信和物联网技术在建筑行业的兴起,国内外学者正将以“大数据+机器学习”为代表的人工智能方法应用于地铁基坑开挖风险因素识别。例如,国内学者提出了基于知识的风险识别模型,通过构建地铁施工安全风险知识库,基于规则智能推理出风险因素,但是完整收集安全风险知识是一大难点。针对识别方法,也有不少学者提出了利用人工神经网络(Artificial Neural Networks,ANN)、支持向量机(Support VectorMachine,SVM)和随机森林 (Random Forest,RF)等机器学习的方法,来识别地铁基坑施工风险因素。国外在地铁施工风险识别领域有较成熟的体系,并率先将物联网和数据挖掘等技术应用于地铁施工风险因素识别。例如,有学者提出了一种数据挖掘的方法,利用K-means聚类和遗传算法(Genetic Algorithm,GA)筛选出识别关键区域情况的最优特征,但是其关注的重点是风险存在的关键区域和发生时间。此外,利用过往地铁基坑施工案例,通过文本挖掘来识别风险因素也有大量的研究。
当前,越来越多智能设备在地铁施工现场的使用,产生了多源、异构、海量的工程大数据,并且各参与方数据有所不同,造成“数据孤岛”现象。另一方面,上述识别方法的共性还在于将设备和机器连接到物联网,会使采集的数据暴露在网络犯罪面前,数据传输的保护、防范恶意窃取信息的能力十分薄弱。因此,在保证数据隐私的条件下,如何更加有效地利用工程大数据背后的信息实时、准确地识别地铁基坑开挖风险因素是当前亟待解决的技术问题。
发明内容
本发明实施例提供了一种基于联邦学习的地铁基坑开挖风险识别方法及装置,旨在解决现有技术中地铁基坑开挖风险因素的识别准确率较低的问题。
第一方面,本发明实施例提供了一种基于联邦学习的地铁基坑开挖风险识别方法,其包括:
参与联邦学习的各个客户端节点获取地铁基坑的监测数据,并对所述监测数据进行预处理,得到标准样本,所述样本数据包括施工的影响因素和影响因素对应的数据值以及时间标签;
服务端节点创建密钥对,并将所述密钥对中的公钥发送至各所述客户端节点,将所述密钥对中的私钥保留在本地,同时将预置的风险识别模型的全局初始参数广播至各所述客户端节点;
各个所述客户端节点获取所述服务端节点下发的公钥和全局初始参数,基于所述公钥对标准样本进行加密处理,利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集,并将所述目标数据集划分为训练集和验证集;
各个所述客户端节点基于所述训练集和全局初始参数对本地的风险识别模型进行训练,得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至所述服务端节点;
所述服务端节点采用私钥对各所述局部参数进行解密,并汇总所有所述模型局部参数,得到更新后的模型全局参数;
所述服务端节点继续将更新后的模型全局参数下发至各所述客户端节点,使各所述客户端节点持续对自身的模型局部参数进行迭代,直至所述服务端节点对应的损失函数收敛,得到优化后的风险识别模型,并采用所述验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;
所述服务端节点输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。
第二方面,本发明实施例提供了一种基于联邦学习的地铁基坑开挖风险识别装置,包括客户端和服务端:
所述客户端包括:
第一交互模块,用于获取地铁基坑的监测数据,并对监测数据进行预处理,得到标准样本;以及,获取服务端节点下发的公钥和全局初始参数,基于所述公钥对标准样本进行加密处理,利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集,并将所述目标数据集划分为训练集和验证集;以及,基于所述训练集和全局初始参数对本地的风险识别模型进行训练,得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至服务端;
所述服务端包括:
第二交互模块,用于创建密钥对,并将所述密钥对中的公钥发送至各客户端,将所述密钥对中的私钥保留在本地,同时将预置的风险识别模型的全局初始参数广播至各所述客户端;以及,采用私钥对各局部参数进行解密,并汇总所有所述局部参数,得到更新后的模型全局参数;以及,继续将更新后的模型全局参数下发至各所述客户端,使各所述客户端持续对自身的模型局部参数进行迭代,直至服务端对应的损失函数收敛,得到优化后的风险识别模型,并采用所述验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;以及,输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。
本发明实施例提供了基于联邦学习的地铁基坑开挖风险识别方法及装置。该方法包括参与联邦学习的各个客户端节点获取地铁基坑的监测数据,并对监测数据进行预处理,得到标准样本;服务端节点创建密钥对,并将密钥对中的公钥发送至各客户端节点,将密钥对中的私钥保留在本地,同时将预置的风险识别模型的全局初始参数广播至各客户端节点;各个客户端节点获取服务端节点下发的公钥和全局初始参数,基于公钥对标准样本进行加密处理,利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集,并将目标数据集划分为训练集和验证集;各个客户端节点基于训练集和全局初始参数对风险识别模型进行训练,得到模型局部参数并采用公钥对模型局部参数加密后发送至服务端节点;服务端节点采用私钥对各模型局部参数进行解密,汇总所有模型局部参数,得到更新后的全局模型参数;服务端节点继续将更新后的模型全局参数下发至各客户端节点,使各客户端节点持续对自身的模型局部参数进行迭代,直至服务端节点对应的损失函数收敛,得到优化后的风险识别模型,并采用验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;所述服务端节点输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。该方法基于客户端节点-服务端节点的异步分布式架构的联邦机器学习方法,解决了地铁基坑施工所产生的环境监测数据非独立同分布的问题,能有效利用工程大数据,提升了地铁基坑开挖风险识别的准确度和效率;此外,通过联邦学习加密算法,客户端节点的本地数据不会参与学习,只是中间参数参与风险识别模型训练,这样不仅有利于对风险识别模型进行更新,降低时间成本,同时也保护了本地一些敏感的数据,更重要的是,为模型参数数据在物联网中的传递提供了安全保障,防止恶意窃取数据信息。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别方法的流程示意图;
图2为图1中步骤S110的的子流程示意图;
图3为图1中步骤S140的的子流程示意图;
图4为图1中步骤S160的的子流程示意图;
图5为本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1所示,图1为本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别方法的流程示意图,该方法包括步骤S110~S160。
步骤S110、参与联邦学习的各个客户端节点获取地铁基坑的监测数据,并对所述监测数据进行预处理,得到标准样本,所述样本数据包括施工的影响因素和影响因素对应的数据值以及时间标签;
本实施例中,从各个参与联邦学习的客户端节点获取地铁基坑开挖的环境监测数据。为了防止监测数据的维度,对样本数据进行标准化处理,得到标准样本。其中,监测数据包括地铁基坑开挖的影响因素及对应的数据值以及时间标签。影响因素包括塌方、滑坡、坍塌、泥石流、支护结构失稳、沉降、裂缝、透水、管涌等。监测数据包括土压力、边坡位移、内部温度、地下水位、土壤含水量等。客户端节点为智能监测终端。
如图2所示,在一实施例中,步骤S110包括:
步骤S210、遍历所述样本数据,检测是否存在缺失数据;
步骤S220、若是,则以缺失数据相邻两个样本的均值作为所述缺失数据的值,得到补全数据;
步骤S230、对所述补全数据进行标准化处理,得到所述标准样本。
本实施例中,对样本数据进行预处理,具体包括如下步骤:遍历所有样本数据,检测是否存在缺失数据,若存在缺失数据,则以缺失数据相邻两个样本的均值作为缺失数据的值,得到补全数据。可选地,缺失值的处理方法还包括矩阵补全、高维映射、极大似然估计等。接着对补全数据进行标准化处理,得到标准样本。标准化处理采用min-max方法,将数据映射到[0,1]区间,以提高机器学习模型的收敛速度,min-max方法如下所示:
其中,x′为预处理之后的样本数据,x为样本数据原始值,xmax为样本数据最大值,xmin为样本数据最小值。
步骤S120、服务端节点创建密钥对,并将所述密钥对中的公钥发送至各所述客户端节点,同时将预置的风险识别模型的全局初始参数广播至各所述客户端节点,所述服务端节点将所述密钥对中的私钥保留在本地;
本实施例中,为便于服务端节点和客户端节点的数据传输安全,服务端节点生成密钥对,并将密钥对中的公钥发送至各客户端节点,密钥对中的私钥保存在本地。同时,服务端将预置风险识别模型的全局初始参数广播至各客户端节点。其中,服务端节点采用同态加密技术,是一种公钥加密算法,基于公钥 Key,客户端对原始数据进行加密,服务端得到密文计算结果后利用私钥进行对应的同态解密,其过程不会泄露任何原始内容,具体包括以下步骤:利用加密函数初始化公钥对Key:Encrypt(W0)→I0,其中,W0是未加密的全局初始参数,I0是加密后的全局初始参数。此外,加密算法还可以是安全多方计算、差分隐私等。
步骤S130、各个所述客户端节点获取所述服务端节点下发的公钥和全局初始参数,基于所述公钥对标准样本进行加密处理,利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集,并将所述目标数据集划分为训练集和验证集;
本实施例中,为了对各客户端节点的标准样本进行保护,各客户端节点获取服务端节点下发的公钥和全局初始参数,基于公钥对标准样本进行加密处理,利用隐私保护集合交集技术对齐加密后的标准样本,各客户端节点之间以具有相同特征(时间维度)的标准样本进行对齐匹配,并以具有相同时间特征的样本作为目标数据集。为了得到最优的风险识别模型,将目标样本划分为训练集和验证集。隐私保护交集技术用于在样本对齐时,在不暴露每一个客户端节点独有的样本数据情况下,找到各个客户端节点持有的样本数据的交集,在本例中,是指筛选出具有相同特征的样本数据。
在一实施例中,步骤S130包括:
将所有客户端划分为K个集合,K次不重复地以其中一个集合的目标样本作为验证集,剩下K-1个集合的目标样本作为训练集。
本实施例中,为了方便匹配,可预先对时间维度进行ID标识,即对相同时刻的不同影响因素的样本数据标记相同的ID,再根据ID进行匹配。接着利用 K-fold技术将标准样本划分为训练集和验证集,具体步骤如下:将所有客户端划分为K个集合,K次不重复地以其中一个集合的目标样本作为验证集,剩下K-1 个集合的目标样本作为训练集。其中,优选K=5或K=10。
步骤S140、各个所述客户端节点基于所述训练集和全局初始参数对风险识别模型进行训练,得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至所述服务端节点;
本实施例中,各个客户端节点基于训练集和全局初始参数对风险识别模型进行训练,得到模型局部参数并采用公钥对局部参数加密后发送至服务端节点。其中,用于训练和更新风险识别模型的参数或梯度的机器学习算法可以是人工神经网络(ArtificialNeural Networks,ANN)、极端梯度提升(Extreme Gradient Boosting,XGBoost)、支持向量机(Support Vector Machine,SVM)和随机森林 (Random Forest,RF)等。
如图3所示,在一实施例中,当风险识别模型为随机森林模型时,步骤S140 包括:
步骤S310、预设所述风险识别模型的决策树个数,节点的样本数量阈值,并以分类回归树算法作为所述风险识别模型的分类属性选择算法;
步骤S320、根据预置基尼系数计算函数计算当前客户端对应训练集中各影响因素的基尼系数,以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性;
步骤S330、将属于分类属性的样本和剩下的样本划分为两个新的节点,对两个新的节点的样本继续进行基尼系数的计算,确定新的分类属性,并根据新的分类属性划分出新的节点,直至节点的样本数量小于所述节点样本数量阈值,则结束分裂,得到所述模型局部参数。
本实施例中,各客户端节点基于训练集和全局初始参数对风险识别模型进行训练,具体包括:设置RF模型内决策树个数为N,节点的样本数量阈值,分类属性选择算法为分类回归树(CART)算法;假设第i个客户端节点的训练集为Di(d1,d2,d3,...,dn),影响因素为Fi(f1,f2,f3,...,fm),节点的样本数量阈值为ni, i=1,2,3,...,K;计算训练集中每一个影响因素下的基尼(Gini)系数,选择Gini 系数最小的影响因素作为节点的分类属性;根据分类属性将节点将属于分类属性的样本和剩下的样本划分为左右两个节点,分别包含训练集Di(d1,d2,d3,...,dn)分裂而成的数据集Di1和数据集Di2;对两个子节点的样本继续进行基尼系数的计算,确定新的分类属性,并根据新的分类属性划分出新的节点,直至节点样本的数量小于节点样本数量阈值ni,则结束分裂,得到局部模型参数。其中,Gini 系数越小表示集合中被选中的样本被分错的概率就越小,不确定越小,样本的纯度越高。基尼系数计算函数如下:
其中,k表示当前训练集中影响因素的数量,k=1,2,...,β;pk表示选中的样本属于第k种影响的概率。
进一步的,训练集Di(d1,d2,d3,...,dn)分裂而成的数据集Di1和数据集Di2后,训练集Di(d1,d2,d3,...,dn)的Gini系数由以下公式计算:
式中,|Di|表示训练集Di(d1,d2,d3,...,dn)中样本的个数。
进一步的,本实施例还可以采用基于边缘计算的FedAVG(联邦平均算法) 方法,以更好的解决样本数据非独立同分布的问题,具体包括:将客户端节点的样本数据存储在边缘服务器中,利用边缘服务器的计算能力计算训练集中各影响因素的Gini系数,以达到随机森林模型的节点分裂,直至得到最优的局部模型参数。
步骤S150、所述服务端节点采用私钥对各所述模型局部参数进行解密,并汇总所有所述模型局部参数,得到更新后的模型全局参数;
本实施例中,服务端节点采用私钥对客户端节点上传的局部参数进行解密,汇总所有局部参数,得到更新后的全局模型参数。其中,针对基于概率的机器学习方法,可以取局部参数的均值;针对非概率机器学习算法,服务端节点汇总模型全局参数的计算公式可以如下:
步骤S160、所述服务端节点继续将更新后的模型全局参数下发至各所述客户端节点,使各所述客户端节点持续对自身的模型局部参数进行迭代,直至所述服务端节点对应的损失函数收敛,得到优化后的风险识别模型,并采用所述验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;
步骤S170、所述服务端节点输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。
本实施例中,基于联邦学习方法,服务端节点继续将更新后的模型全局参数下发至各客户端节点,各客户端节点按更新后的模型全局参数及训练集持续对自身的模型局部参数进行迭代,直至服务端节点全局风险识别模型的损失函数收敛,即得到优化后的风险识别模型,接着采用验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;最后服务端节点的最优的风险识别模型的识别结果作为地铁基坑的开挖风险因素。其中,损失函数可以是基于最小二乘法的平方损失函数、指数损失函数、极大似然函数等。
如图4 所示,在一实施例中,步骤S160包括:
步骤S410、所述服务端节点基于所述验证集对优化后的风险识别模型进行 K次误差计算,得到K个均方误差;
步骤S420、比较K个所述均方误差,得到最小均方误差;
步骤S430、以所述最小均方误差对应的风险识别模型作为最优的风险识别模型。
本实施例中,服务端节点基于验证集对优化后的风险识别模型进行K次误差计算,得到对应的K个均方误差;接着比较K个均方误差,从K个均方误差中筛选出最小均方误差,显然,最小均方误差对应的风险识别模型即为最优的风险识别模型。
该方法中针对地铁基坑开挖过程中,智能设备所采集的多源、异构、海量大数据,导致数据应用不充分和“数据孤岛”的问题,提供基于联邦学习的地铁基坑开挖风险识别方法,解决了地铁基坑施工所产生的环境监测数据非独立同分布的问题,能有效利用工程大数据,提升了地铁基坑开挖风险识别的准确度和效率;通过联邦学习加密算法,本地数据不会参与学习,只是中间参数参与模型训练,这样不仅有利于快速对识别模型进行更新,降低时间成本,同时也保护了本地一些敏感的数据,更重要的是,为模型参数数据在物联网中的传递提供了安全保障,防止恶意窃取数据信息。
本发明实施例还提供一种基于联邦学习的地铁基坑开挖风险识别装置,该基于联邦学习的地铁基坑开挖风险识别装置用于执行前述基于联邦学习的地铁基坑开挖风险识别方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的基于联邦学习的地铁基坑开挖风险识别装置的示意性框图。该基于联邦学习的地铁基坑开挖风险识别装置100可以配置于服务端节点中。
如图5所示,基于联邦学习的地铁基坑开挖风险识别装置100包括客户端 110和服务端120。
客户端110包括:
第一交互模块,用于获取地铁基坑的监测数据,并对监测数据进行预处理,得到标准样本;以及,获取服务端节点下发的公钥和全局初始参数,基于所述公钥对标准样本进行加密处理,根据相同特征(时间维度)从加密后的标准样本中筛选出目标数据集,并将所述目标数据集划分为训练集和验证集;以及,基于所述训练集和全局初始参数对风险识别模型进行训练,得到模型局部参数并采用所述公钥对所述局部参数加密后发送至服务端;
服务端120包括:
第二交互模块,用于创建密钥对,并将所述密钥对中的公钥发送至各客户端,将所述密钥对中的私钥保留在本地,同时将预置的风险识别模型的全局初始参数广播至各所述客户端;以及,采用私钥对各局部参数进行解密,汇总所有所述局部参数,得到更新后的模型全局参数;以及,继续将更新后的模型全局参数下发至各所述客户端,使各所述客户端持续对自身的局部参数进行迭代,直至服务端节点对应的损失函数收敛,得到优化后的风险识别模型,并采用所述验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;以及,最优的风险识别模型输出的识别结果作为地铁基坑的开挖风险因素。
在一实施例中,所述第一交互模块包括:
检测单元,用于遍历所述监测数据,检测是否存在缺失数据;
补全单元,用于若所述监测数据存在缺失数据,则以缺失数据相邻两个监测数据的均值作为所述缺失数据的值,得到补全数据;
标准化单元,用于对所述补全数据进行标准化处理,得到所述标准样本。
在一实施例中,所述第一交互模块包括:
划分单元,用于将所有客户端划分为K个集合,K次不重复地以其中一个集合的目标样本作为验证集,剩下K-1个集合的目标样本作为训练集。
在一实施例中,所述第一交互模块包括:
设置单元,用于预设所述风险识别模型的决策树个数,节点的样本数量阈值,并以分类回归树算法作为所述风险识别模型的分类属性选择算法;
计算单元,用于根据预置基尼系数计算函数计算每一个影响因素下客户端节点对应训练集的基尼系数,以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性;
训练单元,用于将属于分类属性的样本和剩下的样本划分为两个新的节点,对两个新的节点的样本继续进行基尼系数的计算,确定新的分类属性,并根据新的分类属性划分出新的节点,直至节点中出现节点样本的数量小于所述节点样本数量阈值,则结束分裂,得到所述模型局部参数。
在一实施例中,所述第二交互模块包括:
误差计算单元,用于所述服务端节点基于所述验证集对优化后的风险识别模型进行K次误差计算,得到K个均方误差;
比较单元,用于比较K个所述均方误差,得到最小均方误差;
确定单元,用于以所述最小均方误差对应的风险识别模型作为最优的风险识别模型。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端节点,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于联邦学习的地铁基坑开挖风险识别方法,其特征在于,包括:
参与联邦学习的各个客户端节点获取地铁基坑的监测数据,并对所述监测数据进行预处理,得到标准样本,所述监测数据包括施工的影响因素和影响因素对应的数据值以及时间标签;
服务端节点创建密钥对,并将所述密钥对中的公钥发送至各所述客户端节点,将所述密钥对中的私钥保留在本地,同时将预置的风险识别模型的全局初始参数广播至各所述客户端节点;
各个所述客户端节点获取所述服务端节点下发的公钥和全局初始参数,基于所述公钥对标准样本进行加密处理,利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集,并将所述目标数据集划分为训练集和验证集;
各个所述客户端节点基于所述训练集和全局初始参数对本地的风险识别模型进行训练,得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至所述服务端节点;
所述服务端节点采用私钥对各所述模型局部参数进行解密,并汇总所有所述模型局部参数,得到更新后的模型全局参数;
所述服务端节点继续将更新后的模型全局参数下发至各所述客户端节点,使各所述客户端节点持续对自身的模型局部参数进行迭代,直至所述服务端节点对应的损失函数收敛,得到优化后的风险识别模型,并采用所述验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;
所述服务端节点输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。
2.根据权利要求1所述的基于联邦学习的地铁基坑开挖风险识别方法,其特征在于,所述对所述监测数据进行预处理,得到标准样本,包括:
遍历所述监测数据,检测是否存在缺失数据;
若是,则以缺失数据相邻两个样本的均值作为所述缺失数据的值,得到补全数据;
对所述补全数据进行标准化处理,得到所述标准样本。
3.根据权利要求1所述的基于联邦学习的地铁基坑开挖风险识别方法,其特征在于,所述将所述目标数据集划分为训练集和验证集,包括:
将所有客户端划分为K个集合,K次不重复地以其中一个集合的目标数据集作为验证集,剩下K-1个集合的目标数据集作为训练集。
4.根据权利要求1所述的基于联邦学习的地铁基坑开挖风险识别方法,其特征在于,所述风险识别模型为随机森林模型,所述各个所述客户端节点基于所述训练集和全局初始参数对本地的风险识别模型进行训练,得到模型局部参数,包括:
预设所述风险识别模型的决策树个数,节点的样本数量阈值,并以分类回归树算法作为所述风险识别模型的分类属性选择算法;
根据预置基尼系数计算函数计算当前客户端节点对应训练集中的基尼系数,以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性;
将属于分类属性的样本和剩下的样本划分为两个新的节点,对两个新的节点的样本继续进行基尼系数的计算,确定新的分类属性,并根据新的分类属性划分出新的节点,直至节点的样本数量小于所述样本数量阈值,则结束分裂,得到所述模型局部参数。
6.根据权利要求3所述的基于联邦学习的地铁基坑开挖风险识别方法,其特征在于,所述服务端节点继续将更新后的模型全局参数下发至各所述客户端节点,使各所述客户端节点持续对自身的模型局部参数进行迭代,直至所述服务端节点对应的损失函数收敛,得到优化后的风险识别模型,并采用所述验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型,包括:
所述服务端节点基于所述验证集对优化后的风险识别模型进行K次误差计算,得到K个均方误差;
比较K个所述均方误差,得到最小均方误差;
以所述最小均方误差对应的风险识别模型作为最优的风险识别模型。
7.一种基于联邦学习的地铁基坑开挖风险识别装置,其特征在于,包括:客户端和服务端;
所述客户端包括:
第一交互模块,用于获取地铁基坑的监测数据,并对监测数据进行预处理,得到标准样本;以及,获取服务端节点下发的公钥和全局初始参数,基于所述公钥对标准样本进行加密处理,利用隐私保护集合交集技术从加密后的标准样本中筛选出具有相同特征的样本作为目标数据集,并将所述目标数据集划分为训练集和验证集;以及,基于所述训练集和全局初始参数对本地的风险识别模型进行训练,得到模型局部参数并采用所述公钥对所述模型局部参数加密后发送至服务端;
所述服务端包括:
第二交互模块,用于创建密钥对,并将所述密钥对中的公钥发送至各客户端,将所述密钥对中的私钥保留在本地,同时将预置的风险识别模型的全局初始参数广播至各所述客户端;以及,采用私钥对各局部参数进行解密,并汇总所有所述局部参数,得到更新后的模型全局参数;以及,继续将更新后的模型全局参数下发至各所述客户端,使各所述客户端持续对自身的模型局部参数进行迭代,直至服务端对应的损失函数收敛,得到优化后的风险识别模型,并采用所述验证集对优化后的风险识别模型进行K次测试,得到最优的风险识别模型;以及,输出最优的风险识别模型的识别结果作为地铁基坑开挖的风险因素。
8.根据权利要求7所述的基于联邦学习的地铁基坑开挖风险识别装置,其特征在于,所述第一交互模块包括:
检测单元,用于遍历所述监测数据,检测是否存在缺失数据;
补全单元,用于若所述监测数据存在缺失数据,则以缺失数据相邻两个监测数据的均值作为所述缺失数据的值,得到补全数据;
标准化单元,用于对所述补全数据进行标准化处理,得到所述标准样本。
9.根据权利要求7所述的基于联邦学习的地铁基坑开挖风险识别装置,其特征在于,所述第一交互模块包括:
划分单元,用于将所有客户端划分为K个集合,K次不重复地以其中一个集合的样本数据作为验证集,剩下K-1个集合的样本数据作为训练集。
10.根据权利要求7所述的基于联邦学习的地铁基坑开挖风险识别装置,其特征在于,所述第一交互模块包括:
设置单元,用于预设所述风险识别模型的决策树个数,节点的样本数量阈值,并以分类回归树算法作为所述风险识别模型的分类属性选择算法;
计算单元,用于根据预置基尼系数计算函数计算当前客户端节点对应训练集的基尼系数,以基尼系数最小的影响因素作为所述风险识别模型进行节点分裂的分类属性;
训练单元,用于将属于分类属性的样本和剩下的样本划分为两个新的节点,对两个新的节点的样本继续进行基尼系数的计算,确定新的分类属性,并根据新的分类属性划分出新的节点,直至节点的样本数量小于所述样本数量阈值,则结束分裂,得到所述模型局部参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111319605.3A CN114021168B (zh) | 2021-11-09 | 2021-11-09 | 基于联邦学习的地铁基坑开挖风险识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111319605.3A CN114021168B (zh) | 2021-11-09 | 2021-11-09 | 基于联邦学习的地铁基坑开挖风险识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114021168A CN114021168A (zh) | 2022-02-08 |
CN114021168B true CN114021168B (zh) | 2022-05-24 |
Family
ID=80062978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111319605.3A Active CN114021168B (zh) | 2021-11-09 | 2021-11-09 | 基于联邦学习的地铁基坑开挖风险识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021168B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707519B (zh) * | 2022-03-23 | 2023-06-06 | 广东工业大学 | 一种面向多节点多领域及基于横向联邦学习的意图识别方法 |
CN114819614A (zh) * | 2022-04-22 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置、系统及设备 |
CN114819192B (zh) * | 2022-06-28 | 2022-09-13 | 医渡云(北京)技术有限公司 | 联邦学习方法及装置、计算机可读存储介质、电子设备 |
CN116151388B (zh) * | 2022-12-01 | 2024-09-03 | 广州大学 | 一种基于本地化差分隐私的联邦随机森林方法 |
CN117675411B (zh) * | 2024-01-31 | 2024-04-26 | 智慧眼科技股份有限公司 | 一种基于纵向XGBoost算法的全局模型获取方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016101976A4 (en) * | 2016-11-11 | 2016-12-08 | Klianev, Ivan MR | Open Network of Permissioned Ledgers |
CN107507005A (zh) * | 2017-08-01 | 2017-12-22 | 众安信息技术服务有限公司 | 一种基于联盟链的链外数据访问方法和系统 |
CN110929880A (zh) * | 2019-11-12 | 2020-03-27 | 深圳前海微众银行股份有限公司 | 一种联邦学习方法、装置及计算机可读存储介质 |
CN111046433A (zh) * | 2019-12-13 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 一种基于联邦学习的模型训练方法 |
CN112639737A (zh) * | 2018-07-09 | 2021-04-09 | 瑞典爱立信有限公司 | 用于在云提供商联盟中使用智能合同和区块链来管理云服务的方法和设备 |
CN112906903A (zh) * | 2021-01-11 | 2021-06-04 | 北京源堡科技有限公司 | 网络安全风险预测方法、装置、存储介质及计算机设备 |
CN113434873A (zh) * | 2021-06-01 | 2021-09-24 | 内蒙古大学 | 一种基于同态加密的联邦学习隐私保护方法 |
CN113516227A (zh) * | 2021-06-08 | 2021-10-19 | 华为技术有限公司 | 一种基于联邦学习的神经网络训练方法及设备 |
CN113609521A (zh) * | 2021-07-27 | 2021-11-05 | 广州大学 | 一种基于对抗训练的联邦学习隐私保护方法及系统 |
-
2021
- 2021-11-09 CN CN202111319605.3A patent/CN114021168B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016101976A4 (en) * | 2016-11-11 | 2016-12-08 | Klianev, Ivan MR | Open Network of Permissioned Ledgers |
CN107507005A (zh) * | 2017-08-01 | 2017-12-22 | 众安信息技术服务有限公司 | 一种基于联盟链的链外数据访问方法和系统 |
CN112639737A (zh) * | 2018-07-09 | 2021-04-09 | 瑞典爱立信有限公司 | 用于在云提供商联盟中使用智能合同和区块链来管理云服务的方法和设备 |
CN110929880A (zh) * | 2019-11-12 | 2020-03-27 | 深圳前海微众银行股份有限公司 | 一种联邦学习方法、装置及计算机可读存储介质 |
CN111046433A (zh) * | 2019-12-13 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 一种基于联邦学习的模型训练方法 |
CN112906903A (zh) * | 2021-01-11 | 2021-06-04 | 北京源堡科技有限公司 | 网络安全风险预测方法、装置、存储介质及计算机设备 |
CN113434873A (zh) * | 2021-06-01 | 2021-09-24 | 内蒙古大学 | 一种基于同态加密的联邦学习隐私保护方法 |
CN113516227A (zh) * | 2021-06-08 | 2021-10-19 | 华为技术有限公司 | 一种基于联邦学习的神经网络训练方法及设备 |
CN113609521A (zh) * | 2021-07-27 | 2021-11-05 | 广州大学 | 一种基于对抗训练的联邦学习隐私保护方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114021168A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114021168B (zh) | 基于联邦学习的地铁基坑开挖风险识别方法及装置 | |
CN109889538B (zh) | 用户异常行为检测方法及系统 | |
CN106375339B (zh) | 基于事件滑动窗口的攻击模式检测方法 | |
CN112420187B (zh) | 一种基于迁移联邦学习的医疗疾病分析方法 | |
CN111107072B (zh) | 一种基于认证图嵌入的异常登录行为检测方法及系统 | |
CN108282460B (zh) | 一种面向网络安全事件的证据链生成方法及装置 | |
CN108768986A (zh) | 一种加密流量分类方法及服务器、计算机可读存储介质 | |
CN113919513A (zh) | 一种联邦学习安全聚合方法、装置及电子设备 | |
CN110046297A (zh) | 运维违规操作的识别方法、装置和存储介质 | |
CN116974490A (zh) | 一种基于多端云计算集群的大数据存储方法及系统 | |
CN115189966B (zh) | 区块链隐私数据加解密服务系统 | |
CN105262715A (zh) | 一种基于模糊时序关联模式的异常用户检测方法 | |
Eid et al. | Improved real-time discretize network intrusion detection system | |
CN117336011A (zh) | 一种挖矿行为的检测方法、装置、电子设备和存储介质 | |
WO2017107551A1 (zh) | 信息确定方法及装置 | |
CN116502171B (zh) | 一种基于大数据分析算法的网络安全信息动态检测系统 | |
CN112667888A (zh) | 一种基于区块链的大数据处理系统 | |
CN113660080B (zh) | 一种安全多方计算与联邦分析技术 | |
Pereira et al. | Data clustering using topological features | |
CN112597379B (zh) | 数据识别方法、装置和存储介质及电子装置 | |
ZHANG et al. | Integrated intrusion detection model based on artificial immune | |
CN114021637A (zh) | 一种基于度量空间下去中心化应用加密流量分类方法及装置 | |
CN113378723A (zh) | 一种基于深度残差网络的输变电线路隐患自动安全识别系统 | |
CN118174956B (zh) | 一种基于自注意力BiLSTM的DoH检测方法 | |
CN117278271B (zh) | 一种属性基加密的数据传输方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |