CN114565106A - 基于孤立森林的联邦学习中毒攻击的防御方法 - Google Patents
基于孤立森林的联邦学习中毒攻击的防御方法 Download PDFInfo
- Publication number
- CN114565106A CN114565106A CN202210203687.3A CN202210203687A CN114565106A CN 114565106 A CN114565106 A CN 114565106A CN 202210203687 A CN202210203687 A CN 202210203687A CN 114565106 A CN114565106 A CN 114565106A
- Authority
- CN
- China
- Prior art keywords
- model
- parameters
- model parameters
- training
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Virology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于孤立森林的联邦学习中毒攻击的防御方法,包括如下步骤:用干净公开数据集构建验证模型并对验证模型参数注入扰动;在联邦学习的每个迭代中采样上传各个节点更新好的模型参数,将前者和经过扰动处理的验证模型参数形成特征矩阵;使用孤立森林来划分特征矩阵的数据空间,并计算出每个参与者的异常概率分数;根据验证模型的分数在所有上传模型的分数的分布,不断调整阈值,以排除攻击者,并尽量减少防御模型对良性用户的影响。该方法可以自动防御中毒攻击,通过调整预先训练好的验证模型,显著提升联邦学习的鲁棒性,确保联邦学习全局模型的正常训练。
Description
技术领域
本发明涉及联邦学习技术领域,具体是一种基于孤立森林的联邦学习中毒攻击的防御方法。
背景技术
机器学习训练需要大量的可能包含个人隐私的数据,很多用户基于隐私泄露的风险不愿意提交数据。联邦学习是最近提出的一种机器学习方法,因能有效地缓解“数据孤岛”现象而被广泛关注。在联邦学习中,每个参与方对自己的数据具有绝对的控制权,中心服务器无法直接或间接操作计算节点上的数据,计算节点之间或计算节点与模型服务器间通过交换模型参数等信息协同训练,使得模型在保护用户数据的隐私的同时,其性能接近传统集中式机器学习。
然而,联邦学习的训练过程依赖参与方的诚信,假设参与方会真实有效的执行模型训练过程。这个假设在实际应用过程中通常难以满足。例如,参与方可能由于软硬件故障或者遭受恶意攻击而偏离正常行为,甚至参与方本身就是恶意的,通过篡改本地数据或修改上传的模型参数攻击联邦学习系统,使训练出的模型性能不佳或无法收敛。
目前的防御联邦学习中的中毒攻击的方法中,基于距离或密度测量的方法计算成本昂贵且耗时;利用模型更新来估计真实中心参数并传给服务器的方法可以在一定程度上减轻恶意攻击的影响,但不能完全消除它们,因为其无法区分合法更新和正常更新;此外,这些方法大多假设独立且同分布的数据,而由于联邦学习中计算节点中的数据是独立产生的,各自的数据量与设备自身等诸多因素有关,很难保证不同节点拥有相近的数据量,所以往往表现出不同的分布特征。同时,异常检测技术很容易产生过高的误识率,错误地排除了良性用户的参与,反而降低了模型的精度,精准的排除异常用户的影响是联邦学习系统正常工作的保障。
发明内容
本发明的目的是针对现有技术中存在的不足,而提供一种针对联邦学习中恶意用户的中毒攻击的防御方法。这种方法能降低误识率,鲁棒性强。
实现本发明目的的技术方案是:
一种基于孤立森林的联邦学习中毒攻击的防御方法,实现该防御策略的场景是一个由数个参与方和一个中央服务器组成的水平联邦学习模型,每个参与者只可以访问自己的本地数据集,每个节点的数据都不与服务器共享,所述方法包括如下步骤:
步骤1:联邦学习模型初始化,设置整体训练轮次、参与者的数量K和一个中央服务器S,每个参与者可以访问自己的本地数据集Di,|Di|=li,每个参与者的数据都不与服务器共享,样本总数为l;
步骤2:验证模型预训练:配置干净的公共数据集训练验证模型,部分验证模型参数注入扰动;训练孤立森林异常检测模块使其能区分经过扰动和未经扰动的验证模型;
步骤4:对采样上传的模型参数,不计算节点模型参数之间的距离,而是构造孤立森林异常检测模块,投入采样的模型参数和经过扰动处理的验证模型参数共同参与检测;
步骤4.1:构造特征矩阵Xk×m,递归地随机分割Xk×m,采用子采样的方式构造多颗决策树iTree,将返回的iTree集合并准备进行评估;
步骤4.2:将节点在所有iTree的高度平均值比值归一化得到统计量s(x,k),将统计量s(x,k)作为异常用户的评价指标;
步骤5:所有参与训练的模型参数经过孤立森林模块得到对应的异常分数后,根据验证模型的分数在所有上传模型的分数的分布,不断调整阈值;
步骤6:排除标签为异常的更新参数,中央服务器接收正常的训练参数运行联邦平均算法,聚合产生新的全局模型并再次将计算好的全局模型参数广播给每个参与方,为下一轮训练做准备,然后重复步骤3至步骤6直至联邦学习全局模型收敛。
与现有技术相比,本技术方案具有以下有益效果:
本技术方案针对联邦学习场景中的中毒攻击问题,在服务器端构建了基于孤立森林的异常检测模块,在联邦学习的每次迭代计算所有节点的异常概率。进一步,在联邦框架中,随着全局模型的聚合,节点上传的模型参数都在不断趋近,一个固定的检测阈值并不合适,同时异常检测技术很容易产生过高的误检率,错误地排除了良性用户的参与,反而降低了模型的精度。本技术方案采用验证模型训练动态阈值,能有效降低误识率,将模型参数的异常概率转变为预测分数,从而判断参与方是否为恶意攻击者,同时排除恶意用户的模型参数并聚合足够多的良性用户参与训练,使联邦学习模型更加鲁棒。
这种方法能降低误识率,鲁棒性强。
附图说明
图1为实施例的流程示意图;
图2为实施例中联邦学习的框架示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
联邦学习是一种新兴的、分布式的机器学习方法,参与者在使用自己的本地数据进行训练后提交参数,服务器将用户提交的模型参数汇总,形成一个联邦学习模型。通过发送本地更新参数而不是原始数据,用户的数据隐私安全得以保证,同时无法了解全局模型是如何形成的,这种不透明性保护了用户的隐私。然而,由于原始数据从未被发送到服务器上,其上传的模型参数的质量和完整性无法得到保证。恶意攻击者可以向自己的原始数据或上传的参数注入中毒攻击。因此,联邦学习非常容易受到中毒攻击,这导致模型的性能大大降低。
基于上述原因,本例设计了一种针对联邦学习中恶意用户的中毒攻击的防御方法,在联邦学习的每个迭代中,使用孤立森林来划分模型参数形成的特征矩阵,并计算出每个参与者的异常概率,使用公开数据集训练验证模型,以此来设计动态阈值,通过排除异常用户,并尽量减少防御模型对良性用户的影响,确保全局模型的正确训练,可以显著提高防御模型的性能,如图1所示,所述方法包括如下步骤:
步骤1:联邦学习模型初始化,设置整体训练轮次、参与者的数量K和一个中央服务器S,每个参与者可以访问自己的本地数据集Di,|Di|=li,每个参与者的数据都不与服务器共享,样本总数为l;
步骤2:验证模型预训练:配置干净的公共数据集训练验证模型,部分验证模型参数注入扰动;训练孤立森林异常检测模块使其能区分经过扰动和未经扰动的验证模型;
步骤2.1:配置干净的公共数据集Daux并利用Daux预训练验证模型waux;
步骤2.2:部分验证模型参数注入符合拉普拉斯分布的扰动λ,并调整扰动程度;
步骤2.3:根据已知的污染模型参数设置孤立森林的污染率,训练孤立森林异常检测模块使其能区分经过扰动和未经扰动的模型,记录与孤立森林的污染率有关的参数γ;
步骤3:如图2所示,对于一个由K个参与者和一个中央服务器S组成的联邦学习模型,联邦学习第t轮训练时,每个节点利用中央服务器下发的全局模型参数和本地数据集Di在本地训练并产生新的模型参数n表示模型参数的维度,如公式(1):
步骤4:对采样上传的模型参数,不计算模型参数之间的距离,而是构造孤立森林异常检测模块,投入采样的模型参数和经过扰动处理的验证模型参数waux共同参与检测;
步骤4.1:假设有k个用户并行训练,用每个客户端上传的模型参数构造特征矩阵Xk×m,m是由上传的模型参数形成的特征,递归地随机分割Xk×m,并采用子采样的方式构造多颗决策树iTree,在训练过程结束时,将返回的iTree集合并准备进行评估;
步骤4.2:对于查找哪些用户可能是异常的,孤立森林在评估阶段设计了统计量s(x,k),这个统计值可以与每个参与者的异常概率关联起来:
s(x,k)的取值范围是[0,1],取值越接近于1,则是异常点的概率也越大,h(x)表示x的数值在iTree的深度,离根节点越近,h(x)则越小,根节点的高度为0;E(h(x))是x在所有iTree的高度平均值,用c(k)来归一化E(h(xi)),c(k)表示对于一个包含k个样本的数据集,若用一个二分树来搜索,平均搜索不成功的路径就等于这k个点的平均路径长度c(k),ξ为欧拉常数:
根据经验,将每棵树的最大深度设置为log2(k);
步骤5:所有参与训练的模型参数经过孤立森林模块得到对应的异常分数后,如公式(2),
初始化γ,计算阈值threshold,如公式(5),根据验证模型waux的分数在所有上传模型的分数的分布,不断调整γ值的大小,直至使所有被扰动的验证模型都被阈值所排除,同时异常用户也被排除了;
threshold=min(0,ξ(score(W,k),γ)) (5),
ξ(score(W,k),γ)表示γ的百分比在score(W,k)上对应的分数值;
记录γ用于下一次检测,根据阈值将异常分数转换为预测标签,将被排除的节点标记为异常或恶意攻击者,并根据已知的分数分布推测攻击者的比例和分布,由此使阈值能自适应的调整,减少误识率;
步骤6:服务器端抛弃被标记为恶意攻击者的模型参数,中央服务器接收正常的训练参数运行联邦平均算法,获得一个新的全局模型如公式(6),聚合产生新的全局模型并再次将计算好的全局模型参数广播给每个参与方,为下一轮训练做准备,然后重复步骤3至步骤6直至联邦学习全局模型模型收敛;
综合上述,防御目标函数为:
Claims (1)
1.一种基于孤立森林的联邦学习中毒攻击的防御方法,其特征在于,实现该防御策略的场景是一个由数个参与方和一个中央服务器组成的水平联邦学习模型,每个参与者只访问自己的本地数据集,每个节点的数据都不与服务器共享,所述方法包括如下步骤:
步骤1:联邦学习模型初始化:设置整体训练轮次、参与者的数量及其本地数据集和中央服务器;
步骤2:验证模型预训练:配置干净的公共数据集训练验证模型,部分验证模型参数注入扰动;训练孤立森林异常检测模块使其能区分经过扰动和未经扰动的验证模型;
步骤4:对采样上传的模型参数,不计算节点模型参数之间的距离,而是构造孤立森林异常检测模块,投入采样的模型参数和经过扰动处理的验证模型参数共同参与检测;
步骤4.1:构造特征矩阵Xk×m,递归地随机分割Xk×m,采用子采样的方式构造多颗决策树iTree,将返回的iTree集合并准备进行评估;
步骤4.2:将节点在所有iTree的高度平均值比值归一化得到统计量s(x,k),将统计量s(x,k)作为异常用户的评价指标;
步骤5:所有参与训练的模型参数经过孤立森林模块得到对应的异常分数后,根据验证模型的分数在所有上传模型的分数的分布,不断调整阈值;
步骤6:排除标签为异常的更新参数,中央服务器接收正常的训练参数运行联邦平均算法,聚合产生新的全局模型并再次将计算好的全局模型参数广播给每个参与方,为下一轮训练做准备,然后重复步骤3至步骤6直至联邦学习全局模型收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203687.3A CN114565106A (zh) | 2022-03-02 | 2022-03-02 | 基于孤立森林的联邦学习中毒攻击的防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203687.3A CN114565106A (zh) | 2022-03-02 | 2022-03-02 | 基于孤立森林的联邦学习中毒攻击的防御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114565106A true CN114565106A (zh) | 2022-05-31 |
Family
ID=81718600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210203687.3A Pending CN114565106A (zh) | 2022-03-02 | 2022-03-02 | 基于孤立森林的联邦学习中毒攻击的防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114565106A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220050928A1 (en) * | 2020-08-14 | 2022-02-17 | Tata Consultancy Services Limited | Method and system for secure online-learning against data poisoning attack |
CN115563616A (zh) * | 2022-08-19 | 2023-01-03 | 广州大学 | 一种面向本地化差分隐私数据投毒攻击的防御方法 |
-
2022
- 2022-03-02 CN CN202210203687.3A patent/CN114565106A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220050928A1 (en) * | 2020-08-14 | 2022-02-17 | Tata Consultancy Services Limited | Method and system for secure online-learning against data poisoning attack |
US11829193B2 (en) * | 2020-08-14 | 2023-11-28 | Tata Consultancy Services Limited | Method and system for secure online-learning against data poisoning attack |
CN115563616A (zh) * | 2022-08-19 | 2023-01-03 | 广州大学 | 一种面向本地化差分隐私数据投毒攻击的防御方法 |
CN115563616B (zh) * | 2022-08-19 | 2024-04-16 | 广州大学 | 一种面向本地化差分隐私数据投毒攻击的防御方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112398779B (zh) | 一种网络流量数据分析方法及系统 | |
CN111753881B (zh) | 一种基于概念敏感性量化识别对抗攻击的防御方法 | |
CN114565106A (zh) | 基于孤立森林的联邦学习中毒攻击的防御方法 | |
CN107545277B (zh) | 模型训练、身份验证方法、装置、存储介质和计算机设备 | |
CN109886343B (zh) | 图像分类方法及装置、设备、存储介质 | |
CN110717525B (zh) | 一种通道自适应优化的对抗攻击防御方法和装置 | |
CN111950628A (zh) | 人工智能图像分类模型的鲁棒性评估与增强系统 | |
CN113297573A (zh) | 一种基于gan模拟数据生成的垂直联邦学习防御方法和装置 | |
CN108282460B (zh) | 一种面向网络安全事件的证据链生成方法及装置 | |
CN114841364A (zh) | 一种满足个性化本地差分隐私需求的联邦学习方法 | |
CN108494772B (zh) | 模型优化、网络入侵检测方法及装置和计算机存储介质 | |
CN113033822A (zh) | 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统 | |
KR20190028880A (ko) | 봇넷 탐지 시스템을 학습하기 위한 학습 데이터를 생성하는 방법 및 그 장치 | |
CN117424754B (zh) | 针对集群联邦学习攻击的防御方法、终端及存储介质 | |
CN111192206A (zh) | 一种提高图像清晰度的方法 | |
Pang et al. | Federated learning for crowd counting in smart surveillance systems | |
CN114582011A (zh) | 一种基于联邦学习与边缘计算的行人追踪方法 | |
CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
CN115604032B (zh) | 一种电力系统复杂多步攻击检测方法及系统 | |
CN115580547A (zh) | 基于网络数据流间时空相关性的网站指纹识别方法和系统 | |
CN114821174B (zh) | 一种基于内容感知的输电线路航拍图像数据清洗方法 | |
CN115766140A (zh) | 分布式拒绝服务DDoS攻击检测方法及装置 | |
Huang et al. | Learning context restrained correlation tracking filters via adversarial negative instance generation | |
CN115438753A (zh) | 一种基于生成的衡量联邦学习协议数据安全性的方法 | |
CN114299328A (zh) | 一种环境自适应感知的小样本濒危动物检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |