CN115002031B - 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法 - Google Patents

基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法 Download PDF

Info

Publication number
CN115002031B
CN115002031B CN202210506600.XA CN202210506600A CN115002031B CN 115002031 B CN115002031 B CN 115002031B CN 202210506600 A CN202210506600 A CN 202210506600A CN 115002031 B CN115002031 B CN 115002031B
Authority
CN
China
Prior art keywords
model
local
data
node
network traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210506600.XA
Other languages
English (en)
Other versions
CN115002031A (zh
Inventor
齐恒
周弈志
申彦明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210506600.XA priority Critical patent/CN115002031B/zh
Publication of CN115002031A publication Critical patent/CN115002031A/zh
Application granted granted Critical
Publication of CN115002031B publication Critical patent/CN115002031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • H04L47/827Aggregation of resource allocation or reservation requests
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法,属于计算机流量分类领域,为了解决联邦学习在不平衡流量分类任务中通信代价过大和精度降低的问题,中心节点在一个训练周期接收本地节点发送的本地模型权重和平衡度,其中,本地节点的流量数据在本地模型中训练得到本地模型权重,平衡度由所述流量数据所在的流量数据集计算所得;将本地模型权重和平衡度加权聚合得到聚合后的全局模型;中心节点将所述聚合后的全局模型向本地节点发送;确定中心节点发送的聚合后的全局模型的准确率,根据所述准确率确定本地节点训练的模型,效果是可以有效地减小通信代价。

Description

基于不平衡数据分布的联邦学习网络流量分类模型训练方 法、模型及分类方法
技术领域
本发明属于计算机流量分类领域,尤其涉及一种基于不平衡数据分布的联邦学习网络流量分类算法。
背景技术
网络流量分类是指根据网络流的特征将网络中的流量进行分类,分类的目的主要有两个,一是根据分类结果科学地预测网络中传输的主流业务,从而制定合理的网络资源分配策略,提高网络资源的利用率;二是通过分类我们也能够发现网络中可能存在的恶意流量,保障网络的安全。
按照工作原理的不同,网络流量分类方法有如下四种,第一种是基于端口识别的网络流量分类,该方法利用已知的应用端口号与标准端口号进行关联对比从而实现流量的分类。但是随着新的应用数量的不断增多,很多应用不再具有可查询的固定端口号,这使得基于端口识别的网络流量分类方法可用性大大降低;为了弥补端口识别的不足,研究者们推出了第二种基于负载匹配的网络流量识别方法,该方法通过检测整个网络数据包信息,根据不同应用的特性,采用匹配数据流特定字段的方法实现网络流量分类,但是在匹配过程中运算开销过大,从而导致无法对网络数据进行实时匹配;第三种为基于机器学习的网络流量分类,该方法通过提取不同种类的应用产生的流量特性的统计信息,然后选择某种机器学习模型进行训练,从而对流量进行分类。但是缺点在于比较依赖对人工特征的设计;第四种为基于深度学习的网络流量分类方法,该方法将每个数据包的数据看成行,同一网络流的多个数据包作为列,组成灰度图像,将网络流量分类问题转化为图像分类问题进行处理。但是尽管基于深度学习的方法在公开数据集上取得了较好的分类效果,但是在实际应用中存在一些问题。
在基于深度学习的网络流量分类任务中,考虑到流量收集设备在收集流量数据中往往会收集到一些用户的隐私信息,而用户则不希望这些信息被公开,这样就会导致在训练流量分类模型过程中存在数据不足的情况;与此同时,由于各国法律或法规的限制,公司和企业不允许相互分享用户的流量数据,这样会导致单个公司或组织所拥有的数据非常同质,这样训练得到的模型会过拟合,不具有通用性。
联邦学习是一种新兴用来保护用户隐私的机器学习范式,它基于接收到由本地客户训练产生的本地模型更新,产生一个无偏见的全局模型。在整个联邦学习过程中,无需交换客户的本地数据,从而可以有效的解决基于深度学习的网络流量分类过程中隐私和安全问题。但是默认的联邦学习算法通常假设样本数据是分布均匀的,而实际情况,各本地客户的数据样本分布是不平衡的,有研究表明,当数据不平衡时,默认的联邦学习算法会减缓全局收敛速度,且分类精度会降低。
对此,中国专利申请CN113705712A公开了一种基于联邦半监督学习的网络流量分类方法和系统,流量数据标注过程中,耗费巨量的人力与时间成本这一问题,采用半监督学习的方法对模型进行两次训练,从而减小了标注数据的量,节省了人力成本。但是该发明在减少人力成本的同时,没有考虑两次训练所带来巨大计算量以及通信成本,且没有解决样本的不平衡分布问题。
因此现有技术需要一种能解决样本的不平衡分布的方法,来提升联邦学习中本地节点与中心节点之间的通信速度与流量分类精度。
发明内容
为了解决联邦学习在不均衡流量分类任务中通信代价过大和精度降低的问题,本发明提出如下技术方案:
一种基于不平衡数据分布的联邦学习网络流量分类模型训练方法,用于中心节点,所述训练方法包括:
中心节点在一个训练周期接收本地节点发送的本地模型权重和平衡度,其中,本地节点的流量数据在本地模型中训练得到本地模型权重,平衡度由所述流量数据所在的流量数据集计算所得;
将本地模型权重和平衡度加权聚合得到聚合后的全局模型;
中心节点将所述聚合后的全局模型向本地节点发送;
确定中心节点发送的聚合后的全局模型的准确率,根据所述准确率确定本地节点训练的模型;
至中心节点所加权聚合得到的全局模型收敛时所处于的训练周期结束训练,将结束时所处训练周期的所述全局模型的权重作为网络流量分类模型权重。
在一种实施例中,使本地节点确定中心节点发送的聚合后的全局模型的准确率,根据所述准确率确定本地节点训练的模型的具体方法是
聚合后的全局模型的准确率不低于本地节点的本地模型的准确率,则中心节点发送的聚合后的全局模型由本地节点接收,本地节点训练由中心节点发送的所述聚合后的全局模型,在下一个训练周期将训练后的所述全局模型作为新的本地模型,向中心节点发送新的本地模型权重和平衡度;聚合后的全局模型的准确率低于本地节点的本地模型的准确率,本地节点训练在所述一个训练周期发送的本地模型权重所对应的本地模型,在下一个训练周期将训练后的所述本地模型作为新的本地模型,向中心节点发送新的本地模型权重和平衡度。
在一种实施例中,所述将本地模型权重和平衡度加权聚合得到聚合后的全局模型的步骤包括
计算取得本地节点的流量数据集的平衡度;
根据所述平衡度,获取反映本地节点k数据量占所有节点数据量的比例,本地节点k平衡度占所有节点平衡度的比例的单向权重,
根据单向权重和本地节点的本地模型权重,计算聚合后的权重。
在一种实施例中,计算流量数据集的平衡度由公式(1)~(3)表示:
其中,p代表真实的流量数据分布,q代表在基准数据集中各类样本按照1:1:1的数据分布,DKL(p||q)表示真实流量数据与基准数据之间的KL距离,p(x)为真实条件下某类样本占所有样本的概率,q(x)为理想条件下某类样本占所有样本的概率,C为流量数据的类别数,K表示本地节点的数量,计算得到的平衡度A满足0≤A≤1的性质,A越趋近于1表示数据集越平衡,A越趋近于0表示数据集越不平衡。
在一种实施例中,中心节点计算单向权重,并根据单向权重和本地节点的权重计算聚合后的权重:
计算单向权重由公式(4)表示:
其中,n为所有本地节点总的数据量,nk为单个本地节点的数据量,Dk为本地节点k数据量占所有节点数据量的比例,Sk为本地节点k平衡度占所有节点平衡度的比例,为所有本地节点总的平衡度,Ak为本地节点k的平衡度;
计算聚合后的权重由公式(5)表示:
其中,为加权聚合后的全局模型,/>为本地节点的权重,α=0.7,layer l≠bn表示局部网络中的bn层不参与聚合。
在一种实施例中,所述的网络流量分类模型包含依次连接的五个阶段,分别为Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x,其中Conv1部分输入为H×W,包含1个卷积核为7×7,步长为2的卷积层,输出尺寸为H×W;Conv2_x部分输入为H×W,包含2个残差块与一个池化层,其中每个残差块里有2个卷积层,2个卷积核大小依次为3×3、3×3,每个卷积层后为归一化以及Relu激活函数,池化层为2×2大小的最大池化操作,输出尺寸为H/2×W/2;Conv3_x部分输入为H/2×W/2,包含依次连接的2个残差块与1个池化层,输出尺寸为H/4×W/4;Conv4_x部分输入为H/4×W/4,包含依次连接的2个残差块与1个池化层,输出尺寸为H/8×W/8;Conv5_x部分输入为H/8×W/8,包含依次连接的2个残差块与1个池化层,输出尺寸为H/16×W/16。
在一种实施例中,还包括根据所述的网络流量分类模型,得到分类结果和本地模型权重wi:对Conv5_x部分输出的特征图进行全局平均池化操作以及全连接操作,将输出特征图转化为一维向量,再对所述一维向量进行Softmax操作,得到分类结果与本地模型权重wi
在一种实施例中,本地节点收集流量数据,并对所述收集到的流量数据进行预处理操作,预处理操作后再计算流量数据的平衡度及训练本地模型,所述预处理操作包括如下步骤:
S1.对20类网络流量数据拆分,将原始网络流量数据拆分为离散的网络流量数据;
S2.对所述离散的网络流量数据的包头信息进行剔除;
S3.数据清洗:对所述剔除包头的数据包里的重复内容或空白内容进行删除;
S4.对所述清洗后数据进行784字节的固定长度的截取,如果流量内容大于784字节,则将超过部分进行剔除,如果小于,则在末尾补充字节,其中,每个字节有8位构成,而标注工作是在每条网络流量数据的最后一个字节之后添加网络流量的类别标签;
S5.将所述截取后784维的pcap格式的流量数据转化为28×28维的灰度图像,最终映射为本地节点网络模型的输入。
在一个方面上,本发明还涉及一种由任一项所述的训练方法训练所得网络流量分类模型。
在一个方面上,本发明还涉及一种基于不平衡数据分布的联邦学习网络流量分类方法,由所述的网络流量分类模型用于对网络流量数据分类。
本发明与现有技术相比,具有如下优点和有益效果:本发明通过搭建基于不平衡数据分布的联邦学习网络流量分类算法,一方面可以协助多方共同学习一个准确且通用的神经网络模型,而无需公开和共享他们的本地用户数据集;另一方面通过在本地节点的模型接收策略上的改进,可以有效地减小通信代价;除此之外,中心节点上新的加权聚合方法可以有效地解决流量数据不平衡分布的问题。
附图说明
图1为本发明实施例提供的一种基于加权聚合联邦学习的网络流量分类算法流程图。
图2为本发明实施例提供的本地网络流量预处理流程。
图3为本发明实施例提供的网络流量数据预处理后可视化图。
图4为本发明实施例提供的本地节点网络结构图。
图5为本发明实施例提供的基于加权聚合联邦学习的网络流量分类架构图。
图6为本发明实施例提供的本地节点与中心节点的任务流程图。
图7的a、b、c为本发明实施例提供的不同联邦学习策略的实验对比图。
具体实施方式
下面将结合附图和技术方案,对本发明的实施过程进行详细描述。
实施例1:本发明提供一种基于不平衡数据分布的联邦学习网络流量分类模型的训练方法,该方法可以一定程度上解决联邦学习在不均衡流量分类任务中通信代价过大和精度降低等问题,从而提升通信速度。该方法包括如下步骤:
S1、本地节点收集流量数据,并对所述收集到的流量数据进行预处理操作。
S2、计算所述预处理后的流量数据的平衡度。
S3、将述预处理后的流量数据放入分类模型中进行训练,得到本地模型权重。
S4、本地节点将所述本地模型权重与平衡度上传至中心节点进行加权聚合,得到聚合后的全局模型。
S5、本地节点下载所述聚合后的全局模型,并将所述聚合后的全局模型与聚合前的本地模型精度进行比较,判断是否接收全局模型。
S6、多次迭代步骤S3至S5,经过联邦学习中心节点端多次聚合更新至全局模型收敛后不再迭代,收敛得到的权重作为最终权重,所述最终权重用于进行网络流量分类。
在一种实施例中,所述S1具体包括:
本地节点收集流量数据,并对所述收集到的流量数据进行预处理操作。
所述本地节点从各类公开网站,平台收集网络流量,并将所述收集到的网络流量分为良性网络流量与恶性网络流量。其中所述良性网络流量包括FTP、BitTorrent、Outlook、Skype、SMB、Weibo、WorldofWarcraft、Facetime、Gmail、MySQL。所述恶性流量包括Cridex、Neris、Nsis-ay、Htbot、Geodo、Zeus、Miuref、Virut、Tinba,数据格式为pcap。对所述收集到的流量数据进行预处理操作生成idx格式的图像数据。
采用上述进一步方案的有益效果是:通过将pcap格式的流量变为图像数据,可以将网络流量分类问题转化为图片的分类问题,方便对其进行表征方面的分析,且给模型的进一步测试带来便利。
在一种实施例中,所述S2具体包括:
计算所述预处理后的流量数据的平衡度。
所述平衡度的计算方法为改进的KL距离,得到的平衡度与本地训练模型一同传入中心节点进行加权聚合。
采用上述进一步方案的有益效果是:量化每个本地节点数据集的平衡程度,并据此调节平衡策略,从而能够有效地提取本地模型的信息,提高流量分类精度。
在一种实施例中,所述S3具体包括:
将所述预处理后的流量数据放入分类模型中进行训练,得到本地模型权重。
所述分类模型为残差网络(ResNet18),所述残差网络包括1个卷积层、8个残差块、以及全连接层。所述残差块均为2层卷积层。
采用上述进一步方案的有益效果是:将ResNet18作为整个流量分类模型的主干网络,其作用为提取网络流量信息中的特征,供后续分类使用。相较于其他流量分类网络,Resnet18的模型参数更小,从而可以让本地节点与全局节点更快的进行通信,减少通信时间。
在一种实施例中,所述S4具体包括:
本地节点将所述本地模型权重与平衡度上传至中心节点进行加权聚合,得到聚合后的全局模型。
所述加权聚合是根据各客户端的流量数据的数据量与平衡度进行加权平均,能反映出本地节点占全部所有上传节点的比例,同时所述本地模型中所有BN层不参与到聚合中。能够提高异质性。
采用上述进一步方案的有益效果是:采用所述加权聚合的方法可以有效的解决流量数据的不平衡问题,从而提高流量分类精度,降低通信成本。
在一种实施例中,所述S5具体包括:
本地节点下载所述聚合后的全局模型,并将所述聚合后的全局模型与聚合前的本地模型精度进行比较,判断是否接收全局模型。
所述接收全局模型流程为,利用本地节点的数据集对聚合后的全局模型进行验证,当验证精度高于聚合前的精度,则接收全局模型。反之,则保留聚合前的本地模型。
采用上述进一步方案的有益效果是:有选择性的接收全局模型可以有效的提升模型收敛速度。
在一种实施例中,所述S6具体包括:
多次迭代S3至S5,经过联邦学习中心节点端多次聚合更新至全局模型收敛后不再迭代,最后中心节点聚合得到的权重作为最终权重,所述最终权重用于进行网络流量分类。
在一种更详细的实施例中,如图1所示,为本发明提供的一种基于联邦学习的网络流量分类方法,包括:
步骤1:本地节点收集流量数据,并对所述收集到的流量数据进行预处理操作。
所述本地节点从各类公开网站,平台收集网络流量,并将所述收集到的网络流量分为良性网络流量与恶性网络流量。其中所述良性网络流量包括FTP、BitTorrent、Outlook、Skype、SMB、Weibo、WorldofWarcraft、Facetime、Gmail、MySQL。所述恶性流量包括Cridex、Neris、Nsis-ay、Htbot、Geodo、Zeus、Miuref、Virut、Tinba,数据格式为pcap。每种类型网络流量50000条。
所述预处理方法具体分为5个步骤,如图2所示。第一,对20类网络流量数据拆分,将原始网络流量数据拆分为离散的网络流。第二,对所述离散的网络流数据的包头信息进行剔除。第三,数据清洗:对所述剔除包头的数据包里的重复内容或空白内容进行删除。第四,对所述清洗后数据进行784字节的固定长度的截取,如果流量内容大于784字节,则将超过部分进行剔除,如果小于,则在末尾补充字节。其中,每个字节有8位构成,而标注工作是在每条网络流量数据的最后一个字节之后添加网络流量的类别标签。第五,将所述截取后784维的pcap格式的流量数据转化为28×28维的灰度图像(如图3所示),最终映射为本地节点网络模型的输入。
基于不平衡数据分布的联邦学习网络流量分类算法具体如下:
在步骤2前需要统计参与联邦学习的本地节点的集合Ct,集合Ct是由max(Kρ,1)得到的。其中,K表示为本地节点的数量,ρ表示一个0到1之间的小数,。函数max(Kρ,1)表示取Kρ与1之间的最大值,表明服务器每次通信时至少随机选取1个客户端。
步骤2:计算所述预处理后的流量数据的平衡度。
所述流量数据的平衡度A采用改进的KL距离得到的,具体公式如下:
其中,p代表真实的流量数据分布,q代表在基准数据集中,各类样本按照1:1:1的数据分布。p(x)为真实条件下某类样本占所有样本的概率,q(x)为理想条件下某类样本占所有样本的概率,C为流量数据的类别数。计算得到的平衡度A满足0≤A≤1的性质。A越趋近于1表示数据集越平衡,A越趋近于0表示数据集越不平衡。
本发明通过改进的KL距离,将现有的平衡度A的区间由(-∝,2)改进为0≤A≤1,负无穷在权重计算中难以表达,因此导致平衡度在(-∝,2)区间表达时,本领域难以将平衡度用于权重计算,而由本发明实验数据可知,将平衡度使用在数据集中加权聚合,可以提高流量分离模型的分类准确率,因此改进的KL距离的计算实现了平衡度A的区间为0≤A≤1评价平衡度,使得平衡度A能够参与到模型的加权计算中,从而提高模型的分类准确性。
步骤3:将所述预处理后的流量数据放入分类模型中进行训练,得到局部模型权重。
所述分类模型为如图4所示的残差网络(ResNet18),并使用了在COCO数据集上的预训练模型。本发明采用的ResNet101,包含依次连接的五个阶段,分别为(Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x),其中Conv1部分输入为H×W,包含1个卷积核为7×7,步长为2的卷积层,输出尺寸为H×W。Conv2_x部分输入为H×W,包含2个残差块与一个池化层,其中每个残差块里有2个卷积层,2个卷积核大小依次为3×3、3×3,每个卷积层后为归一化以及Relu激活函数,池化层为2×2大小的最大池化操作,输出尺寸为H/2×W/2。Conv3_x部分输入为H/2×W/2,包含依次连接的2个残差块与1个池化层,输出尺寸为H/4×W/4。Conv4_x部分输入为H/4×W/4,包含依次连接的2个残差块与1个池化层,输出尺寸为H/8×W/8。Conv5_x部分输入为H/8×W/8,包含依次连接的2个残差块与1个池化层,输出尺寸为H/16×W/16。对Conv5_x部分输出的特征图进行全局平均池化操作,以及全连接操作,将输出特征图转化为一维向量,最后对所述一维向量进行Softmax操作,得到分类结果与本地模型权重wi
步骤4:本地节点将所述本地模型权重与平衡度上传至中心节点进行加权聚合,得到聚合后的全局模型。
具体地,本地节点在初次训练需上传步骤2得到的平衡度,然后中心节点根据公式4计算得到单向权重
其中,n为所有本地节点总的数据量,nk为单个本地节点的数据量,Dk为本地节点k数据量占所有节点数据量的比例,Sk为本地节点k平衡度占所有节点平衡度的比例。
接着,联邦学习的中心节点采用加权聚合方法计算出聚合后的权重加权聚合方法计算公式为:
其中,为加权聚合后的全局模型,/>为本地节点的权重,α=0.7,(layer l≠bn)为局部网络中的bn层不参与聚合。
步骤5:本地节点下载所述聚合后的全局模型,并将所述聚合后的全局模型与聚合前的本地模型精度进行比较,判断是否接收全局模型。
所述判断是否接收全局模型的方法为利用本地节点的数据集对聚合后的全局模型进行验证,当验证准确率高于聚合前的准确率,则接收全局模型,本地节点训练在聚合后的全局模型下进行下一轮训练。反之,则保留聚合前的本地模型,本地节点训练在聚合前的本地模型下进行下一轮训练。
步骤6:多次迭代步骤S3至S5,经过联邦学习中心节点端多次聚合更新至全局模型收敛后不再迭代,收敛得到的权重作为最终权重,所述最终权重用于进行网络流量分类。
如图5所示为基于加权聚合联邦学习的网络流量分类架构图,整个训练过程本地节点间的数据是不共享的,且无需将流量数据上传至中心节点。整个训练过程使用的计算资源为三张英伟达GTX3090Ti显卡,深度学习训练框架为Pytorch,服务器模拟10个本地节点与1个中心节点。图6为本地节点与中心节点的任务流程图。
图7的a、b、c分别为本发明算法在本地迭代轮数为10,全局迭代轮数为50下,数据平衡度A=1、0.75、0.5,对比FedAvg、FedBn、FedProx三种联邦学习策略的实验对比图,可以发现本发明在数据不平衡下,训练精度与收敛速度均优于另外三种策略。
上面对本发明的实施方法做出了详细说明,但本发明不限于上述实施方法。本发明通过对联邦学习聚合策略进行改进,提升了网络流量分类精度,减小通信代价。除此之外,中心节点上新的加权聚合方法有效地解决流量数据的不平衡分布。
本发明实施例还提供一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的方法中的步骤。本发明实施例提供的电子设备能够实现上述方法实施例中的各个实施方式,以及相应有益效果。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的方法,且能达到相同的技术效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,该程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (8)

1.一种基于不平衡数据分布的联邦学习网络流量分类模型训练方法,其特征在于,用于中心节点,所述训练方法包括:
中心节点在一个训练周期接收本地节点发送的本地模型权重和平衡度,其中,本地节点的流量数据在本地模型中训练得到本地模型权重,平衡度由所述流量数据所在的流量数据集计算所得;
将本地模型权重和平衡度加权聚合得到聚合后的全局模型;
中心节点将所述聚合后的全局模型向本地节点发送;
使本地节点确定中心节点发送的聚合后的全局模型的准确率,根据所述准确率确定本地节点训练的模型;
至中心节点所加权聚合得到的全局模型收敛时所处于的训练周期结束训练,将结束时所处训练周期的所述全局模型的权重作为网络流量分类模型权重;
其中:
使本地节点确定中心节点发送的聚合后的全局模型的准确率,根据所述准确率确定本地节点训练的模型的具体方法是:
聚合后的全局模型的准确率不低于本地节点的本地模型的准确率,则中心节点发送的聚合后的全局模型由本地节点接收,本地节点训练由中心节点发送的所述聚合后的全局模型,在下一个训练周期将训练后的所述全局模型作为新的本地模型,向中心节点发送新的本地模型权重和平衡度;聚合后的全局模型的准确率低于本地节点的本地模型的准确率,本地节点训练在所述一个训练周期发送的本地模型权重所对应的本地模型,在下一个训练周期将训练后的所述本地模型作为新的本地模型,向中心节点发送新的本地模型权重和平衡度。
2.如权利要求1所述的基于不平衡数据分布的联邦学习网络流量分类模型训练方法,其特征在于,所述将本地模型权重和平衡度加权聚合得到聚合后的全局模型的步骤包括
计算取得本地节点的流量数据集的平衡度;
根据所述平衡度,获取反映本地节点k数据量占所有节点数据量的比例,本地节点k平衡度占所有节点平衡度的比例的单向权重,
根据单向权重和本地节点的本地模型权重,计算聚合后的权重。
3.如权利要求2所述的基于不平衡数据分布的联邦学习网络流量分类模型训练方法,其特征在于,计算流量数据集的平衡度由公式(1)~(3)表示:
其中,p代表真实的流量数据分布,q代表在基准数据集中各类样本按照1:1:1的数据分布,DKL(p||q)表示真实流量数据与基准数据之间的KL距离,p(x)为真实条件下某类样本占所有样本的概率,q(x)为理想条件下某类样本占所有样本的概率,C为流量数据的类别数,K表示本地节点的数量,计算得到的平衡度A满足0≤A≤1的性质,A越趋近于1表示数据集越平衡,A越趋近于0表示数据集越不平衡。
4.如权利要求3所述的基于不平衡数据分布的联邦学习网络流量分类模型训练方法,其特征在于,中心节点计算单向权重,并根据单向权重和本地节点的权重计算聚合后的权重:
计算单向权重由公式(4)表示:
其中,n为所有本地节点总的数据量,nk为单个本地节点的数据量,Dk为本地节点k数据量占所有节点数据量的比例,Sk为本地节点k平衡度占所有节点平衡度的比例,为所有本地节点总的平衡度,Ak为本地节点k的平衡度;
计算聚合后的权重由公式(5)表示:
其中,为加权聚合后的全局模型,/>为本地节点的权重,α=0.7,layerl≠bn表示局部网络中的bn层不参与聚合。
5.如权利要求1所述的基于不平衡数据分布的联邦学习网络流量分类模型训练方法,其特征在于,所述的网络流量分类模型包含依次连接的五个阶段,分别为Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x,其中Conv1部分输入为H×W,包含1个卷积核为7×7,步长为2的卷积层,输出尺寸为H×W;Conv2_x部分输入为H×W,包含2个残差块与一个池化层,其中每个残差块里有2个卷积层,2个卷积核大小依次为3×3、3×3,每个卷积层后为归一化以及Relu激活函数,池化层为2×2大小的最大池化操作,输出尺寸为H/2×W/2;Conv3_x部分输入为H/2×W/2,包含依次连接的2个残差块与1个池化层,输出尺寸为H/4×W/4;Conv4_x部分输入为H/4×W/4,包含依次连接的2个残差块与1个池化层,输出尺寸为H/8×W/8;Conv5_x部分输入为H/8×W/8,包含依次连接的2个残差块与1个池化层,输出尺寸为H/16×W/16。
6.如权利要求5所述的基于不平衡数据分布的联邦学习网络流量分类模型训练方法,其特征在于,还包括根据所述的网络流量分类模型,得到分类结果和本地模型权重wi:对Conv5_x部分输出的特征图进行全局平均池化操作以及全连接操作,将输出特征图转化为一维向量,再对所述一维向量进行Softmax操作,得到分类结果与本地模型权重wi
7.如权利要求1所述的基于不平衡数据分布的联邦学习网络流量分类模型训练方法,其特征在于,本地节点收集流量数据,并对所述收集到的流量数据进行预处理操作,预处理操作后再计算流量数据的平衡度及训练本地模型,所述预处理操作包括如下步骤:
S1.对20类网络流量数据拆分,将原始网络流量数据拆分为离散的网络流量数据;
S2.对所述离散的网络流量数据的包头信息进行剔除;
S3.数据清洗:对剔除包头的数据包里的重复内容或空白内容进行删除;
S4.对清洗后数据进行784字节的固定长度的截取,如果流量内容大于784字节,则将超过部分进行剔除,如果小于,则在末尾补充字节,其中,每个字节由8位构成,而标注工作是在每条网络流量数据的最后一个字节之后添加网络流量的类别标签;
S5.将截取后784维的pcap格式的流量数据转化为28×28维的灰度图像,最终映射为本地节点网络模型的输入。
8.一种基于不平衡数据分布的联邦学习网络流量分类模型训练系统,其特征在于,包括中心节点,所述中心节点用于实现如权利要求1-7任一项所述的训练方法。
CN202210506600.XA 2022-05-11 2022-05-11 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法 Active CN115002031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210506600.XA CN115002031B (zh) 2022-05-11 2022-05-11 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210506600.XA CN115002031B (zh) 2022-05-11 2022-05-11 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法

Publications (2)

Publication Number Publication Date
CN115002031A CN115002031A (zh) 2022-09-02
CN115002031B true CN115002031B (zh) 2023-09-29

Family

ID=83024440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210506600.XA Active CN115002031B (zh) 2022-05-11 2022-05-11 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法

Country Status (1)

Country Link
CN (1) CN115002031B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115632996B (zh) * 2022-12-19 2023-02-24 中国人民解放军国防科技大学 基于联邦式在线主动学习的网络流量分类系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111865815A (zh) * 2020-09-24 2020-10-30 中国人民解放军国防科技大学 一种基于联邦学习的流量分类方法及系统
WO2021184836A1 (zh) * 2020-03-20 2021-09-23 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及可读存储介质
CN114358286A (zh) * 2022-03-08 2022-04-15 浙江中科华知科技股份有限公司 一种移动设备联邦学习方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184836A1 (zh) * 2020-03-20 2021-09-23 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及可读存储介质
CN111865815A (zh) * 2020-09-24 2020-10-30 中国人民解放军国防科技大学 一种基于联邦学习的流量分类方法及系统
CN114358286A (zh) * 2022-03-08 2022-04-15 浙江中科华知科技股份有限公司 一种移动设备联邦学习方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于模型准确率的链上去中心化联邦学习模型;宋宇波 等;清华大学学报(自然科学版);第62卷(第5期);全文 *

Also Published As

Publication number Publication date
CN115002031A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN107181724B (zh) 一种协同流的识别方法、系统以及使用该方法的服务器
WO2018054342A1 (zh) 一种网络数据流分类的方法及系统
WO2022257436A1 (zh) 基于无线通信网络数据仓库构建方法、系统、设备及介质
CN107483473B (zh) 一种云环境的低速拒绝服务攻击数据流检测方法
WO2021203980A1 (zh) 一种气象事件预测方法、装置及相关设备
CN112511555A (zh) 基于稀疏表示和卷积神经网络的私有加密协议报文分类法
CN113989583A (zh) 一种互联网恶意流量检测方法及系统
CN112054967A (zh) 网络流量分类方法、装置、电子设备及存储介质
CN107786388A (zh) 一种基于大规模网络流数据的异常检测系统
CN115002031B (zh) 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法
CN109299742A (zh) 自动发现未知网络流的方法、装置、设备及存储介质
CN112637883A (zh) 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法
CN110365603A (zh) 一种基于5g网络能力开放的自适应网络流量分类方法
CN114612715A (zh) 基于本地差分隐私的边缘联邦图像分类方法
CN111639902A (zh) 基于kafka的数据审核方法、控制装置及计算机设备、存储介质
CN113676357B (zh) 面向电力物联网中边缘数据处理的决策方法及其应用
CN113839838B (zh) 基于云边协同的联邦学习的业务类型识别方法
CN115879542A (zh) 一种面向非独立同分布异构数据的联邦学习方法
CN113691594B (zh) 一种基于二阶导数解决联邦学习中数据不平衡问题的方法
CN110944002B (zh) 一种基于指数平均数据增强的物理层认证方法
CN116561622A (zh) 一种面向类不平衡数据分布的联邦学习方法
CN113256507B (zh) 一种针对二进制流量数据生成图像的注意力增强方法
CN115906153A (zh) 面向样本不均衡场景下的联邦学习优化方法、装置及系统
CN113098791B (zh) 一种多业务网络流的成分占比分析方法
Zhou et al. IoT unbalanced traffic classification system based on Focal_Attention_LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20220902

Assignee: Dalian wojia Technology Co.,Ltd.

Assignor: DALIAN University OF TECHNOLOGY

Contract record no.: X2024980004300

Denomination of invention: Training methods, models, and classification methods for traffic classification models in federated learning networks based on imbalanced data distribution

Granted publication date: 20230929

License type: Common License

Record date: 20240411

EE01 Entry into force of recordation of patent licensing contract