CN111970277B - 基于联邦学习的流量识别方法及装置 - Google Patents

基于联邦学习的流量识别方法及装置 Download PDF

Info

Publication number
CN111970277B
CN111970277B CN202010829780.6A CN202010829780A CN111970277B CN 111970277 B CN111970277 B CN 111970277B CN 202010829780 A CN202010829780 A CN 202010829780A CN 111970277 B CN111970277 B CN 111970277B
Authority
CN
China
Prior art keywords
model
flow
federal learning
data
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010829780.6A
Other languages
English (en)
Other versions
CN111970277A (zh
Inventor
周京
张�诚
吕博良
程佩哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010829780.6A priority Critical patent/CN111970277B/zh
Publication of CN111970277A publication Critical patent/CN111970277A/zh
Application granted granted Critical
Publication of CN111970277B publication Critical patent/CN111970277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)

Abstract

本发明提供了一种基于联邦学习的流量识别方法及装置,可用于信息安全与大数据技术领域。方法包括:根据流量输入数据的协议标识,确定流量输入数据的协议类型;根据流量输入数据的协议类型,将流量输入数据的数据特征输入至对应的流量识别模型中,得到输出结果;其中,流量识别模型为利用横向联邦学习构建的;协议类型与流量识别模型对应;根据输出结果,确定属于攻击流量的流量输入数据。本发明通过利用基于联邦学习构建的识别模型进行流量检测识别,保证了数据隐私安全,增强了识别能力,实现了在确保正常流量数据的安全通信的同时,精确阻断流量数据中的隐蔽攻击,保障企业业务的安全、高效的运转。

Description

基于联邦学习的流量识别方法及装置
技术领域
本发明涉及信息安全与大数据技术领域,尤指一种基于联邦学习的流量识别方法及装置。
背景技术
随着互联网及各类应用的快速发展规模的壮大,网络流量数据日益庞大。其中,以实施恶意攻击为目的的加密流量在网络传输中的比重越来越大,这给流量的检测识别带来了巨大的挑战。企业因为行业性质的差异,拥有不同属性的流量,由于企业间顾虑数据隐私泄露的风险,导致不同属性的流量没有有效的发挥它们的价值。
传统商业领域的企业缺乏攻击流量支撑,难以对隐蔽攻击行为实时精准识别:传统商业领域的企业,比如:金融企业、零售企业、电子商务企业等,拥有数量庞大的客户、资金、征信等各类正常业务类型的流量样本,但是缺乏隐藏在加密流量中的攻击黑样本,使得传统商业领域的企业很难简单的依赖分析业务类型的加密流量样本对隐蔽的攻击流量进行识别,难以进行防护判别,可能造成企业的财产损失。
专业的技术企业缺乏业务流量支撑,难以对客户的正常业务精准识别保护:专业的技术性企业,如信息安全公司,可能掌握大量的流量黑样本,但是缺乏正常的业务流量,因此难以分辨流量是否是客户的正常往来数据,在实施流量检测识别时,可能导致大量的正常业务流量数据被封禁,导致客户的资产损失。
基于对数据安全的隐私保护、防止用户信息的泄露以及相关法律法规的要求,传统商业领域企业的正常业务类型的流量和专业技术企业获取的黑样本攻击流量数据无法直接共享、分析建模,难以实现数据资源的综合利用更精确的识别攻击流量。
发明内容
本发明实施例的主要目的在于提供一种基于联邦学习的流量识别方法及装置,在满足数据隐私保护和监管要求下,提升流量中隐蔽攻击的检测识别和防御能力。
为了实现上述目的,本发明实施例提供一种基于联邦学习的流量识别方法,所述方法包括:
根据流量输入数据的协议标识,确定所述流量样本数据的协议类型;
根据流量输入数据的协议类型,将流量输入数据的数据特征输入至对应的流量识别模型中,得到输出结果;其中,所述流量识别模型为利用横向联邦学习构建的;所述协议类型与所述流量识别模型对应;
根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据。
可选的,在本发明一实施例中,所述流量识别模型通过如下方式构建:从流量样本数据中提取相关数据特征,所述相关数据特征包括与所述协议类型对应的协议特征;将所述相关数据特征作为训练数据,输入至从联邦学习协作平台上获取的初始模型中,得到联邦学习模型及其中间参数;对所述中间参数进行加密,并将加密后的中间参数发送至联邦学习协作平台;接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新;将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台进行聚合,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;利用所述最终参数对联邦学习模型进行更新,得到流量识别模型。
可选的,在本发明一实施例中,所述中间参数包括样本数量、损失函数及梯度;所述样本数量及所述损失函数用于所述联邦学习协作平台确定表征联邦学习模型收敛程度的总损失函数,所述梯度用于所述联邦学习协作平台确定用以更新联邦学习模型的总梯度。
可选的,在本发明一实施例中,所述接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新包括:接收所述联邦学习协作平台返回的总梯度;其中,所述联邦学习协作平台用于根据所述损失函数确定梯度计算权重,利用所述梯度计算权重及所述梯度确定总梯度;利用更新后的总梯度对所述联邦学习模型进行更新。
可选的,在本发明一实施例中,所述将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数包括:将更新后的所述联邦学习模型对应的样本数量、损失函数及梯度上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;其中,所述联邦学习协作平台还用于根据所述样本数量确定权重汇总结果,利用所述权重汇总结果及所述损失函数计算总损失函数,并在所述总损失函数小于预设阈值时,判定所述联邦学习模型收敛。
可选的,在本发明一实施例中,所述根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据包括:根据所述流量识别模型的输出结果,判断所述流量输入数据是否为攻击流量,若是,则对攻击流量对应的账户进行封禁。
本发明实施例还提供一种基于联邦学习的流量识别装置,所述装置包括:
类型确定模块,用于根据流量输入数据的协议标识,确定所述流量输入数据的协议类型;
模型识别模块,用于根据流量输入数据的协议类型,将流量输入数据的数据特征输入至对应的流量识别模型中,得到输出结果;其中,所述流量识别模型为利用横向联邦学习构建的;所述协议类型与所述流量识别模型对应;
流量识别模块,用于根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据。
可选的,在本发明一实施例中,所述装置还包括模型构建模块,用于从道流量样本数据中提取相关数据特征,所述相关数据特征包括与所述协议类型对应的协议特征;将所述相关数据特征作为训练数据,输入至从联邦学习协作平台上获取的初始模型中,得到联邦学习模型及其中间参数;对所述中间参数进行加密,并将加密后的中间参数发送至联邦学习协作平台;接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新;将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台进行聚合,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;利用所述最终参数对联邦学习模型进行更新,得到流量识别模型。
可选的,在本发明一实施例中,所述中间参数包括样本数量、损失函数及梯度;所述样本数量及所述损失函数用于所述联邦学习协作平台确定表征联邦学习模型收敛程度的总损失函数,所述梯度用于所述联邦学习协作平台确定用以更新联邦学习模型的总梯度。
可选的,在本发明一实施例中,所述流量识别模块具体用于根据所述流量识别模型的输出结果,判断所述流量输入数据是否为攻击流量,若是,则对攻击流量对应的账户进行封禁。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明通过利用基于联邦学习构建的识别模型进行流量检测识别,保证了数据隐私安全,并增强流量的识别能力,实现了在确保正常流量数据的安全通信的同时,精确阻断流量数据中的隐蔽攻击,保障企业业务的安全、高效的运转。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于联邦学习的流量识别方法的流程图;
图2为本发明实施例中流量识别模型构建的流程图;
图3为本发明实施例一种基于联邦学习的流量识别装置的结构示意图;
图4为本发明实施例中应用基于联邦学习的流量识别方法的系统的结构示意图;
图5为本发明实施例中基于联邦学习的流量识别系统的本地部署模块的结构示意图;
图6为本发明实施例中基于联邦学习的流量识别系统的平台部署模块的结构示意图;
图7为本发明一实施例所提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供一种基于联邦学习的流量识别方法及装置。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明实施例一种基于联邦学习的流量识别方法的流程图,该方法的执行主体可以是联邦学习中的数据拥有方,也可称为模型参与方,图中所示方法包括:
步骤S1,根据流量输入数据的协议标识,确定所述流量输入数据的协议类型。
其中,流量输入数据为待流量识别的数据,网络流量数据可按照协议分类,例如DNS、ICMP、SMB、HTTP等类别,流量输入数据中的协议标识表示了该输入数据对应的协议类型。
步骤S2,根据流量输入数据的协议类型,将流量输入数据的数据特征输入至对应的流量识别模型中,得到输出结果;其中,所述流量识别模型为利用横向联邦学习构建的,协议类型与流量识别模型对应。
其中,使用模型进行流量检测识别时,根据流量样本数据的协议类型,使用对应类别的流量识别模型进行流量检测。协议类型与流量识别模型是相对应的。流量输入数据的数据特征包括协议特征及载荷特征。
流量识别模型为利用横向联邦学习构建的,联邦学习利用技术算法加密建造的模型,联邦数据拥有方在不用给出己方数据的情况下,也可进行模型训练得到模型参数,联邦学习通过加密机制下的参数交换方式保护用户数据隐私,而数据和模型本身不会进行传输,也不能反向破解对方数据,因此在数据层面不存在泄露的可能,能够在较高程度保持数据完整性的同时,保障数据隐私。横向联邦学习的本质是样本的联合,取出各数据拥有方特征维度相同的而样本不同的那部分数据进行训练,使得特征维度相同的各数据拥有方联合建立模型。适用于参与者间业态相同但触达客户不同,即特征维度重叠多,样本维度重叠少时的场景。
进一步的,在基于横向联邦学习构建模型时,数据拥有方将本地模型的中间参数通过加密的形式上传至联邦学习平台进行参数更新,再接收联邦学习平台返回的更新后的中间参数,利用更新的中间参数更新模型。直至联邦学习平台根据中间参数中的损失函数得到的总损失函数收敛,再通过连续迭代直至收敛次数达到预设值之后,取损失值方差最小时对应的参数为最终参数。数据拥有方接收联邦学习平台返回的最终参数,利用最终参数更新模型得到流量识别模型。
步骤S3,根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据。
在本实施例中,模型输出的结果可以表征该流量输入数据是否属于攻击流量。根据流量识别模型的输出结果,判断流量输入数据是否为攻击流量,若是,则对攻击流量对应的账户进行封禁。具体的,流量识别模型可通过二分类模型训练得到,即使用黑、白样本进行模型训练,假定黑样本标签为1,白样本标签为0,则训练后的模型对流量进行判别时,若流量为黑(攻击流量)则输出1,若为白(非攻击流量则输出0)。其中,攻击流量可以为加密隧道流量,加密隧道流量是指黑客攻击时产生的流量的一类。
作为本发明的一个实施例,如图2所示,流量识别模型通过如下方式构建:
步骤S21,从流量样本数据中提取相关数据特征,相关数据特征包括与协议类型对应的协议特征。
从原始流量样本数据提取流量的相关数据特征,与流量输入数据相同的,数据特征包括但不限于表1所示特征。
表1
Figure BDA0002637522800000061
步骤S22,将所述相关数据特征作为训练数据,输入至从联邦学习协作平台上获取的初始模型中,得到联邦学习模型及其中间参数。
具体的,将提取到的相关数据特征,构建数据拥有方的本地模型,并计算本地损失函数与梯度。
其中,建立初始模型时,数据拥有方首先协商统一使用的模型算法,包括但不限于逻辑回归(LR)、卷积神经网络(CNN)、循环神经网络(RNN)等。数据拥有方将自有网络流量数据按照协议分类,例如DNS、ICMP、SMB、HTTP等类别。在建立初始模型时,数据拥有方首先确认网络数据协议类型,并协商建立模型所使用的特征,按照协议类型分别建立独立的流量检测模型。利用选定的模型算法及网络数据协议类型于联邦学习协作平台构建初始模型,当数据拥有方需要进行流量数据识别时,则从联邦学习协作平台获取流量数据协议类型对应的初始模型。
步骤S23,对所述中间参数进行加密,并将加密后的中间参数发送至联邦学习协作平台。
在本实施例中,基于同态加密技术对中间参数进行加密。中间参数包括样本数量、损失函数及梯度;样本数量及损失函数用于联邦学习协作平台确定表征联邦学习模型收敛程度的总损失函数,梯度用于联邦学习协作平台确定用以更新联邦学习模型的总梯度。
其中,接收联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对联邦学习模型进行更新包括:接收联邦学习协作平台返回的总梯度;其中,联邦学习协作平台用于根据所述损失函数确定梯度计算权重,利用梯度计算权重及梯度确定总梯度;利用更新后的总梯度对所述联邦学习模型进行更新。
具体的,各数据拥有方将其中间参数加密后发送至联邦学习协作平台,联邦学习协作平台接收各数据拥有方本地样本数量,根据各方贡献的样本数量比例确定计算总损失时的各数据拥有方权重,权重汇总结果计算单次迭代总损失
Figure BDA0002637522800000071
li为各数据拥有方本地损失,n为迭代次数,M为数据拥有方数量。联邦学习协作平台根据单次迭代中各数据拥有方的损失,确定单次迭代中各数据拥有方梯度计算权重,计算单次迭代总梯度
Figure BDA0002637522800000072
tk为各数据拥有方梯度。
步骤S24,接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新。
其中,将经过联邦学习协作平台计算后的总梯度分别传递到各数据拥有方用以更新各自本地联邦学习模型。
步骤S25,将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数。
其中,将更新后的所述联邦学习模型对应的中间参数上传至联邦学习协作平台再次进行更新,直至联邦学习模型收敛,联邦学习协作平台返回最终参数包括:将更新后的联邦学习模型对应的样本数量、损失函数及梯度上传至联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;其中,联邦学习协作平台还用于根据样本数量确定权重汇总结果,利用权重汇总结果及所述损失函数计算总损失函数,并在总损失函数小于预设阈值时,判定所述联邦学习模型收敛。
具体的,当连续w次迭代中,总损失Ln满足|Ln+1-Ln|<δ时(δ为设定的阈值),则认为联邦学习模型收敛。分别计算满足上述条件的连续w次迭代中,单次迭代的各数据拥有方损失方差
Figure BDA0002637522800000081
计算其中损失方差最小值min{Cn|n∈W},W为满足上述条件的w次迭代次数集合,取对应迭代中的梯度作为模型最终参数。
步骤S26,利用所述最终参数对联邦学习模型进行更新,得到流量识别模型。
其中,联邦学习模型收敛后,利用联邦学习协作平台返回的最终参数更新模型,得到流量识别模型。
本发明克服了现有企业间的流量数据存在数据孤岛、难以联合构建检测识别模型的问题,通过利用基于联邦学习构建的识别模型进行流量检测识别,保证了数据隐私安全,并增强流量的识别能力,实现了在确保正常流量数据的安全通信的同时,精确阻断流量数据中的隐蔽攻击,保障企业业务的安全、高效的运转。
如图3所示为本发明实施例一种基于联邦学习的流量识别装置的结构示意图,图中所示装置包括:
类型确定模块10,用于根据流量输入数据的协议标识,确定所述流量输入数据的协议类型。
其中,流量输入数据为待流量识别的数据,网络流量数据可按照协议分类,例如DNS、ICMP、SMB、HTTP等类别,流量输入数据中的协议标识表示了该输入数据对应的协议类型。
模型识别模块20,用于根据流量输入数据的协议类型,将流量输入的数据特征数据输入至对应的流量识别模型中,得到输出结果;其中,所述流量识别模型为利用横向联邦学习构建的,所述协议类型与所述流量识别模型对应。
其中,使用模型进行流量检测识别时,根据流量输入数据的协议类型,使用对应类别的流量识别模型进行流量检测。协议类型与流量识别模型是相对应的。流量输入数据的数据特征包括协议特征及载荷特征。
流量识别模型为利用横向联邦学习构建的,联邦学习利用技术算法加密建造的模型,联邦数据拥有方在不用给出己方数据的情况下,也可进行模型训练得到模型参数,联邦学习通过加密机制下的参数交换方式保护用户数据隐私,而数据和模型本身不会进行传输,也不能反向破解对方数据,因此在数据层面不存在泄露的可能,能够在较高程度保持数据完整性的同时,保障数据隐私。横向联邦学习的本质是样本的联合,取出各数据拥有方特征维度相同的而样本不同的那部分数据进行训练,使得特征维度相同的各数据拥有方联合建立模型。适用于参与者间业态相同但触达客户不同,即特征维度重叠多,样本维度重叠少时的场景。
进一步的,在基于横向联邦学习构建模型时,数据拥有方将本地模型的中间参数通过加密的形式上传至联邦学习平台进行参数更新,再接收联邦学习平台返回的更新后的中间参数,利用更新的中间参数更新模型。直至联邦学习平台根据中间参数中的损失函数得到的总损失函数收敛,再通过连续迭代直至收敛次数达到预设值之后,取损失值方差最小时对应的参数为最终参数。数据拥有方接收联邦学习平台返回的最终参数,利用最终参数更新模型得到流量识别模型。
流量识别模块30,用于根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据。
在本实施例中,模型输出的结果可以表征该流量输入数据是否属于攻击流量。根据流量识别模型的输出结果,判断流量输入数据是否为攻击流量,若是,则对攻击流量对应的账户进行封禁。
作为本发明的一个实施例,装置还包括模型构建模块,用于从所述流量样本数据中提取相关数据特征,所述相关数据特征包括与所述协议类型对应的协议特征;将所述相关数据特征作为训练数据,输入至从联邦学习协作平台上获取的初始模型中,得到联邦学习模型及其中间参数;对所述中间参数进行加密,并将加密后的中间参数发送至联邦学习协作平台;接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新;将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;利用所述最终参数对联邦学习模型进行更新,得到流量识别模型。
在本实施例中,中间参数包括样本数量、损失函数及梯度;所述样本数量及所述损失函数用于所述联邦学习协作平台确定表征联邦学习模型收敛程度的总损失函数,所述梯度用于所述联邦学习协作平台确定用以更新联邦学习模型的总梯度。
基于与上述一种基于联邦学习的流量识别方法相同的申请构思,本发明还提供了上述一种基于联邦学习的流量识别装置。由于该一种基于联邦学习的流量识别装置解决问题的原理与一种基于联邦学习的流量识别方法相似,因此该一种基于联邦学习的流量识别装置的实施可以参见一种基于联邦学习的流量识别方法的实施,重复之处不再赘述。
本发明克服了现有企业间的流量数据存在数据孤岛、难以联合构建检测识别模型的问题,通过利用基于联邦学习构建的识别模型进行流量检测识别,保证了数据隐私安全,并增强流量的识别能力,实现了在确保正常流量数据的安全通信的同时,精确阻断流量数据中的隐蔽攻击,保障企业业务的安全、高效的运转。
如图4所示为本发明实施例中应用基于联邦学习的流量识别方法的系统的结构示意图,该系统涉及多个模型参与方(数据拥有方)与联邦学习协作平台。模型参与方可包括传统商业领域企业,如:金融机构、电商平台、社交网络,专业技术企业如:安全公司等各数据拥有方。联邦学习协作平台可以部署在政府等官方机构环境中,也可以部署在任何一模型参与方的可信执行环境(TEE)中。
其中各模型参与方的本地部署模块101和平台部署模块102共同组成了本发明提出的基于联邦学习的流量检测识别系统。本地部署模块101部署在各模型参与方本地环境中,平台部署模块102部署在联邦学习协作平台。图4表示出了本发明系统如何在互联网环境部署,以便实现流量样本数据共享和流量识别模型协同共建。
建立单个模型时,模型参与方首先协商统一使用的模型算法,包括但不限于逻辑回归(LR)、卷积神经网络(CNN)、循环神经网络(RNN)等。其次,数据拥有方将自有网络流量数据按照协议分类,例如DNS、ICMP、SMB、HTTP等类别。在建立模型时,参与方首先确认网络数据协议类型,并协商建立模型所使用的特征,按照协议类型分别建立独立的流量检测模型。使用模型进行流量检测识别时,首先根据协议标识识别样本数据的协议类别,使用对应类别的流量模型进行流量检测。
图5为本发明实施例中的本地部署模块结构示意图。本地部署模块101主要包括特征提取单元201、数据加密单元202、模型学习单元203三部分组成。本地部署模块负责从原始数据中提取流量相关特征,在本地完成子模型训练后将中间参数加密传输给平台部署模块。
在本实施例中,特征提取单元201的主要作用是从各模型参与方的原始数据提取流量的相关特征。
数据加密单元202的主要作用是提供加密算法用于模型训练和应用中的数据交互,主要进行参数交互。数据加密单元202基于同态加密技术,在模型参数交互过程中将模型学习单元203训练得到的子模型的关键参数加密传输到平台部署模块102。模型参与方参数包括:本地损失函数、本地模型梯度、本地样本数量。
模型学习单元203的主要作用是基于联邦学习计算框架,构建各模型参与方各自子模型。模型学习单元203接收特征提取单元201提取的数据特征,构建本地模型,计算本地损失函数与梯度。通过数据加密单元202对中间参数加密后送入平台部署模块102。联邦学习协作平台聚合参与方上传的模型参数,根据每个子模型的权重占比更新模型参数,将更新后的模型参数传回各参与方。各参与方同步更新本地模型。
图6所示为本发明实例中的平台部署模块结构示意图。平台部署模块102包括损失更新单元301、梯度更新单元302及终止判断单元303。平台部署模块负责协调各模型参与方联合建模,对各模型参与方的模型参数进行聚合实现全局模型参数的计算和梯度更新。平台部署模块根据权重汇总结果计算总梯度参数,将计算后的梯度参数分别传递到各模型参与方用以更新各自本地模型,直到总损失函数收敛完成模型训练。
在本实施例中,平台部署模块接收各模型参与方本地样本数量,损失更新单元301用于根据各方贡献的样本数量比例确定计算总损失时的各模型参与方权重,权重汇总结果计算单次迭代系统总损失
Figure BDA0002637522800000111
li为各模型参与方本地损失,n为迭代次数,M为模型参与方数量。
梯度更新单元302用于根据单次迭代中各模型参与方的损失,确定单次迭代中各模型参与方梯度计算权重,计算单次迭代系统总梯度
Figure BDA0002637522800000112
tk为各模型参与方梯度。
终止判断单元303用于当连续w次迭代中,总损失Ln满足|Ln+1-Ln|<δ时(δ为设定的阈值),认为联合模型收敛。分别计算满足上述条件的连续w次迭代中,单次迭代的各模型参与方损失方差
Figure BDA0002637522800000121
计算其中损失方差最小值min{Cn|n∈W},W为满足上述条件的w次迭代次数集合,取对应迭代中的梯度作为模型最终参数。
本发明在满足参与各方数据安全的隐私保护、满足监管要求的前提下,传统商业领域企业与专业技术企业联合构建的流量检测识别模型,使得本发明有如下效果和优点:保证各参与方的数据隐私安全,各方数据保留在本地终端,本地模块更新的参数经过加密传输,保障了数据的安全性。增强流量的识别能力,跨企业、跨数据、跨领域的协同建模,打破多方之间的数据壁垒实现金融机构和安全企业的流量数据共享、模型深度融合,确保正常流量数据的安全通信以及精确阻断流量数据中的隐蔽攻击,保障各方企业业务的安全、高效的运转。
本发明克服了现有企业间的流量数据存在数据孤岛、难以联合构建检测识别模型的问题,通过利用基于联邦学习构建的识别模型进行流量检测识别,保证了数据隐私安全,并增强流量的识别能力,实现了在确保正常流量数据的安全通信的同时,精确阻断流量数据中的隐蔽攻击,保障企业业务的安全、高效的运转。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图7所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图7中所示的所有部件;此外,电子设备600还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种基于联邦学习的流量识别方法,其特征在于,所述方法包括:
根据流量输入数据的协议标识,确定所述流量输入数据的协议类型;
根据流量输入数据的协议类型,将流量输入数据的数据特征输入至对应的流量识别模型中,得到输出结果;其中,所述流量识别模型为利用横向联邦学习构建的;所述协议类型与所述流量识别模型对应;
根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据;
其中,所述流量识别模型通过如下方式构建:
从流量样本数据中提取相关数据特征,所述相关数据特征包括与所述协议类型对应的协议特征;
将所述相关数据特征作为训练数据,输入至从联邦学习协作平台上获取的初始模型中,得到联邦学习模型及其中间参数;
对所述中间参数进行加密,并将加密后的中间参数发送至联邦学习协作平台;
接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新;
将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;
利用所述最终参数对联邦学习模型进行更新,得到流量识别模型;
其中,所述中间参数包括样本数量、损失函数及梯度;所述样本数量及所述损失函数用于所述联邦学习协作平台确定表征联邦学习模型收敛程度的总损失函数,所述梯度用于所述联邦学习协作平台确定用以更新联邦学习模型的总梯度。
2.根据权利要求1所述的方法,其特征在于,所述接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新包括:
接收所述联邦学习协作平台返回的总梯度;其中,所述联邦学习协作平台用于根据所述损失函数确定梯度计算权重,利用所述梯度计算权重及所述梯度确定总梯度;
利用更新后的总梯度对所述联邦学习模型进行更新。
3.根据权利要求2所述的方法,其特征在于,所述将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数包括:
将更新后的所述联邦学习模型对应的样本数量、损失函数及梯度上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;
其中,所述联邦学习协作平台还用于根据所述样本数量确定权重汇总结果,利用所述权重汇总结果及所述损失函数计算总损失函数,并在所述总损失函数小于预设阈值时,判定所述联邦学习模型收敛。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据包括:根据所述流量识别模型的输出结果,判断所述流量输入数据是否为攻击流量,若是,则对攻击流量对应的账户进行封禁。
5.一种基于联邦学习的流量识别装置,其特征在于,所述装置包括:
类型确定模块,用于根据流量输入数据的协议标识,确定所述流量输入数据的协议类型;
模型识别模块,用于根据流量输入数据的协议类型,将流量输入数据的数据特征输入至对应的流量识别模型中,得到输出结果;其中,所述流量识别模型为利用横向联邦学习构建的;所述协议类型与所述流量识别模型对应;
流量识别模块,用于根据所述流量识别模型的输出结果,确定属于攻击流量的流量输入数据;
其中,所述装置还包括模型构建模块,用于从流量样本数据中提取相关数据特征,所述相关数据特征包括与所述协议类型对应的协议特征;将所述相关数据特征作为训练数据,输入至从联邦学习协作平台上获取的初始模型中,得到联邦学习模型及其中间参数;对所述中间参数进行加密,并将加密后的中间参数发送至联邦学习协作平台;接收所述联邦学习协作平台返回的更新后的中间参数,利用更新后的中间参数对所述联邦学习模型进行更新;将更新后的所述联邦学习模型对应的中间参数上传至所述联邦学习协作平台再次进行更新,直至所述联邦学习模型收敛,所述联邦学习协作平台返回最终参数;利用所述最终参数对联邦学习模型进行更新,得到流量识别模型;
其中,所述中间参数包括样本数量、损失函数及梯度;所述样本数量及所述损失函数用于所述联邦学习协作平台确定表征联邦学习模型收敛程度的总损失函数,所述梯度用于所述联邦学习协作平台确定用以更新联邦学习模型的总梯度。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一项所述方法的计算机程序。
CN202010829780.6A 2020-08-18 2020-08-18 基于联邦学习的流量识别方法及装置 Active CN111970277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010829780.6A CN111970277B (zh) 2020-08-18 2020-08-18 基于联邦学习的流量识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010829780.6A CN111970277B (zh) 2020-08-18 2020-08-18 基于联邦学习的流量识别方法及装置

Publications (2)

Publication Number Publication Date
CN111970277A CN111970277A (zh) 2020-11-20
CN111970277B true CN111970277B (zh) 2022-09-27

Family

ID=73387741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010829780.6A Active CN111970277B (zh) 2020-08-18 2020-08-18 基于联邦学习的流量识别方法及装置

Country Status (1)

Country Link
CN (1) CN111970277B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434337A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 分布式训练生成模型的方法、系统及介质
CN114764637A (zh) * 2021-01-14 2022-07-19 新智数字科技有限公司 基于横向联合学习的攻击者识别方法和装置
CN113222169B (zh) * 2021-03-18 2023-06-23 中国地质大学(北京) 结合大数据分析反馈的联邦机器组合服务方法与系统
CN113255884B (zh) * 2021-05-17 2022-08-19 南京邮电大学 一种基于协作学习的网络异常流量识别与分类方法
CN113762163B (zh) * 2021-09-09 2022-06-07 杭州澳亚生物技术股份有限公司 一种gmp车间智能化监控管理方法及系统
CN114205151B (zh) * 2021-12-12 2024-08-20 南京理工大学 基于多特征融合学习的http/2页面访问流量识别方法
CN115225575B (zh) * 2022-06-08 2023-11-24 香港理工大学深圳研究院 一种基于元数据辅助和联邦学习的未知网络流量分类方法
CN115378881A (zh) * 2022-07-08 2022-11-22 南京邮数通信息科技有限公司 基于联邦学习的家庭路由器数据流识别方法和识别架构
CN115442160B (zh) * 2022-11-08 2023-02-21 山东省计算中心(国家超级计算济南中心) 差分隐私保护下的网络化系统数据隐蔽攻击检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259443A (zh) * 2020-01-16 2020-06-09 百融云创科技股份有限公司 一种基于psi技术保护联邦学习预测阶段隐私的方法
CN111523588A (zh) * 2020-04-20 2020-08-11 电子科技大学 基于改进的lstm对apt攻击恶意软件流量进行分类的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8737204B2 (en) * 2011-05-02 2014-05-27 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
US20180089587A1 (en) * 2016-09-26 2018-03-29 Google Inc. Systems and Methods for Communication Efficient Distributed Mean Estimation
CN110414555B (zh) * 2019-06-20 2023-10-03 创新先进技术有限公司 检测异常样本的方法及装置
CN110598794A (zh) * 2019-09-17 2019-12-20 武汉思普崚技术有限公司 一种分类对抗的网络攻击检测方法及系统
CN110505241B (zh) * 2019-09-17 2021-07-23 武汉思普崚技术有限公司 一种网络攻击面检测方法及系统
CN110874649B (zh) * 2020-01-16 2020-04-28 支付宝(杭州)信息技术有限公司 联邦学习的执行方法、系统、客户端及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259443A (zh) * 2020-01-16 2020-06-09 百融云创科技股份有限公司 一种基于psi技术保护联邦学习预测阶段隐私的方法
CN111523588A (zh) * 2020-04-20 2020-08-11 电子科技大学 基于改进的lstm对apt攻击恶意软件流量进行分类的方法

Also Published As

Publication number Publication date
CN111970277A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111970277B (zh) 基于联邦学习的流量识别方法及装置
CN110633805B (zh) 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN110399742B (zh) 一种联邦迁移学习模型的训练、预测方法及装置
CN113159327B (zh) 基于联邦学习系统的模型训练方法、装置、电子设备
CN110633806A (zh) 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN113240524B (zh) 联邦学习系统中账户的异常检测方法、装置及电子设备
CN111860865B (zh) 模型构建和分析的方法、装置、电子设备和介质
CN111539810A (zh) 防诈骗方法、装置、系统、设备及存储介质
CN111953668B (zh) 网络安全信息处理方法及装置
CN112818369B (zh) 一种联合建模方法及装置
CN113409134A (zh) 基于联邦学习的企业融资授信方法及装置
CN112966878A (zh) 一种贷款逾期预测、学习方法及装置
CN112381000B (zh) 基于联邦学习的人脸识别方法、装置、设备及存储介质
CN106600243A (zh) 一种基于混合模式的移动支付方法及系统
CN111563262A (zh) 一种基于可逆深度神经网络的加密方法及系统
CN115499379B (zh) 一种基于区块链的信息交互方法、装置、设备及介质
Puthal et al. Decision tree based user-centric security solution for critical IoT infrastructure
CN114358307A (zh) 基于差分隐私法的联邦学习方法及装置
CN111931209A (zh) 基于零知识证明的合同信息验证方法及装置
CN114024744A (zh) 基于云计算和区块链服务的信息防护方法及人工智能平台
CN114547658B (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN115643105A (zh) 一种基于同态加密和深度梯度压缩的联邦学习方法及装置
CN107659579A (zh) 一种现场存证方法、设备及相关存证系统
CN106991338A (zh) 现金申请业务的数据保全方法、服务器及客户端和系统
CN117077092A (zh) 模型产权保护方法、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant