CN116701618A - 一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法 - Google Patents
一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法 Download PDFInfo
- Publication number
- CN116701618A CN116701618A CN202310447611.XA CN202310447611A CN116701618A CN 116701618 A CN116701618 A CN 116701618A CN 202310447611 A CN202310447611 A CN 202310447611A CN 116701618 A CN116701618 A CN 116701618A
- Authority
- CN
- China
- Prior art keywords
- federal learning
- data
- privacy
- gradient
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000010276 construction Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 9
- 230000035945 sensitivity Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004806 packaging method and process Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims 2
- 241000282414 Homo sapiens Species 0.000 abstract description 5
- 230000006399 behavior Effects 0.000 abstract description 2
- 230000001364 causal effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明涉及联邦学习、工业互联网技术领域,公开了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法,包括:配置联邦学习环境,包括数据集、联邦学习任务和联邦学习模型;根据所述联邦学习模型的分类学习结果进行知识图谱构建;根据联邦学习环境评估联邦学习过程的隐私性风险;根据隐私性风险添加隐私增强方法以增强联邦学习客户端。本发明提供的方法,结合联邦学习和知识图谱将流量分类和网络流量异常检测相结合,既降低了流量数据隐私泄露的风险,也使得基于联邦学习的检测结果能够反映流量数据和恶意行为间更深层次的因果关联性,进一步提高判断终端是否存在恶意倾向的准确性,并减少人工干预带来的人因误差和人力开销。
Description
技术领域
本发明涉及联邦学习、工业互联网技术领域,特别涉及一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法。
背景技术
联邦学习作为具有较高隐私性和较低通信成本的新兴机器学习方式越来越被人们重视,而流量分类作为网络异常检测或是基于网络的入侵检测系统的第一步,能够在网络安全领域发挥着重要作用。但是目前的联邦学习仍然存在通过共享的梯度数据泄露隐私的可能性,并且流量分类的结果也很难和网络异常检测直接结合,需要一定的人工干预。
发明内容
本发明提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法,不同于传统基于硬编码流量分类的异常检测方法,结合联邦学习和知识图谱将流量分类和网络流量异常检测相结合,既降低了流量数据隐私泄露的风险,也使得基于联邦学习的检测结果能够反映流量数据和恶意行为间更深层次的因果关联性,进一步提高判断终端是否存在恶意倾向的准确性,并减少人工干预带来的人因误差和人力开销。
本发明提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法,包括:
配置联邦学习环境;其中,所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型;
根据所述联邦学习模型的分类学习结果进行知识图谱构建;
根据所述联邦学习环境评估联邦学习过程的隐私性风险;
根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。
进一步地,所述配置联邦学习环境的步骤,包括:
设定数据集,且所述数据集将流量软件类进行排序标号作为数据标签;
将终端和软件应用发出的原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成、IDX转换,并将终端和软件应用作为联邦学习客户端;其中,所述流量分割、流量清理为将.pcap文件拆分为离散的流量单元,并对其进行整理、修剪和删除使其所有文件变为统一的数据字节;所述图像生成、IDX转换为将处理好的数据字节视为一个像素,进行黑白图像转换且打包为.IDX格式;
将所述流量数据转化为设定像素的黑白图像且打包为.IDX格式,将所述黑白图像以终端为单位进行分类;
采用基于联邦随机梯度下降算法的联邦学习框架,中心服务器发送全局模型Wt到被选为参与者的客户端,客户端根据本地的流量数据集进行模型训练,并将损失函数的梯度发送给中心服务器进行梯度聚合,以配置联邦学习模型;其中,客户端梯度计算公式为:
其中,xt,i和yt,i表示在第t轮迭代中第i个客户端会参与学习的数据和标签,F(·)表示模型输出,即基于输入为xt,i,模型权重为Wt的神经网络的输出值,预测出的数据对应标签,l(·)为计算估计标签和真实标签之间的损失函数并通过其求导得到损失函数的梯度
进一步地,所述根据所述联邦学习模型的分类学习结果进行知识图谱构建的步骤,包括:
根据流量数据确定信息实体和个信息实体的关系,以构建三元组;
采用Word2Vec词向量模型,将实体名称从语义空间转换到向量空间,计算向量之间的夹角进行实体类别归类;
将三元组中的实体转化为节点,将关系转化为边,以点-边的形式对流量数据、工业设备、运行软件和恶意倾向检测结果进行可视化展示,以将三元组采用图数据库Neo4j进行知识存储;
基于实体识别Bi_LSTM-CRF模型从用户输入的问题中提取所包含的实体,并对应为知识存储中的实体节点,通过检索与节点关联的边所表示的关联关系,获取图谱中与实体关联的信息并返回给用户。
进一步地,所述根据流量数据确定信息实体和个信息实体的关系,以构建三元组的步骤,包括:
在流量数据中确定信息实体,其中,所述信息实体包括流量所属的软件终端、软件所控制的设备和流量数据本身;
根据联邦学习的分类结果确定在网络上检测到的流量数据和各个信息实体的关系;
根据检测到的流量数据的时空特征、背景特征和握手特征等属性确定其恶意关系;
将确定好的实体和关系构建三元组Gt=(ε,R,τ);其中,ε表示实体集合,R表示实体之间的关系集合,τ表示实体与关系构成的三元组集合。
进一步地,所述根据所述联邦学习环境评估联邦学习过程的隐私性风险的步骤,包括:
假设被攻击重构的是设备t的本地图像,采用梯度泄露模拟攻击;
通过模拟攻击手段,客户端计算重构图像和原始图像之间的峰值信噪比作为两者相似度的指标,计算公式为:
其中,MSE为两个图像之间的均方误差,xi和分别为原始图像和重构图像的像素,B为像素大小,MAXI为重构图像中的像素最大值。
进一步地,所述假设被攻击重构的是设备t的本地图像,采用梯度泄露模拟攻击的步骤,包括:
生成随机虚拟流量图像X't和流量数据所属类别标签Y't,图像中的每个像素x't的幅度都为服从随机分布:
X't←N(0,1)
其中,N代表满足期望为0,方差为1的正态分布;
将生成的虚拟图像X't数据输入设备t的本地训练的神经网络模型φt(X't)中以获取虚拟梯度当被攻击客户端发送本地梯度数据/>到服务器前,客户端发起模拟DLG攻击,计算生成的虚拟梯度/>和原始梯度/>之间的距离,并通过不断调整虚拟产生的随机数据X't和虚拟标签Y't来最小化该距离:
其中,和/>是在以X't和Y't为基础迭代计算后满足虚拟梯度和原始梯度距离最小的最优重构数值,即最终的重构结果。
进一步地,所述根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端的步骤,包括:
在有泄露风险的客户端梯度上叠加具有正态分布特性的高斯噪声x,其概率密度函数满足:
Δf=max||φt(Dk)-φt(Di)||
其中,μ为高斯噪声均值,σ2为噪声方差,代表噪声大小,ε为隐私预算,即在相邻数据集下本地模型φt的输出在添加噪声后误差值不超过eε,δ代表差分隐私的松弛项,即不满足严格差分隐私的概率,Δf为全局模型敏感度,Dk和Di为相邻数据集,即仅存在一位数据不同的两个数据集。
根据所述联邦学习模型,客户端根据本地数据特征选择隐私预算ε和全局敏感度Δf,以添加噪声,并将噪声添加在发送给中心服务器的梯度数据上:
其中,为添加噪声干扰后的梯度,N(0,σ2)为满足分布要求的高斯噪声。
本发明还提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强装置,包括:
配置模块,用于配置联邦学习环境;其中,所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型;
构建模块,用于根据所述联邦学习模型的分类学习结果进行知识图谱构建;
评估模块,用于根据所述联邦学习环境评估联邦学习过程的隐私性风险;
增强模块,用于根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的有益效果为:
本发明将工业互联网终端的流量数据构建为知识图谱,并基于联邦学习技术进行实时网络流量的异常检测分析。为了使基于图谱联邦学习的检测结果能够为管理系统提供更多与隐私流量数据泄露风险深度相关的决策预警信息,本发明进一步提出了隐私增强方法用于改善所采用的图谱联邦学习技术,详细描述了面向工业异常流量检测任务的终端数据采集处理和联邦学习模型配置优化,利用知识图谱具有的强大推断能力将流量分类结果与终端是否存在恶意倾向进行因果关联,提高异常行为检测的判断准确性;在图谱联邦学习算法中添加基于高斯机制的差分隐私技术增强联邦学习过程中数据交互的隐私性,从模型训练准确性和数据交互隐私性两个方面保证了面向工业互联网的联邦学习过程。
附图说明
图1为本发明一实施例的方法流程示意图。
图2为本发明中图谱联邦学习流程框架示意图。
图3为本发明中存在隐私风险的联邦学习框架示意图。
图4为本发明中知识图谱构建主体和关系示意图。
图5为本发明一实施例的装置结构示意图。
图6为本发明一实施例的计算机设备内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1-2所示,本发明提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法,包括:
S1、配置联邦学习环境;其中,所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型;
步骤S1具体包括:
S11、设定数据集,且所述数据集将流量软件类进行排序标号作为数据标签;
配置数据集,本发明采用USTC-TFC2016终端流量数据,该数据集包含10个恶意软件家族和10种良性流量,恶意软件类别是:Cridex(Dridex)、Geodo(Emotet)、Htbot、Miuref、Neris、Nsis-a、Shifu、Tinba、Virut、Zeus。良性类有:BitTorrent、Facetime、FTP、Gmail、MySQL、Outlook、Skype、SMB等,本数据集将流量所述软件类进行排序标号作为数据标签。
S12、将终端和软件应用发出的原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成、IDX转换,并将终端和软件应用作为联邦学习客户端;其中,所述流量分割、流量清理为将.pcap文件拆分为离散的流量单元,并对其进行整理、修剪和删除使其所有文件变为统一的数据字节;所述图像生成、IDX转换为将处理好的数据字节视为一个像素,进行黑白图像转换且打包为.IDX格式;
将原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成和IDX转换四个步骤的数据预处理;具体来说,即先将.pcap文件拆分为离散的流量单元,并对其进行整理、修剪和删除工作使其所有文件变为统一的784字节。将处理好的数据字节视为一个像素,进行黑白图像转换且打包为.IDX格式,以便于机器学习算法计算。其中对终端流量的划分粒度采用会话格式并且专注于所有层的流量数据,这种将终端流量数据进行可视化的方法可以在流量分类任务中解决手工设计特征的问题,增加模型准确度减少学习成本。
S13、将所述流量数据转化为设定像素的黑白图像且打包为.IDX格式,将所述黑白图像以终端为单位进行分类;
设置联邦学习任务,本发明考虑的目标任务是通过对网络流量数据进行识别分类以实现检测网络是否被违规占用、软件终端是否通过流量数据恶意绑架设备或是违规访问隐私数据,以此来遏制异常网络活动,叫停恶意终端设备。
终端和软件应用所发出的流量数据通过步骤S11和S12处理后成为联邦学习客户端也就是边缘服务器基于流量数据分类任务的数据集,而联邦学习的任务就是通过采集网络中的流量数据区分其类别,也就是对应的不同的数据源。在知识图谱中查询到流量异常后可以精准定位对于设备终端和软件应用,上述的步骤将流量数据转化为28*28像素的黑白图像且打包为.IDX格式,联邦学习只需要将图像以终端为单位进行分类。
S14、配置联邦学习模型。如图3所示,采用基于联邦随机梯度下降(Federatedstochastic gradient descent,FedSGD)算法的联邦学习框架,其中,中心服务器发送全局模型Wt到被选为参与者的客户端,客户端根据本地的流量数据集进行模型训练,并将损失函数的梯度发送给中心服务器进行梯度聚合,以配置联邦学习模型;其中,客户端梯度计算公式为:
其中,xt,i和yt,i表示在第t轮迭代中第i个客户端会参与学习的数据和标签,F(·)表示模型输出,即基于输入为xt,i,模型权重为Wt的神经网络的输出值,即预测出的数据对应标签,l(·)为计算估计标签和真实标签之间的损失函数并通过其求导得到损失函数的梯度整个过程不断迭代,直到损失函数满足收敛条件时学习停止。
S2、根据所述联邦学习模型的分类学习结果进行知识图谱构建;知识图谱是以关系的角度去理解知识,利用人类已经积累的知识,赋予机器理解和推理决策的能力。本发明通过建立各个终端之间的关系、终端和流量数据之间的关系、流量数据是否存在恶意倾向等属性来建立知识图谱。在联邦学习模型对流量数据进行分类后可以进一步了解流量的性质判断终端是否恶意使用网络资源,维护网络安全。
如图4所示,步骤S2具体包括:
S21、信息抽取。根据流量数据确定信息实体和个信息实体的关系,以构建三元组;
步骤S21具体包括:
S211、在上述流量数据中确定信息实体,其中,所述信息实体包括流量所属的软件终端、软件所控制的设备和流量数据本身,即上述流量所属的软件终端、软件所控制的设备和流量数据本身。
S212、根据联邦学习的分类结果确定在网络上检测到的流量数据和各个信息实体的关系,即检测到的流量数据具体属于哪一类软件以及软件控制的工业物联网设施,如机械臂、智能小车以及无人机等。
S213、根据检测到的流量数据的时空特征、背景特征和握手特征等属性确定其恶意关系;
S214、将确定好的实体和关系构建三元组Gt=(ε,R,τ);其中,ε表示实体集合,R表示实体之间的关系集合,例如终端之间相互控制反馈,流量状态是否存在恶意倾向等;τ表示实体与关系构成的三元组集合,例如若实体ei,ej∈ε,且实体ei有一种指向ej的关系r,则三元组就可以构建为g=(ei,r,ej)。
S22、知识融合。在上述步骤所建立的三元组中由于互联网中各种信息的不确定性和不完整容易造成对同一种实体的描述出现冲突,知识融合就是将不同数据源中对同一实体的不同语义表达关联到一起。采用Word2Vec词向量模型,将实体名称从语义空间转换到向量空间,计算向量之间的夹角进行实体类别归类。例如对于流量数据所述的软件对象Cridex和Dridex虽然表达不同但是都是指的统一个实体,知识融合的目的就是将两者关联到一起,以防构建好的三元组之间出现信息冲突。
S23、知识存储。将三元组中的实体转化为节点,将关系转化为边,以点-边的形式对流量数据、工业设备、运行软件和恶意倾向检测结果进行可视化展示,以将上述优化后的三元组采用图数据库Neo4j进行知识存储,提高后续对知识图谱查询的便利性。
S24、问答系统建立。基于实体识别Bi_LSTM-CRF模型从用户输入的问题中提取所包含的实体,并对应为知识存储中的实体节点,通过检索与节点关联的边所表示的关联关系,获取图谱中与实体关联的信息并返回给用户。
S3、根据所述联邦学习环境评估联邦学习过程的隐私性风险;联邦学习作为具有较高隐私性的分布式机器学习方法,能够确保客户端的本地数据不离开本地保护域,但是目前各种针对联邦学习的攻击手段层出不穷,主流的攻击手段包括成员推理攻击、标签推理攻击以及重构原数据攻击,本发明提出利用模拟攻击来判断上述的联邦学习方法/架构是否存在隐私泄露的风险。
步骤S3具体包括:
S31、模拟攻击。假设被攻击重构的是设备t的本地图像,采用梯度泄露(DeepLeakage from Gradient,DLG)模拟攻击;
步骤S31具体包括:
生成随机虚拟流量图像X't和流量数据所属类别标签Y't,图像中的每个像素x't的幅度都为服从随机分布:
X't←N(0,1)
其中,N代表满足期望为0,方差为1的正态分布;
将生成的虚拟图像X't数据输入设备t的本地训练的神经网络模型φt(X't)中以获取虚拟梯度当被攻击客户端发送本地梯度数据/>到服务器前,客户端发起模拟DLG攻击,计算生成的虚拟梯度/>和原始梯度/>之间的距离,并通过不断调整虚拟产生的随机数据X't和虚拟标签Y't来最小化该距离:
其中,和/>是在以X't和Y't为基础迭代计算后满足虚拟梯度和原始梯度距离最小的最优重构数值,即最终的重构结果。
S32、判断隐私风险。通过上述模拟攻击手段,客户端计算重构图像和原始图像之间的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作为两者相似度的指标,计算公式为:
其中,MSE为两个图像之间的均方误差,xi和分别为原始图像和重构图像的像素,B为像素大小,MAXI为重构图像中的像素最大值。PSNR越大,说明重构图像越接近原始图像,一般来说高于40dB时肉眼几户无法分辨两者区别,30到40dB之间重构图像可能存在些许噪声污染。因此本发明以30dB为界限,若PSNR超过该界限则判定存在较大隐私风险,需要实施防御措施。
S4、根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。本发明采用基于高斯机制的差分隐私防御方法来增强联邦学习客户端,也就是边缘服务器的隐私性以保护客户端收集到的流量数据在学习过程中不被窃听泄露。
步骤S4具体包括:
S41、在有泄露风险的客户端梯度上叠加具有正态分布特性的高斯噪声x,其概率密度函数满足:
其中,μ为高斯噪声均值,σ2为噪声方差,代表噪声大小,具体分布参数的取值本发明取ε为隐私预算,即在相邻数据集下本地模型φt的输出在添加噪声后误差值不超过eε,δ代表差分隐私的松弛项,即不满足严格差分隐私的概率,Δf为全局模型敏感度,定义为:
Δf=max||φt(Dk)-φt(Di)||
其中,Dk和Di为相邻数据集,即仅存在一位数据不同的两个数据集。
S42、根据所述联邦学习模型,客户端根据本地数据特征选择隐私预算ε和全局敏感度Δf两种参数,以添加噪声,保证添加的噪声不会超过客户端的整体预算造成防御失效或者是牺牲太多的模型准确率,在此基础将噪声添加在发送给中心服务器的梯度数据上:
其中,为添加噪声干扰后的梯度,N(0,σ2)为满足上述分布要求的高斯噪声。
本发明将工业互联网终端的流量数据构建为知识图谱,并基于联邦学习技术进行实时网络流量的异常检测分析。为了使基于图谱联邦学习的检测结果能够为管理系统提供更多与隐私流量数据泄露风险深度相关的决策预警信息,本发明进一步提出了隐私增强方法用于改善所采用的图谱联邦学习技术,详细描述了面向工业异常流量检测任务的终端数据采集处理和联邦学习模型配置优化,利用知识图谱具有的强大推断能力将流量分类结果与终端是否存在恶意倾向进行因果关联,提高异常行为检测的判断准确性;在图谱联邦学习算法中添加基于高斯机制的差分隐私技术增强联邦学习过程中数据交互的隐私性,从模型训练准确性和数据交互隐私性两个方面保证了面向工业互联网的联邦学习过程。
如图5所示,本发明还提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强装置,包括:
配置模块1,用于配置联邦学习环境;其中,所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型;
构建模块2,用于根据所述联邦学习模型的分类学习结果进行知识图谱构建;
评估模块3,用于根据所述联邦学习环境评估联邦学习过程的隐私性风险;
增强模块4,用于根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。
在一个实施例中,配置模块1,包括:
排序标号单元,用于设定数据集,且所述数据集将流量软件类进行排序标号作为数据标签;
预处理单元,用于将终端和软件应用发出的原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成、IDX转换,并将终端和软件应用作为联邦学习客户端;其中,所述流量分割、流量清理为将.pcap文件拆分为离散的流量单元,并对其进行整理、修剪和删除使其所有文件变为统一的数据字节;所述图像生成、IDX转换为将处理好的数据字节视为一个像素,进行黑白图像转换且打包为.IDX格式;
分类单元,用于将所述流量数据转化为设定像素的黑白图像且打包为.IDX格式,将所述黑白图像以终端为单位进行分类;
学习模型配置单元,用于采用基于联邦随机梯度下降算法的联邦学习框架,中心服务器发送全局模型Wt到被选为参与者的客户端,客户端根据本地的流量数据集进行模型训练,并将损失函数的梯度发送给中心服务器进行梯度聚合,以配置联邦学习模型;其中,客户端梯度计算公式为:
其中,xt,i和yt,i表示在第t轮迭代中第i个客户端会参与学习的数据和标签,F(·)表示模型输出,即基于输入为xt,i,模型权重为Wt的神经网络的输出值,预测出的数据对应标签,l(·)为计算估计标签和真实标签之间的损失函数并通过其求导得到损失函数的梯度
在一个实施例中,构建模块2包括:
三元组构建单元,用于根据流量数据确定信息实体和个信息实体的关系,以构建三元组;
转换单元,用于采用Word2Vec词向量模型,将实体名称从语义空间转换到向量空间,计算向量之间的夹角进行实体类别归类;
转化单元,用于将三元组中的实体转化为节点,将关系转化为边,以点-边的形式对流量数据、工业设备、运行软件和恶意倾向检测结果进行可视化展示,以将三元组采用图数据库Neo4j进行知识存储;
返回单元,用于基于实体识别Bi_LSTM-CRF模型从用户输入的问题中提取所包含的实体,并对应为知识存储中的实体节点,通过检索与节点关联的边所表示的关联关系,获取图谱中与实体关联的信息并返回给用户。
在一个实施例中,三元组构建单元,包括:
信息实体确定子单元,用于在流量数据中确定信息实体,其中,所述信息实体包括流量所属的软件终端、软件所控制的设备和流量数据本身;
信息实体关系子单元,用于根据联邦学习的分类结果确定在网络上检测到的流量数据和各个信息实体的关系;
恶意关系确定子单元,用于根据检测到的流量数据的时空特征、背景特征和握手特征等属性确定其恶意关系;
三元组集合子单元,用于将确定好的实体和关系构建三元组Gt=(ε,R,τ);其中,ε表示实体集合,R表示实体之间的关系集合,τ表示实体与关系构成的三元组集合。
在一个实施例中,评估模块3,包括:
攻击单元,用于假设被攻击重构的是设备t的本地图像,采用梯度泄露模拟攻击;
计算单元,用于通过模拟攻击手段,客户端计算重构图像和原始图像之间的峰值信噪比作为两者相似度的指标,计算公式为:
其中,MSE为两个图像之间的均方误差,xi和分别为原始图像和重构图像的像素,B为像素大小,MAXI为重构图像中的像素最大值。
在一个实施例中,攻击单元,包括:
生成子单元,用于生成随机虚拟流量图像X't和流量数据所属类别标签Y't,图像中的每个像素x't的幅度都为服从随机分布:
X't←N(0,1)
其中,N代表满足期望为0,方差为1的正态分布;
输入子单元,用于将生成的虚拟图像X't数据输入设备t的本地训练的神经网络模型φt(X't)中以获取虚拟梯度当被攻击客户端发送本地梯度数据/>到服务器前,客户端发起模拟DLG攻击,计算生成的虚拟梯度/>和原始梯度/>之间的距离,并通过不断调整虚拟产生的随机数据X't和虚拟标签Y't来最小化该距离:
其中,和/>是在以X't和Y't为基础迭代计算后满足虚拟梯度和原始梯度距离最小的最优重构数值,即最终的重构结果。
在一个实施例中,增强模块4,包括:
叠加单元,用于在有泄露风险的客户端梯度上叠加具有正态分布特性的高斯噪声x,其概率密度函数满足:
Δf=max||φt(Dk)-φt(Di)||
其中,μ为高斯噪声均值,σ2为噪声方差,代表噪声大小,ε为隐私预算,即在相邻数据集下本地模型φt的输出在添加噪声后误差值不超过eε,δ代表差分隐私的松弛项,即不满足严格差分隐私的概率,Δf为全局模型敏感度,Dk和Di为相邻数据集,即仅存在一位数据不同的两个数据集。
添加单元,用于根据所述联邦学习模型,客户端根据本地数据特征选择隐私预算ε和全局敏感度Δf,以添加噪声,并将噪声添加在发送给中心服务器的梯度数据上:
其中,为添加噪声干扰后的梯度,N(0,σ2)为满足分布要求的高斯噪声。
上述各模块、单元、子单元均是用于对应执行上述面向工业终端网络流量检测的图谱联邦学习隐私增强方法中的各个步骤,其具体实现方式参照上述方法实施例所述,在此不再进行赘述。
如图6所示,本发明还提供了一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储面向工业终端网络流量检测的图谱联邦学习隐私增强方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现面向工业终端网络流量检测的图谱联邦学习隐私增强方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一个面向工业终端网络流量检测的图谱联邦学习隐私增强方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法,其特征在于,包括:
配置联邦学习环境;其中,所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型;
根据所述联邦学习模型的分类学习结果进行知识图谱构建;
根据所述联邦学习环境评估联邦学习过程的隐私性风险;
根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。
2.根据权利要求1所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法,其特征在于,所述配置联邦学习环境的步骤,包括:
设定数据集,且所述数据集将流量软件类进行排序标号作为数据标签;
将终端和软件应用发出的原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成、IDX转换,并将终端和软件应用作为联邦学习客户端;其中,所述流量分割、流量清理为将.pcap文件拆分为离散的流量单元,并对其进行整理、修剪和删除使其所有文件变为统一的数据字节;所述图像生成、IDX转换为将处理好的数据字节视为一个像素,进行黑白图像转换且打包为.IDX格式;
将所述流量数据转化为设定像素的黑白图像且打包为.IDX格式,将所述黑白图像以终端为单位进行分类;
采用基于联邦随机梯度下降算法的联邦学习框架,中心服务器发送全局模型Wt到被选为参与者的客户端,客户端根据本地的流量数据集进行模型训练,并将损失函数的梯度▽Wt,i发送给中心服务器进行梯度聚合,以配置联邦学习模型;其中,客户端梯度计算公式为:
其中,xt,i和yt,i表示在第t轮迭代中第i个客户端会参与学习的数据和标签,F(·)表示模型输出,即基于输入为xt,i,模型权重为Wt的神经网络的输出值,预测出的数据对应标签,l(·)为计算估计标签和真实标签之间的损失函数并通过其求导得到损失函数的梯度
3.根据权利要求2所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法,其特征在于,所述根据所述联邦学习模型的分类学习结果进行知识图谱构建的步骤,包括:
根据流量数据确定信息实体和个信息实体的关系,以构建三元组;
采用Word2Vec词向量模型,将实体名称从语义空间转换到向量空间,计算向量之间的夹角进行实体类别归类;
将三元组中的实体转化为节点,将关系转化为边,以点-边的形式对流量数据、工业设备、运行软件和恶意倾向检测结果进行可视化展示,以将三元组采用图数据库Neo4j进行知识存储;
基于实体识别Bi_LSTM-CRF模型从用户输入的问题中提取所包含的实体,并对应为知识存储中的实体节点,通过检索与节点关联的边所表示的关联关系,获取图谱中与实体关联的信息并返回给用户。
4.根据权利要求3所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法,其特征在于,所述根据流量数据确定信息实体和个信息实体的关系,以构建三元组的步骤,包括:
在流量数据中确定信息实体,其中,所述信息实体包括流量所属的软件终端、软件所控制的设备和流量数据本身;
根据联邦学习的分类结果确定在网络上检测到的流量数据和各个信息实体的关系;
根据检测到的流量数据的时空特征、背景特征和握手特征等属性确定其恶意关系;
将确定好的实体和关系构建三元组Gt=(ε,R,τ);其中,ε表示实体集合,R表示实体之间的关系集合,τ表示实体与关系构成的三元组集合。
5.根据权利要求4所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法,其特征在于,所述根据所述联邦学习环境评估联邦学习过程的隐私性风险的步骤,包括:
假设被攻击重构的是设备t的本地图像,采用梯度泄露模拟攻击;
通过模拟攻击手段,客户端计算重构图像和原始图像之间的峰值信噪比作为两者相似度的指标,计算公式为:
其中,MSE为两个图像之间的均方误差,xi和分别为原始图像和重构图像的像素,B为像素大小,MAXI为重构图像中的像素最大值。
6.根据权利要求5所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法,其特征在于,所述假设被攻击重构的是设备t的本地图像,采用梯度泄露模拟攻击的步骤,包括:
生成随机虚拟流量图像X't和流量数据所属类别标签Yt',图像中的每个像素x't的幅度都为服从随机分布:
X't←N(0,1)
其中,N代表满足期望为0,方差为1的正态分布;
将生成的虚拟图像X't数据输入设备t的本地训练的神经网络模型φt(X't)中以获取虚拟梯度当被攻击客户端发送本地梯度数据/>到服务器前,客户端发起模拟DLG攻击,计算生成的虚拟梯度/>和原始梯度/>之间的距离,并通过不断调整虚拟产生的随机数据X't和虚拟标签Yt'来最小化该距离:
其中,和/>是在以X't和Yt'为基础迭代计算后满足虚拟梯度和原始梯度距离最小的最优重构数值,即最终的重构结果。
7.根据权利要求6所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法,其特征在于,所述根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端的步骤,包括:
在有泄露风险的客户端梯度上叠加具有正态分布特性的高斯噪声x,其概率密度函数满足:
Δf=max||φt(Dk)-φt(Di)||
其中,μ为高斯噪声均值,σ2为噪声方差,代表噪声大小,ε为隐私预算,即在相邻数据集下本地模型φt的输出在添加噪声后误差值不超过eε,δ代表差分隐私的松弛项,即不满足严格差分隐私的概率,Δf为全局模型敏感度,Dk和Di为相邻数据集,即仅存在一位数据不同的两个数据集。
根据所述联邦学习模型,客户端根据本地数据特征选择隐私预算ε和全局敏感度Δf,以添加噪声,并将噪声添加在发送给中心服务器的梯度数据上:
其中,为添加噪声干扰后的梯度,N(0,σ2)为满足分布要求的高斯噪声。
8.一种面向工业终端网络流量检测的图谱联邦学习隐私增强装置,其特征在于,包括:
配置模块,用于配置联邦学习环境;其中,所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型;
构建模块,用于根据所述联邦学习模型的分类学习结果进行知识图谱构建;
评估模块,用于根据所述联邦学习环境评估联邦学习过程的隐私性风险;
增强模块,用于根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310447611.XA CN116701618A (zh) | 2023-04-24 | 2023-04-24 | 一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310447611.XA CN116701618A (zh) | 2023-04-24 | 2023-04-24 | 一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116701618A true CN116701618A (zh) | 2023-09-05 |
Family
ID=87830092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310447611.XA Pending CN116701618A (zh) | 2023-04-24 | 2023-04-24 | 一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701618A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390522A (zh) * | 2023-12-12 | 2024-01-12 | 华南师范大学 | 基于过程与结果融合的在线深度学习等级预测方法及装置 |
-
2023
- 2023-04-24 CN CN202310447611.XA patent/CN116701618A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390522A (zh) * | 2023-12-12 | 2024-01-12 | 华南师范大学 | 基于过程与结果融合的在线深度学习等级预测方法及装置 |
CN117390522B (zh) * | 2023-12-12 | 2024-03-29 | 华南师范大学 | 基于过程与结果融合的在线深度学习等级预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rahman et al. | Internet of things intrusion detection: Centralized, on-device, or federated learning? | |
Olowononi et al. | Resilient machine learning for networked cyber physical systems: A survey for machine learning security to securing machine learning for CPS | |
Liu et al. | An intrusion detection model with hierarchical attention mechanism | |
Koliander et al. | Fusion of probability density functions | |
Sun et al. | Adaptive intrusion detection in the networking of large-scale lans with segmented federated learning | |
CN111669384B (zh) | 融合深度神经网络和层级注意力机制的恶意流量检测方法 | |
CN108494802A (zh) | 基于人工智能的关键信息基础设施安全威胁主动防御系统 | |
Zhu et al. | IoT equipment monitoring system based on C5. 0 decision tree and time-series analysis | |
CN116701618A (zh) | 一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法 | |
CN112087444B (zh) | 账号识别方法和装置、存储介质及电子设备 | |
Bose | A comparative study of social networking approaches in identifying the covert nodes | |
Shi et al. | A framework of intrusion detection system based on Bayesian network in IoT | |
Passino et al. | Mutually exciting point process graphs for modeling dynamic networks | |
Sun et al. | Detection and classification of network events in LAN using CNN | |
Dubey et al. | Investigating the Impact of Feature Reduction through Information Gain and Correlation on the Performance of Error Back Propagation Based IDS | |
Guo et al. | Privacy-preserving deep learning for enabling big edge data analytics in Internet of Things | |
Yang et al. | Federation Learning of Optimized Convolutional Neural Network Structure for Intrusion Detection | |
CN115859344A (zh) | 基于秘密共享的联邦无人机群数据安全共享方法 | |
Maeno | Node discovery problem for a social network | |
Radley et al. | IMPROVING THE PERFORMANCE AND FUNCTIONALITY OF AI AND MACHINE LEARNING IN ELECTRONIC DEVICES AND SYSTEMS. | |
Parameswari et al. | Hybrid rat swarm hunter prey optimization trained deep learning for network intrusion detection using CNN features | |
CN113518062B (zh) | 攻击检测方法、装置及计算机设备 | |
Adeshina | Machine learning based approach for detecting Distributed Denial of Service attack | |
Abdurrazaq et al. | DIDS Using Cooperative Agents Based on Ant Colony Clustering. | |
Mol | Investigation of attack strategies on geoprivacy with spatial obfuscation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |