CN116701618A

CN116701618A - 一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法

Info

Publication number: CN116701618A
Application number: CN202310447611.XA
Authority: CN
Inventors: 赵海涛; 潘晨悦; 郭亮; 朱春; 刘淼; 杨洁
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-09-05

Abstract

本发明涉及联邦学习、工业互联网技术领域，公开了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法，包括：配置联邦学习环境，包括数据集、联邦学习任务和联邦学习模型；根据所述联邦学习模型的分类学习结果进行知识图谱构建；根据联邦学习环境评估联邦学习过程的隐私性风险；根据隐私性风险添加隐私增强方法以增强联邦学习客户端。本发明提供的方法，结合联邦学习和知识图谱将流量分类和网络流量异常检测相结合，既降低了流量数据隐私泄露的风险，也使得基于联邦学习的检测结果能够反映流量数据和恶意行为间更深层次的因果关联性，进一步提高判断终端是否存在恶意倾向的准确性，并减少人工干预带来的人因误差和人力开销。

Description

一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法

技术领域

本发明涉及联邦学习、工业互联网技术领域，特别涉及一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法。

背景技术

联邦学习作为具有较高隐私性和较低通信成本的新兴机器学习方式越来越被人们重视，而流量分类作为网络异常检测或是基于网络的入侵检测系统的第一步，能够在网络安全领域发挥着重要作用。但是目前的联邦学习仍然存在通过共享的梯度数据泄露隐私的可能性，并且流量分类的结果也很难和网络异常检测直接结合，需要一定的人工干预。

发明内容

本发明提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法，不同于传统基于硬编码流量分类的异常检测方法，结合联邦学习和知识图谱将流量分类和网络流量异常检测相结合，既降低了流量数据隐私泄露的风险，也使得基于联邦学习的检测结果能够反映流量数据和恶意行为间更深层次的因果关联性，进一步提高判断终端是否存在恶意倾向的准确性，并减少人工干预带来的人因误差和人力开销。

本发明提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法，包括：

配置联邦学习环境；其中，所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型；

根据所述联邦学习模型的分类学习结果进行知识图谱构建；

根据所述联邦学习环境评估联邦学习过程的隐私性风险；

根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。

进一步地，所述配置联邦学习环境的步骤，包括：

设定数据集，且所述数据集将流量软件类进行排序标号作为数据标签；

将终端和软件应用发出的原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成、IDX转换，并将终端和软件应用作为联邦学习客户端；其中，所述流量分割、流量清理为将.pcap文件拆分为离散的流量单元，并对其进行整理、修剪和删除使其所有文件变为统一的数据字节；所述图像生成、IDX转换为将处理好的数据字节视为一个像素，进行黑白图像转换且打包为.IDX格式；

将所述流量数据转化为设定像素的黑白图像且打包为.IDX格式，将所述黑白图像以终端为单位进行分类；

采用基于联邦随机梯度下降算法的联邦学习框架，中心服务器发送全局模型W_t到被选为参与者的客户端，客户端根据本地的流量数据集进行模型训练，并将损失函数的梯度发送给中心服务器进行梯度聚合，以配置联邦学习模型；其中，客户端梯度计算公式为：

其中，x_t,i和y_t,i表示在第t轮迭代中第i个客户端会参与学习的数据和标签，F(·)表示模型输出，即基于输入为x_t,i，模型权重为W_t的神经网络的输出值，预测出的数据对应标签，l(·)为计算估计标签和真实标签之间的损失函数并通过其求导得到损失函数的梯度

进一步地，所述根据所述联邦学习模型的分类学习结果进行知识图谱构建的步骤，包括：

根据流量数据确定信息实体和个信息实体的关系，以构建三元组；

采用Word2Vec词向量模型，将实体名称从语义空间转换到向量空间，计算向量之间的夹角进行实体类别归类；

将三元组中的实体转化为节点，将关系转化为边，以点-边的形式对流量数据、工业设备、运行软件和恶意倾向检测结果进行可视化展示，以将三元组采用图数据库Neo4j进行知识存储；

基于实体识别Bi_LSTM-CRF模型从用户输入的问题中提取所包含的实体，并对应为知识存储中的实体节点，通过检索与节点关联的边所表示的关联关系，获取图谱中与实体关联的信息并返回给用户。

进一步地，所述根据流量数据确定信息实体和个信息实体的关系，以构建三元组的步骤，包括：

在流量数据中确定信息实体，其中，所述信息实体包括流量所属的软件终端、软件所控制的设备和流量数据本身；

根据联邦学习的分类结果确定在网络上检测到的流量数据和各个信息实体的关系；

根据检测到的流量数据的时空特征、背景特征和握手特征等属性确定其恶意关系；

将确定好的实体和关系构建三元组G_t＝(ε,R,τ)；其中，ε表示实体集合，R表示实体之间的关系集合，τ表示实体与关系构成的三元组集合。

进一步地，所述根据所述联邦学习环境评估联邦学习过程的隐私性风险的步骤，包括：

假设被攻击重构的是设备t的本地图像，采用梯度泄露模拟攻击；

通过模拟攻击手段，客户端计算重构图像和原始图像之间的峰值信噪比作为两者相似度的指标，计算公式为：

其中，MSE为两个图像之间的均方误差，x_i和分别为原始图像和重构图像的像素，B为像素大小，MAX_I为重构图像中的像素最大值。

进一步地，所述假设被攻击重构的是设备t的本地图像，采用梯度泄露模拟攻击的步骤，包括：

生成随机虚拟流量图像X'_t和流量数据所属类别标签Y'_t，图像中的每个像素x'_t的幅度都为服从随机分布：

X'_t←N(0,1)

其中，N代表满足期望为0，方差为1的正态分布；

将生成的虚拟图像X'_t数据输入设备t的本地训练的神经网络模型φ_t(X'_t)中以获取虚拟梯度当被攻击客户端发送本地梯度数据/>到服务器前，客户端发起模拟DLG攻击，计算生成的虚拟梯度/>和原始梯度/>之间的距离，并通过不断调整虚拟产生的随机数据X'_t和虚拟标签Y'_t来最小化该距离：

其中，和/>是在以X'_t和Y'_t为基础迭代计算后满足虚拟梯度和原始梯度距离最小的最优重构数值，即最终的重构结果。

进一步地，所述根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端的步骤，包括：

在有泄露风险的客户端梯度上叠加具有正态分布特性的高斯噪声x，其概率密度函数满足：

Δ_f＝max||φ_t(D_k)-φ_t(D_i)||

其中，μ为高斯噪声均值，σ²为噪声方差，代表噪声大小，ε为隐私预算，即在相邻数据集下本地模型φ_t的输出在添加噪声后误差值不超过e^ε，δ代表差分隐私的松弛项，即不满足严格差分隐私的概率，Δ_f为全局模型敏感度，D_k和D_i为相邻数据集，即仅存在一位数据不同的两个数据集。

根据所述联邦学习模型，客户端根据本地数据特征选择隐私预算ε和全局敏感度Δ_f，以添加噪声，并将噪声添加在发送给中心服务器的梯度数据上：

其中，为添加噪声干扰后的梯度，N(0,σ²)为满足分布要求的高斯噪声。

本发明还提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强装置，包括：

配置模块，用于配置联邦学习环境；其中，所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型；

构建模块，用于根据所述联邦学习模型的分类学习结果进行知识图谱构建；

评估模块，用于根据所述联邦学习环境评估联邦学习过程的隐私性风险；

增强模块，用于根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的有益效果为：

本发明将工业互联网终端的流量数据构建为知识图谱，并基于联邦学习技术进行实时网络流量的异常检测分析。为了使基于图谱联邦学习的检测结果能够为管理系统提供更多与隐私流量数据泄露风险深度相关的决策预警信息，本发明进一步提出了隐私增强方法用于改善所采用的图谱联邦学习技术，详细描述了面向工业异常流量检测任务的终端数据采集处理和联邦学习模型配置优化，利用知识图谱具有的强大推断能力将流量分类结果与终端是否存在恶意倾向进行因果关联，提高异常行为检测的判断准确性；在图谱联邦学习算法中添加基于高斯机制的差分隐私技术增强联邦学习过程中数据交互的隐私性，从模型训练准确性和数据交互隐私性两个方面保证了面向工业互联网的联邦学习过程。

附图说明

图1为本发明一实施例的方法流程示意图。

图2为本发明中图谱联邦学习流程框架示意图。

图3为本发明中存在隐私风险的联邦学习框架示意图。

图4为本发明中知识图谱构建主体和关系示意图。

图5为本发明一实施例的装置结构示意图。

图6为本发明一实施例的计算机设备内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1-2所示，本发明提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法，包括：

S1、配置联邦学习环境；其中，所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型；

步骤S1具体包括：

S11、设定数据集，且所述数据集将流量软件类进行排序标号作为数据标签；

配置数据集，本发明采用USTC-TFC2016终端流量数据，该数据集包含10个恶意软件家族和10种良性流量，恶意软件类别是：Cridex(Dridex)、Geodo(Emotet)、Htbot、Miuref、Neris、Nsis-a、Shifu、Tinba、Virut、Zeus。良性类有：BitTorrent、Facetime、FTP、Gmail、MySQL、Outlook、Skype、SMB等，本数据集将流量所述软件类进行排序标号作为数据标签。

S12、将终端和软件应用发出的原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成、IDX转换，并将终端和软件应用作为联邦学习客户端；其中，所述流量分割、流量清理为将.pcap文件拆分为离散的流量单元，并对其进行整理、修剪和删除使其所有文件变为统一的数据字节；所述图像生成、IDX转换为将处理好的数据字节视为一个像素，进行黑白图像转换且打包为.IDX格式；

将原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成和IDX转换四个步骤的数据预处理；具体来说，即先将.pcap文件拆分为离散的流量单元，并对其进行整理、修剪和删除工作使其所有文件变为统一的784字节。将处理好的数据字节视为一个像素，进行黑白图像转换且打包为.IDX格式，以便于机器学习算法计算。其中对终端流量的划分粒度采用会话格式并且专注于所有层的流量数据，这种将终端流量数据进行可视化的方法可以在流量分类任务中解决手工设计特征的问题，增加模型准确度减少学习成本。

S13、将所述流量数据转化为设定像素的黑白图像且打包为.IDX格式，将所述黑白图像以终端为单位进行分类；

设置联邦学习任务，本发明考虑的目标任务是通过对网络流量数据进行识别分类以实现检测网络是否被违规占用、软件终端是否通过流量数据恶意绑架设备或是违规访问隐私数据，以此来遏制异常网络活动，叫停恶意终端设备。

终端和软件应用所发出的流量数据通过步骤S11和S12处理后成为联邦学习客户端也就是边缘服务器基于流量数据分类任务的数据集，而联邦学习的任务就是通过采集网络中的流量数据区分其类别，也就是对应的不同的数据源。在知识图谱中查询到流量异常后可以精准定位对于设备终端和软件应用，上述的步骤将流量数据转化为28*28像素的黑白图像且打包为.IDX格式，联邦学习只需要将图像以终端为单位进行分类。

S14、配置联邦学习模型。如图3所示，采用基于联邦随机梯度下降(Federatedstochastic gradient descent，FedSGD)算法的联邦学习框架，其中，中心服务器发送全局模型W_t到被选为参与者的客户端，客户端根据本地的流量数据集进行模型训练，并将损失函数的梯度发送给中心服务器进行梯度聚合，以配置联邦学习模型；其中，客户端梯度计算公式为：

其中，x_t,i和y_t,i表示在第t轮迭代中第i个客户端会参与学习的数据和标签，F(·)表示模型输出，即基于输入为x_t,i，模型权重为W_t的神经网络的输出值，即预测出的数据对应标签，l(·)为计算估计标签和真实标签之间的损失函数并通过其求导得到损失函数的梯度整个过程不断迭代，直到损失函数满足收敛条件时学习停止。

S2、根据所述联邦学习模型的分类学习结果进行知识图谱构建；知识图谱是以关系的角度去理解知识，利用人类已经积累的知识，赋予机器理解和推理决策的能力。本发明通过建立各个终端之间的关系、终端和流量数据之间的关系、流量数据是否存在恶意倾向等属性来建立知识图谱。在联邦学习模型对流量数据进行分类后可以进一步了解流量的性质判断终端是否恶意使用网络资源，维护网络安全。

如图4所示，步骤S2具体包括：

S21、信息抽取。根据流量数据确定信息实体和个信息实体的关系，以构建三元组；

步骤S21具体包括：

S211、在上述流量数据中确定信息实体，其中，所述信息实体包括流量所属的软件终端、软件所控制的设备和流量数据本身，即上述流量所属的软件终端、软件所控制的设备和流量数据本身。

S212、根据联邦学习的分类结果确定在网络上检测到的流量数据和各个信息实体的关系，即检测到的流量数据具体属于哪一类软件以及软件控制的工业物联网设施，如机械臂、智能小车以及无人机等。

S213、根据检测到的流量数据的时空特征、背景特征和握手特征等属性确定其恶意关系；

S214、将确定好的实体和关系构建三元组G_t＝(ε,R,τ)；其中，ε表示实体集合，R表示实体之间的关系集合，例如终端之间相互控制反馈，流量状态是否存在恶意倾向等；τ表示实体与关系构成的三元组集合，例如若实体e_i,e_j∈ε，且实体e_i有一种指向e_j的关系r，则三元组就可以构建为g＝(e_i,r,e_j)。

S22、知识融合。在上述步骤所建立的三元组中由于互联网中各种信息的不确定性和不完整容易造成对同一种实体的描述出现冲突，知识融合就是将不同数据源中对同一实体的不同语义表达关联到一起。采用Word2Vec词向量模型，将实体名称从语义空间转换到向量空间，计算向量之间的夹角进行实体类别归类。例如对于流量数据所述的软件对象Cridex和Dridex虽然表达不同但是都是指的统一个实体，知识融合的目的就是将两者关联到一起，以防构建好的三元组之间出现信息冲突。

S23、知识存储。将三元组中的实体转化为节点，将关系转化为边，以点-边的形式对流量数据、工业设备、运行软件和恶意倾向检测结果进行可视化展示，以将上述优化后的三元组采用图数据库Neo4j进行知识存储，提高后续对知识图谱查询的便利性。

S24、问答系统建立。基于实体识别Bi_LSTM-CRF模型从用户输入的问题中提取所包含的实体，并对应为知识存储中的实体节点，通过检索与节点关联的边所表示的关联关系，获取图谱中与实体关联的信息并返回给用户。

S3、根据所述联邦学习环境评估联邦学习过程的隐私性风险；联邦学习作为具有较高隐私性的分布式机器学习方法，能够确保客户端的本地数据不离开本地保护域，但是目前各种针对联邦学习的攻击手段层出不穷，主流的攻击手段包括成员推理攻击、标签推理攻击以及重构原数据攻击，本发明提出利用模拟攻击来判断上述的联邦学习方法/架构是否存在隐私泄露的风险。

步骤S3具体包括：

S31、模拟攻击。假设被攻击重构的是设备t的本地图像，采用梯度泄露(DeepLeakage from Gradient，DLG)模拟攻击；

步骤S31具体包括：

X'_t←N(0,1)

其中，N代表满足期望为0，方差为1的正态分布；

S32、判断隐私风险。通过上述模拟攻击手段，客户端计算重构图像和原始图像之间的峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)作为两者相似度的指标，计算公式为：

其中，MSE为两个图像之间的均方误差，x_i和分别为原始图像和重构图像的像素，B为像素大小，MAX_I为重构图像中的像素最大值。PSNR越大，说明重构图像越接近原始图像，一般来说高于40dB时肉眼几户无法分辨两者区别，30到40dB之间重构图像可能存在些许噪声污染。因此本发明以30dB为界限，若PSNR超过该界限则判定存在较大隐私风险，需要实施防御措施。

S4、根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。本发明采用基于高斯机制的差分隐私防御方法来增强联邦学习客户端，也就是边缘服务器的隐私性以保护客户端收集到的流量数据在学习过程中不被窃听泄露。

步骤S4具体包括：

S41、在有泄露风险的客户端梯度上叠加具有正态分布特性的高斯噪声x，其概率密度函数满足：

其中，μ为高斯噪声均值，σ²为噪声方差，代表噪声大小，具体分布参数的取值本发明取ε为隐私预算，即在相邻数据集下本地模型φ_t的输出在添加噪声后误差值不超过e^ε，δ代表差分隐私的松弛项，即不满足严格差分隐私的概率，Δ_f为全局模型敏感度，定义为：

Δ_f＝max||φ_t(D_k)-φ_t(D_i)||

其中，D_k和D_i为相邻数据集，即仅存在一位数据不同的两个数据集。

S42、根据所述联邦学习模型，客户端根据本地数据特征选择隐私预算ε和全局敏感度Δ_f两种参数，以添加噪声，保证添加的噪声不会超过客户端的整体预算造成防御失效或者是牺牲太多的模型准确率，在此基础将噪声添加在发送给中心服务器的梯度数据上：

其中，为添加噪声干扰后的梯度，N(0,σ²)为满足上述分布要求的高斯噪声。

如图5所示，本发明还提供了一种面向工业终端网络流量检测的图谱联邦学习隐私增强装置，包括：

配置模块1，用于配置联邦学习环境；其中，所述联邦学习环境包括数据集、联邦学习任务和联邦学习模型；

构建模块2，用于根据所述联邦学习模型的分类学习结果进行知识图谱构建；

评估模块3，用于根据所述联邦学习环境评估联邦学习过程的隐私性风险；

增强模块4，用于根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端。

在一个实施例中，配置模块1，包括：

排序标号单元，用于设定数据集，且所述数据集将流量软件类进行排序标号作为数据标签；

预处理单元，用于将终端和软件应用发出的原始的.pcap格式的流量数据进行流量分割、流量清理、图像生成、IDX转换，并将终端和软件应用作为联邦学习客户端；其中，所述流量分割、流量清理为将.pcap文件拆分为离散的流量单元，并对其进行整理、修剪和删除使其所有文件变为统一的数据字节；所述图像生成、IDX转换为将处理好的数据字节视为一个像素，进行黑白图像转换且打包为.IDX格式；

分类单元，用于将所述流量数据转化为设定像素的黑白图像且打包为.IDX格式，将所述黑白图像以终端为单位进行分类；

学习模型配置单元，用于采用基于联邦随机梯度下降算法的联邦学习框架，中心服务器发送全局模型W_t到被选为参与者的客户端，客户端根据本地的流量数据集进行模型训练，并将损失函数的梯度发送给中心服务器进行梯度聚合，以配置联邦学习模型；其中，客户端梯度计算公式为：

在一个实施例中，构建模块2包括：

三元组构建单元，用于根据流量数据确定信息实体和个信息实体的关系，以构建三元组；

转换单元，用于采用Word2Vec词向量模型，将实体名称从语义空间转换到向量空间，计算向量之间的夹角进行实体类别归类；

转化单元，用于将三元组中的实体转化为节点，将关系转化为边，以点-边的形式对流量数据、工业设备、运行软件和恶意倾向检测结果进行可视化展示，以将三元组采用图数据库Neo4j进行知识存储；

返回单元，用于基于实体识别Bi_LSTM-CRF模型从用户输入的问题中提取所包含的实体，并对应为知识存储中的实体节点，通过检索与节点关联的边所表示的关联关系，获取图谱中与实体关联的信息并返回给用户。

在一个实施例中，三元组构建单元，包括：

信息实体确定子单元，用于在流量数据中确定信息实体，其中，所述信息实体包括流量所属的软件终端、软件所控制的设备和流量数据本身；

信息实体关系子单元，用于根据联邦学习的分类结果确定在网络上检测到的流量数据和各个信息实体的关系；

恶意关系确定子单元，用于根据检测到的流量数据的时空特征、背景特征和握手特征等属性确定其恶意关系；

三元组集合子单元，用于将确定好的实体和关系构建三元组G_t＝(ε,R,τ)；其中，ε表示实体集合，R表示实体之间的关系集合，τ表示实体与关系构成的三元组集合。

在一个实施例中，评估模块3，包括：

攻击单元，用于假设被攻击重构的是设备t的本地图像，采用梯度泄露模拟攻击；

计算单元，用于通过模拟攻击手段，客户端计算重构图像和原始图像之间的峰值信噪比作为两者相似度的指标，计算公式为：

在一个实施例中，攻击单元，包括：

生成子单元，用于生成随机虚拟流量图像X'_t和流量数据所属类别标签Y'_t，图像中的每个像素x'_t的幅度都为服从随机分布：

X'_t←N(0,1)

其中，N代表满足期望为0，方差为1的正态分布；

输入子单元，用于将生成的虚拟图像X'_t数据输入设备t的本地训练的神经网络模型φ_t(X'_t)中以获取虚拟梯度当被攻击客户端发送本地梯度数据/>到服务器前，客户端发起模拟DLG攻击，计算生成的虚拟梯度/>和原始梯度/>之间的距离，并通过不断调整虚拟产生的随机数据X'_t和虚拟标签Y'_t来最小化该距离：

在一个实施例中，增强模块4，包括：

叠加单元，用于在有泄露风险的客户端梯度上叠加具有正态分布特性的高斯噪声x，其概率密度函数满足：

Δ_f＝max||φ_t(D_k)-φ_t(D_i)||

添加单元，用于根据所述联邦学习模型，客户端根据本地数据特征选择隐私预算ε和全局敏感度Δ_f，以添加噪声，并将噪声添加在发送给中心服务器的梯度数据上：

上述各模块、单元、子单元均是用于对应执行上述面向工业终端网络流量检测的图谱联邦学习隐私增强方法中的各个步骤，其具体实现方式参照上述方法实施例所述，在此不再进行赘述。

如图6所示，本发明还提供了一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储面向工业终端网络流量检测的图谱联邦学习隐私增强方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现面向工业终端网络流量检测的图谱联邦学习隐私增强方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一个面向工业终端网络流量检测的图谱联邦学习隐私增强方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向工业终端网络流量检测的图谱联邦学习隐私增强方法，其特征在于，包括：

根据所述联邦学习模型的分类学习结果进行知识图谱构建；

根据所述联邦学习环境评估联邦学习过程的隐私性风险；

2.根据权利要求1所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法，其特征在于，所述配置联邦学习环境的步骤，包括：

采用基于联邦随机梯度下降算法的联邦学习框架，中心服务器发送全局模型W_t到被选为参与者的客户端，客户端根据本地的流量数据集进行模型训练，并将损失函数的梯度▽W_t,i发送给中心服务器进行梯度聚合，以配置联邦学习模型；其中，客户端梯度计算公式为：

3.根据权利要求2所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法，其特征在于，所述根据所述联邦学习模型的分类学习结果进行知识图谱构建的步骤，包括：

4.根据权利要求3所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法，其特征在于，所述根据流量数据确定信息实体和个信息实体的关系，以构建三元组的步骤，包括：

5.根据权利要求4所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法，其特征在于，所述根据所述联邦学习环境评估联邦学习过程的隐私性风险的步骤，包括：

6.根据权利要求5所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法，其特征在于，所述假设被攻击重构的是设备t的本地图像，采用梯度泄露模拟攻击的步骤，包括：

生成随机虚拟流量图像X'_t和流量数据所属类别标签Y_t'，图像中的每个像素x'_t的幅度都为服从随机分布：

X'_t←N(0,1)

其中，N代表满足期望为0，方差为1的正态分布；

将生成的虚拟图像X'_t数据输入设备t的本地训练的神经网络模型φ_t(X'_t)中以获取虚拟梯度当被攻击客户端发送本地梯度数据/>到服务器前，客户端发起模拟DLG攻击，计算生成的虚拟梯度/>和原始梯度/>之间的距离，并通过不断调整虚拟产生的随机数据X'_t和虚拟标签Y_t'来最小化该距离：

其中，和/>是在以X'_t和Y_t'为基础迭代计算后满足虚拟梯度和原始梯度距离最小的最优重构数值，即最终的重构结果。

7.根据权利要求6所述的面向工业终端网络流量检测的图谱联邦学习隐私增强方法，其特征在于，所述根据所述隐私性风险添加隐私增强方法以增强联邦学习客户端的步骤，包括：

Δ_f＝max||φ_t(D_k)-φ_t(D_i)||

8.一种面向工业终端网络流量检测的图谱联邦学习隐私增强装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。