CN113221144B - 一种隐私保护机器学习的虚拟化终端异常检测方法及系统 - Google Patents

一种隐私保护机器学习的虚拟化终端异常检测方法及系统 Download PDF

Info

Publication number
CN113221144B
CN113221144B CN202110545260.7A CN202110545260A CN113221144B CN 113221144 B CN113221144 B CN 113221144B CN 202110545260 A CN202110545260 A CN 202110545260A CN 113221144 B CN113221144 B CN 113221144B
Authority
CN
China
Prior art keywords
data
neural network
training model
behavior
network training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110545260.7A
Other languages
English (en)
Other versions
CN113221144A (zh
Inventor
李桐
刘一涛
徐剑
刘刚
王刚
周小明
宋进良
冯达
刘扬
王磊
陈得丰
杨智斌
任帅
陈剑
耿洪碧
李欢
张彬
王琛
杨滢璇
佟昊松
孙赫阳
孙茜
何立帅
李菁菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority to CN202110545260.7A priority Critical patent/CN113221144B/zh
Publication of CN113221144A publication Critical patent/CN113221144A/zh
Application granted granted Critical
Publication of CN113221144B publication Critical patent/CN113221144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种隐私保护机器学习的虚拟化终端异常检测方法及系统,其特征在于,方法包括以下步骤:步骤1,采集虚拟化终端的行为数据,并从行为数据中提取行为特征以生成行为特征向量;步骤2,基于历史生成的行为特征向量,实施可逆矩阵加密以获得密文数据,并基于密文数据更新神经网络训练模型;步骤3,基于神经网络训练模型,对行为特征向量数据进行训练以获得虚拟化终端的异常行为检测结果。本发明将神经网络训练模型的生成和更新过程外包至异地的计算服务器,提高了中心服务器的运算效率,保障了数据与训练模型的安全性。

Description

一种隐私保护机器学习的虚拟化终端异常检测方法及系统
技术领域
本发明涉及信息安全领域,更具体地,涉及一种隐私保护机器学习的虚拟化终端异常检测方法及系统。
背景技术
现有技术中,异常检测通过对系统、网络、进程或应用等行为建立轮廓模型,发现数据中超出阈值的不符合模式的异常行为。根据异常检测环境的不同,异常检测方法可以大致被分类为基于实体环境的异常检测和基于虚拟化环境的异常检测。一方面,传统的异常检测技术大多是在检测机内部获取行为信息,如在检测机内部部署入侵检测系统,或在客户机内部嵌入钩子、代理等方式获取内部信息。具体来说,传统物理机异常检测系统可以通过对主机和网络进行监测来实现对目标的入侵和恶意操作的保护,从而弥补外部防护的不足,具有一定的实时主动性。另一方面,基于虚拟化环境的异常检测对于目标虚拟机的信息获取具有透明性,在目标虚拟机外部通过特权域hypervisor(管理程序)层的虚拟机监视器对虚拟机进行自省,实时有效地监控虚拟机安全状态,感知隐藏威胁。
具体来说,终端虚拟化技术作为虚拟化技术的扩展与延续,其理论基础与传统虚拟化技术基本相同,都是实现多个虚拟机运行在同一虚拟环境的方法,并由虚拟监控程序控制和管理。虚拟化终端存在较强的多源异构性、不同场景下的虚拟化终端其安全行为受各项指标的影响也不尽相同,很难实现一套完善的面向虚拟化终端的安全验证机制。传统的安全验证技术较为单一,无法全面准确地对虚拟化终端进行安全验证,可能引发数据无法完整存储,异常行为难及时检测和计算无法验证等风险。
具体来说,在嵌入式系统虚拟化技术中,特别在访问敏感数据方面时,存在着难以确保可靠的身份验证的问题。其次,虚拟化终端在复杂环境中的感知能力、通信能力和计算能力相对有限且节点数量较多,易于受到恶意节点的攻击与威胁。例如,嵌入式系统所有的虚拟机共享I/O总线,这导致某一虚拟机受到攻击后,导致其他虚拟机得不到I/O请求从而使进程饿死。也就是说,应用传统的攻击机理及攻击路径验证方法,无法保证攻击验证过程的公平性与可追溯性,而且对于可疑攻击的应急处理机制较复杂,容易对虚拟终端的端到端通信实时性造成负面影响。
目前,随着安全领域中同态加密(Homomorphic Encryption)技术的不断发展以及具有隐私保护性质的机器学习等相关理论的出现,为如何在复杂环境中高效地检测虚拟化终端异常行为提供了新的思路。然而,现有技术中仍然步存在一种能够针对特定的终端复杂业务场景对虚拟化终端攻击所造成的异常事件进行高效感知,并实现对攻击的准确实时识别的虚拟化终端异常检测方法。
因此,亟需一种隐私保护机器学习的虚拟化终端异常检测方法及系统。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种隐私保护机器学习的虚拟化终端异常检测方法及系统,通过采集虚拟化终端的行为数据并建立特征向量,基于异地生成的神经网络训练模型对虚拟化终端的异常行为实现检测。
本发明采用如下的技术方案。
本发明第一方面,涉及一种隐私保护机器学习的虚拟化终端异常检测方法,其中,方法包括以下步骤:步骤1,采集虚拟化终端的行为数据,并从行为数据中提取行为特征以生成行为特征向量;步骤2,基于历史生成的行为特征向量,实施可逆矩阵加密以获得密文数据,并基于密文数据更新神经网络训练模型;步骤3,基于神经网络训练模型,对行为特征向量数据进行训练以获得虚拟化终端的异常行为检测结果。
优选地,基于密文数据生成神经网络训练模型还包括:基于本地服务器和异地服务器共同更新神经网络训练模型;其中,步骤2.1,本地服务器基于密文数据生成请求令牌,并将请求令牌发送至异地服务器;步骤2.2,异地服务器对请求令牌进行解密以获得解密数据,并基于解密数据生成当前神经网络训练模型的梯度信息;步骤2.3,异地服务器将当前神经网络训练模型的梯度信息返回至本地服务器中;步骤2.4,本地服务器基于梯度信息和当前神经网络训练模型实现对当前神经网络训练模型的更新。
优选地,虚拟化终端的行为数据包括数值类数据和字符类数据;其中,数值类数据包括虚拟化终端设备的CPU占用率、虚拟化终端设备内存占用率、系统调用频率和设备的流量状态;字符类数据包括进程堆栈状态、系统调用时序和系统内核变量。
优选地,对数值类数据进行平均值、最大值、方差、极差、偏度和峰度的计算,并将计算结果增加至行为特征向量中;对字符类数据进行word2vec处理以生成向量数据,并将向量数据增加至行为特征向量中。
优选地,为历史生成的行为特征向量增加标签以生成数据集{{x1,y1},...,{xm,ym}};其中,x1至xm为数据集中虚拟化终端的行为特征向量,y1至ym为行为特征向量x1至xm所对应的标签,m为选取历史生成的行为特征向量的范围,即数据集的规模。
优选地,利用公钥pk对数据集{{x1,y1},...,{xm,ym}}实施随机非奇异逆矩阵加密并获得密文数据{{z1,y1},...,{zm,ym}};并且,密文数据{{z1,y1},...,{zm,ym}}中的每一密文行为特征向量z1至zm中均包括对每一特征行为向量x1至xm和与其对应的m个随机非奇异逆矩阵中每一矩阵的乘积执行公钥pk加密获得的加密信息/>其中,i∈[1,2,…,m]用于表征数据集中行为特征向量的编号,以及与密文数据中每一特征向量相对应的随机非奇异矩阵或随机非奇异逆矩阵的编号,m为数据集中行为特征向量的数量,Encpk()为公钥pk的加密算法。
优选地,步骤2.1中请求令牌中包括采样i∈[1,2,…,s]下的第一信息、第二信息和第三信息,其中s<m;其中,第一信息中包括加密信息 更新前的神经网络训练模型的隐藏层计算矩阵的加密/>以及原始标签的加密;第二信息中包括更新前的神经网络训练模型的隐藏层计算矩阵的加密/>第三信息中包括更新前的神经网络训练模型的隐藏层计算矩阵与第二随机非奇异逆矩阵乘积的加密其中,t表征神经网络训练模型的更新次数。
优选地,步骤2.2中梯度信息的生成方式为:基于异地服务器中的私钥sk对请求令牌进行解密以获得解密数据,并从解密数据中提取解密后的当前神经网络训练模型和解密后的当前神经网络训练模型的输出,以及基于该数据计算当前神经网络模型的梯度信息。
优选地,步骤2.4中神经网络训练模型的生成或更新方式为:设置神经网络的分类精度门限,利用梯度信息更新神经网络训练模型,直到神经网络训练模型的分类精度满足门限,确认神经网络训练模型为θr={Wr (h),Wr (0)};其中,r为迭代次数,Wr (h)为在当前迭代次数时神经网络隐藏层的计算矩阵,Wr (0)为在当前迭代次数时神经网络输出层的计算矩阵。
优选地,步骤3中还包括:为行为特征向量数据生成数据集,采用更新后的神经网络训练模型进行训练,并更新数据集中的标签取值;利用数据集中的标签取值对行为特征向量数据进行分类,并基于分类判断虚拟化终端的异常行为。
本发明第二方面,涉及一种隐私保护机器学习的虚拟化终端异常检测系统,用于实现如本发明第一方面中所述的一种隐私保护机器学习的虚拟化终端异常检测方法,并且系统包括多个虚拟化终端、中心服务器和计算服务器,其中多个虚拟化终端基于中心服务器实现终端功能;中心服务器,用于基于采集的虚拟化终端的行为数据提取行为特征以生成行为特征向量,并基于实施可逆矩阵加密获得的密文数据生成并更新神经网络训练模型,以及对行为特征向量数据进行训练以获得虚拟化终端的异常行为检测结果。
优选地,中心服务器,用于基于密文数据生成请求令牌并将请求令牌发送至计算服务器,以及基于梯度信息生成神经网络训练模型,或基于梯度信息和更新前的神经网络训练模型实现神经网络训练模型的更新;计算服务器,用于对请求令牌进行解密以获得解密数据,并基于更新后的神经网络训练模型和解密数据生成训练模型的梯度信息,以及将训练模型的梯度信息返回至本地服务器中。
本发明的有益效果在于,与现有技术相比,本发明中一种隐私保护机器学习的虚拟化终端异常检测方法及系统,能够基于采集虚拟化终端的行为数据并建立特征向量,基于异地生成的神经网络训练模型对虚拟化终端的异常行为实现检测。本发明中的异常检测方法主要步骤简单、运算速度快,异常行为检测结果更为精确。
本发明的有益效果还包括:
1、本发明方法能够将神经网络训练模型的生成和更新过程外包至异地的计算服务器中,该计算服务器专门用于处理训练模型的生成和迭代运算,从而大幅地减少了位于本地的中心服务器内部的计算过程,使得中心服务器在虚拟化终端的异常检测过程中,能够集中运算能力处理方法中的主要步骤,提高了运算速率,减少了中心服务器的计算开销,保障了中心服务器中虚拟化终端的其他功能实现,以及本发明中算法所采用的数据和模型的有效性。另外,由于中心服务器的处理过程高效,能够快速识别虚拟化终端的异常行为,及时发现威胁或网络攻击,及时采取安全防护措施,从而降低相关损失。
2、本发明方法在将神经网络训练模型的生成和更新过程外包至异地的计算服务器的过程中,增加了对于中心服务器数据的加密和认证的过程。中心服务器和计算服务器之间采用生成令牌,以及公钥加密和私钥解密的方式实现设备身份的认证。行为数据还通过随机可逆矩阵、同态加密算法等多种方式实现加密。因此,本发明中能够采用半可信的计算服务器对加密后的行为数据进行运算,尽管计算过程是在异地的计算服务器中完成,但最终获得的数据集与训练模型对于计算服务器来说是不可见的,从而保障了数据与训练模型的安全性。
3、本发明方法将计算服务器生成的梯度信息传送回中心服务器,相对于直接传输整个更新的训练模型来说,不只增加了安全性,也使得数据内容更加简洁,便于提高运算效率,及时获取异常行为的检测结果。
附图说明
图1为本发明一种隐私保护机器学习的虚拟化终端异常检测方法的步骤流程示意图;
图2为本发明一种隐私保护机器学习的虚拟化终端异常检测方法中基于密文数据生成神经网络训练模型的步骤流程示意图;
图3为本发明一种隐私保护机器学习的虚拟化终端异常检测系统中的系统架构示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
图1为本发明一种隐私保护机器学习的虚拟化终端异常检测方法的步骤流程示意图。如图1所示,一种隐私保护机器学习的虚拟化终端异常检测方法,方法包括步骤1至步骤3。
步骤1,采集虚拟化终端的行为数据,并从行为数据中提取行为特征以生成行为特征向量。
具体来说,为了实现对虚拟化终端的异常检测,可以从每个虚拟化终端中采集与设备的安全状态高度相关的信息,本发明中,这类信息被称为虚拟化终端的行为数据。可以采集的行为数据包括设备CPU占用率、设备内存占用率、程序进程堆栈状态、系统调用频率、系统调用时序、应用层通讯流量的上传速率和下载速率、系统内核变量等不同的数据项。根据上述数据项所存储的数据内容的不同还可以进一步地将这些数据分为数值型和字符型。
优选地,虚拟化终端的行为数据包括数值类数据和字符类数据;其中,数值类数据包括虚拟化终端设备的CPU占用率、设备内存占用率、系统调用频率和设备的流量状态;字符类数据包括进程堆栈状态、系统调用时序和系统内核变量。
之所以进行类型的区分是因为中心服务器会对不同类型的数据采取不同的处理方式,以便最终生成行为特征向量。当虚拟化终端将上述数据分别传送至中心服务器中,具体来说,可以是中心服务器的数据处理模块后,中心服务器可以从这些行为数据中提取出数据特征。
优选地,对数值类数据进行平均值、最大值、方差、极差、偏度和峰度的计算,并将计算结果增加至行为特征向量中;对字符类数据进行word2vec处理以生成向量数据,并将向量数据增加至行为特征向量中。
具体来说,可以提取的特征包括以下内容:
设备CPU占用率的平均值方差Var(C)i、偏度Skew(C)i和峰度Kurt(C)i
设备内存占用率的平均值方差Var(M)i和极差R(M)i
系统调用频率的平均值方差Var(F)i和偏度Skew(F)i
流量状态的平均值方差Var(S)i、最大值Max(S)i和极差R(S)i
以word2vec方法实现的进程堆栈状态和系统调用时序两项数据的向量型数据转换,其生成的向量型数据为Vi
以word2vec方法实现的系统内核变量的向量型数据转换,其生成的向量型数据为keri
将从设备中获得的原始行为数据进行运算或向量转换后,生成的上述内容中的每一项都可以作为该设备行为特征向量中的一项内容。具体来说,生成的行为特征向量为其中,i可以为设备的行为特征向量中的编号。
上述方法中生成的行为特征向量可以用于加入到神经网络训练模型中,以对当前行为特征向量所对应的虚拟化终端的运行状态是否异常进行检测。
另外,可以从上述方法中生成的行为特征向量中截取一段历史数据,并将这一段历史数据用于预先生成神经网络的训练模型。具体来说,为了生成合适的训练模型,需要一定规模的数据量,例如可以设置数据集的规模为m,则有需要截取的历史行为数据的内容可以包括i∈[1,2,…,m]个行为特征向量中的相应数据。
步骤2,基于历史生成的行为特征向量,实施可逆矩阵加密以获得密文数据,并基于密文数据生成并更新神经网络训练模型。
优选地,为历史生成的行为特征向量增加标签以生成数据集{{x1,y1},...,{xm,ym}};其中,x1至xm为虚拟化终端的多个行为特征向量,y1至ym为行为特征向量x1至xm所对应的标签。该标签可以用于表征当前特征向量的状态,该状态包括“正常”或“异常”两种情况,可以分别用0或1进行表征。另外,m为选取历史生成的行为特征向量的范围,即数据集的规模。
具体来说,数据集中除了包括不同时间段截取的行为数据对应的行为特征向量之外,还包括每一个行为特征向量所对应的标签。本发明一实施例中,该标签最初可以为一个预先设定的值,也可以为根据本发明中的神经网络训练模型迭代训练得到的结果,该标签能够表征其对应的行为特征向量是异常还是正常的。
待生成数据集后,就可以将该数据集发送至计算服务器中,以使得计算服务器实现对训练模型的生成或更新。这一过程也在步骤2中实现。
优选地,利用公钥pk对数据集{{x1,y1},...,{xm,ym}}实施随机非奇异逆矩阵加密并获得密文数据{{z1,y1},...,{zm,ym}};并且,密文数据{{z1,y1},...,{zm,ym}}中的每一密文行为特征向量z1至zm中均包括对每一特征行为向量x1至xm和与其对应的m个随机非奇异逆矩阵中每一矩阵的乘积执行公钥pk加密获得的加密信息/>其中,i∈[1,2,…,m]用于表征数据集中行为特征向量的编号,以及与密文数据中每一特征向量相对应的随机非奇异矩阵或随机非奇异逆矩阵的编号,m为数据集中行为特征向量的数量,Encpk()为公钥pk的加密算法。
可以理解的是,为了实现中心服务器、计算服务器二者之间身份的认证和数据的安全传输,可以采用中心服务器储存公钥,计算服务器储存私钥的方式实现数据加解密。
为了将中心服务器中的行为数据预处理后发送给计算服务器,本发明使用随机非奇异矩阵加密的算法,利用公钥实现加密。
具体的,首先获取需要加密的数据集{{x1,y1},...,{xm,ym}}和中心服务器的公钥pk。本发明可以针对该数据集进行训练,也就是将该数据集作为本发明中算法的训练集。随后生成m个随机非奇异矩阵然后,生成该m个矩阵的逆矩阵
假设根据行为特征向量xi计算获取的密文数据为zi,可以记该密文内容 即可以将这一密文分为两段分别获取后再组合成一条密文。具体来说,第一部分的密文可以通过公式/>来进行计算,第二部分的密文可以通过公钥对特征行为向量和与每一特征行为向量对应的随机非奇异逆矩阵的乘积进行加密运算,具体公式为
加密后得到的密文,采用与上文中同样的方式生成数据集{{z1,y1},...,{zm,ym}}。在本发明中,这一数据集可以被称为密文数据或密文训练集。
优选地,基于密文数据生成神经网络训练模型还包括:基于本地服务器和异地服务器共同生成或更新神经网络训练模型。具体来说,本发明中将部分计算过程外包至了异地服务器中,从而节约了本地的计算资源,提高了计算速度和响应效率。
图2为本发明一种隐私保护机器学习的虚拟化终端异常检测方法中基于密文数据生成或更新神经网络训练模型的步骤流程示意图。如图2所示,本发明中生成或更新神经网络训练模型的方法还包括步骤2.1至步骤2.4。
步骤2.1,本地服务器基于密文数据生成请求令牌,并将请求令牌发送至异地服务器。
具体来说,本发明中为了大幅减小中心服务器的计算代价,提高中心服务器对数据的处理和响应效率,采用了将神经网络训练模型的部分功能外包至异地的计算服务器中进行。因此,为了实现训练模型的生成和更新,需要位于本地的中心服务器和位于异地的计算服务器同时执行计算过程。这就使得中心服务器中数据的安全性能难以保证,因此,本发明中采取基于密文数据生成请求令牌的方式,用请求令牌携带密文信息从而使异地的计算服务器可以有效验证令牌的来源并对密文进行接收和处理。
请求令牌在生成的过程中,可以在密文训练集{{z1,y1},...,{zm,ym}}中随机选取大小规模为s的训练集样本,其中s小于m,并使得i∈[1,2,…,s]。
优选地,步骤2.1中请求令牌中包括对m个行为特征向量中采样得到的i∈[1,2,…,s]个行为特征向量下的第一信息τ1、第二信息τ2和第三信息τ3,其中s<m;
其中,第一信息中包括加密信息更新前的神经网络训练模型的加密/>以及原始标签的加密E(yi)。
首先,加密信息是基于前序步骤中生成的,此处不再赘述。
其次,更新前的神经网络训练模型的加密,也就是在中心服务器中记录的初始的训练模型,或者是在上一时刻中心服务器中记录的待更新的训练模型。
通常来说,由于神经网络的训练模型作为分类器模型的一种,其通用的格式为其中,r表示迭代次数,Wr (h)表示在r次迭代完成时神经网络隐藏层的计算矩阵,Wr (0)表示r次迭代完成时神经网络输出层的计算矩阵。令牌中携带的数据/>表示当前迭代t次数t的前一次迭代时输出的神经网络隐藏层的计算矩阵。
第三,原始标签的加密E(yi)是基于Paillier(同态加密)算法以中心服务器的公钥pk实现的。
将第一信息中生成的三部分加密数据的内容进行联结就可以获得第一信息为另外,需要说明的是,因为在实际的算法执行过程中,需要不停的进行迭代以生成足够精确的模型,所以在算法最初的时候,可以先初始化τ1,例如设置/>即第一信息为空,并随着计算服务器不断的返回梯度信息而不断地更新改数据的内容。
第二信息中包括更新前的神经网络训练模型的隐藏层计算矩阵的加密 其中/>表示第(t-1)轮迭代输出的输出层计算矩阵;
第三信息中包括更新前的所述神经网络训练模型的隐藏层计算矩阵与第二随机非奇异逆矩阵乘积的加密
其中,需要定义一个随机非奇异矩阵其逆矩阵为/>
其中,用于表征该随机非奇异矩阵的生成方式,即该随机非奇异矩阵中的每一数据均来自由0至n个整数组成的b×b阶矩阵。
将生成的三项信息分别作为请求令牌中的一项数据,可以生成请求令牌为Token={τ1,τ2,τ3}。
将生成的请求令牌发送至异地的计算服务器,即可实现异地服务器对请求令牌中内容的运算和处理,这一过程具体在步骤2.2中执行。
步骤2.2,异地服务器对请求令牌进行解密以获得解密数据,并基于解密数据生成当前神经网络训练模型的梯度信息。
优选地,步骤2.2中梯度信息的生成方式为:基于异地服务器中的私钥sk对请求令牌进行解密以获得解密数据,并从解密数据中提取解密后的当前神经网络训练模型和解密后的当前神经网络训练模型的输出,以及基于该数据计算当前神经网络模型的梯度信息。
具体来说,可以对来自请求令牌中的数据进行获取,并选择其中第一信息的部分数据以分别执行解密。解密的过程需要使用来自计算服务器中记存储的私钥sk。经过私钥sk的解密算法获得的数据/>对应的解密数据为/> 这部分内容可以是对前文中记录的加密信息的解密结果。由于解密的过程不一定能够完全还原加密之前的数据内容,因此,这里采用xi′以对应于加密前的原始数据xi
同样的,数据的解密结果为/>其对应于原始的数据/>即更新前的神经网络训练模型中隐藏层的计算矩阵。
通过将从请求令牌中获取到的两项数据内容xi′和Wi(h)进行乘法运算,以求得解密算法还原出的当前模型在隐藏层的输出ui=Wi(h)·xi′。再根据当前模型在输出层的计算矩阵的加密还可以进一步地求出当前模型输出层的输出o′=τ2⊙h,其中h=(f(u1),…,f(ub)),f为激活函数,b为神经网络中隐藏层的节点个数,u1至ub分别为隐藏层在激活前的b个节点上的中间结果。
由于τ(3)中包含了当前模型生成的标签信息,采用新的模型获得的输出内容,即新标签会与其略有不同。根据公式不仅可以得到新旧标签之间的差别,而且可以将其与h的转置相乘,从而恢复出新模型和旧模型之间的差别。这一差别在本发明中被称为梯度信息。由于每一次训练模型的迭代过程都会与上一次训练模型的迭代具有略微的差别,因此可以将该差别记录为梯度,传送回中心数据库。这样的方式不仅保证了数据传输过程中的安全性,将传输数据的内容最小化,还可以在每一次迭代时都及时且充分的更新模型,并防止异地的计算服务器获取到完整的神经算法训练模型,从而保障了安全性。
具体来说,上述公式只是本发明方法中生成的一种梯度信息。另外两种梯度信息的计算公式分别为:/>其中γ是随机数,v=(-h1(1-h1),...,-hb(1-hb)),b为神经网络中隐藏层的节点个数,h1至hb分别为隐藏层输出的b个h的分量,以及/>
将上述梯度信息进行联结生成同时将一个请求令牌中采样i∈[1,2,…,s]下所有的梯度信息组合后,作为返回至中心服务器的数据内容,即本发明中的参数
步骤2.3,异地服务器将当前神经网络训练模型的梯度信息返回至本地服务器中。
这一步骤,也就是将步骤2.2中生成的参数 进行返回。在返回的过程中,由于上述数据内容,并不包含任何可以直接利用的有效信息,因此也可以不经过任何形式的加密就可以直接实现网络传输,并同时确保信息的安全性。具体的,在梯度信息的网络传输过程中,由于捕获到梯度信息的其他设备并不具有原始的训练模型,和原始的行为数据,因此也无法根据模型和数据对梯度信息执行运算,并得到有用的信息。
步骤2.4,本地服务器基于梯度信息和当前神经网络训练模型实现对当前神经网络训练模型的更新。
优选地,步骤2.4中神经网络训练模型的生成或更新方式为:设置神经网络的分类精度门限,利用梯度信息更新神经网络训练模型,直到神经网络训练模型的分类精度满足所述门限,确认神经网络训练模型为θr={Wr (h),Wr (0)},其中,r为迭代总次数,Wr (h)为经过r次迭代后最终得到的神经网络隐藏层的计算矩阵,Wr (0)为经过r次迭代后最终得到的神经网络输出层的计算矩阵。
梯度信息在返回中心服务器后,可以由中心服务器对其执行逆运算,即根据梯度信息的生成公式,还原出新旧训练模型的差别,并将梯度与旧模型之间进行求和计算,从而实现对训练模型的更新。至此,就完成了对训练模型的更新过程。
步骤3,基于神经网络训练模型,对行为特征向量数据进行训练以获得虚拟化终端的异常行为检测结果。
待实现了神经网络训练模型的生成和更新后,就可以使用最新的模型对行为特征向量数据进行训练了。
优选地,步骤3中还包括:为行为特征向量数据生成数据集,采用更新后的神经网络训练模型进行训练,并更新数据集中的标签取值;利用数据集中的标签取值对行为特征向量数据进行分类,并基于分类判断虚拟化终端的异常行为。
具体来说,生成数据集的过程与生成训练模型时使用的数据集类似。训练后生成的标签,可以更新数据集的内容。通常,根据数据集中行为特征向量是否异常,标签可以取值为0或1,并分别代表对应数据的正常或异常状态。虚拟化终端的异常行为检测结果就可以根据多个标签的取值而进行综合评估了。具体的评估过程可以参考现有技术中的常用方法,本文中对此不再赘述。
图3为本发明一种隐私保护机器学习的虚拟化终端异常检测系统中的系统架构示意图。如图3所示,本发明第二方面,涉及一种隐私保护机器学习的虚拟化终端异常检测系统,该系统用于实现如本发明第一方面中所述的一种隐私保护机器学习的虚拟化终端异常检测方法,并且系统包括多个虚拟化终端、中心服务器和计算服务器,其中多个虚拟化终端基于中心服务器实现终端功能;中心服务器,用于基于采集的虚拟化终端的行为数据提取行为特征以生成行为特征向量,并基于实施可逆矩阵加密获得的密文数据生成并更新神经网络训练模型,以及对行为特征向量数据进行训练以获得虚拟化终端的异常行为检测结果。
优选地,中心服务器,用于基于密文数据生成请求令牌并将请求令牌发送至计算服务器,以及基于梯度信息生成神经网络训练模型,或基于梯度信息和更新前的神经网络训练模型实现神经网络训练模型的更新;计算服务器,用于对请求令牌进行解密以获得解密数据,并基于更新后的神经网络训练模型和解密数据生成训练模型的梯度信息,以及将训练模型的梯度信息返回至本地服务器中。
本发明中的虚拟化终端异常检测方法和系统可以广泛地应用于多种情况中。例如,可以将该检测方法应用于对物联网中的虚拟化终端的威胁检测。
本发明的有益效果在于,与现有技术相比,本发明中一种隐私保护机器学习的虚拟化终端异常检测方法及系统,能够基于采集虚拟化终端的行为数据并建立特征向量,基于异地生成的神经网络训练模型对虚拟化终端的异常行为实现检测。本发明中的异常检测方法主要步骤简单、运算速度快,异常行为检测结果更为精确。
本发明的有益效果还包括:
1、本发明方法能够将神经网络训练模型的生成和更新过程外包至异地的计算服务器中,该计算服务器专门用于处理训练模型的生成和迭代运算,从而大幅地减少了位于本地的中心服务器内部的计算过程,使得中心服务器在虚拟化终端的异常检测过程中,能够集中运算能力处理方法中的主要步骤,提高了运算速率,减少了中心服务器的计算开销,保障了中心服务器中虚拟化终端的其他功能实现,以及本发明中算法所采用的数据和模型的有效性。另外,由于中心服务器的处理过程高效,能够快速识别虚拟化终端的异常行为,及时发现威胁或网络攻击,及时采取安全防护措施,从而降低相关损失。
2、本发明方法在将神经网络训练模型的生成和更新过程外包至异地的计算服务器的过程中,增加了对于中心服务器数据的加密和认证的过程。中心服务器和计算服务器之间采用生成令牌,以及公钥加密和私钥解密的方式实现设备身份的认证。行为数据还通过随机可逆矩阵、同态加密算法等多种方式实现加密。因此,本发明中能够采用半可信的计算服务器对加密后的行为数据进行运算,尽管计算过程是在异地的计算服务器中完成,但最终获得的数据集与训练模型对于计算服务器来说是不可见的,从而保障了数据与训练模型的安全性。
3、本发明方法将计算服务器生成的梯度信息传送回中心服务器,相对于直接传输整个更新的训练模型来说,不只增加了安全性,也使得数据内容更加简洁,便于提高运算效率,及时获取异常行为的检测结果。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (6)

1.一种隐私保护机器学习的虚拟化终端异常检测方法,其特征在于,所述方法包括以下步骤:
步骤1,采集虚拟化终端的行为数据,并从所述行为数据中提取行为特征以生成行为特征向量;
步骤2,基于历史生成的所述行为特征向量,实施可逆矩阵加密以获得密文数据,并基于密文数据更新神经网络训练模型;
步骤3,基于所述神经网络训练模型,对所述行为特征向量数据进行训练以获得所述虚拟化终端的异常行为检测结果;
所述基于密文数据更新神经网络训练模型还包括:基于本地服务器和异地服务器共同更新所述神经网络训练模型;其中,
步骤2.1,所述本地服务器基于所述密文数据生成请求令牌,并将所述请求令牌发送至异地服务器;
步骤2.2,所述异地服务器对所述请求令牌进行解密以获得解密数据,并基于所述解密数据生成当前神经网络训练模型的梯度信息;
步骤2.3,所述异地服务器将所述当前神经网络训练模型的梯度信息返回至本地服务器中;
步骤2.4,所述本地服务器基于所述梯度信息和当前神经网络训练模型实现对所述当前神经网络训练模型的更新;
为历史生成的所述行为特征向量增加标签以生成数据集
{{x1,y1},...,{xm,ym}};
其中,x1至xm为所述数据集中虚拟化终端的行为特征向量,
y1至ym为行为特征向量x1至xm所对应的标签,
m为选取历史生成的所述行为特征向量的范围,即所述数据集的规模;
利用公钥pk对所述数据集{{x1,y1},...,{xm,ym}}实施随机非奇异逆矩阵加密并获得密文数据{{z1,y1},...,{zm,ym}};
并且,所述密文数据{{z1,y1},...,{zm,ym}}中的每一密文行为特征向量z1至zm中均包括对每一所述行为特征向量x1至xm和与其对应的m个随机非奇异逆矩阵中每一矩阵的乘积执行公钥pk加密获得的加密信息/>xi),
其中,i∈[1,2,…,m]用于表征数据集中行为特征向量的编号,以及与密文数据中每一行为特征向量相对应的随机非奇异矩阵或随机非奇异逆矩阵的编号,m为所述数据集中行为特征向量的数量,Encpk()为公钥pk的加密算法;
所述步骤2.1中所述请求令牌中包括采样i∈[1,2,…,s]下的第一信息、第二信息和第三信息,其中s<m;
其中,所述第一信息中包括所述加密信息更新前的所述神经网络训练模型的隐藏层计算矩阵的加密/>以及原始标签的加密;
第二信息中包括更新前的所述神经网络训练模型的输出层计算矩阵的加密
第三信息中包括更新前的所述神经网络训练模型的输出层计算矩阵与第二随机非奇异逆矩阵乘积的加密
其中,t表征所述神经网络训练模型的更新次数;
所述步骤2.2中所述梯度信息的生成方式为:
基于所述异地服务器中的私钥sk对所述请求令牌进行解密以获得解密数据,并从所述解密数据中提取解密后的当前神经网络训练模型和解密后的所述当前神经网络训练模型的输出,以及基于所述解密数据计算当前神经网络模型的梯度信息;
所述步骤2.4中神经网络训练模型的生成或更新方式为:
设置神经网络的分类精度门限,利用梯度信息更新所述神经网络训练模型,直到所述神经网络训练模型的分类精度满足所述门限,确认所述神经网络训练模型为θr={Wr (h),Wr (0)};
其中,r为迭代次数,
Wr (h)为在当前迭代次数时神经网络隐藏层的计算矩阵,
Wr (0)为在当前迭代次数时神经网络输出层的计算矩阵。
2.根据权利要求1中所述的一种隐私保护机器学习的虚拟化终端异常检测方法,其特征在于:
所述虚拟化终端的行为数据包括数值类数据和字符类数据;其中,
所述数值类数据包括虚拟化终端设备的CPU占用率、虚拟化终端设备内存占用率、系统调用频率和设备的流量状态;
所述字符类数据包括进程堆栈状态、系统调用时序和系统内核变量。
3.根据权利要求2中所述的一种隐私保护机器学习的虚拟化终端异常检测方法,其特征在于:
对所述数值类数据进行平均值、最大值、方差、极差、偏度和峰度的计算,并将计算结果增加至所述行为特征向量中;
对所述字符类数据进行word2vec处理以生成向量数据,并将所述向量数据增加至所述行为特征向量中。
4.根据权利要求3中所述的一种隐私保护机器学习的虚拟化终端异常检测方法,其特征在于:
所述步骤3中还包括:
为所述行为特征向量数据生成数据集,采用更新后的神经网络训练模型进行训练,并更新所述数据集中的标签取值;
利用所述数据集中的标签取值对所述行为特征向量数据进行分类,并基于所述分类判断所述虚拟化终端的异常行为。
5.一种隐私保护机器学习的虚拟化终端异常检测系统,其特征在于:
用于实现如权利要求1-4中所述的一种隐私保护机器学习的虚拟化终端异常检测方法,并且所述系统包括多个虚拟化终端、中心服务器和计算服务器,其中所述多个虚拟化终端基于所述中心服务器实现终端功能;
所述中心服务器,用于基于采集的虚拟化终端的行为数据提取行为特征以生成行为特征向量,并基于实施可逆矩阵加密获得的密文数据生成并更新神经网络训练模型,以及对所述行为特征向量数据进行训练以获得所述虚拟化终端的异常行为检测结果。
6.根据权利要求5中所述的一种隐私保护机器学习的虚拟化终端异常检测系统,其特征在于:
所述中心服务器,用于基于所述密文数据生成请求令牌并将所述请求令牌发送至计算服务器,以及基于梯度信息生成所述神经网络训练模型,或基于所述梯度信息和更新前的神经网络训练模型实现所述神经网络训练模型的更新;
所述计算服务器,用于对所述请求令牌进行解密以获得解密数据,并基于更新后的所述神经网络训练模型和所述解密数据生成训练模型的梯度信息,以及将所述训练模型的梯度信息返回至中心服务器中。
CN202110545260.7A 2021-05-19 2021-05-19 一种隐私保护机器学习的虚拟化终端异常检测方法及系统 Active CN113221144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110545260.7A CN113221144B (zh) 2021-05-19 2021-05-19 一种隐私保护机器学习的虚拟化终端异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110545260.7A CN113221144B (zh) 2021-05-19 2021-05-19 一种隐私保护机器学习的虚拟化终端异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN113221144A CN113221144A (zh) 2021-08-06
CN113221144B true CN113221144B (zh) 2024-05-03

Family

ID=77093000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110545260.7A Active CN113221144B (zh) 2021-05-19 2021-05-19 一种隐私保护机器学习的虚拟化终端异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN113221144B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528564A (zh) * 2022-01-25 2022-05-24 河南大学 基于密文特征的通用密码算法识别方法
CN115225536B (zh) * 2022-06-17 2024-02-27 上海仪电(集团)有限公司中央研究院 一种基于无监督学习的虚拟机异常检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN110086776A (zh) * 2019-03-22 2019-08-02 国网河南省电力公司经济技术研究院 基于深度学习的智能变电站网络入侵检测系统及检测方法
CN111181901A (zh) * 2018-11-09 2020-05-19 财团法人资讯工业策进会 异常流量检测装置及其异常流量检测方法
CN111461309A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 实现隐私保护的更新强化学习系统的方法及装置
CN111935127A (zh) * 2020-08-05 2020-11-13 湖南匡楚科技有限公司 一种云计算中恶意行为检测识别及安全加密装置
CN112052950A (zh) * 2020-08-24 2020-12-08 北京达佳互联信息技术有限公司 神经网络训练方法、模型计算服务器及存储介质
CN112165484A (zh) * 2020-09-25 2021-01-01 国家计算机网络与信息安全管理中心 基于深度学习与侧信道分析的网络加密流量识别方法装置
CN112199702A (zh) * 2020-10-16 2021-01-08 鹏城实验室 一种基于联邦学习的隐私保护方法、存储介质及系统
CN112231060A (zh) * 2020-10-19 2021-01-15 南开大学 一种基于虚拟化平台的虚拟机异常行为检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3681124B8 (en) * 2019-01-09 2022-02-16 British Telecommunications public limited company Anomalous network node behaviour identification using deterministic path walking

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181901A (zh) * 2018-11-09 2020-05-19 财团法人资讯工业策进会 异常流量检测装置及其异常流量检测方法
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN110086776A (zh) * 2019-03-22 2019-08-02 国网河南省电力公司经济技术研究院 基于深度学习的智能变电站网络入侵检测系统及检测方法
CN111461309A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 实现隐私保护的更新强化学习系统的方法及装置
CN111935127A (zh) * 2020-08-05 2020-11-13 湖南匡楚科技有限公司 一种云计算中恶意行为检测识别及安全加密装置
CN112052950A (zh) * 2020-08-24 2020-12-08 北京达佳互联信息技术有限公司 神经网络训练方法、模型计算服务器及存储介质
CN112165484A (zh) * 2020-09-25 2021-01-01 国家计算机网络与信息安全管理中心 基于深度学习与侧信道分析的网络加密流量识别方法装置
CN112199702A (zh) * 2020-10-16 2021-01-08 鹏城实验室 一种基于联邦学习的隐私保护方法、存储介质及系统
CN112231060A (zh) * 2020-10-19 2021-01-15 南开大学 一种基于虚拟化平台的虚拟机异常行为检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于半监督宽度学习的恶意用户识别策略研究;刘西泽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215(第02期);I139-180 *
工业控制网络的异常检测方法研究;唐雨;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715(第07期);I138-50 *
网络未知攻击检测的深度学习方法;狄冲, 李桐;《信息网络安全》;20200610;第56卷(第22期);109-116 *

Also Published As

Publication number Publication date
CN113221144A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
EP3562087B1 (en) High-throughput privacy-friendly hardware assisted machine learning on edge nodes
EP3270321B1 (en) Technique for securely performing an operation in an iot environment
CN113221144B (zh) 一种隐私保护机器学习的虚拟化终端异常检测方法及系统
Dutta et al. Generative adversarial networks in security: A survey
CN104657665B (zh) 一种文件处理方法
CN109155774A (zh) 用于检测安全威胁的系统和方法
Biswas et al. Botnet traffic identification using neural networks
CN112182614B (zh) 一种动态Web应用防护系统
CN113872943A (zh) 网络攻击路径预测方法及装置
Han et al. PPM-InVIDS: Privacy protection model for in-vehicle intrusion detection system based complex-valued neural network
Tayyab et al. A comprehensive review on deep learning algorithms: Security and privacy issues
CN110674941A (zh) 基于神经网络的数据加密传输方法及系统
Shafee et al. Privacy attacks against deep learning models and their countermeasures
CN113225331A (zh) 基于图神经网络的主机入侵安全检测方法、系统及装置
Mathane et al. Predictive analysis of ransomware attacks using context-aware AI in IoT systems
CN117527265B (zh) 基于分布式数字身份的物联网数据采集系统及方法
Sultan et al. A novel image-based homomorphic approach for preserving the privacy of autonomous vehicles connected to the cloud
US10853457B2 (en) System and method for program security protection
CN117134993A (zh) 基于可累加承诺验证的检索密文可检测方法及设备
CN110619229A (zh) 基于神经网络拆分的数据加密传输方法及系统
Kucuk et al. BigBing: Privacy-Preserving Cloud-Based Malware Classification Service.
Sharma et al. Deep learning applications in cyber security: a comprehensive review, challenges and prospects
Ucci et al. Near-real-time anomaly detection in encrypted traffic using machine learning techniques
Peng et al. A Survey of Security Protection Methods for Deep Learning Model
Maurya et al. Privacy Preservation in Federated Learning: its Attacks and Defenses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant