CN110740111A - 一种数据防漏方法、装置及计算机可读存储介质 - Google Patents

一种数据防漏方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110740111A
CN110740111A CN201810798582.0A CN201810798582A CN110740111A CN 110740111 A CN110740111 A CN 110740111A CN 201810798582 A CN201810798582 A CN 201810798582A CN 110740111 A CN110740111 A CN 110740111A
Authority
CN
China
Prior art keywords
characteristic information
sample
data
output
data leakage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810798582.0A
Other languages
English (en)
Other versions
CN110740111B (zh
Inventor
张译丹
曾瑞
邵波
杨敬巍
王敬尧
全凯巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Heilongjiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Heilongjiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Heilongjiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810798582.0A priority Critical patent/CN110740111B/zh
Publication of CN110740111A publication Critical patent/CN110740111A/zh
Application granted granted Critical
Publication of CN110740111B publication Critical patent/CN110740111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Abstract

本发明公开了一种数据防漏方法,包括:获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。本发明还公开了一种数据防漏装置和计算机可读存储介质。

Description

一种数据防漏方法、装置及计算机可读存储介质
技术领域
本发明涉及信息安全技术领域,尤其涉及一种数据防漏方法、装置及计算机可读存储介质。
背景技术
目前,较为成熟的数据泄露防护(Data leakage prevention,DLP)实现技术包括基础检测技术、高级检测技术和动态检测的方法。
1、基础检测技术
基础检测技术主要有正则表达式检测、关键字检测、文档属性检测三种方式。正则表达式检测方式和关键字检测方式主要用于内容的搜索和匹配,这两种方式只能对明确的敏感信息内容进行检测,也就是说能检测出的数据都需要事先定义好,文档属性检测方式主要是对文档的属性如类型、大小、名称等进行检测。
2、高级检测技术
高级检测技术主要有精确数据比对(Exact Data Matching,EDM)指纹文档比对(Indexed Document Matching,IDM)、向量分类比对(Support Vector Machine,SVM)三种方式。EDM主要是对结构化的数据,如姓名、身份证号等进行精确的比对检测,其能够检测的数据和规则是需要事先定义好的。IDM、SVM主要针对非结构化数据进行检测,IDM技术通过对已知文档的学习和训练生成文档的指纹模型,与被检查文档的指纹模型进行比对,根据预设的相似度去判断被检测文档是否存在敏感信息。SVM则是通过比对算法将被检测文档按内容进行细化的分类,与已知的文档类别进行比对,确定被测文档的分类,从而判断是否存在敏感信息。
基础检测技术和高级检测技术均是通过预设的规则实现的,属于静态检测技术。
3、动态检测方法
近两年,也有一些研究者提出了动态检测的方法。在专利《一种数据动态防泄漏系统及方法》(申请公布号CN106446707A)中,就提出了一种针对数据内容的动态检测方法,其通过制定数据过滤规则文件,根据数据内容的敏感级别动态的控制不同级别的外发保护措施,此方案相对于上述的静态检测技术更为准确和灵活;在专利《一种数据动态防泄漏与预警方法及系统》(申请公布号CN107302520A)中,提出了一种基于用户行为和机器学习的动态数据防泄漏方法,该方法通过将用户的行为特征作为输入,通过有监督的机器学习计算识别潜在可疑用户行为并预警,此方案较传统技术提高了系统的学习、适应能力。
现有产品所采集的原始数据的维度较为局限,即使是动态检测方法,也只是单一的针对数据内容或用户行为本身的这个维度,而忽略了两者的关联分析以及其他维度的数据,导致其只是在其预设的简单场景中是准确有效的,而实际场景往往非常复杂,会产生较多的误报或漏报。
因此,亟需一种数据防漏的技术方案,能够提高用户行为分析的准确性,尤其针对复杂的应用场景,有效降低误报率。
发明内容
有鉴于此,本发明实施例希望提供一种数据防漏的方法、装置及计算机可读存储介质,能够提高用户行为分析的准确性,尤其针对复杂的应用场景,有效降低误报率。
本发明实施例的技术方案是这样实现的:
一方面,本发明实施例提供一种数据防漏方法,所述方法包括:
获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;
将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;
根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
上述方案中,所述第一输出包括所述第一数据泄露分析网络中各输出节点输出的各事件类型对应的子输出,相应地,所述根据所述第一输出确定所述操作行为的第一事件级别包括:
根据所述各事件类型对应的子输出确定所述操作行为的事件类型和对应所述事件类型的事件级别。
上述方案中,所述方法还包括:
获取至少两个操作行为的行为向量,所述至少两个操作行为为具有固定周期的相同事件类型的操作行为;所述行为向量为所述第一数据泄露分析网络以所述操作行为作为输出时输出节点的输入向量;
将所述至少两个操作行为的行为向量作为第二数据泄露分析网络的输入,得到所述第二数据泄露分析网络输出的第二输出,所述第二数据泄露分析网络为采用反向传播神经网络算法的针对多操作行为的数据泄露分析模型;
根据所述第二输出确定所述操作行为的第二事件级别,所述第二事件级别表征所述至少两个操作行为对操作数据所构成的危险等级。
上述方案中,所述方法还包括:
建立第一初始模型和第二初始模型;所述第一初始模型和所述第二初始模型的隐藏层的节点的数量不同;
通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练,得到第一分析模型和所述第二分析模型;所述混合样本集包括标记样本集和未标记样本集;
根据所述第一分析模型和所述第二分析模型确定所述第一数据泄露分析网络。
上述方案中,所述通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练包括:
从所述标记样本集中抽取样本确定第一标记样本集和第二标记样本集;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第二标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第二标记样本集对所述第一初始模型进行更新;
基于所述第二标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第一标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第一标记样本集对所述第二初始模型进行更新;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,直到满足设定的迭代条件。
上述方案中,所述基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本包括:
分别将未标记样本集中的未标记样本作为所述第一初始模型的输入,得到各未标记样本对应的样本输出;
分别通过各未标记样本和各标记样本对应的样本输出对所述第一初始模型进行训练,得到各未标记样本对应的第一标记模型;
通过以下公式计算各未标记样本的置信度:
Figure BDA0001736544240000041
其中,Δu为未标记样本u的置信度,|L|为第一标记样本集L中标记样本的个数,xi为第i个标记样本,yi为第i个标记样本xi的样本输出;h(xi)为将xi作为第一初始模型的输入时对应的样本输出,h`(xi)为将xi作为第一标记模型的输入时对应的样本输出;
将置信度最高的未标记样本作为所述转移标记样本。
上述方案中,所述设定的迭代条件至少包括以下条件之一:
迭代的次数为设定的迭代次数;
未标记样本集为空;
为标记样本集中各未标记样本的置信度都小于0。
另一方面,本发明实施例提供一种数据防漏装置,所述装置包括:获取模块、第一分析模块和确定模块;其中,
所述获取模块,用于获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;
所述第一分析模块,用于将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;
所述确定模块,用于根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
又一方面,本发明实施例提供一种数据防漏装置,该数据防漏装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述的数据防漏方法的步骤。
再一方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据防漏方法的步骤。
本发明实施例的数据防漏方法、装置及计算机可读存储介质,获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。从而建立多维度的用户行为特征体系可适应实际的复杂环境,能够有效提升分析结果的准确性,降低现有方法的误报率。
附图说明
图1为本发明实施例一提供的一种数据防漏方法的流程示意图;
图2为本发明实施例二提供的一种BP神经网络的网络结构示意图;
图3为本发明实施例二提供的第一数据防漏网络的网络结构示意图;
图4为本发明实施例二提供的第二数据防漏网络的网络结构示意图
图5为本发明实施例四提供的数据防漏方法的逻辑分层果示意图;
图6为本发明实施例四提供的采集层的所采集的事件属性示意图;
图7为本发明实施例五提供的一种数据防漏装置结构示意图;
图8为本发明实施例五提供的另一种数据防漏装置的结构示意图;
图9为本发明实施例六提供的一种数据防漏装置的结构示意图。
具体实施方式
在本发明实施例中,获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为针对单条操作行为的数据泄露分析模型;根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
下面结合附图对技术方案的实施作进一步的详细描述。
实施例一
本发明实施例提供一种数据防漏方法,如图1所示,所述方法包括:
S101、获取操作行为的特征信息;
当终端检测到用户的访问数据的操作行为时,从多个维度对用户的操作行为进行采集,包括:时间、空间、操作者、目标数据等多个维度,得到多个维度的特征信息,所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;其中,对象特征信息表征操作用户的身份信息,比如:岗位性质、岗位类型、岗位状态、账号类型等;时间特征信息表征操作的时间,比如:操作时段、操作周期等;场景特征信息表征行为的发生环境,比如:操作网络环境、操作地域等;方式特征信息表征操作行为的操作方式,比如:主机操作、下载、复制、打印等;项目特征信息表征操作行为发生的原因,比如:工单流程、金库审批等;数据特征信息表征操作行为对应的操作数据的信息,比如:名称、大小、敏感等级、数据类别等。
这里,在确定数据特征信息时,还可通过DLP对操作行为对应的操作数据进行特征提取,比如:使用EDM、IDM技术进行敏感数据的发现、使用SVM技术对数据业务类别进行分类等关联操作、使用动态检测方法对所访问的数据敏感程度进行分级等。
S102、将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;
确定用户的操作行为的特征信息后,将每个特征信息输入第一数据泄露分析网络的一个输入元,得到第一数据分析网络的第一输出。这里,所述第一数据泄露分析网络为采用反向传播(Back Propagation,BP)神经网络算法的针对单条操作行为的数据泄露分析模型,其中,这里的针对单条操作行为指的是,同时输入第一数据分析网络的特征信息为一个操作行为的特征信息。
第一数据泄露分析网络包括输入层、一层或多层隐藏层以及输出层,其中,输入层的各节点和隐藏层的各节点连接,隐藏层的各节点和输出层的各节点连接。且各节点之间连接所权值不同。
各特征信息作为输入层的输入元输入,从输入层经过隐含层的逐层处理最终传递到输出层,每个节点的输出值是根据上层所有节点的输出值、权值和当前节点的阀值以及激活函数计算得到的。
在一实施例中,所述方法还包括:建立第一初始模型和第二初始模型;所述第一初始模型和所述第二初始模型的隐藏层的节点的数量不同;通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练,得到第一分析模型和所述第二分析模型;所述混合样本集包括标记样本集和未标记样本集;根据所述第一分析模型和所述第二分析模型确定所述第一数据泄露分析网络。
这里,第一初始模型h1和第二初始模型h2为第一数据泄露分析网络的训练过程中构建的初始模型,第一初始模型h1和第二初始模型h2中隐藏层的层数相同,相同层数的节点不同。比如:隐藏层为都一层时,第一初始模型h1的隐藏层的节点为n1,第二初始模型h2的隐藏层的节点为n2。确定n1和n2后,给输入层到隐藏层、隐藏层到输出层的权值分别赋值一个[-1,1]的随机数,并初始化激活函数
Figure BDA0001736544240000081
建立第一初始模型h1和第二初始模型h2
通过混合样本集对第一初始模型h1和第二初始模型h2的训练得到第一分析模型h`1和第二分析模型h`2,将第一分析模型h`1和/或第二分析模型作h`2为第一数据泄露分析网络。当第一数据泄露分析模型包括第一分析模型h`1和第二分析模型h`2时,将第一分析模型和第二分析模型的输出值取均值作为第一数据泄露分析模型的输出,第一数据泄露分析模型
Figure BDA0001736544240000082
混合样本集中的标记样本集L={(x1,y1)…(x|L|,y|L|)}的(xi,yi)中xi和yi分表表示标记样本的样本输入和样本输出,未标记样本集U={x`1…x`|U|}的x`j表示未标记样本的样本输入,其中,1≤i≤|L|,1≤j≤|U|,|L|为标记样本集L中标记样本的个数,|U|为未标记样本集U中未标记样本的个数。xi和x`j分别d维的数据对象,包括有d维的特征信息。
在一实施例中,所述通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练包括:
S1、从所述标记样本集中抽取样本确定第一标记样本集和第二标记样本集;
S2、基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第二标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第二标记样本集对所述第一初始模型进行更新;
S3、基于所述第二标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第一标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第一标记样本集对所述第二初始模型进行更新;
S4、基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,直到满足设定的迭代条件。
这里,在S4中,基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,重复执行S2通过更新的第二标记样本集对第一初始模型进行更新和S3通过更新的第一标记样本集对第一初始模型进行更新,对第一初始模型和第二初始模型轮流进行训练,直到满足设定的迭代条件。
其中,第一标记样本可记为L1,第二样本标记记为L2,L1和L2为从L中分别随机选取出两个完全独立数据集;设定最大迭代次数T。
在一实施例中,所述基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本包括:
分别将未标记样本集中的未标记样本作为所述第一初始模型的输入,得到各未标记样本对应的样本输出;
分别通过各未标记样本和各标记样本对应的样本输出对所述第一初始模型进行训练,得到各未标记样本对应的第一标记模型;
通过公式1计算各未标记样本的置信度:
Figure BDA0001736544240000091
其中,Δu为未标记样本u的置信度,|L|为第一标记样本集L中标记样本的个数,xi为第i个标记样本,yi为第i个标记样本xi的样本输出;h(xi)为将xi作为第一初始模型的输入时对应的样本输出,h`(xi)为将xi作为第一标记模型的输入时对应的样本输出;
将置信度最高的未标记样本作为所述转移标记样本。
这里,当将xi作为第一初始模型的输入时,|L|为|L1|,h(xi)为h1(xi),h`(xi)为h`1(xi)。
同理,所述基于所述第二标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本包括:
分别将未标记样本集中的未标记样本作为所述第二初始模型的输入,得到各未标记样本对应的样本输出;
分别通过各未标记样本和各标记样本对应的样本输出对所述第二初始模型进行训练,得到各未标记样本对应的第二标记模型;
通过公式2计算各未标记样本的置信度:
Figure BDA0001736544240000101
其中,Δu为未标记样本u的置信度,|L2|为第二标记样本集L2中标记样本的个数,xi为第i个标记样本,yi为第i个标记样本xi的样本输出;h(xi)为将xi作为第二初始模型的输入时对应的样本输出,h`(xi)为将xi作为第二标记模型的输入时对应的样本输出;这里,当将xi作为第二初始模型的输入时,公式2中的h(xi)为h2(xi),h`(xi)为h`2(xi)。
将置信度最高的未标记样本作为所述转移标记样本
在一实施例中,设定的迭代条件至少包括以下条件之一:
迭代的次数为设定的迭代次数;
未标记样本集为空;
为标记样本集中各未标记样本的置信度都小于0。
S103、根据所述各第一输出确定所述操作行为的第一事件级别。
所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
在一实施例中,所述第一输出包括所述第一数据泄露分析网络中各输出节点输出的各事件类型对应的子输出,相应地,所述根据所述第一输出确定所述操作行为的第一事件级别包括:根据所述各事件类型对应的子输出确定所述操作行为的事件类型和对应所述事件类型的事件级别。
第一数据泄露分析网络的输出层中不同的输出节点对应不同的事件类型。不同的事件类型表征不同层次的事件,可包括:网络层事件、主机层事件、应用层事件、终端层事件等事件类型,其中,网络层事件:可包括企业核心数据通过网络边界(邮件、Web或Ftp等)外发或私自绕过内网安全审计系统直接登录主机等事件;主机层事件可为发生在服务器、数据库等企业核心数据的未授权的增删改查等事件;应用层事件为通过Web界面或应用接口调用等对企业核心数据的未授权增删改查等事件;终端层事件为对企业核心数据未授权的下载、U盘拷贝等事件。
每一输出节点的子输出的不同值对应不同的事件等级,其中,事件等级的划分、子输出的值与事件等级之间的对应关系可根据实际需求进行设定,比如,事件等级包括四级等级,危险等级由低到高分别为:0级事件、1级事件、2级事件、3级事件,当子输出为0至0.25时,表征0级事件,当子输出为0.25至0.5时,表征1级事件,当子输出为0.5-0.75时,表征2级事件,当子输出为0.75至1时,表征3级事件。其中,0级事件可表征此类事件类型的正常操作,比如:已授权或工作职责范围内的少量核心数据的查询操作,也可表征为非此事件类型的操作;1级事件可表征未授权的少量核心数据中危操作或已授权的批量核心数据中危操作;2级事件可表征未授权的少量核心数据高危操作或已授权的批量核心数据高危操作;3级事件可表征未授权的核心数据批量操作。当输出层包括3个节点,分别表征第一事件类型、第二事件类型、第三事件类型时,第一个节点的子输出的值为0.3,第二节点的子输出为0.1,第三节点的子输出为0.1,则可确定当前第一数据泄露分析模型所输入的特征信息所属的操作行为为事件等级为1级事件的第一事件类型的事件。
需要说明的是,一个操作行为可包括多个节点的子输出,此时,该操作行为同时属于多个不同的事件类型,且每个子输出的值表征对应事件类型的事件等级。比如,同上例,当输出层包括3个节点,分别表征第一事件类型、第二事件类型、第三事件类型时,第一个节点的子输出的值为0.1,第二节点的子输出的值为0.3,第三节点的子输出的值为0.2,则可确定当前第一数据泄露分析模型所输入的特征信息所属的操作行为为事件等级为0级事件的第一事件类型的事件,0级事件的第三事件类型的事件,同时也为事件等级为1级事件的第二事件类型的事件。
这里,操作行为的事件类型可包括根据同一维度进行分类的多个事件类型,也可包括不同的维度进行分类的多个事件类型。因此,一个操作行为可以同时对应多个事件类型,且当一个操作行为的输出为某类事件类型的0级事件时,该操作行为可能为此事件类型的正常操作,也可能为非此类事件类型。
当确定操作行为的事件等级时,可针对不同的事件等级采取不同的处置策略,比如:针对1级事件,进行一次邮件告警,针对2级事件,以1小时为周期进行一次告警,针对3级事件,以1分钟为周期进行一次告警。
本发明实施例中对事件等级的划分,以及不同事件等级的处置策略不进行任何限制。
在一实施例中,所述方法还包括:获取至少两个操作行为的行为向量,所述至少两个操作行为为具有固定周期的相同事件类型的操作行为;所述行为向量为所述第一数据泄露分析网络以所述操作行为作为输出时输出节点的输入向量;将所述至少两个操作行为的行为向量作为第二数据泄露分析网络的输入,得到所述第二数据泄露分析网络输出的第二输出,所述第二数据泄露分析网络为采用反向传播神经网络算法的针对多操作行为的数据泄露分析模型;根据所述第二输出确定所述操作行为的第二事件级别,所述第二事件级别表征所述至少两个操作行为对操作数据所构成的危险等级。
这里,针对多操作行为指的是,同时输入第二数据分析网络的特征信息为多个操作行为的特征行为向量。
这里,具有固定周期的相同事件类型的操作行为为同类型的操作行为,且各操作行为之间的时间周期为固定周期。比如:操作行为1至n都为员工A的访问同一路径的操作行为,且该操作行为的发生时间为每天的同一时间,即每个操作行为之间的时间周期为24小时。
固定周期为灵活定义的时间段和频率,也可按需定义为每次、每分钟、每小时、每天、每周、每月等。在泄露事件分析时,引入周期性的操作行为,通过时间周期分析就发现可能存在的异常,从而能够分析出单看一条操作时是正常的,但实际可能为具有一定危险的事件,例如,某具有查询权限的员工每间隔一段时间查询少量数据,单从一条操作看,该事件只是一个普通事件,而如果通过连续时间周期的分析,就是一个中危、甚至高危事件了。
在本发明实施例中,获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。从而建立多维度的用户行为特征体系可适应实际的复杂环境,能够有效提升分析结果的准确性,降低现有方法的误报率。
实施例二
在本发明实施例中,对本发明实施例一提供的数据防漏方法中的数据防漏分析网络进行进一步描述。
本发明实施例中的第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型。BP神经网络是一种采用误差逆转传播算法进行训练的多层前馈网络,一个BP神经网络包含1层输入层、n层隐含层和1层输出层。图2为一个简单的BP神经网络示意图,隐藏层为1层。其中,其中,Vih为第i个输入层神经元对第h个隐藏层神经元的权重,Whj为第h个隐藏层神经元对第j个输出层神经元的权重。这里,一个节点对应一个神经元。阈值γh为第h个隐藏层神经元的阈值,阈值θj为第j个输出层神经元的阈值。
BP神经网络的计算过程分为正向传播过程和反向传播过程。其正向传播过程是从输入层经过隐含层的逐层处理最终传递到输出层,每个节点的输出值是根据上层所有节点的输出值、权值和当前节点的阀值以及激活函数计算得到的。如果输出层没有得到期望的输出,则转向反向传播过程,通过反复的调整各神经元的权值和阀值,使误差信号降到最小。
其中,图2所示的三层的BP神经网络就可以完成任意的N维到M维的映射。而传统的多元非线性回归问题解决方法往往需要很大的计算量,随着输入变量的增加计算量会剧增,且最优回归曲线的选取也较为困难。因此,本发明实施例中的BP神经网络作为我们的分析模型,能够降低问题的复杂程度、有效解决海量数据集多元非线性回归计算的效率问题,同时,具有更强的学习能力和自适应能力。
第一数据防漏分析网络的输入为多维度的特征信息,从而基于多维度的用户操作行为来分析数据泄露问题的。这里,建立一套基于用户行为的多维度的特征体系,将每个维度的特征作为BP神经网络模型的输入进行分析。多维用户行为特征体系可基于5W1H模型建立的,包含对象特征信息Who、时间特征信息When、场景特征信息Where、方式特征信息What、项目特征信息Why、数据特征信息How,用于数据泄露分析的多维用户行为特征体系可如表1所示,6个维度包含15个子维度。
表1多维用户行为特征体系示例
Figure BDA0001736544240000141
Figure BDA0001736544240000151
在实际应用中,定义的子维度也可根据企业自身的特点进行增加、删除或重定义,使模型更适应所分析的环境,达到更准确的分析效果。
第一数据防漏分析网络的输出根据所对应的输出层的节点不同,对应不同的事件类型,这里,操作行为的事件类型按不同的层次分为:网络层事件、主机层事件、应用层事件、终端层事件四个大类。
1、网络层事件:主要包含企业核心数据通过网络边界(邮件、Web或Ftp等)外发或私自绕过内网安全审计系统直接登录主机等事件;
2、主机层事件:主要包含存储在服务器、数据库等上的企业核心数据的未授权的增删改查等事件;
3、应用层事件:主要包含通过Web界面或应用接口调用等对企业核心数据的未授权增删改查等事件;
4、终端层事件:主要含对企业核心数据未授权的下载、U盘拷贝等事件。
在泄露事件分析时,除了对单条操作行为的分析,还基于时间周期对多个操作行为进行分析。在现有的DLP技术中均只对单次操作进行审计,而往往存在一些操作,单看一条操作时是正常的,但通过时间周期分析就会发现异常,例如,某具有查询权限的员工每间隔一段时间查询少量数据,单从一条操作看,该事件只是一个普通事件,而如果通过连续时间周期的分析,就是一个中危、甚至高危事件了。这里的时间周期可以灵活定义为任何你认为可疑的时间段和频率,也可按需定义为每次、每分钟、每小时、每天、每周、每月等。
这里,将每类事件类型的危险等级分为四级:0级事件、1级事件、2级事件、3级事件,按事件威胁严重程度依次由低到高。
1、0级事件:已授权或工作职责范围内的少量核心数据的查询操作,如经过金库模式审批的单条敏感数据查询等操作;
2、1级事件:未授权的少量核心数据中危操作或已授权的批量核心数据中危操作,如未授权的用户敏感信息单条查询等;
3、2级事件:未授权的少量核心数据高危操作或已授权的批量核心数据高危操作,如非工作时间段修改核心生产数据等;
4、3级事件:未授权的核心数据批量操作,如私自批量导出核心生产数据等操作。
下面以隐藏层为一层为例对基于单条操作行为的数据泄露分析模型进行描述。
如图3所示,输入层的输入向量包括用户行为的每个特征值x(岗位性质、操作时段、操作场景、操作方式、敏感等级、...)。隐藏层神经元共q个,第q个隐藏层神经元的输入为
Figure BDA0001736544240000161
其中,Viq为第i个输入层神经元对第q个隐藏层神经元的权重为,将qi经过激活函数处理后得到bi。同理,第n个输出神经元的输入(即行为向量)为
Figure BDA0001736544240000162
其中,Whn为第h个隐藏层神经元对第n个输出神经元的权重,将βn经过激活函数处理后得到yn,βn从物理意义上对应用户关注的第n类事件类型的权重,输出层有yn=f(βnn),其中,θn为阈值,yn为对每类安全事件的风险值判定。当输出值yn与其对应的期望值en不符时,就将通过反向误差函数
Figure BDA0001736544240000171
进行反馈调整,通过对权值和阈值的不断调节使误差函数E达到极小。
在实际应用中,建立多维用户行为特征体系,基于时间、空间、操作者、目标数据、操作行为等多个维度来分析数据泄露问题,能够有效适应实际应用中复杂的场景、提高分析结果的准确率,同时,体系维度可根据企业自身特点进行灵活调整,使分析模型能够更好的适应自身环境,达到更准确的分析效果。
且基于BP神经网络建立数据泄露分析模型,并使用Spark大数据处理技术,能够有效降低多元非线性数据泄露事件回归问题的复杂度,提高问题的计算效率,更快速、准确的从海量数据中分析出数据泄露事件。
这里,在图3所示的数据泄露分析模型的基础上,引入基于时间周期的多条操作行为的数据泄露分析模型,建立基于时间周期的数据泄露事件分析模型,通过持续的时间周期来发现隐藏更深层次的安全事件。下面以隐藏层为一层为例对基于时间周期的多条操作行为的数据泄露分析模型进行描述。
如图4所示,该模型包含一层隐含层,以连续的c个周期的βn值作为输入,输出yn为对每类安全事件的风险值判定,en为yn对应的期望值,当输出值yn与其对应的期望值en不符时,就将通过反向误差函数进行反馈调整,通过对权值和阈值的不断调节使误差函数E达到极小。
当将操作行为的特征信息作为第一数据泄露分析网络的输入,得到输出的操作类型的事件等级时,或将操作行为的特征信息作为第一数据泄露分析网络的输入,将第一数据泄露模型中βn的作为第二数据泄露分析网络的输入得到输出的具有时间周期的多个操作行为的事件等级时,根据事件等级进行事件处置。
需要说明的是,时间周期可以灵活定义为任何认为可疑的时间段和频率,也可定义为固定的频率,能够发现隐藏更深的数据泄露事件。
在图3和图4所示的两个模型中,我们选取的激活函数是S型函数
Figure BDA0001736544240000181
其将输出结果归一到[0,1]范围内。我们根据输出的结果值的大小来判定事件等级,并进行下一步操作,如提醒、告警、直接阻断等。每级事件所对应的输出结果范围、处置措施及告警配置可如表2所示。
表2事件处置及告警配置示例
事件级别 Y 处置措施 告警级别 告警方式 告警频率
1级事件 [0,0.25] 留存 - - -
2级事件 (0.25,0.5] 提醒 一般 邮件 仅一次
3级事件 (0.5,0.75] 告警 中级 短信 每小时
4级事件 (0.75,1] 阻断 高级 短信 每分钟
相关技术中的数据防漏方法只能基于预设的单一场景进行分析,而实际场景往往更为复杂,本发明实施例提供的数据防漏方法通过建立多维度的用户行为特征体系可适应实际的复杂环境,能够有效提升分析结果的准确性,降低现有方法的误报率。
进一步地,相关技术中的数据防漏方法只能发现单次的数据泄露问题,本发明实施例提供的数据防漏方法引入了基于时间周期的数据泄露分析模型,能够分析任意的时间区间和周期的数据,发现隐藏较深的数据泄露事件,比现有方法精度更高,能够有效降低现有方法的漏报率。
实施例三
在本发明实施例中,对本发明实施例中的第一数据防漏分析网络所采用的BP神经网络算法进行进一步描述。
传统的监督学习方法通过对有标记样本集的训练学习来预测未标记样本,未标记样本也可称为无标记样本,即只有输入,无期望输出。随着大数据技术的飞速发展,未标记样本越来越容易获取,而获取有标记的样本仍然比较困难。因此,人们逐渐开始研究在有标记样本较少的情况下,如何能够利用大量的未标记的样本来提高学习性能,半监督学习方法就是这样一种利用少量有标记样本和大量未标记样本来进行训练学习的方法。其基本思想是给定一个有标记样本集L={(x1,y1)…(x|L|,y|L|)},和一个未标记样本集U={x`1…x`|U|},希望学得函数F:X→Y,可以准确地预测未标记的X所对应的Y值。这里xi、x`i∈X,均为d维向量,yi∈Y,为示例xi的标记(样本输出)。半监督学习方法主要基于的是聚类假设和流假设,目前主要的半监督学习方法可分为如下几类:
生成模型方法
生成模型方法基于的是聚类假设,其将未标记样本属于每一类别的概率看做一组缺失值,然后使用EM算法对标记和模型参数进行估计,但由于EM算法自身的贪心特性使其易陷入局部极值问题,因此该方法的有效性与初始值的选择有很大关联,生成模型方法属于较早期的基于聚类假设的分类方法。
基于图正则化的方法
基于图正则化的半监督学习方法基于的是流假设,其通常先将有标记数据和未标记数据作为图的节点建立一个图,然后通过图上的邻接关系使有标记的样本按照一定的概率向未标记样本进行传播。使用这种方式进行学习的算法时间复杂度为O(n^3),因此难以用于计算数据规模较大的问题。
协同训练(co-training)方法
协同训练方法基于的是聚类假设和流假设,其提出了使用两个或两个以上学习器的思想,通过不断的挑选置信度高的未标记样本加入到其他的学习器中进行标记,使模型不断的学习更新。目前协同训练的方法是半监督学习中使用最多也是最重要的一种方法。
协同训练式回归算法
在半监督回归问题中,由于样本的输出为实际值,因此聚类假设不成立,而流假设依然成立,且正由于回归输出的连续性使得流假设在回归问题中变得更加有效,一些基于流假设的半监督学习方法理论上也是可以用于解决半监督回归问题的,例如基于图正则化的方法,但由于基于正则化图的方法需要先建立图再进行训练,在实际中是不能直接应用到半监督回归问题中的。
这里,基于COREG算法提出一种选择置信度最高的未标记数据的准则:令h表示当前学习器学得的模型,L表示有标记示例集,xu∈U,表示一个未标记示例,h`表示把h标记过的示例,即将(xu,h(xu))加入训练集后重新训练得到的学习器,则标记置信度最高的未标记示例是在U中最大化的(公式1)的值。
Figure BDA0001736544240000201
基于(公式1),使用了两个由不同参数设定的学习器,每次通过(公式1)选取置信度最高的未标记数据进行模型训练。本发明实施例所使用的半监督学习算法就是COREG算法。我们通过将已构建的BP神经网络数据泄露分析模型采用COREG算法进行半监督学习,使模型具有更强的自学习能力。
BP神经网络的训练过程中需定义的参数包括:
1、一个有标签数据集集L={(x1,y1)…(x|L|,y|L|)},一个无标签数据集U={x`1…x`|U|}的。其中,xi和x`i分别代表L、U中第i个有d个特征指标的数据对象,yi表示xi所对应的n个标签数据。|L|和|U|分别为L和U的大小。
2、两个有标签数据集L1和L2,L1、L2分别为由数据集L抽取的两个数据子集。一个无标签数据集U`为由数据集U抽取出的数据子集。
3、两个模型h1和h2,两个正整数n1和n2。其中,h1、h2分别为基于数据集L1和L2、隐藏层节点数为n1、n2训练生成的BP神经网络模型,h1==BP(L1,n1),h2==BP(L2,n2)。
这里,我们选取不同隐藏层节点数n1、n2的两个BP神经网络作为两个初始学习器,即第一初始模型和第二初始模型。
第一数据防漏分析模型的建立过程包括:
步骤1、分别对L、U中的样本数据xi、x`i、yi进行归一化处理,将xi、x`i归一为[0,1]之间。将yi归一为[0,1]之间。
步骤2、确定最优n1、n2。根据经验公式
Figure BDA0001736544240000202
可以确定隐含层节点数的范围,其中,n为隐含层节点数目,m、c分别为输入层、输出层节点数目,a为取值在[1,10]之间的调节常数。为使训练模型达到最优,将通过有标签数据集L对每个a值进行训练,选取出最优的两个n值给n1、n2,分别作为h1、h2的隐藏层节点个数。
步骤3、从L中分别随机选取出两个完全独立数据集L1、L2作为有标记训练集;从U中随机选出U`作为未标记训练集;设定最大迭代次数T。
步骤4、根据步骤2、步骤3确定的n1、n2和L1、L2初始化模型h1、h2,给输入层到隐藏层、隐藏层到输出层的权值分别赋值一个[-1,1]的随机数,并初始化激活函数
步骤5、从U中抽取U`作为要训练的未标签数据集,选取L1,通过(公式1)在U`中找出置信度最高的转移未标记样本x`u,放入中L2中,同时,从U`中删除所选取的x`u,更新模型h2。接下来选取L2,通过(公式1)在U`中找出置信度最高的转移未标记样本x`u,放入中L1中,同时,从U`中删除所选取的x`u,更新模型h1,h1和h2在迭代过程中不断地进行自我更新。
步骤6:重复步骤5,直到如下三个条件中的一个满足则计算结束:①U`为空;②所有的
Figure BDA0001736544240000212
③达到预设的最大迭代次数。
这里,第一数据防漏分析模型的建立过程的代码为:
输入:
有标记样本L、未标记样本U;隐含层节点数n1,n2;最大迭代次数T(也就是迭代次数)。
过程:
Figure BDA0001736544240000213
Figure BDA0001736544240000221
输出:
Figure BDA0001736544240000222
Figure BDA0001736544240000223
需要说明的是,在该实施例中,以第一数据防漏分析网络的数据防漏模型为第一分析模型h`1和第二分析模型h`2的均值为例,在实际应用中,第一数据防漏分析模型也可为第一分析模型或第二分析模型。
在实际应用中,第二数据防漏分析网络的数据防漏模型的训练方法同第一数据防漏分析网络的数据防漏模型的训练方法。
在实际应用中,企业数据泄露事件的有标记数据均是需要人工一条一条判定的,因此获得起来较为困难,而未标记的数据却是大量的,本发明实施例提供的数据防漏方法所使用的算法可利用大量的未标记示例来辅助少量有标记示例的学习,大幅减少人工判定作量,同时有效提升了数据泄漏分析的自学习、自适应能力,使其在新环境中能够快速学习,且具有很好的普适性,能够在各个领域中快速应用。
相关技术中的数据防漏方法中所涉及的规则的配置和训练集数据的标签均需由企业的业务专家和数据专家根据个人或者团队经验才能判定,本发明实施例提供的数据防漏方法通过采用基于BP神经网络的协同训练式半监督学习数据泄露分析算法,使用少量的有标签数据配合大量无标签数据就能进行自我学习,同时,规则的配置只要通过自学习就可以完成,大幅降低了人工判定工作量,能够有效提升DLP产品的使用效果。
实施例四
在本发明实施例中,对本发明实施例提供的数据防漏方法进行进一步说明。
如图5所示,本发明实施例提供的数据防漏方法在逻辑架构上分为采集层、存储层、分析处理层、数据服务层和数据应用层。
采集层采集的事件属性如图6所示,采集层从多个维度采集用户数据访问事件,其中包括谁(操作者)、时间、地点、目标数据、行为等多个维度,全方位进行采集,并对原始采集数据进行数据清洗、集成、标准化等预处理操作。其中,谁可为具体的岗位,地点可包括公司、出差、家庭等地点,目标数据可包括所访问的数据的大小、名称、敏感程度、数据类别等信息,行为可包括访问时的方式为阅读、打印、邮件外发等方式。
另外,在采集层我们还会对所采集的数据进行特征提取,这里主要用到的是现有的DLP技术,如使用EDM、IDM技术进行敏感数据的发现、使用SVM技术对数据业务类别进行分类等关联操作、使用动态检测方法对所访问的数据敏感程度进行分级等等。
存储层通过使用Hadoop平台的分布式文件系统HDFS和HBase,实现对原始采集数据的大容量、高性能的存取。
分析处理层为本发明的核心部分,本发明所提出的基于BP神经网络和半监督学习的数据防泄露分析算法就是在该层实现的。在分析处理层,我们将所采集数据按照时间、空间、操作行为、用户等多个维度进行聚合,然后将每个维度作为BP神经网络的一个输入元,通过基于BP神经网络的模型和半监督的学习方式,基于少量已知数据和大量未知数据快速的进行自学习优化,最终根据输出的每类安全事件的风险值进行事件判定,并触发相对应的处置措施。该层我们主要使用的是Spark技术,Spark可以尽可能多的在内存中保存数据的重要部分,而且无需写入磁盘,这将大幅提高BP神经网络的学习速度。
数据服务层通过统一的服务接口为数据应用层以及外部应用提供统一的数据分析结果和接口。
数据应用层提供数据泄漏事件的告警、阻断等操作,同时,支持自定义事件的统计、查询,以及丰富的分析报表,为企业提供数据泄露风险防范依据,为复杂的数据泄露事件提供追踪线索。
实施例五
为实现实施例一提供的数据防漏方法,本发明实施例提供一种数据防漏装置,如图7所示,所述装置包括:获取模块701、第一分析模块702和确定模块703;其中,
获取模块701,用于获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;
第一分析模块702,用于将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;
确定模块702,用于根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
在一实施例中,所述第一输出包括所述第一数据泄露分析网络中各输出节点输出的各事件类型对应的子输出,相应地,确定模块703,具体用于:
根据所述各事件类型对应的子输出确定所述操作行为的事件类型和对应所述事件类型的事件级别。
在一实施例中,如图8所示,所述装置还包括第二分析模块704,用于:
获取至少两个操作行为的行为向量,所述至少两个操作行为为具有固定周期的相同事件类型的操作行为;所述行为向量为所述第一数据泄露分析网络以所述操作行为作为输出时输出节点的输入向量;
将所述至少两个操作行为的行为向量作为第二数据泄露分析网络的输入,得到所述第二数据泄露分析网络输出的第二输出,所述第二数据泄露分析网络为采用反向传播神经网络算法的针对多操作行为的数据泄露分析模型;
根据所述第二输出确定所述操作行为的第二事件级别,所述第二事件级别表征所述至少两个操作行为对操作数据所构成的危险等级。
在一实施例中,如图8所示,所述装置还包括:训练模块705,用于:
建立第一初始模型和第二初始模型;所述第一初始模型和所述第二初始模型的隐藏层的节点的数量不同;
通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练,得到第一分析模型和所述第二分析模型;所述混合样本集包括标记样本集和未标记样本集;
根据所述第一分析模型和所述第二分析模型确定所述第一数据泄露分析网络。
在一实施例中,训练模块705通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练包括:
从所述标记样本集中抽取样本确定第一标记样本集和第二标记样本集;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第二标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第二标记样本集对所述第一初始模型进行更新;
基于所述第二标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第一标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第一标记样本集对所述第二初始模型进行更新;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,直到满足设定的迭代条件。
在一实施例中,训练模块705基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本包括:
分别将未标记样本集中的未标记样本作为所述第一初始模型的输入,得到各未标记样本对应的样本输出;
分别通过各未标记样本和各标记样本对应的样本输出对所述第一初始模型进行训练,得到各未标记样本对应的第一标记模型;
通过以下公式计算各未标记样本的置信度:
Figure BDA0001736544240000261
其中,Δu为未标记样本u的置信度,|L|为第一标记样本集L中标记样本的个数,xi为第i个标记样本,yi为第i个标记样本xi的样本输出;h(xi)为将xi作为第一初始模型的输入时对应的样本输出,h`(xi)为将xi作为第一标记模型的输入时对应的样本输出;
将置信度最高的未标记样本作为所述转移标记样本。
在一实施例中,所述设定的迭代条件至少包括以下条件之一:
迭代的次数为设定的迭代次数;
未标记样本集为空;
为标记样本集中各未标记样本的置信度都小于0。
实施例六
本发明实施例还提供了一种数据防漏装置,该数据防漏装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行:
获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;
将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;
根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
在一实施例中,所述第一输出包括所述第一数据泄露分析网络中各输出节点输出的各事件类型对应的子输出,相应地,所述处理器用于运行所述计算机程序时,执行所述根据所述第一输出确定所述操作行为的第一事件级别包括:
根据所述各事件类型对应的子输出确定所述操作行为的事件类型和对应所述事件类型的事件级别。
在一实施例中,所述处理器用于运行所述计算机程序时,还执行:
获取至少两个操作行为的行为向量,所述至少两个操作行为为具有固定周期的相同事件类型的操作行为;所述行为向量为所述第一数据泄露分析网络以所述操作行为作为输出时输出节点的输入向量;
将所述至少两个操作行为的行为向量作为第二数据泄露分析网络的输入,得到所述第二数据泄露分析网络输出的第二输出,所述第二数据泄露分析网络为采用反向传播神经网络算法的针对多操作行为的数据泄露分析模型;
根据所述第二输出确定所述操作行为的第二事件级别,所述第二事件级别表征所述至少两个操作行为对操作数据所构成的危险等级。
在一实施例中,所述处理器用于运行所述计算机程序时,还执行
建立第一初始模型和第二初始模型;所述第一初始模型和所述第二初始模型的隐藏层的节点的数量不同;
通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练,得到第一分析模型和所述第二分析模型;所述混合样本集包括标记样本集和未标记样本集;
根据所述第一分析模型和所述第二分析模型确定所述第一数据泄露分析网络。
在一实施例中,所述处理器用于运行所述计算机程序时,执行所述通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练包括:
从所述标记样本集中抽取样本确定第一标记样本集和第二标记样本集;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第二标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第二标记样本集对所述第一初始模型进行更新;
基于所述第二标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第一标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第一标记样本集对所述第二初始模型进行更新;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,直到满足设定的迭代条件。
在一实施例中,所述处理器用于运行所述计算机程序时,执行所述基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本包括:
分别将未标记样本集中的未标记样本作为所述第一初始模型的输入,得到各未标记样本对应的样本输出;
分别通过各未标记样本和各标记样本对应的样本输出对所述第一初始模型进行训练,得到各未标记样本对应的第一标记模型;
通过以下公式计算各未标记样本的置信度:
Figure BDA0001736544240000281
其中,为未标记样本u的置信度,|L|为第一标记样本集L中标记样本的个数,xi为第i个标记样本,yi为第i个标记样本xi的样本输出;h(xi)为将xi作为第一初始模型的输入时对应的样本输出,h`(xi)为将xi作为第一标记模型的输入时对应的样本输出;
将置信度最高的未标记样本作为所述转移标记样本。
在一实施例中,所述设定的迭代条件至少包括以下条件之一:
迭代的次数为设定的迭代次数;
未标记样本集为空;
为标记样本集中各未标记样本的置信度都小于0。
图9是本发明实施利六的数据防漏装置的结构示意图,图9所示的数据防漏装置包括:至少一个处理器901和存储器902。数据防漏装置中的各个组件通过总线系统903耦合在一起。可理解,总线系统903用于实现这些组件之间的连接通信。
可以理解,存储器902可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器902旨在包括但不限于这些和任意其它适合类型的存储器。
本发明实施例中的存储器902用于存储各种类型的数据以支持实施利六的数据防漏装置的操作。
上述本发明实施例揭示的方法可以应用于处理器901中,或者由处理器901实现。处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器901可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器902,处理器901读取存储器902中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,实施利六的数据防漏装置可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
实施例七
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器902,上述计算机程序可由数据防漏装置中的处理器901执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器运行时,执行:
获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;
将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;
根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
以上样本管理系统和计算机可读存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明样本管理系统和计算机可读存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据防漏方法,其特征在于,所述方法包括:
获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;
将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;
根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
2.根据权利要求1所述的方法,其特征在于,所述第一输出包括所述第一数据泄露分析网络中各输出节点输出的各事件类型对应的子输出,相应地,所述根据所述第一输出确定所述操作行为的第一事件级别包括:
根据所述各事件类型对应的子输出确定所述操作行为的事件类型和对应所述事件类型的事件级别。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取至少两个操作行为的行为向量,所述至少两个操作行为为具有固定周期的相同事件类型的操作行为;所述行为向量为所述第一数据泄露分析网络以所述操作行为作为输出时输出节点的输入向量;
将所述至少两个操作行为的行为向量作为第二数据泄露分析网络的输入,得到所述第二数据泄露分析网络输出的第二输出,所述第二数据泄露分析网络为采用反向传播神经网络算法的针对多操作行为的数据泄露分析模型;
根据所述第二输出确定所述操作行为的第二事件级别,所述第二事件级别表征所述至少两个操作行为对操作数据所构成的危险等级。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立第一初始模型和第二初始模型;所述第一初始模型和所述第二初始模型的隐藏层的节点的数量不同;
通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练,得到第一分析模型和所述第二分析模型;所述混合样本集包括标记样本集和未标记样本集;
根据所述第一分析模型和所述第二分析模型确定所述第一数据泄露分析网络。
5.根据权利要求4所述的方法,其特征在于,所述通过混合样本集对所述第一初始模型和所述第二初始模型轮流进行训练包括:
从所述标记样本集中抽取样本确定第一标记样本集和第二标记样本集;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第二标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第二标记样本集对所述第一初始模型进行更新;
基于所述第二标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,通过所述转移未标记样本对所述第一标记样本集更新,将所述转移未标记样本从所述未标记样本集中删除,并通过更新的第一标记样本集对所述第二初始模型进行更新;
基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本,直到满足设定的迭代条件。
6.根据权利要求4所述的方法,其特征在于,所述基于所述第一标记样本集从所述未标记样本集中选取置信度最高的转移未标记样本包括:
分别将未标记样本集中的未标记样本作为所述第一初始模型的输入,得到各未标记样本对应的样本输出;
分别通过各未标记样本和各标记样本对应的样本输出对所述第一初始模型进行训练,得到各未标记样本对应的第一标记模型;
通过以下公式计算各未标记样本的置信度:
Figure FDA0001736544230000031
其中,Δu为未标记样本u的置信度,|L|为第一标记样本集L中标记样本的个数,xi为第i个标记样本,yi为第i个标记样本xi的样本输出;h(xi)为将xi作为第一初始模型的输入时对应的样本输出,h`(xi)为将xi作为第一标记模型的输入时对应的样本输出;
将置信度最高的未标记样本作为所述转移标记样本。
7.根据权利要求6所述的方法,其特征在于,所述设定的迭代条件至少包括以下条件之一:
迭代的次数为设定的迭代次数;
未标记样本集为空;
为标记样本集中各未标记样本的置信度都小于0。
8.一种数据防漏装置,其特征在于,所述装置包括:获取模块、第一分析模块和确定模块;其中,
所述获取模块,用于获取操作行为的特征信息;所述特征信息包括以下维度至少之一的特征信息:对象特征信息、时间特征信息、场景特征信息、方式特征信息、项目特征信息和数据特征信息;
所述第一分析模块,用于将所述特征信息作为第一数据泄露分析网络的输入,得到所述第一数据泄露分析网络输出的第一输出;所述第一数据泄露分析网络为采用反向传播神经网络算法的针对单条操作行为的数据泄露分析模型;
所述确定模块,用于根据所述各第一输出确定所述操作行为的第一事件级别,所述第一事件级别表征所述操作行为对所述操作行为对应的操作数据所构成的危险等级。
9.一种数据防漏装置,其特征在于,该数据防漏装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7中任一项所述的数据防漏方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据防漏方法的步骤。
CN201810798582.0A 2018-07-19 2018-07-19 一种数据防漏方法、装置及计算机可读存储介质 Active CN110740111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810798582.0A CN110740111B (zh) 2018-07-19 2018-07-19 一种数据防漏方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810798582.0A CN110740111B (zh) 2018-07-19 2018-07-19 一种数据防漏方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110740111A true CN110740111A (zh) 2020-01-31
CN110740111B CN110740111B (zh) 2022-01-25

Family

ID=69235236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810798582.0A Active CN110740111B (zh) 2018-07-19 2018-07-19 一种数据防漏方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110740111B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487010A (zh) * 2021-05-21 2021-10-08 国网浙江省电力有限公司杭州供电公司 基于机器学习的电网网络安全事件分析方法
CN114765575A (zh) * 2021-01-04 2022-07-19 中国移动通信有限公司研究院 一种网络故障原因预测方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
US8181033B1 (en) * 2008-07-01 2012-05-15 Mcafee, Inc. Data leakage prevention system, method, and computer program product for preventing a predefined type of operation on predetermined data
US20160098567A1 (en) * 2014-10-01 2016-04-07 Institute For Information Industry Method, electronic device, and non-transitory computer readable recording media for identifying confidential data
CN105577685A (zh) * 2016-01-25 2016-05-11 浙江海洋学院 云计算环境中的自主分析入侵检测方法及系统
CN106408343A (zh) * 2016-09-23 2017-02-15 广州李子网络科技有限公司 一种基于bp神经网络的用户行为分析与预测的建模方法及其装置
US20180176205A1 (en) * 2015-03-23 2018-06-21 Duo Security, Inc. System and method for automatic service discovery and protection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8181033B1 (en) * 2008-07-01 2012-05-15 Mcafee, Inc. Data leakage prevention system, method, and computer program product for preventing a predefined type of operation on predetermined data
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
US20160098567A1 (en) * 2014-10-01 2016-04-07 Institute For Information Industry Method, electronic device, and non-transitory computer readable recording media for identifying confidential data
US20180176205A1 (en) * 2015-03-23 2018-06-21 Duo Security, Inc. System and method for automatic service discovery and protection
CN105577685A (zh) * 2016-01-25 2016-05-11 浙江海洋学院 云计算环境中的自主分析入侵检测方法及系统
CN106408343A (zh) * 2016-09-23 2017-02-15 广州李子网络科技有限公司 一种基于bp神经网络的用户行为分析与预测的建模方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BARBARA HAUER: "Data and Information Leakage Prevention Within the Scope of Information Security", 《IEEE》 *
王玉美等: "基于改进的BP网络的语法分析系统设计", 《计算机应用研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114765575A (zh) * 2021-01-04 2022-07-19 中国移动通信有限公司研究院 一种网络故障原因预测方法、装置及电子设备
CN113487010A (zh) * 2021-05-21 2021-10-08 国网浙江省电力有限公司杭州供电公司 基于机器学习的电网网络安全事件分析方法
CN113487010B (zh) * 2021-05-21 2024-01-05 国网浙江省电力有限公司杭州供电公司 基于机器学习的电网网络安全事件分析方法

Also Published As

Publication number Publication date
CN110740111B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
Navada et al. Overview of use of decision tree algorithms in machine learning
Althubiti et al. Applying long short-term memory recurrent neural network for intrusion detection
McElwee et al. Deep learning for prioritizing and responding to intrusion detection alerts
Hosseini et al. Anomaly process detection using negative selection algorithm and classification techniques
CN111143838B (zh) 数据库用户异常行为检测方法
Nagaraja et al. UTTAMA: an intrusion detection system based on feature clustering and feature transformation
Halibas et al. Determining the intervening effects of exploratory data analysis and feature engineering in telecoms customer churn modelling
Ma et al. A hybrid methodologies for intrusion detection based deep neural network with support vector machine and clustering technique
Cheng et al. Discovering attack scenarios via intrusion alert correlation using graph convolutional networks
Gu Theoretical and empirical extensions of the dendritic cell algorithm
CN110740111B (zh) 一种数据防漏方法、装置及计算机可读存储介质
Wu et al. Research on network intrusion detection technology based on machine learning
Meeus et al. Achilles’ heels: vulnerable record identification in synthetic data publishing
US11599667B1 (en) Efficient statistical techniques for detecting sensitive data
US11797705B1 (en) Generative adversarial network for named entity recognition
Ghodratnama et al. Am i rare? an intelligent summarization approach for identifying hidden anomalies
Chandore et al. Outlier detection techniques over streaming data in data mining: A research perspective
Lighari Hybrid model of rule based and clustering analysis for big data security
Suthaharan et al. An approach for automatic selection of relevance features in intrusion detection systems
US11675926B2 (en) Systems and methods for subset selection and optimization for balanced sampled dataset generation
CN114398887A (zh) 一种文本分类方法、装置及电子设备
Punjabi et al. Forensic Intelligence-Combining Artificial Intelligence with Digital Forensics
Zhu et al. Software defect prediction model based on stacked denoising auto-encoder
Mohammed et al. The effectiveness of big data classification control based on principal component analysis
Guevara et al. Intrusion detection with neural networks based on knowledge extraction by decision tree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant