CN115470524B

CN115470524B - 涉密文件泄露检测方法、系统、设备及介质

Info

Publication number: CN115470524B
Application number: CN202211342789.XA
Authority: CN
Inventors: 张梦迪; 朱朝阳; 申连腾; 张庚; 余刚刚; 李宇曜; 刘琼; 曹靖怡; 姜琳; 唐琴; 白旭东; 吕建章; 廖斌; 张洪军
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-03-24
Anticipated expiration: 2042-10-31
Also published as: CN115470524A

Abstract

本发明属于保密检查和数据防泄漏技术领域，公开了一种涉密文件泄露检测方法、系统、设备及介质，依据专家评价机制，可综合不同专家的领域知识，考虑各类行为证据和不同周期下的证据进行可信度分配。融合可信度后得出泄密事件和泄密途径排序，计算确定性后与阈值比较判断是否泄密，可以降低漏检率。通过证据区间讨论可区分结果的“不确定”和“不知道”，提高了泄密类型的检测精度。

Description

涉密文件泄露检测方法、系统、设备及介质

技术领域

本发明属于保密检查和数据防泄漏技术领域，具体涉及一种基于D-S证据理论的涉密文件泄露检测方法、系统、设备及介质。

背景技术

保密检查是指有关部门对保密工作实施的定期或不定期的考查和检验。保密检查技术包括物理安全检查技术、平台安全检查技术等，一般通过保密检查工具来检测泄密风险和行为。目前保密检查工具存在检查速度慢、兼容性差、装载媒介过时、检查方式落后、检查结果不够人性化的缺点。

数据防泄漏技术目前主要有三种，分别是：1）数据加密技术；2）权限管控技术；3）基于内容深度识别的通道防护技术。数据防泄漏技术最主要的发展方向是数据安全治理和以人为中心的内部威胁检测。

D-S证据理论属于人工智能范畴，最早应用于专家系统中，具有处理不确定信息的能力，多用于信息融合、专家系统、情报分析、法律案件分析、多属性决策分析等。作为一种不确定推理方法，证据理论的主要特点是：满足比贝叶斯概率论更弱的条件；具有直接表达“不确定”和“不知道”的能力。

现有技术：CN202110721086.7 一种泄密行为识别方法、装置、设备、介质；该专利申请中识别泄密行为的方法包括：获取待检测文件传输行为中传输的待检测文档；判断所述待检测文档是否为敏感文档；若是，则获取所述待检测文档在所述待检测文件传输行为中的关联信息；利用预先设定的泄密规则对所述待检测文档和所述关联信息进行分析，以确定所述待检测文件传输行为是否为泄密行为，这样能够对泄密行为进行识别，从而避免泄密行为带来更大的损失。

其中，待检测文档在所述待检测文件传输行为中的关联信息包括传输途径、发送人信息、接收人信息、发送时间以及所述待检测文档的上下文信息中的任一项或任意几项的组合。

该现有技术中待检测文档是通过文档分类模型和文档分类规则确定是否为敏感文档，随后结合文件传输中的关联信息通过泄密规则判断文件传输行为是否是泄密行为。

缺点一：通过文本分类算法判断敏感文档依赖于大量的样本文件进行机器学习，模型训练和管理的成本较高。

缺点二：通过泄密规则判断文件传输行为需要预先设定判断条件，存在条件规则库不完备的问题，各项关联信息的影响大小及相互关联性难以体现。

发明内容

本发明的目的在于提供一种涉密文件泄露检测方法、系统、设备及介质，以解决现有技术存在的缺陷，本发明通过采集关联行为的时空信息，结合专家的可信度分配，对证据进行合成，可实现用户泄密行为的检测和泄密途径的识别。

为达到上述目的，本发明采用如下技术方案：

涉密文件泄露检测方法，包括：

扫描文件系统，确定并标记涉密文件；

在数据传输的多个探测节点采集不同周期的证据信息，所述证据信息表示对涉密文件的行为；

将全部探测节点的证据信息进行分组，形成不同组合，每个组合为一种泄密途径；

以泄密途径为依据，获得单周期内各专家在单个探测节点涉密证据可信度分配并融合，得到第一融合可信度分配；

依据第一融合可信度分配，在单周期内进行多探测节点的可信度分配并融合，得到第二融合可信度分配；

根据第二融合可信度分配计算总融合可信度分配；

将总融合可信度分配按照从大到小进行排序，取前若干个作为可能的泄密方式；

根据可能的泄密方式确定泄密命题的信任度区间，并通过信任度区间计算确定性；所述泄密命题为检测到系统内有涉密文件泄露行为；

将确定性与预先设定的阈值进行比较，若有一个及以上确定性大于阈值，则判断员工操作为泄密行为，否则员工操作不为泄密行为。

进一步地，所述确定并标记涉密文件，具体为：通过识别涉密文件的密标标签、文件头及文本比对的方法确定并标记涉密文件。

进一步地，所述在数据传输的多个探测节点采集不同周期的证据信息，具体为：在数据传输的多个节点布置探针，通过探针收集证据信息；

所述探测节点包括网络流量位置、文件系统位置及外接存储设备位置；

所述证据信息包括以下行为：数据下载、修改文件后缀、U盘拷贝敏感内容、嵌套文件、多层压缩以及外发文件；

每个周期至少包括一个或多个完整的行为。

进一步地，所述泄密途径组成识别框架U：

式中，e ₁为泄密途径1，e ₂为泄密途径2，以此类推，e _k为泄密途径k，

，K为泄密途径的总数，各泄密途径为互斥关系；

式中，T为在识别框架中生成的所有泄密途径的幂集合，表示实际可能发生的泄密事件集合，

表示空集，每个泄密事件记为A _m，

，M’为泄密事件的总数；

专家n在每个周期内对泄密事件A _m的可信度进行赋值，

，N为专家的数量；

在同一测量周期内，

；

式中，

表示同周期内专家n确定的对A _m的可信度，s表示探测节点。

进一步地，所述第一融合可信度分配的计算公式为：

其中，

式中，c ₁为第一归一化因子；

为第一融合可信度分配，表示在探测节点s上融合所有专家确定的测量周期j对A _m的可信度，

，S为探测节点数量，

，J为周期数量；

为在探测节点s上，专家n确定的测量周期j对A _m的可信度。

进一步地，所述第二融合可信度分配的计算公式如下：

其中，

式中，

为第二融合可信度分配，表示在测量周期j中融合各探测节点后A _m的可信度，c ₂为第二归一化因子。

进一步地，所述总融合可信度分配的计算公式如下：

其中，

式中，

为总融合可信度分配，表示各周期融合后泄密途径A _m的可信度，c ₃为第三归一化因子。

进一步地，所述泄密命题的信任度区间为[Bel(A _m) ,Pl(A _m)]；

其中，

式中，B为泄密事件A _m的子命题，表示组成泄密事件A _m的泄密途径信息；

为A _m的否命题，表示涉密文件没有通过泄密事件A _m泄露，信任函数Bel(A _m )为下限函数，表示对A _m的全部信任，似然函数Pl(A _m )为上限函数，表示对A _m非假的信任程度；

信任度区间为[0，1]时，表示对A _m一无所知；信任度区间为[0，Bel(A _m )]时，表示支持区间；信任度区间为[Pl(A _m ),1]时，表示拒绝区间；支持区间与拒绝区间相等时表示对A _m和

的同样信任即不确定；以上两种情况下无法判断泄露是否发生及泄露途径，流程终止；

否则所述通过信任度区间计算A _m的确定性，计算时采用类概率函数，公式如下：

式中，

表示A _m在实际可能发生的泄密事件集合T中的概率。

涉密文件泄露检测系统，包括：

涉密文件标记模块：用于扫描文件系统，确定并标记涉密文件；

证据信息采集模块：用于在数据传输的多个探测节点采集不同周期的证据信息，所述证据信息表示对涉密文件的行为；

证据信息分组模块：用于将全部探测节点的证据信息进行分组，形成不同组合，每个组合为一种泄密途径；

第一融合可信度分配计算模块：用于以泄密途径为依据，获得单周期内各专家在单个探测节点涉密证据可信度分配并融合，得到第一融合可信度分配；

第二融合可信度分配计算模块：用于依据第一融合可信度分配，在单周期内进行多探测节点的可信度分配并融合，得到第二融合可信度分配；

总融合可信度分配计算模块：用于根据第二融合可信度分配计算总融合可信度分配；

排序模块：用于将总融合可信度分配按照从大到小进行排序，取前若干个作为可能的泄密方式；

确定性计算模块：用于根据可能的泄密方式确定泄密命题的信任度区间，并通过信任度区间计算确定性；所述泄密命题为检测到系统内有涉密文件泄露行为；

判断模块：用于将确定性与预先设定的阈值进行比较，若有一个及以上确定性大于阈值，则判断员工操作为泄密行为，否则员工操作不为泄密行为。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述涉密文件泄露检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述涉密文件泄露检测方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明可提升泄密行为检测准确度。依据专家评价机制，可综合不同专家的领域知识，考虑各类行为证据和不同周期下的证据进行可信度分配。融合可信度后得出泄密事件和泄密途径排序，计算确定性后与阈值比较判断是否泄密，可以降低漏检率。

本发明可提高泄密行为检测效率，本发明通过快速识别涉密文件特征、标记涉密文件的做法进行预处理，方便涉密文件被探针检测到，可提高实时检测效率；相比敏感文本分类算法和用户行为机器学习算法，证据理论不需要先验概率和条件概率，不需要模型构建和管理，在计算方面更加简洁直观；本发明可依靠证据的积累优化泄密途径的可信度分配，提高检测效率。

本发明通过证据区间讨论可区分结果的“不确定”和“不知道”，提高了泄密类型的检测精度。

附图说明

说明书附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明涉密文件泄露检测方法流程图；

图2为多探针同周期可信度分配的融合计算示意图；

图3为证据区间和不确定性示意图；

图4为本发明涉密文件泄露检测系统结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明公开一种涉密文件泄露检测方法，通过采集关联行为的时空信息，结合专家的可信度分配，对证据进行合成，可实现用户泄密行为的检测和泄密途径的识别，具体步骤如图1所示。

步骤S1，在文件系统进行扫描，通过识别涉密文件的密标标签、文件头及文本比对等方法确定并标记涉密文件。与普遍的敏感词匹配的识别方法不同，标记后的涉密文件无需再次根据内容被判断，即可快速被检测和追踪。

步骤S2，在数据传输的多个探测节点布置探针收集证据信息，具体为：在网络流量、文件系统、外接存储设备等探测节点，识别针对涉密文件的数据下载、修改文件后缀、U盘拷贝敏感内容、嵌套文件、多层压缩、大量外发未知类型文件、外发超大文件等行为，进行不同周期的证据信息的采集，每个测量周期应至少包括一个或多个完整的行为。

步骤S3，根据泄密方式反推的证据链，将全部探测节点的证据信息进行分组，并允许有重复的探测节点，如文件压缩-文件复制-U盘拷贝和嵌套文件-文件压缩-文件上传等组合。每个组合为一种泄密途径，定义为e _k。

步骤S4，定义命题A为检测到系统内有涉密文件泄露行为，定义识别框架U ={e ₁，e ₂,...,e _k}，e ₁为泄密途径1，e ₂为泄密途径2，以此类推，命题e _k为泄密途径k(

，K为泄密途径的总数)，令各泄密途径为互斥关系。定义实际可能发生的泄密事件集合

，

表示空集，每个泄密事件记为A _m(

，M’为泄密事件的总数)。M为T上定义的基本概率分配函数（BPA），以泄密途径为依据，在探测节点s上，专家n确定的测量周期j对泄密事件A _m的可信度为

，在同一测量周期内，

，

表示同周期内专家n(

，N为专家的数量)确定的对A _m的可信度，s表示探测节点。设立同周期内多专家决策的单个探测节点上泄密行为证据概率分配函数的合成规则，得到第一融合可信度分配：

其中，

式中，c ₁为第一归一化因子；

为第一融合可信度分配，即在探测节点s (

，S为探测节点数量)上融合所有专家确定的测量周期j(

，J为周期数量)对A _m的可信度；

为在探测节点s上，专家n确定的测量周期j对A _m的可信度。

步骤S5，进行多个节点的同周期融合，计算每一测量周期上所获得的各个命题的融合可信度分配。已知步骤4中得到各专家设定A _m可信度的第一融合可信度分配

，

为同周期各探测节点融合后A _m的可信度，称之为第二融合可信度分配；

同周期多节点融合：

其中，

式中，

为第二融合可信度分配，即在测量周期j中融合各节点后A _m的可信度，c ₂为第二归一化因子。

步骤S6，基于各周期上的第二融合可信度分配计算总融合可信度分配，见图2。

为各周期融合后泄密事件A _m的总融合可信度分配。

其中，

式中，

为总融合可信度分配，即为各周期融合后泄密事件A _m的可信度，c ₃为第三归一化因子。

步骤S7，将总融合可信度分配按照从大到小进行排序，取前若干个作为可能的泄密方式；

步骤S8，根据步骤S7得到的可能的泄密方式确定泄密命题的信任度区间[Bel(A _m),Pl(A _m)]，并通过信任度区间计算确定性，如图3；所述泄密命题为检测到系统内有涉密文件泄露行为；

其中，

式中，B为泄密事件A _m的子命题，表示组成泄密事件A _m的泄密途径信息。

为A _m的否命题，表示涉密文件没有通过泄密事件A _m泄露。信任函数Bel(A _m )也称为下限函数，表示对A _m的全部信任，似然函数Pl(A _m )也称为上限函数，表示对A _m非假的信任程度。

信任度区间[0，1]时表示对A _m一无所知；支持区间为[0，Bel(A _m )]，拒绝区间为[Pl (A _m ),1]，支持区间与拒绝区间相等时表示对A _m和

的同样信任即不确定；以上两种情况下无法判断泄露是否发生及泄露途径，流程终止。

否则通过信任度区间计算A _m的确定性，计算确定性时采用类概率函数，公式如下：

式中，

表示A _m在实际可能发生的泄密事件集合T中的概率。

步骤S9，将A _m的确定性

与预先设定的阈值进行比较，若有一个及以上确定性大于阈值，则判断员工操作为泄密行为，否则员工操作不为泄密行为。将确定性最大的A _m拆解为泄密途径e _k，根据判断结果及可能的泄密方式采取相应的一系列响应措施。

实施例二

本发明还公开一种涉密文件泄露检测系统，如图4所示，包括：

排序模块：用于将总融合可信度分配按照从大到小进行排序，取前N个作为可能的泄密方式；

实施例三

本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述涉密文件泄露检测方法的步骤。

实施例四

本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述涉密文件泄露检测方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在发明待批的权利要求保护范围之内。

Claims

1.涉密文件泄露检测方法，其特征在于，包括：

扫描文件系统，确定并标记涉密文件；

将全部探测节点的证据信息进行分组，形成不同组合，每个组合为一种泄密途径；所述泄密途径组成识别框架U：

，K为泄密途径的总数，各泄密途径为互斥关系；

表示空集，每个泄密事件记为A _m，

，M’为泄密事件的总数；

专家n在每个周期内对泄密事件A _m的可信度进行赋值，

，N为专家的数量；

在同一测量周期内，

；

式中，

表示同周期内专家n确定的对A _m的可信度，s表示探测节点；

以泄密途径为依据，获得单周期内各专家在单个探测节点涉密证据可信度分配并融合，得到第一融合可信度分配；所述第一融合可信度分配的计算公式为：

其中，

式中，c ₁为第一归一化因子；

，S为探测节点数量，

，J 为周期数量；

为在探测节点s上，专家n确定的测量周期j对A _m的可信度；

依据第一融合可信度分配，在单周期内进行多探测节点的可信度分配并融合，得到第二融合可信度分配；所述第二融合可信度分配的计算公式如下：

其中，

式中，

为第二融合可信度分配，表示在测量周期j中融合各探测节点后A _m的可信度，c ₂为第二归一化因子；

根据第二融合可信度分配计算总融合可信度分配；所述总融合可信度分配的计算公式如下：

其中，

式中，

为总融合可信度分配，表示各周期融合后泄密途径A _m的可信度，c ₃为第三归一化因子；

2.根据权利要求1所述的涉密文件泄露检测方法，其特征在于，所述确定并标记涉密文件，具体为：通过识别涉密文件的密标标签、文件头及文本比对的方法确定并标记涉密文件。

3.根据权利要求1所述的涉密文件泄露检测方法，其特征在于，所述在数据传输的多个探测节点采集不同周期的证据信息，具体为：在数据传输的多个节点布置探针，通过探针收集证据信息；

每个周期至少包括一个或多个完整的行为。

4.根据权利要求1所述的涉密文件泄露检测方法，其特征在于，所述泄密命题的信任度区间为[Bel(A _m) ,Pl(A _m)]；

其中，

当Bel(A _m )为0，Pl(A _m )为1时，信任度区间为[0，1]，表示对A _m一无所知；当0＜Bel(A _m )＜Pl(A _m )＜1时，[Bel(A _m )，Pl(A _m )]表示信任度区间，区间[0，Bel(A _m )]表示支持区间，区间[Pl (A _m ),1]表示拒绝区间，支持区间与拒绝区间相等时表示对A _m和