CN115146304A

CN115146304A - 一种检测文件泄露行为的方法以及装置

Info

Publication number: CN115146304A
Application number: CN202110353457.0A
Authority: CN
Inventors: 翟浩洋; 田礼军
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-10-04

Abstract

本申请实施例提供一种检测文件泄露行为的方法以及装置，所述方法包括：实时检测日志数据，确认存在目标对象对目标文件的输出操作，其中，所述输出操作包括：上传、刻录或者拷贝；确认在所述输出操作之前的第一预设时段内，存在所述目标对象对所述目标文件的重命名操作；在根据集合相似度算法确认所述重命名操作属于高危操作时，则根据所述目标对象的历史操作习惯确认所述输出操作是否存在泄漏所述目标文件的行为。本申请实施例提供的检测内部文件泄露行为的方法的部署简单，维护方便，准确率高，能够实时、能有效地检测出内部合法用户对文件执行重命名操作后再输出相关文件这种场景中的内部文件泄露问题。

Description

一种检测文件泄露行为的方法以及装置

技术领域

本申请涉及文件安全检测领域，具体而言本申请实施例涉及一种检测文件泄露行为的方法以及装置。

背景技术

现有的防止文件(例如，内部文件)泄露的方法大多基于权限管控技术或数据加密技术，这样不仅需要大量的资源来管理内部文件和用户权限的对应关系，对用户现有业务流程也有影响。另外，加密技术的秘钥管理十分复杂，一旦秘钥丢失或加密后的数据损坏将造成原始数据无法恢复的后果。基于权限管控技术或数据加密技术方法的部署方式都十分复杂，无法解决已被授权的内部人员或具有合法凭证的外部人员，进行有意或无意的文件泄露问题。

因此如何提升内部文件泄露行为的检测效果成了亟待解决的技术问题。

发明内容

本申请实施例的目的在于提供一种检测文件泄露行为的方法以及装置，由于本申请实施例的技术方案对应的检测方法并不涉及文件内容检测，尽可能地保护到了用户隐私，且部署简单，维护方便，准确率高，能够实时、有效地检测出内部合法用户对文件执行重命名操作后再输出相关文件这种场景中的文件泄露问题，方便管理员及时发现并制止内部的文件泄露操作，从而保护企业的数据和信息安全。

第一方面，本申请的一些实施例提供一种检测文件泄露行为的方法，所述方法包括：实时检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，其中，所述输出操作包括：上传、刻录或者拷贝；确认在所述第一时刻之前的预设时段内，存在所述目标对象对所述目标文件的重命名操作；在根据集合相似度算法确认所述重命名操作属于高危操作时，则根据所述目标对象的历史操作习惯确认所述输出操作是否存在泄漏所述目标文件的行为。

与现有技术的方法相比，本申请实施例提供的检测内部文件泄露行为的方法的部署简单，维护方便，准确率高，能够实时、能有效地检测出内部合法用户对文件执行重命名操作后再输出相关文件这种场景中的内部文件泄露问题，方便管理员及时发现并制止内部的文件泄露操作，从而保护企业的数据和信息安全。

在一些实施例中，所述根据集合相似度算法确认所述重命名操作属于高危操作，包括：获取所述重命名操作对应的重命名前后的文件名称的相似度值；当所述相似度值大于相似度阈值时，则确认所述重命名操作属于所述高危操作。

本申请的一些实施例通过判断重命名前后文件名称的相似性来确定重命名操作的危险程度，这种检测方法并不涉及文件内容检测，因此可以在确认重命名操作行为危险性的基础上还尽可能地保护到了用户隐私。

在一些实施例中，通过雅卡尔算法获取所述的相似度值。

本申请的一些实施例通过雅卡尔算法确认重命名前后的文件名称对应的字符串的相似度，计算量少提升了数据处理的速度。

在一些实施例中，所述根据所述目标对象的历史操作习惯确认所述输出操作是否存在泄漏所述目标文件的行为，包括：在统计时间段内，获取所述目标对象对所述目标文件执行的组合操作的操作频次，其中，组合操作包括依次执行的重命名操作和输出操作，所述统计时间段是根据预设时间窗口和所述第一时刻确定的；根据历史日志数据获取所述组合操作的操作频次阈值；根据所述组合操作的操作频次和所述操作频次阈值确认所述输出操作是否存在泄漏所述目标文件的行为。

本申请的一些实施例通过判断目标对象的组合操作(即对于目标文件依次执行的文件重命名操作和输出操作)的频次是否符合其操作习惯，进一步提高了异常检测的准确率。

在一些实施例中，所述根据历史日志数据获取所述组合操作的操作频次阈值，包括：根据统计学异常检测算法和所述历史日志数据得到所述操作频次阈值。

本申请的一些实施例采用统计异常检测方法确定操作频次阈值计算量较小，提升了数据处理的速度。

在一些实施例中，所述统计学异常检测算法包括箱型图算法，其中，所述根据统计学异常检测算法和所述历史日志数据得到所述操作频次阈值，包括：根据所述预设时间窗口、窗口移动距离和采样次数对所述历史日志数据进行多次采样，得到历史组合操作次数序列，其中，所述历史组合操作次数序列包括的元素数与所述采样次数相同；根据所述历史组合操作次数序列和所述箱型图算法得到所述操作频次阈值。

本申请的一些实施例通过多次采样历史日志数据获取组合操作(即先重命名在输出同一文件)的操作频次阈值，进一步提升了操作频次阈值估计的客观性和准确性。

在一些实施例中，所述根据所述预设时间窗口、窗口移动距离和采样次数对所述历史日志数据进行多次采样，得到历史组合操作次数序列，包括：根据所述窗口移动距离多次移动所述预设时间窗口，并在每次移动得到的时间段内获得所述组合操作的次数，得到所述历史组合操作次数序列中各元素值，其中，所述多次移动的次数等于所述采样次数；根据所述各元素值和四份位数的位置得到所述操作频次阈值。

本申请的一些实施例通过窗口移动距离多次移动预设时间窗口，得到相应时间段内历史组合操作次数序列中各元素值，提升了历史操作规律统计的准确性和客观性。

在一些实施例中，所述相似度阈值、所述预设时间窗口、所述窗口移动距离和所述采样次数中的至少一个为可配置参数。

本申请的一些实施例通过对关键参数(例如，相似度阈值、预设时间窗口、采样次数等)可由用户进行配置并根据实际情况进行动态调整，扩展了本申请检测内部文件泄露行为的方法的应用场景。

在一些实施例中，所述实时检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，包括：实时检测缓存的文件操作日志队列，并根据关注条件筛选得到所述目标对象在所述第一时刻对所述目标文件执行输出操作，其中，所述关注条件包括文件名、文件格式和文件路径中的至少一个。

本申请的一些实施例通过设置关注条件可以筛选出目标文件进行重点文件安全性检测。

在本申请的一些实施例中，所述文件名、文件格式或文件路径为可配置参数。

本申请的一些实施例通过配置或者调整关注条件中具体的文件名等信息来筛选感兴趣文件或者重要程度较高的文件进行安全性检测，防止重要级别较高的文件的被泄露的风险。

第二方面，本申请的一些实施例提供一种检测文件泄露行为的装置，所述的装置包括：输出操作获取模块，被配置为实时检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，其中，所述输出操作包括：上传、刻录或者拷贝；重命名操作获取模块，被配置为确认在所述第一时刻之前的预设时段内，存在所述目标对象对所述目标文件的重命名操作；操作风险获取模块，被配置为在根据集合相似度算法确认所述重命名操作属于高危操作时，则根据所述目标对象的历史操作习惯确认是否存在泄漏所述目标文件的行为。

第三方面，本申请的一些实施例提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现上述第一方面所述的方法。

第四方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现上述第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的日志审计服务器的组成框图；

图3为本申请实施例提供的检测文件泄露行为的方法的流程图之一；

图4为本申请实施例提供的检测文件泄露行为的方法的流程图之二；

图5为本申请实施例提供的检测文件泄露行为的装置的组成框图；

图6为本申请实施例提供的电子设备的组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的检测文件(例如，内部文件)泄露行为的方法应用于一类常见、高危、具体的文件泄露场景，这种场景包括内部合法用户或者具有合法凭证的外部用户对文件执行重命名操作后再输出相关文件而导致的文件泄露。为了尽可能识别在这种场景下的内部文件泄露行为，本申请的一些实施例首先判断重命名操作本身是否属于高危操作(例如，通过对重命名操作前后文件名称的相似度值和设置的相似度阈值来确定重命名操作属于高危操作)，再基于该用户(即目标对象)的历史操作习惯判断本次操作是否正常(例如，利用统计学异常检测算法确定正常操作频次阈值来判断本次操作是否正常)，在本申请的另一些实施例中还支持算法的关键参数可配置，考虑了用户差异化，进一步提升了识别泄露内部文件行为的准确率。需要说明的是，企业内部的文件均属于内部文件，包括产品文档、源代码等，但并不是所有的内部文件都需要检测，可根据敏感或重要程度进行自定义配置。

请参看图1，图1为本申请的一些实施例提供可应用检测文件(例如，内部文件)泄露行为的方法的应用场景示意图。图1的应用场景中包括多个主机110以及日志审计服务器100。

每个主机110均包括至少一个文件111和一个日志采样模块112。为了能够应用本申请实施例的检测内部文件泄露行为的方法，各主机110的日志采样模块112至少能够采样用户对至少一个文件111中各文件进行的各种操作(例如，各种操作包括：上传、下载、重命名、删除等)，获得文件操作日志数据。主机110实时的将采样的文件操作日志数据发送给日志审计服务器100，以使日志审计服务器100对文件日志数据进行分析发现各种内部文件泄露行为。

日志审计服务器100用于执行本申请实施例的检测内部文件泄露行为的方法。作为一个示例，如图2所示，本申请一些实施例的日志审计服务器100包括日志接收模块101、日志预处理模块102、日志缓存模块103、历史日志存储数据库104以及异常检测模块105。

日志接收模块101可以通过应用程序接口API或者syslog协议等方式实时的从各主机110接收文件操作日志数据。

日志预处理模块102可以对日志接收模块101接收的数据进行清洗操作，所述清洗操作包括对文件操作日志数据进行完整性、唯一性、权威性以及合法性检验，剔除无关信息和冗余信息(可通过文件名、文件类型以及文件存放路径进行筛选)，并将其转换为异常检测需要的目标数据格式。

日志缓存模块103用于对接收的清洗后的文件操作日志数据进行缓存，以使异常检测模块105能够实时从缓存队列中读取并识别最新发生的目标对象(即根据预置条件筛选出的某个内部用户)对目标文件的输出操作。

历史日志存储数据库104用于存储历史日志数据，以使异常检测模块105可以基于历史日志数据获取在预设时段内存在的所述目标对象对所述目标文件的重命名操作，并使得异常检测模块105根据历史日志数据获取目标对象的历史操作习惯，也就是获得目标对象的正常组合操作频次(或称为操作频次阈值)。

作为一个示例，异常检测模块105被配置为执行如下步骤：实时监听文件操作日志数据，检测关注的文件输出操作(即，目标对象对目标文件的输出操作)；在检测到文件输出操作之后，进一步检测文件输出操作之前(即预设时间段内)是否有针对同一目标文件的重名操作(例如，读取已保存的日志数据，检测文件输出的前某段时间内，是否有对应的重命名操作)；在检测到在预设时间段内存在重命名操作时，进一步确定重命名前后的字符串相似度来确定重命名操作的危险性；当确认重命名操作属于高危操作时，进一步使用统计学习的方法判断目标对象的组合操作(即针对同一文件依次执行了重命名操作和输出操作)频次是否符合其操作习惯，来最终确认用户本次的输出操作(例如，第一时刻检测到的输出操作)是否存在内部文件泄露行为。

需要说明的是，图1的主机110和日志审计服务器100属于不同的实体，也就是说，图1的主机上仅设置了日志采样模块112，因此如果要根据文件操作日志获取主机110上是否存在内部文件泄露的情况，需要主机110将文件操作日志通过有线或者无线的方式发送至日志审计服务器100，由日志审计服务器100分析文件操作日志并提供各主机110上是否存在内部文件泄露行为的评估结果。但是本申请的实施例并不限定这一种应用场景，在另一些实施例中可以将日志审计服务器100执行的检测内部文件泄露行为的方法设置于各个主机110上，也就是说，在一些实施例中，主机110上不仅设置日志采样模块112，还设置了如图2所示的日志接收模块101、日志预处理模块102、日志缓存模块103、历史日志存储数据库104以及异常检测模块105，这时可以由主机110进行文件操作日志采样和分析直接获取主机110上是否存在内部文件泄露行为。

下面结合图3示例性阐述由图2的异常检测模块105执行的检测内部文件泄露行为的方法。

如图3所示，本申请的一些实施例提供一种检测文件泄露行为的方法，所述方法包括：S101，实时检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，其中，所述输出操作包括：上传、刻录或者拷贝；S102，确认在所述第一时刻之前的预设时段内，存在所述目标对象对所述目标文件的重命名操作；S103，在根据集合相似度算法确认所述重命名操作属于高危操作时，则根据所述目标对象的历史操作习惯确认所述输出操作是否存在泄漏所述目标文件的行为。

下面示例性阐述上述各步骤。

在一些实施例中，S101包括：实时检测缓存的文件操作日志队列，并根据关注条件筛选得到所述目标对象在第一时刻对所述目标文件执行输出操作，其中，所述关注条件包括文件名、文件格式和文件路径中的至少一个。例如，实时监听缓存队列(例如，监听由Apache软件基金会开发的一个开源流处理平台Kafka(Apache Kafka))中的文件操作日志数据，过滤得到满足关注条件(包括但不限于文件名、文件格式、文件路径等)的文件输出操作(包括但不限于上传、刻录、拷贝等)，即确认存在目标对象对目标文件的输出操作。

在一些实施例中，S102包括：读取已保存的历史日志数据(例如，从历史日志存储数据库104中读取)，检测第一时刻之前的某段时间(或称为第一时刻之前的预设时段内，例如，预设时间段长度为1h)内，是否有对应的重命名操作(目标文件相同)。例如，发现文件b的输出操作(该输出操作的目标文件即文件b)后，在预设时间段内检测到文件b的原文件名为文件a(该重命名操作的源文件为a，目标文件为b)。若存在重命名操作即确认在所述输出操作(即第一时刻)之前的预设时间段内，存在目标对象对所述目标文件的重命名操作，继续执行S103；若不存在重命名操作则不执行后续步骤，即不执行S103。

需要说明的是，S103的字符串度相似度算法包括：余弦相似性、欧氏距离、编辑距离、Dice系数、Jaccard(雅卡尔)系数等。

在一些实施例中，S103包括：获取所述重命名操作对应的重命名前后的文件名称的相似度值；当所述相似度值大于相似度阈值时，则确认所述重命名操作属于高危操作。例如，通过雅卡尔算法获取所述的相似度值。

作为一个示例，S103包括：根据Jaccard(雅卡尔)系数检测重命名前后的字符串相似度(暂不考虑语义)。若相似度较低(例如，低于0.5)，则保存该组合操(文件重命名和输出)操作到数据库表中；否则视为该重命名操作正常，不再进行后续的步骤。例如，计算字符串相似度的过程如下：使用分词器(兼容中英文)分别将两个字符串拆分为集合(每个字符在集合中仅出现一次)，然后计算两个集合的交集、并集的长度，得出其Jaccard(雅卡尔)系数，进而得出两个字符串的相似度。

在一些实施例中，S103的根据目标对象的历史操作习惯确认输出操作是否存在泄漏目标文件的行为还包括：在统计时间段内，获取所述目标对象对所述目标文件执行的组合操作的操作频次，其中，组合操作包括依次执行的重命名操作和输出操作，所述统计时间段是根据预设时间窗口和所述第一时刻确定的(例如，假设S101过滤得到的对目标文件的输出操作发生在第一时刻t₁，设置的预设时间窗口大小为Δt，则统计时间段为从t₁时刻向前推Δt时长对应的时间段)；根据历史日志数据获取所述组合操作的操作频次阈值；根据所述组合操作的操作频次和所述操作频次阈值确认发生在第一时刻t₁的输出操作是否存在泄漏所述目标文件的行为。例如，根据统计学异常检测算法和所述历史日志数据得到所述操作频次阈值。需要说明的是，统计学异常检测算法包括：三西格玛定律、箱型图、GrubbsTest(最大归一化残差检测)等算法。

作为一个示例，所述统计学异常检测算法包括箱型图算法，其中，S103根据统计学异常检测算法和所述历史日志数据得到所述操作频次阈值的过程包括：根据预设时间窗口、窗口移动距离和采样次数对所述历史日志数据进行多次采样，得到历史组合操作次数序列，其中，所述历史组合操作次数序列包括的元素数与所述采样次数相同；根据所述历史组合操作次数序列和所述箱型图算法得到所述操作频次阈值。需要说明的是，获取操作频次阈值的预设时间窗口的大小与获取操作频次的预设时间窗口的大小相同，因此两者采用同一个名称表征。

例如，根据所述预设时间窗口、窗口移动距离和采样次数对所述历史日志数据进行多次采样，得到历史组合操作次数序列，包括：根据所述窗口移动距离多次移动所述预设时间窗口，并在每次移动得到的时间段内获得所述组合操作的次数，得到所述历史组合操作次数序列中的各元素值，其中，所述多次移动的次数等于所述采样次数；根据所述各元素值和四分位数的位置得到所述操作频次阈值。

以箱型图算法为例，示例性阐述S103。

执行S103即根据操作频次阈值检测目标对象的操作频次是否正常，其中，操作频次阈值和操作频次中一次操作对应一次组合操作，组合操作是指依次针对目标文件执行的重命名操作和输出操作。

具体地，S103获取操作频次的过程包括：读取数据库表，获取统计时间段内数据库表记录的目标对象(或称为目标用户)的组合操作次数(batch_statistics)，其中，统计时间段从S101过滤得到发生输出操作的第一时刻为起始时刻向前推预设时间窗口大小所对应的时间段。例如，以某段时间(例如30天)为预设时间窗口大小，假设S101得到的输出操作发生的第一时刻为t₀时刻，则S103获取操作频次即从数据库表获取“(t₀-30)天至t₀”时刻这段时间段内发生的组合操作的次数。

S103获取操作频次阈值的过程包括：基于预设时间窗口、窗口移动距离和采样次数，利用箱型图算法计算出目标对象的正常的操作对应的操作频次阈值(batch_threshold)。例如，计算操作频次阈值的具体过程如下：根据窗口移动距离逐次移动预设时间窗口得到多个时间段(例如，窗口移动距离为1天)，确定采样次数(例如30次)，得到长度为采样次数的操作序列。然后对得到的操作序列的数据按照从小到大进行排列，分别计算第三四分位数Q₃(又称下四分位数)、第一四分位数Q₁(又称上四分位数)和IQR，得出操作频次阈值(上限)＝Q₃+1.5IQR，其中，IQR＝Q₃-Q₁，Q_i所在的位置p＝i*(n+1)/4，n为操作序列包括的总项数或者总元素数；当所在位置p不是整数时，则按均匀分布进行取值。例如p＝2.25，则第2.25个数＝(第三个数-第二个数)25/100+第二个数＝第二个数0.75+第三个数*0.25。

作为一个示例，S103为了获取操作频次阈值包括如下过程。

第一步，假设预设时间窗口为30天，S101得到的输出操作发生在第一时刻t₀，为了获取操作频次阈值而设置的采样次数为5，则采样五个预设时间窗口对应的时间段得到由五个元素组成的操作序列(5，3，2，1，4)。也就是说，统计得到“(t₀-30-1)天至t₀-1”这段预设时间窗口对应的组合操作的次数为5，“(t₀-30-2)天至(t₀-2)”这段预设时间窗口对应的组合操作的次数为3，“(t₀-30-3)天至(t₀-3)”这段预设时间窗口对应的组合操作的次数为2，“(t₀-30-4)天至(t₀-4)”这段预设时间窗口对应的组合操作的次数为1，“(t₀-30-5)天至(t₀-5)”这段预设时间窗口对应的组合操作的次数为4。

第二步，将操作序列按照由小到大的排序后：1次、2次、3次、4次和5次，之后确定四分位数的位置且n取值为5(例如，Q_i所在的位置＝i*(n+1)/4，其中，i＝1,2,3，n表示操作序列包括的项数或者成为元素数)，根据位置，计算相应的四份位数，并最终确定操作频次阈值。

具体地，Q₁所在的位置＝(5+1)/4＝1.5，Q₁＝0.5*第一项(或称为第一个元素，即从小到大排序后序列的第一个数的值)+0.5*第二项(或称为第二个元素，即从小到大排序后序列的第二个数的值)＝1.5；Q₃所在的位置＝(5+1)*3/4＝4.5，Q₃＝0.5*第四项(或称为第四个元素，即从小到大排序后序列的第四个数的值)+0.5*第五项(或称为第五个元素，即从小到大排序后序列的第五个数的值)＝0.5*4+0.5*5＝4.5；IQR＝Q₃-Q₁＝4.5-1.5＝3；则操作频次阈值＝Q₃+1.5IQR＝4.5+1.5*3＝9，也就是说根据箱型图算法得到的操作频次阈值为9，如果确定操作频次大于9则确认S101检测到的输出操作为非正常行为，相应的目标文件存在被泄露的风险。

需要说明的是，在本申请的一些实施例中S103之后还包括输出异常事件，例如，比较S103得到的操作频次batch_statistics和操作频次阈值batch_threshold，若batch_statistics>＝batch_threshold，则表示存在文件泄露的风险，将输出异常事件并通知管理员，否则视为正常，结束本次检测。

为了提升本申请算法的应用场景，在本申请的一些实施例中，所述相似度阈值、所述预设时间窗口、所述窗口移动距离和所述采样次数中的至少一个为可配置参数。本申请一些实施例的检测内部文件泄露行为的方法中的关键参数(例如文件名、相似度阈值、预设时间窗口大小、采样次数等)可由用户进行配置并根据实际情况进行动态调整，该检测方法并不涉及文件内容，尽可能地保护到了用户隐私。

如图4所示，下面结合一个具体示例阐述本申请实施例的检测内部文件泄露行为的方法。

S401，监听日志数据。

S402，是否是关注的输出操作。具体地，根据实时监听的日志数据确认是否存在目标对象对目标文件的输出操作。

假设监听日志缓存队列收到的实时日志数据为：zhangsan/user/local/test.txt/user/local/test.txt upload time₁，该条日志表征目标对象(或称为目标对象)zhangsan在时间第一时刻time₁对目标文件/user/local/test.txt进行了upload(上传)的输出操作，其中，源文件和目标文件相同，并假设用户、文件及文件操作都是需要关注的信息，即满足第一步的过滤条件。例如，一条审计的日志数据至少包含以下信息：

表1一条日志数据包括的信息

字段名称	说明
		user	用户
source_file	源文件
		destination_file	目标文件
operate	操作类型
		time	发生时间

S403，确认前某段时间内是否有重命名操作。

例如，根据S401收到的日志数据信息，检测目标用户zhangsan在对目标文件/user/local/test.txt进行上传upload操作的前某段时间内(假设为1h)内是否有对该文件的重命名操作，即是否存在类似日志：zhangsan/user/local/zhaongyao.txt/user/local/test.txt rename time₂，且满足time₂+1h<time₁。若存在类似日志则进行S405，否则执行S404的结束本次检测。

S405，确认重命名前后的文件名称是否相似度较低。

例如，基于Jaccard(雅卡尔)系数计算重命名前后的文件名称的相似度。若该相似度小于配置的相似度阈值，则执行S406；否则视为该重命名操作正常，不再进行后续的步骤。

S406，保存目标对象的“文件重命名和输出”操作至数据库表，并进行S407。例如，保存目标对象、源文件、目标文件、重命名时间、文件输出方式、输出时间等信息。

S407，确认操作频次是否正常。

例如，检测目标对象在统计时间段内执行的“文件重命名和输出”的操作频次是否正常，读取数据库已保存的文件操作日志信息表，根据目标对象、时间段进行筛选，统计得到统计时间段内目标用户的组合操作(即依次执行重命名操作和输出操作)次数(batch_statistics)，然后基于预设时间窗口大小(假设为30)、窗口移动距离(假设为1)、采样次数(假设为10)等参数，获取长度为采样次数的历史组合操作次数序列，据此参照箱型图算法得出操作频次阈值(batch_threshold)，具体计算方法可参考上文描述。为避免重复在此不做过多赘述。

S408，输出异常时间。例如，比较S407中操作频次batch_statistics和操作频次阈值batch_threshold，若batch_statistics>＝batch_threshold，则表示存在文件泄露的风险，将输出异常事件并通知管理员，否则视为正常，结束本次检测。

请参考图5，图5示出了本申请实施例通过的检测文件泄露行为的装置，应理解，该装置与上述图3或图4方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该检测内部文件泄露行为的装置，包括：输出操作获取模块401，被配置为检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，其中，所述输出操作包括：上传、刻录或者拷贝；重命名操作获取模块402，被配置为确认在所述第一时刻之前的预设时段内，存在所述目标对象对所述目标文件的重命名操作；操作风险获取模块403，被配置为在根据集合相似度算法确认所述重命名操作属于高危操作时，则根据所述目标用户的历时操作习惯确认是否存在泄漏所述目标文件的行为。

在一些实施例中，操作风险获取模块403还包括重命名操作危险性获取模块(图中未示出)被配置为：获取所述重命名操作对应的重命名前后的文件名称的相似度值；当确认所述相似度值大于相似度阈值时，则确认所述重命名操作属于所述高危操作。例如，通过雅卡尔算法获取所述的相似度值。

在一些实施例中，操作风险获取模块403被配置为：在统计时间段内，获取所述目标用户对所述目标文件执行的组合操作的操作频次，其中，组合操作包括依次执行的重命名操作和输出操作，所述统计时间段是根据预设时间窗口和所述第一时刻确定的；根据历史日志数据获取所述组合操作的操作频次阈值；根据所述组合操作的操作频次和所述操作频次阈值确认是否存在泄漏所述目标文件的行为。

在一些实施例中，所述操作风险获取模块403还被配置为：根据统计学异常检测算法和所述历史日志数据得到所述操作频次阈值。

在一些实施例中，所述统计学异常检测算法包括箱型图算法，其中，所述操作风险获取模块403还被配置为：根据所述预设时间窗口、窗口移动距离和采样次数对所述历史日志数据进行多次采样，得到历史组合操作次数序列，其中，所述历史组合操作次数序列包括的元素数与所述采样次数相同；根据所述历史组合操作次数序列和所述箱型图算法得到所述操作频次阈值。

在一些实施例中，所述操作风险获取模块403还被配置为：根据所述窗口移动距离多次移动所述预设时间窗口，并在每次移动得到的时间段内获得所述组合操作的次数，得到所述历史组合操作次数序列中各元素值，其中，所述多次移动的次数等于所述采样次数；根据所述各元素值和四份位数的位置得到所述操作频次阈值。

在一些实施例中，所述输出操作获取模块401被配置为：实时检测缓存的文件操作日志队列，并根据关注条件筛选得到所述目标对象在所述第一时刻对所述目标文件执行输出操作，其中，所述关注条件包括文件名、文件格式和文件路径中的至少一个。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述图3中方法的对应过程，在此不再过多赘述。

本申请的一些实施例提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现上述检测内部文件泄露行为方法中的各实施例。

如图6所示，本申请的一些实施例提供一种电子设备500，包括存储器510、处理器520以及存储在所述存储器510上并可在所述处理器520上运行的计算机程序，其中，所述处理器520通过总线530从存储器510上读取程序并执行所述程序时可实现上述检测内部文件泄露行为方法中的各实施例对应的方法。

处理器520可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器520可以是微处理器。

存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现图3中所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种检测文件泄露行为的方法，其特征在于，所述方法包括：

实时检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，其中，所述输出操作包括：上传、刻录或者拷贝；

确认在所述第一时刻之前的预设时段内，存在所述目标对象对所述目标文件的重命名操作；

在根据集合相似度算法确认所述重命名操作属于高危操作时，则根据所述目标对象的历史操作习惯确认所述输出操作是否存在泄漏所述目标文件的行为。

2.如权利要求1所述的方法，其特征在于，所述根据集合相似度算法确认所述重命名操作属于高危操作，包括：

获取所述重命名操作对应的重命名前后的文件名称的相似度值；

当所述相似度值大于相似度阈值时，则确认所述重命名操作属于所述高危操作。

3.如权利要求2所述的方法，其特征在于，通过雅卡尔算法获取所述相似度值。

4.如权利要求2所述的方法，其特征在于，所述根据所述目标对象的历史操作习惯确认所述输出操作是否存在泄漏所述目标文件的行为，包括：

在统计时间段内，获取所述目标对象对所述目标文件执行的组合操作的操作频次，其中，组合操作包括依次执行的重命名操作和输出操作，所述统计时间段是根据预设时间窗口和所述第一时刻确定的；

根据历史日志数据获取所述组合操作的操作频次阈值；

根据所述组合操作的操作频次和所述操作频次阈值确认所述输出操作是否存在泄漏所述目标文件的行为。

5.如权利要求4所述的方法，其特征在于，所述根据历史日志数据获取所述组合操作的操作频次阈值，包括：根据统计学异常检测算法和所述历史日志数据得到所述操作频次阈值。

6.如权利要求5所述的方法，其特征在于，所述统计学异常检测算法包括箱型图算法，其中，

所述根据统计学异常检测算法和所述历史日志数据得到所述操作频次阈值，包括：

根据所述预设时间窗口、窗口移动距离和采样次数对所述历史日志数据进行多次采样，得到历史组合操作次数序列，其中，所述历史组合操作次数序列包括的元素数与所述采样次数相同；

根据所述历史组合操作次数序列和所述箱型图算法得到所述操作频次阈值。

7.如权利要求6所述的方法，其特征在于，所述根据所述预设时间窗口、窗口移动距离和采样次数对所述历史日志数据进行多次采样，得到历史组合操作次数序列，包括：

根据所述窗口移动距离多次移动所述预设时间窗口，并在每次移动得到的时间段内获得所述组合操作的次数，得到所述历史组合操作次数序列中各元素值，其中，所述多次移动的次数等于所述采样次数；

根据所述各元素值和四份位数的位置得到所述操作频次阈值。

8.如权利要求6所述的方法，其特征在于，所述相似度阈值、所述预设时间窗口、所述窗口移动距离和所述采样次数中的至少一个为可配置参数。

9.如权利要求1所述的方法，其特征在于，所述实时检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，包括：实时检测缓存的文件操作日志队列，并根据关注条件筛选得到所述目标对象在所述第一时刻对所述目标文件执行输出操作，其中，所述关注条件包括文件名、文件格式和文件路径中的至少一个。

10.如权利要求9所述的方法，其特征在于，所述文件名、文件格式或文件路径为可配置参数。

11.一种检测文件泄露行为的装置，其特征在于，所述的装置包括：

输出操作获取模块，被配置为实时检测日志数据，确认在第一时刻存在目标对象对目标文件的输出操作，其中，所述输出操作包括：上传、刻录或者拷贝；

重命名操作获取模块，被配置为确认在所述第一时刻之前的预设时段内，存在所述目标对象对所述目标文件的重命名操作；

操作风险获取模块，被配置为在根据集合相似度算法确认所述重命名操作属于高危操作时，则根据所述目标对象的历史操作习惯确认是否存在泄漏所述目标文件的行为。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时可实现权利要求1-10中任意一项权利要求所述的方法。

13.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现权利要求1-10中任意一项利要求所述的方法。