CN117290388A

CN117290388A - 一种基于文件的敏感规则创建方法及电子设备

Info

Publication number: CN117290388A
Application number: CN202311102569.4A
Authority: CN
Inventors: 梁俊林; 张礼达; 何华荣; 黄杰; 王志; 祝青柳
Original assignee: Shenzhen Leagsoft Technology Co ltd
Current assignee: Shenzhen Leagsoft Technology Co ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-26

Abstract

本发明实施例公开了一种基于文件的敏感规则创建方法及电子设备。方法包括：单个和组合敏感规则的创建。本发明实施例优点如下：1、基于文件属性或文件内容，针对每一个敏感相关的信息划分单个敏感规则，管理员只需要根据自己的场景组合这些敏感规则使用，即可达到敏感文件识别的目的。这样大大提高了规则的配置灵活性，方便管理员对应更多敏感文件识别场景。2、针对多规则检查敏感文件的应用场景，基于二叉树原理，构建规则树来维护维护之间的关系，可有效地避免复杂规则关系中有重复的规则检查，从而提高了多规则的检查速度。3、针对采用关键字规则检查敏感文件的应用场景，采用BM多模匹配算法实现，从而提升了检查速度。

Description

一种基于文件的敏感规则创建方法及电子设备

技术领域

本发明涉及计算机技术领域，具体涉及一种基于文件的敏感规则创建方法及电子设备。

背景技术

目前，敏感规则的划分可以从文件属性和文件内容两方面来实现。但是，目前的敏感规则划分存在如下缺陷：

(1)敏感规则的配置和使用不够灵活：现有的DLP(Data Leakage Prevention，数据防泄漏)技术是针对已知的常规场景设立敏感条件，但是遇到新的场景则需要重新设立新的敏感条件来解决。

(2)多规则检查速度慢：现有DLP技术在复杂场景中配置多个规则检查敏感文件，而在复杂的规则关系中，往往存在一个规则多次检查的情况，导致检查速度慢。

(3)关键字规则检查速度慢：现有DLP技术在配置的关键字数量较多时，检查速度缓慢。

发明内容

针对背景技术中所提及的技术缺陷，本发明实施例的目的在于提供一种基于文件的敏感规则创建方法及电子设备。

为实现上述目的，第一方面，本发明实施例提供了一种基于文件的敏感规则创建方法，包括单个敏感规则创建，单个敏感规则包括文件属性类规则和文件内容类规则；

其中，文件属性类规则的创建过程具体为：

获取文件属性，并从所述文件属性中提取出与敏感相关的多个信息，将每一个信息划分为单个敏感规则；

文件内容类规则的创建过程具体为：

获取文件内容，并从所述文件内容中提取出与敏感相关的多个信息，将每一个信息划分为单个敏感规则。

作为本申请的一种优选实现方式，所述创建方法还包括组合敏感规则创建，具体为：

根据单个敏感规则和运算符得到组合敏感规则；所述运算符包括与、或和非。

进一步地，作为本申请的一种优选实现方式，所述创建方法还包括规则树构建，具体为：

基于二叉树原理，将任一组合敏感规则确定为起始节点，每一中间节点存放运算符，每一叶子节点存放任一组合敏感规则；且同一组合敏感规则可存放于不同的叶子节点。

第二方面，本发明实施例提供了一种电子设备，其用于基于文件创建敏感规则。该电子设备包括创建模块，用于：

创建单个敏感规则；所述单个敏感规则包括文件属性类规则和文件内容类规则；

其中，文件属性类规则的创建过程具体为：

文件内容类规则的创建过程具体为：

其中，所述文件内容类规则包括有规律的文本内容规则和无规律的文本内容规则，所述有规律的文本内容规则包括姓名规则、银行卡规则、身份证规则、电话号码规则、快递单号规则、邮箱地址规则、源代码规则、关键字规则和正则规则；所述无规律的文本内容规则包括DNA规则和聚类规则。

作为一种具体实现方式，当将单个敏感规则应用于庞大的关键字数量检查时，所述关键字规则中采用BM多模匹配算法提升检查速度。

进一步地，所述创建模块还用于创建组合敏感规则，具体为：

进一步地，所述电子设备还包括构建模块，用于构建规则树，具体为：

第三方面，本发明实施例还提供了另一种电子设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如上述第一方面所述的方法步骤。

本发明实施例提供的敏感规则创建方法，具有如下优点：

1、基于文件属性或文件内容，针对每一个敏感相关的信息划分单个敏感规则，管理员只需要根据自己的场景组合这些敏感规则使用，即可达到敏感文件识别的目的。这样大大提高了规则的配置灵活性，方便管理员对应更多敏感文件识别场景。

2、针对多规则检查敏感文件的应用场景，基于二叉树原理，构建规则树来维护维护之间的关系，可有效地避免复杂规则关系中有重复的规则检查，从而提高了多规则的检查速度。

3、针对采用关键字规则检查敏感文件的应用场景，采用BM多模匹配算法实现，从而提升了检查速度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的基于文件的敏感规则创建方法流程图；

图2是文件属性类规则的示意图；

图3是文件内容类规则的示意图；

图4是场景一中组合规则的创建示意图；

图5是场景二中组合规则的创建示意图；

图6是规则树原理图；

图7是电子设备的一种结构图；

图8是电子设备的另一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本发明实施例主要基于文件创建敏感规则，使得管理员可通过敏感规则对其所管控的终端、云端中所有符合敏感规则的文件进行识别和防泄密处理。

需要说明的是，现有DLP(Data Leakage Prevention，数据防泄漏)技术缺点和本产品的改进：

a.规则的配置和使用不够灵活。现有的DLP(Data Leakage Prevention，数据防泄漏)技术是针对已知的常规场景设立敏感条件，但是遇到新的场景则需要重新设立新的敏感条件来解决。针对该问题，本申请实施例把每一种和敏感相关的信息都细分成一个敏感规则，管理员只需要根据自己的场景组合这些敏感规则使用，即可达到敏感文件识别的目的。这样大大提高了规则的配置灵活性，方便管理员对应更多敏感文件识别场景。

b.多规则检查速度慢。现有DLP(Data Leakage Prevention，数据防泄漏)技术在复杂场景中配置多个规则检查敏感文件，而在复杂的规则关系中，往往存在一个规则多次检查的情况，导致检查速度慢。针对该问题，本申请实施例通过构建多颗规则树来维护规则之间的关系，避免复杂的规则关系中有重复的规则检查。

c.关键字规则检查速度慢。现有DLP(Data Leakage Prevention，数据防泄漏)技术在中配置的关键字数量很多时检查速度缓慢，针对该问题，本申请实施例通过BM(Boyer-Moore，一种非常高效的字符串搜索算法)多模匹配的算法来提升检查速度。

请参考图1，本申请实施例提供的基于文件的敏感规则创建方法主要包括：

S1，单个敏感规则创建。

单个敏感规则(基础规则)包括文件属性类规则和文件内容类规则。

其中，文件属性类规则的创建过程具体为：

获取文件属性，并从文件属性中提取出与敏感相关的多个信息，将每一个信息划分为单个敏感规则。

如图2所示，文件属性类规则具体包括：

文件类型规则：通过文件头、文件尾、文件内部结构和文件后缀等信息来识别文件的类型是否敏感；

文件加密规则：判断文件是否是常规的office加密、压缩加密、pdf加密等信息来识别文件的类型识别敏感；

文件MD5规则：通过MD5算法获取文件的MD5来识别文件是否敏感；

文件名称规则：通过文件名称是否含有敏感信息来识别文件是否敏感；

文件大小规则：通过判断文件大小来识别文件是否敏感；

文件日期规则：通过判断文件的创建日期、修改日期来识别文件是否敏感；

文件容量规则，通过判断文件的字数、行数、页数、附件数量等信息来识别文件是否敏感。

如图3所示，文件内容类规则包括有规律的文本内容规则和无规律的文本内容规则；有规律的文本内容规则包括：

姓名规则：通过检查文件内容中姓名出现的次数和个数来识别是否敏感；

银行卡规则：通过检查文件内容中银行卡出现的次数和个数来识别是否敏感；

身份证规则：通过检查文件内容中身份证出现的次数和个数来识别是否敏感；

电话号码规则：通过检查文件内容中电话号码出现的次数和个数来识别是否敏感；

快递单号规则：通过检查文件内容中快递单号出现的次数和个数来识别是否敏感；

邮箱地址规则：通过检查文件内容中邮箱地址出现的次数和个数来识别是否敏感；

源代码规则：通过检查文件内容中包含源代码文本来识别是否敏感；

关键字规则：通过检查文件内容中用户自定义关键字出现的次数和个数来识别是否敏感；需要说明的是，在关键字规则中使用了BM(Boyer-Moore，一种非常高效的字符串搜索算法)多模匹配算法，可提高配置的关键字数量庞大时的检查速度；

正则规则：通过检查文件内容中符合用户自定义正则文本来识别是否敏感。

进一步地，无规律的文本内容规则包括：

DNA规则：通过DNA算法检查文件内容与样本文件的相似度来识别是否敏感；需要说明的是，DNA规则先使用jieba分词提取样本文件中的名词和权重，再使用模糊算法和降维算法得到一个32位的序列号，这32位的序列号就是样本文件的DNA；用相同的方法可以取出待检查文件的DNA，通过Simhash算法可以计算出DNA与DNA之间的血缘关系，文件内容越相似，那么DNA的血缘关系也就越近；

聚类规则：通过聚类算法检查文件内容与样本文件分类的相似度识别是否敏感。

需要说明的是，聚类规则是使用了一种典型的无指导机器学习方法，利用中文分词、主题分析、特征降维去噪等技术，将不同文档分别映射到特征向量空间中。根据文档空间向量的聚集程度，将文档聚集成某些特定类别。在特征空间中，同类文档往往集聚在同一个空间区域中，从而实现将未分类文档集合自动分成若干类文档。

S2，组合敏感规则创建。

具体实现时，根据前述的单个敏感规则和运算符可得到组合敏感规则；其中，运算符包括但不仅限于与、或和非。需要说明的是，将多个单独的规则之间灵活的组合配置，组合后的规则可以应对更多复杂的使用场景，下面举例说明：

场景一：

需要检查不包含“电话号码”和“邮箱地址”的“源代码”文件。

如图4所示，先定义电话号码规则、邮箱地址规则和源代码规则，再使用运算关系把这3个规则组合起来，生成一条新的规则。

电话号码规则(C3)、邮箱地址规则(C4)、源代码规则(P4),所组成新的规则是(非(电话号码规则与邮箱地址规则))与源代码规则。

场景二：

在检查文件内容规则同时需要对文件属性进行闭环检查，不遗漏任何文件。

如图5所示，先定义文件类型规则、文件名称规则、MD5(Message-DigestAlgorithm 5，信息-摘要算法5)规则、加密文件规则、不可识别文件规则。再使用“与”运算关系把这5个规则组合起来，生成一条新的规则。

进一步地，本申请实施例基于文件的敏感规则创建方法还包括规则树构建，具体为：

基于二叉树原理，将任一组合敏感规则确定为起始节点，每一中间节点存放运算符，每一叶子节点存放任一组合敏感规则；且同一组合敏感规则可存放于不同的叶子节点。结合图6所示的规则树原理图可以看出，组合规则2既可以存放于左侧的叶子节点，也可以存放于右侧的叶子节点。即，组合规则自己本身也可以作为一个普通规则，去参与其他组合规则的运算的。

进一步地，如图6所示，每一个组合规则都是一颗二叉树，每一个中间节点存放运算符(与、或、非)，每一个叶子节点都是存放待检查的规则。“与”“或”的中间节点必然会有左右子节点，这颗中间节点代表着左右子节点的运算关系，“非”的中间节点只会有一个左节点，也代表着这个左节点运行结果需要取反。

从以上描述可以得知，本发明实施例提供的敏感规则创建方法，优点如下：

1、基于文件属性或文件内容，针对每一个敏感相关的信息划分单个敏感规则，管理员只需要根据自己的场景组合这些敏感规则使用，即可达到敏感文件识别的目的。这样大大提高了规则的配置灵活性，方便管理员对应更多敏感文件识别场景。即，本发明的技术方案，将敏感规则划分的颗粒很小，通过规则组合的方式，可以灵活应对更多更复杂的场景。

基于相同的发明构思，本发明实施例提供了一种电子设备，其适用于基于文件创建的敏感规则创建。如图7所示，该电子设备包括创建模块和构建模块。

其中，创建模块用于：

创建单个敏感规则；单个敏感规则包括文件属性类规则和文件内容类规则；

其中，文件属性类规则的创建过程具体为：

文件内容类规则的创建过程具体为：

进一步地，创建模块还用于创建组合敏感规则，具体为：

具体地，构建模块，用于构建规则树，具体为：

作为本发明的另一优选实施例，如图8所示，电子设备可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行如图1所示的方法实施例所描述的方法步骤。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于文件的敏感规则创建方法的实施例中所描述的实现方式，在此不再赘述。

需要说明的是，关于电子设备更为具体的工作流程描述，请参考前述方法实施例部分，在此不再赘述。

此外，对应前述方法实施例及电子设备，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：基于文件的敏感规则创建方法。

所述计算机可读存储介质可以是前述任一实施例所述的电子设备内部存储单元，例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备，例如所述系统上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于文件的敏感规则创建方法，其特征在于，包括单个敏感规则创建，单个敏感规则包括文件属性类规则和文件内容类规则；

其中，文件属性类规则的创建过程具体为：

文件内容类规则的创建过程具体为：

2.如权利要求1所述的创建方法，其特征在于，所述文件类属性规则包括文件类型规则、文件加密规则、文件MD5规则、文件名称规则、文件大小规则、文件日期规则和文件容量规则。

3.如权利要求1所述的创建方法，其特征在于，所述文件内容类规则包括有规律的文本内容规则和无规律的文本内容规则，所述有规律的文本内容规则包括姓名规则、银行卡规则、身份证规则、电话号码规则、快递单号规则、邮箱地址规则、源代码规则、关键字规则和正则规则；所述无规律的文本内容规则包括DNA规则和聚类规则。

4.如权利要求3所述的创建方法，其特征在于，当将单个敏感规则应用于庞大的关键字数量检查时，所述关键字规则中采用BM多模匹配算法提升检查速度。

5.如权利要求1所述的创建方法，其特征在于，所述创建方法还包括组合敏感规则创建，具体为：

6.如权利要求5所述的创建方法，其特征在于，所述创建方法还包括规则树构建，具体为：

7.一种电子设备，其特征在于，所述电子设备用于基于文件创建敏感规则，包括创建模块，用于：

其中，文件属性类规则的创建过程具体为：

文件内容类规则的创建过程具体为：

8.如权利要求7所述的电子设备，其特征在于，所述创建模块还用于创建组合敏感规则，具体为：

9.如权利要求7或8所述的电子设备，其特征在于，所述电子设备还包括构建模块，用于构建规则树，具体为：

10.一种电子设备，其特征在于，所述电子设备基于文件创建敏感规则，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-6任一项所述的方法步骤。