CN105824812B

CN105824812B - 文件类型敏感数据的自动识别方法及装置

Info

Publication number: CN105824812B
Application number: CN201510002218.5A
Authority: CN
Inventors: 苏砫; 李腾; 付宗源; 白利军; 高峰; 张建军; 王明漪; 李然
Original assignee: Beijing Ultrapower Information Safety Technology Co Ltd
Current assignee: Beijing Ultrapower Information Safety Technology Co Ltd
Priority date: 2015-01-04
Filing date: 2015-01-04
Publication date: 2019-07-30
Anticipated expiration: 2035-01-04
Also published as: CN105824812A

Abstract

本发明实施例公开了一种文件类型敏感数据的自动识别方法及装置，其中，该方法包括：遍历存储空间中的文件类型数据，提取关于文件内容的数据；判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据，所述N为整数；如果存在，确定与所述数据相关联的数据，作为索引数据；根据所述预设敏感规则，从所述索引数据中，识别敏感数据；采用本发明的方法及装置，可提高识别文件类型敏感数据的效率和准确率。

Description

文件类型敏感数据的自动识别方法及装置

技术领域

本发明涉及信息安全技术领域，特别是涉及一种文件类型敏感数据的自动识别方法及装置。

背景技术

随着信息技术的不断发展，数据安全问题日益突出，如何确保涉及个人隐私或商业秘密等敏感数据的安全已成为全社会重点关注的问题。由于敏感数据通常湮没于大量数据中，因此，若要确保敏感数据的安全，首先要从大量信息数据中识别出敏感数据，然后再对敏感数据进行安全处理。

目前，数据的存储形式主要有两种，一种为文件类型的存储形式，另一种为数据库类型的存储形式。对于文件类型存储形式的数据，一般采用如下方法识别其中的敏感数据：首先对数据的工作场景和当前的政策法规进行分析，确定数据中可能存在的敏感数据类型；然后，根据敏感数据类型，确定可能存在敏感数据的文件；最后，人工对可能存在敏感数据的文件，进行查询，确定敏感数据。

由上可见，采用上述人工方法，识别敏感数据，当处理的文件类型数据的数据量较大时，识别敏感数据的效率较低、准确率较差。

发明内容

本发明实施例中提供了一种文件类型敏感数据的自动识别方法及装置，以提高识别文件类型敏感数据的效率和准确率。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

一方面，提供一种文件类型敏感数据的自动识别方法，包括：

遍历存储空间中的文件类型数据，提取关于文件内容的数据；

判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据，所述N为整数；

如果存在，确定与所述数据相关联的数据，作为索引数据；

根据所述预设敏感规则，从所述索引数据中，识别敏感数据。

优选的，所述N个预设敏感规则分别为第一预设敏感规则、第二预设敏感规则直至第N预设敏感规则；判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据，包括：

判断关于文件内容的数据中，是否存在满足第一预设敏感规则的数据；

如果存在，将与满足第一预设敏感规则的数据相关联的数据，标记为第一索引数据，剩余数据标记为第一非索引数据；

如果不存在，将当前所有数据标记为第一非索引数据；

判断所述第一非索引数据中，是否存在满足第二预设敏感规则的数据；

如果存在，将与满足第二预设敏感规则的数据相关联的数据，标记为第二索引数据，剩余数据标记为第二非索引数据；

如果不存在，将所述第一非索引数据，标记为第二非索引数据；

直至判断至第N预设敏感规则。

优选的，所述索引数据包括第一索引数据、第二索引数据直至第P索引数据，所述P为小于等于N的整数；根据所述预设敏感规则，从所述索引数据中，识别敏感数据，包括：

依次判断所述第一索引数据、第二索引数据直至第P索引数据中，是否存在满足M个预设组合敏感规则之一的数据，所述M为整数；所述预设组合敏感规则，为由N个预设敏感规则中的至少两个预设敏感规则生成；

如果存在，将所述满足一预设组合敏感规则的数据，判定为敏感数据。

优选的，所述方法还包括：

根据组合敏感规则所预设的敏感级别和敏感类型，确定所述敏感数据的敏感级别和敏感类型。

优选的，所述方法还包括：

遍历存储空间中的文件类型数据，提取所有文件的文件名称；

判断所述文件名称中，是否存在满足预设名称敏感规则的文件名称；

如果存在，将所述文件名称所对应的文件作为敏感文件，且执行从所述敏感文件的数据中，提取关于文件内容的数据。

另一方面，提供一种文件类型敏感数据的自动识别装置，其特征在于，包括：

文件内容提取模块，用于遍历存储空间中的文件类型数据，提取关于文件内容的数据；

第一敏感判断模块，用于判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据，所述N为整数；

确定模块，用于当存在满足N个预设敏感规则之一的数据时，确定与所述数据相关联的数据，作为索引数据；

识别模块，用于根据所述预设敏感规则，从所述索引数据中，识别敏感数据。

优选的，所述N个预设敏感规则分别为第一预设敏感规则、第二预设敏感规则直至第N预设敏感规则；所述第一敏感判断模块，包括：

第一判断单元，用于判断关于文件内容的数据中，是否存在满足第一预设敏感规则的数据；

第一标记单元，用于当存在满足所述第一预设敏感规则的数据时，将与所述数据相关联的数据标记为第一索引数据，剩余数据标记为第一非索引数据；或当不存在满足所述第一预设敏感规则的数据时，将当前所有数据标记为第一非索引数据；

第二判断单元，用于判断所述第一非索引数据中，是否存在满足第二预设敏感规则的数据；

第二标记单元，用于当存在满足第二预设敏感规则的数据时，将与所述数据相关联的数据，标记为第二索引数据，剩余数据标记为第二非索引数据；或当不存在满足第二预设敏感规则的数据时，将所述第一非索引数据，标记为第二非索引数据；

直至第N判断单元，用于判断第N-1非索引数据中，是否存在满足第N预设敏感规则的数据；

第N标记单元，用于当存在满足第N预设敏感规则的数据时，将与所述数据相关联的数据，标记为第N索引数据，剩余数据标记为第N非索引数据；或当不存在满足第N预设敏感规则的数据时，将所述第N-1非索引数据，标记为第N非索引数据。

优选的，所述索引数据包括第一索引数据、第二索引数据直至第P索引数据中，所述P为小于等于N的整数；所述识别模块，包括：

组合敏感规则判断单元，用于依次判断所述第一索引数据、第二索引数据直至第P索引数据中，是否存在满足M个预设组合敏感规则之一的数据，所述M为整数；所述预设组合敏感规则，为由N个预设敏感规则中的至少两个预设敏感规则成；

判定单元，用于当存在满足M个预设组合敏感规则之一的数据时，将所述满足一预设组合敏感规则的数据，判定为敏感数据。

优选的，所述装置还包括：

敏感级别确定模块，用于根据组合敏感规则所预设的敏感级别，确定所述敏感数据的敏感级别；

敏感类型确定模块，用于根据组合敏感规则所预设的敏感类型，确定所述敏感数据的敏感类型。

优选的，所述装置还包括：

文件名称提取模块，用于遍历存储空间中的文件类型数据，提取所有文件的文件名称；

第二敏感判断模块，用于判断所述文件名称中，是否存在满足预设名称敏感规则的文件名称；

敏感文件获取模块，用于当存在满足预设名称敏感规则的文件名称时，将所述文件

名称所对应的文件作为敏感文件。

本发明的有益效果包括：首先从文件类型数据中，自动提取关于文件内容的数据；然后自动判断文件内容的数据中，是否存在满足N个预设敏感规则之一的数据；如果存在，确定与所述数据相关联的数据，作为索引数据；最后，根据所述预设敏感规则，自动从索引数据中，识别敏感数据。采用本发明的方法及装置，可自动从文件类型数据中，识别敏感数据，提高了识别文件类型敏感数据的效率和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文件类型敏感数据的自动识别方法的一流程示意图；

图2为本发明实施例提供的文件类型敏感数据的自动识别方法的另一流程示意图；

图3为本发明实施例提供的文件类型敏感数据的自动识别方法的又一流程示意图；

图4为本发明实施例提供的文件类型敏感数据的自动识别方法的另一流程示意图；

图5为本发明实施例提供的文件类型敏感数据的自动识别方法的又一流程示意图；

图6为本发明实施例提供的文件类型敏感数据的自动识别装置的一结构示意图；

图7为本发明实施例提供的文件类型敏感数据的自动识别装置的另一结构示意图；

图8为本发明实施例提供的文件类型敏感数据的自动识别装置的又一结构示意图；

图9为本发明实施例提供的文件类型敏感数据的自动识别装置的另一结构示意图。

具体实施方式

本发明实施例提供一种文件类型敏感数据的自动识别方法及装置，以提高识别文件类型敏感数据的准确率和效率。

首先对本发明实施例的文件类型敏感数据的自动识别方法进行说明，如图1所示，至少包括以下步骤：

步骤S11：遍历存储空间中的文件类型数据，提取关于文件内容的数据；

在本申请实施例中，文件类型数据是指以文件类型的存储形式进行存储的数据，比如：以文件类型存储的Word文档和Excel表格等。

在本申请实施例中，由于文件类型的数据中，可包括文件名称数据、文件内容数据和文件存储数据；在本申请实施例中，可采用以下方法，提取关于文件内容的数据：基于爬虫原理，提取文件类型数据；然后遍历文件类型数据的所有存储路径，得到文件列表；所述文件列表中，包括：文件名称、文件类型、文件属主和文件存储路径等信息；然后在相应文件存储路径中，提取文件内容数据。

步骤S12：判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据，N为整数；

在本申请实施例中，预设敏感规则可由本领域技术人员，根据数据的工作场景和当前的政策法规自行设定。比如：当前数据为某单位员工的个人信息数据，则预设敏感规则可包括“姓名”规则、“身份证号”规则、“手机号码”规则和“家庭地址”规则等。

在本申请实施例中，“姓名”规则可具体为“姓氏+字符”的组合，“身份证号”规则可具体为“18位连续的阿拉伯数字”，“手机号码”可具体为“连续的11位阿拉伯数字”，“家庭地址”规则可具体为“字符+区+字符+街+字符+小区”的组合。

步骤S13：如果存在，确定与所述数据相关联的数据，作为索引数据；

由于在本申请实施例中，仅仅根据预设规则，并不能确定文件内容的数据是否为敏感数据。例如：根据“手机号码”规则“11位连续的阿拉伯号码”，所确定的连续的11位阿拉伯号码，并不能确定该11位连续的阿拉伯号码是否为员工的手机号码，可能仅为一系统无意义的数字，因此，需根据与该数据相关联的数据，进一步进行判断。

在本申请实施例中，与满足一预设敏感规则的数据相关的数据，可具体为在位置上与所述数据相关联的数据，如：与所述数据在同一段落的数据或与所述数据在同一页面的数据。

步骤S14：根据所述预设敏感规则，从索引数据中，识别敏感数据。

由上可见，在本发明实施例中，首先从文件类型数据中，自动提取关于文件内容的数据；然后自动判断文件内容的数据中，是否存在满足N个预设敏感规则之一的数据；如果存在，确定与所述数据相关联的数据，作为索引数据；最后，根据所述预设敏感规则，自动从索引数据中，识别敏感数据。采用上述方法，可自动从文件类型数据中，识别敏感数据，提高了识别文件类型敏感数据的效率和准确率。

在本发明的另一可行实施例中，N个预设敏感规则可分别为第一预设敏感规则、第二预设敏感规则直至第N预设敏感规则；如图2所示，上述所有实施例中的步骤S12可具体包括：

步骤S21：判断文件内容的数据中，是否存在满足第一预设敏感规则的数据；如果存在，进入步骤S22；如果不存在，进入步骤S23；

步骤S22：将与满足第一预设规则的数据相关联的数据，标记为第一索引数据，当前数据中的剩余数据标记为第一非索引数据；

在本发明实施例中，第一索引数据可具体为：与满足第一预设规则的数据在同一段落的数据；而第一非索引数据可具体为：在当前数据中，与满足第一预设规则的数据不在同一段落的数据。

步骤S23：将当前所有数据标记为第一非索引数据；

步骤S24：判断第一非索引数据中，是否存在满足第二预设敏感规则的数据；如果存在，进入步骤S25；如果不存在，进入步骤S26；

步骤S25：将与满足第二预设敏感规则的数据相关联的数据，标记为第二索引数据，第一非索引数据中的剩余数据标记为第二非索引数据；

在本发明实施例中，第二索引数据可具体为：与满足第二预设敏感规则的数据在同一段落的数据；而第二非索引数据可具体为：与满足第二预设敏感规则的数据不在同一段落的数据。

步骤S26：将第一非索引数据，标记为第二非索引数据；

步骤S27：依次类推，直至判断至第N预设敏感规则。

在本发明实施例中，首先在文件类型的数据中，查询出满足预设敏感规则的数据，然后确定与该数据相关联的数据；然后，在该数据相关联的数据中，再查找敏感数据，这样可缩小敏感数据的查找范围，提高识别速度。

在本发明的又一可行实施例中，索引数据可具体包括第一索引数据、第二索引数据直至第P索引数据，所述P为小于等于N的整数；如图3所示，上述所有实施例中的步骤S14，可具体包括：

步骤S31：依次判断第一索引数据、第二索引数据直至第P索引数据中，是否存在满足M个预设组合敏感规则之一的数据，所述M为整数；如果满足，进入步骤S32；

在本发明实施例中，索引数据为可能存在敏感数据的数据。由于，仅仅依靠一个预设敏感规则很可能出现敏感数据误判的情况，因此，还需进一步根据预设组合敏感规则判定敏感数据。

在本发明实施例中，预设组合敏感规则可由本领域技术人员，根据当前数据的工作情况以及当前的政策法规，对预设敏感规则进行组合获得。比如，当一组合敏感规则为涉及个人信息的敏感规则时，其可由“姓名”敏感规则+“身份证号码”敏感规则+“手机号码”敏感规则+“家庭地址”敏感规则组成。

步骤S32：将满足一预设组合敏感规则的数据，判定为敏感数据；

由上可见，采用上述方法，可精准的从文件类型数据中，识别出敏感数据。

在本发明的又一可行实施例中，如图4所示，上述所有实施例中的方法，还包括：

S15：根据组合敏感规则所预设的敏感级别和敏感类型，确定敏感数据的敏感级别和敏感类型。

在本发明实施例中，可具体设置一敏感类型和敏感级别字典，在该字典中，记录了每一预设组合敏感规则所对应的敏感类型和敏感级别；因此根据该敏感类型和敏感级别字典，可查询出所有预设组合敏感规则所对应的敏感级别以及敏感类型；而敏感数据所满足的预设组合敏感规则的敏感级别以及敏感类型，即为该敏感数据的敏感级别和敏感类型。

由上可见，在本发明实施例中，不但可识别出敏感数据，还可进一步判定敏感数据的敏感级别和敏感类型，从而方便后续根据敏感数据的敏感级别和敏感类型对敏感数据进行安全处理。

在本发明的另一可行实施例中，如图5所示，上述所有实施例中的方法，还可包括：

步骤S51：遍历存储空间中的文件类型数据，提取所有文件的文件名称；

步骤S52：判断所述文件名称中，是否存在满足预设名称敏感规则的文件名称；如果存在，进入步骤S53；

在本发明实施例中，文件名称敏感规则为本领域技术人员，根据文件类型数据的工作环境和当前政策法规所预先设定的，比如，文件名称敏感规则可具体为涉及“财物”的名称敏感规则、涉及“个人信息”的名称敏感规则以及涉及“商业秘密”的名称敏感规则等。

步骤S53：将所述文件名称所对应的文件作为敏感文件，且执行步骤S11从所述敏感文件的数据中，提取关于文件内容的数据。

由上可见，采用上述方法，可首先确定包括敏感数据的文件，即敏感文件；然后，再在敏感文件中进一步识别敏感数据，如此，可缩小查找敏感数据的范围，提高识别敏感数据的效率。

通过以上的方法实施例的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

与上述方法相对应的，本申请还公开了一种文件类型敏感数据的自动识别装置，如图6所示，至少包括：

文件内容提取模块61，用于遍历存储空间中的文件类型数据，提取关于文件内容的数据；

第一敏感判断模块62，用于判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据，所述N为整数；

确定模块63，用于当存在满足N个预设敏感规则之一的数据时，确定与所述数据相关联的数据，作为索引数据；

识别模块64，用于根据所述预设敏感规则，从所述索引数据中，识别敏感数据。

由上可见，在本发明实施例中，首先文件内容提取模块61，可在文件类型数据中，自动提取关于文件内容的数据；然后第一敏感判断模块62，可自动判断文件内容的数据中，是否存在满足N个预设敏感规则之一的数据；再然后确定模块63，可当存在满足N个预设敏感规则之一的数据时，自动确定与所述数据相关联的数据，作为索引数据；最后识别模块64，用于根据所述预设敏感规则，自动从索引数据中，识别敏感数据。采用上述装置，可自动从文件类型数据中，识别敏感数据，提高了识别敏感数据的效率和准确率。

在本发明的另一可行实施例中，上述所有实施例中的N个预设敏感规则可分别为第一预设敏感规则、第二预设敏感规则直至第N预设敏感规则；第一敏感判断模块62，可包括：

第一标记单元，用于当存在满足所述第一预设敏感规则的数据时，将所述数据相关联的数据标记为第一索引数据，剩余数据标记为第一非索引数据；或当不存在满足所述第一预设敏感规则的数据时，将当前所有数据标记为第一非索引数据；

在本发明实施例中，首先在文件类型的数据中，查询出满足预设敏感规则的数据，然后确定与该数据相关联的数据；再然后，在该数据相关联的数据中，查找敏感数据，这样可缩小敏感数据的查找范围，提高识别速度。

在本发明的又一可行实施例中，上述所有实施例中的索引数据包括第一索引数据、第二索引数据直至第P索引数据中，所述P为小于等于N的整数；如图7所示，识别模块64，可包括：

组合敏感规则判断单元71，用于依次判断所述第一索引数据、第二索引数据直至第P索引数据中，是否存在满足M个预设组合敏感规则之一的数据，所述M为整数；所述预设组合敏感规则，为由N个预设敏感规则中的至少两个预设敏感规则组成；

判定单元72，用于当存在满足M个预设组合敏感规则之一的数据时，将所述满足一预设组合敏感规则的数据，判定为敏感数据。

采用上述装置，可精准的从文件类型数据中，识别出敏感数据。

在本发明的另一可行实施例中，如图8所示，上述所有实施例的装置，还可包括：

敏感级别确定模块81，用于根据组合敏感规则所预设的敏感级别，确定敏感数据的敏感级别；

敏感类型确定模块82，用于根据组合敏感规则所预设的敏感类型，确定敏感数据的敏感类型。

由上可见，在本发明实施例中，采用上述装置，不但可识别出敏感数据，还可进一步判定敏感数据的敏感级别和敏感类型，从而方便后续根据敏感数据的敏感级别和敏感类型对敏感数据进行安全处理。

在本发明的又一可行实施例中，如图9所示，上述所有实施例中的装置还可包括：

文件名称提取模块91，用于遍历存储空间中的文件类型数据，提取所有文件的文件名称；

第二敏感判断模块92，用于判断所述文件名称中，是否存在满足预设名称敏感规则的文件名称；

敏感文件获取模块93，用于当存在满足预设名称敏感规则的文件名称时，将所述文件名称作为敏感文件。

由上可见，采用上述装置，可首先确定包括敏感数据的文件，即敏感文件；然后再在敏感文件中进一步识别敏感数据，如此，可缩小查找敏感数据的范围，提高识别敏感数据的效率。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文件类型敏感数据的自动识别方法，其特征在于，包括：

如果存在，确定与所述数据相关联的数据，作为索引数据；

根据所述预设敏感规则，从所述索引数据中，识别敏感数据；

其中，所述N个预设敏感规则分别为第一预设敏感规则、第二预设敏感规则直至第N预设敏感规则；

所述判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据；如果存在，确定与所述数据相关联的数据，作为索引数据，包括：

如果不存在，将当前所有数据标记为第一非索引数据；

直至判断至第N预设敏感规则。

2.根据权利要求1所述的方法，其特征在于，所述索引数据包括第一索引数据、第二索引数据直至第P索引数据，所述P为小于等于N的整数；根据所述预设敏感规则，从所述索引数据中，识别敏感数据，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.一种文件类型敏感数据的自动识别装置，其特征在于，包括：

第一敏感判断模块，用于判断所述文件内容的数据中，是否存在满足N个预设敏感规则之一的数据，所述N为整数；确定模块，用于当存在满足N个预设敏感规则之一的数据时，确定与所述数据相关联的数据，作为索引数据；

识别模块，用于根据所述预设敏感规则，从所述索引数据中，识别敏感数据；

如果不存在，将当前所有数据标记为第一非索引数据；

直至判断至第N预设敏感规则。

6.根据权利要求5所述的装置，其特征在于，所述索引数据包括第一索引数据、第二索引数据直至第P索引数据中，所述P为小于等于N的整数；所述识别模块，包括：

组合敏感规则判断单元，用于依次判断所述第一索引数据、第二索引数据直至第P索引数据中，是否存在满足M个预设组合敏感规则之一的数据，所述M为整数；所述预设组合敏感规则，为由N个预设敏感规则中的至少两个预设敏感规则生成；

7.根据权利要求5所述的装置，其特征在于，还包括：

8.根据权利要求5所述的装置，其特征在于，还包括：

敏感文件获取模块，用于当存在满足预设名称敏感规则的文件名称时，将所述文件名称所对应的文件作为敏感文件。