CN113342753A

CN113342753A - 文件安全管理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113342753A
Application number: CN202110712196.7A
Authority: CN
Inventors: 陈予郎
Original assignee: Yangtze Memory Technologies Co Ltd
Current assignee: Yangtze Memory Technologies Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-03
Anticipated expiration: 2041-06-25
Also published as: CN113342753B

Abstract

本申请提供了一种文件安全管理方法、装置、设备及计算机可读存储介质。上述方法包括：当检测到对文件的操作动作时，基于文件的文件归属的排他敏感词确定文件的安全层级；基于文件的安全层级，检测操作动作的控制权限是否在文件的访问权限内，在控制权限不在访问权限的范围内的情况下，禁止操作动作，文件归属包括多个下一级文件归属，且每个下一级文件归属对应唯一常用词汇，通过合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词，并通过去除多个候选词中重复的词汇以获得排他敏感词。根据该文件安全管理方法，通过大数据挖掘自动地获取文件归属的排他敏感词，并基于此确定文件的安全层级可大幅度降低文件操作中安全警示的误报率。

Description

文件安全管理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，更具体地，涉及文件安全管理方法、文件安全管理装置、文件安全管理设备及计算机可读存储介质。

背景技术

常规的文件安全管理方法中确定对文件的操作动作是否在该文件的访问权限内，通常采用敏感字过滤的方法。由于敏感字过滤相对于别的语义过滤实现简单，过滤速度快，因此目前己成为绝大多数过滤系统采用的主要方法。

然而，基于人为经验选定的敏感字具有难选定、易遗漏和易冗余的特点，因此导致文件的敏感程度难以衡量，并且不易基于敏感字设定文件安全层级。因而，在常规的文件安全管理方法中对相应文件执行操作动作判定时难以基于合适的文件安全层级确定操作动作的控制权限是否在该文件的访问权限内，因此导致文件操作中安全警示的误报率较高，给企业的信息安全管理带来风险。

发明内容

本申请提供了一种可至少部分解决相关技术中存在的上述问题的文件安全管理方法、文件安全管理装置、文件安全管理设备及计算机可读存储介质。

本申请一方面提供了一种文件安全管理方法，所述方法包括：当检测到对文件的操作动作时，基于所述文件的文件归属的排他敏感词确定所述文件的安全层级；以及基于所述文件的安全层级，检测所述操作动作的控制权限是否在所述文件的访问权限内，在所述控制权限不在所述访问权限的范围内的情况下，禁止所述操作动作，其中，所述文件归属包括多个下一级文件归属，且每个所述下一级文件归属对应唯一常用词汇，通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词，并通过去除多个所述候选词中重复的词汇以获得所述排他敏感词。

在本申请一个实施方式中，所述文件归属为文件的归属部门或文件的归属人员。

在本申请一个实施方式中，通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词的步骤包括：获取每个所述下一级文件归属所包括的多个样本文件；基于所述多个样本文件，确定每个所述下一级文件归属的所述常用词汇；以及合并至少任意两个所述常用词汇中相同的词汇以获得所述候选词。

在本申请一个实施方式中，基于所述多个样本文件，确定每个所述下一级文件归属的所述常用词汇的步骤包括：获取所述样本文件的文本数据，并将所述文本数据中的任一组重复词汇合并为一个词汇；将多个合并后的所述样本的文本数据再次合并以形成所述下一级文件归属的历史词汇；以及基于所述历史词汇，确定所述下一级文件归属的所述常用词汇，其中，任一所述常用词汇的权重与其在所述下一级文件归属的历史词汇中的出现频率成正比。

在本申请一个实施方式中，基于所述历史词汇，提取所述下一级文件归属的常用词汇的步骤包括：确定任一所述历史词汇的出现频率；去除所述历史词汇中仅出现一次的词汇；以及提取所述历史词汇中出现频率相对较高的S个词汇作为所述下一级文件归属的常用词汇，其中S为大于等于1的任意正整数。

在本申请一个实施方式中，所述S个词汇满足：S＝Y+3×M，其中，Y为所述历史词汇的出现频率的平均值；以及M为所述历史词汇的出现频率的标准方差值。

在本申请一个实施方式中，获取所述样本文件的文本数据的步骤包括：获取所述样本文件；以及对所述样本文件进行分词处理以获取所述样本文件的文本数据。

在本申请一个实施方式中，当检测到文件的操作动作后，所述方法还包括确定所述文件的文件归属的步骤，确定所述文件的文件归属包括：

获取所述文件；对所述文件进行分词处理以获取所述文件的文本数据；以及基于所述文件的文本数据与所述文件归属的排他敏感词确定所述文件的文件归属。

在本申请一个实施方式中，其中所述文件归属和所述安全层级分别记载于文件归属配置表单和安全层级配置表单中，所述方法还包括：实时更新所述文件归属配置表单和所述安全层级配置表单。

本申请另一方面提供了一种文件安全管理装置，所述装置包括：确定模块，所述确定模块被配置为当检测到对文件的操作动作时，基于所述文件归属的排他敏感词确定所述文件的安全层级，其中所述文件归属包括多个下一级文件归属，且每个所述下一级文件归属对应唯一常用词汇，通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词，并通过去除多个所述候选词中重复的词汇以获得所述排他敏感词；以及检测模块，所述检测模块被配置为基于所述文件的安全层级，检测所述操作动作的控制权限是否在所述文件的访问权限内，在所述控制权限不在所述访问权限的范围内的情况下，禁止所述操作动作。

在本申请一个实施方式中，所述文件归属为文件的归属部门或归属人员。

在本申请一个实施方式中，所述确定模块被进一步配置为获取每个所述下一级文件归属所包括的多个样本文件；基于所述多个样本文件，确定每个所述下一级文件归属的所述常用词汇；以及合并至少任意两个所述常用词汇中相同的词汇以获得所述候选词。

在本申请一个实施方式中，所述确定模块被进一步配置为获取所述样本文件的文本数据，并将所述文本数据中的任一组重复词汇合并为一个词汇；将多个合并后的所述样本的文本数据再次合并以形成所述下一级文件归属的历史词汇；以及基于所述历史词汇，确定所述下一级文件归属的常用词汇，其中，任一所述常用词汇的权重与其在所述下一级文件归属的历史词汇中的出现频率成正比。

在本申请一个实施方式中，所述确定模块被进一步配置为确定任一所述历史词汇的出现频率；去除所述历史词汇中仅出现一次的词汇；以及提取所述历史词汇中出现频率相对较高的S个词汇作为所述下一级文件归属的常用词汇，其中S为大于等于1的任意正整数。

在本申请一个实施方式中，所述文件安全管理装置还包括获取模块，所述获取模块被配置为获取所述样本文件；以及对所述样本文件进行分词处理以获取所述样本文件的文本数据。

在本申请一个实施方式中，所述文件安全管理装置还包括获取模块，所述获取模块被配置为获取所述文件；且对所述文件进行分词处理以获取所述文件的文本数据；以及所述确定模块被进一步配置为基于所述文件的文本数据与所述文件归属的排他敏感词确定所述文件的文件归属。

在本申请一个实施方式中，其中所述文件归属和所述安全层级分别记载于文件归属配置表单和安全层级配置表单中，实时更新所述文件归属配置表单和所述安全层级配置表单。

本申请又一方面提供了文件管理设备，所述文件管理设备包括：处理器；以及存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行本申请一方面提供的任一项所述的文件安全管理方法。

本申请又一方面提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行本申请一方面提供的任一项所述的文件安全管理方法。

根据本申请一个实施方式提供的文件安全管理方法、文件安全管理装置、设备及计算机可读存储介质，通过大数据挖掘可自动地获取文件归属(归属部门或归属人员)的排他敏感词，因而可避免传统方法中通过人工经验限定文件的敏感字所引起的、诸如遗露和冗余等问题。

进一步地，根据本申请的至少一个实施方式，本申请提供的文件安全管理方法、文件安全管理装置、设备及计算机可读存储介质，基于文件归属(归属部门或归属人员)的业务性质所确定的、仅属于该文件归属的排他敏感词可大幅度地降低文件操作中安全警示的误报率，提高信息安全管理的安全性。

此外，相较于传统方法中难以基于敏感字准确定义文件安全层级，根据本申请的至少一个实施方式，本申请提供的文件安全管理方法、文件安全管理装置、设备及计算机可读存储介质，可基于文件归属的排他敏感词准确高效地确定文件安全层级，进而可根据文件安全层级准确地对不同用户的不同文件操作给予相应的判定。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本申请的其它特征、目的和优点将会变得更明显。其中：

图1是根据本申请一个实施方式的文件安全管理方法流程图；

图2是根据本申请一个实施方式的生成排他敏感词的过程示意图；

图3是根据本申请一个实施方式的阶层式树状组织结构表；

图4是根据本申请一个实施方式的任一文件归属的候选词与其下一级文件归属的常用词汇的关系示意图；

图5是根据本申请一个实施方式的任一安全等级的排他敏感词与其他安全等级的排他敏感词的关系示意图；

图6是根据本申请一个实施方式的文件操作动作判定过程示意图；

图7是根据本申请另一实施方式的文件操作动作判定过程示意图；

图8是根据本申请一个实施方式的文件安全管理装置的示意图；

图9是根据本申请一个实施方式的文件安全管理设备的示意图；以及

图10是根据本申请一个实施方式的计算机可读存储介质的示意图。

具体实施方式

为了更好地理解本申请，将参考附图对本申请的各个方面做出更详细的说明。应理解，这些详细说明只是对本申请的示例性实施方式的描述，而非以任何方式限制本申请的范围。在说明书全文中，相同的附图标号指代相同的元件。表述“和/或”包括相关联的所列项目中的一个或多个的任何和全部组合。

应注意，在本说明书中，第一、第二、第三等的表述仅用于将一个特征与另一个特征区域分开来，而不表示对特征的任何限制，尤其不表示任何的先后顺序。因此，在不背离本申请的教导的情况下，本申请中讨论的第一级文件归属也可被称作第二级文件归属，第一部门也可称为第二部门，反之亦然。

在附图中，为了便于说明，已稍微调整了部件的厚度、尺寸和形状。附图仅为示例而并非严格按比例绘制。如在本文中使用的，用语“大致”、“大约”以及类似的用语用作表近似的用语，而不用作表程度的用语，并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。

还应理解的是，诸如“包括”、“包括有”、“具有”、“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述，其表示存在所陈述的特征、元件和/或部件，但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外，当诸如“...中的至少一个”的表述出现在所列特征的列表之后时，其修饰整列特征，而非仅仅修饰列表中的单独元件。此外，当描述本申请的实施方式时，使用“可”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

除非另外限定，否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，除非本申请中有明确的说明，否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义，而不应以理想化或过于形式化的意义解释。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。另外，除非明确限定或与上下文相矛盾，否则本申请所记载的方法中包含的具体步骤不必限于所记载的顺序，而可以任意顺序执行或并行地执行。下面将参考附图并结合实施例来详细说明本申请。

此外，在本申请中当使用“连接”或“联接”时可表示相应部件之间为直接的接触或间接的接触，除非有明确的其它限定或者能够从上下文推导出的除外。

图1是根据本申请一个方式的文件安全管理方法1000的流程图。

如图1所示，本申请提供一种文件安全管理方法1000包括：

S1，当检测到对文件的操作动作时，基于文件的文件归属的排他敏感词确定文件的安全层级。文件归属包括多个下一级文件归属，且每个下一级文件归属对应唯一常用词汇，通过合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词，并通过去除多个候选词中重复的词汇以获得排他敏感词。

S2，基于文件的安全层级，检测操作动作的控制权限是否在文件的访问权限内，在控制权限不在访问权限的范围内的情况下，禁止操作动作。

下面将结合图2至图7详细说明上述文件安全管理方法1000的各个具体步骤。

步骤S1

本申请提供的文件安全管理方法的步骤S1为当检测到对文件的操作动作时，基于文件的文件归属的排他敏感词确定文件的安全层级。文件归属包括多个下一级文件归属，且每个下一级文件归属对应唯一常用词汇，通过合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词，并通过去除多个候选词中重复的词汇以获得排他敏感词。

具体地，在实际使用诸如电脑、平板或者智能手机等电子设备的过程中，用户可进行诸如网页文件下载、邮件外发以及对文件伺服器上的文件进行包括读取、修改、复制、搬移等读取行为的文件操作。上述文件操作伴随而来的一个问题就是如何确保文件内容安全性，由于用户众多且文件存储的多样性，导致文件泄密的可能性大幅度提高。

在本申请的一个实施方式中，可限定对文件的操作动作包括：拥有文件、传递(例如，通过邮件或其它通信软件的传递)文件以及打印文件等具体的操作。作为一种选择，可由例如信息安全管理部门通过人工获取或人工智能的方式自动获取对任一文件的操作动作，并相应地在后续过程中作出对该操作动作的判定。

图2是根据本申请一个实施方式的生成排他敏感词的过程示意图。图3是根据本申请一个实施方式的阶层式树状组织结构表。

在本申请的一个实施方式中，文件归属包括多个下一级文件归属，且每个所述下一级文件归属对应唯一常用词汇。确定文件归属的排他敏感词可包括：获取每个下一级文件归属所包括的多个样本文件；基于多个样本文件，确定每个下一级文件归属的常用词汇；合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词；以及通过去除多个文件归属的候选词中重复的词汇以获得文件归属的排他敏感词。

此外，如图3所示，在本申请的一个实施方式中，文件归属可以是文件的归属部门或文件的归属人员。以公司组织为例，在公司的树状层级中，可将公司组织设置为0级，将公司组织内的众多部门和人员依次定义为一级部门、二级部门及一级部门人员……N级部门及N-1部门人员以及N级部门人员。进一步地，还可对上述部门和人员进行统一编号，并记录每个部门和人员的唯一编号以便于后续生成排他敏感词的过程中使用。换言之，在公司的树状层级中包括多个以部门和人员为主的节点，每个节点都具有特定的业务属性和业务需求，因而可对应不同的文件安全层级。本申请提供的确定文件安全层级的排他敏感词可基于每个节点的总体特定业务属性和业务需求设定，使得该排他敏感词仅出现在该节点的部门或人员中，而不会出现在其他同级节点中，进一步地，该排他敏感词还可出现在至少两个该节点所属的下一级节点的部门或人员中。因而，根据文件归属的排他敏感词可准确高效地确定文件安全层级，进而根据文件安全层级可准确地对属于不同节点的用户的不同文件操作给予相应的判定。

具体地，如图2所示，在本申请的一个实施方式中，可基于分布式关联数据库(例如，Green Plum)平台生成排他敏感词。分布式关联数据库平台具有数据搜寻快、关联处理强以及运算速度快的优势，在生成排他敏感词的过程中可支持多台伺服器并行运算，此外基于本申请提供的排他敏感词生成方法需要使用大量的关联处理，例如需要实现大量词汇与文件归属人员的关联处理以及大量词汇与文件归属部门的关联处理，因而选用分布式关联数据库平台可提高生成排他敏感词的准确性和效率。另外，还可在任意存储于上述分布式关联数据库平台的表单栏中设置索引以提高数据搜索速度。

本申请提供的文件安全管理方法中的任一文件归属可包括多个部门和多个人员。每个部门又可包括多个下一级部门，且每个部门都包括大量的所属人员。因而，可将记录全部部门和全部人员的组织架构、包括人员编号及其撰写的文字内容循序存储于至来源数据库中，以便于后续生成文件归属的排他敏感词。此外，为提高生成的排他敏感词的准确性，需大量收集组织架构中任一部门所属人员撰写的文字内容，以确定该部门的业务属性和业务需求。

任一文件归属的排他敏感词可通过合并至少任意两个下一级文件归属的常用词汇中相同的词汇确定的文件归属候选词获得。基于多个样本文件，确定每个下一级文件归属的常用词汇的步骤可包括：

通过内文分词过程获取下一级文件归属中任一人员的多个样本文件的文本数据，并通过冗余过滤过程将每件文本数据中的任一组重复词汇合并为一个词汇；通过词汇存储过程将多个样本的文本数据合并以形成下一级文件归属中任一人员的历史词汇，连同该人员的唯一编号存储至分布式关联数据库平台中，重复以上步骤，可获取下一级文件归属的历史词汇，存储至分布式关联数据库平台中，并标记为“人员历史词汇”表单，进一步地，该表单的表单栏中可设置索引以提高数据搜索速度；以及通过词汇筛选过程基于下一级文件归属的历史词汇，提取该下一级文件归属的常用词汇，其中，任一常用词汇的权重与其在该下一级文件归属的历史词汇中的出现频率成正比。

在本申请的一个实施方式中，内文分词过程可通过获取样本文件，并对样本文件进行分词处理获取该样本文件的文本数据。作为一种选择，可采用结巴分词工具等对样本文件进行分词处理，以提取样本文件内容中的所有词汇(样本数据)。

此外，在本申请的一个实施方式中，冗余过滤过程将每件文本数据中的任一组重复词汇合并为一个词汇，可去除单一样本文件中拥有的大量重覆词汇，避免该重复词汇影响正常文件中词汇的权重。

另外，在样本文件的文字内容的收集过程中，容易出现非该样本文件所属的人员撰写的词汇，这种非该样本文件所属的人员撰写的词汇不适合代表任一级文件归属，因此可通过词汇筛选过程去除。

例如，在词汇筛选过程中，对于邮件数据的回覆或转发邮件中的文本数据可仅记录寄件人撰写的文字部份，而排除他人撰写的历史文字对应的文本数据以及邮件系统自动地产生的诸如个人签名等文本数据。

在本申请的一个实施方式中，基于历史词汇提取每个下一级文件归属的常用词汇可包括：确定下一级文件归属中任一人员的历史词汇的出现频率；去除历史词汇中仅出现一次的词汇；之后，提取历史词汇中出现频率相对较高的S个词汇作为该人员的常用词汇，其中S为大于等于1的任意正整数，重复以上步骤，可获得下一级文件归属的常用词汇。作为一种选择，S个词汇可满足：S＝Y+3×M，其中，Y为该下一级文件归属的历史词汇的出现频率的平均值；以及M为该下一级文件归属的历史词汇的出现频率的标准方差值。生成的每个人员的常用词汇连同该人员的编号可存储至分布式关联数据库平台中，重复以上步骤可生成下一级文件归属的常用词汇，将其存储至分布式关联数据库平台中，并标记为“人员常用词汇”表单。该表单的表单栏中可设置索引以提高数据搜索速度。重复上述步骤，可获得多个下一级文件归属的常用词汇。

作为一种选择，在本申请的一个实施方式中，分布式关联数据库平台中的“人员历史词汇”和“人员常用词汇”表单皆可以“人员编号”为分区键(Partition Key)。分区键可使任一个分区表中只存在单一文件种类的数据，因而在运算过程中可大量避免跨分区表的数据搜寻，减小运算成本。作为另一选择，分布式关联数据库平台中的“人员历史词汇”和“人员常用词汇”表单，皆可以“词汇”为分散键，可使相异词汇均衡分布至所有伺服器中，以及相同的词汇会集中在同一个伺服器中，进而提升分布式关联数据库平台的并行运算的能力，并避免运算中大量跨伺服器的数据搜寻，减小运算成本。

另外，在本申请的一个实施方式中，分布式关联数据库平台中的“文件归属配置”表单和“安全层级配置”表单可实时更新。换言之，可实时更新文件归属和安全层级，以避免跨多个数据库平台的数据读取与关联处理的操作。此外，因为“文件归属配置”表单和“安全层级配置”表单的数据量非常小，因而可在提高更新的速度的同时，降低运算成本。

进一步地，合并至少任意两个下一级文件归属的常用词汇中相同的词汇可获得文件归属的候选词，并通过去除多个文件归属的候选词中重复的词汇可获得该文件归属的排他敏感词。

图4是根据本申请一个实施方式的任一文件归属的候选词与其下一级文件归属的常用词汇的关系示意图。图5是根据本申请一个实施方式的任一安全等级的排他敏感词与其他安全等级的排他敏感词的关系示意图。

在本申请提供的文件安全管理方法中，合并至少任意两个下一级文件归属的常用词汇中相同的词汇可获得文件归属的候选词。如图4所示，在本申请的一个实施方式中，文件归属包括的下一级文件归属的数量为三个，三个下一级可分别编号为11、12和13。下一级文件归属11、12和13的常用词汇集合可分别用圆圈B11、B12和B13表示。将该文件归属包括的全部下一级文件归属11、12和13的常用词汇B11、B12和B13中至少任意两个常用词汇中相同的词汇合并后即为该文件所属的候选词X。换言之，任一文件归属的排他敏感词会存在于其多个下一级文件归属中，合并上述重复的词汇可获得该文件归属的排他敏感词。具体地，文件所属的候选词X包括常用词汇B11和B12共同的部分，常用词汇B11和B13共同的部分，常用词汇B12和B13共同的部分以及常用词汇B11、B12和B13共同的部分。

进一步地，在本申请的一个实施方式中，通过去除多个文件归属的候选词中重复的词汇可获得该文件归属的排他敏感词。如图5所示，在本申请的一个实施方式中，文件安全管理方法中全部文件归属的数量为三个，三个文件归属可分别编号为1、2和3。文件归属1、2和3的候选词集合可分别用圆圈X1、X2和X3表示。文件归属1、2和3的候选词集合中包括重复的词汇，例如任意两个文件归属候选词集合中重复的部分以及三个文件归属候选词集合中重复的部分。文件归属1、2和3的候选词集合中全部的重复常用词汇集合为V。去除重复常用词汇集合V可获得文件归属1、2和3的排他敏感词集合W1、W2和W3。在本申请提供的文件安全管理方法中通过去除多个文件归属的候选词集合中的重复的词汇，可确定每个文件归属的排他敏感词。

因此，通过上述大数据挖掘可自动地获取文件归属(归属部门或归属人员)的排他敏感词，且在任一文件归属中出现的排他敏感词不会出现在其他文件归属的排他敏感词中，因而可避免传统方法中通过人工经验限定文件的敏感字所引起的、诸如遗露和冗余等问题。进一步地，基于文件归属(归属部门或归属人员)的业务性质所确定的、仅属于该文件归属的排他敏感词可大幅度降低文件操作中安全警示的误报率，提高信息安全管理的安全性。

在确定文件归属的排他敏感词之后，可基于文件归属的排他敏感词确定文件安全层级。任一组织机构中可包括多个文件安全层级，相同的安全层级可具有多个不同的规则，例如可在规则中包括三种禁止动作：禁止拥有文件；禁止通过邮件或其他通信软件传递文件；以及禁止打印文件。同一安全层级中可具有不同的文件归属部门和文件归属人员，因此可在同一安全层级中，基于不同的文件归属部门和文件归属人员建立不同的规则。此外，在本申请的一个实施方式中，还可建立在文件与对文件的操作动作属于同一文件归属的不同部门或人员时所执行的规则。

因此，相较于传统方法中难以基于敏感字准确定义文件安全层级，本申请提供的文件安全管理方法可基于文件归属的排他敏感词准确高效地确定文件安全层级，进而可根据文件安全层级准确地对不同用户的不同文件操作给予相应的判定。

在本申请提供的文件安全管理方法的步骤S1中还包括确定文件的文件归属的步骤，在已经基于文件归属的排他敏感词确定文件安全层级后，在确定对文件的操作动作是否在该文件的访问权限过程中，可先确定文件的文件归属。具体地，确定文件的文件归属的步骤可包括：获取文件；对文件进行分词处理以获取文件的文本数据；以及基于文件的文本数据与文件归属的排他敏感词确定文件的文件归属。

在本申请的一个实施方式中，作为一种选择，对文件进行分词处理以获取文件的文本数据可采用结巴分词工具等对文件进行分词处理，以提取文件内容中的所有词汇(文件的文本数据)。

步骤S2

本申请提供的文件安全管理方法的步骤S2为基于文件的安全层级，检测操作动作的控制权限是否在文件的访问权限内，在控制权限不在访问权限的范围内的情况下，禁止该操作动作。

图6是根据本申请一个实施方式的文件操作动作判定过程示意图。图7是根据本申请另一实施方式的文件操作动作判定过程示意图。

具体地，如图6所示，可选择例如信息安全管理部门的审计人员经过如上文所述的步骤，依次通过数据准备流程确定文件所属的排他敏感词、文件的安全层级以及相关策略，其中文件所属的排他敏感词可通过例如分布式关联数据库平台等数据分析平台生成。之后进入文件审计流程，可将文件平台提供的、经过如上文所述的步骤预先获取的文件内容中的所有词汇(文件的文本数据)与文件所属的排他敏感词进行关联处理，根据关联处理结果执行相应的策略处理，并在文件审计标签中进行记录。

具体地，在本申请的一个实施方式中，在文件审计流程中可执行策略处理的步骤可包括：基于关联处理结果确定文件的安全等级；读取相应安全等级所执行的规则；以及基于相应安全等级所执行的规则检测对文件执行的操作动作的控制权限是否在文件的访问权限内，在控制权限不在访问权限的范围内的情况下，禁止该操作动作。

此外，作为一种选择，在文件执行的操作动作的控制权限不在文件的访问权限内的情况下，还可将文件编号、执行操作动作的人员的信息以及不符合规则的简述记录在审计标签中。

如图7所示，在本申请的另一实施方式中，基于文件所属的排他敏感词检测对文件执行的操作动作的控制权限是否在文件的访问权限内的过程可具体包括：

基于文件所属排他敏感词定义包括多个文件所属部门的安全层级，例如部门IT/EDAS属于第5安全层级，部门IT属于第9安全层级，部门Admin属于第9安全层级。进一步地，还可根据例如文件安全的重要性将不同的安全层级进行排序。

对应于不同的安全层级确定不同的安全层级规则，例如对应于第5安全层级的规则可为禁止拥有其下一级安全层级所属部门的文件；禁止跨越两个级别对文件进行传递；以及禁止打印文件。

作为一种选择，在对文件的操作进行判定时，可输入文件操作的人员及其所属部门或者当文件在多人之间操作时的相关人员信息。在将文件内容中的所有词汇(文件的文本数据)与文件所属的排他敏感词进行关联处理后，可基于文件所属的排他敏感词确定文件的安全层级以及安全层级所包括的部门。例如，图7所示的文件属于第5安全层级的部门IT/EDAS，以及第9安全层级的部门Admin和部门IT。在文件操作的相关人员为第5安全层级或第9安全层级时可执行不同的安全层级规则。基于相应的安全层级规则，可判定本次对文件执行的操作动作的控制权限是否在该文件的访问权限内，在控制权限不在访问权限的范围内的情况下，可禁止该操作动作。

根据本申请提供的文件安全管理方法，可通过大数据挖掘自动地获取文件归属(归属部门或归属人员)的排他敏感词，并基于文件归属(归属部门或归属人员)的业务性质所确定的、仅属于该文件归属的排他敏感词准确高效地确定文件安全层级，进而可根据文件安全层级准确地对不同用户的不同文件操作给予相应的判定。因而可避免传统方法中通过人工经验限定文件的敏感字所引起的、诸如遗露和冗余等问题，并大幅度降低文件操作中安全警示的误报率，提高信息安全管理的安全性。

图8是根据本申请一个实施方式的文件安全管理装置的示意图。如图8所示，本申请的另一方面还提供了一种文件安全管理装置2000。文件安全管理装置2000可包括确定模块200以及检测模块300。确定模块200可被配置为当检测到对文件的操作动作时，基于文件归属的排他敏感词确定文件的安全层级，其中文件归属包括多个下一级文件归属，且每个下一级文件归属对应唯一常用词汇，通过合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词，并通过去除多个候选词中重复的词汇以获得所述排他敏感词。检测模块300可被配置为基于文件的安全层级，检测操作动作的控制权限是否在文件的访问权限内，在控制权限不在访问权限的范围内的情况下，禁止操作动作。

根据本申请至少一个实施方式提供的文件安全管理装置可通过大数据挖掘自动地获取文件归属(归属部门或归属人员)的排他敏感词，并基于文件归属(归属部门或归属人员)的业务性质所确定的、仅属于该文件归属的排他敏感词准确高效地确定文件安全层级，进而可根据文件安全层级准确地对不同用户的不同文件操作给予相应的判定。因而可避免传统方法中通过人工经验限定文件的敏感字所引起的、诸如遗露和冗余等问题，并大幅度降低文件操作中安全警示的误报率，提高信息安全管理的安全性。

具体地，在本申请的一个实施方式中，文件归属为文件的归属部门或归属人员。

进一步地，在本申请的一个实施方式中，确定模块200被进一步配置为获取每个下一级文件归属所包括的多个样本文件；基于多个样本文件，确定每个下一级文件归属的常用词汇；以及合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词。

在本申请的一个实施方式中，确定模块200被进一步配置为获取样本文件的文本数据，并将文本数据中的任一组重复词汇合并为一个词汇；将多个合并后的样本的文本数据再次合并以形成下一级文件归属的历史词汇；以及基于历史词汇，确定下一级文件归属的常用词汇，其中，任一所述常用词汇的权重与其在下一级文件归属的历史词汇中的出现频率成正比。

具体地，在本申请的一个实施方式中，确定模块200被进一步配置为确定任一历史词汇的出现频率；去除历史词汇中仅出现一次的词汇；以及提取历史词汇中出现频率相对较高的S个词汇作为下一级文件归属的常用词汇，其中S为大于等于1的任意正整数。

进一步地，在本申请的一个实施方式中，S个词汇可满足：S＝Y+3×M，其中，Y为历史词汇的出现频率的平均值；以及M为历史词汇的出现频率的标准方差值。

此外，在本申请的一个实施方式中，文件安全管理装置2000还包括获取模块100。获取模块100被进一步配置为获取文件；且对文件进行分词处理以获取文件的文本数据；以及确定模块200被进一步配置为基于文件的文本数据与文件归属的排他敏感词确定文件的文件归属。

进一步地，在本申请的一个实施方式中，获取模块100还可被配置为获取样本文件；以及对样本文件进行分词处理以获取样本文件的文本数据。

在本申请的一个实施方式中，文件归属和安全层级可分别记载于文件归属配置表单和安全层级配置表单中，确定模块200可被进一步配置为实时更新所述文件归属配置表单和所述安全层级配置表单。

图9示出了根据本申请一个实施方式的文件安全管理设备3000的示意图。

如图9所示，根据本申请的又一方面，还提供了一种文件安全管理设备。所述设备可包括一个或多个处理，和一个或多个存储器。存储器中存储有计算机可读代码，计算机可读代码当由上述一个或多个处理器运行时，可以执行如上所述的文件安全管理方法。

根据本申请实施方式的方法或装置也可以借助于图9所示的计算设备3000的架构来实现。如图9所示，计算设备3000可包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM3030或硬盘3070可存储本申请提供的文件安全管理方法的处理和通信使用的各种数据或文件以及CPU所执行的程序指令。上述文件安全管理方法可例如包括：当检测到对文件的操作动作时，基于文件的文件归属的排他敏感词确定文件的安全层级；以及基于文件的安全层级，检测操作动作的控制权限是否在文件的访问权限内，在控制权限不在访问权限的范围内的情况下，禁止操作动作，其中，文件归属包括多个下一级文件归属，且每个下一级文件归属对应唯一常用词汇，通过合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词，并通过去除多个候选词中重复的词汇以获得排他敏感词。进一步地，计算设备3000还可包括用户界面3080。当然，图9所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图9示出的计算设备中的一个或多个组件。

图10是根据本申请的一个实施方式的计算机可读存储介质4020的示意图。

如图10所示，根据本申请的又一方面，还提供了一种计算机可读存储介质4020。计算机可读存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可执行参照以上附图描述的根据本申请实施方式的文件安全管理方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。

另外，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请提供了一种非暂时性机器可读存储介质，该非暂时性机器可读存储介质存储有机器可读指令，所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令，例如：当检测到对文件的操作动作时，基于文件的文件归属的排他敏感词确定文件的安全层级；以及基于文件的安全层级，检测操作动作的控制权限是否在文件的访问权限内，在控制权限不在访问权限的范围内的情况下，禁止操作动作，其中，文件归属包括多个下一级文件归属，且每个下一级文件归属对应唯一常用词汇，通过合并至少任意两个常用词汇中相同的词汇以获得文件归属的候选词，并通过去除多个候选词中重复的词汇以获得排他敏感词。这样的实施方式中，该计算机程序可以通过通信接口从网络上被下载和安装，和从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

另外，本申请的实施方式中提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

以上描述仅为本申请的实施方式以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的保护范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离技术构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文件安全管理方法，其特征在于，包括：

当检测到对文件的操作动作时，基于所述文件的文件归属的排他敏感词确定所述文件的安全层级；以及

基于所述文件的安全层级，检测所述操作动作的控制权限是否在所述文件的访问权限内，在所述控制权限不在所述访问权限的范围内的情况下，禁止所述操作动作，

其中，所述文件归属包括多个下一级文件归属，且每个所述下一级文件归属对应唯一常用词汇，通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词，并通过去除多个所述候选词中重复的词汇以获得所述排他敏感词。

2.根据权利要求1所述的方法，其特征在于，所述文件归属为文件的归属部门或文件的归属人员。

3.根据权利要求1或2所述的方法，其特征在于，通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词的步骤包括：

获取每个所述下一级文件归属所包括的多个样本文件；

基于所述多个样本文件，确定每个所述下一级文件归属的所述常用词汇；以及

合并至少任意两个所述常用词汇中相同的词汇以获得所述候选词。

4.根据权利要求3所述的方法，其特征在于，基于所述多个样本文件，确定每个所述下一级文件归属的所述常用词汇的步骤包括：

获取所述样本文件的文本数据，并将所述文本数据中的任一组重复词汇合并为一个词汇；

将多个合并后的所述样本的文本数据再次合并以形成所述下一级文件归属的历史词汇；以及

基于所述历史词汇，确定所述下一级文件归属的所述常用词汇，

其中，任一所述常用词汇的权重与其在所述下一级文件归属的历史词汇中的出现频率成正比。

5.根据权利要求4所述的方法，其特征在于，基于所述历史词汇，提取所述下一级文件归属的所述常用词汇的步骤包括：

确定任一所述历史词汇的出现频率；

去除所述历史词汇中仅出现一次的词汇；以及

提取所述历史词汇中出现频率相对较高的S个词汇作为所述下一级文件归属的常用词汇，其中S为大于等于1的任意正整数。

6.根据权利要求5所述的方法，其特征在于，所述S个词汇满足：S＝Y+3×M，

其中，Y为所述历史词汇的出现频率的平均值；以及

M为所述历史词汇的出现频率的标准方差值。

7.根据权利要求4所述的方法，其特征在于，获取所述样本文件的文本数据的步骤包括：

获取所述样本文件；以及

对所述样本文件进行分词处理以获取所述样本文件的文本数据。

8.根据权利要求1所述的方法，其特征在于，当检测到文件的操作动作后，所述方法还包括确定所述文件的文件归属的步骤，确定所述文件的文件归属包括：

获取所述文件；

对所述文件进行分词处理以获取所述文件的文本数据；以及

基于所述文件的文本数据与所述文件归属的所述排他敏感词确定所述文件的文件归属。

9.根据权利要求1所述的方法，其中所述文件归属和所述安全层级分别记载于文件归属配置表单和安全层级配置表单中，其特征在于，所述方法还包括：

实时更新所述文件归属配置表单和所述安全层级配置表单。

10.一种文件安全管理装置，其特征在于，所述装置包括：

确定模块，所述确定模块被配置为当检测到对文件的操作动作时，基于所述文件归属的排他敏感词确定所述文件的安全层级，其中所述文件归属包括多个下一级文件归属，且每个所述下一级文件归属对应唯一常用词汇，通过合并至少任意两个所述常用词汇中相同的词汇以获得所述文件归属的候选词，并通过去除多个所述候选词中重复的词汇以获得所述排他敏感词；以及

检测模块，所述检测模块被配置为基于所述文件的安全层级，检测所述操作动作的控制权限是否在所述文件的访问权限内，在所述控制权限不在所述访问权限的范围内的情况下，禁止所述操作动作。

11.根据权利要求10所述的装置，其特征在于，

所述文件归属为文件的归属部门或归属人员。

12.根据权利要求10或11所述的装置，其特征在于，

所述确定模块被进一步配置为获取每个所述下一级文件归属所包括的多个样本文件；基于所述多个样本文件，确定每个所述下一级文件归属的所述常用词汇；以及合并至少任意两个所述常用词汇中相同的词汇以获得所述候选词。

13.根据权利要求12所述的装置，其特征在于，

所述确定模块被进一步配置为获取所述样本文件的文本数据，并将所述文本数据中的任一组重复词汇合并为一个词汇；将多个合并后的所述样本的文本数据再次合并以形成所述下一级文件归属的历史词汇；以及基于所述历史词汇，确定所述下一级文件归属的所述常用词汇，其中，任一所述常用词汇的权重与其在所述下一级文件归属的历史词汇中的出现频率成正比。

14.根据权利要求13所述的装置，其特征在于，

所述确定模块被进一步配置为确定任一所述历史词汇的出现频率；去除所述历史词汇中仅出现一次的词汇；以及提取所述历史词汇中出现频率相对较高的S个词汇作为所述下一级文件归属的常用词汇，其中S为大于等于1的任意正整数。

15.根据权利要求14所述的装置，其特征在于，所述S个词汇满足：

S＝Y+3×M，

其中，Y为所述历史词汇的出现频率的平均值；以及

M为所述历史词汇的出现频率的标准方差值。

16.根据权利要求13所述的装置，其特征在于，所述文件安全管理装置还包括获取模块，所述获取模块被配置为获取所述样本文件；以及对所述样本文件进行分词处理以获取所述样本文件的文本数据。

17.根据权利要求10所述的装置，其特征在于，所述文件安全管理装置还包括获取模块，所述获取模块被配置为获取所述文件；且对所述文件进行分词处理以获取所述文件的文本数据；以及

所述确定模块被进一步配置为基于所述文件的文本数据与所述文件归属的所述排他敏感词确定所述文件的文件归属。

18.根据权利要求10所述的装置，其中所述文件归属和所述安全层级分别记载于文件归属配置表单和安全层级配置表单中，其特征在于，

实时更新所述文件归属配置表单和所述安全层级配置表单。

19.一种文件管理设备，其特征在于，所述文件管理设备包括：

处理器；以及

存储器，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行如权利要求1至9中任一项所述的文件安全管理方法。

20.一种计算机可读存储介质，其特征在于，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述的文件安全管理方法。