CN110019640A

CN110019640A - 涉密文件检查方法及装置

Info

Publication number: CN110019640A
Application number: CN201710611998.2A
Authority: CN
Inventors: 罗治华; 方志嘉
Original assignee: HANGZHOU INFOGO TECH CO LTD
Current assignee: HANGZHOU INFOGO TECH CO LTD
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2019-07-16
Anticipated expiration: 2037-07-25
Also published as: CN110019640B

Abstract

本申请提供一种涉密文件检查方法及装置，该方法包括：获取涉密指纹库，所述涉密指纹库中包括指定涉密文件对应的涉密指纹；提取待检文件的文本内容，并对所述文本内容进行分块处理，得到文本分块；对所述文本分块进行设定运算，得到所述待检文件对应的文件指纹；检查所述涉密指纹库中是否存在满足条件的涉密指纹，所述条件为：与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值；若所述涉密指纹库中存在满足所述条件的涉密指纹，则确定所述待检文件涉密。应用该方法，可以提高对文件进行涉密检查的精准度，降低保密检查人员的工作负担。

Description

涉密文件检查方法及装置

技术领域

本申请涉及信息技术领域，尤其涉及一种涉密文件检查方法及装置。

背景技术

随着计算机技术和网络技术的迅速发展，信息安全问题日益突出，尤其是对于涉密文件的保护方面越来越多的受到人们的重视。现有技术中，可以使用基于关键字词匹配的方式，对网络设备，例如个人电脑、打印机、扫描仪等中所存储的文件进行检查，以检查出涉密的文件。

上述所描述的基于关键字词匹配的方式，可以最大限度地将网络设备中携带关键字词的文件检查出来，但由于关键字词的范围并不十分准确，从而基于该种方式，所得到的检查结果中将包含大量的误报信息，同时，为了提高对文件进行涉密检查的精准度，保密检查人员将不可避免再通过人工检查的方式进行二次检查，增加了保密检查人员的工作负担。

发明内容

有鉴于此，本申请提供一种涉密文件检查方法及装置，以提高对文件进行涉密检查的精准度，降低保密检查人员的工作负担。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，本申请提供一种涉密文件检查方法，所述方法包括：

获取涉密指纹库，所述涉密指纹库中包括指定涉密文件对应的涉密指纹；

提取待检文件的文本内容，并对所述文本内容进行分块处理，得到文本分块；

对所述文本分块进行设定运算，得到所述待检文件对应的文件指纹；

检查所述涉密指纹库中是否存在满足条件的涉密指纹，所述条件为：与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值；

若所述涉密指纹库中存在满足所述条件的涉密指纹，则确定所述待检文件涉密。

在一实施例中，所述对所述文本内容进行分块处理，得到文本分块，包括：

以词组为单位对所述文本内容进行划分，得到第一类型的文本分块；并以句为单位对所述文本内容进行划分，得到第二类型的文本分块；以及，以段落为单位对所述文本内容进行划分，得到第三类型的文本分块。

在一实施例中，所述对所述文本分块进行设定运算，得到所述待检文件对应的文件指纹，包括：

针对每一类型的每一个文本分块，对所述文本分块进行哈希运算，将得到的哈希值作为所述文本分块对应的分块指纹；

针对每一类型的文本分块，按照属于同一类型的文本分块在所述文本内容中的排列顺序，将所述属于同一类型的文本分块对应的分块指纹进行排列组合，得到所述每一类型对应的类型指纹；

按照预设顺序，将所述每一类型对应的类型指纹进行排列组合，得到所述待检文件对应的文件指纹。

在一实施例中，所述获取涉密指纹库包括：

定期从所述服务端下载涉密指纹库，所述涉密指纹库是由所述服务端通过以下处理建立：

提取指定涉密文件的涉密文本内容，并对所述涉密文本内容进行分块处理，得到涉密文本分块；

对所述涉密文本分块进行所述设定运算，得到所述指定涉密文件对应的涉密指纹；

根据所述指定涉密文件对应的涉密指纹构建涉密指纹库。

在一实施例中，所述获取涉密指纹库包括：包括：

接收服务端在满足设定条件时发送的涉密指纹库，所述设定条件为：接收到客户端发送的获取请求，所述获取请求用于请求获取涉密指纹库；或者，涉密指纹库发生更新。

根据本申请实施例的第二方面，本申请提供一种涉密文件检查装置，所述装置包括：

获取模块，用于获取涉密指纹库，所述涉密指纹库中包括指定涉密文件对应的涉密指纹；

分块模块，用于提取待检文件的文本内容，并对所述文本内容进行分块处理，得到文本分块；

运算模块，用于对所述文本分块进行设定运算，得到所述待检文件对应的文件指纹；

检查模块，用于检查所述涉密指纹库中是否存在满足条件的涉密指纹，所述条件为：与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值；

判定模块，用于若所述涉密指纹库中存在满足所述条件的涉密指纹，则确定所述待检文件涉密。

在一实施例中，所述分块模块包括：

第一划分子模块，用于以词组为单位对所述文本内容进行划分，得到第一类型的文本分块；

第二划分子模块，用于以句为单位对所述文本内容进行划分，得到第二类型的文本分块；

第三划分子模块，用于以段落为单位对所述文本内容进行划分，得到第三类型的文本分块。

在一实施例中，所述运算模块包括：

哈希运算子模块，用于针对每一类型的每一个文本分块，对所述文本分块进行哈希运算，将得到的哈希值作为所述文本分块对应的分块指纹；

第一组合子模块，用于针对每一类型的文本分块，按照属于同一类型的文本分块在所述文本内容中的排列顺序，将所述属于同一类型的文本分块对应的分块指纹进行排列组合，得到所述每一类型对应的类型指纹；

第二组合子模块，用于按照预设顺序，将所述每一类型对应的类型指纹进行排列组合，得到所述待检文件对应的文件指纹。

在一实施例中，所述获取模块具体用于：

根据所述指定涉密文件对应的涉密指纹构建涉密指纹库。

在一实施例中，所述获取模块具体用于：

由上述实施例可见，通过提取待检文件的文本内容，得到待检文件对应的文件指纹，根据该文件指纹与涉密指纹库中的涉密指纹确定待检文件是否涉密，由于一个文件指纹可唯一地对应一个待检文件，并可以较为准确地表示待检文件的特征，从而依据文件指纹进行涉密文件的检查，可以提高检查的精准度，同时，由于检查结果较为可靠，避免了保密检查人员的二次检查工作，降低了保密检查人员的工作负担。

附图说明

图1为本申请涉密文件检查方法的一个实施例流程图；

图2为本申请涉密文件检查方法的另一个实施例流程图；

图3为本申请涉密文件检查装置所在网络设备的一种硬件结构图；

图4为本申请涉密文件检查装置的一个实施例框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参见图1，为本申请涉密文件检查方法的一个实施例流程图，该方法可以应用于网络设备，具体可以为待进行涉密文件检查的客户端设备，例如个人电脑上，该方法可以包括以下步骤：

步骤101：获取涉密指纹库，该涉密指纹库中包括指定涉密文件对应的涉密指纹。

在一实施例中，客户端设备可以定期从服务端下载涉密指纹库，该涉密指纹库中存储有指定涉密文件对应的涉密指纹，本申请中对指定涉密文件的数量并不作限制。具体的，客户端设备可以向服务端发送用于获取涉密指纹库的获取请求，那么，服务端在接收到该获取请求后，则可以向客户端设备发送涉密指纹库。后续，客户端设备接收到该涉密指纹库后，可以在本地存储该涉密指纹库，以便于后续对待检文件进行涉密检查。至于服务端侧的涉密指纹库是如何建立的，可以参见下述图2所示实施例中的描述，在此先不作详述。

在一实施例中，服务端所建立的涉密指纹库有可能发生更新，例如涉密指纹库中新增了涉密指纹，那么，服务端在涉密指纹库发生更新时，可以将更新后的涉密指纹库发送至客户端设备，以有效保证客户端设备对待检文件进行涉密检查的精准度。

需要说明的是，上述所描述的客户端设备定期从服务端下载涉密指纹库的方式，可以有效地保证客户端设备本地存储的涉密指纹库的准确性，从而有效保证客户端设备对待检文件进行涉密检查的精准度。

步骤102：提取待检文件的文本内容，并对文本内容进行分块处理，得到文本分块。

本申请实施例中，可以利用预设的文本内容提取函数对待检文件进行处理，得到待检文件的文本内容，还可以将提取到的文本内容的编码格式转换为预设编码格式，例如Unicode编码格式，至此完成提取待检文件的文本内容。具体是如何利用预设的文本内容提取函数提取待检文件的文本内容，并转换文本内容的编码格式的，本领域技术人员可以参见现有技术中的详细描述，本申请对此不作详述。

后续，对提取到的文本内容进行分块，得到文本分块。

在一个可选的实现方式中，对提取到的文本内容进行三种形式的分块，得到三种类型的文本分块。具体的，在一种形式中，可以采用中文分词技术，以词组为单位对文本内容进行划分，得到以词组为单位的文本分块，即所得到的一个文本分块即为一个词组，为了描述方便，本申请中将以词组为单位的文本分块称为第一类型的文本分块；在另一种形式中，可以根据中文标点符号进行划分，得到以句为单位的文本分块，即所得到的一个文本分块即为一个句子，为了描述方便，本申请中将以句为单位的文本分块称为第二类型的文本分块；在再一种形式中，可以根据段落换行符号进行划分，得到以段落为单位的文本分块，即一个文本分块即为一个段落，为了描述方便，本申请中将以段落为单位的文本分块称为第三类型的文本分块。

步骤103：对文本分块进行设定运算，得到待检文件对应的文件指纹。

本申请实施例中，首先，可以针对步骤102所得到的每一类型的每一个文本分块，对文本分块进行哈希运算，例如，MD5运算，将得到的哈希值作为该文本分块对应的指纹，为了描述方便，本申请中，将文本分块对应的指纹称为分块指纹。

之后，针对每一类型的文本分块，按照属于同一类型的文本分块在所述文本内容中的排列顺序，将属于同一类型的文本分块对应的分块指纹进行排列组合，得到每一类型对应的指纹，为了描述方便，本申请中将类型对应的指纹称为类型指纹。

举例来说，假设文本内容为“abcde”，以词组为单位对该文本内容进行划分，得到的第一类型的文本分块包括“ab”、“cde”，假设文本分块“ab”对应的分块指纹为W₁，文本分块“cde”对应的分块指纹为W₂，将属于该第一类型的文本分块对应的分块指纹进行排列组合，得到第一类型对应的类型指纹则为{W₁，W₂}。

之后，再按照预设顺序，将每一类型对应的类型指纹进行排列组合，得到待检文件对应的文件指纹。

举例来说，假设步骤102得到的n个第一类型的文本分块，m个第二类型的文本分块，j个第三类型的文本分块，针对这些文本分块，按照上述描述，假设得到第一类型的类型指纹为{W₁、W₂……W_n}，第二类型的类型指纹为{S₁、S₂……S_m}，第三类型的类型指纹为{P₁、P₂……P_j}，假设预设顺序为：第一类型、第二类型、第三类型，那么，最终得到的待检文件的文件指纹为{W₁，W₂，……，W_n，S₁，S₂，……，S_m，P₁，P₂，……，P_j}。

需要说明的是，上述所描述的对提取到的文本内容进行三种形式的分块，得到三种类型的文本分块的方式仅为一种优选的实现方式，本申请对具体的分块形式并不作限制，例如，可以以词组为单位，对提取到的文本内容进行分块，得到上述第一类型的文本分块；又例如，可以分别以词组、句为单位，对提取到文本内容进行分块，得到第一类型的文本分块和第二类型的文本分块，其他举例在此不再一一详述。

同时，需要指出的是，本申请实施例中，通过将待检文件的文本内容进行三种形式的分块，分别得到以词组为单位的文本分块、以句为单位的文本分块，以及以段落为单位的文本分块，而且最终得到的文件指纹是由这三种类型的文本分块对应的分块指纹组合而成，从而最终得到的文件指纹可以更为全面地表示待检文件的特征，从而后续根据该文件指纹判定待检文件是否涉密，所得到的判定结果的准确度更高。

步骤104：检查涉密指纹库中是否存在满足条件的涉密指纹，该条件为：与待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值，若是，则继续执行步骤105；否则，执行步骤106。

步骤105：确定待检文件涉密，结束流程。

步骤106：确定待检文件未涉密。

在步骤104至106中，客户端设备可以检查涉密指纹库中是否存在满足条件的涉密指纹，该条件可以为：与待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值，若存在满足条件的涉密指纹，则可以确定待检文件涉密，否则，可以认为待检文件未涉密。

在一实施例中，客户端设备可以使用余弦相似度的计算方式，计算待检文件对应的文件指纹与涉密指纹之间的相似度。具体的，以涉密指纹由上述三种类型的文本分块对应的分块指纹组合而成为例，首先对第三类型的指纹，即段落为单位的文本分块对应的分块指纹进行相似度计算，即针对待检文件对应的每一个第三类型的指纹，计算该第三类型的指纹与涉密指纹库中的涉密指纹之间的相似度，若相似度大于或等于预设的第三类型相似度阈值，则可以确定该段落为匹配段落，通过该种处理得到所有的匹配段落，假设匹配段落的数量为X，那么，段落相似度则等于X*预设段落相似度分值；之后，针对不匹配段落对应的第二类型，即以句为单位的文本分块对应的分块指纹进行相似度计算，与上述描述同理，最终可以得到匹配句，假设匹配句的数量为Y，那么，句相似度则等于Y*预设句相似度分值；之后，针对不匹配句对应的第一类型，即以词为单位的文本分块对应的分块指纹进行相似度计算，与上述描述同理，最终得到匹配词，假设匹配词的数量为Z，那么，词相似度则等于Z*预设词相似度分值；最终，将段落相似度、句相似度，以及词相似度相加，即为待检文件对应的文件指纹与涉密指纹之间的相似度。

需要说明的是，预设段落相似度分值大于预设句相似度分值，预设句相似度分值大于预设词相似度分值。

在一个可选的实现方式中，客户端设备可以计算得出待检文件对应的文件指纹，与涉密指纹库中的每一个涉密指纹之间的相似度，之后再检查涉密指纹库中是否存在满足上述条件的涉密指纹。

在另一个可选的实现方式中，客户端设备可以按照涉密指纹库中涉密指纹的顺序，依次计算待检文件对应的文件指纹与涉密指纹之间的相似度，若当前参与计算的涉密指纹不满足上述条件，则继续对下一涉密指纹进行计算，当找到满足上述条件的涉密指纹时，即可以停止计算过程，确定待检文件涉密。

请参见图2，为本申请涉密文件检查方法的另一个实施例流程图，该图2所示例的方法着重描述可服务端建立涉密指纹库的过程，包括以下步骤：

步骤201：提取指定涉密文件的涉密文本内容，并对涉密文本内容进行分块处理，得到涉密文本分块。

在本申请实施例中，为了描述方便，将提取到的涉密文件的文本内容称为涉密文本内容，将对涉密文本内容进行分块处理，得到的文本分块称为涉密文本分块。

具体提取涉密文本内容，以及对涉密文本内容进行分块处理的过程可以参见上述图1所示实施例中的相关描述，在此不再详述。

步骤202：对涉密文本分块进行设定运算，得到指定涉密文件对应的涉密指纹。

本步骤中，是如何对涉密文本分块进行设定运算，得到指定涉密文件对应的涉密指纹的，可以参见上述图1所示实施例中的相关描述，在此不再详述。

需要说明的是，对涉密文本内容进行处理，得到涉密指纹的具体实现方式应与图1所示实施例中对待检文件的文本内容进行处理，得到待检文件对应的文件指纹的具体实现方式相同，以保证后续计算涉密指纹与待检文件对应的文件指纹之间相似度的可操作性。

步骤203：根据指定涉密文件对应的涉密指纹构建涉密指纹库。

在本申请实施例中，可以将多个涉密指纹以加密压缩的方式生成一个涉密指纹库。

在一实施例中，涉密指纹库中还记录有指定涉密文件的文件信息，例如文件名称，并记录有文件名称与涉密指纹的对应关系，通过该种处理可以实现：当客户端设备确定某一待检文件涉密时，还可以进一步根据上述对应关系，获取待待检文件所关联的涉密文件的文件名称，还可以将该文件名称提供给用户，从而可以使得用户清楚直观地了解到待检文件具体所涉密的指定涉密文件，提升用户体验。

由上述实施例可见，通过对指定涉密文件进行处理，得到指定涉密文件对应的涉密指纹，构建涉密指纹库，可以便于客户端设备依据该涉密指纹库进行涉密文件的检查。

与前述涉密文件检查方法的实施例相对应，本申请还提供了涉密文件检查装置的实施例。

本申请涉密文件检查装置的实施例可以应用在网络设备，例如个人计算机、打印机、扫描仪、等等。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在网络设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本申请涉密文件检查装置所在网络设备的一种硬件结构图，除了图3所示的处理器31、内存32、网络接口33、以及非易失性存储器34之外，实施例中装置所在的网络设备通常根据该网络设备的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图4，为本申请涉密文件检查装置的一个实施例框图，该装置可以包括：获取模块410、分块模块420、运算模块430、检查模块440、判定模块450。

其中，获取模块410，可以用于获取涉密指纹库，所述涉密指纹库中包括指定涉密文件对应的涉密指纹；

分块模块420，可以用于提取待检文件的文本内容，并对所述文本内容进行分块处理，得到文本分块；

运算模块430，可以用于对所述文本分块进行设定运算，得到所述待检文件对应的文件指纹；

检查模块440，可以用于检查所述涉密指纹库中是否存在满足条件的涉密指纹，所述条件为：与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值；

判定模块450，可以用于若所述涉密指纹库中存在满足所述条件的涉密指纹，则确定所述待检文件涉密。

在一实施例中，所述分块模块420可以包括(图4中未示出)：

在一实施例中，所述运算模块430可以包括(图4中未示出)：

在一实施例中，所述获取模块具体用于：

根据所述指定涉密文件对应的涉密指纹构建涉密指纹库。

在一实施例中，所述获取模块具体用于：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种涉密文件检查方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述文本内容进行分块处理，得到文本分块，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述文本分块进行设定运算，得到所述待检文件对应的文件指纹，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取涉密指纹库包括：

根据所述指定涉密文件对应的涉密指纹构建涉密指纹库。

5.根据权利要求1所述的方法，其特征在于，所述获取涉密指纹库包括：包括：

6.一种涉密文件检查装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述分块模块包括：

8.根据权利要求6所述的装置，其特征在于，所述运算模块包括：

9.根据权利要求6所述的装置，其特征在于，所述获取模块具体用于：

根据所述指定涉密文件对应的涉密指纹构建涉密指纹库。

10.根据权利要求6所述的装置，其特征在于，所述获取模块具体用于：