CN110414251B

CN110414251B - 数据监测方法和装置

Info

Publication number: CN110414251B
Application number: CN201910704648.XA
Authority: CN
Inventors: 崔义芳; 喻波; 王志海; 韩振国; 安鹏
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-01-05
Anticipated expiration: 2039-07-31
Also published as: CN110414251A

Abstract

本发明提供了一种数据监测方法和装置，该方法包括：接收预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一逆文档频率IDF，其中，所述预设文件为涉密文件，所述第一关键字为表示涉密的关键字；获取待监测文本以及所述待监测文本所属的第二领域信息；若所述第一领域信息和所述第二领域信息相同，则根据所述第一关键字、所述第一关键字的第一IDF，获取所述待监测文本的第二文本指纹；识别所述第一文本指纹和所述第二文本指纹之间的指纹距离；若所述指纹距离小于所述预设指纹距离阈值，则输出表示所述待监测文本包括涉密信息的报警信息。

Description

数据监测方法和装置

技术领域

本发明涉及数据安全技术领域，特别是涉及一种数据监测方法和装置。

背景技术

随着网络发展，越来越多的企业拥有自己的内部网并且连入了因特网。网络的普及为人们的生活和工作带来方便的同时，也带来了新问题，网络为泄露企业的商业机密、技术机密也提供了方便。网络安全问题的频繁发生,使得网络安全已经成为人们关注的焦点问题。

相关技术中的网络信息监测系统一般会采用关键字或正则表达式的方式，来对文本内容监测。其中，正则表达式一次只能配置一个，存在监控漏洞的问题；而关键字则需要预先配置，如果关键字较多，则会给关键字的配置工作增大工作量和难度。

目前，相关技术中尚没有办法提供一种既能够降低配置关键字的工作量又能够较为全面的对文本的涉密信息进行监测的方法。

发明内容

本发明提供了一种数据监测方法和装置，以解决相关技术中的数据监测方案所存在的关键字配置工作量大、监测不够全面的问题。

为了解决上述问题，根据本发明的一个方面，本发明公开了一种数据监测方法，包括：

接收预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一逆文档频率IDF，其中，所述预设文件为涉密文件，所述第一关键字为表示涉密的关键字；

获取待监测文本以及所述待监测文本所属的第二领域信息；

若所述第一领域信息和所述第二领域信息相同，则根据所述第一关键字、所述第一关键字的第一IDF，获取所述待监测文本的第二文本指纹；

识别所述第一文本指纹和所述第二文本指纹之间的指纹距离；

若所述指纹距离小于所述预设指纹距离阈值，则输出表示所述待监测文本包括涉密信息的报警信息。

根据本发明的另一方面，本发明还公开了一种数据监测装置，包括：

第一接收模块，用于接收预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一逆文档频率IDF，其中，所述预设文件为涉密文件，所述第一关键字为表示涉密的关键字；

第一获取模块，用于获取待监测文本以及所述待监测文本所属的第二领域信息；

第二获取模块，用于若所述第一领域信息和所述第二领域信息相同，则根据所述第一关键字、所述第一关键字的第一IDF，获取所述待监测文本的第二文本指纹；

第一识别模块，用于识别所述第一文本指纹和所述第二文本指纹之间的指纹距离；

输出模块，用于若所述指纹距离小于所述预设指纹距离阈值，则输出表示所述待监测文本包括涉密信息的报警信息。

与现有技术相比，本发明包括以下优点：

在本发明实施例中，可以依据涉密的预设文件来评判待监测文本是否包括涉密信息，从而能够降低相关技术中配置关键字的工作量；且涉及的预设文件中的关键字较多，因此又能够较为全面的对待监测文本是否涉密进行监测；并利用预设文件的第一关键字、第一IDF来获取待监测文本的第二文本指纹，而无需实时的计算预设文件的第一文本指纹，提升了系统性能，且只有在预设文件的领域与待监测文本的领域相同时，才会利用预设文件来对待监测文本获取第二文本指纹，从而能够确保对识别到的第二文本指纹的准确度，进而提升对待监测文本是否涉密的监测准确率。并在第一文本指纹和第二文本指纹之间的指纹距离小于预设指纹距离阈值时，说明待监测文本包含了涉密信息，可以输出报警信息。

附图说明

图1是本发明的一种策略信息的生成方法实施例的步骤流程图；

图2是本发明的一种文本指纹生成方法实施例的步骤流程图；

图3是本发明的一种数据监测方法实施例的步骤流程图；

图4是本发明的一种数据监测装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在介绍本发明实施例的数据监测流程之前，为了便于读者理解，首先，参照图1，示出了本发明一个实施例的策略信息的生成方法的步骤流程图。

该策略信息可以下发给用于数据监测的任意一个节点，在该节点本发明实施例的数据监测方法可以利用策略信息来判别待监测文本是否包括涉密信息。

在本发明实施例中，该策略信息可以包括预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一IDF(逆文档频率)，其中，所述预设文件为涉密文件，所述第一关键字为表示涉密的关键字。

其中，该策略信息可以预先生成，通过持久化到文件中来供数据监测使用；另外，该策略信息也可以实时生成，具体为导入预设文件到待监测系统中，然后，对该预设文件实时生成对应的策略信息。

下面以图1的流程为例来对该策略信息的预先生成流程做简单描述；当然，该策略信息的实时生成流程与下述的预先生成的流程都是类似的，区别仅仅在于未作持久化处理。

如图1所示，该策略信息的生成流程具体可以包括如下步骤：

步骤101，接收预设文件；

其中，该预设文件可以为企业系统中的任意一个包含涉密信息的文件。

本发明实施例的数据监测方法是以该预设文件中的敏感信息的范围作为指导来判别哪些文本或文件属于涉密文件的。

步骤102，识别所述预设文件所属的第一领域信息；

其中，预设文件的领域信息可以是医学、植物、基因等等领域，其具体属于哪个领域与其文本内容相关。

步骤103，采用领域与所述第一领域信息匹配的预设词库，识别所述预设文件中的第一关键字；

其中，所述预设词库的领域与该预设文件的领域相同。此外，该预设词库可以包括敏感字以及所述敏感字的IDF。

该预设词库可以是成熟的词库，也可以是基于成熟的词库优化后的词库。

那么本步骤中，可以采用分词器来对该预设文件的文本进行分词处理，生成多个候选字/候选词，然后，将多个候选字/词分别与该预设词库中的敏感字进行匹配，从而可以识别到该预设文件中涉及敏感信息的第一关键字。

其中，该第一关键字为与预设词库中的敏感字相匹配的字或词；

第一关键字的数量可以是一个或多个。

步骤104，获取所述第一关键字在所述预设文件中的第一词频(TF)；

步骤105，获取所述预设词库中与所述第一关键字匹配的第一敏感字的第一IDF；

其中，由于预设词库中的每个敏感字都对应有唯一的IDF，而第一关键字与敏感字相匹配，因此，可以从该预设词库中查找到与该第一关键字匹配的第一敏感字对应的第一IDF，该第一IDF即为第一关键字的IDF。

步骤106，根据所述第一TF和所述第一IDF，获取所述第一关键字的第一权重；

以一个第一关键字为例来说明，可以将该第一关键字的第一TF与第一IDF进行相乘，来得到该第一关键字的TF-IDF，该TF-IDF可以作为该第一关键字的第一权重。这样，预设文件中的每个第一关键字都可以具有各自的一个第一权重。

该第一权重可以表达出第一关键字在预设文件中的敏感程度，或者说涉密程度。

步骤107，根据每个所述第一关键字的第一哈希值以及每个所述第一关键字的所述第一权重，生成所述预设文件的第一文本指纹；

其中，可以对每个第一关键字作哈希运算，得到每个第一关键字的第一哈希值。可以利用每个第一关键字的第一哈希值以及每个第一权重，来生成该预设文件的文本指纹，即这里的第一文本指纹。

其中，在对一个文本生成文本指纹时，可以利用simhash的算法来生成文本指纹。图2示出了本发明一个实施例的利用simhash算法来生成文本指纹的方法。

该simhash算法的输入包括文本文件内容中的关键字(对应于图2中的特征词)以及每个关键字的权重值。例如该文本文件内容为预设文件，则该多个特征词为该预设文件的n个第一关键字，且每个第一关键字具有对应的权重值W1～Wn。

如图2所示，第一步，可以特征词的哈希值使用二进制数据表示，即图2中的特征hash；

第二步，将特征词的权重值与该特征词的特征hash的每一位作用，具体为将特征hash中数值为1的位设置为权重值，将特征hash中数值为0的位设置为负的权重值；

如图2所示，以特征hash(100110)和权重值W1作用为例，则作用结果为W1-W1-W1W1W1-W1。

经过第二步的运算操作，可以得到n个特征hash和n个权重值的作用结果(如图2所示，分别为W1-W1-W1W1W1-W1，W2W2-W2-W2-W2-W2，……，-Wn-Wn Wn-Wn-WnWn)，其中，特征词的数量为n；

第三步，将n个作用结果按位相加得到如图2的箭头所指示的一个综合作用结果；

其中，该综合作用结果中从高到低的6位依次为：W1+W2+…+(-Wn)，(-W1)+W2+…+(-Wn)，(-W1)+(-W2)+…+Wn，W1+(-W2)+…+(-Wn)，W1+(-W2)+…+(-Wn)，(-W1)+(-W2)+…+Wn。

第四步，将该综合作用结果中6位中数值为正数的位设置为1，将6位中数值为负数的位设置为0，从而可以得到一个6位的二进制序列。

其中，该第四步的结果即为输入的文本文件内容的文本指纹。

所以，借助于图2所示的方法流程就可以得到预设文件的第一文本指纹。

步骤108，对所述第一文本指纹配置预设指纹距离阈值；

其中，该预设指纹距离阈值可以为人工配置，也可以由系统配置。

预设指纹距离阈值可以客观的反映两篇文本的相似的程度，阈值越小，代表两篇文本的空间几何距离越近，文本也就越相似。可以让用户或系统来定义文本的空间几何距离为多少时可认定两篇文档相似。

另外，当预设文件为多个时，不同预设文件可以采用统一的预设指纹距离阈值，也可以各自具有相互独立的预设指纹距离阈值。

步骤109，对所述第一关键字、所述第一IDF、所述第一文本指纹、所述预设指纹距离阈值进行持久化处理。

其中，持久化处理的方式可以是写入到文件中，也可以是写入数据库中。

本发明实施例的方法通过将预设文件的文本指纹以及预设文件中的关键字、IDF以及预设指纹距离阈值持久化处理，从而可以在利用这些数据(即预设文件的文本指纹以及预设文件中的关键字、IDF以及预设指纹距离阈值)来对待监测文本进行涉密监测时，无需实时的去计算得到这些数据，可以减少对预设文件获取文本指纹的计算过程，降低计算量。也无需将预设文件进行分词以及与预设词库进行匹配，提升对待监测文本的监测效率，有效提升系统性能。

其中，该预设文件的所述第一关键字、第一IDF以及第一文本指纹，以及预设指纹距离阈值构成上文所述的策略信息。通过下发该策略信息，可以便于利用该策略信息来对待监测文本进行监测。

可选地，还可以将步骤109中的数据同步到内存中，便于直接从内存中读取数据来对待监测文件进行涉密监测。

参照图3，示出了本发明的一种数据监测方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，接收预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一IDF；

其中，所述预设文件为涉密文件，所述第一关键字为表示涉密的关键字；

其中，可以从内存或者从下发的策略信息(例如持久化的文件形式)读取预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一IDF。

其中，一个预设文件对应于一组策略信息，其中，本发明实施例的预设文件的数量可以是一个或多个，因此，下发的策略信息也可以是一组或多组。

其中，读取到的第一关键字可以是关键字列表，包括多个第一关键字。

可选地，在执行步骤201时，可以接收持久化处理后的所述预设文件所属的所述第一领域信息、所述预设文件的第一关键字、所述第一文本指纹、所述预设指纹距离阈值、所述第一关键字在所述预设词库中的第一IDF。

步骤202，获取待监测文本以及所述待监测文本所属的第二领域信息；

其中，可以获取待监测文本，其中，本发明对于待监测文本的数据源不做限制，例如可以来自邮件中的附件、或者，内网向外网发送的数据包等。

其中，待监测文本可以标记领域信息，或者，可以通过对待监测文本的内容进行识别，来确定该待监测文本所属的领域信息。

步骤203，若所述第一领域信息和所述第二领域信息相同，则根据所述第一关键字、所述第一关键字的第一IDF，获取所述待监测文本的第二文本指纹；

其中，如果策略信息中的预设文件的领域信息与待监测文本的领域信息相同，则说明两个文本的内容属于相同领域，因此，可以对两个文本的文本指纹计算指纹距离。相反，如果两个文本的领域信息不同，则容易导致所识别到的指纹距离不够准确的问题，这里只有在领域相同下，才会利用预设文件的第一关键字以及第一IDF来获取待监测文本的第二文本指纹，可以确保第二文本指纹的准确度，进而提升本发明实施例的数据监测的准确度。

步骤204，识别所述第一文本指纹和所述第二文本指纹之间的指纹距离；

其中，在计算两个文本指纹之间的距离时，可以计算海明距离来实现。

其中，该指纹距离表征了两个文本指纹之间的相似度距离，即指纹距离越小，两个文本指纹之间的相似度越大，相反，指纹距离越大，则两个文本指纹之间的相似度越小。

步骤205，若所述指纹距离小于所述预设指纹距离阈值，则输出表示所述待监测文本包括涉密信息的报警信息。

其中，如果该指纹距离小于该第一文本指纹对应的预设文件的预设指纹距离阈值，则说明该待监测文本与该预设文件之间已经足够相似，也即说明该待监测文本中的涉密信息已经大多数都能够与预设文件中的涉密信息相匹配，说明该待监测文本为涉密文本，如果该待监测文本外泄，则容易导致机密信息泄密。所以需要输出表示该待监测文本包括涉密信息的报警信息。

可选地，可以向服务器发送报警信息,该报警信息可以包括第二关键字在待监测文本中所处的定位信息，从而通过输出该报警信息，预警人员可以通过查看该报警信息来查找到待监测文件中涉及第二关键字的附近文本。

借助于本发明上述实施例的技术方案，可以依据涉密的预设文件来评判待监测文本是否包括涉密信息，从而能够降低相关技术中配置关键字的工作量；且涉及的预设文件中的关键字较多，因此又能够较为全面的对待监测文本是否涉密进行监测；并利用预设文件的第一关键字、第一IDF来获取待监测文本的第二文本指纹，而无需实时的计算预设文件的第一文本指纹，提升了系统性能，且只有在预设文件的领域与待监测文本的领域相同时，才会利用预设文件来对待监测文本获取第二文本指纹，从而能够确保对识别到的第二文本指纹的准确度，进而提升对待监测文本是否涉密的监测准确率。并在第一文本指纹和第二文本指纹之间的指纹距离小于预设指纹距离阈值时，说明待监测文本包含了涉密信息，可以输出报警信息。

在本发明实施例中，只需要提供一个涉密的样本文件，即预设文件，该预设文件可以是系统使用的涉密文件，无需专门生成，只要待监测文本的文本指纹与该预设文件的文本指纹相同，就可以输出对该待监测文本的报警信息，从而能够在一定程度上保护敏感信息。而无需采用预先配置的关键字来对待监测文件进行逐个关键字的匹配，降低了工作量。

可选地，在执行步骤203的所述根据所述第一关键字、所述第一关键字的第一IDF，获取所述待监测文本的第二文本指纹时，可以通过以下方式来实现：

S31，识别所述待监测文本中与所述第一关键字匹配的第二关键字；

其中，在确定待监测文本中哪些字或词为敏感字时，这里没有利用相同领域的预设词库，而是借助于与待监测文本的领域相同的预设文件中的第一关键字，从该待监测文本中查找与该第一关键字匹配的第二关键字。

由于利用预设文件的第一关键字所识别到的第二关键字，较利用预设词库中的敏感字对待监测文本所识别到的第二关键字，的准确率会稍微低一些，因此，为了确保提升系统性能的同时，确保对待监测文本中识别到的第二关键字的准确率，本发明实施例中，只有在预设文件的领域与待监测文本的领域相同的情况下，才会利用预设文件的第一关键字来识别待监测文本中的第二关键字，这样，可以确保避免发生以下问题：因为领域不同的两个文本之间相匹配的关键字较少，所导致的对待监测文本识别到的第二文本指纹不够准确，进而降低对涉密的待监测文件的监测准确率的问题。

S32，获取所述第二关键字在所述待监测文本中的第二TF；

S33，根据所述第一关键字的第一IDF，识别与所述第二关键字匹配的第二IDF；

其中，与第二关键字相匹配的第一关键字的第一IDF可以作为该第二关键字的第二IDF。

S34，根据所述第二TF和所述第二IDF，获取所述第二关键字的第二权重；

具体执行原理与上述步骤106类似，这里不再赘述。

S35，根据每个所述第二关键字的第二哈希值以及每个所述第二关键字的所述第二权重，生成所述待监测文本的第二文本指纹。

其中，本步骤的具体原理与上述步骤107类似，可以参照图2所示的生成文本指纹的方法，这里不再赘述。

可选地，当所述预设文件的数量为多个时，不同预设文件对应的预设指纹距离阈值不同；

此外，多个预设文件的领域也可以存在差异，那么步骤203在执行时，则只针对与待监测文本的领域相同的预设文件的第一关键字以及第一IDF，来获取待监测文本的第二文本指纹。

例如多个预设文件为文件1、文件2和文件3，其中，待监测文本的领域为医学，文件1和文件2的领域为医学，文件3的领域为化学。

那么在执行步骤203时，则可以利用文件1的第一关键字以及第一IDF来获取待监测文本的文本指纹X1；以及利用文件2的第一关键字以及第一IDF来获取待监测文本的文本指纹X2；而不使用文件3来获取待监测文本的文本指纹。

在执行步骤204时，则识别文件1的文本指纹M1与文本指纹X1之间的指纹距离D1，以及识别文件2的文本指纹M2与文本指纹X2之间的指纹距离D2。

那么在执行步骤205时，若存在至少一个预设文件的第一文本指纹和所述待监测文本的第二文本指纹之间的指纹距离小于该至少一个预设文件对应的预设指纹距离阈值，则输出表示所述待监测文本包括敏感信息的报警信息。

继续以上述举例来说明，例如文件1的预设指纹距离阈值为A1，文件2的预设指纹距离阈值为A2，那么若D1<A1，或D2<A2，则就可以输出该报警信息。

在本发明实施例中，当预设文件为多个时，在预设文件的领域与待监测文本的领域相同的情况下，只要存在至少一个预设文件的文本指纹与待监测文本的文本指纹之间的指纹距离小于该预设文件对应的预设指纹距离阈值，就可以输出报警信息，可以避免对涉密的待监测文件未监测到涉密信息的情况。

可选地，在配置策略信息时，如果预设文件的数量为多个，那么同一领域的预设文件可以是多个，且该同领域的多个预设文件的涉密程度可以不同，这样，就可以将不同涉密程度的待监测文件均监测到，从而输出报警信息，提升监测的全面性。

可选地，在执行步骤205时，

若所述指纹距离小于所述预设指纹距离阈值，则判断用于识别所述待监测文本和所述预设文本相似度的参数是否与第一预设数值范围或第二预设数值范围相匹配；

其中，所述参数包括所述指纹距离或所述预设指纹距离阈值；

所述第一预设数值范围的最小值大于所述第二预设数值范围的最大值。

其中，第一预设数值范围的数值范围较大，而第二预设数值范围的数值范围较小。

若所述参数与所述第一预设数值范围相匹配，则按照第一报警方式输出表示所述待监测文本包括涉密信息的报警信息；

其中，若指纹距离，或者预设指纹距离阈值在该第一预设数值范围内，则说明指纹距离或者预设指纹距离阈值较大，而指纹距离越大，两个文本指纹越不相似，因此，说明待监测文本的涉密程度较低，可以按照较低级别的报警方式来输出报警信息。例如该第一报警方式为文本提示。

若所述参数与所述第二预设数值范围相匹配，则按照第二报警方式输出表示所述待监测文本包括涉密信息的报警信息；

其中，若指纹距离，或者预设指纹距离阈值在该第二预设数值范围内，则说明指纹距离或者预设指纹距离阈值较小，而指纹距离越小，两个文本指纹越相似，因此，说明待监测文本的涉密程度较高，可以按照较高级别的报警方式来输出报警信息。例如该第二报警方式为语音提示。

其中，所述第二报警方式的报警级别高于所述第一报警方式的报警级别。

但是，本发明实施例的第二预警方式和第一预警方式并不限于上述举例。

在本发明实施例中，可以根据待监测文本的涉密程度的区别，而给出不同级别的报警方式，能够区分不同涉密程度的涉密文本。

可选地，当所述待监测文本为待发送的邮件内容时，则在执行步骤202中的所述获取待监测文本的步骤时，则可以截获所述待发送的邮件内容；

其中，本发明实施例的方法可以应用到邮件发送的监测过程中，在邮件发送之前，需要经过本发明实施例的数据监测方法的监测。

其中，该邮件内容可以是邮件的附件中的文本，也可以是邮件的主题等文本内容。

可选地，所述方法还包括：

若所述参数与所述第一预设数值范围相匹配，则对截获的所述邮件内容进行审计。

若所述参数与所述第二预设数值范围相匹配，则对截获的所述邮件内容阻断发送。

其中，在所述参数与所述第一预设数值范围相匹配时，则说明邮件内容的涉密程度较低，可以对邮件内容进行审计。在所述参数与所述第二预设数值范围相匹配时，则说明邮件内容的涉密程度较稿，可以对邮件内容阻断发送，避免较高程度的涉密文件被泄露。

可选地，在执行步骤202中的所述获取待监测文本时，可以获取由内网向外网发送的预设协议的报文；按照所述预设协议对所述报文进行解析，获取所述报文中的文本内容。

其中，该待监测文本也可以是由内网(例如局域网)向外网(例如互联网)发送的报文，因为，本发明实施例的方法目的在于防止涉密文件外泄，因此，则可以针对内网向外网传输的报文进行监测。在本发明实施例的方法中，可以对指定协议的报文进行监测，按照该预设协议来对已经组装成该预设协议的格式的报文进行还原解析，从而获取到该报文中的文本内容，对其进行监测。

本发明实施例的应用场景为内网向外网传输的预设协议的报文，从而能够较为全面和准确的对涉密文件的传输进行监测控制，避免涉密文件泄露。

此外，本发明实施例的数据监测方法可以和很多监测系统对接，灵活性较高。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的方法相对应，参照图4，示出了本发明一种数据监测装置实施例的结构框图，具体可以包括如下模块：

第一接收模块41，用于接收预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一逆文档频率IDF，其中，所述预设文件为涉密文件，所述第一关键字为表示涉密的关键字；

第一获取模块42，用于获取待监测文本以及所述待监测文本所属的第二领域信息；

第二获取模块43，用于若所述第一领域信息和所述第二领域信息相同，则根据所述第一关键字、所述第一关键字的第一IDF，获取所述待监测文本的第二文本指纹；

第一识别模块44，用于识别所述第一文本指纹和所述第二文本指纹之间的指纹距离；

输出模块45，用于若所述指纹距离小于所述预设指纹距离阈值，则输出表示所述待监测文本包括涉密信息的报警信息。

可选地，所述装置还包括：

第二接收模块，用于接收预设文件；

第二识别模块，用于识别所述预设文件所属的第一领域信息；

第三识别模块，用于采用领域与所述第一领域信息匹配的预设词库，识别所述预设文件中的第一关键字，其中，所述预设词库包括敏感字以及所述敏感字的IDF，所述第一关键字为与所述敏感字相匹配的字或词；

第三获取模块，用于获取所述第一关键字在所述预设文件中的第一词频TF；

第四获取模块，用于获取所述预设词库中与所述第一关键字匹配的第一敏感字的第一IDF；

第五获取模块，用于根据所述第一TF和所述第一IDF，获取所述第一关键字的第一权重；

生成模块，用于根据每个所述第一关键字的第一哈希值以及每个所述第一关键字的所述第一权重，生成所述预设文件的第一文本指纹；

配置模块，用于对所述第一文本指纹配置预设指纹距离阈值；

持久化处理模块，用于对所述第一关键字、所述第一IDF、所述第一文本指纹、所述预设指纹距离阈值进行持久化处理；

所述第一接收模块41，还用于接收持久化处理后的所述预设文件所属的所述第一领域信息、所述预设文件的第一关键字、所述第一文本指纹、所述预设指纹距离阈值、所述第一关键字在所述预设词库中的第一IDF。

可选地，所述第二获取模块43包括：

第一识别子模块，用于识别所述待监测文本中与所述第一关键字匹配的第二关键字；

第一获取子模块，用于获取所述第二关键字在所述待监测文本中的第二TF；

第一识别子模块，用于根据所述第一关键字的第一IDF，识别与所述第二关键字匹配的第二IDF；

第二获取子模块，用于根据所述第二TF和所述第二IDF，获取所述第二关键字的第二权重；

生成子模块，用于根据每个所述第二关键字的第二哈希值以及每个所述第二关键字的所述第二权重，生成所述待监测文本的第二文本指纹。

可选地，所述输出模块45，还用于当所述预设文件的数量为多个时，若存在至少一个预设文件的第一文本指纹和所述待监测文本的第二文本指纹之间的指纹距离小于该至少一个预设文件对应的预设指纹距离阈值，则输出表示所述待监测文本包括敏感信息的报警信息，其中，不同预设文件对应的预设指纹距离阈值不同。

可选地，所述输出模块45包括：

判断子模块，用于若所述指纹距离小于所述预设指纹距离阈值，则判断用于识别所述待监测文本和所述预设文本相似度的参数是否与第一预设数值范围或第二预设数值范围相匹配，其中，所述参数包括所述指纹距离或所述预设指纹距离阈值，所述第一预设数值范围的最小值大于所述第二预设数值范围的最大值；

第一输出子模块，用于若所述参数与所述第一预设数值范围相匹配，则按照第一报警方式输出表示所述待监测文本包括涉密信息的报警信息；

第二输出子模块，用于若所述参数与所述第二预设数值范围相匹配，则按照第二报警方式输出表示所述待监测文本包括涉密信息的报警信息；

可选地，所述第一获取模块42包括：

截获子模块，用于当所述待监测文本为待发送的邮件内容时，截获所述待发送的邮件内容；

可选地，所述装置还包括：

审查模块，用于若所述参数与所述第一预设数值范围相匹配，则对截获的所述邮件内容进行审计。

阻断模块，用于若所述参数与所述第二预设数值范围相匹配，则对截获的所述邮件内容阻断发送。

可选地，所述第一获取模块42包括：

第三获取子模块，用于获取由内网向外网发送的预设协议的报文；

第四获取子模块，用于按照所述预设协议对所述报文进行解析，获取所述报文中的文本内容。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据监测方法和一种数据监测装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据监测方法，其特征在于，包括：

获取待监测文本以及所述待监测文本所属的第二领域信息；

2.根据权利要求1所述的方法，其特征在于，所述接收预设文件所属的第一领域信息、所述预设文件的第一关键字、第一文本指纹、预设指纹距离阈值、所述第一关键字在预设词库中的第一逆文档频率IDF之前，所述方法还包括：

接收预设文件；

识别所述预设文件所属的第一领域信息；

采用领域与所述第一领域信息匹配的预设词库，识别所述预设文件中的第一关键字，其中，所述预设词库包括敏感字以及所述敏感字的IDF，所述第一关键字为与所述敏感字相匹配的字或词；

获取所述第一关键字在所述预设文件中的第一词频TF；

获取所述预设词库中与所述第一关键字匹配的第一敏感字的第一IDF；

根据所述第一TF和所述第一IDF，获取所述第一关键字的第一权重；

根据每个所述第一关键字的第一哈希值以及每个所述第一关键字的所述第一权重，生成所述预设文件的第一文本指纹；

对所述第一文本指纹配置预设指纹距离阈值；

对所述第一关键字、所述第一IDF、所述第一文本指纹、所述预设指纹距离阈值进行持久化处理；

所述接收预设文件所属的第一领域信息、所述预设文件的第一关键字、所述第一关键字在预设词库中的第一逆文档频率IDF、第一文本指纹、预设指纹距离阈值，包括：

接收持久化处理后的所述预设文件所属的所述第一领域信息、所述预设文件的第一关键字、所述第一文本指纹、所述预设指纹距离阈值、所述第一关键字在所述预设词库中的第一IDF。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一关键字、所述第一关键字的第一IDF，获取所述待监测文本的第二文本指纹，包括：

识别所述待监测文本中与所述第一关键字匹配的第二关键字；

获取所述第二关键字在所述待监测文本中的第二TF；

根据所述第一关键字的第一IDF，识别与所述第二关键字匹配的第二IDF；

根据所述第二TF和所述第二IDF，获取所述第二关键字的第二权重；

根据每个所述第二关键字的第二哈希值以及每个所述第二关键字的所述第二权重，生成所述待监测文本的第二文本指纹。

4.根据权利要求1所述的方法，其特征在于，当所述预设文件的数量为多个时，不同预设文件对应的预设指纹距离阈值不同；

所述若所述指纹距离小于所述预设指纹距离阈值，则输出表示所述待监测文本包括敏感信息的报警信息，包括：

若存在至少一个预设文件的第一文本指纹和所述待监测文本的第二文本指纹之间的指纹距离小于该至少一个预设文件对应的预设指纹距离阈值，则输出表示所述待监测文本包括敏感信息的报警信息。

5.根据权利要求1所述的方法，其特征在于，所述若所述指纹距离小于所述预设指纹距离阈值，则输出表示所述待监测文本包括敏感信息的报警信息，包括：

若所述指纹距离小于所述预设指纹距离阈值，则判断用于识别所述待监测文本和所述预设文件相似度的参数是否与第一预设数值范围或第二预设数值范围相匹配，其中，所述参数包括所述指纹距离或所述预设指纹距离阈值，所述第一预设数值范围的最小值大于所述第二预设数值范围的最大值；

6.根据权利要求5所述的方法，其特征在于，当所述待监测文本为待发送的邮件内容时，所述获取待监测文本，包括：截获所述待发送的邮件内容；

所述方法还包括：

若所述参数与所述第一预设数值范围相匹配，则对截获的所述邮件内容进行审计；

7.根据权利要求5所述的方法，其特征在于，所述获取待监测文本，包括：

获取由内网向外网发送的预设协议的报文；

按照所述预设协议对所述报文进行解析，获取所述报文中的文本内容。

8.一种数据监测装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二接收模块，用于接收预设文件；

所述第一接收模块，还用于接收持久化处理后的所述预设文件所属的所述第一领域信息、所述预设文件的第一关键字、所述第一文本指纹、所述预设指纹距离阈值、所述第一关键字在所述预设词库中的第一IDF。

10.根据权利要求8所述的装置，其特征在于，所述第二获取模块包括：

11.根据权利要求8所述的装置，其特征在于，

所述输出模块，还用于当所述预设文件的数量为多个时，若存在至少一个预设文件的第一文本指纹和所述待监测文本的第二文本指纹之间的指纹距离小于该至少一个预设文件对应的预设指纹距离阈值，则输出表示所述待监测文本包括敏感信息的报警信息，其中，不同预设文件对应的预设指纹距离阈值不同。

12.根据权利要求8所述的装置，其特征在于，所述输出模块包括：

判断子模块，用于若所述指纹距离小于所述预设指纹距离阈值，则判断用于识别所述待监测文本和所述预设文件相似度的参数是否与第一预设数值范围或第二预设数值范围相匹配，其中，所述参数包括所述指纹距离或所述预设指纹距离阈值，所述第一预设数值范围的最小值大于所述第二预设数值范围的最大值；

13.根据权利要求12所述的装置，其特征在于，

所述第一获取模块包括：

所述装置还包括：

审查模块，用于若所述参数与所述第一预设数值范围相匹配，则对截获的所述邮件内容进行审计；

14.根据权利要求12所述的装置，其特征在于，所述第一获取模块包括：