CN109101574A

CN109101574A - 一种数据防泄漏系统的任务审批方法和系统

Info

Publication number: CN109101574A
Application number: CN201810790739.5A
Authority: CN
Inventors: 曹建强; 王志华; 王志海; 喻波; 秦凯; 王玮
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2018-12-28
Anticipated expiration: 2038-07-18
Also published as: CN109101574B

Abstract

本发明提供了一种数据防泄漏系统的任务审批方法和系统。本发明针对特定类型的文档进行审批，能够提升文档审核的效率以及针对性；并通过对文档进行属于必驳回条目的数字关键字的扫描，一方面可以提升审核效率；另一方面，能够避免必驳回关键字的权重被其他非驳回关键字的权重稀释的问题，从而提升审批准确率，避免携带必驳回关键字的文档被审批通过的情况，提升审核准确率；另外，本发明预先设置敏感关键词以及对应的主观权重和客观权重，使得文档的审批结果更接近人工审核结果。

Description

一种数据防泄漏系统的任务审批方法和系统

技术领域

本发明涉及数据安全领域，特别是涉及一种数据防泄漏系统的任务审批方法和系统。

背景技术

目前，对于数据防泄漏系统(DLP，Data leakage prevention)中的任务审批流程主要是基于工作流或者模板规则。

其中，对于基于工作流的任务审批流程，在审批流程中全部按照预先定义的工作流执行，例如，在申请人提出任务审批申请(即申请人申请对某个文档进行何种操作)后，第一层审批人员收到审批请求，人工检视申请人所提出申请的文本内容，然后，执行“同意”或者“拒绝”的动作；如果“同意”，则继续按照预先定义的工作流将经过第一层同意的任务审批申请发送至下一层审批人员进行进一步审批处理。但是，这种审批方案必须要由人工查看文档进行干预鉴定，只有在人工确定文档内容符合审批规则之后才能后续的自动审批流程。

为此，相关技术中提供了对审批文件自动审批的方法，具体包括：对审批文件进行分词扫描，提取预先设置的敏感词；然后，根据每个敏感词预先配置的一个权值以及每个敏感词在审批文档中出现的次数，来计算审批文件的敏感信息的权重值；最后，根据不同权重值区间与不同审批结果之间的关系，来确定审批文件的权重值所在的权重值区间对应的审批结果，选择审批通过或驳回，或者转交人工复核。

但是，这种自动审批方案所确定的审批结果对每个敏感词的权重的依赖性较高，容易引起能够指导驳回审批的敏感词的权重被其他不构成驳回审批的敏感词的权重稀释，最终导致计算出的文档的权重值处于“审批通过”对应的权重值区间，造成文档误审批通过的情况，容易引起信息泄密。

由此可见，相关技术中面向数据防泄漏系统的任务审批方案普遍存在着审批准确率较低的问题。

发明内容

本发明提供了一种数据防泄漏系统的任务审批方法和系统，以解决现有技术中面向数据防泄漏系统的任务审批方案所存在的审批准确率较低的问题。

为了解决上述问题，根据本发明的一个方面，本发明公开了一种数据防泄漏系统的任务审批方法，包括：

获取任务审批请求中的文档内容；

判断所述文档内容是否包括表示预设文档类型的预设关键词；

若所述文档内容包括表示预设文档类型的预设关键词，则将所述文档内容与预设数字关键字进行匹配，确定所述文档内容是否包括预设数字关键字；

若所述文档内容包括预设数字关键字，则响应于所述任务审批请求，返回表示审批驳回的审批结果；

若所述文档内容不包括预设数字关键字，提取所述文档内容中的候选敏感关键词；

根据预设的敏感关键词与主观权重以及客观权重的对应关系，确定所述候选敏感关键词中与所述敏感关键词匹配的目标敏感关键词，以及与所述目标敏感关键词对应的目标主观权重和目标客观权重；

确定所述目标敏感关键词在所述文档内容中出现的目标次数；

根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度；

根据预设的敏感度区间与审批结果的对应关系，查找所述目标敏感度对应的目标敏感度区间，以及所述目标敏感度区间对应的目标审批结果；

响应所述任务审批请求，返回所述目标审批结果。

可选地，所述根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度，包括：

根据以下公式计算每个目标敏感关键词的组合权重；

其中，w_i表示第i个目标敏感关键词的组合权重，m表示所述文档内容中所述目标敏感关键词的总数，a_i表示第i个目标敏感关键词的目标客观权重，b_i表示第i个目标敏感关键词的目标主观权重，其中1≤i≤m；

根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度。

可选地，所述根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度之前，所述方法还包括：

确定所述任务审批请求对应的目标审批人；

根据预先设置的审批人与主观因子之间的对应关系，确定所述目标审批人对应的目标主观因子；

相应的，所述根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度，包括：

根据以下公式计算每个目标敏感关键词的组合权重；

w_i＝αa_i+(1-α)b_i，(0≤α≤1)；

其中，w_i表示第i个目标敏感关键词的组合权重，a_i表示第i个目标敏感关键词的目标客观权重，b_i表示第i个目标敏感关键词的目标主观权重，α为目标审批人的目标主观因子；

可选地，所述根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度之前，所述方法还包括：

对每个目标敏感关键词的组合权重进行归一化处理，得到每个目标敏感关键词的归一化组合权重，其中，所有目标敏感关键词的归一化组合权重之和等于一；

所述根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度，包括：

根据以下公式计算所述文档内容的目标敏感度W；

W＝N₁*w′₁+N₂*w′₂+…+N_i*w′_i；

其中，w′_i表示第i个目标敏感关键词的归一化组合权重，N_i表示第i个目标敏感关键词的目标次数，其中1≤i≤m，m表示所述文档内容中所述目标敏感关键词的总数。

可选地，若所述目标审批结果为人工复核，所述响应所述任务审批请求，返回所述目标审批结果之后，所述方法还包括：

接收人工复核结果；

若所述人工复核结果为审批驳回，则将所述对应关系中所述目标敏感关键词的目标主观权重的数值提高预设第一比例阈值，并将所述候选敏感关键词中未与所述对应关系中的敏感关键词相匹配的目标候选关键词补充到所述对应关系中，并在所述对应关系中对所述目标候选关键词配置主观权重以及客观权重；

若所述人工复核结果为审批通过，则将所述对应关系中所述目标敏感关键词的目标主观权重的数值降低预设第二比例阈值。

根据本发明的另一方面，本发明还公开了一种数据防泄漏系统的任务审批系统，包括：

获取模块，用于获取任务审批请求中的文档内容；

判断模块，用于判断所述文档内容是否包括表示预设文档类型的预设关键词；

匹配模块，用于若所述文档内容包括表示预设文档类型的预设关键词，则将所述文档内容与预设数字关键字进行匹配，确定所述文档内容是否包括预设数字关键字；

第一响应模块，用于若所述文档内容包括预设数字关键字，则响应于所述任务审批请求，返回表示审批驳回的审批结果；

提取模块，用于若所述文档内容不包括预设数字关键字，提取所述文档内容中的候选敏感关键词；

第一确定模块，用于根据预设的敏感关键词与主观权重以及客观权重的对应关系，确定所述候选敏感关键词中与所述敏感关键词匹配的目标敏感关键词，以及与所述目标敏感关键词对应的目标主观权重和目标客观权重；

第二确定模块，用于确定所述目标敏感关键词在所述文档内容中出现的目标次数；

计算模块，用于根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度；

查找模块，用于根据预设的敏感度区间与审批结果的对应关系，查找所述目标敏感度对应的目标敏感度区间，以及所述目标敏感度区间对应的目标审批结果；

第二响应模块，用于响应所述任务审批请求，返回所述目标审批结果。

可选地，所述计算模块，还用于根据以下公式计算每个目标敏感关键词的组合权重；

所述计算模块，还用于根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度。

可选地，所述系统还包括：

第三确定模块，用于确定所述任务审批请求对应的目标审批人；

第四确定模块，用于根据预先设置的审批人与主观因子之间的对应关系，确定所述目标审批人对应的目标主观因子；

相应的，所述计算模块，还用于根据以下公式计算每个目标敏感关键词的组合权重；

w_i＝αa_i+(1-α)b_i，(0≤α≤1)；

可选地，所述系统还包括：

归一化处理模块，用于对每个目标敏感关键词的组合权重进行归一化处理，得到每个目标敏感关键词的归一化组合权重，其中，所有目标敏感关键词的归一化组合权重之和等于一；

所述计算模块，还用于根据以下公式计算所述文档内容的目标敏感度W；

W＝N₁*w′₁+N₂*w′₂+…+N_i*w′_i；

可选地，所述系统还包括：

接收模块，用于接收人工复核结果；

第一更新模块，用于若所述人工复核结果为审批驳回，则将所述对应关系中所述目标敏感关键词的目标主观权重的数值提高预设第一比例阈值，并将所述候选敏感关键词中未与所述对应关系中的敏感关键词相匹配的目标候选关键词补充到所述对应关系中，并在所述对应关系中对所述目标候选关键词配置主观权重以及客观权重；

第二更新模块，用于若所述人工复核结果为审批通过，则将所述对应关系中所述目标敏感关键词的目标主观权重的数值降低预设第二比例阈值。

与现有技术相比，本发明包括以下优点：

本发明针对特定类型的文档进行审批，能够提升文档审核的效率以及针对性；并通过对文档进行属于必驳回条目的数字关键字的扫描，一方面可以提升审核效率；另一方面，能够避免必驳回关键字的权重被其他非驳回关键字的权重稀释的问题，从而提升审批准确率，避免携带必驳回关键字的文档被审批通过的情况，提升审核准确率；另外，本发明预先设置敏感关键词以及对应的主观权重和客观权重，使得文档的审批结果更接近人工审核结果。

附图说明

图1是本发明的一种DLP系统的任务审批方法实施例的步骤流程图；

图2是本发明的一种DLP系统实施例的工作流程图；

图3是本发明的一种DLP系统与银行OA系统对接的工作流程图；

图4是本发明的一种DLP系统的任务审批装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种DLP系统的任务审批方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取任务审批请求中的文档内容；

其中，任务审批请求中会包括附件文档，任务审批请求表示对该附件文档进行诸如外发、编辑等等处理的审批请求，这里，本发明实施例需要获取该附件文档中具体的文档内容。

步骤102，判断所述文档内容是否包括表示预设文档类型的预设关键词；

其中，该表示预设文档类型的预设关键词可以为表示财务文档的“财务”关键词，还可以是表示合同文档的“合同”关键词，当然还可以是其他未列举的能够表示特定文档类型的关键词。此外，该预设关键词并不限于文字，还可以是符号、标记等等。

这里的特定文档类型的文档的信息安全性较高，需要着重进行审批，因此，借助于步骤102可以对各个任务审批请求中的文档进行文档类型的筛选，只有预设文档类型的文档才会执行后续步骤103～步骤107以及步骤107之后的审核流程，从而提升文档审核的效率以及针对性。

另外，在具体进行判断时，可以将文档内容与本发明实施例的预设关键词进行匹配，只要能够成功匹配到任意一个预设关键词，则确定该文档内容包括表示预设文档类型的预设关键词。

而能够匹配成功的判断依据则可以是两个词的语义匹配度大于预设阈值，例如80％；或者，文本匹配度大于预设阈值，例如85％。

可选地，若所述文档内容不包括表示预设文档类型的预设关键词，则根据本发明实施例的方法可以包括：

响应于所述任务审批请求，返回表示审批通过的审批结果。

也就是说，当待审批的文档不是敏感类型的文档时，则说明这篇文档不涉及涉密信息，不需要进行审核，因此，可以返回表示审批通过的审批结果。

步骤103，若所述文档内容包括表示预设文档类型的预设关键词，则将所述文档内容与预设数字关键字进行匹配，确定所述文档内容是否包括预设数字关键字；

其中，经过步骤102的判断，如果确定该文档内容中包括表示预设文档类型的预设关键词，则可以将文档内容与预设数字关键字进行匹配。

其中，该预设数字关键字的数字类型可以包括但不限于：手机号，座机号、银行卡号，IP地址，企业税号等等敏感类型的数字串。

以预设数字关键字的数字类型为手机号为例，在一个示例中，该预设数字关键字可以是一个或多个具体的手机号码，例如13521411058、13522635021等；在另一个示例中，该预设数字关键字还可以是符合手机号码格式的一个手机号码区间，例如135****1055，其中，只要是前三位为135，后四位为1055的手机号码，这些手机号码都是预设数字关键字。在又一个示例中，该预设数字关键字还可以是符合手机号码格式的所有手机号码，例如138********、135********、137********等等手机号码。

那么在具体实例中，以预设数字关键字的数字类型为手机号为例，具体采用上市三个示例中哪种示例的手机号码作为敏感号码，即预设数字关键字，则可以预先灵活配置。

而其他数字类型的预设数字关键字，例如座机号、银行卡号，IP地址，企业税号等等，它们的预设数字关键字的定义原则类似于上述手机号的定义原则，这里不再赘述。

此外，在将所述文档内容与预设数字关键字进行匹配时，可以采用正则匹配或者Lua表达式匹配等等已知方式来进行匹配，从而确定所述文档内容是否包括预设数字关键字。

步骤104，若所述文档内容包括预设数字关键字，则响应于所述任务审批请求，返回表示审批驳回的审批结果；

其中，本发明实施例的预设数字关键字为文档必驳回的数字，因此，只要该文档中存在该预设数字关键字，则可以直接对文档进行驳回审批，节省审批成本，提升审批效率。

此外，在现有技术的方案中不存在对文档进行数字形式的敏感字的扫描过程，本发明实施例预先进行数字关键字的扫描，一方面可以提升审核效率；另一方面，当采用传统技术中的审批流程时，容易使属于必驳回条目的数字关键字的权重被其他非驳回条目的关键字的权重稀释，导致整篇文档的敏感度属于审批通过对应的权重区间，进而导致文档审批误通过的问题。而采用本发明实施例的方法，预先进行属于必驳回条目的预设数字关键字的扫描，能够避免必驳回关键字的权重被其他非驳回关键字的权重稀释的问题，从而提升审批准确率，避免携带必驳回关键字的文档被审批通过的情况。

步骤105，若所述文档内容不包括预设数字关键字，提取所述文档内容中的候选敏感关键词；

其中，如果文档内容中不包括必驳回的预设数字关键字，则可以对文档内容提取候选敏感关键词；

其中，该候选敏感关键词为可能涉及DLP系统安全性的敏感词。

本发明实施例可以预先设置一些涉及DLP系统安全性的敏感词汇，这里称作预设分词，然后，在提取候选敏感关键词时，可以通过CRF(条件随机场算法)、MMSeg(中文分词算法)等方法来对文档进行预设分词的扫描，将扫描到的预设分词作为本文档的候选敏感关键词。

其中，由于文档中可能对某个敏感词汇打乱了排列位置，从而造成直接扫描文本，无法确定出某个敏感词汇的问题，而这里，通过CRF方法进行扫描时，可以根据语义来对文档进行预设分词的扫描，即只要语义与该预设分词一致，则确定该文档中扫描到了该预设分词，可以将该预设分词作为候选敏感关键词。

步骤106，根据预设的敏感关键词与主观权重以及客观权重的对应关系，确定所述候选敏感关键词中与所述敏感关键词匹配的目标敏感关键词，以及与所述目标敏感关键词对应的目标主观权重和目标客观权重；

其中，本发明实施例可以利用先验信息预先设置敏感关键词，以及对每个预设的敏感关键词配置主观权重和客观权重，其中，这两个权重不同。从而生成预设的敏感关键词与主观权重以及客观权重之间的对应关系。

其中，该对应关系可以存储在权重数据库中。

所谓主观权重，即对敏感关键词人为定义的敏感度权重，至于定义的具体数值是多少，则可以利用先验信息来定义，例如各个审批人员对某个敏感关键字人为确定的敏感度权重的平均值。而本发明实施例可以预先将该主观权重写入到权重数据库中该敏感关键词的主观权重中。

所谓客观权重，则可以是利用各个敏感文档中敏感关键词的敏感程度的先验信息，来确定各个敏感关键词的客观权重，非人为自定义。同样的，本发明实施例可以预先将每个敏感关键词的客观权重写入到权重数据库中该敏感关键词的客观权重中。

其中，候选敏感关键词并不一定会全部命中权重数据库中的敏感关键词，因此，这里将文档中命中权重数据库中的敏感关键词的候选敏感关键词称作目标敏感关键词，在该权重数据库中，对应该目标敏感关键词的客观权重为目标客观权重，对应目标敏感关键词的主观权重为目标主观权重。

这里的目标敏感关键词的数量为一个或多个，优选多个。

步骤107，确定所述目标敏感关键词在所述文档内容中出现的目标次数；

其中，目标次数为目标敏感关键词在该文档内容中出现的总次数。

步骤108，根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度；

可选地，在一个实施例中，在执行步骤108时，可以通过以下方式(这里称作主客观综合赋权法)来实现：

根据以下公式(1)计算每个目标敏感关键词的组合权重；

其中，本发明实施例的公式(1)的计算各个目标敏感关键词的组合权重的方法可以应用在目标敏感关键词的数量较多，即m值较大(例如m大于1000)，以及各个目标敏感关键词的客观权重分配比较均匀(即各个目标敏感关键词的目标客观权重的数值差不多，例如各个目标客观权重之间的差值小于某个方差阈值)的情况，采用本发明实施例的方法，可以提升对审核文档的敏感度计算的准确度。

这样，在本发明实施例中，在计算任意一个目标敏感关键词的权重时，不仅可以考虑到该目标敏感关键词的主观权重和客观权重，还可以综合考虑到该文档中包括的所有目标敏感关键词的主观权重和客观权重，使得计算出的每个目标敏感关键词的组合权重都涉及其他目标敏感关键词的权重影响，避免单个目标敏感关键词的组合权重对整篇文档的敏感度的影响过大的问题，提升审核准确率。

可选地，在根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度之前，根据本发明实施例的方法还可以包括：

对每个目标敏感关键词的组合权重进行归一化处理，得到每个目标敏感关键词的归一化组合权重，其中，该文档内容中所有目标敏感关键词的归一化组合权重之和等于一；

即，

其中，归一化处理的方法可以是已知技术中的任意一种，这里不再赘述。

相应的，在执行所述根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度的步骤时，则可以根据以下公式(3)计算所述文档内容的目标敏感度W；

W＝N₁*w′₁+N₂*w′₂+…+N_i*w′_i，(3)；

其中，w′_i表示第i个目标敏感关键词的归一化组合权重，N_i表示第i个目标敏感关键词的目标次数，1≤i≤m，m表示所述文档内容中所述目标敏感关键词的总数。

这样，当计算的目标敏感关键词的组合权重大于1时，本发明实施例的方法可以通过归一化的方法，来使得所有目标敏感关键词的组合权重之和等于1。

可选地，在另一个实施例中，在执行步骤108之前，根据本发明实施例的方法还可以包括：

确定所述任务审批请求对应的目标审批人；

其中，每个任务节点都有对应的审批人，不同任务节点之间的审批人可以相同或不同。这里可以确定该任务审批请求对应的目标审批人，其中，该目标审批人可以在该任务审批请求的系统自动审批结果为人工复核的情况下进行人工审批。

其中，考虑到决策者对不同赋权方法存在偏好，因此，在本发明实施例中可以根据决策者的对关键词的赋权偏好信息来确定决策者的主观因子，从而预先配置DLP系统中不同审批人的主观因子，得到预先设置的审批人与主观因子之间的对应关系，并通过查找该对应关系，来确定该目标审批人对应的目标主观因子。

此外，本发明在执行步骤108的计算每个目标敏感关键词的组合权重时，可以结合对应审批人的主观因子，从而可以灵活的模拟不同审批人的审批侧重点。

相应的，在执行步骤108时，则可以通过以下方式(这里称作线性加权组合赋权法)来实现：

根据以下公式(2)计算每个目标敏感关键词的组合权重；

w_i＝αa_i+(1-α)b_i，(0≤α≤1)，(2)

这样，本发明实施例在计算各个目标敏感关键词的组合权重时，可以结合任务审批请求对应的审批人的主观因子、目标敏感关键词的主观权重、客观权重，来综合得到每个目标敏感关键词的权重，使得每个审批节点的系统审批结果更加接近于该审批节点的审批人的人工审批结果，提升审批准确率。

即，

其中，归一化处理的方法可以是已知技术中的任意一种，本发明对此并不限定。

W＝N₁*w′₁+N₂*w′₂+…+N_i*w′_i，(3)；

步骤109，根据预设的敏感度区间与审批结果的对应关系，查找所述目标敏感度对应的目标敏感度区间，以及所述目标敏感度区间对应的目标审批结果；

其中，本发明能够利用先验信息来预先设置不同的审批结果所分别对应的敏感度区间，得到敏感度区间与审批结果的对应关系，然后，在该对应关系中涉及的至少两个敏感度区间中查找包含该目标敏感度的目标敏感度区间，以及在该对应关系中查找对应该目标敏感度区间的目标审批结果。

其中，当预先设置一个敏感度阈值p，则可以生成两个敏感度区间，分别为(0，p]、(p，+∞)；或者，两个敏感度区间也可以为(0，p)、[p，+∞)。也就是说，本发明对于等于阈值p的区间具体为哪个敏感度区间并不做具体限制。

以敏感度区间包括(0，p]、(p，+∞)为例进行说明，目标审批结果可以包括审批通过和审批驳回，其中，敏感度区间(0，p]对应审批通过；敏感度区间(p，+∞)对应审批驳回。

而在其他实施例中，敏感度区间还可以包括三个或者三个以上，其中，敏感度区间的数量与审核结果的数量是相同的，且不同审核结果的敏感度区间之间不存在任何敏感度数据的交集。

例如，本发明预先设置了三个敏感度区间，分别为(0，p]、(p，q]、(q，+∞)，其中，(0，p]对应审批通过；(p，q]对应人工复核；(q，+∞)对应审批驳回。那么在执行步骤108后，文档内容的敏感度(即目标敏感度)为W；那么在执行步骤109时，当0<W<＝p时，则确定审批结果为审批通过，在执行步骤110时，则将该审批流程通过(例如该任务审批请求为将该文档内容外发，则允许其外发该文档内容)的信息返回至请求者；

在执行步骤109时，当p<W<＝q时，则确定审批结果为人工复核，在执行步骤110时，则将该审批流程需要人工复核的信息返回至请求者，并且系统还会自动将该审批流程转交给对应审批节点的审核人员进行人工复核处理(具体可以将该审批任务下发至该任务审批请求对应的任务节点的审核人员的审批任务栏中以便其进行审批)；

在执行步骤109时，当W>q时，则确定审批结果为审批驳回，在执行步骤110时，则将审批驳回(例如该任务审批请求为将该文档内容外发，则不允许其外发该文档内容)的信息返回至请求者。

由于敏感度越高，其被驳回的可能性越高，因此，数值较小的敏感度区间倾向于审批通过的方向，而数值较大的敏感度区间则倾向于审批驳回的方向，那么介于二者之间的数值的敏感度区间则可以继续走向人工复核。

这里，以三种审批结果来具体说明的，而在实际应用时，本发明的审批结果并不限定上述三种，还可以包括更多的审批结果；此外，也可以包括更少的审批结果，例如审批结果中只有两个选项，一个为审批通过，另一个为审批驳回；或者，一个为审批通过，另一个为人工复核等等。

另外，需要注意的是，以上述具有两个敏感度阈值的p、q为例，本发明对于不同敏感度区间之间哪个敏感度区间取得该阈值并不做具体限制，例如三个敏感度区间还可以包括：(0，p)、[p，q)、[q，+∞)；或者，(0，p)、[p，q]、(q，+∞)等。

步骤110，响应所述任务审批请求，返回所述目标审批结果。

可选地，在步骤110之后，若所述目标审批结果为人工复核，则根据本发明实施例的方法还可以包括：

接收人工复核结果；

其中，该任务审批请求对应的任务节点的审核人员的审批任务栏中看到该任务审批请求的人工复核结果，可以对上述文档内容进行查看审批，以确定该篇文档内容是否可以外发，如果确定可以外发，则给出审批通过的审批结果；相反，如果确定不可以外发，则给出审批驳回的审批结果。

那么本发明实施例的方法就可以接收到该审核人员的人工复核结果，例如审批通过，或者审批驳回。

其中，如果人工复核结果为审批驳回，而在上述流程的系统判断中该篇文档的目标敏感度未达到审批驳回的敏感度区间的下限，处于人工复核的敏感度区间内，因此，说明在权重数据库中对文档中的目标敏感关键词的主观权重与人工审核结果之间还存在一定差距，所以，需要对这些目标敏感关键词的主观权重进行提高，具体提高的幅度可以是增长第一比例阈值。

例如，文档内容中的候选敏感关键词包括词1、词2和词3。其中，词1和词2在权重数据库中配置有主观权重、客观权重。例如词1的主观权重为0.3、词2的主观权重为0.4，那么例如第一比例阈值为10％，则这里0.3x10％＝0.03；0.4x10％＝0.04。所以可以将权重数据库中的词1的主观权重修改为0.33，将词2的主观权重修改为0.44。

此外，词3(即目标候选关键词)未命中权重数据库中的敏感关键词，因此，这里可以将词3补充到该权重数据库中，并对词3配置主观权重和客观权重。其中，在对词3配置主观权重和客观权重时，配置的具体数值可以参照上述实施例中关于权重数据库中对应关系的生成方法，这里不再赘述。

其中，如果人工复核结果为审批通过，而在上述流程的系统判断中该篇文档的目标敏感度已超过审批通过的敏感度区间的上限，处于人工复核的敏感度区间内，因此，说明在权重数据库中对文档中的目标敏感关键词的主观权重略微高于人工审核结果，所以，需要对这些目标敏感关键词的主观权重进行降低，具体降低的幅度可以是降低第二比例阈值。

继续以文档内容中的候选敏感关键词包括词1、词2和词3为例进行说明。其中，词1和词2在权重数据库中配置有主观权重、客观权重，词3未命中权重数据库中的敏感关键词。例如词1的主观权重为0.3、词2的主观权重为0.4，那么例如第二比例阈值为10％(其中，需要注意的是第一比例阈值与第二比例阈值可以相同或不同，本发明对此并不限定)，则这里0.3x10％＝0.03；0.4x10％＝0.04。所以可以将权重数据库中的词1的主观权重修改为0.27，将词2的主观权重修改为0.36。

这样，本发明实施例通过在人工复核的情况下，根据人工复核的结果，来对权重数据库中目标敏感关键词的权重不断调整，以及对权重数据库中的敏感关键词进行补充，从而能够使权重数据库中各个敏感关键词以及它们的主观权重接近于审核人员的想法，使得最终系统给出的审核结果不断接近人工审核结果，提升任务审批的准确度。例如如果文档的人工审核的结果是审批驳回，则对文档中的目标敏感关键词的主观权值略微提高，并将未与权重数据库匹配到的候选关键字补入到权重数据库，并赋予权值；如果是审批通过，则将权重数据库中的目标敏感关键词的主观权值略微降低。如此经过多次的调整，权值数据库中的配置会越来越接近人工审核。

借助于本发明上述实施例的技术方案，本发明针对特定类型的文档进行审批，能够提升文档审核的效率以及针对性；并通过对文档进行属于必驳回条目的数字关键字的扫描，一方面可以提升审核效率；另一方面，能够避免必驳回关键字的权重被其他非驳回关键字的权重稀释的问题，从而提升审批准确率，避免携带必驳回关键字的文档被审批通过的情况，提升审核准确率；另外，本发明预先设置敏感关键词以及对应的主观权重和客观权重，使得文档的审批结果更接近人工审核结果。

下面结合图2来对本发明实施例的DLP系统的任务审批方法进行介绍。

DLP客户端发起审批流程申请，申请信息发送到DLP服务器的流程服务器，申请审批的文档附件发送到文件服务器。

流程服务器收到申请后，从文件服务器获取到文件，并开始扫描，首先扫描必驳回信息(必驳回手机号，银行卡号，IP地址，税号等)，如果含有必驳回信息，则直接判定为驳回。如果不含有必驳回信息，则进行分词扫描。

对文档进行分词扫描(CRF，MMSeg等)得到候选敏感关键词；再从权值数据库中获取目标敏感关键词的目标主观权值和目标客观权重；此外，通过扫描文件，确定所述目标敏感关键词在所述文档内容中出现的目标次数；最后基于主客观综合赋权法/线性加权组合赋权法计算每个目标敏感关键词的权值以及整篇文档的目标敏感度。将目标敏感度与预先定义的阈值(一个或多个阈值)相比较，从而判定审批结果。

审批如果是通过或驳回，直接返回客户端，如果是人工审核，则对客户端侧人工审核的结果进行学习，并更新权值数据库。

DLP客户端收到审批结果并执行后续的相应操作。

借助于本发明实施例的技术方案，能够提高DLP系统中审批流程执行的效率及自动审批的准确率；以及丰富并完善企业的关键信息资产特征数据，在提交人工审核的过程中，不断学习，修改敏感关键词的权重，可使自动审批越来越接近人工审批。对用户操作习惯无影响。

参照图3，示出了本发明一个实施例的DLP系统与银行OA系统(办公自动化系统)对接的流程图。

审批结果如果是通过或驳回，直接返回客户端，并将审批结果提交OA系统。如果是人工审核，则将审批流程提交OA系统。

OA系统可以查看机器自动审批结果的信息，如果不满意自动审批的结果，可重启审批，流程转入人工审批。

OA人工审批后，将审批结果返回DLP客户端。同时DLP服务器自动学习人工审批的结果，并更新权值数据库。

DLP客户端收到审批结果并执行后续的相应操作。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的方法相对应，参照图4，示出了本发明一种DLP系统的任务审批系统实施例的结构框图，具体可以包括如下模块：

获取模块21，用于获取任务审批请求中的文档内容；

判断模块22，用于判断所述文档内容是否包括表示预设文档类型的预设关键词；

匹配模块23，用于若所述文档内容包括表示预设文档类型的预设关键词，则将所述文档内容与预设数字关键字进行匹配，确定所述文档内容是否包括预设数字关键字；

第一响应模块24，用于若所述文档内容包括预设数字关键字，则响应于所述任务审批请求，返回表示审批驳回的审批结果；

提取模块25，用于若所述文档内容不包括预设数字关键字，提取所述文档内容中的候选敏感关键词；

第一确定模块26，用于根据预设的敏感关键词与主观权重以及客观权重的对应关系，确定所述候选敏感关键词中与所述敏感关键词匹配的目标敏感关键词，以及与所述目标敏感关键词对应的目标主观权重和目标客观权重；

第二确定模块27，用于确定所述目标敏感关键词在所述文档内容中出现的目标次数；

计算模块28，用于根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度；

查找模块29，用于根据预设的敏感度区间与审批结果的对应关系，查找所述目标敏感度对应的目标敏感度区间，以及所述目标敏感度区间对应的目标审批结果；

第二响应模块30，用于响应所述任务审批请求，返回所述目标审批结果。

可选地，所述计算模块28，还用于根据以下公式(1)计算每个目标敏感关键词的组合权重；

其中，w_i表示第i个目标敏感关键词的组合权重，m表示所述文档内容中所述目标敏感关键词的总数，a_i表示第i个目标敏感关键词的目标客观权重，b_i表示第i个目标敏感关键词的目标主观权重，1≤i≤m；

所述计算模块28，还用于根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度。

可选地，所述系统还包括：

相应的，所述计算模块28，还用于根据以下公式(2)计算每个目标敏感关键词的组合权重；

w_i＝αa_i+(1-α)b_i，(0≤α≤1)，(2)；

可选地，所述系统还包括：

所述计算模块28，还用于根据以下公式(3)计算所述文档内容的目标敏感度W；

W＝N₁*w′₁+N₂*w′₂+…+N_i*w'_i，(3)；

可选地，所述系统还包括：

接收模块，用于接收人工复核结果；

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种DLP系统的任务审批方法和一种DLP系统的任务审批系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据防泄漏系统的任务审批方法，其特征在于，包括：

获取任务审批请求中的文档内容；

响应所述任务审批请求，返回所述目标审批结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度，包括：

根据以下公式计算每个目标敏感关键词的组合权重；

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标敏感关键词的所述目标主观权重、所述目标客观权重以及所述目标次数，计算所述文档内容的目标敏感度之前，所述方法还包括：

确定所述任务审批请求对应的目标审批人；

根据以下公式计算每个目标敏感关键词的组合权重；

w_i＝αa_i+(1-α)b_i，(0≤α≤1)；

4.根据权利要求2或3所述的方法，其特征在于，所述根据每个目标敏感关键词的组合权重和目标次数，计算所述文档内容的目标敏感度之前，所述方法还包括：

根据以下公式计算所述文档内容的目标敏感度W；

W＝N₁*w′₁+N₂*w′₂+…+N_i*w′_i；

5.根据权利要求1所述的方法，其特征在于，若所述目标审批结果为人工复核，所述响应所述任务审批请求，返回所述目标审批结果之后，所述方法还包括：

接收人工复核结果；

6.一种数据防泄漏系统的任务审批系统，其特征在于，包括：

获取模块，用于获取任务审批请求中的文档内容；

7.根据权利要求6所述的系统，其特征在于，

所述计算模块，还用于根据以下公式计算每个目标敏感关键词的组合权重；

8.根据权利要求6所述的系统，其特征在于，所述系统还包括：

w_i＝αa_i+(1-α)b_i，(0≤α≤1)；

9.根据权利要求7或8所述的系统，其特征在于，所述系统还包括：

W＝N₁*w′₁+N₂*w′₂+…+N_i*w′_i；

10.根据权利要求6所述的系统，其特征在于，所述系统还包括：

接收模块，用于接收人工复核结果；