CN103761243A

CN103761243A - 目标文档检测方法和设备

Info

Publication number: CN103761243A
Application number: CN201310695626.4A
Authority: CN
Inventors: 吴鲁加; 黄鑫
Original assignee: SHENZHEN DACHENGTIANXIA INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHENZHEN DACHENGTIANXIA INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2014-04-30
Anticipated expiration: 2033-12-18
Also published as: CN103761243B

Abstract

本发明提供了一种确定文档是否为目标文档的检测方法，包括步骤：检测文档是否包括在目标词列表中的目标词；如果文档包括目标词，则基于该目标词在所述文档中的出现频率来计算该目标词的匹配指数作为该文档的匹配指数；以及当该文档的匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档。相应地，本发明还提供了一种确定文档是否为目标文档的检测设备。

Description

目标文档检测方法和设备

技术领域

本发明涉及文档检测，尤其涉及一种检测文档是否为目标文档的方法和设备。

背景技术

随着计算机技术及网络技术的普及和发展，丰富的网络数据资源为人们的生活带来了极大的便利，同时也带来了诸多的困惑，例如，在企业中，员工很容易地将一些涉及企业秘密的文件发送到企业之外，从而导致文件泄密。但是为了便于办公，也无法完全限制员工从企业内部向企业外部发送文件，为了在防止企业泄密和灵活办公之间找到平衡，就需要一种可以检测文件是否属于涉及企业秘密的文件的检测技术。

现有技术中对于文档的检测方法主要是：建立一个目标词库，其中具有特定和具体的目标词，利用该词库在文档中进行比对和匹配，以确定文档是否满足要求。但是，现有的文档检测方法具有以下缺点：现有的目标文档检测方法仅使用目标词库对文档进行直接匹配，忽略了其它因素，比如忽略了目标词出现的频率对整个判断结果的重要性，因此检测的准确率有待商榷；此外，现有的目标文档检测方法不能对目标词库进行高效的使用，需要将目标词库中的所有目标词进行比对，相对机械而不够灵活，检测效率往往会随着目标词库的增大而降低；再次，用户只能在目标词库中添加或者删除和修改目标词来定制检测规则，检测手段相对固定、单一，无法应对日趋复杂的文档类型。

发明内容

本发明的目的在于提供一种灵活高效的文档检测方法和设备，以至少克服或者缓解上面提到的问题的一种或多种。

依据本公开的一个方面，提供了一种确定文档是否为目标文档的方法，包括步骤：检测该文档是否包括在预先设置的目标词列表中的目标词；如果所述文档包括在所述目标词列表中的目标词，则对于所检测到的目标词：基于该目标词在所述文档中的出现频率来计算该目标词的匹配指数作为该文档的匹配指数；以及当该文档的匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档。

可选地，在根据本公开的方法中，如果文档不包括在预先设置的目标词列表中的目标词，则确定所述文档不是目标文档。

可选地，如果文档的匹配指数小于预定阈值，则根据本公开的方法还包括步骤：如果文档未包括剩余目标词，则确定该文档不是目标文档；如果该文档包括剩余目标词，则对于新检测到的剩余目标词：基于其在文档中的出现频率来计算该新目标词的匹配指数，并将该新目标词的匹配指数与所述文档已有的匹配指数相加得到该文档的新匹配指数；当该文档的新匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档；以及当新匹配指数小于预定阈值时，则重复执行检测剩余目标词以及根据检测结果来确定文档是否为目标文档的步骤，直至确定了该文档是目标文档或者不是目标文档为止。

可选地，在根据本公开的方法中，每个目标词具有预定权重，所述计算该目标词的匹配指数还基于该目标词的预定权重；以及文档的所有者具有用户的关联权重，并且所述计算目标词的匹配指数还基于用户的关联权重。

可选地，在根据本公开的方法中，目标词列表中的目标词之一为预定词汇，当所述文档包括该预定词汇时，确定所述文档包括该目标词；以及目标词列表中的目标词之一为正则表达式，而且当所述文档包括符合该正则表达式的词语时，则确定所述文档包括该目标词。

依据本公开的另一方面，提供了一种确定文档是否为目标文档的设备，包括：数据存储器，其用于存储预先设置的目标词列表；检测模块，其用于检测所接收的文档是否包括在预先设置的目标词列表中的一个或者多个目标词，并且确定所述一个或者多个目标词在所接收文档中的出现频率；以及判断模块，其基于检测模块确定的一个或者多个目标词在该文档中的出现频率来计算该一个或者多个目标词的匹配指数，并基于所述一个或者多个目标词的匹配指数计算该文档的匹配指数，并且当该文档的匹配指数大于或者等于预定阈值时，则确定该文档为目标文档。

本发明根据被检测数据中目标词出现的频率进行综合评估并计算出一个匹配指数，只有当计算出来的匹配指数大于或等于预定的阈值时，才会将数据判断为目标数据，以便对其进行拦截或呈现，比现有的检测方法更为科学。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了可以用于实施本发明实施例的示例性操作环境；

图2示出了其中可以采用本发明实施例的用于文档检测的示例性计算系统200的框图；

图3示出了根据本发明一个实施例的检测设备的示意框图；以及

图4示出了根据本发明一个实施例的文档检测方法300的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

下面将参照本发明实施例的方法和设备（系统）的流程图和/或框图来描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，也可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理设备执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的设备。

以下对可以实施本发明实施例的示例性操作环境进行描述以便提供本发明各个方面的一般背景。总体上参考附图并且首先特别参考图1，图1示出了用于实施本发明实施例的示例性操作环境的计算设备100。可以通过在计算设备100上操作来查找目标文档或排除目标文档。计算设备100仅是适当计算环境的一个示例而并非意在对本发明实施例的使用或功能范围提出任何限制。计算设备100也不应当被解释为关于任意一种图示组件或其组合具有任何依赖性或要求。

本发明的实施例可以在例如计算机代码或机器可用指令的一般情景下进行描述，这些情景包括诸如计算机或其它机器所执行的程序模块之类的计算机可用或计算机可执行指令。这里的计算机或其它机器诸如为个人数字助理或其它手持设备。通常，包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或者实施特定抽象数据类型的代码。本发明的实施例可以在包括手持设备、消费者电子、通用计算机、更为专业的计算设备等在内的各种系统配置中进行实践。本发明的实施例还可以在任务由通过通信网络进行链接的远程处理设备所执行的分布式计算环境中进行实践。

继续参考图1，计算设备100可以包括存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出（I/O）端口118、I/O组件120以及电源122，这些设备可以直接或间接耦接到总线110。总线110可以为一种或多种总线（诸如地址总线、数据总线或者其组合）的总线。虽然为了清晰起见图1的各个模块利用线条所示出，但是现实中，这些模块表示逻辑而不必为实际的组件。例如，可以将诸如显示设备之类的呈现组件当作I/O组件。而且，处理器可以具有存储器。本发明人认识到这是本领域的属性，并且重申图1的示图仅示出了能够结合本发明的一个或多个实施例使用的示例性计算设备。在本申请中，并没有在诸如“工作站”、“服务器”、“膝上计算机”、“手持设备”等种类之间进行区分，原因在于它们全部被认为处于图1的范围之内并且被称作“计算设备”。

计算设备100通常包括各种计算机可读介质。计算机可读介质可以是能够由计算机设备100所访问的任何可用介质，并且其包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任意方法或技术所实施的易失性和非易失性介质、可移动和非可移动介质。计算机可读介质包括RAM、ROM、EEPROM、闪存或其它存储器、CD-ROM、数字化通用盘（DVD）或其它光学存储、磁性卡盒、磁带、磁盘存储或其它磁性存储设备，或者能够被用来存储所期望信息并且能够被计算设备100所访问的任意其它介质，但是并不局限于此。上述的任何的组合也包括在计算机可读介质的范围内。

存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、非可移动的或其组合。存储器112的示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器。（多个）呈现组件116向用户或其它设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。

I/O端口118允许计算设备100逻辑耦接至包括I/O组件120的其它设备，一些I/O组件可以是内置的。图示组件包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、打印机、无线设备，等等。

现在参考图2，提供了图示其中可以采用本发明实施例的示例性计算系统200的框图。

除没有示出的其它系统组件之外，系统200通常包括用户计算设备210、检测设备220、文档服务器230和网络控制器240，它们全部经由网络250相互进行通信。网络250可以包括一个或多个局域网（LAN）和/或广域网（WAN），但是并不局限于此。这样的网络环境在办公室、企业范围的计算机网络、内联网和互联网中是常见的。因此，这里并不对网络250进一步进行描述。

应当理解的是，在本发明实施的范围之内，可以在计算系统200中采用任意数量的用户计算设备210、检测设备220、文档服务器230和网络控制器240。它们中的每一个都可以包括在分布式环境中协同操作的单个设备/接口或多个设备/接口。例如，检测设备220可以包括部署在分布式环境中的共同提供这里所描述的检测设备220的功能的多个设备和/或模块。此外，没有示出的其它组件/模块也可以包括在计算系统200内。

用户计算设备210可以包括任意类型的计算设备，例如，诸如参考图1所描述的计算设备100。用户计算设备210通常接收用户输入的文档请求，向文档服务器230发送该请求并将所请求的文档存储到用户计算设备210中。

文档服务器230中存储有各种文档。应当理解的是，在本实施例中，为了简化描述起见，仅提供了一个文档服务器230，然而在实践中，根据企业内部的配置，文档服务器230可以有多台，甚至用户在企业内另一个位置处的计算设备可以作为文档服务器230。任何能够经由网络提供文档的计算设备都可以是本发明所描述的文档服务器230的保护范围之内。

文档服务器230收到用户计算设备210的文档请求之后，向计算设备210返回所请求的文档。然而，由于用户计算设备210可能处于不安全的区域，例如在企业网络的实施例中，用户计算设备210可能处于企业局域网络之外，将涉及企业机密的文档发送给这些用户计算设备210可能导致企业泄密。为此，在本实施例中，为了防止可能涉及企业机密的文档被发送给用户计算设备210，网络控制器240可以监控用户计算设备210的文档请求，并且将所请求的文档首先发送给检测设备220进行检测，并根据检测设备220的检测结果来确定是否将文档发送到用户计算设备。

网络控制器240可以是部署在企业网关处的网络监控设备，可以监控用户的网络传输。目前已经存在各种类型的网络控制器240，本发明不受限于具体的网络控制器，所有可以部署在网络上并能够截取用户的文档请求的网络设备都在本发明的保护范围之内。

网络控制器240可以有多种方式来利用检测设备220的检测结果。例如，网络控制器240可以在检测结果指示所请求的文档为包含企业机密的目标文档时，不将文档发送到处于不安全区域中的用户计算设备210，而当用户计算设备210处于安全区域中（例如，在企业网内部时），则允许发送。或者，网络控制器240可以进一步根据与用户计算设备210相关联的用户来决定如何处理文档请求。例如，当用户为高级管理人员时，允许发送目标文档，但是会进行标记，而用户为普通员工时，则阻止发送目标文档。

本发明不受限于网络控制器240的具体文档控制方式，所有利用到检测设备220的检测结果的文档传输控制方式都在本发明的保护范围之内。

检测设备220接收由网络控制器240发送过来的文档，并确定该文档是否为涉密文档。在本实施例中，涉密文档是指包含企业任何可能的敏感信息、如果泄露对于企业有不良后果的文档。例如，公司的财务数据、合同、战略规划等。根据不同企业的需要，涉密文档可以具有各种形式，本发明不受限于此，并因此将涉密文档称为目标文档。

参见图3，其中示出了根据本发明一个实施例的检测设备220的示意框图。如图3所示，检测设备220包括数据存储器222、检测模块224和判断模块226。数据存储器222中存储有预先设置的目标词列表。目标词是指可能导致文档成为目标文档的关键词，其一般事先由管理员进行设定，并且根据企业的不同而不同。例如，在汽车行业中，“配件”就可以是一个目标词。另外一些敏感的用词，例如“姓名”、“手机号码”、“家庭住址”和“帐户余额”都可以被设置为目标词。一个文档包括的目标词越多，就越有可能为目标文档。

可选地，目标词除了为固定的关键词之后，还可以是正则表达式，当文档包括符合该正则表达式的词语时，则确定该文档包括该目标词。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串，我们可以确定给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”），如果匹配，则可以认为字符串符合该正则表达式。利用正则表达式，可以更灵活地进行目标词查找和匹配。

举例而言，如果要匹配13、150、153、156、157、158、159、188、189开头的手机号码，可以使用正则表达式：

(13[0-9]|15[0|3|6|7|8|9]|18[8|9])[0-9]{8}。

再次举例而言，如果要识别电子邮件，可以使用正则表达式：

([0-9a-zA-Z]+[-._+&])*[0-9a-zA-Z]+([-0-9a-zA-Z]+[.])+[a-zA-Z]{2,6}。

通过在目标词列表中包括正则表达式作为目标词，方便了用户自定义匹配规则，用户可以通过正则表达式来指定检测特定的数据类型，极大的提高了目标词匹配的灵活性，从而提高了检测设备的灵活性。

返回到图3，检测模块224接收要检测的文档，并且根据数据存储器222中存储的目标词列表来检测所接收的文档是否包括目标词列表中的一个或者多个目标词，并且确定所述一个或者多个目标词在所接收文档中的出现频率。判断模块226基于检测模块224的检测结果来确定所接收的文档是否为目标文档。具体而言，判断模块226根据检测模块224所确定的一个或者多个目标词在文档中的出现频率来计算该一个或者多个目标词的匹配指数，并基于这一个或者多个目标词的匹配指数计算该文档的匹配指数，并且当该文档的匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档。

根据本发明的一个实施例，为了提高检测效率，通常只要文档的匹配指数大于或者等于预定阈值，就可以确定文档为目标文档，而不再继续检测后续的目标词。为此，下面更详细描述检测模块224和判断模块226之间的交互过程。

根据本发明的一个实施例，当接收到文档时，检测模块224从数据存储器222中获取目标词列表，并且对于目标词列表中的每个目标词，检测模块224逐个确定每个目标词在文档中的出现频率。如果检测模块224未在文档中检测到任何目标词，则判断模块226确定该文档不是目标文档。

如果检测模块224检测到该文档中包含某个目标词，则检测模块224还确定该目标词在文档中的出现频率。判断模块226基于检测模块224检测到的目标词的出现频率来计算该目标词的匹配指数。例如，单个目标词的匹配指数可以利用下面的公式来计算：

Sum_key=V_key，其中V_key为目标词key在文档中的出现频率。

随后，判断模块216将计算出的目标词的匹配指数与该文档已有的匹配指数相加（在第一次检测时，该文档已有的匹配指数默认为零），将相加的结果作为该文档的新的匹配指数。即文档的匹配指数可以计算为：

∑_nSum=Sum₁+Sum₂+Sum₃+...+Sum_n

若∑_nSum≧P，则文档为目标文档。P为预定阈值，可以预先设置，并且可以存储在数据存储器222中。

判断模块226判断该文档的新的匹配指数是否大于或者等于预定阈值P时，如果是，则确定文档为目标文档，则判断模块226立刻向外输出结果。相反，如果该文档的新的匹配指数小于预定阈值，则判断模块226发送消息给检测模块224，以便检测模块224继续后续的目标词检测，即逐个地检测文档中是否还包括在目标词列表中的剩余目标词。如果检测模块224已经对目标词列表中的所有目标词都进行了便利，则判断模块226确定该文档不是目标文档。否则，检测模块224和判断模块226继续进行如上所述的检测与判断，直至确定了该文档是目标文档或者不是目标文档为止。

可选地，在判断模块226计算目标词的匹配指数时，还考虑目标词的预定权重。根据企业的具体情况，不同的目标词对于文档的涉密情况而言，应该具有不同的重要程度，因此，可以为不同的目标词设置不同的权重。即，单个目标词的匹配指数可以利用下面的公式来计算：

Sum_key=V_key×f_key，其中V_key为目标词key在文档中的出现频率,f_key为该目标词key的权重值。

可选地，每个目标词key的权重值可以和目标词key相关联地存储在数据存储器222的目标词列表中。

另外，可选地，在判断模块226计算目标词的匹配指数时，还考虑文档请求发送方，即用户的关联权重。对于不同等级的用户，文档是否属于涉密文档应该具有不同的标准，为此，可以为每个用户设置相关联的权重值。即单个目标词的匹配指数可以利用下面的公式来计算：

Sum_key=V_key×f_key×U，其中V_key为目标词key在文档中的出现频率,f_key为该目标词key的权重值，而U为访问该文件的用户的关联权重。

上面通过举例而非限制地说明了目标词的匹配指数可以是目标词的权重、目标词的出现频率以及用户的关联权重三者的乘积。当然，目标词的匹配指数也可以是目标词的权重和目标词的出现频率二者的乘积，或者目标词的出现频率和用户的关联权重二者的乘积。当然，也可以不以乘积的形式来体现这些元素对匹配指数的影响，比如还可以通过幂的形式等等。

上面就检测设备220中的各个模块描述了检测设备220所执行的功能，然而，本领域人员应当理解，上面对模块的划分仅仅是示例性的，本领域技术人员可以根据实际情况而对上述模块重新进行划分。

下面参考图4进一步描述了根据本发明一个实施例的、适于在检测设备220中执行的文档检测方法300的流程图。

该方法始于步骤S302，其中接收要进行检测的文档，并且检测该文档是否包括预先设置的目标词列表中的目标词。目标词列表可以存储在检测设备220的数据存储器222中。

如先前所述，目标词可以是固定关键词，只要文档包括该关键词，就确定该文档包括该关键词。

另外，可选地，目标词可以是正则表达式，当文档包括符合该正则表达式的词语时，则确定该文档包括该目标词。通过在目标词列表中包括正则表达式作为目标词，方便了用户自定义匹配规则，用户可以通过正则表达式来指定检测特定的数据类型，极大的提高了目标词匹配的灵活性。有关正则表达式的相关描述可以参见上面参考目标词列表的描述，这里为了简洁起见，不再赘述，

如果在步骤S302中检测到该文档未包括目标词列表中的目标词，则在步骤S310中确定该文档不是目标文档，并在步骤S312中输出该结果。

否则，如果在步骤S302中检测到该文档包括目标词，则在步骤S304中计算该目标词的匹配指数，并且通过将计算出的目标词的匹配指数与该文档已有的匹配指数相加（在第一次检测时，该文档已有的匹配指数默认为零），将相加的结果作为该文档的新的匹配指数。

在步骤S304中，可以基于该目标词在文档中的出现频率来计算该目标词的匹配指数，即Sum_key=V_key，其中Sum_key为目标词key的匹配指数，V_key为目标词key在文档中的出现频率。

可选地，在步骤S304中计算目标词的匹配指数时，还可以考虑目标词的预定权重。即，单个目标词的匹配指数可以利用下面的公式来计算：

Sum_key=V_key×f_key，其中V_key为目标词key在文档中的出现频率,f_key为该目标词key的权重值。每个目标词key的权重值可以和目标词key相关联地存储在数据存储器222的目标词列表中。

另外，可选地，在步骤S304中计算目标词的匹配指数时，还考虑文档请求发送方，即用户的关联权重。对于不同等级的用户，文档是否属于涉密文档应该具有不同的标准，为此，可以为每个用户设置相关联的权重值。即单个目标词的匹配指数可以利用下面的公式来计算：

随后，在步骤S306中，判断当该文档的新的匹配指数是否大于或者等于预定阈值P，如果是，则在步骤S308中确定该文档为目标文档。

如果在步骤S306中判断该文档的匹配指数还小于预定阈值，则在步骤S314中确定目标词列表中是否还有剩余目标词未进行检测，如果没有剩余目标词，则在步骤S316中确定该文档不是目标文档，并在步骤S312中输出该结果。

如果在步骤S314中确定有剩余的目标词未进行检测，则针对剩余目标词之一，重新从步骤S302开始执行本方法中的各个步骤，直至确定了该文档是目标文档或者不是目标文档为止。

因为引入了预定阈值的判断机制，所以当计算得到的文档的匹配指数大于等于用户指定的预定阈值时就会停止匹配，因此不需要将目标词库中所有的目标词全部进行检测，有效解决了因为目标词库增大而导致检测速度变慢的问题。

在根据本发明的一个实施例中，通过在计算目标词的匹配指数时引入用户的关联权重（通常可以取值为1），用户的人力资源或法务部门可以对该值进行调整，例如当该用户已经递交了辞职申请，则其关联权重会被适当上调，这样，在基于用户的关联权重的算法计算匹配指数时，已经递交辞职申请的用户因为文档的匹配指数更容易达到预定的阈值而被排除对相应文档的访问，因此该用户对公司文档的访问受到更大的限制。类似地，如果用户升迁，则其关联权重可以被适当下调，这样，在基于用户的关联权重的算法计算匹配指数时，升迁的用户因为其的文档的匹配指数更难达到预定的阈值而被允许对更多文档的访问，因此该用户对公司文档的访问范围得以扩大。

下面以一个具体例子为例，来说明根据本发明的检测设备和检测方法的具体实践。

假设文档的匹配指数的预定阈值P被设置为50；

目标词列表中的目标词及其权重如下：

“手机号码”：2；

“家庭住址”：2；

“帐户余额”：6；

正则表达式1(用于匹配手机号码)：(13[0-9]|15[0|3|6|7|8|9]|18[8|9])[0-9]{8}：1；

用户的关联权重：1.1。

要检测的文档如下所示：

姓名	手机号码	家庭住址	帐户余额
				xxx	xxx	xxx	xxx
xxx	xxx	xxx	xxx
				…	…	…	…

假设该文档中的数据共有50条，则该文档的匹配指数被计算为：

∑_nSum=Sum_手机号码+Sum_家庭住址+Sum_帐户余额+Sum_{正则表达式1}=61，该值大于50，因此该文档为目标文档。

本发明根据被检测文档中目标词出现的频率进行综合评估并计算出一个匹配指数，只有当计算出来的匹配指数大于或等于预定的阈值时，才会将文档判断为目标文档，以便对其进行拦截或呈现，比现有的检测方法更为科学。因为引入了预定阈值的判断机制，所以当计算得到的文档的匹配指数大于等于用户指定的预定阈值时就会停止匹配，因此不需要将目标词库中所有的目标词全部进行检测，有效解决了因为目标词库增大而导致检测速度变慢的问题。另外，因为支持使用正则表达式进行目标词匹配，方便了用户自定义匹配规则，用户可以通过正则表达式来指定检测特定的数据类型，极大的提高了匹配规则的灵活性。

已经关于特定实施例对本发明进行了描述，它们在所有方面都意在是说明性而非限制性的。可替换的实施例对于本发明相关领域的那些普通技术人员而言将变为显而易见的而并不背离其范围。

A6、如A1-5中任一个所述的方法，其中所述目标词列表中的目标词之一为预定词汇，而且当所述文档包括该预定词汇时，确定所述文档包括该目标词。A7、如A1-6中任一个所述的方法，其中所述目标词列表中的目标词之一为正则表达式，而且当所述文档包括符合该正则表达式的词语时，则确定所述文档包括该目标词。B13、如B8-12中任一个所述的系统，其中所述目标词列表中的目标词之一为预定词汇，而且当所述文档包括该预定词汇时，所述检测模块确定所述文档包括该目标词。B14、如B8-13中任一个所述的系统，其中所述目标词列表中的目标词之一为正则表达式，而且当所述文档包括符合该正则表达式的词语时，所述检测模块确定所述文档包括该目标词。

虽然易于对本发明进行各种修改以及替换的构造，但是其某些所图示的实施例已经在附图中示出并且已经在上文中进行了详细描述。然而，应当理解的是，并非意在将本发明限制为所公开的具体形式，而是相反地意在覆盖落入本发明精神和范围之内的所有修改、替换的构造和等同体。

本领域普通技术人员将要理解的是，图4的方法300中所示出的步骤顺序并非意在以任何方式对本发明的范围进行限制，并且所述步骤实际上可以在其实施例内以各种不同的顺序来进行。预计任意和所有这样的变体及其组合形式都设想在本发明实施例的范围之内。

Claims

1.一种确定文档是否为目标文档的方法，包括步骤：

检测所述文档是否包括在预先设置的目标词列表中的目标词；

如果所述文档包括在预先设置的目标词列表中的目标词，则对于所检测到的目标词：

基于该目标词在所述文档中的出现频率来计算该目标词的匹配指数作为该文档的匹配指数；以及

当该文档的匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档。

2.如权利要求1所述的方法，如果所述文档不包括在预先设置的目标词列表中的目标词，则确定所述文档不是目标文档。

3.如权利要求1或2所述的方法，其中如果所述匹配指数小于预定阈值时，所述方法还包括步骤：

检测所述文档是否包括在预先设置的目标词列表中的除去已检测到的目标词的剩余目标词；以及

根据所述检测结果来确定所述文档是否为目标文档，其中

所述根据检测结果来确定所述文档是否为目标文档的步骤包括：

如果所述文档未包括剩余目标词，则确定所述文档不是目标文档；

如果所述文档包括剩余目标词，则对于新检测到的剩余目标词：

基于其在文档中的出现频率来计算该新目标词的匹配指数，并将该新目标词的匹配指数与所述文档已有的匹配指数相加得到该文档的新匹配指数；

当所述文档的新匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档；以及

当所述新匹配指数小于预定阈值时，则重复执行上述检测剩余目标词以及根据所述检测结果来确定所述文档是否为目标文档的步骤，直至确定了所述文档是目标文档或者不是目标文档为止。

4.如权利要求1-3中任一个所述的方法，其中每个目标词具有预定权重，并且所述计算该个目标词的匹配指数还基于：

该目标词的预定权重。

5.如权利要求1-4中的任一个所述的方法，其中文档的所有者具有用户的关联权重，并且所述计算该目标词的匹配指数还基于：

用户的关联权重。

6.一种确定文档是否为目标文档的设备，包括：

数据存储器，其用于存储预先设置的目标词列表；

检测模块，其用于检测所述文档是否包括在预先设置的目标词列表中的一个或者多个目标词，并且确定所述一个或者多个目标词在所接收文档中的出现频率；以及

判断模块，其基于所述检测模块确定的一个或者多个目标词在所述文档中的出现频率来计算该一个或者多个目标词的匹配指数，并基于所述一个或者多个目标词的匹配指数计算该文档的匹配指数，并且当该文档的匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档。

7.如权利要求6所述的系统，其特征在于：

当所述检测模块检测到所述文档不包括在预先设置的目标词列表中的目标词时，所述判断模块确定所述文档不是目标文档。

8.如权利要求6或7所述的系统，其特征在于，对于检测到的一个或者多个目标词，检测模块一次确定一个目标词的出现频率，

所述判断模块一次计算一个目标词的匹配指数，并基于原有的文档匹配指数和新计算的目标词的匹配指数来计算新的文档匹配指数，并且当新的文档匹配指数大于或者等于预定阈值时，则确定所述文档为目标文档，并不再由检测模块进行检测；相反当新的文档匹配指数小于预定阈值时，指示检测模块确定下一个目标词的出现频率并再次确定所述文档是否为目标文档，

当判断模块确定由所有目标词的匹配指数之和所确定的文档匹配指数小于预定阈值时，确定所述文档不是目标文档。

9.如权利要求6-8中任一个所述的系统，其中所述目标词列表中还具有针对每个目标词的预定权重，并且所述判断模块计算该种目标词的匹配指数还基于：

该种目标词的预定权重。

10.如权利要求6-10中的任一个所述的系统，其中所述数据存储器中还具有针对文档所有者的用户的关联权重，并且所述判断模块计算该种目标词的匹配指数还基于：

用户的关联权重。