CN103838710A

CN103838710A - 基于关键词权值的文本过滤方法与系统

Info

Publication number: CN103838710A
Application number: CN201210479196.8A
Authority: CN
Inventors: 粟栗; 张峰; 付俊
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2012-11-22
Filing date: 2012-11-22
Publication date: 2014-06-04
Anticipated expiration: 2032-11-22

Abstract

本申请提供了一种基于关键词权值的文本过滤方法，该方法包括以下步骤：计算关键词的权值；以及基于所计算出的关键词的权值对文本进行过滤；其中，计算关键词权值的步骤包括：判断所述关键词是否是全新关键词，如果是，则计算历史判定数据中的正确判定数据的条数和错误判定数据的条数、以及包含所述关键词的正确判定数据的条数和错误判定数据的条数；以及计算所述关键词的权值。此外，本申请还提供了一种基于关键词权值的文本过滤系统。

Description

基于关键词权值的文本过滤方法与系统

技术领域

本申请涉及安全、数据业务领域，尤其涉及基于关键词权值的文本过滤方法与系统。

背景技术

文本信息是移动互联网信息中传播数量最多的内容，包括：网页、短信、彩信、即时通信工具等。对文本传输中的敏感内容进行信息过滤（例如政治、色情、赌博…）是互联网中的一项重要技术。一般来说，系统会将文本归类为“正常”和“需要过滤”两类。

从信息量上看，每条链路（10G）上每天用户访问的文本数据量多达数亿条，全网有数千亿条数据，而其中需要过滤的信息占比非常少，一般少于1%，因此从海量数据中准确捕获待过滤信息是困难的。即使有少量的误判（10%），也使得系统捕获到的数据中误判的信息占比达90%以上。为了避免误判，需要通过人工二次审核来最终判定，而人工审核的结果是最准确的，但相对来说效率也比较低。

现有的信息过滤系统（以下简称“过滤系统”）对文本进行识别与分类的方法主要有以下几种：

（1）基于关键词数量进行判定

该技术方案的主要思想是设定关键词库，每个关键词不再设置其他考量指标；对文本中包含的关键词进行识别，并依据数量的多少是否达到系统设定的阈值对数据进行归类。

（2）基于熵值（权值）之和进行判定

该技术对每个关键词设定熵值，将重要的关键词的熵值设置为较高，不重要的关键词的熵值设置为较低。对文本进行识别时，计算文本中包含的关键词的熵值之和，并依据熵值是否达到系统设定的阈值对数据进行归类。

（3）基于语义识别进行判定

语义识别不仅定义关键词，而且定义关键词之间的联系（例如同时出现）确定熵值，并最终通过全文的语义确定文本的分类。例如“枪支”和“出售”两个关键词单独出现时，应为正常；如果在一定的距离内出现，例如“出售进口枪支”，则判定两个词之间存在语义联系。

但是，现有的3种技术方案均存在一定程度的不足，具体如下：

（1）基于关键词数量判定

单纯的基于关键词的数量进行判定会产生非常多的误判，例如“出售”、“枪支”都为关键词，一篇出现大量“出售”的文章很可能被判定为需要过滤，但很可能是一个正常（如淘宝）的交易页面。

采用该技术的误判率可能高达50%，对于仅包含1%需要过滤信息的原始数据流来说，误判造成的影响基本上不可被接受。

（2）基于熵值之和进行判定

基于熵值的判定方式无疑大大增强了判定能力，例如将“出售”、“枪支”的熵值设定为1，将“出售”&“枪支”的熵值设定为100。单纯出现“出售”或“枪支”的文本则会判定为正常，往往同时出现“出售”和“枪支”的文本才会判定为需要过滤。

采用该技术很大程度上减少了误判，该方式存在的关键词权重设定不合理时的调整问题。

（3）基于语义识别进行判定

语义识别的条件更多，因此也更加精确。但在语义识别中同样面临两个技术难点：一是语义识别同样也面临关键词权值如何设定的问题，因为在已有的技术方案中，缺乏定义关键词权重设定的方式与方法；二是语义识别分析的效率较低，不适用于处理海量数据。

发明内容

为了解决系统判定文本的准确程度较低的问题，本申请提供了一种基于关键词权值的文本过滤方法，该方法包括以下步骤：计算关键词的权值；以及基于所计算出的关键词的权值对文本进行过滤；其中计算关键词权值的步骤包括：判断关键词是否是全新关键词，如果不是，则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含关键词的正确判定数据的条数M1和错误判定数据的条数N1；以及计算关键词权值

Value 0 = VL + \frac{M 1 / M}{M 1 / M + N 1 / N} (VH - VL) .

其中VL是由用户设定的关键词的最小权值，VH是由用户设定的关键词的最大权值。

另一方面，本申请还提供了一种基于关键词权值的文本过滤系统，该系统包括：关键词权值计算模块，用于计算关键词的权值；以及文本过滤模块，用于基于所计算出的关键词的权值对文本进行过滤；其中关键词权值计算模块包括：第一判断单元，用于判断关键词是否是全新关键词；第一计算单元，用于当关键词不是全新关键词时计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含关键词的正确判定数据的条数M1和错误判定数据的条数N1；第二计算单元，用于计算关键词权值

Value 0 = VL + \frac{M 1 / M}{M 1 / M + N 1 / N} (VH - VL),

通过上述方法和系统，可以有效增加系统判定文本的准确程度。

附图说明

图1是基于关键词权值的文本过滤系统的示意图；

图2是基于关键词权值的文本过滤方法的流程图。

具体实施方式

由于进行信息过滤的关键词的样本数量一般不大（几百到几千个），但使用词库进行判定的对象（文本）每天有数千亿个，而每天需要进行人工审查的样本也有数万个。

针对同一个关键词，例如“枪支”，既可能用于正常文本，也可能用于涉暴类的网页。而由于现有的过滤系统中，存在人工审核的环节，可利用人工审核的结果确定关键词在判定中对正确判定和错误判定的影响；综合分析关键词在判定中的正向和负向作用，最终确定关键词的权值。

本申请提出一种基于已分类样本对关键词权重进行优化与设定的机制。该机制成为基于样本摩擦的关键词权值设定机制，将样本分为判定正确和判定错误两类，对于既可能出现在正确也可能出现在错误类型样本中的关键词，通过已有或新增样本中包含的该关键词的情况，对权值进行增加或减少。该机制类似于将一个关键词放在两块木板之间进行摩擦，称为样本摩擦机制。

下面将参照附图对本申请的具体实施方式进行描述。

图1是基于关键词权值的文本过滤系统1000的示意图。文本过滤系统1000包括：关键词权值计算模块1100，用于计算关键词的权值；以及文本过滤模块1200，用于基于所计算出的关键词的权值对文本进行过滤。其中，关键词权值计算模块1100包括：第一判断单元1010，用于判断关键词是否是全新关键词；第一计算单元1011，用于当关键词不是全新关键词时计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含关键词的正确判定数据的条数M1和错误判定数据的条数N1；第二计算单元1012，用于计算关键词权值

Value 0 = VL + \frac{M 1 / M}{M 1 / M + N 1 / N} (VH - VL),

其中VL是由用户设定的关键词的最小权值，VH是由用户设定的关键词的最大权值。在一些实施方式中，文本过滤系统1000还可以包括储存历史判定数据的历史判定数据库。具体地，历史判定数据代表已经由人工审查过，并完成归类的数据。历史判定数据可包括正确判定数据和错误判定数据，其中正确判定数据代表经人工审查确认为正确判定的数据，并且错误判定数据代表经人工审查确认为误判的数据。在一些实施方式中，关键词权值计算模块1100还包括：第三计算单元1013，用于计算关键词在历史判定数据中的正确判定数据中所出现的次数Xi和关键词在历史判定数据中的错误判定数据中所出现的次数Yi；以及第四计算单元1014，用于计算摩擦系数

μ = \frac{\min ((VH - Value 0), (Value 0 - VL))}{Xi + Yi} .

在一些实施方式中，关键词权值计算模块1100还包括：第二判断单元1018，用于判断(Xi-Yi)·μ的大小是否超过用户预先设定的权值调整阈值，权值调整单元1019，用于当(Xi-Yi)·μ的大小超过所述权值调整阈值时令关键词的权值Value＝Value0+(Xi-Yi)·μ，否则令关键词的权值Value＝Value0。在一些实施方式中，关键词权值计算模块1100还包括：第五计算单元1017，用于当关键词是全新关键词时令所述关键词的权值Value0＝（VH+VL）/2，其中VL是由用户设定的所述关键词的最小权值，VH是由用户设定的所述关键词的最大权值；第六计算单元1018，用于当历史判定数据中的正确判定数据或错误判定数据中出现新的关键词时，计算关键词在历史判定数据中的正确判定数据中所出现的次数Xi和关键词在历史判定数据中的错误判定数据中所出现的次数Yi；以及第七计算单元1017，用于计算摩擦系数

μ = \frac{\min ((VH - Value 0), (Value 0 - VL))}{Xi + Yi} .

图2是基于关键词权值的文本过滤方法2000的流程图。该方法主要包括计算关键词的权值和基于所计算出的关键词的权值对文本进行过滤，其中基于关键词的权值对文本进行过滤是本领域技术人员公知的，在此不再赘述。下面介绍计算关键词的权值的主要步骤。在步骤201中，判断要过滤的关键词是否是全新关键词，如果该关键词不是全新关键词，则在步骤202中计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1。随后，在步骤203中，计算关键词的权值

Value 0 = VL + \frac{M 1 / M}{M 1 / M + N 1 / N} (VH - VL),

其中VL是由用户设定的所述关键词的最小权值，VH是由用户设定的所述关键词的最大权值。M1/M和N1/N分别是正确判定数据和错误判定数据的关键词占比，关键词占比说明该关键词在两个分类中的区分度。例如关键词在正确判定的样本中经常出现，如M1/M=45%，而在误判样本中较少出现，如N1/N=1%；则说明该关键词更倾向于将样本判定正确而不是误判。在一个实施例中，默认VL=0，VH=100，此时，该关键词的权值为97.8。在其它实施方式中，用户可根据需要自由设定VL和VH的值。在步骤204中，计算关键词在历史判定数据中的正确判定数据中所出现的次数Xi和关键词在历史判定数据中的错误判定数据中所出现的次数Yi。在步骤205中，计算摩擦系数

在步骤206中，判断(Xi-Yi)·μ的大小是否超过用户预先设定的权值调整阈值。在某些实施方式中，可将关键词的权值调整阈值设定为“1”（即变化大小超过1之后才调整到系统中），权值调整阈值也可由用户根据实际需要设定为任何合适的值。如果(Xi-Yi)·μ的大小超过所述权值调整阈值，则在步骤207中令所述关键词的权值Value＝Value0+(Xi-Yi)·μ，否则，在步骤208中令所述关键词的权值Value＝Value0。随后，可在正确判定数据中出现该关键词或在错误判定数据中出现该关键词之后，返回步骤204。如果待过滤的关键词是一个全新的关键词，没有历史分析数据，在这种情况下，可在步骤209中，令关键词的权值Value0＝（VH+VL）/2，其中VL是由用户设定的所述关键词的最小权值，VH是由用户设定的所述关键词的最大权值。在其它实施方式中，也可以根据需要将关键值的权值设定为任何合适的值，例如可令Value0=50。随后在步骤210中，当在正确判定数据或错误判定数据中出现新的所述关键词时，计算关键词在历史判定数据中的正确判定数据中所出现的次数Xi和关键词在历史判定数据中的错误判定数据中所出现的次数Yi。在步骤211中，计算摩擦系数

μ = \frac{\min ((VH - Value 0), (Value 0 - VL))}{Xi + Yi} .

随后回到步骤206进行判断。

下面描述根据本发明的一个实施例。例如对于一个新增的关键词“弹药”，历史数据分析得出M1/M=15%，N1/N=20%，权值设定区间为0～100。则我们可设定其权值为：

Value 0 = 0 + \frac{15}{15 + 20} (100 - 0) = 42.9 .

该权值小于50，说明其产生的效果更多为误判。假定统计出Xi=15000次；Yi=20000次，则计算出μ=0.0012。如果在后续的一段时间内，判定为需要过滤的数据中包含“弹药”1200次，判定为误判的数据中包含“弹药”400次，则计算其新权值：Value＝Value0+(Xi-Yi)·μ=42.9+0.96=43.86。如果将权值调整阈值设为1，则可以不对权值进行调整，而保留42.9。

该方法一个典型特征是迅速收敛，并且已在关键词调整中进行了应用并完成测试。依据现有的方法对目前对关键词的调整后，可在准确率仅降低4%的情况下，将误判率降低48%。

以上参照附图对本申请的示例性的实施方案进行了描述。本领域技术人员应该理解，上述实施方案仅仅是为了说明的目的而所举的示例，而不是用来进行限制。凡在本申请的教导和权利要求保护范围下所作的任何修改、等同替换等，均应包含在本申请要求保护的范围内。

Claims

1.一种基于关键词权值的文本过滤方法，所述方法包括以下步骤：

计算关键词的权值；以及

基于所计算出的关键词的权值对文本进行过滤；

其中，计算关键词权值的步骤包括：

判断所述关键词是否是全新关键词，如果所述关键词不是全新关键词，则

计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1；以及

计算所述关键词的权值

Value 0 = VL + \frac{M 1 / M}{M 1 / M + N 1 / N} (VH - VL) .

其中VL是由用户设定的所述关键词的最小权值，VH是由用户设定的所述关键词的最大权值。

2.如权利要求1所述的方法，其中计算关键词权值的步骤还包括：

计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi；以及

计算摩擦系数

μ = \frac{\min ((VH - Value 0), (Value 0 - VL))}{Xi + Yi} .

3.如权利要求1所述的方法，其中计算关键词权值的步骤还包括：

如果所述关键词是全新关键词，则

令所述关键词的权值Value0＝（VH+VL）/2，其中VL是由用户设定的所述关键词的最小权值，VH是由用户设定的所述关键词的最大权值；

当在所述正确判定数据或所述错误判定数据中出现新的所述关键词时，计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi；以及

计算摩擦系数

μ = \frac{\min ((VH - Value 0), (Value 0 - VL))}{Xi + Yi} .

4.如权利要求2或3所述的方法，其中计算关键词权值的步骤还包括：

判断(Xi-Yi)·μ的大小是否超过用户预先设定的权值调整阈值；以及

如果(Xi-Yi)·μ的大小超过所述权值调整阈值，则令所述关键词的权值Value=Value0+(Xi-Yi)·μ，否则令所述关键词的权值Value=Value0。

5.一种基于关键词权值的文本过滤系统，所述系统包括：

关键词权值计算模块，用于计算关键词的权值；以及

文本过滤模块，用于基于所计算出的关键词的权值对文本进行过滤；

其中，所述关键词权值计算模块包括：

第一判断单元，用于判断所述关键词是否是全新关键词；

第一计算单元，用于当所述关键词不是全新关键词时计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1；

第二计算单元，用于计算所述关键词的权值

Value 0 = VL + \frac{M 1 / M}{M 1 / M + N 1 / N} (VH - VL),

6.如权利要求5所述的系统，其中所述关键词权值计算模块还包括：

第三计算单元，用于计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi；以及

第四计算单元，用于计算摩擦系数

μ = \frac{\min ((VH - Value 0), (Value 0 - VL))}{Xi + Yi} .

7.如权利要求5所述的系统，所述关键词权值计算模块还包括：

第五计算单元，用于当所述关键词是全新关键词时令所述关键词的权值Value0＝（VH+VL）/2，其中VL是由用户设定的所述关键词的最小权值，VH是由用户设定的所述关键词的最大权值；

第六计算单元，用于当历史判定数据中的正确判定数据或错误判定数据中出现新的所述关键词时，计算所述关键词在历史判定数据中的正确判定数据中所出现的次数Xi和所述关键词在历史判定数据中的错误判定数据中所出现的次数Yi；以及

第七计算单元，用于计算摩擦系数

μ = \frac{\min ((VH - Value 0), (Value 0 - VL))}{Xi + Yi} .

8.如权利要求6或7所述的方法，所述关键词权值计算模块还包括：

第二判断单元，用于判断(Xi-Yi)·μ的大小是否超过用户预先设定的权值调整阈值，

权值调整单元，用于当(Xi-Yi)·μ的大小超过所述权值调整阈值时令所述关键词的权值Value=Value0+(Xi-Yi)·μ，否则令所述关键词的权值Value＝Value0。