CN101155182A

CN101155182A - 一种基于网络的垃圾信息过滤方法和装置

Info

Publication number: CN101155182A
Application number: CNA2006101407260A
Authority: CN
Inventors: 董启江; 孙永明
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2006-09-30
Filing date: 2006-09-30
Publication date: 2008-04-02
Also published as: US20100058178A1; JP5043116B2; US8326776B2; EP2068514A1; JP2010506247A; EP2068514A4; WO2008037207A1

Abstract

本发明公开了一种基于网络过滤垃圾信息的方法，包括以下步骤：对目标信息进行分词取得该信息中的特征元素；根据预置的关键字库取得与所述目标信息特征元素相应的概率值，所述关键字库定期更新；对所述目标信息特征元素的概率值进行累加，将累加的结果与预定的阀值进行比较，若大于所述预定阀值，则认为该目标信息为垃圾信息。这样，使用预置的关键字库验证目标信息，由于避免了现有技术在验证信息的同时需要进行大量复杂的计算系统资源损耗和时间延迟，因此满足了实时过滤垃圾信息的要求。

Description

一种基于网络的垃圾信息过滤方法和装置

技术领域

本发明涉及信息过滤技术，特别是涉及一种基于网络的垃圾信息过滤方法和装置。

背景技术

随着计算机和通讯技术的发展，互联网以其实时、方便快捷、内容丰富以及没有时间和空间限制等特点，目前已经成为人们工作和生活中一种非常重要的信息传播和通讯方式。如网络媒体、BBS、即时通讯(IM，Instant Messaging)电子邮件等。但是，垃圾信息的泛滥却给人们正常使用这些工具带来了很大的困扰，不仅浪费了网络的带宽和存储空间，同时也浪费了用户的时间和精力。

其中，目前普遍用于垃圾信息过滤的方法是基于贝页斯算法的过滤方法，该方法通过收集大量的垃圾信息和非垃圾信息作为样本信息；然后对该信息分词、计算特征元素的频率、概率并建立垃圾信息散列表和非垃圾信息散列表；然后计算上述两个散列表中每一个特征元素为垃圾信息的概率并建立新的散列表作为验证目标信息是否为垃圾信息的基础。当收到一条新的需要验证的目标信息后，根据该目标信息验证和分词的结果重新计算并建立垃圾信息散列表和非垃圾信息散列表，然后再次生成新的散列表作为验证下一目标信息的基础。

但是，基于上述方法过滤垃圾信息，无法适用于样本信息数量庞大、实时性要求高的应用环境。例如，若存在垃圾信息100000条，非垃圾信息100000条，每条信息长度为4k，包含500个单词，基于此建立的垃圾信息散列表和非垃圾信息散列表将占用非常大的空间。当需要验证一条新的目标信息是否为垃圾信息时，如上所述，需要根据该信息验证和分词的结果重新生成垃圾信息散列表和非垃圾信息散列表，然后综合这两个散列表通过计算每一个特征元素为垃圾信息的概率重新建立新的散列表作为验证下一目标信息的基础。而这样的海量计算会占用大量的系统资源和时间，由此造成的时间延迟将严重阻碍下一目标信息的验证，并最终导致无法实时地过滤垃圾信息。

发明内容

本发明所要解决的技术问题是提供一种基于网络的垃圾信息过滤方法和装置，以解决现有技术中无法实时过滤垃圾信息的问题。

为解决以上问题，本发明公开了一种基于网络过滤垃圾信息的方法，包括以下步骤：

对目标信息进行分词取得该信息中的特征元素；

根据预置的关键字库取得与所述目标信息特征元素相应的概率值，所述关键字库定期更新；

对所述目标信息特征元素的概率值进行累加，将累加的结果与预定的阀值进行比较，若大于所述预定阀值，则认为该目标信息为垃圾信息。

优选的，所述关键字库定期更新是根据收集的垃圾样本信息和非垃圾样本信息，同时根据预先设定的特征词组和/或特征短语分别建立垃圾信息散列表和非垃圾信息散列表，所述散列表中存储有根据所述样本信息分词取得的特征元素，以及该样本信息特征元素在所述样本信息中出现的频率；

根据所述垃圾信息散列表和非垃圾信息散列表建立关键字库，所述关键字库中存储所述样本信息特征元素，以及该特征元素为垃圾信息的概率值。

其中，所述关键字库中的特征元素包括但不限于特征单词或特征词组或特征短语。

优选的，还包括：将所述关键字库解析为关键字散列表，根据所述关键字散列表取得与所述目标信息特征元素相应的概率值。

优选的，还包括：根据所述关键字散列表，将所述目标信息的特征元素及其概率值分别存储在相应的特征单词散列表或特征词组散列表或特征短语散列表；

将特征单词散列表和特征短语散列表以及特征词组散列表中各特征元素的概率值进行累加，用计算的结果与预定的阀值进行比较，若大于该阀值，则认为所述目标信息为垃圾信息。

优选的，还包括：

若同一特征元素或其组成同时存在于特征单词散列表、特征词组散列表和特征短语散列表中，则只计算特征短语散列表中该特征元素的概率值；

若同一特征元素或其组成同时存在于特征单词散列表和特征词组散列表中，则只计算特征词组散列表中该特征元素的概率分值。

其中，所述阀值是根据所述关键字库取得所述垃圾样本信息和非垃圾样本信息特征元素的概率值，按照所述方法计算该样本信息的概率值并与该阀值比较，若该样本信息为垃圾样本信息且特征元素的概率值大于所述阀值，则判断正确，否则判断错误；若该样本信息为非垃圾样本信息且特征元素的概率值小于所述阀值，则判断正确，否则判断错误；

根据所述垃圾样本信息和非垃圾样本信息的判断结果统计判断的正确率，若所述正确率小于预定值，则重新设置该阀值；

循环执行该步骤，直到所述正确率大于预定值。

为解决上述问题，本发明还公开了一种基于网络的垃圾信息过滤装置，包括以下单元：

分词单元，用于对目标信息进行分词并取得该信息的特征元素；

关键字库，用于存储特征元素以及该元素为垃圾信息的概率值；

收集单元，用于收集垃圾样本信息和非垃圾样本信息；

存储单元，用于存储收集单元收集的垃圾样本信息和非垃圾样本信息，所述存储单元还用于存储预置的阀值；

关键字库生成单元，用于生成关键字库并按设定的时间间隔更新关键字库；

计算单元，用于根据分词单元取得的目标信息特征元素从关键字库中取得与该特征元素相应的概率值，并对所述概率值进行累加；

比对单元，用于比对计算单元得出的目标信息特征元素概率值和预置阀值。

其中，所述存储单元还用于存储特征词组和特征短语。

其中，所述关键字库生成单元根据存储单元的垃圾样本信息和非垃圾样本信息并根据特征词组和特征短语生成关键字库。

优选的，还包括：散列表生成单元，用于将关键字库生成关键字散列表以及生成特征单词散列表、特征词组散列表和特征短语散列表。

优选的，还包括：阀值设置单元，用于根据关键字库和存储单元的垃圾样本信息和非垃圾样本信息设置阀值。

与现有技术相比，本发明具有以下优点：

首先，由于本发明在验证一个目标信息是否为垃圾信息时，是根据已经生成的关键字库取得该目标信息特征元素的概率值进行比较，避免了现有技术中每验证一个目标信息都要重新计算所有样本信息而带来的时间损耗，而由此造成的时间延迟严重影响了下一个目标信息的验证，无法满足实时性的要求。在本发明应用的环境中样本信息往往是海量的，例如存在垃圾样本信息10万条，非垃圾样本信息10万条，每条信息长度为4k包含500个单词。若使用现有技术，每验证一条样本信息，需要根据该信息的验证结果将分词取得的特征元素加入到垃圾信息散列表和非垃圾信息散列表，然后根据这两个散列表重新计算并生成新的散列表作为判断下一个目标信息是否为垃圾信息的基础，为此消耗的大量资源和时间导致无法实时的过滤垃圾信息。而本发明验证信息时使用的关键字库，在使用同样数量样本信息的情况下，其存储的特征元素只有5000条左右，每条记录0.1k，而这大大降低了过滤时系统的负荷。应用本发明，每秒钟可验证100条长度为4k的目标信息。

其次，本发明根据垃圾样本信息和非垃圾样本信息，同时使用预先设置的特征词组和特征短语生成关键字库。由于特征词组和特征短语由人工设置和维护，基于此产生的关键字库中，特征元素具有更高的准确性，因此进一步提高了本发明过滤垃圾信息的准确率。

附图说明

图1是本发明所述的基于网络过滤垃圾信息的数据流程图；

图2是本发明所述基于网络过滤垃圾信息的装置结构框图。

具体实施方式

在结合具体的实施例说明本发明的方法之前，首先介绍一下本发明分词涉及的几个概念。

特征单词：中文中的单个字，英文中的单个词。如“我是一个学生”分为6个特征单词；“I am a student”分为4个单词。

特征短语：由有位置关系的多个单词组成。如“学生”“a student”。

特征词组：由没有位置关系的多个单词组成。

另外，为了提高信息查询的效率，本发明优选的使用散列表存储分词结果和相关信息。散列表，又称为哈希表，是线性表中一种重要的存储方式和检索方法。在散列表中，可以对节点进行快速检索。散列表算法的基本思想是：由结点的关键码值决定结点的存储地址，即以关键码值k为自变量，通过一定的函数关系h(称为散列函数)，计算出对应的函数值h(k)来，将这个值解释为结点的存储地址，将结点存入该地址中，检索时，根据要检索的关键码值，用同样的散列函数计算出地址，然后，到相应的地址中去获取要找的结点数据。因此，散列表有一个重要特征：平均检索的长度不直接依赖于表中元素的个数。

下面结合具体的实施例描述一下根据本发明的用于垃圾信息过滤的方法。

本发明所述的垃圾信息过滤方法包括：对目标信息进行分词取得该信息中的特征元素；根据预置的关键字库取得与所述特征元素相应的概率值，所述关键字库定期更新；对所述特征元素的概率值进行累加，将累加的结果与预定的阀值进行比较，若大于所述预定阀值，则认为该目标信息为垃圾信息。

图1示出了根据本发明的一个优选实施例的用于垃圾信息过滤的方法的数据流程图。下面参照图1对本发明的一个实施例作详细描述。

步骤102：预置关键字库，所述关键字库定期更新。

关键字库中存储有根据样本信息分词取得的特征元素和该特征元素为垃圾信息的概率值。

对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词。目前常见的分词方法有基于字符串匹配的分词方法和基于统计的分词方法。

所谓基于字符串的匹配方法是指按照一定的策略将待分析的字串与一个充分大的词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，字符串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。当然上述方法也可以组合使用。

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对目标信息中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对目标信息中的字组频度进行统计，不需要切分也不需要词典，因而称其为统计分词方法。

当然，使用何种分词方法对目标信息进行分词，本领域的技术人员可根据需要选择使用，本发明对此并不作限制。

本发明优选的按下列方法建立关键字库：

1)收集大量的垃圾信息和非垃圾信息作为样本信息，建立垃圾信息集和非垃圾信息集；

2)对信息进行分词，提取信息中的特征元素并统计提取出的特征元素出现的次数即字频。按照上述的方法分别处理垃圾信息集和非垃圾信息集中的所有信息；

3)根据所述信息集分别建立散列表，hashtable_good对应非垃圾信息集而hashtable_bad对应垃圾信息集。表中存储特征元素到字频的映射关系；

4)计算每个散列表中特征元素出现的概率P＝(某特征元素的字频)/(对应散列表的长度)；

5)综合考虑hashtable_good和hashtable_bad，推断出当新的文本信息中出现某个特征元素时，该信息为垃圾信息的概率。数学表达式为：

A事件：信息为垃圾信息；t1，t2...tn代表特征元素，则P(A|ti)表示在信息中出现特征元素ti时，该信息为垃圾信息的概率。

设

P1(ti)＝(ti在hashtable_good中的值)

P2(ti)＝(ti在hashtable_bad中的值)

则P(A|ti)＝P1(ti)/[(P1(ti)+P2(ti)]；

6)根据上述结果建立新的散列表hashtable_probability存储特征元素ti到 P(A|ti)的映射；

例如：含有“法轮功”字样的垃圾信息A和含有“法律”字样的非垃圾信息B。根据信息A生成hashtable_bad，该散列表中的记录为

法：1次

轮：1次

功：1次

根据上述结果计算得本表中：

法出现的概率为0.3

轮出现的概率为0.3

功出现的概率为0.3

根据信息B生成hashtable_good，该散列表中的记录为：

法：1次

律：1次

计算得本表中：

法出现的概率为0.5

律出现的概率为0.5

综合考虑两个散列表，共有四个特征元素：法轮功律。当信息中出现“法”时，该信息为垃圾信息的概率为：

P＝0.3/(0.3+0.5)＝0.375

出现“轮”时：

P＝0.3/(0.3+0)＝1

出现“功“时：

P＝03/(03+0)＝1

出现“律”时

P＝0/(0+05)＝0；

由此可得第三个散列表：hashtable_probability其数据为：

法：0.375

轮：1

功：1

律：0

本发明优选的，在上述过程中，使用预先设置的特征词组和特征短语生成关键字库，进一步精确结果。

所述特征短语和特征词组预先设定并存储在xml文件中，如下所示：

<？xml version＝″1.0″encoding＝″UTF-8″？>

<key_phrase>

</key_phrase>

<key_group>

</key_group>

</keywords>

其中，节点<key_phrase>中定义特征短语，节点<key_group>中定义特征词组。当对一条垃圾样本信息进行分析时，首先按前文描述的方法对该信息分词、计算其出现的概率并生成hashtable_bad；然后从上述xml文件中取出相应的特征短语和特征词组，验证该特征短语或特征词组在所述垃圾样本信息中是否存在，若存在，则将其加入所述hashtable_bad中，并计算该特征短语或词组在该表中出现的概率。按照同样的方法处理所有的垃圾样本信息和非垃圾样本信息，并最终生成完整的hashtable_bad和hashtable_good。

基于上述两个散列表建立hashtable_probability，用以存储各特征元素以及该元素为垃圾信息的概率。若用xml文件存储格式如下：

<？xml version＝″1.0″encoding＝″UTF-8″？>

<key_word>

</key_word>

<key_phrase>

</key_phrase>

<key_group>

</key_group>

</keywords>

上述xml文件即本发明所述的关键字库。本发明对新收集的垃圾样本信息和非垃圾样本信息，按照设定的时间间隔重新生成关键字库。本发明生成关键字库的过程是独立完成的，即当需要使用关键字库时，该关键字库已经生成并可直接使用，例如可以使用独立的线程或服务器生成关键字库。

步骤102：对目标信息进行分词取得该信息中的特征元素。

目标信息就是本发明需要验证是否为垃圾的信息。根据目标信息内容的不同，该特征元素可以是单词、词组、短语等。

步骤103：根据所述关键字库取得目标信息特征元素的概率值。

为了提高查询效率，本发明优选的将存储关键字库的xml文件解析为关键字散列表(hash_keywords)并置于内存中。该hash_keywords包含以下内容：

Name：特征元素名称

Value：该特征元素对应的概率值

Type：该特征元素的类型，可以是单词、词组、短语、词组中的单词、短语中的单词

Position：如果Type短语中的单词，记录其在该短语中的位置关系

建立三个临时散列表hash_word、hash_group、hash_phrase；然后，逐一验证该目标信息的特征元素在所述hash_keywords中是否存在，若存在，取得该元素相应的概率值，并按照其对应的类型，将该特征元素及其概率值分别存储在所述三个临时散列表中。

步骤104：对所述目标信息特征元素的概率值进行累加，将累加的结果与预定的阀值进行比较，若大于所述预定阀值，则认为该目标信息为垃圾信息。

分别从三个临时散列表中取出各特征元素的概率值对其进行累加，优选的，本发明按照以下方法进行计算：若一个特征元素同时存在于hash_phrase、hash_group、hash_word中，则只统计hash_phrase中的分值；如果一个特征元素同时存在于hash_group、hash_word中，则只统计hash_group中的分值，这样有效避免了重复计算，使得计算结果更加精确。

优选的，所述阀值是根据得到的概率值结合样本信息调整设定的。例如：有100000垃圾样本、100000非垃圾样本，先设定一阀值，然后根据关键字库判断所有的样本信息，计算出正确判断的条数、误判的条数，再自动调整阀值，重复上面的判断处理，直到正确判断率大于99.99％，误判率小于0.1％，则将该阀值定为实际应用的阀值。

参照图2，对本发明提出的一种基于网络过滤垃圾信息的装置进行介绍，该装置包括以下单元：

分词单元201，用于对目标信息进行分词并取得该信息的特征元素；

关键字库202，用于存储特征元素以及该元素为垃圾信息的概率值；

收集单元203，用于收集垃圾样本信息和非垃圾样本信息；

存储单元204，用于存储收集单元收集的垃圾样本信息和非垃圾样本信息，所述存储单元还用于存储预置的阀值；

关键字库生成单元205，用于生成关键字库并按设定的时间间隔更新关键字库；

计算单元206，用于根据分词单元201取得的目标信息特征元素从关键字库202中取得与该特征元素相应的概率值，并对所述概率值进行累加；

比对单元207，用于比对计算单元206得出的目标信息特征元素概率值和预置阀值。

其中，所述存储单元204还用于存储特征词组和特征短语。

其中，关键字库生成单元205根据存储单元204的垃圾样本信息和非垃圾样本信息并根据特征词组和特征短语生成关键字库。

优选的，上述装置还包括：散列表生成单元208，用于将关键字库202解析生成关键字散列表以及生成特征单词散列表、特征词组散列表和特征短语散列表。

优选的，上述装置还包括：阀值设置单元209，用于根据关键字库202和存储单元204的垃圾样本信息和非垃圾样本信息设置阀值。

上述关于本发明所述装置的描述中未享尽之处，可以参见本说明书前述相关部分。

以上对本发明所提供的一种基于网络的垃圾信息过滤方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于网络的垃圾信息过滤方法，其特征在于，包括以下步骤：

对目标信息进行分词取得该信息中的特征元素；

2.根据权利要求1所述的方法，其特征在于，所述关键字库定期更新是根据收集的垃圾样本信息和非垃圾样本信息，同时根据预先设定的特征词组和/或特征短语分别建立垃圾信息散列表和非垃圾信息散列表，所述散列表中存储有根据所述样本信息分词取得的特征元素，以及该样本信息特征元素在所述样本信息中出现的频率；

3.根据权利要求2所述的方法，其特征在于，所述关键字库中的特征元素包括但不限于特征单词或特征词组或特征短语。

4.根据权利要求3所述的方法，其特征在于，还包括：

将所述关键字库解析为关键字散列表，根据所述关键字散列表取得与所述目标信息特征元素相应的概率值。

5.根据权利要求4所述的方法，其特征在于，还包括：

根据所述关键字散列表，将所述目标信息的特征元素及其概率值分别存储在相应的特征单词散列表或特征词组散列表或特征短语散列表；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述阀值是根据所述关键字库取得所述垃圾样本信息和非垃圾样本信息特征元素的概率值，比较该样本信息的概率值与所述阀值，若该样本信息为垃圾样本信息且特征元素的概率值大于所述阀值，则判断正确，否则判断错误；若该样本信息为非垃圾样本信息且特征元素的概率值小于所述阀值，则判断正确，否则判断错误；

循环执行该步骤，直到所述正确率大于预定值。

8.一种基于网络的垃圾信息过滤装置，其特征在于，包括：

收集单元，用于收集垃圾样本信息和非垃圾样本信息；

9.根据权利要求8所述的方法，其特征在于，所述存储单元还用于存储特征词组和特征短语。

10.根据权利要求9所述的方法，其特征在于，所述关键字库生成单元根据存储单元的垃圾样本信息和非垃圾样本信息并根据特征词组和特征短语生成关键字库。

11.根据权利要求8所述的方法，其特征在于，还包括：

散列表生成单元，用于将关键字库生成关键字散列表以及生成特征单词散列表、特征词组散列表和特征短语散列表。

12.根据权利要求8所述的方法，其特征在于，还包括：阀值设置单元，用于根据关键字库和存储单元的垃圾样本信息和非垃圾样本信息设置阀值。