CN101166159B

CN101166159B - 一种确定垃圾信息的方法及系统

Info

Publication number: CN101166159B
Application number: CN2006101528072A
Authority: CN
Inventors: 叶静俊; 王聪智; 王皓; 马小龙
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2006-10-18
Filing date: 2006-10-18
Publication date: 2010-07-28
Anticipated expiration: 2026-10-18
Also published as: US8234291B2; WO2008046338A1; EP2075720A4; EP2075720B1; EP2075720A1; JP5397947B2; CN101166159A; US20100094887A1; JP2010507153A; HK1117305A1

Abstract

本发明公开了一种确定垃圾信息的方法及系统，涉及信息过滤领域，能够解决预定义垃圾信息不合理的问题。所述方法包括：预定义样本数据中的垃圾信息关键字；对应每个关键字，计算关键字分值；采用所述关键字分值，模拟过滤样本数据，得到过滤指标值；判断所述过滤指标值是否符合评测指标，若不符合，则调整关键字或关键字分值，重新模拟计算过滤指标值；若符合，则结束调整。本发明所述方法能够帮助用户合理确定垃圾信息关键字及关键字分值，并根据所述关键字及对应分值判定信息是否为垃圾信息，从而提高信息过滤的效果。本发明可以广泛地应用在各种不同应用和系统中，如反馈系统、留言系统、论坛、垃圾邮件处理等不同方面。

Description

一种确定垃圾信息的方法及系统

技术领域

本发明涉及信息过滤领域，特别是涉及一种确定垃圾信息的方法及系统。

背景技术

如今，越来越多的用户通过网络收发大量信息，充分利用互联网进行信息交流和资源共享。但是，在这些信息中常常包含大量的垃圾信息，所述垃圾信息对用户无任何的价值，甚至是一些恶意的批量发布、具有非法目的的信息。最常见的即为垃圾电子邮件，用户可能在电子邮箱中收到广告、非法活动宣传，甚至是病毒邮件。这些垃圾邮件占用大量网络资源，造成服务器和网络流量的巨大压力，而且一些非法信息极大地造成了网络安全隐患。

针对上述情况，目前的网站通常都设有垃圾邮件过滤功能，采用各种反垃圾的方法阻止垃圾信息的发布，如针对用户发布的信息内容，采用无规则时间延缓、人工审核或者关键字过滤等方法。其中，关键字过滤的方法是最为智能、有效的方法。所述关键字是垃圾信息关键字，指经常出现在垃圾信息中，能够明显代表垃圾信息部分特征的字、词以及词组。对于关键字过滤，一般的方法是预先定义一些垃圾信息关键字，然后在互联网用户发布信息时，系统扫描所述信息，根据所述关键字及各种规则，确定是否有所述预定义的垃圾信息存在，如果有则不允许发布，或者将信息作为垃圾信息处理，甚至将信息发布者放入黑名单。所述方法更多地应用于垃圾邮件的过滤，能够自动识别出垃圾邮件。

目前，上述信息过滤的关键在于如何合理地预定义垃圾信息，若定义合理，就能够从大量信息中正确识别出垃圾信息，若定义不合理则过滤效果差。一般方法是根据经验或从已经标记为垃圾信息的信息中选取，人为地预定义一些关键字作为垃圾信息内容。所述方式虽然能够过滤出垃圾信息，但是由于根据人为因素决定的关键字具有一定的随意性，因此过滤结果存在很大的误差率：对于一些不在关键字范围内或关键字出现频率较低的垃圾信息，就不能识别出来；而对于一些虽符合垃圾信息的部分特征，但不属于垃圾信息的信息，也可能误判为垃圾信息。

发明内容

本发明所要解决的技术问题是提供一种确定垃圾信息的方法及系统，以解决预定义垃圾信息不合理的问题，通过合理确定垃圾信息内容，提高信息过滤的效果。

为解决上述技术问题，本发明提供了一种确定垃圾信息的方法，包括：

预定义样本数据中的垃圾信息关键字；

对应每个关键字，计算关键字分值；

采用所述关键字分值，模拟过滤样本数据，得到过滤指标值；

判断所述过滤指标值是否符合评测指标，若不符合，则调整关键字或关键字分值，重新模拟计算过滤指标值；若符合，则结束调整。

其中，执行以下调整步骤：增加关键字，重新计算关键字分值；或者，人工调整原有关键字对应的分值。

其中，按照以下步骤模拟过滤样本数据：采用所述关键字分值，逐条计算样本数据是垃圾信息的概率；将每条样本数据的概率与预定义的垃圾阈值比较，若大于或等于阈值，则判定为垃圾信息；对应所述判定结果，统计样本数据的过滤指标值。

其中优选的，采用全概率公式计算样本数据是垃圾信息的概率，采用贝叶斯算法计算关键字分值。

优选的，对应不同的应用需求，预定义不同的垃圾信息关键字。

本发明还提供了一种确定垃圾信息的系统，包括：

存储单元，用于保存样本数据中的垃圾信息关键字及关键字分值；

模拟统计单元，用于对应每个关键字，计算关键字分值；采用所述关键字分值，模拟过滤样本数据，得到过滤指标值；

调整单元，用于判断所述过滤指标值是否符合评测指标，若不符合，则调整关键字或关键字分值，触发所述模拟统计单元，重新模拟计算过滤指标值；若符合，则结束调整。

其中，所述调整单元执行以下调整步骤：增加关键字，并触发所述模拟统计单元重新计算关键字分值；或者，人工调整原有关键字对应的分值。

优选的，对应不同的应用需求，所述存储单元存有不同的垃圾信息关键字及关键字分值。

与现有技术相比，本发明具有以下优点：

首先，通过模拟计算样本数据的过滤指标值，并与评测指标比较来循环调整关键字和关键字分值，从而确定预定义的关键字及对应的关键字分值是否合理。本发明所述方法能够帮助用户科学定义垃圾信息关键字及关键字分值，并根据所述关键字及对应分值判定信息是否为垃圾信息，从而提高信息过滤的效果。使用本发明所述方法定义的垃圾信息，在垃圾信息处理系统中，能够达到非常高效的指标。

其次，用户还可以根据不同需求自由设定垃圾信息关键字和分值，因此本发明可以广泛地应用在各种不同应用和系统中，如反馈系统、留言系统、论坛、垃圾邮件处理等不同方面，并且达到的信息过滤效果能适用于用户自身的业务领域。尤其是目前反垃圾方法虽广泛应用于垃圾邮件的处理，但对于反馈留言的处理却应用很少，而本发明所述方法能够高效地处理垃圾留言过滤的问题。

再次，根据预定义关键字及对应分值，本发明采用全概率公式计算样本数据是否为垃圾信息的概率，提高了识别垃圾信息的准确性，从而提高了信息过滤的效果。

附图说明

图1是本发明所述合理确定垃圾信息的原理图；

图2是本发明实施例所述合理确定垃圾信息的步骤流程图；

图3是本发明所述合理确定垃圾信息的系统结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的核心思想是：用户选择具有代表性的信息作为垃圾信息样本，并定义垃圾信息的关键字，在系统中对样本进行计算得到关键字分值，然后系统采用所述关键字分值进行模拟得到过滤指标值，通过与评测指标比较，可以不断调整优化关键字或关键字分值，最终得到合理的垃圾信息关键字及关键字分值。

所述垃圾信息是一些具有类似特征的信息，如恶意的群发广告，从事一些不法活动或出售非法产品，以及用户根据应用需求自定义的一些特征等。本发明中的垃圾信息具有更广泛的意义，所有不符合用户浏览需求的信息都可以称为垃圾信息，例如在介绍音乐的网页中若出现汽车的宣传信息，则所述汽车宣传信息即为垃圾信息。而垃圾信息关键字分值是本发明实现方案在定义垃圾信息关键字时，为每一个关键字赋予了一定的分值，所述分值标志了对应关键字在垃圾信息中出现，超出正常信息中出现概率的一个量化的分数值。

在信息过滤的处理过程中，本发明所述方法用于确定预定义的关键字及对应分值是否合理，通过关键字过滤方法准确判定网上发布的信息是否为垃圾信息。参照图1，是本发明所述合理确定垃圾信息的原理图。所述方法通过模拟垃圾信息的过滤过程，循环优化预定义的关键字及关键字分值，达到科学定义垃圾信息关键字及对应分值的作用。

步骤101，用户选取样本数据，并自定义样本数据中的垃圾信息关键字。通常，用户选取业务领域内具有一定代表性的数据作为样本，然后从样本数据中选取可能标志垃圾信息的字、词或词组作为垃圾信息关键字。

步骤102，系统对样本中的每个关键字进行分值计算，得到垃圾信息关键字分值。对于关键字分值的确定，目前采用较多的方法是贝叶斯算法，所述算法在垃圾邮件处理中取得良好的过滤效果，而其他一些关键字分值的设计则随意性很强，因此本发明优选的也采用贝叶斯算法计算垃圾信息关键字分值。

步骤103，模拟计算样本中垃圾信息的概率，并统计过滤指标值。系统得到关键字分值后，根据所述分值对每条样本数据计算成为垃圾信息的概率。然后与用户确定的垃圾阈值比较，大于或等于所述阈值的判定为垃圾信息。其中，所述垃圾阈值是用户定义的一个判断信息是否为垃圾的标准分值。

对所有的样本数据进行上述处理后，样本就按照模拟过滤的方式，分为垃圾信息和非垃圾信息。为检测信息过滤的效果，用户定义了业务领域内的一个或多个评测指标，将上述样本过滤结果按照所述评测指标计算出每个指标对应的过滤指标值。

步骤104，将计算得到的过滤指标值与用户定义的评测指标比较，若符合，则用户选取的垃圾信息关键字和关键字分值合理，能够准确地过滤出垃圾信息；若不符合评测指标，则信息过滤效果差，还需要调整关键字或关键字分值，重新模拟过滤样本数据，所述优化过程将循环进行，最终达到模拟计算出的过滤指标值符合评测指标的目的。

根据具体的模拟结果，用户可以通过增加关键字或者删除原有关键字来调整关键字，也可以不改变原定义的关键字而调整关键字分值。对于新增的关键字，系统将按照上述方法重新计算关键字分值，然后重新过滤样本数据统计过滤指标值。对于关键字分值的调整，通常由人工方式修正分值，然后再重新过滤样本数据统计过滤指标值。

步骤105，通过上述循环调整的过程，可得到优化后的关键字和关键字分值，将其确定为过滤垃圾信息的关键字及相应分值，在对样本所属的业务领域数据进行信息过滤时，即可直接利用所述确定的关键字及关键字分值进行过滤处理。

基于上述原理，本发明所述方法能够帮助用户科学定义垃圾信息关键字及关键字分值，并根据所述关键字及对应分值判定信息是否为垃圾信息，从而提高信息过滤的效果。使用本发明所述方法定义的垃圾信息，在垃圾信息处理系统中，能够达到非常高效的指标。

本发明中由于垃圾信息的定义范围广泛，用户可以根据不同需求自由设定垃圾信息关键字和分值，因此本发明可以广泛地应用在各种不同应用和系统中，如反馈系统、留言系统、论坛、垃圾邮件处理等不同方面，并且达到的信息过滤效果能适用于用户自身的业务领域。尤其是目前反垃圾方法广泛应用于垃圾邮件的处理，但对于反馈留言的处理却应用很少，而本发明所述方法能够高效地处理垃圾留言过滤的问题。以下内容将以垃圾留言的处理为例，说明如何合理确定垃圾信息的关键字及关键字分值。参照图2，是本发明实施例所述合理确定垃圾信息的步骤流程图。

步骤201，样本控制。系统选取一段时间的留言信息作为样本数据，如选用一个季度的留言数据作为样本数据。在取值的时候，通过人工识别的方式将可能的干扰数据计算的信息去掉，使样本更加精准。

步骤202，人工判别。对选用的样本数据进行人工标识类型，标识为是正常信息或者是垃圾信息。一般对于留言或者邮件会按照每条信息进行判别，而对于大篇幅的信息可以拆分成若干个单元再进行判别。

步骤203，定义关键字。针对上述留言数据，用户定义一系列垃圾信息关键字，如发票、枪支、人体器官等。所述关键字由人为的根据自身业务领域需要定义完成，也可以从已经标记为垃圾信息的信息中选取。

步骤204，计算关键字分值。采用贝叶斯算法，在样本中计算出定义的所述垃圾信息关键字的分值，如得到“发票”的分值计算结果为0.75，“枪支”的分值计算结果为0.9。其中，贝叶斯算法是基于概率的一种算法，是ThomasBayes(一位伟大的数学大师)所创建的，目前所述算法用于过滤垃圾邮件得到了广泛的好评。贝叶斯过滤器是基于″自我学习″的智能技术，能够使自己适应垃圾邮件制造者的新把戏，同时为合法电子邮件提供保护。在智能邮件过滤技术中，贝叶斯过滤技术取得了较大的成功，被越来越多地应用在反垃圾邮件的产品中。贝叶斯算法的计算过程如下：

首先，分别计算垃圾关键字在正常信息和垃圾信息中出现的次数。例如对于留言样本中定义的关键字A，用Na表示A在正常留言中的出现频率(即次数)，Sa表示A在垃圾留言中的出现频率。计次方法为：关键字A在同一留言中出现一次，则记录1次，出现两次，记录2次，依次类推，统计出A在同一留言中出现的次数；然后搜索所有的留言，将每条留言的出现次数累加，即为关键字A在正常留言或垃圾留言中的出现频率。

其次，计算关键字的分值。即根据在所述两类数据中出现的频率，计算出现当前垃圾关键字的信息为垃圾信息的概率。对于上述关键字A，设中间变量P1a，P2a，其中

P1a＝Na/所有正常留言中出现的关键字记录数

P2a＝Sa/所有垃圾留言中出现的关键字记录数

则出现所述关键字A的留言为垃圾信息的可能值：Pa＝(P2a)/(P1a+P2a)，所述Pa即为计算得到的关键字分值。上述公式中，所述关键字记录数是指所有关键字出现频率的累加值。

步骤205，确定垃圾阈值，模拟过滤垃圾信息。首先，用户根据自身业务领域需要确定一个垃圾阈值F，用于判断垃圾信息。然后，系统对样本数据按照关键字过滤规则进行垃圾信息检测和标记，对每条留言的处理过程如下：

第一步，对定义的垃圾信息关键字，逐个判断是否在留言内容中出现。判断方法是：假设关键字循环变量Ki，关键字对应的分值为Vi，如果Ki出现，则记录Ki和分值Vi，标识为KA(i)，VA(i)；如果没有出现，继续下一个关键字查找。循环结束之后得到两个列表，即关键字列表KA和分值列表VA，并且长度相等。在所述关键字匹配过程中，需要对留言内容进行分词匹配，而匹配顺序是优先匹配组合关键字，然后匹配普通关键字。所述组合关键字如“人体”+“器官”，所述普通关键字如“枪支”。

第二步，判断KA的长度，如果KA的长度小于1，说明当前留言中不存在已定义的垃圾关键字，返回为正常信息类别；如果KA的长度大于0，说明当前留言中出现至少一个已定义的垃圾关键字，则计算当前留言为垃圾信息的垃圾概率P。垃圾概率P的计算可以采用本领域技术人员熟知的方法，如取平均值法等。本发明优选的采用全概率公式计算垃圾概率P，能够提高垃圾信息的识别准确性，从而提高信息过滤的效果。为了求复杂事件的概率，往往可以将其分解成若干个互不相容的简单事件之并，然后利用条件概率和乘法公式，求出所述简单事件的概率，最后利用概率可加性得到最终结果，这一方法的一般化称为全概率公式。

在全概率公式下的贝叶斯计算方法为：

P＝(VA1×VA2×VA3×....×VAi)/(VA1×VA2×VA3×....×VAi+(1-VA1)×(1-VA2)×(1-VA3)×....×(1-VA i))

所述计算出的P值称为一条留言信息在样本中的垃圾分值。

第三步，将垃圾分值与垃圾阈值比较，如果P＞＝F成立，则当前信息为垃圾留言，并且设置模拟判定为垃圾信息；如果不成立，设置模拟判定为正常信息。

步骤206，统计过滤指标值。在信息过滤处理中，通常定义杀出率和误杀率两个评测指标来检测信息过滤的有效性。其中，所述杀出率表示系统正确过滤垃圾信息所占所有垃圾信息的比率，所述误杀率表示系统将正常留言判定为垃圾留言所占所有留言的比率。将上述样本数据的过滤结果按照评测指标计算杀出率和误杀率，计算公式如下：

杀出率＝正确杀出的垃圾留言/所有的垃圾信息

＝(系统认为是垃圾信息-系统认为是垃圾信息人工认为不是

垃圾信息)/(人工认为是垃圾信息)

误杀率＝误杀的留言记录数/所有留言或者所有的样本数据

＝(系统认为是垃圾信息-系统认为是垃圾信息人工认为也是

垃圾信息)/所有信息或者所有样本的记录数

上述公式中，“人工认为”是指步骤202中根据人为因素标志出的正常信息和垃圾信息，步骤202的作用即用于参与系统模拟计算过滤指标值。计算得到样本的过滤指标值后，与用户定义的评测指标比较，当符合特定环境下的要求时，如误杀率低于0.1％，杀出率达90％等指标，则可以采用本发明所产生的关键字、关键字分值以及垃圾阀值；否则执行步骤207进行调整。

步骤207，根据模拟结果，按照上述方法调整关键字，系统对新增的关键字重新计算关键字分值；或者根据人工判定，直接调整原有关键字的分值。重新确定关键字及关键字分值后，返回步骤205，再次模拟计算过滤指标值。通常只需通过修正关键字或人工修正关键字分值，即可确定合理的垃圾信息关键字及分值，但在少数情况下，也需要调整预定义的垃圾阈值。

步骤208，通过上述步骤的循环调整，得到优化的关键字及关键字分值。将所述确定的关键字及关键字分值用于大量数据的垃圾信息过滤处理，能达到高效的过滤指标，解决了实际业务中垃圾信息过滤的问题。

为实现上述方法，本发明还提供了一种确定垃圾信息的系统。如图3所示，是所述系统的结构图。所述系统包括存储单元301、模拟统计单元302和调整单元303。

存储单元301，用于存储用户预定义的垃圾信息关键字，并且对应每个关键字，保存经计算或调整后最终确定的关键字分值。所述存储单元301中的关键字及关键字分值经调整后，可用于基于关键字的信息过滤方法。

模拟统计单元302，用于从存储单元301中读取样本数据的垃圾信息关键字，采用上述贝叶斯算法计算关键字分值；然后将所述关键字及对应分值应用于样本数据的模拟过滤：对于每条数据逐个判断关键字是否出现，通过全概率公式下的贝叶斯算法得出每条样本数据是垃圾信息的概率，若所述概率大于或等于预定义的垃圾阈值，则对应数据即为垃圾信息；将样本模拟过滤为正常信息和垃圾信息后，按照预定义的评测指标计算模拟的过滤指标值，用于检测信息过滤的有效性。

调整单元303，用于将样本数据经模拟统计单元302统计得到的过滤指标值与评测指标比较，若该值与评测指标符合，说明预先确定的关键字及关键字分值合理，能够应用于垃圾信息的过滤；若不符合，则需要通过调整来重新确定合理的关键字或关键字分值。根据不同的模拟情况，调整单元303可以修正关键字，通过模拟统计单元302，对增加的关键字重新计算关键字分值，再重新模拟统计过滤指标值；也可以在不调整关键字的情况下，只修改原有关键字的分值，此时由人工来微调关键字分值，然后由模拟统计单元302重新模拟统计过滤指标值。通过调整单元303不断的调整优化，能够帮助用户科学定义垃圾信息关键字及关键字分值，从而提高信息过滤的效果，在垃圾信息处理系统中，能够达到非常高效的指标。

上述系统中，针对不同的应用需求，用户还可以自由设定垃圾信息关键字和分值，因此本发明可以广泛地应用在各种不同的业务系统中，并且达到的信息过滤效果能适用于用户自身的业务领域。尤其对于反垃圾应用较多的邮件、留言、论坛等方面，能够高效地处理垃圾留言、垃圾邮件等信息的过滤问题。

以上对本发明所提供的一种确定垃圾信息的方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种确定垃圾信息的方法，其特征在于，包括：

预定义样本数据中的垃圾信息关键字；

对应每个关键字，采用贝叶斯算法计算关键字分值；

判断所述过滤指标值是否符合评测指标，若不符合，则调整关键字或关键字分值，重新模拟计算过滤指标值；若符合，则结束调整；

其中，所述采用贝叶斯算法计算关键字分值，包括：

分别计算关键字在正常信息和垃圾信息中出现的次数；

根据所述关键字在正常信息和垃圾信息中出现的次数，计算出现当前关键字的信息为垃圾信息的概率，所述计算得到的概率即为所述关键字的分值。

2.根据权利要求1所述的方法，其特征在于，所述调整关键字或关键字分值，包括：增加关键字，重新计算关键字分值。

3.根据权利要求1所述的方法，其特征在于，所述调整关键字或关键字分值，包括：人工调整原有关键字对应的分值。

4.根据权利要求1所述的方法，其特征在于，按照以下步骤模拟过滤样本数据：

采用所述关键字分值，逐条计算样本数据是垃圾信息的概率；

将每条样本数据的概率与预定义的垃圾阈值比较，若大于或等于阈值，则判定为垃圾信息；

对应所述判定结果，统计样本数据的过滤指标值。

5.根据权利要求4所述的方法，其特征在于：采用全概率公式计算样本数据是垃圾信息的概率。

6.根据权利要求1所述的方法，其特征在于：对应不同的应用需求，预定义不同的垃圾信息关键字。

7.一种确定垃圾信息的系统，其特征在于，包括：

模拟统计单元，用于对应每个关键字，采用贝叶斯算法计算关键字分值；采用所述关键字分值，模拟过滤样本数据，得到过滤指标值；

调整单元，用于判断所述过滤指标值是否符合评测指标，若不符合，则调整关键字或关键字分值，触发所述模拟统计单元，重新模拟计算过滤指标值；若符合，则结束调整；

其中，所述调整单元采用贝叶斯算法计算关键字分值，包括：

分别计算关键字在正常信息和垃圾信息中出现的次数；

8.根据权利要求7所述的系统，其特征在于，所述调整单元执行以下调整步骤：增加关键字，并触发所述模拟统计单元重新计算关键字分值。

9.根据权利要求7所述的系统，其特征在于，所述调整单元执行以下调整步骤：人工调整原有关键字对应的分值。

10.根据权利要求7所述的系统，其特征在于：对应不同的应用需求，所述存储单元存有不同的垃圾信息关键字及关键字分值。