CN101166159B - 一种确定垃圾信息的方法及系统 - Google Patents

一种确定垃圾信息的方法及系统 Download PDF

Info

Publication number
CN101166159B
CN101166159B CN2006101528072A CN200610152807A CN101166159B CN 101166159 B CN101166159 B CN 101166159B CN 2006101528072 A CN2006101528072 A CN 2006101528072A CN 200610152807 A CN200610152807 A CN 200610152807A CN 101166159 B CN101166159 B CN 101166159B
Authority
CN
China
Prior art keywords
keyword
score value
information
junk information
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006101528072A
Other languages
English (en)
Other versions
CN101166159A (zh
Inventor
叶静俊
王聪智
王皓
马小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2006101528072A priority Critical patent/CN101166159B/zh
Priority to PCT/CN2007/070764 priority patent/WO2008046338A1/zh
Priority to EP07816955.4A priority patent/EP2075720B1/en
Priority to JP2009532672A priority patent/JP5397947B2/ja
Priority to US12/445,574 priority patent/US8234291B2/en
Publication of CN101166159A publication Critical patent/CN101166159A/zh
Priority to HK08108675.7A priority patent/HK1117305A1/xx
Application granted granted Critical
Publication of CN101166159B publication Critical patent/CN101166159B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种确定垃圾信息的方法及系统,涉及信息过滤领域,能够解决预定义垃圾信息不合理的问题。所述方法包括:预定义样本数据中的垃圾信息关键字;对应每个关键字,计算关键字分值;采用所述关键字分值,模拟过滤样本数据,得到过滤指标值;判断所述过滤指标值是否符合评测指标,若不符合,则调整关键字或关键字分值,重新模拟计算过滤指标值;若符合,则结束调整。本发明所述方法能够帮助用户合理确定垃圾信息关键字及关键字分值,并根据所述关键字及对应分值判定信息是否为垃圾信息,从而提高信息过滤的效果。本发明可以广泛地应用在各种不同应用和系统中,如反馈系统、留言系统、论坛、垃圾邮件处理等不同方面。

Description

一种确定垃圾信息的方法及系统
技术领域
本发明涉及信息过滤领域,特别是涉及一种确定垃圾信息的方法及系统。
背景技术
如今,越来越多的用户通过网络收发大量信息,充分利用互联网进行信息交流和资源共享。但是,在这些信息中常常包含大量的垃圾信息,所述垃圾信息对用户无任何的价值,甚至是一些恶意的批量发布、具有非法目的的信息。最常见的即为垃圾电子邮件,用户可能在电子邮箱中收到广告、非法活动宣传,甚至是病毒邮件。这些垃圾邮件占用大量网络资源,造成服务器和网络流量的巨大压力,而且一些非法信息极大地造成了网络安全隐患。
针对上述情况,目前的网站通常都设有垃圾邮件过滤功能,采用各种反垃圾的方法阻止垃圾信息的发布,如针对用户发布的信息内容,采用无规则时间延缓、人工审核或者关键字过滤等方法。其中,关键字过滤的方法是最为智能、有效的方法。所述关键字是垃圾信息关键字,指经常出现在垃圾信息中,能够明显代表垃圾信息部分特征的字、词以及词组。对于关键字过滤,一般的方法是预先定义一些垃圾信息关键字,然后在互联网用户发布信息时,系统扫描所述信息,根据所述关键字及各种规则,确定是否有所述预定义的垃圾信息存在,如果有则不允许发布,或者将信息作为垃圾信息处理,甚至将信息发布者放入黑名单。所述方法更多地应用于垃圾邮件的过滤,能够自动识别出垃圾邮件。
目前,上述信息过滤的关键在于如何合理地预定义垃圾信息,若定义合理,就能够从大量信息中正确识别出垃圾信息,若定义不合理则过滤效果差。一般方法是根据经验或从已经标记为垃圾信息的信息中选取,人为地预定义一些关键字作为垃圾信息内容。所述方式虽然能够过滤出垃圾信息,但是由于根据人为因素决定的关键字具有一定的随意性,因此过滤结果存在很大的误差率:对于一些不在关键字范围内或关键字出现频率较低的垃圾信息,就不能识别出来;而对于一些虽符合垃圾信息的部分特征,但不属于垃圾信息的信息,也可能误判为垃圾信息。
发明内容
本发明所要解决的技术问题是提供一种确定垃圾信息的方法及系统,以解决预定义垃圾信息不合理的问题,通过合理确定垃圾信息内容,提高信息过滤的效果。
为解决上述技术问题,本发明提供了一种确定垃圾信息的方法,包括:
预定义样本数据中的垃圾信息关键字;
对应每个关键字,计算关键字分值;
采用所述关键字分值,模拟过滤样本数据,得到过滤指标值;
判断所述过滤指标值是否符合评测指标,若不符合,则调整关键字或关键字分值,重新模拟计算过滤指标值;若符合,则结束调整。
其中,执行以下调整步骤:增加关键字,重新计算关键字分值;或者,人工调整原有关键字对应的分值。
其中,按照以下步骤模拟过滤样本数据:采用所述关键字分值,逐条计算样本数据是垃圾信息的概率;将每条样本数据的概率与预定义的垃圾阈值比较,若大于或等于阈值,则判定为垃圾信息;对应所述判定结果,统计样本数据的过滤指标值。
其中优选的,采用全概率公式计算样本数据是垃圾信息的概率,采用贝叶斯算法计算关键字分值。
优选的,对应不同的应用需求,预定义不同的垃圾信息关键字。
本发明还提供了一种确定垃圾信息的系统,包括:
存储单元,用于保存样本数据中的垃圾信息关键字及关键字分值;
模拟统计单元,用于对应每个关键字,计算关键字分值;采用所述关键字分值,模拟过滤样本数据,得到过滤指标值;
调整单元,用于判断所述过滤指标值是否符合评测指标,若不符合,则调整关键字或关键字分值,触发所述模拟统计单元,重新模拟计算过滤指标值;若符合,则结束调整。
其中,所述调整单元执行以下调整步骤:增加关键字,并触发所述模拟统计单元重新计算关键字分值;或者,人工调整原有关键字对应的分值。
优选的,对应不同的应用需求,所述存储单元存有不同的垃圾信息关键字及关键字分值。
与现有技术相比,本发明具有以下优点:
首先,通过模拟计算样本数据的过滤指标值,并与评测指标比较来循环调整关键字和关键字分值,从而确定预定义的关键字及对应的关键字分值是否合理。本发明所述方法能够帮助用户科学定义垃圾信息关键字及关键字分值,并根据所述关键字及对应分值判定信息是否为垃圾信息,从而提高信息过滤的效果。使用本发明所述方法定义的垃圾信息,在垃圾信息处理系统中,能够达到非常高效的指标。
其次,用户还可以根据不同需求自由设定垃圾信息关键字和分值,因此本发明可以广泛地应用在各种不同应用和系统中,如反馈系统、留言系统、论坛、垃圾邮件处理等不同方面,并且达到的信息过滤效果能适用于用户自身的业务领域。尤其是目前反垃圾方法虽广泛应用于垃圾邮件的处理,但对于反馈留言的处理却应用很少,而本发明所述方法能够高效地处理垃圾留言过滤的问题。
再次,根据预定义关键字及对应分值,本发明采用全概率公式计算样本数据是否为垃圾信息的概率,提高了识别垃圾信息的准确性,从而提高了信息过滤的效果。
附图说明
图1是本发明所述合理确定垃圾信息的原理图;
图2是本发明实施例所述合理确定垃圾信息的步骤流程图;
图3是本发明所述合理确定垃圾信息的系统结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的核心思想是:用户选择具有代表性的信息作为垃圾信息样本,并定义垃圾信息的关键字,在系统中对样本进行计算得到关键字分值,然后系统采用所述关键字分值进行模拟得到过滤指标值,通过与评测指标比较,可以不断调整优化关键字或关键字分值,最终得到合理的垃圾信息关键字及关键字分值。
所述垃圾信息是一些具有类似特征的信息,如恶意的群发广告,从事一些不法活动或出售非法产品,以及用户根据应用需求自定义的一些特征等。本发明中的垃圾信息具有更广泛的意义,所有不符合用户浏览需求的信息都可以称为垃圾信息,例如在介绍音乐的网页中若出现汽车的宣传信息,则所述汽车宣传信息即为垃圾信息。而垃圾信息关键字分值是本发明实现方案在定义垃圾信息关键字时,为每一个关键字赋予了一定的分值,所述分值标志了对应关键字在垃圾信息中出现,超出正常信息中出现概率的一个量化的分数值。
在信息过滤的处理过程中,本发明所述方法用于确定预定义的关键字及对应分值是否合理,通过关键字过滤方法准确判定网上发布的信息是否为垃圾信息。参照图1,是本发明所述合理确定垃圾信息的原理图。所述方法通过模拟垃圾信息的过滤过程,循环优化预定义的关键字及关键字分值,达到科学定义垃圾信息关键字及对应分值的作用。
步骤101,用户选取样本数据,并自定义样本数据中的垃圾信息关键字。通常,用户选取业务领域内具有一定代表性的数据作为样本,然后从样本数据中选取可能标志垃圾信息的字、词或词组作为垃圾信息关键字。
步骤102,系统对样本中的每个关键字进行分值计算,得到垃圾信息关键字分值。对于关键字分值的确定,目前采用较多的方法是贝叶斯算法,所述算法在垃圾邮件处理中取得良好的过滤效果,而其他一些关键字分值的设计则随意性很强,因此本发明优选的也采用贝叶斯算法计算垃圾信息关键字分值。
步骤103,模拟计算样本中垃圾信息的概率,并统计过滤指标值。系统得到关键字分值后,根据所述分值对每条样本数据计算成为垃圾信息的概率。然后与用户确定的垃圾阈值比较,大于或等于所述阈值的判定为垃圾信息。其中,所述垃圾阈值是用户定义的一个判断信息是否为垃圾的标准分值。
对所有的样本数据进行上述处理后,样本就按照模拟过滤的方式,分为垃圾信息和非垃圾信息。为检测信息过滤的效果,用户定义了业务领域内的一个或多个评测指标,将上述样本过滤结果按照所述评测指标计算出每个指标对应的过滤指标值。
步骤104,将计算得到的过滤指标值与用户定义的评测指标比较,若符合,则用户选取的垃圾信息关键字和关键字分值合理,能够准确地过滤出垃圾信息;若不符合评测指标,则信息过滤效果差,还需要调整关键字或关键字分值,重新模拟过滤样本数据,所述优化过程将循环进行,最终达到模拟计算出的过滤指标值符合评测指标的目的。
根据具体的模拟结果,用户可以通过增加关键字或者删除原有关键字来调整关键字,也可以不改变原定义的关键字而调整关键字分值。对于新增的关键字,系统将按照上述方法重新计算关键字分值,然后重新过滤样本数据统计过滤指标值。对于关键字分值的调整,通常由人工方式修正分值,然后再重新过滤样本数据统计过滤指标值。
步骤105,通过上述循环调整的过程,可得到优化后的关键字和关键字分值,将其确定为过滤垃圾信息的关键字及相应分值,在对样本所属的业务领域数据进行信息过滤时,即可直接利用所述确定的关键字及关键字分值进行过滤处理。
基于上述原理,本发明所述方法能够帮助用户科学定义垃圾信息关键字及关键字分值,并根据所述关键字及对应分值判定信息是否为垃圾信息,从而提高信息过滤的效果。使用本发明所述方法定义的垃圾信息,在垃圾信息处理系统中,能够达到非常高效的指标。
本发明中由于垃圾信息的定义范围广泛,用户可以根据不同需求自由设定垃圾信息关键字和分值,因此本发明可以广泛地应用在各种不同应用和系统中,如反馈系统、留言系统、论坛、垃圾邮件处理等不同方面,并且达到的信息过滤效果能适用于用户自身的业务领域。尤其是目前反垃圾方法广泛应用于垃圾邮件的处理,但对于反馈留言的处理却应用很少,而本发明所述方法能够高效地处理垃圾留言过滤的问题。以下内容将以垃圾留言的处理为例,说明如何合理确定垃圾信息的关键字及关键字分值。参照图2,是本发明实施例所述合理确定垃圾信息的步骤流程图。
步骤201,样本控制。系统选取一段时间的留言信息作为样本数据,如选用一个季度的留言数据作为样本数据。在取值的时候,通过人工识别的方式将可能的干扰数据计算的信息去掉,使样本更加精准。
步骤202,人工判别。对选用的样本数据进行人工标识类型,标识为是正常信息或者是垃圾信息。一般对于留言或者邮件会按照每条信息进行判别,而对于大篇幅的信息可以拆分成若干个单元再进行判别。
步骤203,定义关键字。针对上述留言数据,用户定义一系列垃圾信息关键字,如发票、枪支、人体器官等。所述关键字由人为的根据自身业务领域需要定义完成,也可以从已经标记为垃圾信息的信息中选取。
步骤204,计算关键字分值。采用贝叶斯算法,在样本中计算出定义的所述垃圾信息关键字的分值,如得到“发票”的分值计算结果为0.75,“枪支”的分值计算结果为0.9。其中,贝叶斯算法是基于概率的一种算法,是ThomasBayes(一位伟大的数学大师)所创建的,目前所述算法用于过滤垃圾邮件得到了广泛的好评。贝叶斯过滤器是基于″自我学习″的智能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智能邮件过滤技术中,贝叶斯过滤技术取得了较大的成功,被越来越多地应用在反垃圾邮件的产品中。贝叶斯算法的计算过程如下:
首先,分别计算垃圾关键字在正常信息和垃圾信息中出现的次数。例如对于留言样本中定义的关键字A,用Na表示A在正常留言中的出现频率(即次数),Sa表示A在垃圾留言中的出现频率。计次方法为:关键字A在同一留言中出现一次,则记录1次,出现两次,记录2次,依次类推,统计出A在同一留言中出现的次数;然后搜索所有的留言,将每条留言的出现次数累加,即为关键字A在正常留言或垃圾留言中的出现频率。
其次,计算关键字的分值。即根据在所述两类数据中出现的频率,计算出现当前垃圾关键字的信息为垃圾信息的概率。对于上述关键字A,设中间变量P1a,P2a,其中
P1a=Na/所有正常留言中出现的关键字记录数
P2a=Sa/所有垃圾留言中出现的关键字记录数
则出现所述关键字A的留言为垃圾信息的可能值:Pa=(P2a)/(P1a+P2a),所述Pa即为计算得到的关键字分值。上述公式中,所述关键字记录数是指所有关键字出现频率的累加值。
步骤205,确定垃圾阈值,模拟过滤垃圾信息。首先,用户根据自身业务领域需要确定一个垃圾阈值F,用于判断垃圾信息。然后,系统对样本数据按照关键字过滤规则进行垃圾信息检测和标记,对每条留言的处理过程如下:
第一步,对定义的垃圾信息关键字,逐个判断是否在留言内容中出现。判断方法是:假设关键字循环变量Ki,关键字对应的分值为Vi,如果Ki出现,则记录Ki和分值Vi,标识为KA(i),VA(i);如果没有出现,继续下一个关键字查找。循环结束之后得到两个列表,即关键字列表KA和分值列表VA,并且长度相等。在所述关键字匹配过程中,需要对留言内容进行分词匹配,而匹配顺序是优先匹配组合关键字,然后匹配普通关键字。所述组合关键字如“人体”+“器官”,所述普通关键字如“枪支”。
第二步,判断KA的长度,如果KA的长度小于1,说明当前留言中不存在已定义的垃圾关键字,返回为正常信息类别;如果KA的长度大于0,说明当前留言中出现至少一个已定义的垃圾关键字,则计算当前留言为垃圾信息的垃圾概率P。垃圾概率P的计算可以采用本领域技术人员熟知的方法,如取平均值法等。本发明优选的采用全概率公式计算垃圾概率P,能够提高垃圾信息的识别准确性,从而提高信息过滤的效果。为了求复杂事件的概率,往往可以将其分解成若干个互不相容的简单事件之并,然后利用条件概率和乘法公式,求出所述简单事件的概率,最后利用概率可加性得到最终结果,这一方法的一般化称为全概率公式。
在全概率公式下的贝叶斯计算方法为:
P=(VA1×VA2×VA3×....×VAi)/(VA1×VA2×VA3×....×VAi+(1-VA1)×(1-VA2)×(1-VA3)×....×(1-VA i))
所述计算出的P值称为一条留言信息在样本中的垃圾分值。
第三步,将垃圾分值与垃圾阈值比较,如果P>=F成立,则当前信息为垃圾留言,并且设置模拟判定为垃圾信息;如果不成立,设置模拟判定为正常信息。
步骤206,统计过滤指标值。在信息过滤处理中,通常定义杀出率和误杀率两个评测指标来检测信息过滤的有效性。其中,所述杀出率表示系统正确过滤垃圾信息所占所有垃圾信息的比率,所述误杀率表示系统将正常留言判定为垃圾留言所占所有留言的比率。将上述样本数据的过滤结果按照评测指标计算杀出率和误杀率,计算公式如下:
杀出率=正确杀出的垃圾留言/所有的垃圾信息
      =(系统认为是垃圾信息-系统认为是垃圾信息人工认为不是
        垃圾信息)/(人工认为是垃圾信息)
误杀率=误杀的留言记录数/所有留言或者所有的样本数据
        =(系统认为是垃圾信息-系统认为是垃圾信息人工认为也是
          垃圾信息)/所有信息或者所有样本的记录数
上述公式中,“人工认为”是指步骤202中根据人为因素标志出的正常信息和垃圾信息,步骤202的作用即用于参与系统模拟计算过滤指标值。计算得到样本的过滤指标值后,与用户定义的评测指标比较,当符合特定环境下的要求时,如误杀率低于0.1%,杀出率达90%等指标,则可以采用本发明所产生的关键字、关键字分值以及垃圾阀值;否则执行步骤207进行调整。
步骤207,根据模拟结果,按照上述方法调整关键字,系统对新增的关键字重新计算关键字分值;或者根据人工判定,直接调整原有关键字的分值。重新确定关键字及关键字分值后,返回步骤205,再次模拟计算过滤指标值。通常只需通过修正关键字或人工修正关键字分值,即可确定合理的垃圾信息关键字及分值,但在少数情况下,也需要调整预定义的垃圾阈值。
步骤208,通过上述步骤的循环调整,得到优化的关键字及关键字分值。将所述确定的关键字及关键字分值用于大量数据的垃圾信息过滤处理,能达到高效的过滤指标,解决了实际业务中垃圾信息过滤的问题。
为实现上述方法,本发明还提供了一种确定垃圾信息的系统。如图3所示,是所述系统的结构图。所述系统包括存储单元301、模拟统计单元302和调整单元303。
存储单元301,用于存储用户预定义的垃圾信息关键字,并且对应每个关键字,保存经计算或调整后最终确定的关键字分值。所述存储单元301中的关键字及关键字分值经调整后,可用于基于关键字的信息过滤方法。
模拟统计单元302,用于从存储单元301中读取样本数据的垃圾信息关键字,采用上述贝叶斯算法计算关键字分值;然后将所述关键字及对应分值应用于样本数据的模拟过滤:对于每条数据逐个判断关键字是否出现,通过全概率公式下的贝叶斯算法得出每条样本数据是垃圾信息的概率,若所述概率大于或等于预定义的垃圾阈值,则对应数据即为垃圾信息;将样本模拟过滤为正常信息和垃圾信息后,按照预定义的评测指标计算模拟的过滤指标值,用于检测信息过滤的有效性。
调整单元303,用于将样本数据经模拟统计单元302统计得到的过滤指标值与评测指标比较,若该值与评测指标符合,说明预先确定的关键字及关键字分值合理,能够应用于垃圾信息的过滤;若不符合,则需要通过调整来重新确定合理的关键字或关键字分值。根据不同的模拟情况,调整单元303可以修正关键字,通过模拟统计单元302,对增加的关键字重新计算关键字分值,再重新模拟统计过滤指标值;也可以在不调整关键字的情况下,只修改原有关键字的分值,此时由人工来微调关键字分值,然后由模拟统计单元302重新模拟统计过滤指标值。通过调整单元303不断的调整优化,能够帮助用户科学定义垃圾信息关键字及关键字分值,从而提高信息过滤的效果,在垃圾信息处理系统中,能够达到非常高效的指标。
上述系统中,针对不同的应用需求,用户还可以自由设定垃圾信息关键字和分值,因此本发明可以广泛地应用在各种不同的业务系统中,并且达到的信息过滤效果能适用于用户自身的业务领域。尤其对于反垃圾应用较多的邮件、留言、论坛等方面,能够高效地处理垃圾留言、垃圾邮件等信息的过滤问题。
以上对本发明所提供的一种确定垃圾信息的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种确定垃圾信息的方法,其特征在于,包括:
预定义样本数据中的垃圾信息关键字;
对应每个关键字,采用贝叶斯算法计算关键字分值;
采用所述关键字分值,模拟过滤样本数据,得到过滤指标值;
判断所述过滤指标值是否符合评测指标,若不符合,则调整关键字或关键字分值,重新模拟计算过滤指标值;若符合,则结束调整;
其中,所述采用贝叶斯算法计算关键字分值,包括:
分别计算关键字在正常信息和垃圾信息中出现的次数;
根据所述关键字在正常信息和垃圾信息中出现的次数,计算出现当前关键字的信息为垃圾信息的概率,所述计算得到的概率即为所述关键字的分值。
2.根据权利要求1所述的方法,其特征在于,所述调整关键字或关键字分值,包括:增加关键字,重新计算关键字分值。
3.根据权利要求1所述的方法,其特征在于,所述调整关键字或关键字分值,包括:人工调整原有关键字对应的分值。
4.根据权利要求1所述的方法,其特征在于,按照以下步骤模拟过滤样本数据:
采用所述关键字分值,逐条计算样本数据是垃圾信息的概率;
将每条样本数据的概率与预定义的垃圾阈值比较,若大于或等于阈值,则判定为垃圾信息;
对应所述判定结果,统计样本数据的过滤指标值。
5.根据权利要求4所述的方法,其特征在于:采用全概率公式计算样本数据是垃圾信息的概率。
6.根据权利要求1所述的方法,其特征在于:对应不同的应用需求,预定义不同的垃圾信息关键字。
7.一种确定垃圾信息的系统,其特征在于,包括:
存储单元,用于保存样本数据中的垃圾信息关键字及关键字分值;
模拟统计单元,用于对应每个关键字,采用贝叶斯算法计算关键字分值;采用所述关键字分值,模拟过滤样本数据,得到过滤指标值;
调整单元,用于判断所述过滤指标值是否符合评测指标,若不符合,则调整关键字或关键字分值,触发所述模拟统计单元,重新模拟计算过滤指标值;若符合,则结束调整;
其中,所述调整单元采用贝叶斯算法计算关键字分值,包括:
分别计算关键字在正常信息和垃圾信息中出现的次数;
根据所述关键字在正常信息和垃圾信息中出现的次数,计算出现当前关键字的信息为垃圾信息的概率,所述计算得到的概率即为所述关键字的分值。
8.根据权利要求7所述的系统,其特征在于,所述调整单元执行以下调整步骤:增加关键字,并触发所述模拟统计单元重新计算关键字分值。
9.根据权利要求7所述的系统,其特征在于,所述调整单元执行以下调整步骤:人工调整原有关键字对应的分值。
10.根据权利要求7所述的系统,其特征在于:对应不同的应用需求,所述存储单元存有不同的垃圾信息关键字及关键字分值。
CN2006101528072A 2006-10-18 2006-10-18 一种确定垃圾信息的方法及系统 Expired - Fee Related CN101166159B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2006101528072A CN101166159B (zh) 2006-10-18 2006-10-18 一种确定垃圾信息的方法及系统
PCT/CN2007/070764 WO2008046338A1 (fr) 2006-10-18 2007-09-25 Procédé et système de détermination d'informations indésirables
EP07816955.4A EP2075720B1 (en) 2006-10-18 2007-09-25 Method and system of determining garbage information
JP2009532672A JP5397947B2 (ja) 2006-10-18 2007-09-25 迷惑情報の判定方法およびシステム
US12/445,574 US8234291B2 (en) 2006-10-18 2007-09-25 Method and system for determining junk information
HK08108675.7A HK1117305A1 (en) 2006-10-18 2008-08-07 Method and system for identifying junk information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101528072A CN101166159B (zh) 2006-10-18 2006-10-18 一种确定垃圾信息的方法及系统

Publications (2)

Publication Number Publication Date
CN101166159A CN101166159A (zh) 2008-04-23
CN101166159B true CN101166159B (zh) 2010-07-28

Family

ID=39313620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101528072A Expired - Fee Related CN101166159B (zh) 2006-10-18 2006-10-18 一种确定垃圾信息的方法及系统

Country Status (6)

Country Link
US (1) US8234291B2 (zh)
EP (1) EP2075720B1 (zh)
JP (1) JP5397947B2 (zh)
CN (1) CN101166159B (zh)
HK (1) HK1117305A1 (zh)
WO (1) WO2008046338A1 (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447984B (zh) * 2008-11-28 2011-11-09 电子科技大学 一种自反馈垃圾信息过滤方法
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
US8462160B2 (en) 2008-12-31 2013-06-11 Facebook, Inc. Displaying demographic information of members discussing topics in a forum
US9521013B2 (en) * 2008-12-31 2016-12-13 Facebook, Inc. Tracking significant topics of discourse in forums
JP5577879B2 (ja) * 2010-06-17 2014-08-27 日本電気株式会社 フィルタ設定システム、フィルタ設定方法、及びフィルタ設定プログラム
TWI457767B (zh) * 2010-12-02 2014-10-21 Univ Nat Taiwan Science Tech 一種分辨垃圾郵件之方法
CN102567304B (zh) * 2010-12-24 2014-02-26 北大方正集团有限公司 一种网络不良信息的过滤方法及装置
CN102982048B (zh) * 2011-09-07 2017-08-01 百度在线网络技术(北京)有限公司 一种用于评估垃圾信息挖掘规则的方法与设备
CN102984119A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于检测互动平台中的垃圾版块的方法与设备
CN103139736B (zh) * 2011-11-30 2016-06-22 中国移动通信集团设计院有限公司 对垃圾信息监控系统进行监测的方法及装置
CN103186845B (zh) * 2011-12-29 2016-06-08 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN103678349B (zh) * 2012-09-10 2017-09-26 腾讯科技(深圳)有限公司 一种垃圾数据过滤方法和装置
CN104158792A (zh) * 2013-05-14 2014-11-19 中兴通讯股份有限公司 一种垃圾僵尸检测方法及系统
CN103324745B (zh) * 2013-07-04 2017-04-05 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
US10694029B1 (en) 2013-11-07 2020-06-23 Rightquestion, Llc Validating automatic number identification data
CN104915333B (zh) * 2014-03-10 2017-11-28 中国移动通信集团设计院有限公司 一种生成关键字组合策略的方法及装置
CN104063515A (zh) * 2014-07-14 2014-09-24 福州大学 一种基于机器学习的社交网络垃圾消息过滤方法
CN104978375B (zh) * 2014-09-11 2018-04-27 腾讯科技(深圳)有限公司 一种语料过滤方法及装置
CN104243501B (zh) * 2014-10-14 2017-04-12 四川神琥科技有限公司 一种垃圾邮件的过滤拦截方法
CN105992176B (zh) * 2015-01-29 2019-04-26 腾讯科技(深圳)有限公司 一种垃圾短信拦截方法及装置
CN105022821B (zh) * 2015-07-20 2020-03-17 Oppo广东移动通信有限公司 一种内容过滤方法及终端
CN105279238B (zh) * 2015-09-28 2018-11-06 北京国双科技有限公司 字符串处理方法和装置
CN105323248B (zh) * 2015-10-23 2018-09-25 绵阳师范学院 一种基于规则的交互式中文垃圾邮件过滤方法
CN105740232A (zh) * 2016-01-28 2016-07-06 百度在线网络技术(北京)有限公司 一种自动提取反馈热点的方法和装置
US20170222960A1 (en) * 2016-02-01 2017-08-03 Linkedin Corporation Spam processing with continuous model training
CN105824805B (zh) * 2016-05-09 2024-04-23 腾讯科技(深圳)有限公司 一种识别方法及装置
CN106446032A (zh) * 2016-08-30 2017-02-22 江苏博智软件科技有限公司 一种垃圾信息的处理方法和装置
US10805314B2 (en) 2017-05-19 2020-10-13 Agari Data, Inc. Using message context to evaluate security of requested data
US10880322B1 (en) 2016-09-26 2020-12-29 Agari Data, Inc. Automated tracking of interaction with a resource of a message
US11936604B2 (en) 2016-09-26 2024-03-19 Agari Data, Inc. Multi-level security analysis and intermediate delivery of an electronic message
US9847973B1 (en) 2016-09-26 2017-12-19 Agari Data, Inc. Mitigating communication risk by detecting similarity to a trusted message contact
US11722513B2 (en) 2016-11-30 2023-08-08 Agari Data, Inc. Using a measure of influence of sender in determining a security risk associated with an electronic message
US10715543B2 (en) * 2016-11-30 2020-07-14 Agari Data, Inc. Detecting computer security risk based on previously observed communications
US11044267B2 (en) 2016-11-30 2021-06-22 Agari Data, Inc. Using a measure of influence of sender in determining a security risk associated with an electronic message
US11019076B1 (en) 2017-04-26 2021-05-25 Agari Data, Inc. Message security assessment using sender identity profiles
US11102244B1 (en) 2017-06-07 2021-08-24 Agari Data, Inc. Automated intelligence gathering
US11757914B1 (en) 2017-06-07 2023-09-12 Agari Data, Inc. Automated responsive message to determine a security risk of a message sender
CN107832925A (zh) * 2017-10-20 2018-03-23 阿里巴巴集团控股有限公司 互联网内容风险评价方法、装置及服务器
US11861304B2 (en) * 2019-05-13 2024-01-02 Mcafee, Llc Methods, apparatus, and systems to generate regex and detect data similarity
US11983750B1 (en) * 2021-08-23 2024-05-14 Amazon Technologies, Inc. Risky item page detection
KR20240062495A (ko) * 2022-11-01 2024-05-10 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403965A (zh) * 2001-09-05 2003-03-19 联想(北京)有限公司 主题词抗干扰提取方法
CN1592229A (zh) * 2003-08-25 2005-03-09 微软公司 基于url的电子通讯和网页过滤
CN1639768A (zh) * 2002-08-01 2005-07-13 艾利森电话股份有限公司 自动语音识别方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPN455495A0 (en) 1995-08-02 1995-08-24 Orbell, Muriel Ann Improvements in or relating to valves
CN1140846C (zh) 1996-11-28 2004-03-03 株式会社东芝 图像形成装置
JPH1115756A (ja) * 1997-06-24 1999-01-22 Omron Corp 電子メール判別方法及び装置並びに記憶媒体
AU1907899A (en) * 1997-12-22 1999-07-12 Accepted Marketing, Inc. E-mail filter and method thereof
GB2336699A (en) * 1998-04-24 1999-10-27 Dialog Corp Plc The Automatic classification of text files
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6321267B1 (en) * 1999-11-23 2001-11-20 Escom Corporation Method and apparatus for filtering junk email
GB2366706B (en) 2000-08-31 2004-11-03 Content Technologies Ltd Monitoring electronic mail messages digests
JP2003067304A (ja) * 2001-08-27 2003-03-07 Kddi Corp 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
US20040083270A1 (en) * 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
US6732157B1 (en) * 2002-12-13 2004-05-04 Networks Associates Technology, Inc. Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
US7533148B2 (en) 2003-01-09 2009-05-12 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7269731B2 (en) * 2003-01-29 2007-09-11 Hewlett-Packard Development Company, L.P. Message authorization system and method
US7249162B2 (en) * 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7320020B2 (en) 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
US7831667B2 (en) 2003-05-15 2010-11-09 Symantec Corporation Method and apparatus for filtering email spam using email noise reduction
US7051077B2 (en) 2003-06-30 2006-05-23 Mx Logic, Inc. Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers
US20050050150A1 (en) * 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
JP2005184792A (ja) 2003-11-27 2005-07-07 Nec Corp 帯域制御装置、帯域制御方法及び帯域制御プログラム
US20050204005A1 (en) 2004-03-12 2005-09-15 Purcell Sean E. Selective treatment of messages based on junk rating
US7627670B2 (en) 2004-04-29 2009-12-01 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
US7912905B2 (en) * 2004-05-18 2011-03-22 Computer Associates Think, Inc. System and method for filtering network messages
US7818377B2 (en) 2004-05-24 2010-10-19 Microsoft Corporation Extended message rule architecture
US20060095966A1 (en) 2004-11-03 2006-05-04 Shawn Park Method of detecting, comparing, blocking, and eliminating spam emails
CN1619538A (zh) * 2004-12-03 2005-05-25 北京北方烽火科技有限公司 短信内容的线性参数模糊匹配算法
US7580982B2 (en) * 2004-12-14 2009-08-25 The Go Daddy Group, Inc. Email filtering system and method
US20060168032A1 (en) 2004-12-21 2006-07-27 Lucent Technologies, Inc. Unwanted message (spam) detection based on message content
US20070011323A1 (en) 2005-07-05 2007-01-11 Xerox Corporation Anti-spam system and method
US7617285B1 (en) 2005-09-29 2009-11-10 Symantec Corporation Adaptive threshold based spam classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403965A (zh) * 2001-09-05 2003-03-19 联想(北京)有限公司 主题词抗干扰提取方法
CN1639768A (zh) * 2002-08-01 2005-07-13 艾利森电话股份有限公司 自动语音识别方法
CN1592229A (zh) * 2003-08-25 2005-03-09 微软公司 基于url的电子通讯和网页过滤

Also Published As

Publication number Publication date
US8234291B2 (en) 2012-07-31
WO2008046338A1 (fr) 2008-04-24
EP2075720A4 (en) 2012-01-18
EP2075720B1 (en) 2018-11-14
EP2075720A1 (en) 2009-07-01
JP5397947B2 (ja) 2014-01-22
CN101166159A (zh) 2008-04-23
US20100094887A1 (en) 2010-04-15
JP2010507153A (ja) 2010-03-04
HK1117305A1 (en) 2009-01-09

Similar Documents

Publication Publication Date Title
CN101166159B (zh) 一种确定垃圾信息的方法及系统
CN102096703B (zh) 短消息的过滤方法和设备
CN101295381A (zh) 一种垃圾邮件检测方法
CN101197793B (zh) 一种垃圾信息检测方法和装置
Jain et al. Predicting spam messages using back propagation neural network
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN103580939A (zh) 一种基于账号属性的异常消息检测方法及设备
Fujiki et al. Identification of bursts in a document stream
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
CN103389995B (zh) 一种垃圾内容识别方法及装置
CN105989066A (zh) 一种信息处理方法和装置
CN106095747A (zh) 一种垃圾短信的识别方法和系统
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质
CN116501885A (zh) 一种基于动力学传播模型的推演方法和系统
CN110597985A (zh) 基于数据分析的数据分类方法、装置、终端及介质
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
CN112541669A (zh) 风险识别方法、系统及装置
CN113836244B (zh) 样本获取方法、模型训练方法、关系预测方法及装置
CN111428118B (zh) 一种检测事件可靠性的方法及电子设备
CN115392199B (zh) 评价分析和报告生成的方法、装置、电子设备及存储介质
CN110543632B (zh) 一种文本信息识别方法、装置、储存介质及电子设备
KR20120058417A (ko) 문서 유사도 산출의 맞춤화 및 최적화에 기초한 기계 학습 방법 및 시스템
CN116341990B (zh) 一种基础设施工程的知识管理评价方法及系统
CN109241428B (zh) 用户性别的确定方法、装置、服务器及存储介质
Teljstedt Separating Tweets from Croaks: Detecting Automated Twitter Accounts with Supervised Learning and Synthetically Constructed Training Data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1117305

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1117305

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20200424

Address after: Building 8, No. 16, Zhuantang science and technology economic block, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: ALIYUN COMPUTING Co.,Ltd.

Address before: Greater Cayman Islands, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100728

Termination date: 20201018

CF01 Termination of patent right due to non-payment of annual fee