CN101155182A - 一种基于网络的垃圾信息过滤方法和装置 - Google Patents

一种基于网络的垃圾信息过滤方法和装置 Download PDF

Info

Publication number
CN101155182A
CN101155182A CNA2006101407260A CN200610140726A CN101155182A CN 101155182 A CN101155182 A CN 101155182A CN A2006101407260 A CNA2006101407260 A CN A2006101407260A CN 200610140726 A CN200610140726 A CN 200610140726A CN 101155182 A CN101155182 A CN 101155182A
Authority
CN
China
Prior art keywords
information
hash table
characteristic element
key word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006101407260A
Other languages
English (en)
Inventor
董启江
孙永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CNA2006101407260A priority Critical patent/CN101155182A/zh
Priority to EP07785460A priority patent/EP2068514A4/en
Priority to JP2009529502A priority patent/JP5043116B2/ja
Priority to PCT/CN2007/070563 priority patent/WO2008037207A1/zh
Priority to US12/443,371 priority patent/US8326776B2/en
Publication of CN101155182A publication Critical patent/CN101155182A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Abstract

本发明公开了一种基于网络过滤垃圾信息的方法,包括以下步骤:对目标信息进行分词取得该信息中的特征元素;根据预置的关键字库取得与所述目标信息特征元素相应的概率值,所述关键字库定期更新;对所述目标信息特征元素的概率值进行累加,将累加的结果与预定的阀值进行比较,若大于所述预定阀值,则认为该目标信息为垃圾信息。这样,使用预置的关键字库验证目标信息,由于避免了现有技术在验证信息的同时需要进行大量复杂的计算系统资源损耗和时间延迟,因此满足了实时过滤垃圾信息的要求。

Description

一种基于网络的垃圾信息过滤方法和装置
技术领域
本发明涉及信息过滤技术,特别是涉及一种基于网络的垃圾信息过滤方法和装置。
背景技术
随着计算机和通讯技术的发展,互联网以其实时、方便快捷、内容丰富以及没有时间和空间限制等特点,目前已经成为人们工作和生活中一种非常重要的信息传播和通讯方式。如网络媒体、BBS、即时通讯(IM,Instant Messaging)电子邮件等。但是,垃圾信息的泛滥却给人们正常使用这些工具带来了很大的困扰,不仅浪费了网络的带宽和存储空间,同时也浪费了用户的时间和精力。
其中,目前普遍用于垃圾信息过滤的方法是基于贝页斯算法的过滤方法,该方法通过收集大量的垃圾信息和非垃圾信息作为样本信息;然后对该信息分词、计算特征元素的频率、概率并建立垃圾信息散列表和非垃圾信息散列表;然后计算上述两个散列表中每一个特征元素为垃圾信息的概率并建立新的散列表作为验证目标信息是否为垃圾信息的基础。当收到一条新的需要验证的目标信息后,根据该目标信息验证和分词的结果重新计算并建立垃圾信息散列表和非垃圾信息散列表,然后再次生成新的散列表作为验证下一目标信息的基础。
但是,基于上述方法过滤垃圾信息,无法适用于样本信息数量庞大、实时性要求高的应用环境。例如,若存在垃圾信息100000条,非垃圾信息100000条,每条信息长度为4k,包含500个单词,基于此建立的垃圾信息散列表和非垃圾信息散列表将占用非常大的空间。当需要验证一条新的目标信息是否为垃圾信息时,如上所述,需要根据该信息验证和分词的结果重新生成垃圾信息散列表和非垃圾信息散列表,然后综合这两个散列表通过计算每一个特征元素为垃圾信息的概率重新建立新的散列表作为验证下一目标信息的基础。而这样的海量计算会占用大量的系统资源和时间,由此造成的时间延迟将严重阻碍下一目标信息的验证,并最终导致无法实时地过滤垃圾信息。
发明内容
本发明所要解决的技术问题是提供一种基于网络的垃圾信息过滤方法和装置,以解决现有技术中无法实时过滤垃圾信息的问题。
为解决以上问题,本发明公开了一种基于网络过滤垃圾信息的方法,包括以下步骤:
对目标信息进行分词取得该信息中的特征元素;
根据预置的关键字库取得与所述目标信息特征元素相应的概率值,所述关键字库定期更新;
对所述目标信息特征元素的概率值进行累加,将累加的结果与预定的阀值进行比较,若大于所述预定阀值,则认为该目标信息为垃圾信息。
优选的,所述关键字库定期更新是根据收集的垃圾样本信息和非垃圾样本信息,同时根据预先设定的特征词组和/或特征短语分别建立垃圾信息散列表和非垃圾信息散列表,所述散列表中存储有根据所述样本信息分词取得的特征元素,以及该样本信息特征元素在所述样本信息中出现的频率;
根据所述垃圾信息散列表和非垃圾信息散列表建立关键字库,所述关键字库中存储所述样本信息特征元素,以及该特征元素为垃圾信息的概率值。
其中,所述关键字库中的特征元素包括但不限于特征单词或特征词组或特征短语。
优选的,还包括:将所述关键字库解析为关键字散列表,根据所述关键字散列表取得与所述目标信息特征元素相应的概率值。
优选的,还包括:根据所述关键字散列表,将所述目标信息的特征元素及其概率值分别存储在相应的特征单词散列表或特征词组散列表或特征短语散列表;
将特征单词散列表和特征短语散列表以及特征词组散列表中各特征元素的概率值进行累加,用计算的结果与预定的阀值进行比较,若大于该阀值,则认为所述目标信息为垃圾信息。
优选的,还包括:
若同一特征元素或其组成同时存在于特征单词散列表、特征词组散列表和特征短语散列表中,则只计算特征短语散列表中该特征元素的概率值;
若同一特征元素或其组成同时存在于特征单词散列表和特征词组散列表中,则只计算特征词组散列表中该特征元素的概率分值。
其中,所述阀值是根据所述关键字库取得所述垃圾样本信息和非垃圾样本信息特征元素的概率值,按照所述方法计算该样本信息的概率值并与该阀值比较,若该样本信息为垃圾样本信息且特征元素的概率值大于所述阀值,则判断正确,否则判断错误;若该样本信息为非垃圾样本信息且特征元素的概率值小于所述阀值,则判断正确,否则判断错误;
根据所述垃圾样本信息和非垃圾样本信息的判断结果统计判断的正确率,若所述正确率小于预定值,则重新设置该阀值;
循环执行该步骤,直到所述正确率大于预定值。
为解决上述问题,本发明还公开了一种基于网络的垃圾信息过滤装置,包括以下单元:
分词单元,用于对目标信息进行分词并取得该信息的特征元素;
关键字库,用于存储特征元素以及该元素为垃圾信息的概率值;
收集单元,用于收集垃圾样本信息和非垃圾样本信息;
存储单元,用于存储收集单元收集的垃圾样本信息和非垃圾样本信息,所述存储单元还用于存储预置的阀值;
关键字库生成单元,用于生成关键字库并按设定的时间间隔更新关键字库;
计算单元,用于根据分词单元取得的目标信息特征元素从关键字库中取得与该特征元素相应的概率值,并对所述概率值进行累加;
比对单元,用于比对计算单元得出的目标信息特征元素概率值和预置阀值。
其中,所述存储单元还用于存储特征词组和特征短语。
其中,所述关键字库生成单元根据存储单元的垃圾样本信息和非垃圾样本信息并根据特征词组和特征短语生成关键字库。
优选的,还包括:散列表生成单元,用于将关键字库生成关键字散列表以及生成特征单词散列表、特征词组散列表和特征短语散列表。
优选的,还包括:阀值设置单元,用于根据关键字库和存储单元的垃圾样本信息和非垃圾样本信息设置阀值。
与现有技术相比,本发明具有以下优点:
首先,由于本发明在验证一个目标信息是否为垃圾信息时,是根据已经生成的关键字库取得该目标信息特征元素的概率值进行比较,避免了现有技术中每验证一个目标信息都要重新计算所有样本信息而带来的时间损耗,而由此造成的时间延迟严重影响了下一个目标信息的验证,无法满足实时性的要求。在本发明应用的环境中样本信息往往是海量的,例如存在垃圾样本信息10万条,非垃圾样本信息10万条,每条信息长度为4k包含500个单词。若使用现有技术,每验证一条样本信息,需要根据该信息的验证结果将分词取得的特征元素加入到垃圾信息散列表和非垃圾信息散列表,然后根据这两个散列表重新计算并生成新的散列表作为判断下一个目标信息是否为垃圾信息的基础,为此消耗的大量资源和时间导致无法实时的过滤垃圾信息。而本发明验证信息时使用的关键字库,在使用同样数量样本信息的情况下,其存储的特征元素只有5000条左右,每条记录0.1k,而这大大降低了过滤时系统的负荷。应用本发明,每秒钟可验证100条长度为4k的目标信息。
其次,本发明根据垃圾样本信息和非垃圾样本信息,同时使用预先设置的特征词组和特征短语生成关键字库。由于特征词组和特征短语由人工设置和维护,基于此产生的关键字库中,特征元素具有更高的准确性,因此进一步提高了本发明过滤垃圾信息的准确率。
附图说明
图1是本发明所述的基于网络过滤垃圾信息的数据流程图;
图2是本发明所述基于网络过滤垃圾信息的装置结构框图。
具体实施方式
在结合具体的实施例说明本发明的方法之前,首先介绍一下本发明分词涉及的几个概念。
特征单词:中文中的单个字,英文中的单个词。如“我是一个学生”分为6个特征单词;“I am a student”分为4个单词。
特征短语:由有位置关系的多个单词组成。如“学生”“a student”。
特征词组:由没有位置关系的多个单词组成。
另外,为了提高信息查询的效率,本发明优选的使用散列表存储分词结果和相关信息。散列表,又称为哈希表,是线性表中一种重要的存储方式和检索方法。在散列表中,可以对节点进行快速检索。散列表算法的基本思想是:由结点的关键码值决定结点的存储地址,即以关键码值k为自变量,通过一定的函数关系h(称为散列函数),计算出对应的函数值h(k)来,将这个值解释为结点的存储地址,将结点存入该地址中,检索时,根据要检索的关键码值,用同样的散列函数计算出地址,然后,到相应的地址中去获取要找的结点数据。因此,散列表有一个重要特征:平均检索的长度不直接依赖于表中元素的个数。
下面结合具体的实施例描述一下根据本发明的用于垃圾信息过滤的方法。
本发明所述的垃圾信息过滤方法包括:对目标信息进行分词取得该信息中的特征元素;根据预置的关键字库取得与所述特征元素相应的概率值,所述关键字库定期更新;对所述特征元素的概率值进行累加,将累加的结果与预定的阀值进行比较,若大于所述预定阀值,则认为该目标信息为垃圾信息。
图1示出了根据本发明的一个优选实施例的用于垃圾信息过滤的方法的数据流程图。下面参照图1对本发明的一个实施例作详细描述。
步骤102:预置关键字库,所述关键字库定期更新。
关键字库中存储有根据样本信息分词取得的特征元素和该特征元素为垃圾信息的概率值。
对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词。目前常见的分词方法有基于字符串匹配的分词方法和基于统计的分词方法。
所谓基于字符串的匹配方法是指按照一定的策略将待分析的字串与一个充分大的词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。当然上述方法也可以组合使用。
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对目标信息中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对目标信息中的字组频度进行统计,不需要切分也不需要词典,因而称其为统计分词方法。
当然,使用何种分词方法对目标信息进行分词,本领域的技术人员可根据需要选择使用,本发明对此并不作限制。
本发明优选的按下列方法建立关键字库:
1)收集大量的垃圾信息和非垃圾信息作为样本信息,建立垃圾信息集和非垃圾信息集;
2)对信息进行分词,提取信息中的特征元素并统计提取出的特征元素出现的次数即字频。按照上述的方法分别处理垃圾信息集和非垃圾信息集中的所有信息;
3)根据所述信息集分别建立散列表,hashtable_good对应非垃圾信息集而hashtable_bad对应垃圾信息集。表中存储特征元素到字频的映射关系;
4)计算每个散列表中特征元素出现的概率P=(某特征元素的字频)/(对应散列表的长度);
5)综合考虑hashtable_good和hashtable_bad,推断出当新的文本信息中出现某个特征元素时,该信息为垃圾信息的概率。数学表达式为:
A事件:信息为垃圾信息;t1,t2...tn代表特征元素,则P(A|ti)表示在信息中出现特征元素ti时,该信息为垃圾信息的概率。
P1(ti)=(ti在hashtable_good中的值)
P2(ti)=(ti在hashtable_bad中的值)
则P(A|ti)=P1(ti)/[(P1(ti)+P2(ti)];
6)根据上述结果建立新的散列表hashtable_probability存储特征元素ti到 P(A|ti)的映射;
例如:含有“法轮功”字样的垃圾信息A和含有“法律”字样的非垃圾信息B。根据信息A生成hashtable_bad,该散列表中的记录为
法:1次
轮:1次
功:1次
根据上述结果计算得本表中:
法出现的概率为0.3
轮出现的概率为0.3
功出现的概率为0.3
根据信息B生成hashtable_good,该散列表中的记录为:
法:1次
律:1次
计算得本表中:
法出现的概率为0.5
律出现的概率为0.5
综合考虑两个散列表,共有四个特征元素:  法轮功律。当信息中出现“法”时,该信息为垃圾信息的概率为:
P=0.3/(0.3+0.5)=0.375
出现“轮”时:
P=0.3/(0.3+0)=1
出现“功“时:
P=03/(03+0)=1
出现“律”时
P=0/(0+05)=0;
由此可得第三个散列表:hashtable_probability其数据为:
法:0.375
轮:1
功:1
律:0
本发明优选的,在上述过程中,使用预先设置的特征词组和特征短语生成关键字库,进一步精确结果。
所述特征短语和特征词组预先设定并存储在xml文件中,如下所示:
<?xml version=″1.0″encoding=″UTF-8″?>
<keywords>
 <key_phrase>
  <item word=″法轮功″/>
  <item word=″法轮″/>
</key_phrase>
<key_group>
  <item word=″法轮功静坐″/>
  <item word=″法轮功″/>
</key_group>
</keywords>
其中,节点<key_phrase>中定义特征短语,节点<key_group>中定义特征词组。当对一条垃圾样本信息进行分析时,首先按前文描述的方法对该信息分词、计算其出现的概率并生成hashtable_bad;然后从上述xml文件中取出相应的特征短语和特征词组,验证该特征短语或特征词组在所述垃圾样本信息中是否存在,若存在,则将其加入所述hashtable_bad中,并计算该特征短语或词组在该表中出现的概率。按照同样的方法处理所有的垃圾样本信息和非垃圾样本信息,并最终生成完整的hashtable_bad和hashtable_good。
基于上述两个散列表建立hashtable_probability,用以存储各特征元素以及该元素为垃圾信息的概率。若用xml文件存储格式如下:
<?xml version=″1.0″encoding=″UTF-8″?>
<keywords>
  <key_word>
    <item word=″法″value=″0.375″/>
    <item word=″轮″value=″1″/>
    <item word=″功″value=″1″/>
</key_word>
<key_phrase>
    <item word=″法轮功″value=″10″/>
    <item word=″法轮″value=″0.49″/>
</key_phrase>
<key_group>
    <item word=″法轮功静坐″value=″0.65″/>
    <item word=″法轮功″value=″0.45″/>
</key_group>
</keywords>
上述xml文件即本发明所述的关键字库。本发明对新收集的垃圾样本信息和非垃圾样本信息,按照设定的时间间隔重新生成关键字库。本发明生成关键字库的过程是独立完成的,即当需要使用关键字库时,该关键字库已经生成并可直接使用,例如可以使用独立的线程或服务器生成关键字库。
步骤102:对目标信息进行分词取得该信息中的特征元素。
目标信息就是本发明需要验证是否为垃圾的信息。根据目标信息内容的不同,该特征元素可以是单词、词组、短语等。
步骤103:根据所述关键字库取得目标信息特征元素的概率值。
为了提高查询效率,本发明优选的将存储关键字库的xml文件解析为关键字散列表(hash_keywords)并置于内存中。该hash_keywords包含以下内容:
Name:特征元素名称
Value:该特征元素对应的概率值
Type:该特征元素的类型,可以是单词、词组、短语、词组中的单词、短语中的单词
Position:如果Type短语中的单词,记录其在该短语中的位置关系
建立三个临时散列表hash_word、hash_group、hash_phrase;然后,逐一验证该目标信息的特征元素在所述hash_keywords中是否存在,若存在,取得该元素相应的概率值,并按照其对应的类型,将该特征元素及其概率值分别存储在所述三个临时散列表中。
步骤104:对所述目标信息特征元素的概率值进行累加,将累加的结果与预定的阀值进行比较,若大于所述预定阀值,则认为该目标信息为垃圾信息。
分别从三个临时散列表中取出各特征元素的概率值对其进行累加,优选的,本发明按照以下方法进行计算:若一个特征元素同时存在于hash_phrase、hash_group、hash_word中,则只统计hash_phrase中的分值;如果一个特征元素同时存在于hash_group、hash_word中,则只统计hash_group中的分值,这样有效避免了重复计算,使得计算结果更加精确。
优选的,所述阀值是根据得到的概率值结合样本信息调整设定的。例如:有100000垃圾样本、100000非垃圾样本,先设定一阀值,然后根据关键字库判断所有的样本信息,计算出正确判断的条数、误判的条数,再自动调整阀值,重复上面的判断处理,直到正确判断率大于99.99%,误判率小于0.1%,则将该阀值定为实际应用的阀值。
参照图2,对本发明提出的一种基于网络过滤垃圾信息的装置进行介绍,该装置包括以下单元:
分词单元201,用于对目标信息进行分词并取得该信息的特征元素;
关键字库202,用于存储特征元素以及该元素为垃圾信息的概率值;
收集单元203,用于收集垃圾样本信息和非垃圾样本信息;
存储单元204,用于存储收集单元收集的垃圾样本信息和非垃圾样本信息,所述存储单元还用于存储预置的阀值;
关键字库生成单元205,用于生成关键字库并按设定的时间间隔更新关键字库;
计算单元206,用于根据分词单元201取得的目标信息特征元素从关键字库202中取得与该特征元素相应的概率值,并对所述概率值进行累加;
比对单元207,用于比对计算单元206得出的目标信息特征元素概率值和预置阀值。
其中,所述存储单元204还用于存储特征词组和特征短语。
其中,关键字库生成单元205根据存储单元204的垃圾样本信息和非垃圾样本信息并根据特征词组和特征短语生成关键字库。
优选的,上述装置还包括:散列表生成单元208,用于将关键字库202解析生成关键字散列表以及生成特征单词散列表、特征词组散列表和特征短语散列表。
优选的,上述装置还包括:阀值设置单元209,用于根据关键字库202和存储单元204的垃圾样本信息和非垃圾样本信息设置阀值。
上述关于本发明所述装置的描述中未享尽之处,可以参见本说明书前述相关部分。
以上对本发明所提供的一种基于网络的垃圾信息过滤方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种基于网络的垃圾信息过滤方法,其特征在于,包括以下步骤:
对目标信息进行分词取得该信息中的特征元素;
根据预置的关键字库取得与所述目标信息特征元素相应的概率值,所述关键字库定期更新;
对所述目标信息特征元素的概率值进行累加,将累加的结果与预定的阀值进行比较,若大于所述预定阀值,则认为该目标信息为垃圾信息。
2.根据权利要求1所述的方法,其特征在于,所述关键字库定期更新是根据收集的垃圾样本信息和非垃圾样本信息,同时根据预先设定的特征词组和/或特征短语分别建立垃圾信息散列表和非垃圾信息散列表,所述散列表中存储有根据所述样本信息分词取得的特征元素,以及该样本信息特征元素在所述样本信息中出现的频率;
根据所述垃圾信息散列表和非垃圾信息散列表建立关键字库,所述关键字库中存储所述样本信息特征元素,以及该特征元素为垃圾信息的概率值。
3.根据权利要求2所述的方法,其特征在于,所述关键字库中的特征元素包括但不限于特征单词或特征词组或特征短语。
4.根据权利要求3所述的方法,其特征在于,还包括:
将所述关键字库解析为关键字散列表,根据所述关键字散列表取得与所述目标信息特征元素相应的概率值。
5.根据权利要求4所述的方法,其特征在于,还包括:
根据所述关键字散列表,将所述目标信息的特征元素及其概率值分别存储在相应的特征单词散列表或特征词组散列表或特征短语散列表;
将特征单词散列表和特征短语散列表以及特征词组散列表中各特征元素的概率值进行累加,用计算的结果与预定的阀值进行比较,若大于该阀值,则认为所述目标信息为垃圾信息。
6.根据权利要求5所述的方法,其特征在于,还包括:
若同一特征元素或其组成同时存在于特征单词散列表、特征词组散列表和特征短语散列表中,则只计算特征短语散列表中该特征元素的概率值;
若同一特征元素或其组成同时存在于特征单词散列表和特征词组散列表中,则只计算特征词组散列表中该特征元素的概率分值。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述阀值是根据所述关键字库取得所述垃圾样本信息和非垃圾样本信息特征元素的概率值,比较该样本信息的概率值与所述阀值,若该样本信息为垃圾样本信息且特征元素的概率值大于所述阀值,则判断正确,否则判断错误;若该样本信息为非垃圾样本信息且特征元素的概率值小于所述阀值,则判断正确,否则判断错误;
根据所述垃圾样本信息和非垃圾样本信息的判断结果统计判断的正确率,若所述正确率小于预定值,则重新设置该阀值;
循环执行该步骤,直到所述正确率大于预定值。
8.一种基于网络的垃圾信息过滤装置,其特征在于,包括:
分词单元,用于对目标信息进行分词并取得该信息的特征元素;
关键字库,用于存储特征元素以及该元素为垃圾信息的概率值;
收集单元,用于收集垃圾样本信息和非垃圾样本信息;
存储单元,用于存储收集单元收集的垃圾样本信息和非垃圾样本信息,所述存储单元还用于存储预置的阀值;
关键字库生成单元,用于生成关键字库并按设定的时间间隔更新关键字库;
计算单元,用于根据分词单元取得的目标信息特征元素从关键字库中取得与该特征元素相应的概率值,并对所述概率值进行累加;
比对单元,用于比对计算单元得出的目标信息特征元素概率值和预置阀值。
9.根据权利要求8所述的方法,其特征在于,所述存储单元还用于存储特征词组和特征短语。
10.根据权利要求9所述的方法,其特征在于,所述关键字库生成单元根据存储单元的垃圾样本信息和非垃圾样本信息并根据特征词组和特征短语生成关键字库。
11.根据权利要求8所述的方法,其特征在于,还包括:
散列表生成单元,用于将关键字库生成关键字散列表以及生成特征单词散列表、特征词组散列表和特征短语散列表。
12.根据权利要求8所述的方法,其特征在于,还包括:阀值设置单元,用于根据关键字库和存储单元的垃圾样本信息和非垃圾样本信息设置阀值。
CNA2006101407260A 2006-09-30 2006-09-30 一种基于网络的垃圾信息过滤方法和装置 Pending CN101155182A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CNA2006101407260A CN101155182A (zh) 2006-09-30 2006-09-30 一种基于网络的垃圾信息过滤方法和装置
EP07785460A EP2068514A4 (en) 2006-09-30 2007-08-27 METHOD AND DEVICE FOR FILTERING ADVERSE INFORMATION
JP2009529502A JP5043116B2 (ja) 2006-09-30 2007-08-27 迷惑情報をフィルタリングするネットワークベースの方法および装置
PCT/CN2007/070563 WO2008037207A1 (fr) 2006-09-30 2007-08-27 Procédé et dispositif de filtrage d'informations indésirables
US12/443,371 US8326776B2 (en) 2006-09-30 2007-08-27 Network-based method and apparatus for filtering junk messages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006101407260A CN101155182A (zh) 2006-09-30 2006-09-30 一种基于网络的垃圾信息过滤方法和装置

Publications (1)

Publication Number Publication Date
CN101155182A true CN101155182A (zh) 2008-04-02

Family

ID=39229746

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006101407260A Pending CN101155182A (zh) 2006-09-30 2006-09-30 一种基于网络的垃圾信息过滤方法和装置

Country Status (5)

Country Link
US (1) US8326776B2 (zh)
EP (1) EP2068514A4 (zh)
JP (1) JP5043116B2 (zh)
CN (1) CN101155182A (zh)
WO (1) WO2008037207A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315978A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种检测开放式互动平台中子集的异常状态的方法与设备
CN101600178B (zh) * 2009-06-26 2012-04-04 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN102843343A (zh) * 2011-06-23 2012-12-26 腾讯科技(深圳)有限公司 一种在网络中控制垃圾信息的系统和装置
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN104331396A (zh) * 2014-11-26 2015-02-04 深圳市英威诺科技有限公司 一种智能识别广告的方法
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置
CN105138611A (zh) * 2015-08-07 2015-12-09 北京奇虎科技有限公司 短信类别识别方法及装置
CN105187408A (zh) * 2015-08-17 2015-12-23 北京神州绿盟信息安全科技股份有限公司 网络攻击检测方法和设备
CN105183784A (zh) * 2015-08-14 2015-12-23 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN105843856A (zh) * 2016-03-16 2016-08-10 中国联合网络通信集团有限公司 垃圾信息处理方法、装置和系统
CN105992176A (zh) * 2015-01-29 2016-10-05 腾讯科技(深圳)有限公司 一种垃圾短信拦截方法及装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8806622B2 (en) * 2008-04-21 2014-08-12 Sentrybay Limited Fraudulent page detection
US8352557B2 (en) * 2008-08-11 2013-01-08 Centurylink Intellectual Property Llc Message filtering system
US8538466B2 (en) * 2008-08-11 2013-09-17 Centurylink Intellectual Property Llc Message filtering system using profiles
US8769695B2 (en) 2009-04-30 2014-07-01 Bank Of America Corporation Phish probability scoring model
US8745143B2 (en) * 2010-04-01 2014-06-03 Microsoft Corporation Delaying inbound and outbound email messages
JP5524144B2 (ja) 2011-08-08 2014-06-18 株式会社東芝 key−valueストア方式を有するメモリシステム
CN103580939B (zh) * 2012-07-30 2018-03-20 腾讯科技(深圳)有限公司 一种基于账号属性的异常消息检测方法及设备
IL230993A (en) * 2014-02-16 2017-01-31 Google Inc Spelling variant detection by imagining pairs of sequences
CN104602206A (zh) * 2014-12-31 2015-05-06 上海大汉三通通信股份有限公司 一种垃圾短信识别方法与系统
CN106294432A (zh) * 2015-05-26 2017-01-04 中国移动通信集团公司 一种信息处理方法及装置
CN106202330B (zh) * 2016-07-01 2020-02-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
US10594546B1 (en) * 2017-08-23 2020-03-17 EMC IP Holding Company LLC Method, apparatus and article of manufacture for categorizing computerized messages into categories
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1907899A (en) * 1997-12-22 1999-07-12 Accepted Marketing, Inc. E-mail filter and method thereof
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6321267B1 (en) 1999-11-23 2001-11-20 Escom Corporation Method and apparatus for filtering junk email
JP2003067304A (ja) * 2001-08-27 2003-03-07 Kddi Corp 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
CN1286334C (zh) 2002-09-28 2006-11-22 中兴通讯股份有限公司 一种手机过滤短消息的方法
US6732157B1 (en) * 2002-12-13 2004-05-04 Networks Associates Technology, Inc. Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
US7206814B2 (en) 2003-10-09 2007-04-17 Propel Software Corporation Method and system for categorizing and processing e-mails
US7320020B2 (en) 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
US7272853B2 (en) 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
US8533270B2 (en) 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7051077B2 (en) 2003-06-30 2006-05-23 Mx Logic, Inc. Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers
US7627670B2 (en) 2004-04-29 2009-12-01 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
CN1696943A (zh) * 2004-05-13 2005-11-16 上海极软软件技术有限公司 一种自适应、安全过滤垃圾邮件的方法
US7664819B2 (en) 2004-06-29 2010-02-16 Microsoft Corporation Incremental anti-spam lookup and update service
US7660865B2 (en) 2004-08-12 2010-02-09 Microsoft Corporation Spam filtering with probabilistic secure hashes
US20060095966A1 (en) 2004-11-03 2006-05-04 Shawn Park Method of detecting, comparing, blocking, and eliminating spam emails
US20060123083A1 (en) 2004-12-03 2006-06-08 Xerox Corporation Adaptive spam message detector
JP2006221586A (ja) * 2005-02-08 2006-08-24 Umi Nishida 報告型迷惑メールフィルタリングシステム
JP4880675B2 (ja) 2005-05-05 2012-02-22 シスコ アイアンポート システムズ エルエルシー 参照リソースの確率的解析に基づく不要な電子メールメッセージの検出
US20070011323A1 (en) 2005-07-05 2007-01-11 Xerox Corporation Anti-spam system and method
CN100391275C (zh) 2005-10-31 2008-05-28 华为技术有限公司 一种处理垃圾短信的方法及系统
CN1794719A (zh) * 2005-12-31 2006-06-28 西安交大捷普网络科技有限公司 一种基于权重关键字的Web过滤方法
CN101068154A (zh) 2006-07-27 2007-11-07 腾讯科技(深圳)有限公司 一种垃圾信息过滤方法及装置
CN101150762A (zh) 2007-11-06 2008-03-26 中国移动通信集团江苏有限公司 一种垃圾短信实时拦截的方法与系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101600178B (zh) * 2009-06-26 2012-04-04 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN102315978A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种检测开放式互动平台中子集的异常状态的方法与设备
CN102843343A (zh) * 2011-06-23 2012-12-26 腾讯科技(深圳)有限公司 一种在网络中控制垃圾信息的系统和装置
CN102843343B (zh) * 2011-06-23 2016-04-20 腾讯科技(深圳)有限公司 一种在网络中控制垃圾信息的系统、频率控制设备和业务服务器
CN102890688B (zh) * 2011-07-22 2018-01-02 深圳市世纪光速信息技术有限公司 一种自动提交内容的检测方法以及装置
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置
CN104794125B (zh) * 2014-01-20 2018-09-11 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置
CN104331396A (zh) * 2014-11-26 2015-02-04 深圳市英威诺科技有限公司 一种智能识别广告的方法
CN105992176B (zh) * 2015-01-29 2019-04-26 腾讯科技(深圳)有限公司 一种垃圾短信拦截方法及装置
CN105992176A (zh) * 2015-01-29 2016-10-05 腾讯科技(深圳)有限公司 一种垃圾短信拦截方法及装置
CN105138611A (zh) * 2015-08-07 2015-12-09 北京奇虎科技有限公司 短信类别识别方法及装置
CN105183784A (zh) * 2015-08-14 2015-12-23 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN105183784B (zh) * 2015-08-14 2020-04-28 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
WO2017028789A1 (zh) * 2015-08-17 2017-02-23 北京神州绿盟信息安全科技股份有限公司 网络攻击检测方法和设备
CN105187408A (zh) * 2015-08-17 2015-12-23 北京神州绿盟信息安全科技股份有限公司 网络攻击检测方法和设备
US10645105B2 (en) 2015-08-17 2020-05-05 NSFOCUS Information Technology Co., Ltd. Network attack detection method and device
CN105843856A (zh) * 2016-03-16 2016-08-10 中国联合网络通信集团有限公司 垃圾信息处理方法、装置和系统

Also Published As

Publication number Publication date
US20100058178A1 (en) 2010-03-04
JP5043116B2 (ja) 2012-10-10
US8326776B2 (en) 2012-12-04
EP2068514A1 (en) 2009-06-10
JP2010506247A (ja) 2010-02-25
EP2068514A4 (en) 2011-09-28
WO2008037207A1 (fr) 2008-04-03

Similar Documents

Publication Publication Date Title
CN101155182A (zh) 一种基于网络的垃圾信息过滤方法和装置
US8886797B2 (en) System and method for deriving user expertise based on data propagating in a network environment
US8527436B2 (en) Automated parsing of e-mail messages
CN100596353C (zh) 提供日志服务的方法及系统
US6865715B2 (en) Statistical method for extracting, and displaying keywords in forum/message board documents
US8667169B2 (en) System and method for providing argument maps based on activity in a network environment
CN101674264B (zh) 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
CN102648464A (zh) 用于从网络数据中生成词汇的系统和方法
CN103365924A (zh) 一种搜索信息的方法、装置和终端
US9201965B1 (en) System and method for providing speech recognition using personal vocabulary in a network environment
CN103686244A (zh) 视频数据的管理方法及其系统
CN108399226A (zh) 一种用于数字图书馆的大数据清洗方法
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
CN104462096B (zh) 舆情监测分析方法和装置
CN112307318B (zh) 一种内容发布方法、系统及装置
KR20070103125A (ko) 온라인 상에서 제공되는 뉴스 기사에 가중치를 부여하는방법 및 상기 방법을 수행하는 시스템
CN107590233A (zh) 一种文件管理方法及装置
Zhang et al. Informing the curious negotiator: Automatic news extraction from the internet
JP4802523B2 (ja) 電子メッセージ分析装置および方法
CN100583840C (zh) 一种基于兴趣认知的垃圾邮件识别方法及其系统
CN108520047B (zh) 一种视频特征信息检索方法
Lu et al. A method of SNS topic models extraction based on self-adaptively LDA modeling
KR20210083510A (ko) 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법
CN117131257B (zh) 一种基于aigc的资讯文档收集系统
CN106250394B (zh) 网络资源内容洞察系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1114266

Country of ref document: HK

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080402

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1114266

Country of ref document: HK