CN101075981A - 一种信息过滤的方法及装置 - Google Patents

一种信息过滤的方法及装置 Download PDF

Info

Publication number
CN101075981A
CN101075981A CN 200610109851 CN200610109851A CN101075981A CN 101075981 A CN101075981 A CN 101075981A CN 200610109851 CN200610109851 CN 200610109851 CN 200610109851 A CN200610109851 A CN 200610109851A CN 101075981 A CN101075981 A CN 101075981A
Authority
CN
China
Prior art keywords
contact method
information
sent
rubbish
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610109851
Other languages
English (en)
Inventor
王欣磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 200610109851 priority Critical patent/CN101075981A/zh
Publication of CN101075981A publication Critical patent/CN101075981A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息过滤的方法,设置垃圾联系方式数据库,该方法包括以下步骤:A.判断待发送信息中是否携带联系方式,如果携带,则执行步骤B;否则,执行步骤D;B.提取所述待发送信息中携带的联系方式,判断垃圾联系方式数据库中是否存在相同的联系方式,如果存在,则执行步骤C;否则,执行步骤D;C.拒绝发送所述待发送信息;结束当前处理流程;D.发送所述待发送信息。另外,本发明还提供了一种信息过滤的装置。本发明所提供的方法及装置,由于利用广告信息所必需要传达的、并且不会经常变更的联系方式对信息进行过滤,因此能够成功对信息进行过滤,阻止广告信息在聊天室中传播、降低了广告信息的漏判率和误判率。

Description

一种信息过滤的方法及装置
技术领域
本发明涉及互联网技术,尤指一种信息过滤的方法及装置。
背景技术
在目前的聊天室广告过滤方法中,通常采用的是关键字过滤的方法,对发送到聊天室的聊天信息进行过滤。关键字过滤的方法通过收集在广告信息中经常出现的关键字语,针对发送到聊天室中的每一条聊天信息进行判断,判断聊天信息中是否存在收集的关键字,如果存在,则过滤掉该聊天信息,不发送至聊天室;如果不存在,则将该聊天信息发送至聊天室。
通常情况下,广告信息发送者通过观察、分析被过滤的广告信息,对广告信息的内容进行适当修改,则能够比较容易绕过聊天室中根据关键字过滤广告的方法。例如,通过将被过滤掉的“视频聊天”改为“视屏聊天”,就可以比较容易的绕过关键字过滤方法。广告信息发送者通过发送“视屏聊天”同样能够达到邀请聊天室中其他用户“视频聊天”的目的。
因此,通过关键字过滤的方法,并不能成功的阻止各种类型的广告信息发送到聊天室,如垃圾广告、色情广告等,并且存在很大的漏判率和误判率。
发明内容
有鉴于此,本发明的主要目的在于提供一种信息过滤的方法;
同时,对应于本发明提供的方法,本发明还提供一种信息过滤的装置。
为达到上述目的,本发明的技术方案是这样实现的:
一种信息过滤的方法,设置垃圾联系方式数据库,该方法包括以下步骤:
A、判断待发送信息中是否携带联系方式,如果携带,则执行步骤B;否则,执行步骤D;
B、提取所述待发送信息中携带的联系方式,判断垃圾联系方式数据库中是否存在相同的联系方式,如果存在,则执行步骤C;否则,执行步骤D;
C、拒绝发送所述待发送信息;结束当前处理流程;
D、发送所述待发送信息。
其中,所述设置垃圾联系方式数据库为:预先将各垃圾联系方式记录于垃圾联系方式数据库中。
优选的,设置出现阈值;在步骤B判断得到垃圾联系方式数据库中不存在与所述待发送信息相同的联系方式,进行下一步操作之前,该方法进一步包括:
BD1、将步骤B中提取的联系方式的出现次数上加1,并判断所述联系方式的出现次数是否大于等于出现阈值,如果是,则将步骤B中提取的联系方式记录至垃圾联系方式数据库中,执行步骤C;否则,执行步骤D。
优选的,在步骤D之前,该方法进一步包括:
BD2、对所述待发送信息进行信息过滤,判断是否为广告信息,如果是,则执行步骤C;否则,执行步骤D。
同时作为本发明的一个优选实施方式,在步骤A之前,进一步包括:
a、对所述待发送信息进行信息过滤,判断是否为广告信息,如果是,则执行步骤b;否则,执行所述步骤A;
b、提取所述待发送信息中的联系方法,将提取出的联系方式记录至垃圾联系方式数据库,执行步骤C。
优选的,设置出现阈值;在步骤B判断得到垃圾联系方式数据库中不存在与所述待发送信息相同的联系方式,进行下一步操作之前,该方法进一步包括:
BD2、将步骤B中提取的联系方式的出现次数上加1,并判断所述联系方式的出现次数是否大于等于出现阈值,如果是,则将步骤B中提取的联系方式记录至垃圾联系方式数据库中,执行步骤C;否则,执行步骤D。
其中,使用正则表达式执行所述判断的操作。
其中,使用特征抽取技术提取待发送信息中的联系方式。
另外,本发明还提供了一种信息过滤的装置,该装置包括:联系方式过滤单元和垃圾联系方式存储单元;其中,
联系方式过滤单元,用于判断待发送信息中是否携带联系方式,发送没有携带联系方式的待发送信息;提取待发送信息中的联系方式,并根据垃圾联系方式存储单元中存储的垃圾联系方式,判断所述待发送信息中是否存在相同的联系方式,发送不存在相同联系方式的待发送信息,拒绝发送存在相同联系方式的待发送信息;
垃圾联系方式存储单元,用于存储垃圾联系方式。
另外,该装置进一步包括:信息过滤单元;信息过滤单元与联系方式过滤单元相连;
所述信息过滤单元位于联系方式过滤单元的输入端,用于预先判断待发送信息是否为广告信息,发送不为广告信息的待发送信息至联系方式过滤单元;拒绝发送为广告信息的待发送信息,并指示联系方式过滤单元将该待发送信息中的联系方式记录为垃圾联系方式;相应的,
联系方式过滤单元,进一步用于根据信息过滤单元的指示,提取为广告信息的待发送信息中的联系方式,并记录至垃圾联系方式存储单元;
或,
所述信息过滤单元位于联系方式过滤单元的输出端,用于接收联系方式过滤单元发送的待发送信息,并判断联系方式过滤单元发送来的待发送信息是否为广告信息,发送不是广告信息的待发送信息;拒绝发送是广告信息的待发送信息。
其中,联系方式过滤单元,进一步用于记录垃圾联系方式存储单元中不存在的联系方式的出现次数,并在联系方式的出现次数大于等于出现阈值时,将该联系方式记录至垃圾联系方式存储单元。
本发明所提供的一种信息过滤的方法,通过设置垃圾联系方式数据库,在发送待发送信息时,判断待发送信息中是否存在联系方式,提取存在联系方式的待发送信息中的联系方式,并判断提取出的联系方式是否存在与垃圾联系方式数据库中,如果存在,则拒绝发送当前待发送信息;否则,发送当前待发送信息。另外,本发明还提供了一种信息过滤的装置。本发明所提供的方法及装置,由于利用广告信息所必需传达的、并且不会经常变更的联系方式对信息进行过滤,因此能够成功并有效的过滤广告信息,阻止广告信息在聊天室中传播、降低了广告信息的漏判率和误判率。
附图说明
图1为本发明实施例一方法的流程图;
图2为本发明实施例一装置的结构图;
图3为本发明实施例二方法的流程图;
图4为本发明实施例三方法的流程图;
图5为本发明实施例三装置的结构图;
图6为本发明实施例四方法的流程图;
图7为本发明实施例四装置的结构图;
图8为本发明实施例五方法的流程图。
具体实施方式
通过分析发送至聊天室的广告信息的特征,发现由于发送广告信息的目的在于宣传产品,因此广告信息中均会携带联系方式,用于告知需要该产品的用户如何获得该产品。在广告信息中通常携带的联系方式是:某个网站的网址、电话号码、电子邮箱等。
因此,在本发明中,将具有广告特征的联系方式称为垃圾联系方式。具有广告特征的联系方式是指,出现在广告信息中的联系和/或多次出现在聊天室中的联系方式。本发明通过判断待发送信息中是否携带垃圾联系方式,来判断待发送信息是否为广告信息,进而拒绝发送携带垃圾联系方式的信息,来阻止广告信息在聊天室中传播。
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明做进一步的详细说明。
实施例一
实施例一方法的流程如图1所示。在执行图1所示的流程之前,需要设置垃圾联系方式数据库,用来保存垃圾联系方式。垃圾联系方式数据库中的垃圾联系方式可以是聊天室管理员通过观察聊天室中发送的信息,预先配置到垃圾联系方式数据库中,并且在聊天室不断工作的过程中向垃圾联系方式数据库中加入新的垃圾联系方式。
图1所示的流程具体为:
步骤101:聊天系统收到待发送到聊天室中的信息;
在本发明中,将步骤101中所描述的信息称为待发送信息。
步骤102:聊天系统判断当前收到的待发送信息中,是否携带联系方式,如果携带,则执行步骤103;否则,执行步骤106。
这里,判断待发送信息中是否携带联系方式,可以通过正则表达式的方式进行判断。正则表达式是一种通过抽象的表达方式来帮助聊天系统从信息中提取出联系方式。例如,针对电话号码可以用正则表达式来匹配连续的6个以上、12个以下的不包含间隔符的数字。这样不管电话号码是什么,都可以提取出来。
步骤103:聊天系统从待发送信息中提取携带的联系方式。
较佳的,聊天系统采用特征抽取技术从待发送信息中提取携带的联系方式。
特征抽取技术的目的是为了从表现形式不同的联系方式中提取真实的联系方式。例如,从1-2-3-4-5-6-7-8这样的号码形式中提取真实有效的电话号码12345678。这种提取技术包括两种:除噪技术和转换技术。除噪技术的主要目的是将在联系方式中插入的一些为迷惑过滤装置的字符去掉,例如“-”、“.”等。转换技术,就是把联系方式中的不同表现形式转化成同一种表现形式。例如,将中文数字、GB码的阿拉伯数字等统一转换为ASC码的阿拉伯数字;将网址里面可能采用的包括简体或繁体中文转换成ASC码的字符形式,比如把“www点xxx点com”里面的“点”,其中的“点”也可能表现为“。”或者“點”,均转换成“.”的形式。
利用特征抽取技术可以真实的反映信息中携带的联系方式,与之相应的,在垃圾联系方式数据库中需要根据所采用的特征抽取技术配置垃圾联系方式,以免产生提取出来的联系方式的格式与配置的垃圾联系方式不符的情况,影响过滤效果。
当然,从待发送信息中提取携带的联系方式的方法,也可以采用普通的抽取技术,例如,从信息中抽取的电话号码为:1-2-3-4-5-6-7-8。由于普通抽取技术不从提取的联系方式中,再次提取真实的联系方法,因此会被联系方式的不同表现形式绕过,进而采用普通抽取技术的过滤效果不如采用特征抽取技术的过滤效果好。
步骤104:判断垃圾联系方式数据库中是否存在与步骤103中提取的联系方式匹配的垃圾联系方式,如果存在,则执行步骤105;否则,执行步骤106。
在垃圾联系方式数据库中保存的垃圾联系方式可以就是联系方式本身,也可以是根据联系方式转换的另外一种表现形式。
步骤105:当前待发送信息为广告信息,拒绝发送当前待发送信息。
也就是,不将当前待发送信息发送至聊天室,可以将该待发送信息丢弃,也可以进行其他处理,同时结束当前处理流程。
步骤106:将当前待发送信息发送至聊天室。
图2是与实施例一所述方法对应的信息过滤装置的结构示意图。
该信息过滤的装置包括:联系方式过滤单元21和垃圾联系方式存储单元22。该信息过滤装置位于聊天系统内。
其中,联系方式过滤单元21,用于判断待发送信息中是否携带联系方式,发送没有携带联系方式的待发送信息;提取待发送信息中的联系方式,并根据垃圾联系方式存储单元22中存储的垃圾联系方式,判断所述待发送信息是否存在相同的联系方式,发送不存在相同联系方式的待发送信息,拒绝发送存在相同联系方式的待发送信息。
垃圾联系方式存储单元22,用于存储垃圾联系方式,垃圾联系方式数据库位于垃圾联系方式存储单元22内。
实施例二
本实施例中描述的信息过滤方法与实施例一中描述的信息过滤方法的区别在于,在实施例一中,垃圾联系方式数据库中的垃圾联系方式是依靠管理员配置的,而在本实施例中,是通过聊天系统对信息的分析,将符合垃圾联系方式要求的联系方式配置到垃圾联系方式数据库。
为了实现实施例二的信息过滤方法,除了需要与实施例一相同,设置垃圾联系方式数据库;还需要设置出现阈值。出现阈值用于当某联系方式的出现次数超过出现阈值时,将该联系方式作为垃圾联系方式记录于垃圾联系方式数据库中。其中,出现阈值的单位是次数,具体出现阈值的设置可以根据网络环境的需要、以及经验进行设置。
实施例二中的信息过滤方法的流程如图3所示,具体步骤如下:
步骤301:聊天系统收到待发送到聊天室中的信息。
步骤302:聊天系统判断当前收到的待发送信息中,是否携带联系方式,如果携带,则执行步骤303;否则,执行步骤309。
这里,具体的判断方法与实施例一中的步骤102所述相同,在此不再详述。
步骤303:聊天系统从待发送信息中提取携带的联系方式。
本步骤的具体实现方式与实施例一中的步骤103相同,在此不再详述。
步骤304:判断垃圾联系方式数据库中是否存在与步骤303中提取的联系方式匹配的垃圾联系方式,如果存在,则执行步骤308;否则,执行步骤305。
步骤305:判断该联系方式是否第一次出现在聊天系统中,如果是,则记录该联系方式,并在该联系方式的出现次数上加1;否则,如果聊天系统已经记录了该联系方式,则不需要重复记录该联系方式,只需在该联系方式的出现次数上加1即可。这里,每个联系方式的初始出现次数设置为0。
步骤306:判断当前联系方式的当前出现次数是否大于等于出现阈值,如果是,则执行步骤307;否则,执行步骤309。
步骤307:将当前联系方式作为垃圾联系方式记录于垃圾联系方式数据库中。
步骤308:当前待发送信息为广告信息,拒绝发送当前待发送信息。结束当前处理流程。
步骤309:将当前待发送信息发送至聊天室。
另外,与实施例二所述方法对应的信息过滤装置的结构与实施例一中描述的装置结构大致上相同,区别在于,联系方式过滤单元21进一步用于记录垃圾联系方式存储单元22中不存在的联系方式的出现次数,并在联系方式的出现次数大于等于出现阈值时,将该联系方式记录至垃圾联系方式存储单元22,即将该联系方式记录至垃圾联系方式数据库中。
实施例三
在发明中除了可以仅依靠垃圾联系方式对待发送信息进行过滤,还可以在用垃圾联系方式对待发送信息进行过滤之后,还利用常用的信息过滤方法对待发送的信息进行进一步的过滤。在本发明中,将常用的信息过滤方法统称为信息过滤方法,而将本发明中用到的基于垃圾联系方式的过滤方法称为垃圾联系方式过滤方法。具体为:
在实施例一和实施例二所述方法中,发送待发送信息之前,进一步用信息过滤方法对通过垃圾联系方式过滤的信息进行预先过滤,判断是否为广告信息,如果是,则过滤该信息;否则,发送当前通过信息过滤的信息。
图4是本发明实施例三方法流程图:
步骤401~407的具体实现过程与步骤301~307的具体实现过程相同,只是在步骤402中,当待发送信息中没有携带联系方式时,执行步骤408;以及在步骤406中,当待发送信息中携带的联系方式的出现次数小于出现阈值,执行步骤408。
步骤408:对当前待发送信息进行信息过滤,判断当前待发送信息是否为广告信息,如果是,则执行步骤409;否则,执行步骤410。
步骤409:拒绝发送当前待发送信息,结束当前处理流程。
步骤410:发送当前待发送信息。
图5是与本发明实施例三方法对应的信息过滤装置示意图,所述信息过滤装置包括联系方式过滤单元21、垃圾联系方式存储单元22和信息过滤单元53。
其中,联系方式过滤单元21用于判断待发送信息中是否携带联系方式,发送没有携带联系方式的待发送信息;提取待发送信息中的联系方式,并根据垃圾联系方式存储单元22中存储的垃圾联系方式,判断所述待发送信息是否存在相同的联系方式,发送不存在相同联系方式的待发送信息至信息过滤单元53,拒绝发送存在相同联系方式的待发送信息。
联系方式过滤单元21进一步用于记录垃圾联系方式存储单元22中不存在的联系方式的出现次数,并在联系方式的出现次数大于等于出现阈值时,将该联系方式记录至垃圾联系方式存储单元22。
垃圾联系方式存储单元22,用于存储垃圾联系方式,所述垃圾联系方式数据库位于垃圾联系方式存储单元22内。
所述信息过滤单元53位于联系方式过滤单元21的输出端,用于判断联系方式过滤单元21发送来的待发送信息是否为广告信息,发送不是广告信息的待发送信息;拒绝发送是广告信息的待发送信息。
实施例四
在实施例二和实施例三中描述的记录垃圾联系方式的方法是,利用出现阈值,将出现次数大于等于出现阈值的联系方式记录为垃圾联系方式。在实施例四中,不采用这种垃圾联系方式记录的方法,而是利用常用的信息过滤方法先对信息进行过滤,从过滤得到的广告信息中获取联系方式并记录垃圾联系方式。具体的实现方法如图6所示,详细介绍如下:
步骤601:聊天系统收到待发送到聊天室中的信息。
步骤602:利用常用的信息过滤方法对当前待发送信息进行过滤,判断当前待发送信息是否为广告信息,如果是,则执行步骤606;否则,执行步骤603。
步骤603:聊天系统判断当前收到的待发送信息中,是否携带联系方式,如果携带,则执行步骤604;否则,执行步骤609。
这里,具体的判断方法与实施例一中的步骤102所述相同,在此不再详述。
步骤604:聊天系统从待发送信息中提取携带的联系方式。
本步骤的具体实现方式与实施例一中的步骤103相同,在此不再详述。
步骤605:判断垃圾联系方式数据库中是否存在与步骤604中提取的联系方式匹配的垃圾联系方式,如果存在,则执行步骤608;否则,执行步骤609。
步骤606~607:聊天系统从待发送信息中提取携带的联系方式,并将提取出的联系方式作为垃圾联系方式记录到垃圾联系方式数据库中。
在本发明中,假设的是广告信息均会携带联系方式,因此在从步骤602执行到步骤606时,不用判断当前待发送信息中是否携带联系方式,只要是广告信息其中则必定会携带联系方式。因此,为了使本发明的技术方案适用于更为广泛的应用场合,也就是在广告信息中不一定携带联系方式的场合,则可以在步骤602和步骤606之间,进一步包括:判断当前待发送信息中是否携带联系方式,如果携带联系方式,则执行步骤606~607;否则,不执行步骤606~607,直接执行步骤608。
步骤608:拒绝发送当前待发送信息,结束当前处理流程。
步骤609:发送当前待发送信息。
图7是与本发明实施例四所述方法对应的信息过滤装置示意图,该信息过滤装置包括联系方式过滤单元21、垃圾联系方式存储单元22和信息过滤单元73。
其中,信息过滤单元73位于联系方式过滤单元21的输入端,用于判断待发送信息是否为广告信息,发送不为广告信息的待发送信息至联系方式过滤单元21;拒绝发送为广告信息的待发送信息,并指示联系方式过滤单元21将为广告信息的待发送信息中的联系方式记录为垃圾联系方式。
联系方式过滤单元21,用于判断不为广告信息的待发送信息中是否携带联系方式,发送没有携带联系方式的待发送信息;提取待发送信息中的联系方式,并根据垃圾联系方式存储单元22中存储的垃圾联系方式,判断所述待发送信息是否存在相同的联系方式,发送不存在相同联系方式的待发送信息,拒绝发送存在相同联系方式的待发送信息。
联系方式过滤单元21,进一步用于根据信息过滤单元75的指示,提取为广告信息的待发送信息中的联系方式,并将该联系方式记录至垃圾联系方式存储单元22。
垃圾联系方式存储单元22,用于存储垃圾联系方式。即垃圾联系方式数据库位于垃圾联系方式存储单元22内。
实施例五
实施例五描述的信息过滤方法,同时利用了实施例二基于出现阈值记录垃圾联系方式的方法、以及实施例四中基于广告信息记录垃圾联系方式的方法,现对本实施例的信息过滤方法具体描述如下,实施例五所述方法的流程如图8所示。
步骤801:聊天系统收到待发送到聊天室中的信息。
步骤802:利用常用的信息过滤方法对当前待发送信息进行过滤,判断当前待发送信息是否为广告信息,如果是,则执行步骤809;否则,执行步骤803。
步骤803:聊天系统判断当前收到的待发送信息中,是否携带联系方式,如果携带,则执行步骤804;否则,执行步骤812。
这里,具体的判断方法与实施例一中的步骤102所述相同,在此不再详述。
步骤804:聊天系统从待发送信息中提取携带的联系方式。
本步骤的具体实现方式与实施例一中的步骤103相同,在此不再详述。
步骤805:判断垃圾联系方式数据库中是否存在与步骤804中提取的联系方式匹配的垃圾联系方式,如果存在,则执行步骤811;否则,执行步骤806。
步骤806:判断该联系方式是否第一次出现在聊天系统中,如果是,则记录该联系方式,并在该联系方式的出现次数上加1;否则,则聊天系统已经记录了该联系方式,本次则不需要重复记录该联系方式,只需在该联系方式的出现次数上加1即可。
步骤807:判断当前联系方式的当前出现次数是否大于等于出现阈值,如果是,执行步骤808;否则,执行步骤812。
步骤808:将当前联系方式作为垃圾联系方式记录于垃圾联系方式数据库中,执行步骤811。
步骤809~810:聊天系统从待发送信息中提取携带的联系方式,并将提取出的联系方式作为垃圾联系方式记录到垃圾联系方式数据库中。
在步骤809~810之前,也可以与实施例四中步骤606~607的处理方式相同,在步骤809之前,进一步包括:判断当前待发送信息中是否携带联系方式,如果携带联系方式,则执行步骤809~810;否则,不执行步骤809~810,直接执行步骤811。
步骤811:当前待发送信息为广告信息,拒绝发送当前待发送信息。结束当前处理流程。
步骤812:将当前待发送信息发送至聊天室。
与实施例五所述方法对应的信息过滤装置示意图与实施例四中描述的装置结构大致上相同,区别在于,联系方式过滤单元21进一步用于记录垃圾联系方式存储单元22中不存在的联系方式的出现次数,并在联系方式的出现次数大于等于出现阈值时,将该联系方式记录至垃圾联系方式存储单元22,即将该联系方式记录至垃圾联系方式数据库中。
通过应用本发明所提供信息过滤方法以及装置,利用广告信息所携带的联系方式对待发送信息进行过滤,有效的阻止了广告信息在聊天室中的传送,提高了聊天系统过滤广告的能力,降低了漏判率和误判率。
本发明所描述过滤广告信息的方法及装置,还可以应用到任何其他希望过滤掉携带联系方式的信息的场合中。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1、一种信息过滤的方法,其特征在于,设置垃圾联系方式数据库,该方法包括以下步骤:
A、判断待发送信息中是否携带联系方式,如果携带,则执行步骤B;否则,执行步骤D;
B、提取所述待发送信息中携带的联系方式,判断垃圾联系方式数据库中是否存在相同的联系方式,如果存在,则执行步骤C;否则,执行步骤D;
C、拒绝发送所述待发送信息;结束当前处理流程;
D、发送所述待发送信息。
2、根据权利要求1所述的方法,其特征在于,所述设置垃圾联系方式数据库为:预先将各垃圾联系方式记录于垃圾联系方式数据库中。
3、根据权利要求1所述的方法,其特征在于,设置出现阈值;
在步骤B判断得到垃圾联系方式数据库中不存在与所述待发送信息相同的联系方式,进行下一步操作之前,该方法进一步包括:
BD1、将步骤B中提取的联系方式的出现次数上加1,并判断所述联系方式的出现次数是否大于等于出现阈值,如果是,则将步骤B中提取的联系方式记录至垃圾联系方式数据库中,执行步骤C;否则,执行步骤D。
4、根据权利要求1、2或3所述的方法,其特征在于,在步骤D之前,该方法进一步包括:
BD2、对所述待发送信息进行信息过滤,判断是否为广告信息,如果是,则执行步骤C;否则,执行步骤D。
5、根据权利要求1所述的方法,其特征在于,步骤A之前进一步包括:
a、对所述待发送信息进行信息过滤,判断是否为广告信息,如果是,则执行步骤b;否则,执行所述步骤A;
b、提取所述待发送信息中的联系方法,将提取出的联系方式记录至垃圾联系方式数据库,执行步骤C。
6、根据权利要求5所述的方法,其特征在于,设置出现阈值;
在步骤B判断得到垃圾联系方式数据库中不存在与所述待发送信息相同的联系方式,进行下一步操作之前,该方法进一步包括:
BD2、将步骤B中提取的联系方式的出现次数上加1,并判断所述联系方式的出现次数是否大于等于出现阈值,如果是,则将步骤B中提取的联系方式记录至垃圾联系方式数据库中,执行步骤C;否则,执行步骤D。
7、根据权利要求1、2、3、5或6所述的方法,其特征在于,使用正则表达式执行所述判断操作;
使用特征抽取技术提取待发送信息中的联系方式。
8、一种信息过滤的装置,其特征在于,该装置包括:联系方式过滤单元和垃圾联系方式存储单元;其中,
联系方式过滤单元,用于判断待发送信息中是否携带联系方式,发送没有携带联系方式的待发送信息;提取待发送信息中的联系方式,并根据垃圾联系方式存储单元中存储的垃圾联系方式,判断所述待发送信息中是否存在相同的联系方式,发送不存在相同联系方式的待发送信息,拒绝发送存在相同联系方式的待发送信息;
垃圾联系方式存储单元,用于存储垃圾联系方式。
9、根据权利要求8所述的装置,其特征在于,该装置进一步包括:信息过滤单元;信息过滤单元与联系方式过滤单元相连;
所述信息过滤单元位于联系方式过滤单元的输入端,用于预先判断待发送信息是否为广告信息,发送不为广告信息的待发送信息至联系方式过滤单元;拒绝发送为广告信息的待发送信息,并指示联系方式过滤单元将该待发送信息中的联系方式记录为垃圾联系方式;相应的,
联系方式过滤单元,进一步用于根据信息过滤单元的指示,提取为广告信息的待发送信息中的联系方式,并记录至垃圾联系方式存储单元;
或,
所述信息过滤单元位于联系方式过滤单元的输出端,用于接收联系方式过滤单元发送的待发送信息,并判断联系方式过滤单元发送来的待发送信息是否为广告信息,发送不是广告信息的待发送信息;拒绝发送是广告信息的待发送信息。
10、根据权利要求8或9所述的装置,其特征在于,
联系方式过滤单元,进一步用于记录垃圾联系方式存储单元中不存在的联系方式的出现次数,并在联系方式的出现次数大于等于出现阈值时,将该联系方式记录至垃圾联系方式存储单元。
CN 200610109851 2006-08-18 2006-08-18 一种信息过滤的方法及装置 Pending CN101075981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610109851 CN101075981A (zh) 2006-08-18 2006-08-18 一种信息过滤的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610109851 CN101075981A (zh) 2006-08-18 2006-08-18 一种信息过滤的方法及装置

Publications (1)

Publication Number Publication Date
CN101075981A true CN101075981A (zh) 2007-11-21

Family

ID=38976807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610109851 Pending CN101075981A (zh) 2006-08-18 2006-08-18 一种信息过滤的方法及装置

Country Status (1)

Country Link
CN (1) CN101075981A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256242A (zh) * 2011-04-14 2011-11-23 中兴通讯股份有限公司 一种处理业务应用的系统和方法
CN102315953A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 基于帖子的出现规律来检测垃圾帖子的方法及设备
WO2012019540A1 (zh) * 2010-08-11 2012-02-16 腾讯科技(深圳)有限公司 一种文件传输处理方法、终端和系统
CN102567534A (zh) * 2011-12-31 2012-07-11 凤凰在线(北京)信息技术有限公司 互动产品用户生成内容拦截系统及其拦截方法
CN102572745A (zh) * 2010-12-24 2012-07-11 中国移动通信集团上海有限公司 垃圾短消息确定方法及装置
CN102724165A (zh) * 2011-03-29 2012-10-10 海尔集团公司 终端通信的控制方法和装置、以及管理服务器
CN103136346A (zh) * 2013-02-07 2013-06-05 珠海市君天电子科技有限公司 一种鉴定微博虚假广告的方法
CN103152347A (zh) * 2013-03-13 2013-06-12 珠海市君天电子科技有限公司 一种对微博虚假广告进行提示的方法
CN103200182A (zh) * 2013-03-13 2013-07-10 珠海市君天电子科技有限公司 一种标识传播虚假广告的微博营销账号的方法
CN104156447A (zh) * 2014-08-14 2014-11-19 天格科技(杭州)有限公司 一种智能社交平台广告预警及处理方法
CN105554715A (zh) * 2015-12-28 2016-05-04 小米科技有限责任公司 垃圾信息拦截方法、装置及系统
CN105812188A (zh) * 2016-04-25 2016-07-27 北京网康科技有限公司 流量识别方法及装置
CN103581844B (zh) * 2012-07-26 2017-05-17 中兴通讯股份有限公司 一种信息下发控制方法、装置及系统
CN107809410A (zh) * 2016-09-09 2018-03-16 腾讯科技(深圳)有限公司 信息过滤方法及装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315953A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN102315953B (zh) * 2010-06-29 2016-08-03 百度在线网络技术(北京)有限公司 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN102377684B (zh) * 2010-08-11 2015-08-19 腾讯科技(深圳)有限公司 一种自动阻断色情视频文件传输的方法、终端和系统
WO2012019540A1 (zh) * 2010-08-11 2012-02-16 腾讯科技(深圳)有限公司 一种文件传输处理方法、终端和系统
CN102377684A (zh) * 2010-08-11 2012-03-14 腾讯科技(深圳)有限公司 一种自动阻断色情视频文件传输的方法、终端和系统
CN102572745A (zh) * 2010-12-24 2012-07-11 中国移动通信集团上海有限公司 垃圾短消息确定方法及装置
CN102724165A (zh) * 2011-03-29 2012-10-10 海尔集团公司 终端通信的控制方法和装置、以及管理服务器
CN102256242A (zh) * 2011-04-14 2011-11-23 中兴通讯股份有限公司 一种处理业务应用的系统和方法
WO2012139324A1 (zh) * 2011-04-14 2012-10-18 中兴通讯股份有限公司 一种处理业务应用的系统和方法
CN102256242B (zh) * 2011-04-14 2015-06-03 中兴通讯股份有限公司 一种处理业务应用的系统和方法
CN102567534A (zh) * 2011-12-31 2012-07-11 凤凰在线(北京)信息技术有限公司 互动产品用户生成内容拦截系统及其拦截方法
CN102567534B (zh) * 2011-12-31 2014-02-19 凤凰在线(北京)信息技术有限公司 互动产品用户生成内容拦截系统及其拦截方法
CN103581844B (zh) * 2012-07-26 2017-05-17 中兴通讯股份有限公司 一种信息下发控制方法、装置及系统
CN103136346A (zh) * 2013-02-07 2013-06-05 珠海市君天电子科技有限公司 一种鉴定微博虚假广告的方法
CN103200182B (zh) * 2013-03-13 2016-01-27 珠海市君天电子科技有限公司 一种标识传播虚假广告的微博营销账号的方法
CN103200182A (zh) * 2013-03-13 2013-07-10 珠海市君天电子科技有限公司 一种标识传播虚假广告的微博营销账号的方法
CN103152347B (zh) * 2013-03-13 2016-11-16 珠海市君天电子科技有限公司 一种对微博虚假广告进行提示的方法
CN103152347A (zh) * 2013-03-13 2013-06-12 珠海市君天电子科技有限公司 一种对微博虚假广告进行提示的方法
CN104156447A (zh) * 2014-08-14 2014-11-19 天格科技(杭州)有限公司 一种智能社交平台广告预警及处理方法
CN104156447B (zh) * 2014-08-14 2016-08-24 天格科技(杭州)有限公司 一种智能社交平台广告预警及处理方法
CN105554715A (zh) * 2015-12-28 2016-05-04 小米科技有限责任公司 垃圾信息拦截方法、装置及系统
CN105554715B (zh) * 2015-12-28 2019-07-23 小米科技有限责任公司 垃圾信息拦截方法、装置及系统
CN105812188A (zh) * 2016-04-25 2016-07-27 北京网康科技有限公司 流量识别方法及装置
CN107809410A (zh) * 2016-09-09 2018-03-16 腾讯科技(深圳)有限公司 信息过滤方法及装置
CN107809410B (zh) * 2016-09-09 2019-03-08 腾讯科技(深圳)有限公司 信息过滤方法及装置

Similar Documents

Publication Publication Date Title
CN101075981A (zh) 一种信息过滤的方法及装置
CN1103518C (zh) 数据发送/接收装置
CN1199125C (zh) 网络服务系统和方法
CN1573782A (zh) 先进的垃圾邮件侦测技术
CN1592229A (zh) 基于url的电子通讯和网页过滤
CN101075253A (zh) 一种广告信息推送系统和方法
CN1941748A (zh) 一种群组消息发送方法及发送客户端和系统
CN1929472A (zh) 数据网络中管理数据传输的方法、系统、信号及介质
CN1877598A (zh) 手机中使用图像识别进行名片信息的采集与录入的方法
CN101076032A (zh) 一种信息推送系统和方法
CN1926532A (zh) 能用给定的访问方法进行数据发送的数据处理装置
CN101039369A (zh) 电子邮件编辑设备、图像形成装置以及电子邮件编辑方法
CN1905408A (zh) 一种消息监控的方法和装置
CN101035090A (zh) 一种进行即时通信的方法
CN1929454A (zh) 一种即时通信中即时消息的显示方法
CN101043656A (zh) 一种垃圾短信可疑用户监控方法和系统
CN101079798A (zh) 网络地址转换方法及实现访问控制列表的方法
CN100337231C (zh) 结构化文档处理器和结构化文档处理方法
CN1195284C (zh) 图像处理设备
CN101079043A (zh) 一种上下文广告的处理方法及广告服务器
CN1941722A (zh) 通过探测客户端维护dhcp安全特性表的方法与装置
CN101043322A (zh) 电子设备及其通信控制方法
CN1525368A (zh) 服务处理系统及其程序
CN1960377A (zh) Ap与ac的连接处理方法、ap、计算机软件产品及设备
CN102510563A (zh) 一种移动互联网恶意软件检测的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20071121