CN101079877A - 对通讯系统中的通讯信息进行过滤的方法和过滤系统 - Google Patents

对通讯系统中的通讯信息进行过滤的方法和过滤系统 Download PDF

Info

Publication number
CN101079877A
CN101079877A CN 200610099120 CN200610099120A CN101079877A CN 101079877 A CN101079877 A CN 101079877A CN 200610099120 CN200610099120 CN 200610099120 CN 200610099120 A CN200610099120 A CN 200610099120A CN 101079877 A CN101079877 A CN 101079877A
Authority
CN
China
Prior art keywords
communication information
content
information
filtercondition
flexible form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610099120
Other languages
English (en)
Inventor
王欣磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 200610099120 priority Critical patent/CN101079877A/zh
Publication of CN101079877A publication Critical patent/CN101079877A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种对通讯系统中的通讯信息进行过滤的方法和过滤系统,该过滤系统包括:后台管理模块,用于提供输入设置接口;数据库,用于存储过滤条件及其变通形式信息;前台过滤模块,具体包括匹配模块和过滤模块。所述方法包括:预设过滤条件及其对应的变通形式信息;按照过滤条件以及变通形式对当前传输的通讯信息的内容进行匹配,如果所述通讯信息的内容与所述过滤条件或者过滤条件的变通形式匹配,则过滤该通讯信息。利用本发明,可以降低对过滤信息的漏判率和误判率。

Description

对通讯系统中的通讯信息进行过滤的方法和过滤系统
技术领域
本发明涉及通讯信息处理技术,尤其涉及对通讯系统中的通讯信息进行过滤的方法和过滤系统。
背景技术
近年来,通讯技术飞速的发展,各种通讯系统的发明使用大大方便了人们的相互交流。例如有线、无线电话系统,互联网系统等可以非常方便地收发通讯信息。
但是,在大量的通讯信息中,其中有相当一部分为垃圾信息。例如互联网系统中的网上聊天室是网民在互联网上聚集在一起聊天的虚拟场所,在网上聊天室中,往往充斥着许多聊天室广告,所述聊天室广告为广告发送者作为聊天用户在网上聊天室里通过发送带有广告信息的聊天信息来吸引聊天用户访问,聊天室广告大多带有色情和欺骗性质,大部分属于垃圾信息,并且很多是采用广告发送程序来发送,导致聊天室里广告泛滥,影响正常的聊天秩序。针对这种情况,目前出现了针对聊天室广告的过滤技术,目前采用比较多的是单纯的关键字过滤技术或正则表达式过滤技术,即通过收集在广告中经常出现的关键词语和信息,对这些信息设置正则表达式,针对每一句聊天内容使用关键词语或正则表达式来进行匹配,从而判断是否有这些关键词语和正则表达式匹配的信息在聊天内容中,如果有,就过滤掉这句聊天内容。
现有过滤技术的缺陷在于:
由于聊天室采用了一些基于内容的过滤方法来过滤聊天室的广告,因此广告发送者为了躲避这些过滤的方法,达到他们发送广告的目的,采用了一些躲避过滤的技巧。这些躲避过滤的技巧主要的目的有两个方面,一方面需要能够改变广告信息内容的表现形式,从而能够使得这些广告信息不会被关键字或者正则表达式所过滤掉。另一方面,广告发送者需要确保广告信息要表达的内容没有被改变。也就是要确保聊天用户还是能够看懂广告信息所要表达的意思。以下两个例子比较好的体现了上述两方面,比如针对过滤网址的正则表达式过滤,广告发送就会采用“www点xx点com”的方式来表达他们的网址,这样就不会被网址正则表达式过滤掉;再如,一些广告中有“色情视频聊天”的词,如果把“色情视频聊天”作为过滤关键字进行过滤,而真正的广告发送者可能把这个关键词改成“色情视屏聊天”,从而避免被过滤。
因此,现有的单纯的基于文字的过滤技术存在着较高的漏判率和误判率。
发明内容
有鉴于此,本发明的主要目的在于提供一种对通讯系统中的通讯信息进行过滤的方法,可以降低对过滤信息的漏判率和误判率。
对应于本发明所提供的一种对通讯系统中的通讯信息进行过滤的方法,本发明还提供一种对通讯信息进行过滤的过滤系统,以降低对过滤信息的漏判率和误判率。
为了实现上述发明目的,本发明的主要技术方案为:
一种对通讯系统中的通讯信息进行过滤的方法,该方法包括:
预设过滤条件及其对应的变通形式信息;按照过滤条件以及变通形式对当前传输的通讯信息的内容进行匹配,如果所述通讯信息的内容与所述过滤条件或过滤条件的变通形式匹配,则过滤该通讯信息。
优选地,该方法进一步包括:预设针对所述过滤条件变通形式的特例信息,在所述通讯信息的内容能够匹配所述过滤条件的变通形式时,则再判断该通讯信息的内容是否与所述特例信息匹配,如果是,则不过滤所述通讯信息,否则,过滤所述通讯信息。
优选地,所述通讯信息的内容与所述特例信息匹配是指:通讯信息内容中包括符合所述特例信息的内容。
优选地,所述的过滤条件为:关键字和或正则表达式。
优选地,在所述过滤条件为关键字的情况下,所述通讯信息内容与所述关键字匹配是指:通讯信息内容中包括所述关键字;所述通讯信息内容与所述关键字变通形式匹配是指:通讯信息内容中包括所述关键字的变通形式;在所述过滤条件为正则表达式的情况下,所述通讯信息内容与所述正则表达式匹配是指:通讯信息内容中包括符合所述正则表达式的内容;所述通讯信息内容与所述正则表达式的变通形式匹配是指:通讯信息内容中包括符合所述正则表达式的变通形式的内容。
优选地,所述通讯系统为网上聊天室系统,所述通讯信息为网上聊天室中的聊天信息。
一种对通讯信息进行过滤的过滤系统,该系统包括:
后台管理模块,用于提供输入设置接口,接受过滤条件及其变通形式信息的设置指令;
数据库,用于存储后台管理模块所接受的过滤条件及其变通形式信息;
前台过滤模块,具体包括匹配模块和过滤模块;匹配模块用于读取所述数据库的内容,按照过滤条件及其变通形式对当前传输的通讯信息的内容进行匹配,如果所述通讯信息的内容与所述过滤条件或者过滤条件的变通形式匹配,则触发过滤模块过滤该通讯信息。
优选的,该过滤系统的所述数据库中存储有所述过滤条件变通形式的特例信息,所述前台过滤模块进一步包括判断模块,用于在所述通讯信息的内容与所述过滤条件的变通形式匹配时,则再判断该通讯信息的内容是否与所述特例信息匹配,如果是,则不触发过滤模块进行过滤,否则,触发过滤模块过滤所述通讯信息。
优选的,所述通讯信息为网上聊天室系统中的聊天信息。
优选的,该过滤系统设置在通讯系统的发送端,用于对发送的通讯信息进行过滤;或者,该过滤系统设置在通讯系统的接收端,用于对接收的通讯信息进行过滤;或者,该过滤系统设置在通讯系统的信息中转端,用于对中转的通讯信息进行过滤。
本发明不仅设置了过滤条件,而且还设置了过滤条件的变通形式信息,在过滤时利用过滤条件及其变通形式匹配通讯信息,匹配成功则过滤,因此本发明可以很好地识别出通讯信息中包含变通信息的躲避技巧,从而将这些利用躲避技巧的通讯信息过滤掉,很好地提高了过滤的准确性,降低误判率和漏判率。利用本发明,可以高效地对通讯系统的通讯信息进行过滤,降低了大量垃圾信息的泛滥。
附图说明
图1为本发明所述对通讯系统中的通讯信息进行过滤的方法的流程图;
图2为本发明所述对通讯信息进行过滤的过滤系统的结构图。
具体实施方式
下面通过具体实施例和附图对本发明做进一步详细说明。
本发明可以适用于所有通讯系统中的通讯信息的过滤,以下实施例以互联网的网上聊天室系统为例对本发明进行说明,在该实施例中,所述通讯信息为网上聊天室中的聊天信息,需要过滤的垃圾信息为聊天室广告信息。其他通讯系统,例如即时通讯系统,无线短信系统等等,其实现方法和系统与以下实施例相同,本文不再赘述。
本发明的核心技术方案为:基于文字的变通过滤技术,预设过滤条件及其对应的变通形式信息;按照过滤条件以及变通形式对当前传输的通讯信息的内容进行匹配,如果所述通讯信息的内容与所述过滤条件或者过滤条件的变通形式匹配,则过滤该通讯信息。
所述过滤条件可以为关键字和或正则表达式,例如,关键字为“色情视频聊天”,正则表达式可以为用于匹配网址的正则表达式www.**.com等等。
所述变通形式可以根据广告发送者的过滤躲避技巧内容进行设定,例如:针对关键字“色情视频聊天”,广告发送者采用“色情视屏聊天”的表现形式来发送信息,则该关键字的变通形式可设置为“色情视屏聊天”;针对过滤网址的正则表达式,广告发送者采用“www点xx点com”的表现形式来表达他们的网址,则可以设置一个变通形式的正则表达式来匹配“***点***点***”。
在所述过滤条件为关键字的情况下,所述通讯信息内容与所述关键字匹配是指:通讯信息内容中包括所述关键字;所述通讯信息内容与所述关键字变通形式匹配是指:通讯信息内容中包括所述关键字的变通形式。
在所述过滤条件为正则表达式的情况下,所述通讯信息内容与所述正则表达式匹配是指:通讯信息内容中包括符合所述正则表达式的内容;所述通讯信息内容与所述正则表达式的变通形式匹配是指:通讯信息内容中包括符合所述正则表达式的变通形式的内容。
图1为本发明所述对通讯系统中的通讯信息进行过滤的方法的流程图。参见图1,该流程包括:
步骤101、预设过滤条件及其对应的变通形式信息。
步骤102、接收客户端当前的聊天信息。
在本实施例的网上聊天室系统中,可以在网上聊天室系统的中转服务器侧采用本发明的方法对中转的每条聊天信息进行过滤;也可以在发送客户端上执行本发明的方法,用于对发送的聊天信息进行过滤;或者,也可以在接收客户端上执行本发明的方法,用于对接收的聊天信息进行过滤。不论在发送端、中转端、或接收端,其过滤的效果相同,都可以达到本发明的发明目的。
步骤103、按照过滤条件以及变通形式对当前传输的通讯信息的内容进行匹配,判断所述通讯信息的内容是否与所述过滤条件或者过滤条件的变通形式匹配,如果是,则执行步骤104,否则执行步骤105。
步骤104、判断所述通讯信息的内容是否与预设的、针对所述过滤条件变通形式的特例信息匹配,如果是,则判定该通讯信息不是广告(即垃圾信息)执行步骤105,否则,判定该通讯信息为广告(即垃圾信息),执行步骤106。
本步骤104为可选步骤,如果所设置的过滤条件及其变通形式不够详细,可能会将没有过滤意向的内容过滤掉,例如某个过滤条件的变通形式为用于匹配“***点***点***”的正则表达式,则该正则表达式不光会触发过滤包括类似于“www点xxx点com”网址信息的通讯信息,也可能会触发过滤掉包括类似于“发车时间为:13点到16点30分”的信息,而这些信息是本来不需过滤的正常信息,因此本发明还可设置特例信息,用于检查上述用于判断过滤躲避的变通形式是否会影响到正常的信息,所述通讯信息的内容与所述特例信息匹配是指:通讯信息内容中包括符合所述特例信息的内容。例如针对上述例子,可以设置特例信息为用于匹配“[0-9]{1}点[0-9]{1}点”的正则表达式。如果通讯信息中有可以与所述特例信息匹配的内容,就应该把具备所述特例信息的通讯信息从判断方法里筛选出来,不对其进行过滤,从而进一步降低误判率。
步骤105、发送聊天信息给聊天室的其他用户,接着可以结束流程,也可以返回步骤102对下一条通讯信息进行处理。
步骤106、过滤所述的通讯信息,接着可以结束流程,也可以返回步骤102对下一条通讯信息进行处理。
通常而言,广告发送者采用的针对过滤条件的过滤躲避技巧是一般的聊天用户不会使用的,因此,针对这些躲避技巧信息,可以设定相应的过滤条件变通形式,利用该变通形式再对聊天信息进行判断,就可以判断出该聊天信息是广告信息。
图2为本发明所述对通讯信息进行过滤的过滤系统结构图。参见图2,该系统包括:
后台管理模块21,用于提供输入设置接口,接受过滤条件及其变通形式信息的设置指令。
数据库22,用于存储后台管理模块21所接受的过滤条件及其变通形式信息。
前台过滤模块23,与通讯系统的通讯模块(图2中未示出)连接,对通讯系统的每一条通讯信息的内容进行分析判断。该前台过滤模块23具体包括匹配模块231和过滤模块232;匹配模块231用于读取所述数据库22的内容,按照过滤条件及其变通形式对当前传输的通讯信息的内容进行匹配,如果所述通讯信息的内容与所述过滤条件或者过滤条件的变通形式匹配,则触发过滤模块232过滤该通讯信息。
该过滤系统还可接受所述过滤条件变通形式的特例信息,存储在数据库22中,所述前台过滤模块23进一步包括判断模块233,用于在所述通讯信息的内容能够匹配所述过滤条件的变通形式时,则再判断该通讯信息的内容是否匹配所述特例信息,如果是,则不触发过滤模块232进行过滤,否则,触发过滤模块232过滤所述通讯信息。
上述过滤系统可以设置在通讯系统的发送端,用于对发送的通讯信息进行过滤;或者,该过滤系统设置在通讯系统的接收端,用于对接收的通讯信息进行过滤;或者,该过滤系统设置在通讯系统的信息中转端(例如某些即时通讯系统的中转服务器,或者网上聊天系统的中转服务器),用于对中转的通讯信息进行过滤。
上述实施例所述的过滤系统所设置的通讯系统可以为网上聊天室系统,该过滤系统用于对网上聊天室系统中的聊天信息进行过滤。当然,该过滤系统还可以设置在其它的通讯系统中,例如即时通讯系统,无线短信系统等等,其实现方式与上述实施例相同,本文不再赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1、一种对通讯系统中的通讯信息进行过滤的方法,其特征在于,该方法包括:
预设过滤条件及其对应的变通形式信息;
按照过滤条件以及变通形式对当前传输的通讯信息的内容进行匹配,如果所述通讯信息的内容与所述过滤条件或过滤条件的变通形式匹配,则过滤该通讯信息。
2、根据权利要求1所述的方法,其特征在于,该方法进一步包括:预设针对所述过滤条件变通形式的特例信息,在所述通讯信息的内容与所述过滤条件的变通形式匹配时,则再判断该通讯信息的内容是否与所述特例信息匹配,如果是,则不过滤所述通讯信息,否则,过滤所述通讯信息。
3、根据权利要求2所述的方法,其特征在于,所述通讯信息的内容与所述特例信息匹配是指:通讯信息内容中包括符合所述特例信息的内容。
4、根据权利要求1所述的方法,其特征在于,所述的过滤条件为:关键字和或正则表达式。
5、根据权利要求4所述的方法,其特征在于,
在所述过滤条件为关键字的情况下,所述通讯信息内容与所述关键字匹配是指:通讯信息内容中包括所述关键字;所述通讯信息内容与所述关键字变通形式匹配是指:通讯信息内容中包括所述关键字的变通形式;
在所述过滤条件为正则表达式的情况下,所述通讯信息内容与所述正则表达式匹配是指:通讯信息内容中包括符合所述正则表达式的内容;所述通讯信息内容与所述正则表达式的变通形式匹配是指:通讯信息内容中包括符合所述正则表达式的变通形式的内容。
6、根据权利要求1至5任一项所述的方法,其特征在于,所述通讯系统为网上聊天室系统,所述通讯信息为网上聊天室中的聊天信息。
7、一种对通讯信息进行过滤的过滤系统,其特征在于,该系统包括:
后台管理模块,用于提供输入设置接口,接受过滤条件及其变通形式信息的设置指令;
数据库,用于存储后台管理模块所接受的过滤条件及其变通形式信息;
前台过滤模块,具体包括匹配模块和过滤模块;匹配模块用于读取所述数据库的内容,按照过滤条件及其变通形式对当前传输的通讯信息的内容进行匹配,如果所述通讯信息的内容与所述过滤条件或者过滤条件的变通形式匹配,则触发过滤模块过滤该通讯信息。
8、根据权利要求7所述的过滤系统,其特征在于,该过滤系统的所述数据库中存储有所述过滤条件变通形式的特例信息,所述前台过滤模块进一步包括判断模块,用于在所述通讯信息的内容与所述过滤条件的变通形式匹配时,则再判断该通讯信息的内容是否匹配所述特例信息,如果是,则不触发过滤模块进行过滤,否则,触发过滤模块过滤所述通讯信息。
9、根据权利要求7或8所述的过滤系统,其特征在于,所述通讯信息为网上聊天室系统中的聊天信息。
10、根据权利要求7或8所述的过滤系统,其特征在于,
该过滤系统设置在通讯系统的发送端,用于对发送的通讯信息进行过滤;
或者,该过滤系统设置在通讯系统的接收端,用于对接收的通讯信息进行过滤;
或者,该过滤系统设置在通讯系统的信息中转端,用于对中转的通讯信息进行过滤。
CN 200610099120 2006-07-27 2006-07-27 对通讯系统中的通讯信息进行过滤的方法和过滤系统 Pending CN101079877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610099120 CN101079877A (zh) 2006-07-27 2006-07-27 对通讯系统中的通讯信息进行过滤的方法和过滤系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610099120 CN101079877A (zh) 2006-07-27 2006-07-27 对通讯系统中的通讯信息进行过滤的方法和过滤系统

Publications (1)

Publication Number Publication Date
CN101079877A true CN101079877A (zh) 2007-11-28

Family

ID=38907108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610099120 Pending CN101079877A (zh) 2006-07-27 2006-07-27 对通讯系统中的通讯信息进行过滤的方法和过滤系统

Country Status (1)

Country Link
CN (1) CN101079877A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827365A (zh) * 2009-03-06 2010-09-08 希姆通信息技术(上海)有限公司 移动终端上网安全控制的装置和方法
CN104184653A (zh) * 2014-07-28 2014-12-03 小米科技有限责任公司 一种消息过滤的方法和装置
CN104731881A (zh) * 2015-04-24 2015-06-24 苏州天鸣信息科技有限公司 一种基于通信应用的聊天记录方法及其移动终端
CN105323145A (zh) * 2014-07-17 2016-02-10 腾讯科技(深圳)有限公司 恶意信息识别方法、恶意信息识别装置及系统
CN107437334A (zh) * 2016-04-11 2017-12-05 大众汽车有限公司 自主地或部分自主地执行协作式驾驶机动的方法及车辆
CN108966234A (zh) * 2018-05-31 2018-12-07 北京五八信息技术有限公司 恶意信息的处理方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827365A (zh) * 2009-03-06 2010-09-08 希姆通信息技术(上海)有限公司 移动终端上网安全控制的装置和方法
CN105323145A (zh) * 2014-07-17 2016-02-10 腾讯科技(深圳)有限公司 恶意信息识别方法、恶意信息识别装置及系统
CN104184653A (zh) * 2014-07-28 2014-12-03 小米科技有限责任公司 一种消息过滤的方法和装置
CN104184653B (zh) * 2014-07-28 2018-03-23 小米科技有限责任公司 一种消息过滤的方法和装置
CN104731881A (zh) * 2015-04-24 2015-06-24 苏州天鸣信息科技有限公司 一种基于通信应用的聊天记录方法及其移动终端
CN104731881B (zh) * 2015-04-24 2018-02-27 重庆工程职业技术学院 一种基于通信应用的聊天记录方法及其移动终端
CN107437334A (zh) * 2016-04-11 2017-12-05 大众汽车有限公司 自主地或部分自主地执行协作式驾驶机动的方法及车辆
CN108966234A (zh) * 2018-05-31 2018-12-07 北京五八信息技术有限公司 恶意信息的处理方法和装置
CN108966234B (zh) * 2018-05-31 2021-11-30 北京五八信息技术有限公司 恶意信息的处理方法和装置

Similar Documents

Publication Publication Date Title
CN101075980A (zh) 对通讯系统中的通讯信息进行过滤的方法和过滤系统
KR101045452B1 (ko) 개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체
KR100460322B1 (ko) 스팸메일 방지 시스템 및 방법
US7882189B2 (en) Using distinguishing properties to classify messages
CN101079877A (zh) 对通讯系统中的通讯信息进行过滤的方法和过滤系统
CN105847717A (zh) 一种弹幕举报的方法、客户端及服务器
WO2003003236A1 (en) Apparatus and method for handling electronic mail
CN1949715A (zh) 一种限制浏览器访问网络地址的方法
CN1350247A (zh) 针对邮件内容的监管系统
CN102045305A (zh) 一种多媒体资源传播的监测追踪方法和系统
CN1719812A (zh) 垃圾电子邮件过滤方法和系统
CN102281309A (zh) 网络信息的发布方法和网络信息的发布系统及客户端
CN108880980A (zh) 基于微信群信息的数据分析系统
WO2000045285A1 (en) Automated information filtering and distribution system
CN1897028A (zh) 一种在网页插件中发布和汇报广告信息的系统和方法
CN1722710A (zh) 电子邮件管理系统及方法
CN101094197B (zh) 反垃圾邮件的方法及其邮件服务器
CN101789105B (zh) 一种在数据包的级别动态检测邮件附件病毒的方法
CN1741504A (zh) 基于应用的流量控制方法及进行应用流量控制的网络设备
CN1696948A (zh) 阻挡指定的未读消息以避免邮箱溢出
KR100486821B1 (ko) 링크 유알엘 접속을 통한 스팸메일 자동 차단 방법
CN101702693A (zh) 一种基于深度报文解析技术的窄告推送系统及控制方法
CN1350246A (zh) 智能化的电子邮件内容过滤方法
JP4642903B2 (ja) 文脈認識が強化されたメッセージ変換システムおよび方法
US7139801B2 (en) Systems and methods for monitoring events associated with transmitted electronic mail messages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20071128