CN101340308B - 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法 - Google Patents

网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法 Download PDF

Info

Publication number
CN101340308B
CN101340308B CN2008100418676A CN200810041867A CN101340308B CN 101340308 B CN101340308 B CN 101340308B CN 2008100418676 A CN2008100418676 A CN 2008100418676A CN 200810041867 A CN200810041867 A CN 200810041867A CN 101340308 B CN101340308 B CN 101340308B
Authority
CN
China
Prior art keywords
information
junk
criterion
module
junk information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008100418676A
Other languages
English (en)
Other versions
CN101340308A (zh
Inventor
翁时锋
焦天石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2008100418676A priority Critical patent/CN101340308B/zh
Publication of CN101340308A publication Critical patent/CN101340308A/zh
Application granted granted Critical
Publication of CN101340308B publication Critical patent/CN101340308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法,其网络垃圾信息过滤架构包括多个网友终端、至少一个信息传播平台以及网络垃圾信息清除系统。信息传播平台通过网络与网友终端相连。网络垃圾信息清除系统通过网络分别与网友终端及信息传播平台相连。网络垃圾信息清除系统又包括至少一个举报端、采集端、准则建立模块以及判断模块。本发明通过网络垃圾信息清除系统对可以一个或多个信息传播平台上的垃圾信息进行过滤,且本发明能够有效防御垃圾信息的大量复制及传播,以及不会出现对垃圾信息的“错杀”、“漏杀”。

Description

网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法
技术领域
本发明涉及信息过滤技术,特别涉及网络垃圾信息过滤架构、网络垃圾信息清除系统及网络垃圾信息清除方法。
背景技术
近年来,随着网络技术的推陈出新,在网络传播领域,除网络新闻,网络论坛等传统网络应用外,又出现了博客Blog、维基WIKI、聚合新闻RSS等新形态的信息交互模式。范围广,交互性强、更新速度快的互联网传播从根本上改变了传播者与受传者之间的关系,是对传统媒介的传播模式的解构和颠覆。在网络这个人人共同拥有的信息平台上,传播者和受传者处于完全平等的地位,共同享有根据自己的需要选择信息和自由发表意见和观点的权利。但也正是由于网络信息传播的自由性和快速性,致使网络上出现了大量的垃圾信息,这些垃圾信息的来源以及所带来的负面影响主要有以下几个方面:
1、非法的营销者通过大批量的发送重复垃圾广告的方式,强占网络媒体最醒目的位置,强迫网友阅读垃圾商业广告。因为缺乏管理和制约,滥发广告的内容往往比较低级,被绝大部分网友所厌恶。
2、别有用心者利用网络媒体大量散步谣言,使不明真相者难以辨别。
3、色情及反动等不良信息通过网络媒体大量传播,对社会安定造成不良影响。
垃圾信息的一种发送方式是由机器自动发送。由机器自动搜集互联网上的信息传播平台,通过程序自动注册发文用的帐号,并利用程序自动大量地发送垃圾信息到信息传播平台中,通过占领信息传播平台的主要页面的方式来达到传播的目的。
为了对抗这种机器发送垃圾信息情况,人们提出了验证码技术。因为用计算机程序识别图像有很高的技术难度,利用这一特点,验证码图像被广泛用来区分计算机程序和真人。信息传播平台会在注册甚至发文的时候设置验证码关卡,要求注册者或者发文者看一张图片,识别出图片的内容,并用这种方法屏蔽机器注册和发文。常见的验证码图片内容是添加了图像干扰因素的数字、字母或者汉字。
但是验证码技术只能察觉机器自动发文,不能察觉人工发送垃圾信息。自动化批量发文被验证码技术所屏蔽后,垃圾发文者仍可以雇佣大量廉价的兼职人员,手动发布广告,通过人工识别验证码的方式来规避验证码的拦截。这种发文方式相对于自动发文来说,发文数量有所减少,但是会专门对那些访问量比较大的精品信息传播平台发动重点攻击。
为了规避人工发送垃圾信息,并取得更好地屏蔽垃圾信息的效果,人们又提出了垃圾信息特征屏蔽技术。其利用垃圾信息共有的一些特征来屏蔽掉垃圾信息。如现在许多信息传播平台的管理软件中有一个设定“关键词”的功能,管理员可以设定一些被禁止的“关键词”,在网友发文中如果出现了某些“关键词”,则信息传播平台会自动屏蔽掉关键词或者整篇网文。
除了设定“关键词”,还可以提取垃圾信息的其它特征信息,如国家专利局申请号为200610099111.8的专利提出了一种垃圾信息过滤方法,其通过提取垃圾信息的发送者的名称来作为过滤途径,请参见图1,其包括以下步骤:
S101,接收即时信息。
S103,提取发送者名称,在预置的违规发送者名称库查验发送者。其中,所述违规发送者名称库存储在预置时间内发送即时信息次数超过一定数值的发送者名称。
S105,根据查验结果进行判断。
S107,如果是,则将所述即时信息丢弃。
S109,如果否,则将所述即时信息传送到指定客户端显示。
此垃圾信息过滤方法通过对发送者的限制,可有效地防止某一发送者在短时间内发送大量的垃圾信息,可以更好的维护即时通信系统的应用环境。
但是,现在信息传播平台所采用的提取垃圾信息的特征信息的方式来屏蔽垃圾信息仍然有其局限性。因为信息传播平台的分散性,每个信息传播平台屏蔽垃圾文件的特征信息都保存在各自独立的数据库中,信息传播平台之间无法共享,造成每个渠道管理员都需要花大量的重复劳动去整理不完整的垃圾特征信息。而相应的,垃圾信息发送者则会使用各种方法逃避信息传播平台对其的过滤,如变换垃圾信息的形式,添加随机空格,或添加图片等方法,给判断垃圾信息增加了难度。
另外,也因为现在各个信息传播平台所采用屏蔽垃圾信息的方式不完整,所以难免会出现“错杀”及“漏杀”的情况。如以“关键词”的匹配方式作为垃圾信息判断准则的,无法应对现实中复杂的广告文情况。像“卖车”和电话号码一起出现的时候才是卖车广告,而“关键词”匹配无法判别一个字串是否电话号码,也无法把两个条件结合起来。结果是,要么把所有有“卖车”的全部删除,要么把所有电话全部屏蔽,致使“错杀好人”。又如上述垃圾信息过滤方法对设定时间内重复发送的信息的名称进行屏蔽,会造成普通发文者也无法在一定的时间间隔内重复发送信息,而且只要垃圾信息发送者变更发文的间隔,便可以逃过对其垃圾信息的封锁。
纵上所述,现在的信息传播平台的垃圾信息屏蔽方式存在着不完整性,而导致出现垃圾信息的“错杀”和“漏杀”等问题。
发明内容
本发明的目的是提供一种网络垃圾信息过滤架构,以解决现有技术中,信息传播平台的垃圾信息屏蔽方式存在着不完整性,而导致出现垃圾信息的“错杀”和“漏杀”的问题。
本发明的再一目的是提供一种网络垃圾信息清除系统,以解决现有技术中,信息传播平台的垃圾信息屏蔽方式存在着不完整性,而导致出现垃圾信息的“错杀”和“漏杀”的问题。
本发明的另一目的是提供一种网络垃圾信息清除方法,以解决现有技术中,信息传播平台的垃圾信息屏蔽方式存在着不完整性,而导致出现垃圾信息的“错杀”和“漏杀”的问题。
本发明提出一种网络垃圾信息过滤架构,其包括多个网友终端、至少一个信息传播平台以及网络垃圾信息清除系统。网友终端设置于各种公共场所或个人场所,用以向互联网收发信息。信息传播平台通过网络与网友终端相连,用以与网友终端进行信息交换,及储存并发布网友终端上传的信息。网络垃圾信息清除系统通过网络分别与网友终端及信息传播平台相连,用以根据接受到的网友终端的举报以及自身的判断,对信息传播平台上发布的垃圾信息进行过滤。此网络垃圾信息清除系统又包括至少一个举报端、采集端、准则建立模块以及判断模块。举报端用以接收网友终端及工作人员从信息传播平台上发现的垃圾信息样本。采集端通过网络与信息传播平台相连,用以从信息传播平台采集信息。准则建立模块与举报端及采集端相连,用以根据举报端接收到的垃圾信息样本,以及从采集端获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则,以及根据垃圾信息的过滤结果修正已存储的判断准则。判断模块与准则建立模块相连,用以存储准则建立模块建立的垃圾信息的判断准则,以及利用垃圾信息的判断准则,对所有的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
依照本发明较佳实施例所述的网络垃圾信息过滤架构,其网络垃圾信息清除系统还包括至少一个管理员终端,管理员终端分别与准则建立模块及判断模块相连,用以批阅判断模块的检查结果,将检查正确的垃圾信息删除,并将垃圾信息删除结果反馈给准则建立模块,以对垃圾信息的判断准则进行修正。
依照本发明较佳实施例所述的网络垃圾信息过滤架构,其网络垃圾信息清除系统还包括人工设置模块,其与准则建立模块相连,用以对准则建立模块所建立的垃圾信息的判断准则进行人工整理,使准则建立模块建立垃圾信息的判断准则时可以依据人工的经验。
依照本发明较佳实施例所述的网络垃圾信息过滤架构,其网络垃圾信息清除系统还包括信息整理模块,其与采集端相连,用以将采集端从信息传播平台采集到的信息进行页面版式分析,滤除页面广告和其它网站分类导航信息,并提取信息的标题、发布人ID、发布时间、正文、相关图片作为判断所采集到的信息是否为垃圾信息的依据。
本发明再提出一种网络垃圾信息清除系统,其通过网络与至少一个信息传播平台及多个网友终端相连,用以根据网友终端及工作人员的举报滤除信息传播平台上的垃圾信息,其包括至少一个举报端、采集端、准则建立模块以及判断模块。举报端用以接收网友终端及工作人员从信息传播平台上发现的垃圾信息样本。采集端通过网络与信息传播平台相连,用以从信息传播平台采集信息。准则建立模块与举报端及采集端相连,用以根据举报端接收到的垃圾信息样本,以及从采集端获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则,以及根据垃圾信息的过滤结果修正已存储的判断准则。判断模块与准则建立模块相连,用以存储准则建立模块建立的垃圾信息的判断准则,以及利用垃圾信息的判断准则,对所有的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
依照本发明较佳实施例所述的网络垃圾信息清除系统,其还包括至少一个管理员终端,管理员终端分别与准则建立模块及判断模块相连,用以批阅判断模块的检查结果,将检查正确的垃圾信息删除,并将垃圾信息删除结果反馈给准则建立模块,以对垃圾信息的判断准则进行修正。
依照本发明较佳实施例所述的网络垃圾信息清除系统,其还包括人工设置模块,其与准则建立模块相连,用以对准则建立模块所建立的垃圾信息的判断准则进行人工整理,使准则建立模块建立垃圾信息的判断准则时可以依据人工的经验。
依照本发明较佳实施例所述的网络垃圾信息清除系统,其还包括信息整理模块,其与采集端相连,用以将采集端从信息传播平台采集到的信息进行页面版式分析,滤除页面广告和其它网站分类导航信息,并提取信息的标题、发布人ID、发布时间、正文、相关图片作为判断所采集到的信息是否为垃圾信息的依据。
本发明另提出一种网络垃圾信息清除方法,用以根据多个网友终端及工作人员的举报滤除至少一个信息传播平台上的垃圾信息,其包括以下步骤:首先,接收网友终端及工作人员从信息传播平台上发现的垃圾信息样本。其次,从信息传播平台采集信息。然后,根据网友终端举报的垃圾信息样本,以及从信息传播平台上获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,并结合管理员的经验,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则。最后,利用垃圾信息的判断准则,对所有的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
依照本发明较佳实施例所述的网络垃圾信息清除方法,其还包括以下步骤:首先,对检查出的并已拦截或屏蔽的垃圾信息进行批阅。然后,将检查正确的垃圾信息删除。最后,反馈垃圾信息的删除结果,并依据删除结果对垃圾信息的判断准则进行修正。
相对于现有技术,本发明具有以下几个优点:
1、因为垃圾信息发送的特点是数量多,重复性高,且垃圾信息发送者只有大量散步垃圾信息才能达到其影响目标。本发明则利用互联网将信息传播平台联合起来,只要一个垃圾信息被举报,其特征就会被锁定,从而被本发明的网络垃圾信息清除系统相关的所有的网将信息传播平台所禁止。因此,本发明可以有效防御垃圾信息的大量复制和传播。
2、本发明采用自然语言处理技术和模式识别技术共同建立垃圾信息的判断准则,具有很高的灵活性,可以自动捕捉到不同形式和不断变化的垃圾文特征,有效防止对垃圾信息的“漏杀”。
3、本发明在将垃圾信息屏蔽或拦截后,通过管理员终端进行批阅核实,经确认为垃圾信息后才进行删除,有效避免了对垃圾信息的“错杀”。
4、本发明在建立垃圾信息的判断准则时,可以依据管理员的知识和经验来指定,使判断准则的建立更灵活更准确。
附图说明
图1为国家专利局申请号为200610099111.8的专利实施例的一种垃圾信息过滤方法流程图;
图2为本发明实施例的一种网络垃圾信息过滤架构示意图;
图3为本发明实施例的一种网络垃圾信息清除系统示意图;
图4为本发明实施例的另一种网络垃圾信息清除系统示意图;
图5为本发明实施例的一种网络垃圾信息清除方法示意图;
图6为本发明实施例的另一种网络垃圾信息清除方法示意图;
图7为本发明实施例的再一种网络垃圾信息过滤架构示意图。
具体实施方式
本发明的原理是根据众多网友终端的举报建立一个适用于所有信息传播平台的垃圾信息判断准则,并通过垃圾信息判断准则来对信息传播平台上的垃圾信息进行过滤,因此参与服务的信息传播平台越多,则垃圾信息判断准则就越完善,对垃圾信息的过滤就越有效率。
以下结合附图,具体说明本发明。
请参见图2,其为本发明实施例的一种网络垃圾信息过滤架构示意图。此网络垃圾信息过滤架构包括多个网友终端203、多个信息传播平台205以及网络垃圾信息清除系统207。网友终端203、信息传播平台205及网络垃圾信息清除系统207之间通过互联网209相连。网友终端203设置于各种公共场所或个人场所,其可以是个人电脑、手机等具有上网功能的设备。信息传播平台205是网上所有可供网友发表文字、图片或视频信息的信息交流平台,通过信息传播平台205,大量的网友终端203可以自发地进行信息交换和交流。信息传播平台205可以是如论坛、博客、维基WIKI、聚合新闻RSS等信息传播渠道。而网络垃圾信息清除系统207的作用是过滤掉指定或所有信息传播平台205上的垃圾信息,如广告、谣言等,使众多网友终端203具有一个良好的信息交流环境。其中,本发明对信息传播平台上垃圾信息的过滤方式分为报告式与屏蔽式两种。
下面对网络垃圾信息清除系统的结构与工作方式进行说明,首先来说明报告式,请参见图3,其为本发明实施例的一种网络垃圾信息清除系统结构图。此网络垃圾信息清除系统207包括举报端303、采集端305、准则建立模块307以及判断模块309。举报端303及采集端305连接至互联网,准则建立模块307与举报端303及采集端305相连,判断模块309与采集端305及准则建立模块307相连。
此网络垃圾信息清除系统207工作时,通过举报端303接收网友终端203及工作人员的举报,即接收其在各种信息传播平台205上发现的垃圾信息的样本,如各种网站、论坛上的广告、反动谣言等。工作人员是指管理举报端303的内部人员。而网友终端203可以直接通过网络向举报端303发送垃圾信息样本,或者也可以在网友终端203处安装举报用的软件,当网友终端203发现垃圾信息时通过软件来抓取并发送,方便网友终端203的操作。若网友终端203的数量比较庞大,可以设置多个举报端303来接收及处理举报的样本。
在举报端303接收举报的同时,采集端305实时从各种信息传播平台205上采集每日更新的所有信息,如论坛中网友终端203发表的文章、图片等。可以通过在采集端305设置采集路径,并指定对哪些信息传播平台205进行信息采集。其中,采集端305所采集的信息包括垃圾信息,也包括非垃圾信息。
而准则建立模块307根据举报端303接收到的垃圾信息样本,以及从采集端305获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则,并存放到判断模块309中。自然语言处理技术是利用计算机信息技术处理自然语言,是人工智能和计算机语言学的一个分支。它研究自然语言的自动生成和机器理解的问题。本发明利用这个技术自动理解网络文字的倾向和意图,挑选出那些有不良意图的网络信息,让疑似垃圾信息的网络信息自动地从海量的发文中暴露出来。基于智能中文分词的关键词、敏感词等自动检测技术,可以有效地辅助发现并预警垃圾信息。模式识别技术(Pattern Recognition)是指对表征事物或现象地各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和理解的过程,是信息科学和人工智能的重要组成部分。包括文本识别、语义识别、图像识别、声音识别、视频识别等多个应用领域。本发明利用这个领域中自动对事物进行
“辨别”和“分类”的技术,自动地寻找出垃圾信息共同地特征,自动地建立垃圾信息地判别准则。模式识别技术具有可矿展性,即可以从少量地垃圾信息样本中,总结出适用于所有垃圾信息地判别准则。所以本发明利用模式识别技术和自然语言处理技术的成熟算法可以对垃圾信息进行准确的归类与总结,灵活地处理具有各种特征或者不断变化的垃圾信息,并且可以根据网友终端203及工作人员的举报来实时改进与更新垃圾信息的判断准则。
应用最广的模式识别技术是进行文字识别,如通过手写板输入签名,并由计算机自动判断是不是本人的签名。计算机要识别本人的签名,就必须要获取正面和负面两方面的样本,正面样本是本人的字迹,而负面样本是其他人的字迹。模式识别的方法通过计算和比较,找出本人的字迹与其他人字迹相比最显著的特征,最简单的特征可能是本人在书写某些特定笔画的时候的书写方向、速度和力度的变化(比如,本人写一个勾的时候,竖与提之间的夹角不会超过30度...)。计算机将这些特征以判别准则的形式存储起来,新出现一个签名,计算机提取这个新签名的相应特征,参照判别准则来判定是否是本人的签名。而在垃圾信息处理的过程中,也有判断垃圾文和非垃圾文的问题。同样也需要通过分析正负样本,获取垃圾文的特征,然后建立判别准则。就是运用模式识别的技术,做垃圾信息区分的过程。
最简单的自然语言处理技术是分词。比如,“科学研究不能有一点马虎”。做分词的时候,计算机自动将句子切分成:科学研究|不能|有|一点|马虎。句中只有一个名词词组(科学研究),计算机就知道这句话是关于科学研究的,而不是关于“马”或者“虎”这两种动物的。通过自然语言处理方法,计算机可以部分“理解”文章。帮助本人们区分垃圾信息。
建立了垃圾信息的判断准则后,由判断模块309利用垃圾信息的判断准则,对采集端305获取的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。这样,本发明的网络垃圾信息清除系统207可以对互联网上所有的或指定的信息传播平台205进行监控,所以,一个垃圾信息只要被一个网友终端203及工作人员举报,就会将其从所有相关的信息传播平台205上屏蔽掉,极为有效地防御了垃圾信息的大量复制和传播。另外,因为每个信息传播平台205可能会有其独有的特征,所以可以在判断模块309中为采集端305所采集的每个信息传播平台205设置相应的特殊准则库,并在检查垃圾信息时结合特殊准则库,使判断更加准确。
其中,采集端305与举报端303也可以是同一个连接到互联网,而具有不同软件功能的装置来实现其各自不同的功能。
请参见图4,其为本发明实施例的再一种网络垃圾信息清除系统示意图。此网络垃圾信息清除系统207包括举报端303、采集端305、准则建立模块307、判断模块309、管理员终端403、人工设置模块405、以及信息整理模块407。举报端303及采集端305连接至互联网,准则建立模块307与举报端303及采集端305相连,判断模块309与采集端305及准则建立模块307相连。管理员终端403分别与准则建立模块307及判断模块309相连。人工设置模块405与准则建立模块307相连。信息整理模块407与采集端305相连。
此网络垃圾信息清除系统207工作时,通过举报端303接收网友终端203及工作人员的举报并接收其在各种信息传播平台205上发现的垃圾信息的样本,如各种网站、论坛上的广告、反动谣言等。同时,采集端305从各种信息传播平台205上采集具有普遍代表性的信息,如论坛中网友终端203发表的文章、图片等,普遍代表性的信息包括垃圾信息,也包括非垃圾信息。然后由信息整理模块407将采集端305从信息传播平台采集到的信息进行页面版式分析,滤除页面广告和其它网站分类导航信息,并提取信息的标题、发布人ID、发布时间、正文、相关图片作为判断所采集到的信息是否为垃圾信息的依据,此信息整理模块407的作用是将采集到的海量的信息提取所需要的部分,使后续的检查工作更便捷,减少判断模块309的工作量。而准则建立模块307根据举报端303接收到的垃圾信息样本,以及从采集端305获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则,并存放在判断模块309中。另外,本实施例还可以根据人工经验并结合判断垃圾信息的历史记录,通过人工设置模块405对判断准则进行调整,充分利用人脑的智慧,使垃圾信息的判断准则更加准确。
建立了垃圾信息的判断准则后,由判断模块309利用垃圾信息的判断准则,对采集端305获取的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。为了避免判断模块309将非垃圾信息屏蔽掉,因而本实施例还设置了管理员终端403,管理员终端403对判断模块309屏蔽掉的垃圾信息进行批阅,并最终将判断模块309判断正确的垃圾信息删除。若管理员终端403发现判断模块309判断错误的非垃圾信息被屏蔽,则解除判断模块309对其的屏蔽。并且,管理员终端403还可以将垃圾信息删除结果反馈给准则建立模块307,以对垃圾信息的判断准则进行修正。其中,人工设置模块405的功能也可以由管理员终端403来完成,即管理员可以凭借自身对垃圾信息的判断经验来对判断准则进行设置。
下面介绍屏蔽式的网络垃圾信息清除系统,请参见图7,其为本发明再一种网络垃圾信息过滤架构示意图。此网络垃圾信息过滤架构中的网络垃圾信息清除系统207包括举报端303、采集端305、准则建立模块307以及判断模块309。举报端303、采集端305及判断模块309连接至互联网,准则建立模块307分别与举报端303、采集端305及判断模块309相连。
此网络垃圾信息清除系统207在工作过程中,由举报端303接收网友终端203及工作人员的举报,即接收其在各种信息传播平台205上发现的垃圾信息的样本。同时由采集端305采集信息传播平台205上具有普遍代表性的信息,如多个图片信息中的一个具有代表性的信息,其中采集端305的工作也可以由人工来完成。而准则建立模块307根据举报端303接收到的垃圾信息样本,以及从采集端305获取的代表性的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则,并存放到判断模块309中。
而判断模块309直接根据垃圾信息的判断准则对各种信息传播平台205进行过滤,并滤除符合准则的垃圾信息。也即是说,判断模块309通过互联网209与信息传播平台205紧密地结合在一起的,在网友终端203向信息传播平台205提交信息的时候直接判别是否是垃圾信息,是垃圾则直接屏蔽。相当于在网友终端203和信息传播平台205之间插入了判别模块309进行过滤。因此,屏蔽式的网络垃圾信息清除系统207无需采集信息传播平台上的所有信息,但是需要与信息传播平台205的深度合作。
另外,屏蔽式的网络垃圾信息清除系统207也可以引入上述信息管理模块407、管理员终端403及人工设置模块405的功能,使垃圾信息的过滤功能更加完善。
本发明还提出一种网络垃圾信息清除系统,其通过网络与至少一个信息传播平台及多个网友终端相连,用以根据网友终端及工作人员的举报滤除信息传播平台上的垃圾信息,其结构与功能与前述网络垃圾信息过滤架构中的网络垃圾信息清除系统207相同,此处不再复述。
本发明另提出一种网络垃圾信息清除方法,用以根据多个网友终端及工作人员的举报滤除至少一个信息传播平台上的垃圾信息,请参见图5,其为本发明实施例的一种网络垃圾信息清除方法示意图。
S501,接收网友终端及工作人员从信息传播平台上发现的垃圾信息样本。
网友终端可以直接通过网络发送垃圾信息样本,或者也可以在网友终端处安装举报用的软件,当网友终端发现垃圾信息时通过软件来抓取并发送,方便网友终端的操作。工作人员是指对网友终端举报的垃圾信息进行管理的人员,其本身也可以进行举报。
S503,从信息传播平台采集信息。其中,从信息传播平台上所采集的信息可以是如论坛中上每日发表的文章、图片等网文。
S505,根据举报的垃圾信息样本,以及从信息传播平台上获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,并结合管理员的经验,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则。
自然语言处理技术是利用计算机信息技术处理自然语言,是人工智能和计算机语言学的一个分支。它研究自然语言的自动生成和机器理解的问题。本发明利用这个技术自动理解网络文字的倾向和意图,挑选出那些有不良意图的网络信息,让疑似垃圾信息的网络信息自动地从海量的发文中暴露出来。基于智能中文分词的关键词、敏感词等自动检测技术,可以有效地辅助发现并预警垃圾信息。模式识别技术(Pattern Recognition)是指对表征事物或现象地各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和理解的过程,是信息科学和人工智能的重要组成部分。包括文本识别、语义识别、图像识别、声音识别、视频识别等多个应用领域。本发明利用这个领域中自动对事物进行“辨别”和“分类”的技术,自动地寻找出垃圾信息共同地特征,自动地建立垃圾信息地判别准则。模式识别技术具有可矿展性,即可以从少量地垃圾信息样本中,总结出适用于所有垃圾信息地判别准则。所以本发明利用模式识别技术和自然语言处理技术的成熟算法可以对垃圾信息进行准确的归类与总结,灵活地处理具有各种特征或者不断变化的垃圾信息,并且可以根据网友终端及工作人员的举报来实时改进与更新垃圾信息的判断准则。
应用最广的模式识别技术是进行文字识别,如通过手写板输入签名,并由计算机自动判断是不是本人的签名。计算机要识别本人的签名,就必须要获取正面和负面两方面的样本,正面样本是本人的字迹,而负面样本是其他人的字迹。模式识别的方法通过计算和比较,找出本人的字迹与其他人字迹相比最显著的特征,最简单的特征可能是本人在书写某些特定笔画的时候的书写方向、速度和力度的变化(比如,本人写一个勾的时候,竖与提之间的夹角不会超过30度...)。计算机将这些特征以判别准则的形式存储起来,新出现一个签名,计算机提取这个新签名的相应特征,参照判别准则来判定是否是本人的签名。而在垃圾信息处理的过程中,也有判断垃圾文和非垃圾文的问题。同样也需要通过分析正负样本,获取垃圾文的特征,然后建立判别准则。就是运用模式识别的技术,做垃圾信息区分的过程。
最简单的自然语言处理技术是分词。比如,“科学研究不能有一点马虎”。做分词的时候,计算机自动将句子切分成:科学研究|不能|有|一点|马虎。句中只有一个名词词组(科学研究),计算机就知道这句话是关于科学研究的,而不是关于“马”或者“虎”这两种动物的。通过自然语言处理方法,计算机可以部分“理解”文章。帮助本人们区分垃圾信息。
S507,利用垃圾信息的判断准则,对信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
这样,采用本发明的网络垃圾信息清除方法可以对互联网上所有的或指定的信息传播平台进行监控,所以,一个垃圾信息只要被举报,就会将其从所有相关的信息传播平台上屏蔽掉,极为有效地防御了垃圾信息的大量复制和传播。
请参见图6,其为本发明实施例的另一种网络垃圾信息清除方法示意图。
S601,接收网友终端及工作人员从信息传播平台上发现的垃圾信息样本。
S603,从信息传播平台采集信息。
S605,根据举报的垃圾信息样本,以及从信息传播平台上获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,并结合管理员的经验,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则。
S607,利用垃圾信息的判断准则,对信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
S609,对检查出的并已拦截或屏蔽的垃圾信息进行批阅。
S611,将检查正确的垃圾信息删除。
S613,反馈垃圾信息的删除结果,并依据删除结果对垃圾信息的判断准则进行修正。
为了避免将非垃圾信息屏蔽掉,因而本实施例还对屏蔽或屏蔽的垃圾信息进行批阅。若发现检查错误的非垃圾信息被屏蔽,则解除对其的屏蔽。并且,还可以将垃圾信息删除结果进行反馈,以对垃圾信息的判断准则进行修正。
相对于现有技术,本发明具有以下几个优点:
1、因为垃圾信息发送的特点是数量多,重复性高,且垃圾信息发送者只有大量散步垃圾信息才能达到其影响目标。本发明则利用互联网将信息传播平台联合起来,只要一个垃圾信息被举报,其特征就会被锁定,从而被本发明的网络垃圾信息清除系统相关的所有的网将信息传播平台所禁止。因此,本发明可以有效防御垃圾信息的大量复制和传播。
2、本发明采用自然语言处理技术和模式识别技术共同建立垃圾信息的判断准则,具有很高的灵活性,可以自动捕捉到不同形式和不断变化的垃圾文特征,有效防止对垃圾信息的“漏杀”。
3、本发明在将垃圾信息屏蔽或拦截后,通过管理员终端进行批阅核实,经确认为垃圾信息后才进行删除,有效避免了对垃圾信息的“错杀”。
4、本发明在建立垃圾信息的判断准则时,可以依据管理员的知识和经验来指定,使判断准则的建立更灵活、更准确、更人性化。
以上公开的仅为本发明的几个具体实施例,但本发明并非局限于此,任何本领域的技术人员能思之的变化,都应落在本发明的保护范围内。

Claims (10)

1.一种网络垃圾信息过滤架构,其特征在于,包括:
多个网友终端,其设置于各种公共场所或个人场所,用以向互联网收发信息;
至少一个信息传播平台,其通过网络与该些网友终端相连,用以与该些网友终端进行信息交换,及储存并发布该些网友终端上传的信息;
一网络垃圾信息清除系统,其通过网络分别与该些网友终端及该些信息传播平台相连,用以根据接收到的该些网友终端的举报以及自身的判断,对该些信息传播平台上发布的垃圾信息进行过滤,其又包括:
至少一个举报端,用以接收该些网友终端及工作人员从该些信息传播平台上发现的垃圾信息样本;
一采集端,其通过网络与该些信息传播平台相连,用以从该些信息传播平台采集信息;
一准则建立模块,其与该些举报端及该采集端相连,用以根据该些举报端接收到的垃圾信息样本,以及从该采集端获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则,以及根据垃圾信息的过滤结果修正已存储的判断准则;
一判断模块,其与该准则建立模块相连,用以存储该准则建立模块建立的垃圾信息的判断准则,以及利用垃圾信息的判断准则,对所有的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
2.如权利要求1所述的网络垃圾信息过滤架构,其特征在于,其网络垃圾信息清除系统还包括至少一个管理员终端,该些管理员终端分别与该准则建立模块及该判断模块相连,其用以批阅该判断模块的检查结果,将检查正确的垃圾信息删除,并将垃圾信息删除结果反馈给准则建立模块,以对垃圾信息的判断准则进行修正。
3.如权利要求1所述的网络垃圾信息过滤架构,其特征在于,其网络垃圾信息清除系统还包括一人工设置模块,其与该准则建立模块相连,用以对该准则建立模块所建立的垃圾信息的判断准则进行人工整理,使该准则建立模块建立垃圾信息的判断准则时可以依据人工的经验。
4.如权利要求1所述的网络垃圾信息过滤架构,其特征在于,其网络垃圾信息清除系统还包括一信息整理模块,其与该采集端相连,用以将该采集端从该些信息传播平台采集到的信息进行页面版式分析,滤除页面广告和其它网站分类导航信息,并提取信息的标题、发布人ID、发布时间、正文、相关图片作为判断所采集到的信息是否为垃圾信息的依据。
5.一种网络垃圾信息清除系统,其通过网络与至少一个信息传播平台及多个网友终端相连,用以根据该些网友终端及工作人员的举报滤除该些信息传播平台上的垃圾信息,其包括:
至少一个举报端,用以接收该些网友终端及工作人员从该些信息传播平台上发现的垃圾信息样本;
一采集端,其通过网络与该些信息传播平台相连,用以从该些信息传播平台采集信息;
一准则建立模块,其与该些举报端及该采集端相连,用以根据该些举报端接收到的垃圾信息样本,以及从该采集端获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则,以及根据垃圾信息的过滤结果修正已存储的判断准则;
一判断模块,其与该准则建立模块相连,用以存储该准则建立模块建立的垃圾信息的判断准则,以及利用垃圾信息的判断准则,对所有的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
6.如权利要求5所述的网络垃圾信息清除系统,其特征在于,其还包括至少一个管理员终端,该些管理员终端分别与该准则建立模块及该判断模块相连,其用以批阅该判断模块的检查结果,将检查正确的垃圾信息删除,并将垃圾信息删除结果反馈给准则建立模块,以对垃圾信息的判断准则进行修正。
7.如权利要求5所述的网络垃圾信息清除系统,其特征在于,其还包括一人工设置模块,其与该准则建立模块相连,用以对该准则建立模块所建立的垃圾信息的判断准则进行人工整理,使该准则建立模块建立垃圾信息的判断准则时可以依据人工的经验。
8.如权利要求5所述的网络垃圾信息清除系统,其特征在于,一信息整理模块,其与该采集端相连,用以将该采集端从该些信息传播平台采集到的信息进行页面版式分析,滤除页面广告和其它网站分类导航信息,并提取信息的标题、发布人ID、发布时间、正文、相关图片作为判断所采集到的信息是否为垃圾信息的依据。
9.一种网络垃圾信息清除方法,用以根据多个网友终端及工作人员的举报滤除至少一个信息传播平台上的垃圾信息,其包括以下步骤:
接收该些网友终端及工作人员从该些信息传播平台上发现的垃圾信息样本;
从该些信息传播平台采集信息;
根据该些网友终端举报的垃圾信息样本,以及从该些信息传播平台上获取的信息样本,采用模式识别技术和自然语言处理技术的成熟算法,并结合管理员的经验,提取并存储垃圾信息的共同特征,作为垃圾信息的判断准则;
利用垃圾信息的判断准则,对所有的信息传播平台上每日发布的信息进行检查,并将检查出的垃圾信息进行拦截或屏蔽。
10.如权利要求9所述的网络垃圾信息清除方法,其特征在于,还包括以下步骤:
对检查出的并已拦截或屏蔽的垃圾信息进行批阅;
将检查正确的垃圾信息删除;
反馈垃圾信息的删除结果,并依据删除结果对垃圾信息的判断准则进行修正。
CN2008100418676A 2008-08-19 2008-08-19 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法 Active CN101340308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100418676A CN101340308B (zh) 2008-08-19 2008-08-19 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100418676A CN101340308B (zh) 2008-08-19 2008-08-19 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法

Publications (2)

Publication Number Publication Date
CN101340308A CN101340308A (zh) 2009-01-07
CN101340308B true CN101340308B (zh) 2010-10-06

Family

ID=40214270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100418676A Active CN101340308B (zh) 2008-08-19 2008-08-19 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法

Country Status (1)

Country Link
CN (1) CN101340308B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045706A (zh) * 2009-10-16 2011-05-04 华为技术有限公司 一种垃圾信息处理方法、系统及装置
CN102208992B (zh) * 2010-06-13 2015-09-02 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN102984119A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于检测互动平台中的垃圾版块的方法与设备
CN103379095A (zh) * 2012-04-18 2013-10-30 华为技术有限公司 一种垃圾消息举报信息共享方法、系统和业务服务器
CN102855287A (zh) * 2012-08-09 2013-01-02 昆山宏凌电子有限公司 一种网络筛选软件
CN103150502A (zh) * 2013-03-18 2013-06-12 苏州诺特丹信息技术有限公司 便捷广告清除系统
CN103716690B (zh) * 2013-12-27 2017-09-01 广州华多网络科技有限公司 多媒体直播举报的方法、终端、服务器及系统
CN104317847A (zh) * 2014-10-13 2015-01-28 孙伟力 一种识别网络文字信息的语种的方法及系统
CN105989093B (zh) * 2015-02-12 2019-09-10 阿里巴巴集团控股有限公司 敏感词的自动发现方法及其装置和应用
CN105873064A (zh) * 2016-03-28 2016-08-17 伍文华 一种互联网app垃圾信息鉴定系统及方法
CN105847717B (zh) * 2016-05-30 2019-06-04 武汉斗鱼网络科技有限公司 一种弹幕举报的方法、客户端及服务器
CN107786389A (zh) * 2017-10-16 2018-03-09 上海理工大学 一种网络信息传播设备及其方法
CN109039855A (zh) * 2018-06-22 2018-12-18 北京达佳互联信息技术有限公司 一种消息处理方法及装置
CN112199564A (zh) * 2019-07-08 2021-01-08 Tcl集团股份有限公司 一种信息过滤方法、装置及终端设备

Also Published As

Publication number Publication date
CN101340308A (zh) 2009-01-07

Similar Documents

Publication Publication Date Title
CN101340308B (zh) 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法
CN110460594B (zh) 威胁情报数据采集处理方法、装置及存储介质
Jain et al. Towards automated real-time detection of misinformation on Twitter
CN104077402B (zh) 数据处理方法和数据处理系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN108170813A (zh) 一种全媒体内容智能审核的方法及其系统
CN101431434B (zh) 基于wap的内容监控及封堵系统和方法
CN101510879A (zh) 一种垃圾内容过滤的方法及装置
CN105894253A (zh) 一种实现求职需求自动推送的方法及装置
CN101335968B (zh) 一种垃圾短消息监控后续处理的方法及系统
CN107341225B (zh) 信息智能推送与鉴别方法、装置和系统
CN101789887A (zh) 网络用户分类方法、装置和网络业务监控系统
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN102833111B (zh) 一种可视化http数据监管方法及装置
US20150113651A1 (en) Spammer group extraction apparatus and method
CN103428183A (zh) 恶意网址的识别方法和装置
CN102012926A (zh) 一种可扩展的举报不良信息的方法与系统
Ng et al. How does fake news spread? Understanding pathways of disinformation spread through APIs
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN106383905A (zh) 一种智慧养老大数据舆情网路监控的方法及装置
CN104348871A (zh) 一种同类账号扩展方法及装置
CN103188347B (zh) 互联网事件分析方法与装置
Lewis et al. Population status of great crested newts (Triturus cristatus) at sites subjected to development mitigation
CN102271331A (zh) 一种检测业务提供商sp站点可靠性的方法及系统
CN107766737B (zh) 一种数据库审计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Assignee: CHANGSHA LIANYUAN ELECTRONIC TECHNOLOGY CO., LTD.

Assignor: Weng Shifeng|Jiao Tianshi

Contract record no.: 2012430000060

Denomination of invention: Network rubbish information filtering architecture, Network rubbish information cleaning system and method thereof

Granted publication date: 20101006

License type: Exclusive License

Open date: 20090107

Record date: 20120503