CN103078854B - 报文过滤方法与装置 - Google Patents

报文过滤方法与装置 Download PDF

Info

Publication number
CN103078854B
CN103078854B CN201210589720.7A CN201210589720A CN103078854B CN 103078854 B CN103078854 B CN 103078854B CN 201210589720 A CN201210589720 A CN 201210589720A CN 103078854 B CN103078854 B CN 103078854B
Authority
CN
China
Prior art keywords
message
filtering
webpage
url
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210589720.7A
Other languages
English (en)
Other versions
CN103078854A (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Qianbao Technology Service Co., Ltd
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN201210589720.7A priority Critical patent/CN103078854B/zh
Publication of CN103078854A publication Critical patent/CN103078854A/zh
Application granted granted Critical
Publication of CN103078854B publication Critical patent/CN103078854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种报文过滤方法与装置,其中,报文过滤方法包括:使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;若不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。通过本发明,有效提高了报文过滤的准确率。

Description

报文过滤方法与装置
技术领域
本发明涉及网络技术领域,特别是涉及一种报文过滤方法与装置。
背景技术
垃圾报文过滤是互联网技术中一项重要的工作,一般是通过某种规则或遵循某种统计规律,将明显非正常用户访问报文的部分过滤掉,从而减少互联网的传输压力和存储压力,也减少了后期提取、识别用户报文的系统压力。通过垃圾报文过滤,可以有效提高分析用户报文效率,尤其在计算能力成为一种资源的互联网时代,对垃圾报文的过滤比率和质量,影响着下游数据处理的效率和质量。
现有的垃圾报文过滤主要采用网页自动分类技术,网页自动分类技术提取网页文本内容和标签信息,并赋予不同的权重因子,其核心是利用自动文本分类技术实现。实现自动文本分类的关键阶段可划分为主要的三个部分:特征选取策略、分类算法和阈值策略,通过这样的自动文本分类过滤掉垃圾报文。
但是,目前的自动文本分类技术对文档表示特征稀疏或模糊的文本分类,显得力不从心。尤其是短文本,有效文本特征的提取较少,而且容易产生诸如广告、推荐信息、版权声明等和内容无关的噪声信息,更容易引起误分类。此外,自动文本分类对大文本的处理,特征项空间的文书过高,数量过大的特征项,会导致无法准确提取代表文本的唯一主题有效特征信息,造成分类效果不佳,容易出现多峰分布等问题。
可见,现有的自动文本分类技术的报文过滤准确性不高,无法有效过滤出垃圾报文。
发明内容
本发明提供了一种报文过滤方法与装置,以解决现有的自动文本分类技术的报文过滤准确性不高,无法有效过滤出垃圾报文的问题。
为了解决上述问题,本发明公开了一种报文过滤方法,包括:使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;若不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。
优选地,所述判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配的步骤包括:判断过滤后的所述报文的页面浏览PV量是否大于第一设定阈值;对过滤后的所述报文中,PV量大于所述第一设定阈值的报文进行所述是否与黑名单或白名单中的报文相匹配的判断。
优选地,所述获取不匹配的报文对应的文本信息和/或网页状态码的步骤包括:获取所述不匹配的报文的统一资源定位符URL,对其进行去除重复和打乱顺序处理;对所述处理后的URL进行网页爬取,获得所述处理后的URL对应的网页源码和/或网页状态码;若获得到所述处理后的URL对应的网页源码,则对所述网页源码进行语法分析,获取所述处理后的URL对应的文本信息。
优选地,所述根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤的步骤包括:若所述网页状态码为非正常页面返回码,则过滤掉所述网页状态码对应的报文,并将所述报文加入所述黑名单;若根据所述文本信息确定所述URL对应的网页正文的字符数少于第二设定阈值、和/或所述网页正文无标题、和/或所述网页正文无文档属性信息,则过滤掉所述文本信息对应的报文,并将所述报文加入所述黑名单。
优选地,所述报文过滤方法还包括:若判断过滤后的所述报文与所述黑名单中的报文匹配,则过滤掉匹配的所述报文;若判断过滤后的所述报文与所述白名单中的报文匹配,则对匹配的所述报文放行。
优选地,所述使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文的步骤包括:根据报文的URL使用第一过滤规则对报文进行过滤,过滤掉所述报文中URL与设定格式的URL相匹配的报文。
为了解决上述问题,本发明公开了一种报文过滤装置,包括:第一过滤模块,用于使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;判断模块,用于判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;获取模块,用于若所述判断模块的判断结果为不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;第二过滤模块,用于根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤。
优选地,所述判断模块,用于判断过滤后的所述报文的页面浏览PV量是否大于第一设定阈值;对过滤后的所述报文中,PV量大于所述第一设定阈值的报文进行所述是否与黑名单或白名单中的报文相匹配的判断。
优选地,所述获取模块,用于若所述判断模块的判断结果为不匹配,则获取所述不匹配的报文的统一资源定位符URL,对其进行去除重复和打乱顺序处理;对所述处理后的URL进行网页爬取,获得所述处理后的URL对应的网页源码和/或网页状态码;若获得到所述处理后的URL对应的网页源码,则对所述网页源码进行语法分析,获取所述处理后的URL对应的文本信息。
优选地,所述第二过滤模块,用于若所述网页状态码为非正常页面返回码,则过滤掉所述网页状态码对应的报文,并将所述报文加入所述黑名单;若根据所述文本信息确定所述URL对应的网页正文的字符数少于第二设定阈值、和/或所述网页正文无标题、和/或所述网页正文无文档属性信息,则过滤掉所述文本信息对应的报文,并将所述报文加入所述黑名单。
与现有技术相比,本发明具有以下优点:
本发明首先使用第一过滤规则对报文进行初步过滤,过滤掉设定格式的报文;然后,再对进行了初步过滤后的报文进行黑白名单匹配;对于不匹配的报文获取相应的文本信息和/或网页状态码,进而根据这些文本信息和/或网页状态码对报文进行进一步过滤。一方面,通过初步过滤和黑白名单匹配,大大减少了需要再次过滤的报文数量,以便于准确提取报文的有效特征信息,提高报文过滤准确率;另一方面,本领域技术人员可以根据实际需求设置第一过滤规则过滤掉的报文的报文格式,以有效减少报文过滤时的噪声信息,进而提高报文过滤准确率。可见,通过本发明,解决了现有的自动文本分类技术的报文过滤准确性不高,无法有效过滤出垃圾报文的问题,有效提高了报文过滤的准确率。
附图说明
图1是根据本发明实施例一的一种报文过滤方法的步骤流程图;
图2是根据本发明实施例二的一种报文过滤方法的步骤流程图;
图3是根据本发明实施例三的一种报文过滤方法的步骤流程图;
图4是根据本发明实施例四的一种报文过滤装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了根据本发明实施例一的一种报文过滤方法的步骤流程图。
本实施例的报文过滤方法包括以下步骤:
步骤S102:使用第一过滤规则对报文进行过滤,过滤掉报文中符合设定格式的报文。
通过对垃圾报文进行分析可知,很多垃圾报文可以通过一定的格式识别,如通过URL后缀识别等,本领域技术人员可以通过在第一过滤规则中设置待过滤的垃圾报文格式,将一部分垃圾报文过滤掉。
如,将第一过滤规则设置为根据报文的URL(UniformResourceLocator,统一资源定位符)后缀过滤非文本格式的URL的规则,则使用该规则对报文进行过滤时,会将非文本格式URL的报文过滤掉。当然,不限于此,本领域技术人员在实际应用中可以根据实际需要进行适当设置,以将明显的垃圾报文初步过滤掉,减少后续报文过滤量。
步骤S104:判断过滤后的报文是否与黑名单或白名单中的报文相匹配。
其中,黑白名单分别为将网页判定为正常报文和非正常报文的列表,黑名单为非正常报文,即非正常用户访问的垃圾报文,一般为用户访问正常报文产生的附加报文,或由系统,软件客户端自动向服务器发送的报文;白名单为正常报文。
步骤S106:若过滤后的报文与黑名单或白名单中的报文不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码。
步骤S108:根据不匹配的报文对应的文本信息和/或网页状态码对不匹配的报文进行报文过滤。
通过本实施例,首先使用第一过滤规则对报文进行初步过滤,过滤掉设定格式的报文;然后,再对进行了初步过滤后的报文进行黑白名单匹配;对于不匹配的报文获取相应的文本信息和/或网页状态码,进而根据这些文本信息和/或网页状态码对报文进行进一步过滤。一方面,通过初步过滤和黑白名单匹配,大大减少了需要再次过滤的报文数量,以便于准确提取报文的有效特征信息,提高报文过滤准确率;另一方面,本领域技术人员可以根据实际需求设置第一过滤规则过滤掉的报文的报文格式,以有效减少报文过滤时的噪声信息,进而提高报文过滤准确率。可见,通过本实施例,解决了现有的自动文本分类技术的报文过滤准确性不高,无法有效过滤出垃圾报文的问题,有效提高了报文过滤的准确率。
实施例二
参照图2,示出了根据本发明实施例二的一种报文过滤方法的步骤流程图。
本实施例的报文过滤方法包括以下步骤:
步骤S202:根据报文的URL使用第一过滤规则对报文进行初步过滤,过滤掉报文中URL与设定格式的URL相匹配的报文。
从运营商接入的报文数据中包含大量的垃圾报文,如用户访问产生的附加报文、客户端软件产生的报文信息等,其中有些部分比如.jpg,.css格式的附加报文可以通过简单规则实现过滤,也即,首先通过第一过滤规则进行初步过滤,对报文的初步过滤可以去除特定格式如.jpg,.css格式的黑名单URL,从而减少大量的报文数据。当然,不限于此,第一过滤规则在实际应用中可以由本领域技术人员根据实际情况灵活设置,如设置host、ua、后缀、字符串模糊匹配、specurl等过滤方式,从而过滤掉非文本格式的报文URL和/或一部分文本格式的非正常URL。
步骤S204:判断进行了初步过滤后的报文的PV量是否大于第一设定阈值,若是,则执行步骤S206;若否,则直接过滤掉。
其中,PV(PageView)量表示页面浏览量,第一设定阈值可以由本领域技术人员根据实际情况适当设置,本发明对此不作限制。通过判断PV量是否大于第一设定阈值,可以直接过滤掉PV量很小的报文,以进一步提高报文过滤效率,并且,过滤掉的这部分PV量很小的报文对下游数据处理几乎不会产生影响。
步骤S206:判断进行了初步过滤后的报文中的PV量大于第一设定阈值的报文中是否与黑名单或白名单中的报文相匹配的报文,若匹配,则执行步骤S208;若不匹配,则执行步骤S210。
对于初步滤后的报文的URL,选择PV量大于某一阈值的访问报文,用黑白名单判定报文的URL黑白名单分布,对于出现在黑名单中的URL直接过滤;对已经在白名单部分的URL跳过后续爬虫阶段,直接放行,可以减少大量的重复计算,从而大规模提升系统的数据处理能力,在数以亿计的运营商报文的处理中,这种过滤可以明显提升系统性能和分析能力。
步骤S208:若过滤后的报文与黑名单中的报文匹配,则过滤掉匹配黑名单的报文,结束该报文的过滤流程;若过滤后的报文与白名单中的报文匹配,则对匹配白名单的报文放行,结束该报文的过滤流程。
步骤S210:获取不匹配的报文的URL,对这些URL进行去除重复和打乱顺序处理。
通过对URL进行去除重复和打乱顺序处理,可以便于后续爬虫有效地爬取网页。
步骤S212:对处理后的URL进行网页爬取,获得处理后的URL对应的文本信息和/或网页状态码。
例如,使用爬虫对处理后的URL进行网页爬取,获得处理后的URL对应的文本信息和/或网页状态码。
其中,文本信息的获得可以通过获得处理后的URL对应的网页源码,再对网页源码进行语法分析后,获取处理后的URL对应的文本信息。
步骤S214:根据文本信息和/或网页状态码对不匹配的报文进行报文过滤。
包括:若网页状态码为非正常页面返回码,则过滤掉网页状态码对应的报文,并将该报文加入黑名单;若根据文本信息确定URL对应的网页正文的字符数少于第二设定阈值、和/或网页正文无标题、和/或网页正文无文档属性信息,则过滤掉文本信息对应的报文,并将该报文加入黑名单。其中,第二设定阈值可以由本领域技术人员根据实际情况适当设置,本发明对此不作限制。
例如,对于不匹配的报文的URL使用爬虫技术爬取相应页面并提取网页内容,返回URL对应的文本信息和/或网页状态码。其中,爬虫提取页面时向相应的服务器发送请求,得到URL对应的网页源码;根据网页源码,构建树形结构,提取网页中的文本信息,主要包括网页的正文信息,实现网页内容提取。然后,通过对爬虫返回的网页状态码进行判断,将404、406等状态码对应的报文列入黑名单,将这部分报文过滤掉;再者,针对爬取的文本信息进行分析,根据事先用训练数据得到的分类矩阵对文本信息进行分类,可以进一步得到一个URL的黑白名单列表,过滤掉黑名单列表中的URL对应的报文,放行白名单列表中的URL对应的报文。其中,根据文本信息中的正文提取的结果,程序会根据相应特征建立一个数据向量,用分类矩阵乘以这个向量,大于某一阈值则认为属于白名单,否则认为属于黑名单。
当前运营商接入的报文数量巨大,且非用户主观访问报文通常是正常报文的几十倍。爬取这些垃圾报文并提取网页内容影响系统性能和效率,且掺杂的垃圾报文也会影响依赖于网页爬取内容的网页分类等功能的性质。而通过研究发现,通常情况下正常用户访问URL在设定时间段如两天的报文中有较大的重合比率,在爬取URL的网页源码htmlcode并从中提取URL正文时,增加对网页黑白名单判断的功能,从而在后续的报文中实现黑白名单的分类。通过本实施例,采用预测的方法,对第一过滤规则和黑白名单过滤后的报文进行页面爬取、正文分析,实现对垃圾报文和正常报文的识别,从而达到对底层数据清洗的目的。
由于系统的封闭性,即一定时期内(如一周)判定为黑名单或白名单的部分不会再判定,因此需提高保证识别准确率。在本实施例的判定规则下,黑白名单的识别准确率都能达到95%以上,因此可以有效保证识别效果。另外,在召回率方面,对于当天数据的分析发现,约有10%的URL是无法判定黑白名单的,而黑白名单比率约为2:1,因此黑名单召回率在85%-100%,白名单召回率在67%-100%。统计发现,通过本实施例的过滤方案,可以减少大约30%的新增报文处理,其中滤掉的黑名单大约20%,白名单约40%,相当于提升了系统约50%的处理能力。如果进一步考虑通过自学习规则,建立黑名单的识别规则,则可以进一步提高过滤效果。
实施例三
参照图3,示出了根据本发明实施例三的一种报文过滤方法的步骤流程图。
本实施例的报文过滤方法包括以下步骤:
步骤S302:使用第一过滤规则对报文进行初步过滤。
本实施例中,根据URL后缀以及一些其他规则,过滤一定格式的URL,比如.jpg,.css等非文本格式的URL。
步骤S304:使用黑白名单对初步过滤后的报文进行进一步过滤。
包括:对经过初步过滤的报文先进行黑白名单判断,如果命中黑名单则过滤,命中白名单则返回历史白名单中的相应数据,跳过后续网页分析。这个过滤可以通过两个bloomfilter(布隆过滤器)实现。
步骤S306:对使用黑白名单过滤后的报文进行网页爬取。
其中,系统将接入的运营商数据按照一定格式存储,根据对应的格式从运营商数据的报文格式中提取出URL,经过预处理的去除重复,顺序打乱后进入使用爬虫进行爬取阶段,向URL的服务器抓取数据,并返回URL对应的网页源码htmlcode以及相应的网页状态码。
步骤S308:对网页爬取结果进行正文提取,根据正文提取结果进行报文过滤。
包括:对多对爬虫得到的网页爬取结果进行分析,可以先通过URL的返回码即网页状态码将404等情况列入黑名单;对未抓取成功的URL可以设置重复抓取的期限(如3天),始终未成功的将被抛弃;将确定抓取成功的部分的htmlcode输入正文解析的程序进行语法分析。通过对htmlcode的语法分析,提取其各个节点的文本信息,从而得到其中正文显示的内容、以及标题title、是否主页、更新时间等信息。
通过对这些信息的分析,按照一定规则将内容过少如抽取到的网页各个段内容字符数均少于一定阈值,或抽取到的网页正文段数总体字符少于一定阈值;和/或无标题;和/或无meta(meta是网页源码中的一个字段,主要用来描述网页文档的属性)信息的URL列入黑名单并过滤掉相对应的报文。以对当天报文进行报文过滤为例,经过上述步骤后,则可确定当天报文中过滤掉的报文,进而输出当天报文的黑白名单;该黑白名单输出后可以与往期黑白名单合并,形成设定时间段如最近一周的黑白名单,将该设定时间段的黑白名单加入bloomfilter(布隆过滤器),可以作为对后续的报文进行过滤处理的规则或依据。
例如,以北京东单的数据为例,接入的运营商流量首先经过PTU(PacketTransmitUnit)规则(相当于第一过滤规则)过滤,过滤掉从URL维度可以判断为黑名单的报文;再用历史生成的黑白名单过滤当天的报文,对于匹配黑名单的报文直接过滤;对于匹配白名单的报文,跳过爬取、抓正文流程;将剩下的报文按URL取PV>2的部分;将PV>2的URL进行爬虫,正文提取等处理流程;根据正文提取得到的html内容树形结构,并用一个分类矩阵,得到每个URL对应的黑白名单结果,并将该结果汇总到历史黑白名单中。
因为运营商数据中的get报文大约是正常访问报文的70-80倍,通过本实施例,过滤掉这些冗余信息大大减少了系统对硬盘,内存等硬件资源的消耗;并且,每天的互联网数据很大,进行这些过滤可以大大减少系统对额外数据的处理工作,且保证了后续数据挖掘处理流程的有效性。
实施例四
参照图4,示出了根据本发明实施例四的一种报文过滤装置的结构框图。
本实施例的报文过滤装置包括:第一过滤模块402,用于使用第一过滤规则对报文进行过滤,过滤掉报文中符合设定格式的报文;判断模块404,用于判断过滤后的报文是否与黑名单或白名单中的报文相匹配;获取模块406,用于若判断模块404的判断结果为不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;第二过滤模块408,用于根据文本信息和/或网页状态码对不匹配的报文进行报文过滤。
优选地,判断模块404,用于判断过滤后的报文的PV量是否大于第一设定阈值;对过滤后的报文中,PV量大于第一设定阈值的报文进行是否与黑名单或白名单中的报文相匹配的判断。
优选地,获取模块406,用于若判断模块404的判断结果为不匹配,则获取不匹配的报文的URL,对其进行去除重复和打乱顺序处理;对处理后的URL进行网页爬取,获得处理后的URL对应的网页源码和/或网页状态码;若获得到处理后的URL对应的网页源码,则对网页源码进行语法分析,获取处理后的URL对应的文本信息。
优选地,第二过滤模块408,用于若网页状态码为非正常页面返回码,则过滤掉网页状态码对应的报文,并将报文加入黑名单;若根据文本信息确定URL对应的网页正文的字符数少于第二设定阈值、和/或网页正文无标题、和/或网页正文无文档属性信息,则过滤掉文本信息对应的报文,并将报文加入黑名单。
优选地,本实施例的报文过滤装置还包括:匹配模块410,用于若判断模块404判断过滤后的报文与黑名单中的报文匹配,则过滤掉匹配的报文;若判断模块404判断过滤后的报文与白名单中的报文匹配,则对匹配的报文放行。
优选地,第一过滤模块402,用于根据报文的URL使用第一过滤规则对报文进行过滤,过滤掉报文中URL与设定格式的URL相匹配的报文。
本实施例的报文过滤装置用于实现前述多个方法实施例中相应的报文过滤方法,并具有相应的报文过滤方法的有益效果,在此不再赘述。
本发明提供了一种报文过滤方案,首先根据第一过滤规则、黑白名单规则对报文进行过滤,对于过滤后获取到的报文的URL,向URL的服务器发起爬虫抓取;然后,对爬虫结果进行语法分析,进而获取到各个节点相应的文本信息;并根据一定规则(内容较少或者无标题无meta)减少相应的URL信息或将其加入黑名单中,从而提高报文过滤效率。通过本发明,采用预测的方法,通过对报文URL的页面爬取,正文分析,实现对垃圾报文和正常报文的识别,从而达到对底层数据清洗的目的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种报文过滤方法,其特征在于,包括:
使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;
判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;
若不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码;
根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤;
其中,若判断过滤后的所述报文与所述黑名单中的报文匹配,则过滤掉匹配的所述报文;
若判断过滤后的所述报文与所述白名单中的报文匹配,则对匹配的所述报文放行;
所述获取不匹配的报文对应的文本信息和/或网页状态码的步骤包括:
获取所述不匹配的报文的统一资源定位符URL,对其进行去除重复和打乱顺序处理;
对所述处理后的URL进行网页爬取,获得所述处理后的URL对应的网页源码和/或网页状态码;
若获得到所述处理后的URL对应的网页源码,则对所述网页源码进行语法分析,获取所述处理后的URL对应的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配的步骤包括:
判断过滤后的所述报文的页面浏览PV量是否大于第一设定阈值;
对过滤后的所述报文中,PV量大于所述第一设定阈值的报文进行所述是否与黑名单或白名单中的报文相匹配的判断。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤的步骤包括:
若所述网页状态码为非正常页面返回码,则过滤掉所述网页状态码对应的报文,并将所述报文加入所述黑名单;
若根据所述文本信息确定所述URL对应的网页正文的字符数少于第二设定阈值、和/或所述网页正文无标题、和/或所述网页正文无文档属性信息,则过滤掉所述文本信息对应的报文,并将所述报文加入所述黑名单。
4.根据权利要求1所述的方法,其特征在于,所述使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文的步骤包括:
根据报文的URL使用第一过滤规则对报文进行过滤,过滤掉所述报文中URL与设定格式的URL相匹配的报文。
5.一种报文过滤装置,其特征在于,包括:
第一过滤模块,用于使用第一过滤规则对报文进行过滤,过滤掉所述报文中符合设定格式的报文;
判断模块,用于判断过滤后的所述报文是否与黑名单或白名单中的报文相匹配;
获取模块,用于若所述判断模块的判断结果为不匹配,则获取不匹配的报文对应的文本信息和/或网页状态码,具体为:若所述判断模块的判断结果为不匹配,则获取所述不匹配的报文的统一资源定位符URL,对其进行去除重复和打乱顺序处理;对所述处理后的URL进行网页爬取,获得所述处理后的URL对应的网页源码和/或网页状态码;若获得到所述处理后的URL对应的网页源码,则对所述网页源码进行语法分析,获取所述处理后的URL对应的文本信息;
第二过滤模块,用于根据所述文本信息和/或所述网页状态码对所述不匹配的报文进行报文过滤;
其中,若判断过滤后的所述报文与所述黑名单中的报文匹配,则过滤掉匹配的所述报文;
若判断过滤后的所述报文与所述白名单中的报文匹配,则对匹配的所述报文放行。
6.根据权利要求5所述的装置,其特征在于,所述判断模块,用于判断过滤后的所述报文的页面浏览PV量是否大于第一设定阈值;对过滤后的所述报文中,PV量大于所述第一设定阈值的报文进行所述是否与黑名单或白名单中的报文相匹配的判断。
7.根据权利要求6所述的装置,其特征在于,所述第二过滤模块,用于若所述网页状态码为非正常页面返回码,则过滤掉所述网页状态码对应的报文,并将所述报文加入所述黑名单;若根据所述文本信息确定所述URL对应的网页正文的字符数少于第二设定阈值、和/或所述网页正文无标题、和/或所述网页正文无文档属性信息,则过滤掉所述文本信息对应的报文,并将所述报文加入所述黑名单。
CN201210589720.7A 2012-12-28 2012-12-28 报文过滤方法与装置 Active CN103078854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210589720.7A CN103078854B (zh) 2012-12-28 2012-12-28 报文过滤方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210589720.7A CN103078854B (zh) 2012-12-28 2012-12-28 报文过滤方法与装置

Publications (2)

Publication Number Publication Date
CN103078854A CN103078854A (zh) 2013-05-01
CN103078854B true CN103078854B (zh) 2016-04-13

Family

ID=48155258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210589720.7A Active CN103078854B (zh) 2012-12-28 2012-12-28 报文过滤方法与装置

Country Status (1)

Country Link
CN (1) CN103078854B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105591997B (zh) * 2014-10-20 2019-04-09 杭州迪普科技股份有限公司 一种url分类过滤方法及装置
CN107870925B (zh) * 2016-09-26 2021-08-20 华为技术有限公司 一种字符串过滤方法和相关装置
CN106657055B (zh) * 2016-12-19 2019-11-15 北京网御星云信息技术有限公司 一种报文过滤方法及系统
CN106790313A (zh) * 2017-03-31 2017-05-31 杭州迪普科技股份有限公司 入侵防御方法及装置
CN106961443A (zh) * 2017-04-26 2017-07-18 杭州迪普科技股份有限公司 一种报文的过滤方法及装置
CN110516066B (zh) * 2019-07-23 2022-04-15 同盾控股有限公司 一种文本内容安全防护方法和装置
CN110866037B (zh) * 2019-11-19 2022-09-20 中国民航信息网络股份有限公司 一种报文的过滤方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN102004770A (zh) * 2010-11-16 2011-04-06 杭州迪普科技有限公司 一种网页审计方法及装置
CN102098229A (zh) * 2011-03-04 2011-06-15 北京星网锐捷网络技术有限公司 统一资源定位符优化审计的方法、装置和网络侧设备
CN102364897A (zh) * 2011-09-30 2012-02-29 北京亿赞普网络技术有限公司 一种网关级在线网络报文检测过滤方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311499B2 (en) * 2000-11-13 2016-04-12 Ron M. Redlich Data security system and with territorial, geographic and triggering event protocol

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN102004770A (zh) * 2010-11-16 2011-04-06 杭州迪普科技有限公司 一种网页审计方法及装置
CN102098229A (zh) * 2011-03-04 2011-06-15 北京星网锐捷网络技术有限公司 统一资源定位符优化审计的方法、装置和网络侧设备
CN102364897A (zh) * 2011-09-30 2012-02-29 北京亿赞普网络技术有限公司 一种网关级在线网络报文检测过滤方法及装置

Also Published As

Publication number Publication date
CN103078854A (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
CN103078854B (zh) 报文过滤方法与装置
CN101957834B (zh) 一种基于用户特征进行内容推荐的方法与设备
CN102279894B (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN107451149B (zh) 流量数据查询任务的监控方法及其装置
CN102043862B (zh) 网页数据定向抓取方法
CN101814083A (zh) 网页自动分类方法和系统
CN108737423A (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN101388013A (zh) 用于网络文件聚类的方法和系统
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN103258280A (zh) 价格比较方法及系统
CN101620608A (zh) 信息采集方法及系统
CN102375813B (zh) 搜索引擎排重系统及方法
CN110147360A (zh) 一种数据整合方法、装置、存储介质和服务器
CN102567494A (zh) 网站分类方法及装置
CN101071445A (zh) 分类样本集的优化方法和内容相关广告服务器
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
CN101957968A (zh) 基于Hadoop的网上交易服务聚合方法
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN111859070A (zh) 一种海量互联网新闻清洗系统
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
CN103455593A (zh) 一种基于社交网络的服务竞争性实现系统及方法
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
Wahsheh et al. A link and content hybrid approach for Arabic web spam detection
CN110941757A (zh) 一种基于大数据的政策信息查询推送系统及方法
CN103605742A (zh) 识别网络资源实体目录页的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201014

Address after: 28-2, building 2, Zhongyu Plaza, No. 90, Hongjin Avenue, Longxi street, Yubei District, Chongqing

Patentee after: Chongqing Qianbao Technology Service Co., Ltd

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: BEIJING IZP NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right