CN105591997B - 一种url分类过滤方法及装置 - Google Patents

一种url分类过滤方法及装置 Download PDF

Info

Publication number
CN105591997B
CN105591997B CN201410558130.7A CN201410558130A CN105591997B CN 105591997 B CN105591997 B CN 105591997B CN 201410558130 A CN201410558130 A CN 201410558130A CN 105591997 B CN105591997 B CN 105591997B
Authority
CN
China
Prior art keywords
url
webpage
classification
web
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410558130.7A
Other languages
English (en)
Other versions
CN105591997A (zh
Inventor
陈忠良
谭天
吴庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou DPTech Technologies Co Ltd
Original Assignee
Hangzhou DPTech Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou DPTech Technologies Co Ltd filed Critical Hangzhou DPTech Technologies Co Ltd
Priority to CN201410558130.7A priority Critical patent/CN105591997B/zh
Publication of CN105591997A publication Critical patent/CN105591997A/zh
Application granted granted Critical
Publication of CN105591997B publication Critical patent/CN105591997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种URL分类过滤方法及装置,所述方法包括:当收到用户主机发送的网页请求时,获取所述网页请求中的URL,根据预设的URL分类表确定所述URL的类别;当所述URL的类别未知时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;当收到服务器返回的网页时,确定所述网页的URL是否在所述未知记录表中;当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中;当所述网页的类别符合过滤策略时,将所述返回的网页转发至用户主机。因此本发明可以减少URL分类表对网络设备内存的占用,提高查找效率。

Description

一种URL分类过滤方法及装置
技术领域
本发明涉及通信技术,尤其涉及一种URL分类过滤方法及装置。
背景技术
目前,互联网中存在很多不良信息,因此需要对用户访问的网页进行网页过滤。常用的网页过滤方法是对网页的URL(Uniform Resource Locator,统一资源定位符)进行分类过滤。
现有技术中,进行URL分类过滤可以通过获取足够多的网页来获取网页中的URL,并对这些URL进行分类,然后建立一个网页的URL及URL所属类别的映射关系表(简称URL分类表)。当执行过滤的网络设备收到一个网页请求时,可以获取该网页对应的URL,并通过查找所述URL分类表来确定所述URL的类别,再结合过滤策略便可以实现对指定类别URL的过滤。通常为了保证过滤的准确性就需要在网络设备上设置一个大容量的URL分类表,但这会占用所述网络设备的大部分内存,致使该网络设备的查找效率较低。
发明内容
有鉴于此,本发明提供一种URL分类过滤方法及装置来解决网络设备查找效率较低的问题。
一种统一资源定位符URL分类过滤方法,所述方法应用于网络设备,所述方法包括:
当收到用户主机发送的网页请求时,获取所述网页请求中的URL,根据预设的URL分类表确定所述URL的类别;
当所述URL的类别未知时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
当收到服务器返回的网页时,确定所述网页的URL是否在所述未知记录表中;
当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中;
当所述网页的类别符合过滤策略时,将所述返回的网页转发至用户主机。
基于相同的构思,本发明提供一种URL分类过滤装置,所述装置应用于网络设备,所述装置包括:
第一确定单元,用于当收到用户主机发送的网页请求时,根据预设的URL分类表确定所述网页请求中的URL的类别;
第一转发单元,用于当所述URL的类别未知时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
第二确定单元,用于当收到服务器返回的网页时,确定所述网页的URL是否在所述未知记录表中;
类别添加单元,用于当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述返回的网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中;
第二转发单元,用于当所述返回的网页的类别符合过滤策略时,将所述返回的网页转发至用户主机。
由此可见,本发明可以通过在网络设备中设置一个容量较少的URL分类表来区分网页请求中的URL的类别,并对于URL的类别未知的网页请求进行转发;然后在返回的网页中,对URL的类别未知的网页根据网页分类模型进行类别确定,并结合过滤策略对返回的网页进行URL分类过滤。相对于现有技术,本发明可以减少URL分类表对网络设备内存的占用,并且可以根据设备部署环境自适应的更新URL分类表,从而能够提高网络设备的查找效率。
附图说明
图1是本发明提供的一种URL分类过滤方法的处理流程图;
图2是本发明实施例中URL分类过滤的组网示意图;
图3是本发明实施例中另一种URL分类过滤方法的处理流程图;
图4是本发明实施例中又一种URL分类过滤方法的处理流程图;
图5是本发明实施例中一种URL分类过滤装置的结构示意图;
图6是本发明实施例中另一种URL分类过滤装置的结构示意图。
具体实施方式
为解决上述问题,本发明提供一种URL分类过滤方法,可以通过在网络设备中设置一个容量较少的URL分类表来区分网页请求中的URL的类别,并对于URL的类别未知的网页请求进行转发;然后在返回的网页中,对URL的类别未知的网页根据网页分类模型进行类别确定,并结合过滤策略对返回的网页进行URL分类过滤。因此可以减少URL分类表对网络设备内存的占用,并且可以根据设备部署环境自适应的更新URL分类表,从而能够提高网络设备的查找效率。
参见图1,本实施例提供的一种URL分类过滤方法的处理流程图。其中,所述URL分类过滤方法应用于网络设备,例如防火墙设备、安全审计设备、流量监控设备等,所述过滤方法包括:
步骤101、当收到用户主机发送的网页请求时,获取所述网页请求中的URL,根据预设的URL分类表确定所述URL的类别;
在本实施例中,当网络设备收到用户主机发送的网页请求时,首先要获取该网页请求中的URL,再根据预设的URL分类表确定所述URL的类别。需要说明的是,本实施例中所述URL分类表,可以是预先设置在网络设备内存中的一个包含常用URL类别的分类表,也可以是管理员根据实际应用情况对所述预先设置的URL分类表进行适当修改后的分类表。上述URL分类表通常包含一些常用的URL分类,相对于现有技术中的URL分类表,本发明URL分类表的容量更小,因此仅需占用很小的内存空间。
在所述URL分类表中通常可包括URL以及URL的类别的对应关系。然而由于该URL分类表一般只包含常用的URL分类,涉及并不全面,因此在查找URL对应的类别时,查找的结果还可能会出现URL的类别未知的情况。
步骤102、当所述URL的类别未知时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
在本实施例中,网络设备查找所述URL分类表后,确定所述URL不在所述URL分类表中,说明所述URL的类别未知。网络设备对于类别未知的URL无法进行过滤,于是,可以将所述类别未知的URL对应的所述网页请求转发至服务器,以保证用户主机与服务器之间的正常通信。
步骤103、当收到服务器返回的网页时,确定所述网页的URL是否在所述未知记录表中;
在本实施例中,当服务器收到所述网络设备转发的网页请求后,会向网络设备返回所述网页请求中用户主机所请求的网页,网页中也包含着该网页的URL。由于上述步骤102的网页请求在转发给服务器时没有进行URL分类过滤,相对应的,在服务器返回的网页中中也可能包含未分类过滤的网页。因此在所述网络设备将服务器返回的网页转发给用户主机之前,还需要对所述返回的网页进行分类过滤。于是,该网络设备会通过本机保存的未知记录表确定该网页的URL的类别是否未知,从而筛选出未进行URL分类过滤的网页。
步骤104、当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中;
在本实施例中,若该网络设备通过查找所述未知记录表,确定所述网页的URL在所述未知记录表中,则说明所述网页的URL的类别未知。已知网页分类模型是通过大量不同类别的网页,对网络设备自身的分类学习算法训练而成,可以认为该网页分类模型包含的类别比较全面,因此网络设备可以根据自身预设的网页分类模型确定所述网页的类别。确定所述网页的类别后,网络设备可以将该网页的类别以及与网页URL的对应关系添加到所述URL分类表中,从而可以使网络设备根据部署环境自适应的更新URL分类表。
步骤105、当所述网页的类别符合过滤策略时,将所述返回的网页转发至用户主机。
网络设备确定了所述网页的类别后,还需确定所述网页的类别是否符合预设的过滤策略,若符合,则将该返回的网页转发至用户主机。
由此可见,可以通过在网络设备中设置一个容量较少的URL分类表来区分网页请求中的URL的类别,并对于URL的类别未知的网页请求进行转发;然后在返回的网页中,对URL的类别未知的网页根据网页分类模型进行类别确定,并结合过滤策略对返回的网页进行URL分类过滤。相对于现有技术,本发明可以减少URL分类表对网络设备内存的占用,并可以根据设备部署环境自适应的更新URL分类表,从而能够提高网络设备的查找效率。
在前述实施例的中,执行完步骤101后,当所述网络设备根据预设的URL分类表确定所述URL的类别已知时,网络设备可以查找到该URL的类别,并可以进一步判断所述URL的类别是否符合所述过滤策略,若符合过滤策略,则将所述网页请求转发至服务器。
在执行完步骤103后,当所述网络设备确定服务器返回网页的URL未保存在所述未知记录表中时,说明该网页的URL可能是类别已知的URL,并且由于该返回的网页对应网页请求曾被发送至服务器,说明该返回的网页符合所述过滤策略,因此可以将所述返回的网页转发至用户主机而无需重新进行URL分类过滤。这样一来,可以简化网络设备对网页的过滤过程,提高转发效率。
在本发明可选的实施例中,所述URL分类表中还可以包括每种URL对应的时间戳以及该时间戳的有效期。所述时间戳可以为URL及URL类别加入所述URL分类表的时间,所述有效期可以设置为6个月(即6*30天)。在优选的实施例中,所述时间戳的有效期时长根据所述URL类别的可信度而定。举例来说,可以将URL的有效期分为三个等级:自定义URL(即管理员修改的分类)具有最高的可信度,有效时间可以设置为“永久”;预设URL的可信度次之,有效期时间可以设为6个月;自动更新的URL的可信度最小,有效期时间可以设为3个月(即3*30天)。上述划分的三个等级仅作为本实施例中的示例性说明,实际应用中可根据实际需求而定,此处不作限制。
在URL分类表中加入时间戳和有效期后,网络设备执行上述URL分类过滤方法时,还需确定URL的类别是否有效,即确定URL分类表中的URL的类别对应的时间戳是否处于有效期中。
在前述实施例中,执行步骤101后,当网络设备确定所述URL的类别未知或所述URL的时间戳不在有效期内时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器。在前述实施例中,执行完步骤103后,若确定所述网页的URL保存在所述未知记录表中时,说明所述网页的URL的类别未知或是时间戳不在有效期内,因此网络设备可以根据所述网页分类模型确定所述网页的类别,将所述网页的类别及网页的URL的对应关系更新到所述URL分类表中,并重新设置时间戳。此时若所述URL分类表中在先保存过该网页的URL,则重新设置的URL的类别可以使用原来的有效期,也可以重新设置有效期。
因此,本发明通过设置时间戳和有效期可以及时更新URL的分类状况,从而可以提高URL分类过滤的准确性。
在本发明可选的实施例中,网络设备可以自动为所述未知记录表中保存的每个URL设置老化时间;当URL保存到所述未知记录表中时开始计时。
当所述未知记录表中的URL到达老化时间时,可认为该URL对应的网页请求无回应,因此可将到达老化时间的URL从所述未知记录表中删除,从而释放缓存。
当确定所述网页的URL在所述未知记录表中且未到达老化时间时,根据网页分类模型确定所述网页的类别,将所述网页的URL及网页的类别添加到所述URL分类表中,并将所述网页的URL从所述未知记录表中删除。
因此,本发明可以通过为未知记录表设置老化机制来避免网络设备的缓存的长期占用,并提高网络设备的查找速率。
在本发明可选的实施例中,执行步骤101前,所述网络设备还可以获取用户主机发送的网页请求的URL,并确定所述URL是否在特殊列表(表1)中,若是则将所述网页请求转发至服务器。所述特殊列表通常是通过用户反馈机制,记录不同用户主机上对URL的自定义处理。
所谓用户反馈机制的具体实施过程如下:
当服务器返回的网页不符合所述过滤策略时,网络设备将该网页禁行,即丢弃该网页。然后向用户主机发送携带所述禁行标签的响应页面。所述响应页面中可以包括禁行网页的信息,并提示用户可以向管理员反馈用户需求。用户主机上显示该响应页面时,若用户需要获取该网页,则可以通过用户主机向管理员发送取消禁行标签的申请,并由管理员判断该申请是否可以通过。当用户主机发送的取消禁行标签申请通过时,网络设备则可以将所述网页的URL添加至所述特殊列表,如表1所示:
表1
根据表1可知,特殊列表中不同的用户主机对同一URL的处理结果也会不同,因此网络设备中要将用户主机的身份标识与该用户主机对URL的处理结果进行关联,从而可以对不同用户主机实现不同的特殊过滤处理。
设置了特殊列表后,当网络设备再收到用户主机的网页请求时,则首先查找所述用户主机对应的特殊列表,确定所述用户主机所请求网页的URL是否在所述用户主机对应的特殊列表中;若是则将所述网页请求转发至服务器;否则继续执行上述步骤101。例如,当用户主机PC1和PC2都发送URL为“shuaijiao.com/show/17763”的网页请求时,根据上述特殊列表,用户主机PC1对应的特殊列表中没有对URL为“shuaijiao.com/show/17763”的记录,于是按照过滤策略的过滤结果,禁行用户主机PC1的网页请求;但在表1中,用户主机PC2对应的特殊列表中记录的URL为“shuaijiao.com/show/17763”的处理结果为“放行”,因此网络设备可以将用户主机PC2的网页请求转发至服务器,而无需再执行步骤101至104。可见增添了用户反馈机制和特殊列表后,可以满足用户个性化的需求,并能够提高转发效率。
下面结合附图对本发明的具体实施方式进行详细阐述。
请参见图2,是本实施例中URL分类过滤组网示意图。当用户要浏览网页时,可以通过用户主机发送网页请求,并经过网络设备对网页请求进行URL分类过滤后,再转发到服务器上,以使服务器能够获取用户主机的网页请求。本发明提供的过滤方法可以应用在上述网络设备中,当网络设备收到用户主机发送的网页请求时(如图2中的箭头①所示),对该网页请求进行URL分类过滤的处理流程如图3所示,其中包括:
步骤301、网络设备收到用户主机发送的网页请求时,获取该请求中的URL;
假设用户主机发送的网页请求为QQ聊天页面,所述聊天页面的URL为“im.qq.com/qplus”。
步骤302、网络设备判断该URL是否在特殊列表中,若是,则执行步骤303;若否,则执行步骤304;
当网络设备获取到所述网页请求的URL“im.qq.com/qplus”后,可以首先在本机内存中查找该用户主机对应的特殊列表(假设特殊列表如表1所示),当用户主机为PC2时,按照特殊列表中PC2对应的记录,查找URL为“im.qq.com/qplus”对应的处理结果。
步骤303、网络设备按照查找到的处理结果进行处理,并结束;
若网络设备在特殊列表中查找到该URL相关的记录,则按照记录的处理结果进行处理。当处理结果为“放行”时,网络设备可将所述网页请求转发至服务器(如图2中箭头②所示);当处理结果为“禁行”时,网络设备可将所述网页请求丢弃(如图2中箭头③所示);处理完成后结束进程。
步骤304、网络设备在URL分类表中确定该URL的类别及其类别是否有效;
由于上述URL在特殊列表中未查找到相应的记录,因此说明该URL非用户要求特殊处理的URL,因此在URL分类表中确定该URL的类别及类别的时间戳是否在有效期内。所述URL分类表在一般情况下包括两个表,一个是类别索引表,如表2所示;另一个URL分类表,如表3所示。通过类别索引表(表2)可以将类别的内容进行简化,从而可以减少URL分类表的空间占用。
类别 类别索引
成人 1
色情 2
赌博 3
暴力 4
恶意网站 5
网络安全 6
软件下载 7
门户网站 8
邮件 9
聊天 10
表2
URL 类别索引 时间戳 有效期
book.sexjk.com/201106/book_40935.html 1 2014/9/17 6*30
bbs.voc.com.cn/topic-1760779-1-1.html 2 2014/9/17 6*30
bbs.zhcw.com/thread-1371820-4-3.html 3 2014/9/17 6*30
shuaijiao.com/show/17763 4 2014/9/17 6*30
wbzd.net.ru/thread-6692-1-1.html 5 2014/9/17 6*30
bbs.windows7en.com/thread-82045.html 6 2014/9/17 6*30
bbs.realqwh.cn/read-htm-tid-195629-uid-4053.html 7 2014/9/17 6*30
digi.it.sohu.com/20100310/n270718405.shtml 8 2014/9/17 6*30
db.2u.com.cn/summarize14471.html 9 2014/9/17 3*30
im.qq.com/qplus 10 2014/9/17 3*30
表3
步骤305、当URL的类别未知或类别的时间戳无效时,网络设备将所述网页请求转发至服务器,将所述URL保存在未知记录表,并结束;
将URL“im.qq.com/qplus”在上述URL分类表(表3)中查找对应的类别,假设结果没有与该URL匹配的类别,可以说明该URL的类别未知;或者是该URL的类别已知,但类别的时间戳不在有效期内,也认为该URL的类别未知。因此将所述网页请求转发至服务器(图2中箭头②所示),并将URL“im.qq.com/qplus”保存到未知记录表,然后结束进程。
步骤306、当确定该URL的类别已知且时间戳有效时,判断该URL的类别是否符合过滤策略,若符合,则执行步骤307;若不符合,则执行步骤308;
将URL“im.qq.com/qplus”在上述URL分类表(表3)中查找对应的类别,能够查找到与该URL匹配的类别为“聊天”,且URL“im.qq.com/qplus”对应的时间戳为“2014/9/17”,其有效期为“3*30”即3个月,根据现在的系统时间(假设为2014年9月23日)可以确定该时间戳在有效期内,也就说明该类别“聊天”的分类正确。然后根据过滤策略进行URL分类过滤。
步骤307、网络设备将所述网页请求转发至服务器,并结束;
网络设备可将符合过滤策略的网页请求转发至服务器(图2中箭头②所示)。
步骤308、网络设备禁行网页请求,并向用户主机发送响应页面;
假设某公司不允许网络聊天,则其过滤策略中“聊天”类别是被禁行的,因此网络设备会禁行该网页请求,即丢弃该网页请求(如图2中箭头③所示)。但由于本实施例中添加了用户反馈机制,因此在执行禁行该网页请求同时,网络设备会根据该网页请求生成禁行标签,并向用户主机PC2发送一个携带所述禁行标签的响应页面;当用户主机PC2收到该响应页面时,可向网络设备发送取消禁行标签申请,交互过程如图2中箭头⑦所示。
步骤309、当用户主机根据所述响应页面发送的取消禁行标签申请通过时,将所述网页请求的URL添加至所述特殊列表;
当管理员收到用户主机PC2发送的取消禁行标签申请后,可以由判断上述申请是否允许通过。当申请通过,说明用户主机PC2的用户不希望该网页请求被禁行且管理员也同意该请求,因此将该URL“im.qq.com/qplus”以及对应的处理结果(放行)加入到上述的特殊列表(表1)中PC2对应的表项下,以便该用户主机PC2再次发送同样的URL“im.qq.com/qplus”时,将其直接放行处理。
请参见图2,根据前述实施例,当服务器收到网络设备转发的网页请求时,根据现有协议进行响应,并将所请求的网页反馈到网络设备上,而该返回的网页需要经过网络设备的URL分类过滤后,再转发到用户主机上,以使用户可以访问该网页。如图2中的箭头④所示,当网络设备收到服务器返回的网页时,对该网页进行URL分类过滤的处理流程如图4所示,其中包括:
步骤401、网络设备接收服务器返回的网页;
根据前述实施例中网络设备发送的网页请求,服务器返回的网页为QQ聊天页面,其中该网页的URL即“im.qq.com/qplus”。
步骤402、网络设备判断该URL是否在特殊列表中,若是,则执行步骤403;若否,则执行步骤404;
服务器返回的网页中,除了携带用户主机所述网页的URL,通常还会携带用户主机的身份标识(例如MAC地址等),以使网络设备可以根据该标识确定该URL的目标用户主机是PC2。于是网络设备可以进一步判断该网页的URL“im.qq.com/qplus”是否记录在上述特殊列表(表1)中PC2对应的表项下。
步骤403、网络设备按照特殊列表中的处理结果进行处理,并结束;
假设在上述特殊列表中PC2对应的表项下查找到URL“im.qq.com/qplus”的处理结果后,则网络设备可以根据记录的处理结果进行处理。当处理结果为“放行”时,网络设备可将该网页转发至用户主机(图2中箭头⑤所示);当处理结果为“禁行”时,网络设备可将该网页丢弃(图2中箭头⑥所示),处理完成后结束进程。
步骤404、网络设备判断该URL是否在未知记录表中,若是,则执行步骤405;若否,则执行步骤406;
若网络设备在上述特殊列表(表2)中PC2对应的表项下未查找到URL“im.qq.com/qplus”的相应记录,说明URL为“im.qq.com/qplus”的网页无需特殊处理,那么则继续判断该URL“im.qq.com/qplus”是否记录在上述实施例中所述的未知记录表中。
步骤405、网络设备确定该URL的类别,将其加入URL分类表并设置时间戳,删除未知记录表中相关记录,执行步骤407;
当网络设备在所述未知记录表中查找到该URL“im.qq.com/qplus”的记录时,说明该URL“im.qq.com/qplus”的类别未知,或该URL的类别时间戳无效,因此需要通过该网络设备中预存的网页分类模型对该URL为“im.qq.com/qplus”的网页进行分类。所述分类过程为现有技术,此处不做赘述。
确定完该URL为“im.qq.com/qplus”的网页所属类别后(假设为“聊天”),将该URL“im.qq.com/qplus”及其网页所属的类别更新至所述URL分类表中(表4),并根据时间戳的设置规则为该URL设置一个时间戳(假设2014/9/23)以及时间戳的有效期(假设为3个月)。需要说明的是,当上述网页的URL的类别未知时,通过网页分类模型确定其所属的类别不论是否符合过滤策略,都可以将该URL加入到URL分类表中。然后再将未知记录表中该URL相关的记录删除,从而减小内存占用。
步骤406、网络设备将该返回的网页转发至用户主机,并结束;
当网络设备确定该URL“im.qq.com/qplus”对应的时间戳在有效期内时,说明该URL的类别有效。对于类别有效且对应的网页请求曾被放行的URL“im.qq.com/qplus”而言,可以确定该URL“im.qq.com/qplus”的类别符合过滤策略,因此网络设备可以将该返回的网页转发到用户主机(图2中箭头⑤所示),并结束进程。
步骤407、网络设备判断该网页的类别是否符合过滤策略,若符合,则执行步骤406;若不符合,则执行步骤408;
网络设备对所述网页的URL的新类别还要通过所述过滤策略进行URL分类过滤。
步骤408、网络设备禁行所述网页,并向用户主机发送响应页面;
当网络设备确定该网页的类别不符合过滤策略时,则网络设备禁行该网页,即丢弃该网页(如图2中箭头⑥所示)。同时,网络设备可根据该网页生成禁行标签,并向用户主机PC2发送一个携带所述禁行标签的响应页面;当用户主机PC2收到该响应页面时,可向管理员发送取消禁行标签申请,交互过程如图2中箭头⑦所示。
步骤409、当用户主机根据所述响应页面发送的取消禁行标签申请通过时,将所述网页的URL添加至所述特殊列表;
当管理员收到用户主机PC2发送的取消禁行标签申请后,可以判断上述申请是否通过。当申请通过时,可将该网页的URL“im.qq.com/qplus”以及对应的处理结果(放行)加入到上述的特殊列表(表1)中PC2对应的表项下,以便该用户主机PC2再次发送同样的URL为“im.qq.com/qplus”的网页时,将其转发至用户主机。
由此可见,本发明可以通过设置一个容量较少的URL分类表对已知类别的URL进行过滤,再通过对未知类别URL进行分类并实时将新的URL分类更新到URL分类表中,以提高过滤的准确性,相对于现有技术,本发明可以减少URL分类表的占用空间,并且可以根据设备部署环境自适应的更新URL分类表,从而提高查找效率。
基于相同的构思,本发明还提供一种URL分类过滤装置,所述装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,本发明的组播转发装置作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行而成。
请参考图5及图6,本发明实施例中提供的一种URL分类过滤装置500,所述装置应用于网络设备,所述装置基本运行环境包括CPU,非易失性存储器、内存、以及其他硬件,从逻辑层面上来看,所述装置500包括:
第一确定单元501,用于当收到用户主机发送的网页请求时,根据预设的URL分类表确定所述网页请求中的URL的类别;
第一转发单元502,用于当所述URL的类别未知时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
第二确定单元503,用于当收到服务器返回的网页时,确定所述网页的URL是否在所述未知记录表中;
类别添加单元504,用于当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中;
第二转发单元505,用于当所述网页的类别符合过滤策略时,将所述返回的网页转发至用户主机。
进一步的,所述第一转发单元502还用于,当所述URL的类别已知时,判断所述URL的类别是否符合所述过滤策略,若符合,则将所述网页请求转发至服务器;所述第二转发单元504还用于,当确定所述网页的URL未保存在所述未知记录表中时,则将所述返回的网页转发至用户主机。
进一步的,所述URL分类表中还包括:每种URL对应的时间戳以及该时间戳的有效期。
所述第一转发单元还用于,当确定所述URL的类别未知或所述URL的时间戳不在有效期内时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
所述类别添加单元,还用于当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中,并重新设置时间戳。
进一步的,所述装置还包括:老化设置单元,用于为所述未知记录表中保存的每个URL设置老化时间。
第一删除单元,用于当所述未知记录表中的URL到达老化时间时,将到达老化时间的URL从所述未知记录表中删除。
第二删除单元,用于当确定所述网页的URL在所述未知记录表中且未到达老化时间时,根据网页分类模型确定所述网页的类别,将所述网页的URL及网页的类别类别添加到所述URL分类表中,并将所述网页的URL从所述未知记录表中删除。
进一步的,在所述第一确定单元501前,所述装置还包括:特殊查询单元,用于当收到用户主机发送的网页请求时,获取所述网页请求中的URL,确定所述URL是否在所述特殊列表中,若是则将所述网页请求转发至服务器。
标签生成单元,用于当所述返回的网页不符合所述过滤策略时,根据所述返回的网页生成禁行标签,并向用户主机发送携带所述禁行标签的响应页面;
特殊添加单元,用于当所述用户主机根据所述响应页面发送的取消禁行标签申请通过时,则将所述网页的URL添加至所述特殊列表。
由此可见,本发明可以通过在网络设备中设置一个容量较少的URL分类表来区分网页请求中的URL的类别,并对于URL的类别未知的网页请求进行转发;然后在返回的网页中,对URL的类别未知的网页根据网页分类模型进行类别确定,并结合过滤策略对返回的网页进行URL分类过滤。相对于现有技术,本发明可以减少URL分类表对网络设备内存的占用,并且可以根据设备部署环境自适应的更新URL分类表,从而能够提高网络设备的查找效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种统一资源定位符URL分类过滤方法,所述方法应用于网络设备,其特征在于,所述方法包括:
当收到用户主机发送的网页请求时,获取所述网页请求中的URL,根据预设的URL分类表确定所述URL的类别;
当所述URL的类别未知时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
当收到服务器返回的网页时,确定所述网页的URL是否在所述未知记录表中;
当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中;
当所述网页的类别符合过滤策略时,将所述返回的网页转发至用户主机。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述URL的类别已知时,判断所述URL的类别是否符合所述过滤策略,若符合,则将所述网页请求转发至服务器;
当确定所述网页的URL未保存在所述未知记录表中时,则将所述返回的网页转发至用户主机。
3.如权利要求1所述的方法,其特征在于,所述URL分类表中还包括:
每种URL对应的时间戳以及时间戳的有效期;
所述方法还包括:
当确定所述URL的类别未知或所述URL的时间戳不在有效期内时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中,并重新设置时间戳。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
为所述未知记录表中保存的每个URL设置老化时间;
当所述未知记录表中的URL到达老化时间时,将到达老化时间的URL从所述未知记录表中删除;
当确定所述网页的URL在所述未知记录表中且未到达老化时间时,根据网页分类模型确定所述网页的类别,将所述网页的URL及网页的类别添加到所述URL分类表中,并将所述网页的URL从所述未知记录表中删除。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
在根据预设的URL分类表确定所述URL的类别前,确定所述URL是否在特殊列表中,若是则将所述网页请求转发至服务器;
当所述返回的网页不符合所述过滤策略时,根据所述返回的网页生成禁行标签,并向用户主机发送携带所述禁行标签的响应页面;
当用户主机根据所述响应页面发送的取消禁行标签申请通过时,则将所述网页的URL添加至所述特殊列表。
6.一种URL分类过滤装置,所述装置应用于网络设备,其特征在于,所述装置包括:
第一确定单元,用于当收到用户主机发送的网页请求时,根据预设的URL分类表确定所述网页请求中的URL的类别;
第一转发单元,用于当所述URL的类别未知时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
第二确定单元,用于当收到服务器返回的网页时,确定所述网页的URL是否在所述未知记录表中;
类别添加单元,用于当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述返回的网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中;
第二转发单元,用于当所述返回的网页的类别符合过滤策略时,将所述返回的网页转发至用户主机。
7.如权利要求6所述的装置,其特征在于,
所述第一转发单元还用于,当所述URL的类别已知时,判断所述URL的类别是否符合所述过滤策略,若符合,则将所述网页请求转发至服务器;
所述第二转发单元还用于,当确定所述网页的URL未保存在所述未知记录表中时,则将所述返回的网页转发至用户主机。
8.如权利要求6所述的装置,其特征在于,所述URL分类表中还包括:
每种URL对应的时间戳以及时间戳的有效期;
所述第一转发单元还用于,当确定所述URL的类别未知或所述URL的时间戳不在有效期内时,将所述URL保存在未知记录表中,并将所述网页请求转发至服务器;
所述类别添加单元,还用于当确定所述网页的URL在所述未知记录表中时,根据网页分类模型确定所述网页的类别后,将所述网页的类别及所述网页的URL的对应关系添加到所述URL分类表中,并重新设置时间戳。
9.如权利要求6所述的装置,其特征在于,所述装置还包括:
老化设置单元,用于为所述未知记录表中保存的每个URL设置老化时间;
第一删除单元,用于当所述未知记录表中的URL到达老化时间时,将到达老化时间的URL从所述未知记录表中删除;
第二删除单元,用于当确定所述网页的URL在所述未知记录表中且未到达老化时间时,根据网页分类模型确定所述网页的类别,将所述网页及网页的类别添加到所述URL分类表中,并将所述网页的URL从所述未知记录表中删除。
10.如权利要求6所述的装置,其特征在于,在所述第一确定单元前,所述装置还包括:
特殊查询单元,用于当收到用户主机发送的网页请求时,获取所述网页请求中的URL,确定所述URL是否在特殊列表中,若是则将所述网页请求转发至服务器;
标签生成单元,用于当所述返回的网页不符合所述过滤策略时,根据所述返回的网页生成禁行标签,并向用户主机发送携带所述禁行标签的响应页面;
特殊添加单元,用于当所述用户主机根据所述响应页面发送的取消禁行标签申请通过时,则将所述网页的URL添加至所述特殊列表。
CN201410558130.7A 2014-10-20 2014-10-20 一种url分类过滤方法及装置 Active CN105591997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410558130.7A CN105591997B (zh) 2014-10-20 2014-10-20 一种url分类过滤方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410558130.7A CN105591997B (zh) 2014-10-20 2014-10-20 一种url分类过滤方法及装置

Publications (2)

Publication Number Publication Date
CN105591997A CN105591997A (zh) 2016-05-18
CN105591997B true CN105591997B (zh) 2019-04-09

Family

ID=55931223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410558130.7A Active CN105591997B (zh) 2014-10-20 2014-10-20 一种url分类过滤方法及装置

Country Status (1)

Country Link
CN (1) CN105591997B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912736A (zh) * 2016-06-28 2016-08-31 迈普通信技术股份有限公司 一种统一资源定位符url分类方法及装置
CN106657151A (zh) * 2017-02-06 2017-05-10 杭州迪普科技股份有限公司 网站信息泄露防护方法、装置及设备
CN106970984B (zh) * 2017-03-29 2020-11-06 杭州迪普科技股份有限公司 一种url过滤库更新方法及装置
CN107423365B (zh) * 2017-06-28 2020-12-18 广东源泉科技有限公司 网页访问方法、终端及计算机可读存储介质
CN107222507A (zh) * 2017-07-13 2017-09-29 广州西麦科技股份有限公司 一种家庭网络内容访问控制方法及装置
CN110020254A (zh) * 2017-12-30 2019-07-16 惠州学院 基于用户ip和视频拷贝的识别有害视频的方法及系统
CN110020251A (zh) * 2017-12-30 2019-07-16 惠州学院 基于用户ip和片尾内容的识别有害视频的方法及系统
CN108366217B (zh) * 2018-03-14 2021-04-06 成都创信特电子技术有限公司 监控视频采集存储方法
CN109688205B (zh) * 2018-12-07 2021-06-22 麒麟合盛网络技术股份有限公司 网页资源的拦截方法及装置
CN109726347A (zh) * 2018-12-29 2019-05-07 杭州迪普科技股份有限公司 网络请求自动分类方法及相关设备
CN113114709B (zh) * 2021-06-16 2021-09-17 紫光恒越技术有限公司 自定义url过滤分类的应用方法、装置、服务器及存储设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1255214A (zh) * 1997-01-24 2000-05-31 摩托罗拉公司 代理主计算机和用于在一个浏览器和一个代理计算机之间访问和检索信息的方法
US6604143B1 (en) * 1998-06-19 2003-08-05 Sun Microsystems, Inc. Scalable proxy servers with plug-in filters
CN101262353A (zh) * 2008-04-30 2008-09-10 杭州华三通信技术有限公司 过滤网址的通信方法、装置及系统
CN101261644A (zh) * 2008-04-30 2008-09-10 杭州华三通信技术有限公司 访问统一资源定位符数据库的方法及装置
CN101350810A (zh) * 2007-07-20 2009-01-21 莱克斯信息技术(北京)有限公司 基于认证用户组的url过滤
CN101854335A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种过滤的方法、系统及网络设备
CN102624703A (zh) * 2011-12-31 2012-08-01 成都市华为赛门铁克科技有限公司 统一资源定位符url的过滤方法及装置
CN102737119A (zh) * 2012-05-30 2012-10-17 华为技术有限公司 统一资源定位符的查找方法、过滤方法和相关设备及系统
CN103078854A (zh) * 2012-12-28 2013-05-01 北京亿赞普网络技术有限公司 报文过滤方法与装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1255214A (zh) * 1997-01-24 2000-05-31 摩托罗拉公司 代理主计算机和用于在一个浏览器和一个代理计算机之间访问和检索信息的方法
US6604143B1 (en) * 1998-06-19 2003-08-05 Sun Microsystems, Inc. Scalable proxy servers with plug-in filters
CN101350810A (zh) * 2007-07-20 2009-01-21 莱克斯信息技术(北京)有限公司 基于认证用户组的url过滤
CN101262353A (zh) * 2008-04-30 2008-09-10 杭州华三通信技术有限公司 过滤网址的通信方法、装置及系统
CN101261644A (zh) * 2008-04-30 2008-09-10 杭州华三通信技术有限公司 访问统一资源定位符数据库的方法及装置
CN101854335A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种过滤的方法、系统及网络设备
CN102624703A (zh) * 2011-12-31 2012-08-01 成都市华为赛门铁克科技有限公司 统一资源定位符url的过滤方法及装置
CN102737119A (zh) * 2012-05-30 2012-10-17 华为技术有限公司 统一资源定位符的查找方法、过滤方法和相关设备及系统
CN103078854A (zh) * 2012-12-28 2013-05-01 北京亿赞普网络技术有限公司 报文过滤方法与装置

Also Published As

Publication number Publication date
CN105591997A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN105591997B (zh) 一种url分类过滤方法及装置
JP4799057B2 (ja) 増分アンチスパムのルックアップサービスおよびアップデートサービス
JP6385896B2 (ja) 無線装置でコンテンツ変換を管理する装置および方法
US10178115B2 (en) Systems and methods for categorizing network traffic content
US7089246B1 (en) Overriding content ratings and restricting access to requested resources
JP5792198B2 (ja) ユーザの閲覧履歴に基づくurlフィルタリング
US10148700B2 (en) Classification of top-level domain (TLD) websites based on a known website classification
US7636777B1 (en) Restricting access to requested resources
CN102737119B (zh) 统一资源定位符的查找方法、过滤方法和相关设备及系统
CN108259425A (zh) 攻击请求的确定方法、装置及服务器
US10122722B2 (en) Resource classification using resource requests
WO2014000485A1 (zh) 内容过滤方法和装置
JP2011526044A (ja) データを再評価するためのシステムおよび方法
CN104994139B (zh) 一种对高并发网络请求快速响应的系统及方法
GB2458094A (en) URL interception and categorization in firewalls
CN107147748A (zh) 文件上传方法和装置
JP2022531175A (ja) Dnsセキュリティ用のスマートホワイトリスティング
US20230108362A1 (en) Key-value storage for url categorization
CN106331172A (zh) 一种应用于内容分发网络的资源检测方法及装置
US10313348B2 (en) Document classification by a hybrid classifier
CN105450513B (zh) 归档邮件附件的方法和云存储服务器
US20210365503A1 (en) Focused url recrawl
JP2016516252A (ja) バーティカルベースのクエリのオプション化
CN107294986B (zh) 一种访问https网站的方法、装置及系统
US20230350966A1 (en) Communicating url categorization information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building

Applicant after: Hangzhou Dipu Polytron Technologies Inc

Address before: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building

Applicant before: Hangzhou Dipu Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant