CN102110132A - 统一资源定位符匹配查找方法、装置和网络侧设备 - Google Patents
统一资源定位符匹配查找方法、装置和网络侧设备 Download PDFInfo
- Publication number
- CN102110132A CN102110132A CN 201010592296 CN201010592296A CN102110132A CN 102110132 A CN102110132 A CN 102110132A CN 201010592296 CN201010592296 CN 201010592296 CN 201010592296 A CN201010592296 A CN 201010592296A CN 102110132 A CN102110132 A CN 102110132A
- Authority
- CN
- China
- Prior art keywords
- url
- uniform resource
- resource locator
- subitem
- hash function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 101150060512 SPATA6 gene Proteins 0.000 claims abstract description 150
- 238000005194 fractionation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 50
- 238000012360 testing method Methods 0.000 description 22
- 238000001914 filtration Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000008878 coupling Effects 0.000 description 9
- 238000010168 coupling process Methods 0.000 description 9
- 238000005859 coupling reaction Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 239000012467 final product Substances 0.000 description 5
- 241000700605 Viruses Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012856 packing Methods 0.000 description 3
- 238000010408 sweeping Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 229960002069 diamorphine Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供一种统一资源定位符匹配查找方法、装置和网络侧设备,所述统一资源定位符匹配查找方法包括:将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项;利用预设的散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列;当预设的位向量中与至少一个散列序列对应的位为第一预定数值时,确定所述待匹配的统一资源定位符属于黑名单。本发明实施例通过使用布隆过滤器存储黑名单中的URL条目,大大压缩了URL的存储空间;并且可以通过一次扫描获得所有URL子项的散列值,大大提升了匹配查找的性能;另外,本发明实施例能够很好的支持URL的前缀匹配和子域名匹配。
Description
技术领域
本发明涉及网络通信技术领域,尤其涉及一种统一资源定位符匹配查找方法、装置和网络侧设备。
背景技术
互联网的迅速普及,不仅带来了诸多便利,也带来了许多负面问题,这些负面问题一般可以分为两个方面:一是娱乐性内容对人们时间的浪费;二是不良信息对人们灵魂的危害。
对于前者,互联网上无数的娱乐性内容正在吞噬人们的宝贵时间,这些与工作无关的活动包括在线游戏、网上购物、股票交易、网上电台、流媒体和动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III;以下简称:MP3)下载等。据一项调查表明,企业员工全部上网活动中,50%以上都是与工作无关的,这意味着这些员工每个月拿到的薪水当中一部分与他们的工作无关。另外,专门研究上网成瘾症状的专家表示,25%到50%的上网成瘾的人都是在办公室里上网的,如果企业对员工在上班时间的上网情况不闻不问,而且也不对某些不良网站进行禁止,那么很有可能会引发一系列严重的后果。
对于后者,黄色网站等不良网站的泛滥,很多青少年因此而荒废学业,成为“网络海洛因”的吸食者。
除此之外,病毒、木马网站的泛滥也在侵蚀着网络,访问互联网随时都有可能受到病毒、木马的侵袭。一旦电脑染上病毒或者木马,就可能造成个人账号等信息被盗窃,而且清除电脑病毒和木马的过程中也浪费了大量的宝贵时间。
为了解决互联网带来的这些负面问题,维护一个健康、高效的网络环境,统一资源定位符(Uniform Resource Locator;以下简称:URL)过滤提供了一种简单而有效的方案,用于防止用户访问与工作无关的、不健康的和恶意的网站。
现有技术中,URL的语法格式如下所示:
HTTP_URL:=″http:″″//″host[:port][abs_path[″?″query]]
其中“http”代表超文本传输协议(HyperText Transfer Protocol;以下简称:HTTP),“host[:port]”为HTTP请求报文首部主(host)域的值,即资源站点的地址,可以是域名,也可以是因特网协议(Internet Protocol;以下简称:IP),如果端口号(port)为空,则代表端口号为80。“abs path[″?″query]”即资源的统一资源标识符(Uniform Resource Identifier;以下简称:URI)。
现有URL过滤系统的通常做法是预先定义好URL黑名单,其中包括需要屏蔽的各类网站的URL集合。接着URL过滤系统从用户发送的HTTP请求报文中提取出URL信息,并查找该URL是否属于黑名单中,如果属于,则阻断该HTTP请求;否则转发该HTTP请求。
在URL过滤系统中,URL匹配查找是整个过滤系统的核心,结合URL的语法格式,通常情况下,URL匹配查找实现方式的选择需要考虑如下几个问题:
(1)URL匹配查找的时间开销:为了保证URL过滤系统有良好的吞吐量,URL匹配查找的时间开销必须越小越好,并且在黑名单中的URL条目数很庞大的情况下,URL过滤系统仍能很好的工作。
(2)URL匹配查找的空间开销:当黑名单中的URL条目数很庞大时(条目数达到百万级别时),必须能够将整个URL过滤系统的空间需求控制在一个合理的范围。
(3)URL过滤必须要能够支持前缀匹配:例如URL黑名单中包含URL条目“http://filter.org/path”,则当用户访问“http://filter.org/path”以及“http://filter.org/path/test”时,都能被有效禁止。
(4)URL过滤必须要能够支持子域名匹配:例如URL黑名单中包含URL条目“filter.org”,则当用户访问“http://filter.org”、“http://test.filter.org”以及“http://one.test.filter.org”时,都能被有效禁止。
但是,在实现本发明的过程中,发明人发现:现有技术提供的URL匹配查找的实现方式均未能同时很好地解决URL匹配查找需要考虑的上述问题。
发明内容
本发明实施例提供一种统一资源定位符匹配查找方法、装置和网络侧设备,以实现支持统一资源定位符的前缀匹配和子域名匹配,并节省统一资源定位符的存储空间。
本发明实施例提供一种统一资源定位符匹配查找方法,包括:
将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项;
利用预设的散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列;
当预设的位向量中与至少一个散列序列对应的位为第一预定数值时,确定所述待匹配的统一资源定位符属于黑名单。
本发明实施例还提供一种统一资源定位符匹配查找装置,包括:
拆分模块,用于将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项;
第一扫描模块,用于利用预设的散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列;
第一确定模块,用于当预设的位向量中与至少一个散列序列对应的位为第一预定数值时,确定所述待匹配的统一资源定位符属于黑名单。
本发明实施例还提供一种网络侧设备,包括上述统一资源定位符匹配查找装置。
本发明实施例通过布隆过滤器对待匹配的统一资源定位符拆分后的统一资源定位符子项进行匹配,只要有一个统一资源定位符子项属于黑名单,即可确定该待匹配的统一资源定位符属于黑名单;从而可以能够很好地支持统一资源定位符的前缀匹配和子域名匹配。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明统一资源定位符匹配查找方法一个实施例的流程图;
图2为本发明统一资源定位符匹配查找方法另一个实施例的流程图;
图3为本发明URL条目扫描方向一个实施例的示意图;
图4为本发明URL扫描方向一个实施例的示意图;
图5为本发明将URL条目装入布隆过滤器一个实施例的示意图;
图6为本发明统一资源定位符匹配查找装置一个实施例的结构示意图;
图7为本发明统一资源定位符匹配查找装置另一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明统一资源定位符匹配查找方法一个实施例的流程图,如图1所示,该统一资源定位符匹配查找方法可以包括:
步骤101,将待匹配的URL拆分为至少一个URL子项。
具体地,可以根据URL的语法格式将待匹配的URL拆分为至少一个URL子项,上述至少一个URL子项包括待匹配的URL的域名、各级父域名和前缀。
步骤102,利用预设的散列函数对每个URL子项进行扫描,获得每个URL子项对应的散列序列。
本实施例中,该预设的散列函数可以为预设的布隆过滤器(Bloom Filter)的查询散列函数,则利用预设的散列函数对每个URL子项进行扫描,获得每个URL子项对应的散列序列可以为:利用预设的布隆过滤器的查询散列函数对每个URL子项进行扫描,获得每个URL子项对应的散列序列;
具体地,可以先利用查询散列函数按照从尾部至头部的顺序对待匹配的URL的域名进行扫描,每扫描完一个URL子项,则输出该URL子项对应的散列序列;然后,再利用上述查询散列函数按照从头部至尾部的顺序对待匹配的URL的URI进行扫描,每扫描完一个URL子项,则输出该URL子项对应的散列序列。
当然以上只是本发明实施例的一个示例,不应构成本发明实施例的限定,本发明实施例对散列函数的具体形式不作限定,只要可以对每个URL子项进行扫描,获得每个URL子项对应的散列序列即可。
步骤103,当预设的位向量中与至少一个散列序列对应的位为第一预定数值时,确定待匹配的URL属于黑名单。
本实施例中,预设的位向量可以为预设的布隆过滤器的位向量,上述第一预定数值可以为0或1,本实施例对此不作限定,但本实施例以位向量为布隆过滤器的位向量,第一预定数值为1为例进行说明。也就是说,本实施例中,当布隆过滤器的位向量中与至少一个散列序列对应的位全为1时,即可确定该待匹配的URL属于黑名单,需要对该待匹配的URL进行过滤处理。
另外,本发明实施例对所使用的布隆过滤器的类型不作限定,可以使用现有的传统布隆过滤器,也可以使用计数型布隆过滤器等其他类型的布隆过滤器。
上述实施例通过布隆过滤器对待匹配的URL拆分后的URL子项进行匹配,只要有一个URL子项属于黑名单,即可确定该待匹配的URL属于黑名单;上述实施例通过使用布隆过滤器存储黑名单中的URL条目,大大压缩了URL的存储空间,并且能够很好的支持URL的前缀匹配和子域名匹配。
图2为本发明统一资源定位符匹配查找方法另一个实施例的流程图,如图2所示,该统一资源定位符匹配查找方法可以包括:
步骤201,设置黑名单中需要包含的URL条目。
具体地,可以根据实际需要,设定黑名单中需要包含的URL条目;具体可以分为如下三种情况:
(1)完整的URL匹配;
举例来说,如果希望过滤“www.test.org/index.html”这个URL,则可以将URL条目“www.test.org/index.html”添加至黑名单中。
(2)前缀匹配;
举例来说,如果希望过滤URL前缀为“www.test.org/path”的所有URL,例如“www.test.org/path/test.htm”等,则可以将URL条目“www.test.org/path”添加至黑名单中。
(3)子域名匹配;
举例来说,如果希望过滤包含域名“test.org”或该域名下所有子域名的URL,例如:“www.test.org/index.html”等,则可以将URL条目“test.org”添加至黑名单中。
步骤202,根据黑名单中包含的URL条目的个数和预先设定的假通过率,确定布隆过滤器的位向量长度L和表示散列函数的个数N,其中,L和N为正整数。
本实施例中,假设步骤201中设置的黑名单中URL条目的个数为M,M为正整数,则可以根据M和预先设定的假通过率,确定布隆过滤器需要的位向量长度L以及所需要的表示散列函数的个数N。
下面介绍确定布隆过滤器需要的位向量长度L以及所需要的表示散列函数的个数N的两种实现方式。
(方式一):一个使用了N个表示散列函数的L位长的布隆过滤器中装入M个元素后,位向量中某一位仍为0的概率为
(1-1/L)NM (1)
则假通过率p为:
p=[1-(1-1/L)NM]N (2)
式(1)和式(2)中,M为正整数,M的大小一般是预先设定的,因此可以根据式(2)计算出当假通过率在可接受范围内时的N和L。
由于N为正整数,根据对匹配查找性能的要求,通常设定N的值不能大于预定阈值,因此可以采用将N的值逐个代入式(2)进行计算的方式,比如将N=1代入式(2)即得:
p=1-(1-1/L)M (3)
式(3)中假通过率p是预先设定的,集合元素个数M是已知的,因此通过解方程即可求得N=1时的L值了。同理,当N=2,3,...时都可以计算出一个对应的L值,然后根据实际情况选取合适的N和L即可。
(方式二):首先将黑名单中的所有URL条目都装入位向量V,然后用一个测试元素集来测试,通过调整位向量的长度L以及表示散列函数的个数N,使得测试元素集的假通过率在可接受的范围内;其中,上述测试元素集中的URL条目都不属于黑名单。
可以按照以上两种实现方式中的任意一种确定好布隆过滤器的位向量长度L和表示散列函数的个数N。
步骤203,建立长度为L的位向量,并将该位向量的位全部初始化为第二预定数值。
其中,该第二预定数值可以为0或1,本实施例对此不作限定,但本实施例以第二预定数值为0为例进行说明。也就是说,本实施例中,建立长度为L的位向量之后,可以先将该位向量的位全部初始化为0。
步骤204,利用设置的N个表示散列函数对黑名单中的每个URL条目进行扫描,获得每个URL条目对应的散列序列。
图3为本发明URL条目扫描方向一个实施例的示意图。如图3所示,本实施例在进行扫描时,首先判断待扫描的URL条目中是否包括“/”,如果包括,则可以确定该URL条目包括域名(Host)部分和URI部分,并且可以确定该URL条目中从左向右看的第一个“/”的左边为域名部分,第一个“/”的右边为URI部分;然后可以按照从尾部扫到头部的顺序扫描URL条目的域名部分,再按照从头部至尾部的顺序扫描URI部分。如果待扫描的URL条目中不包括“/”,则可以确定待扫描的URL条目仅包括域名部分,这时按照从尾部扫到头部的顺序对待扫描的URL条目的域名部分进行扫描即可。
在实际扫描中忽略“http://”部分,因此图3所示URL条目中字符串的实际扫描顺序为:
“g→r→o→.→t→s→e→t→.→w→w→w→/→p→a→t→h→/→i→n→d→e→x→.→h→t→m→1”。
本实施例中,布隆过滤器用到的表示散列函数可以预先设置,举例来说,可以设置布隆过滤器用到的一个表示散列函数的算法为:假设默认散列值为100,每扫描到一个字符,将该字符对应的美国信息互换标准代码(American Standard Code for Information Interchange;以下简称:ASCII)值累加到默认散列值上,在扫描完一个字符串之后,输出该字符串的散列值。其他表示散列函数可以通过类似的方法进行设置,在此不再赘述。
当然以上仅是本发明实施例的一个示例,本发明实施例对布隆过滤器用到的表示散列函数的设置方式不作限定,例如:该表示散列函数的算法也可以为:每扫描完N个字符,将这N个字符的ASCII码值累加到预设的默认散列值上,在扫描完一个字符串之后,输出该字符串的散列值;其中,N为正整数。
采用上述方式,利用设置的N个表示散列函数对黑名单中的每个URL条目进行扫描,即可获得每个URL条目对应的散列序列。
步骤205,将位向量中与上述散列序列对应的位设为第一预定数值。
其中,该第一预定数值可以为0或1,本实施例对此不作限定,但本实施例以第一预定数值为1为例进行说明。
至此,一个针对黑名单中所有URL条目的布隆过滤器就完成了。
当需要查询一个URL是否属于黑名单时,可以执行如下步骤:
步骤206,将待匹配的URL拆分为至少一个URL子项。
具体地,可以根据URL的语法格式将待匹配的URL拆分为至少一个URL子项,该至少一个URL子项包括待匹配的URL的域名、各级父域名和前缀。
举例来说,对于URL:http://www.test.org/path/index.html,其包含的子项有:
1、一级父域名:org
2、二级父域名:test.org
3、域名:www.test.org
4、第一个URL前缀:www.test.org/
5、第二个URL前缀:www.test.org/path
6、完整的URL:www.test.org/path/index.html
步骤207,利用预设的布隆过滤器的查询散列函数对每个URL子项进行扫描,获得每个URL子项对应的散列序列。
现有技术中,计算字符串的散列值都是将字符串从头扫到尾,然后得出一个散列值。但是在URL所包含的URL子项较多的情况下,采用这种方法进行URL匹配查找的性能较低。因此,本发明实施例提供一种散列值计算方法,改变字符串的扫描方向,使得通过一次扫描即可获得所有URL子项的散列值,从而可以有效地提高散列计算效率。
具体地,可以先确定“http://”之后的第一个“/”为域名部分与URI部分的分界点,然后计算域名部分的散列值,利用查询散列函数从域名的尾部向头部扫描,每当扫到一个点号(“.”)时,表示已经扫描完一个父域名,此时输出该父域名的散列值;以此类推,直至扫描完域名部分。接下来,可以利用查询散列函数从头部向尾部扫描URI部分,每扫描到一个斜线(“/”),表示已经扫描完一个URL前缀,此时输出该URL前缀的散列值;以此类推,直至扫描完URI部分。
仍以URL:http://www.test.org/path/index.html为例,其扫描过程如图4所示,图4为本发明URL扫描方向一个实施例的示意图。
图4中“1”对应第1步扫描的第1个URL子项,“2”对应第2步扫描的第2个URL子项,以此类推。
URL:http://www.test.org/path/index.html的扫描顺序如下所示:
g→r→o→输出第1个URL子项的散列值;
→.→t→s→e→t→输出第2个URL子项的散列值;
→.→w→w→w→输出第3个URL子项的散列值;
→/→输出第4个URL子项的散列值;
→p→a→t→h→/→输出第5个URL子项的散列值;
→i→n→d→e→x→.→h→t→m→1→输出第6个URL子项的散列值。
本实施例中,布隆过滤器的查询散列函数与表示散列函数一一对应,查询散列函数与表示散列函数对每个字符采用的散列值计算方式是相同的。因此,利用查询散列函数对每个URL子项进行扫描,获得每个URL子项对应的散列序列的具体实现方式可参照步骤204中的描述,在此不再赘述。
步骤208,当布隆过滤器的位向量中与至少一个散列序列对应的位为第一预定数值时,确定待匹配的URL属于黑名单。
本实施例中,第一预定数值为1,当布隆过滤器的位向量中与一个散列序列对应的位全为1时,即可确定该散列序列对应的URL子项属于黑名单,只要有一个URL子项属于黑名单,即可确定该待匹配的URL属于黑名单,需要进行过滤处理。
反之,当布隆过滤器的位向量中与每个散列序列对应的位都不全为1时,可以确定待匹配的URL的所有URL子项都不属于黑名单,因此该待匹配的URL也不属于黑名单。
上述实施例通过布隆过滤器对待匹配的URL拆分后的URL子项进行匹配,只要有一个URL子项属于黑名单,即可确定该待匹配的URL属于黑名单;上述实施例通过使用布隆过滤器存储黑名单中的URL条目,大大压缩了URL的存储空间,并且本发明实施例提出的散列值计算方法,可以通过一次扫描获得所有URL子项的散列值,大大提升了匹配查找的性能,同时实现了匹配查找性能与黑名单中的URL条目数无关;并且本实施例能够很好的支持URL的前缀匹配和子域名匹配。
下面结合具体实例对本发明实施例的具体实施方式进行介绍。
(一)假设希望过滤域名“test.org”下所有URL的访问,并且,希望过滤URL前缀匹配“www.test2.org/sport”或“www.test3.org/news/sport”的所有URL的访问。同时,需要精确过滤如下几个URL:“www.test3.org/file1.html”、“www.test3.org/file2.html”。
假设假通过率为万分之一,即访问一万个正常的URL,最多只能有一个URL被误判为属于黑名单。
步骤一:设置黑名单中需要包含的URL条目。
根据上文的场景假设,设置黑名单中需要包含的URL条目为:
test.org
www.test2.org/sport
www.test3.org/news/sport
www.test3.org/file1.html
www.test3.org/file2.html
步骤二:设计布隆过滤器
黑名单中包含5个URL条目,在具体实现时,可以根据URL过滤系统对性能的要求,使用4个表示散列函数和4个查询散列函数,此时可以根据本发明图2所示实施例步骤202中提供的方式二确定布隆过滤器的位向量长度L,本例中L为400比特(即50字节)。
根据本发明图2所示实施例步骤204中提供的散列计算方式,设计4个不同的表示散列函数(F1,F2,F3,F4),并对应地设计4个查询散列函数(F1’,F2’,F3’,F4’),用于URL匹配查找时使用。
其中F1算法如下:初始化当前散列值h为5381,其中该当前散列值h的大小可以为任意数值,本发明实施例对此不作限定,只要保证整个实施过程都采用同一个值即可。按照本发明图2所示实施例步骤204中介绍的扫描方向,对于扫描到的每个字符c,执行h1+=(h1<<5)+(c),当扫描完一个URL条目的所有字符时,获得的h1值即为该URL条目的散列值。
对应地,F1’的算法如下:初始化当前散列值h1’为5381,同样h1’的大小可以为任意数值,本发明实施例对此不作限定,只要保证整个实施过程都采用同一个值即可。按照本发明图2所示实施例步骤207介绍的扫描方向,对于扫描到的每个字符c’,同样执行h1’+=(h1’<<5)+(c’),当扫描完一个URL子项的所有字符时,获得的h1’值即为该URL子项的散列值。需要说明的是,上述公式中的(c)表示字符c的ASCII码值,(c’)表示字符c’的ASCII码值。
本例中,F2的算法思路与F1一致,其对每个扫描到的字符执行如下处理:h2=31×h2+(c);对应地,F2’的算法思路与F1’一致,其对每个扫描到的字符执行如下处理:h2’=31×h2’+(c’);
F3的算法思路与F1一致,其对每个扫描到的字符执行如下处理:h3^=(h3<<5)+(c)+(h3>>2);对应地,F3’的算法思路与F1’一致,其对每个扫描到的字符执行如下处理:h3’^=(h3’<<5)+(c’)+(h3’>>2)
F4的算法思路与F1一致,其对每个扫描到的字符执行如下处理:h4=(c)+(h4<<6)+(h4<<16)-h4;对应地,F4’的算法思路与F1’一致,其对每个扫描到的字符执行如下处理:h4’=(c’)+(h4’<<6)+(h4’<<16)-h4’。
步骤三:将黑名单中的URL条目逐一装入布隆过滤器。
首先,建立一个长度为400比特的位向量,然后将该位向量中的400个二进制位全部初始化为0。
然后,利用表示散列函数(F1,F2,F3,F4)对黑名单中的每个URL条目进行扫描,获得每个URL条目对应的散列序列(f1,f2,f3,f4),其中f1为h1对400求余后获得的值,f2为h2对400求余后获得的值,f3为h3对400求余后获得的值,f4为h4对400求余后获得的值,因此f1、f2、f3和f4的取值均为1到400之间的一个值。当然本发明实施例并不仅限于此,本发明实施例对fn与hn(n=1,2,3,4)之间的关系不作限定,只要可以通过预定的映射关系,使得fn与hn(n=1,2,3,4)一一对应,并且fn的取值在1到400之间即可。
最后,将位向量中与每个散列序列对应的二进制位设为1。
在对黑名单中的每个URL条目都进行上述处理后,就将黑名单中的URL条目都装入了布隆过滤器,一个针对上述黑名单中的URL条目的布隆过滤器就完成了。
以URL条目“test.org”为例,将该URL条目装入布隆过滤器的过程可以如图5所示,图5为本发明将URL条目装入布隆过滤器一个实施例的示意图。
步骤四:查询一个URL是否属于黑名单。
假设现有如下URL访问:“www.good.com/index.html”,可以先根据本发明图2所示实施例步骤206中介绍的方法将该URL拆分为至少一个URL子项,该URL的URL子项包括:
(1)com
(2)good.com
(3)www.good.com
(4)www.good.com/
(5)www.good.com/index.html
然后,可以采用查询散列函数(F1’,F2’,F3’,F4’),为上述URL子项计算对应的散列序列(ts1,ts2,ts3,ts4),1≤s≤5,s为正整数;其中,ts1为h1’对400求余后获得的值,ts2为h2’对400求余后获得的值,ts3为h3’对400求余后获得的值,ts4为h4’对400求余后获得的值,因此ts1,ts2,ts3和ts4的取值均为1到400之间的一个值。当然本发明实施例并不仅限于此,本发明实施例对tsN与hN’(N=1,2,3,4)之间的关系不作限定,只要可以通过预定的映射关系,使得tsN与hN’(N=1,2,3,4)一一对应,并且tsN的取值在1到400之间即可。具体来说:
1、URL子项“com”对应的散列序列可以表示为(t11,t12,t13,t14),布隆过滤器的位向量中与该散列序列对应的位不全为1,所以该URL子项不属于黑名单;
2、URL子项“good.com”对应的散列序列可以表示为(t21,t22,t23,t24),布隆过滤器的位向量中与该散列序列对应的位不全为1,所以该URL子项不属于黑名单;
3、URL子项“www.good.com”对应的散列序列可以表示为(t31,t32,t33,t34),布隆过滤器的位向量中与该散列序列对应的位不全为1,所以该URL子项不属于黑名单;
4、URL子项“www.good.com/”对应的散列序列可以表示为(t41,t42,t43,t44),布隆过滤器的位向量中与该散列序列对应的位不全为1,所以该URL子项不属于黑名单;
5、URL子项“www.good.com/index.html”对应的散列序列可以表示为(t51,t52,t53,t54),布隆过滤器的位向量中与该散列序列对应的位不全为1,所以该URL子项不属于黑名单。
由于所有的URL子项都不属于黑名单,因此URL“www.good.com/index.html”不属于黑名单。
再举一个例子,假设现有如下URL访问:“news.test.org/file1.html”,同样,可以先根据本发明图2所示实施例步骤206中介绍的方法将该URL拆分为至少一个URL子项,该URL的URL子项包括:
(1)org
(2)test.org
(3)news.test.org
(4)news.test.org/
(5)news.test.org/file 1.html
然后,可以采用查询散列函数(F1’,F2’,F3’,F4’),为上述URL子项计算对应的散列序列,计算方式如上所述,在此不再赘述。
本例中,URL子项“test.org”对应的散列序列在布隆过滤器的位向量中的对应位全为1,所以该URL子项“test.org”属于黑名单,因此该URL“news.test.org/file 1.html”属于黑名单。
本发明实施例提供的统一资源定位符匹配查找方法,主要是匹配的时候,将待匹配的URL拆分为至少一个URL子项,将每个URL子项放进布隆过滤器中看是否匹配。性能方面,布隆过滤器主要的时间开销是在散列值计算上,本发明实施例提出了一种散列值计算方式,通过一次扫描即可获得所有URL子项的散列值,因此大大提升了匹配查找的性能。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图6为本发明统一资源定位符匹配查找装置一个实施例的结构示意图,本实施例中的统一资源定位符匹配查找装置可以作为网络侧设备,或网络侧设备的一部分,实现本发明图1所示实施例的流程。
如图6所示,该统一资源定位符匹配查找装置可以包括:拆分模块61、第一扫描模块62和第一确定模块63。
其中,拆分模块61,用于将待匹配的URL拆分为至少一个URL子项;具体地,拆分模块61可以根据URL的语法格式将待匹配的URL拆分为至少一个URL子项,其中,该至少一个URL子项包括待匹配的URL的域名、各级父域名和前缀。
第一扫描模块62,用于利用预设的散列函数对每个URL子项进行扫描,获得每个URL子项对应的散列序列。
第一确定模块63,用于当预设的位向量中与至少一个散列序列对应的位为第一预定数值时,确定待匹配的URL属于黑名单;其中,该第一预定数值可以为0或1,本实施例对此不作限定,但本实施例以第一预定数值为1为例进行说明。也就是说,本实施例中,当预设的位向量中与至少一个散列序列对应的位全为1时,第一确定模块63即可确定该待匹配的URL属于黑名单,需要对该待匹配的URL进行过滤处理。
本实施例中的网络侧设备可以为路由器、交换机或网关设备等可以对网络访问进行管理和控制的设备。
上述统一资源定位符匹配查找装置能够很好的支持URL的前缀匹配和子域名匹配。
图7为本发明统一资源定位符匹配查找装置另一个实施例的结构示意图,本实施例中的统一资源定位符匹配查找装置可以作为网络侧设备,或网络侧设备的一部分,实现本发明图2所示实施例的流程。
与图6所示的统一资源定位符匹配查找装置相比,不同之处在于,图7所示的统一资源定位符匹配查找装置中,当预设的散列函数包括预设的布隆过滤器的查询散列函数时,第一扫描模块62具体可以利用预设的布隆过滤器的查询散列函数对每个URL子项进行扫描,获得每个URL子项对应的散列序列。
本实施例中,第一扫描模块62可以包括:第一子项扫描子模块621和第二子项扫描子模块622;
其中,第一子项扫描子模块621,用于利用查询散列函数按照从尾部至头部的顺序对待匹配的URL的域名进行扫描,每扫描完一个URL子项,则输出该URL子项对应的散列序列;
第二子项扫描子模块622,用于在第一子项扫描子模块621扫描完成之后,利用上述查询散列函数按照从头部至尾部的顺序对待匹配的URL的URI进行扫描,每扫描完一个URL子项,则输出该URL子项对应的散列序列。
本实施例中,预设的位向量为上述布隆过滤器的位向量,进一步地,该统一资源定位符匹配查找装置还可以包括:设置模块64、第二确定模块65、建立模块66、第二扫描模块67和数值设置模块68;
其中,设置模块64,用于设置黑名单中需要包含的URL条目;
第二确定模块65,用于根据黑名单中包含的URL条目的个数和预先设定的假通过率,确定上述布隆过滤器的位向量长度L和表示散列函数的个数N;其中,L和N为正整数,并且表示散列函数与查询散列函数一一对应;
建立模块66,用于建立长度为L的位向量,并将该位向量的位全部初始化为第二预定数值;其中,该第二预定数值可以为0或1,本实施例对此不作限定,但本实施例以第二预定数值为0为例进行说明。也就是说,本实施例中,建立模块66建立长度为L的位向量之后,可以先将该位向量的位全部初始化为0;
第二扫描模块67,用于利用设置的N个表示散列函数对黑名单中的每个URL条目进行扫描,获得每个URL条目对应的散列序列;具体地,第二扫描模块67可以利用设置的N个表示散列函数按照从尾部至头部的顺序对URL条目的域名进行扫描;当上述URL条目包括URI时,再利用设置的N个表示散列函数按照从头部至尾部的顺序对该URI进行扫描,获得URL条目对应的散列序列;
数值设置模块68,用于将布隆过滤器的位向量中与上述散列序列对应的位设为第一预定数值;其中,该第一预定数值可以为0或1,本实施例对此不作限定,但本实施例以第一预定数值为1为例进行说明。
本实施例中,在数值设置模块68将布隆过滤器的位向量中与上述散列序列对应的位设为1之后,一个针对黑名单中所有URL条目的布隆过滤器就完成了。
本实施例中的网络侧设备可以为路由器、交换机或网关设备等可以对网络访问进行管理和控制的设备。
上述实施例通过布隆过滤器对待匹配的URL拆分后的URL子项进行匹配,只要有一个URL子项属于黑名单,即可确定该待匹配的URL属于黑名单;上述实施例通过使用布隆过滤器存储黑名单中的URL条目,大大压缩了URL的存储空间,并且本发明实施例提出的散列值计算方法,可以通过一次扫描获得所有URL子项的散列值,大大提升了匹配查找的性能,同时实现了匹配查找性能与黑名单中的URL条目数无关;并且本实施例能够很好的支持URL的前缀匹配和子域名匹配。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种统一资源定位符匹配查找方法,其特征在于,包括:
将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项;
利用预设的散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列;
当预设的位向量中与至少一个散列序列对应的位为第一预定数值时,确定所述待匹配的统一资源定位符属于黑名单。
2.根据权利要求1所述的方法,其特征在于,所述将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项包括:
根据统一资源定位符的语法格式将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项,所述至少一个统一资源定位符子项包括所述待匹配的统一资源定位符的域名、各级父域名和前缀。
3.根据权利要求1所述的方法,其特征在于,所述预设的散列函数包括预设的布隆过滤器的查询散列函数,所述利用预设的散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列包括:
利用预设的布隆过滤器的查询散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列。
4.根据权利要求3所述的方法,其特征在于,所述利用预设的布隆过滤器的查询散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列包括:
利用所述查询散列函数按照从尾部至头部的顺序对所述待匹配的统一资源定位符的域名进行扫描,每扫描完一个统一资源定位符子项,则输出所述统一资源定位符子项对应的散列序列;
利用所述查询散列函数按照从头部至尾部的顺序对所述待匹配的统一资源定位符的统一资源标识符进行扫描,每扫描完一个统一资源定位符子项,则输出所述统一资源定位符子项对应的散列序列。
5.根据权利要求3所述的方法,其特征在于,所述预设的位向量为所述布隆过滤器的位向量。
6.根据权利要求5所述的方法,其特征在于,所述将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项之前,还包括:
设置黑名单中需要包含的统一资源定位符条目;
根据所述黑名单中包含的统一资源定位符条目的个数和预先设定的假通过率,确定所述布隆过滤器的位向量长度L和表示散列函数的个数N,L和N为正整数;所述表示散列函数与所述查询散列函数一一对应;
建立长度为L的位向量,并将所述位向量的位全部初始化为第二预定数值;
利用设置的N个表示散列函数对所述黑名单中的每个统一资源定位符条目进行扫描,获得所述每个统一资源定位符条目对应的散列序列;
将所述位向量中与所述散列序列对应的位设为第一预定数值。
7.根据权利要求6所述的方法,其特征在于,所述利用设置的N个表示散列函数对所述黑名单中的每个统一资源定位符条目进行扫描,获得所述每个统一资源定位符条目对应的散列序列包括:
利用设置的N个表示散列函数按照从尾部至头部的顺序对所述统一资源定位符条目的域名进行扫描;
当所述统一资源定位符条目包括统一资源标识符时,利用所述设置的N个表示散列函数按照从头部至尾部的顺序对所述统一资源标识符进行扫描,获得所述统一资源定位符条目对应的散列序列。
8.一种统一资源定位符匹配查找装置,其特征在于,包括:
拆分模块,用于将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项;
第一扫描模块,用于利用预设的散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列;
第一确定模块,用于当预设的位向量中与至少一个散列序列对应的位为第一预定数值时,确定所述待匹配的统一资源定位符属于黑名单。
9.根据权利要求8所述的装置,其特征在于,所述拆分模块具体用于根据统一资源定位符的语法格式将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项,所述至少一个统一资源定位符子项包括所述待匹配的统一资源定位符的域名、各级父域名和前缀。
10.根据权利要求8所述的装置,其特征在于,当所述预设的散列函数包括预设的布隆过滤器的查询散列函数时,所述第一扫描模块具体用于利用预设的布隆过滤器的查询散列函数对每个统一资源定位符子项进行扫描,获得所述每个统一资源定位符子项对应的散列序列。
11.根据权利要求10所述的装置,其特征在于,所述第一扫描模块包括:
第一子项扫描子模块,用于利用所述查询散列函数按照从尾部至头部的顺序对所述待匹配的统一资源定位符的域名进行扫描,每扫描完一个统一资源定位符子项,则输出所述统一资源定位符子项对应的散列序列;
第二子项扫描子模块,用于在所述第一子项扫描子模块扫描完成之后,利用所述查询散列函数按照从头部至尾部的顺序对所述待匹配的统一资源定位符的统一资源标识符进行扫描,每扫描完一个统一资源定位符子项,则输出所述统一资源定位符子项对应的散列序列。
12.根据权利要求10所述的装置,其特征在于,还包括:
设置模块,用于设置黑名单中需要包含的统一资源定位符条目;
第二确定模块,用于根据所述黑名单中包含的统一资源定位符条目的个数和预先设定的假通过率,确定所述布隆过滤器的位向量长度L和表示散列函数的个数N,L和N为正整数;所述表示散列函数与所述查询散列函数一一对应;
建立模块,用于建立长度为L的位向量,并将所述位向量的位全部初始化为第二预定数值;
第二扫描模块,用于利用设置的N个表示散列函数对所述黑名单中的每个统一资源定位符条目进行扫描,获得所述每个统一资源定位符条目对应的散列序列;
数值设置模块,用于将所述布隆过滤器的位向量中与所述散列序列对应的位设为第一预定数值。
13.根据权利要求12所述的装置,其特征在于,所述第二扫描模块具体用于利用设置的N个表示散列函数按照从尾部至头部的顺序对所述统一资源定位符条目的域名进行扫描;当所述统一资源定位符条目包括统一资源标识符时,再利用所述设置的N个表示散列函数按照从头部至尾部的顺序对所述统一资源标识符进行扫描,获得所述统一资源定位符条目对应的散列序列。
14.一种网络侧设备,其特征在于,包括如权利要求8-13任意一项所述的统一资源定位符匹配查找装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010592296 CN102110132B (zh) | 2010-12-08 | 2010-12-08 | 统一资源定位符匹配查找方法、装置和网络侧设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010592296 CN102110132B (zh) | 2010-12-08 | 2010-12-08 | 统一资源定位符匹配查找方法、装置和网络侧设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102110132A true CN102110132A (zh) | 2011-06-29 |
CN102110132B CN102110132B (zh) | 2013-06-19 |
Family
ID=44174294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010592296 Expired - Fee Related CN102110132B (zh) | 2010-12-08 | 2010-12-08 | 统一资源定位符匹配查找方法、装置和网络侧设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102110132B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521348A (zh) * | 2011-12-12 | 2012-06-27 | 上海西默通信技术有限公司 | 海量url匹配算法 |
CN102629923A (zh) * | 2012-03-23 | 2012-08-08 | 北龙中网(北京)科技有限责任公司 | 基于域名系统技术的网站可信标识安装及识别方法 |
CN102739653A (zh) * | 2012-06-06 | 2012-10-17 | 奇智软件(北京)有限公司 | 一种针对网址的检测方法及装置 |
CN102833258A (zh) * | 2012-08-31 | 2012-12-19 | 北京奇虎科技有限公司 | 网址访问方法及系统 |
CN102843271A (zh) * | 2011-11-14 | 2012-12-26 | 哈尔滨安天科技股份有限公司 | 恶意url的形式化检测方法和系统 |
CN102868693A (zh) * | 2012-09-17 | 2013-01-09 | 苏州迈科网络安全技术股份有限公司 | 针对http分片请求的url过滤方法及系统 |
CN103023864A (zh) * | 2011-09-28 | 2013-04-03 | 中国移动通信集团公司 | 一种域名封堵方法和设备 |
CN103024092A (zh) * | 2011-09-28 | 2013-04-03 | 中国移动通信集团公司 | 一种域名封堵方法、系统及设备 |
CN103077208A (zh) * | 2012-12-28 | 2013-05-01 | 华为技术有限公司 | 统一资源定位符匹配处理方法及装置 |
CN104537107A (zh) * | 2015-01-15 | 2015-04-22 | 中国联合网络通信集团有限公司 | 一种网址存储匹配方法及装置 |
CN104636340A (zh) * | 2013-11-06 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 网页url过滤方法、装置及系统 |
CN104717226A (zh) * | 2012-06-06 | 2015-06-17 | 北京奇虎科技有限公司 | 一种针对网址的检测方法及装置 |
CN105302815A (zh) * | 2014-06-23 | 2016-02-03 | 腾讯科技(深圳)有限公司 | 网页的统一资源定位符url的过滤方法和装置 |
CN105426474A (zh) * | 2015-11-18 | 2016-03-23 | 福建星网锐捷网络有限公司 | 统一资源定位符url匹配的方法及装置 |
CN106294815A (zh) * | 2016-08-16 | 2017-01-04 | 晶赞广告(上海)有限公司 | 一种url的聚类方法及装置 |
CN106412054A (zh) * | 2016-09-27 | 2017-02-15 | 网宿科技股份有限公司 | 将动态网址转换为静态网址的命名方法、系统及其应用 |
CN106815334A (zh) * | 2016-12-30 | 2017-06-09 | 晶赞广告(上海)有限公司 | 一种用于终端的数据查询方法及装置 |
CN106970917A (zh) * | 2016-01-13 | 2017-07-21 | 中国科学院声学研究所 | 一种黑名单url的哈希表的建立及请求url的查找方法 |
WO2018001078A1 (zh) * | 2016-06-29 | 2018-01-04 | 中兴通讯股份有限公司 | 一种url匹配方法、装置及存储介质 |
CN108549716A (zh) * | 2018-04-23 | 2018-09-18 | 广东奥园奥买家电子商务有限公司 | 一种基于布隆算法实现海量黑名单处理的方法 |
CN108628871A (zh) * | 2017-03-16 | 2018-10-09 | 哈尔滨英赛克信息技术有限公司 | 一种基于链接特征的链接去重方法 |
CN109495525A (zh) * | 2017-09-12 | 2019-03-19 | 华为技术有限公司 | 网络组件、解析内容标识的方法和计算机可读存储介质 |
CN110086754A (zh) * | 2018-01-26 | 2019-08-02 | 北京金山云网络技术有限公司 | 一种资源屏蔽方法、装置、电子设备及可读存储介质 |
CN112532598A (zh) * | 2020-11-19 | 2021-03-19 | 南京大学 | 一种用于实时入侵检测系统的过滤方法 |
CN114143083A (zh) * | 2021-11-30 | 2022-03-04 | 北京天融信网络安全技术有限公司 | 黑名单策略匹配方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588879A (zh) * | 2004-08-12 | 2005-03-02 | 复旦大学 | 一种互联网内容过滤系统及过滤方法 |
US20050050222A1 (en) * | 2003-08-25 | 2005-03-03 | Microsoft Corporation | URL based filtering of electronic communications and web pages |
CN101605129A (zh) * | 2009-06-23 | 2009-12-16 | 北京理工大学 | 一种用于url过滤系统的url查找方法 |
US20100217771A1 (en) * | 2007-01-22 | 2010-08-26 | Websense Uk Limited | Resource access filtering system and database structure for use therewith |
-
2010
- 2010-12-08 CN CN 201010592296 patent/CN102110132B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050050222A1 (en) * | 2003-08-25 | 2005-03-03 | Microsoft Corporation | URL based filtering of electronic communications and web pages |
CN1588879A (zh) * | 2004-08-12 | 2005-03-02 | 复旦大学 | 一种互联网内容过滤系统及过滤方法 |
US20100217771A1 (en) * | 2007-01-22 | 2010-08-26 | Websense Uk Limited | Resource access filtering system and database structure for use therewith |
CN101605129A (zh) * | 2009-06-23 | 2009-12-16 | 北京理工大学 | 一种用于url过滤系统的url查找方法 |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103023864B (zh) * | 2011-09-28 | 2015-07-29 | 中国移动通信集团公司 | 一种域名封堵方法和设备 |
CN103024092B (zh) * | 2011-09-28 | 2015-04-22 | 中国移动通信集团公司 | 一种域名封堵方法、系统及设备 |
CN103023864A (zh) * | 2011-09-28 | 2013-04-03 | 中国移动通信集团公司 | 一种域名封堵方法和设备 |
CN103024092A (zh) * | 2011-09-28 | 2013-04-03 | 中国移动通信集团公司 | 一种域名封堵方法、系统及设备 |
CN102843271A (zh) * | 2011-11-14 | 2012-12-26 | 哈尔滨安天科技股份有限公司 | 恶意url的形式化检测方法和系统 |
CN102843271B (zh) * | 2011-11-14 | 2015-11-18 | 哈尔滨安天科技股份有限公司 | 恶意url的形式化检测方法和系统 |
CN102521348A (zh) * | 2011-12-12 | 2012-06-27 | 上海西默通信技术有限公司 | 海量url匹配算法 |
CN102629923B (zh) * | 2012-03-23 | 2015-01-21 | 北龙中网(北京)科技有限责任公司 | 基于域名系统技术的网站可信标识安装及识别方法 |
CN102629923A (zh) * | 2012-03-23 | 2012-08-08 | 北龙中网(北京)科技有限责任公司 | 基于域名系统技术的网站可信标识安装及识别方法 |
CN102739653A (zh) * | 2012-06-06 | 2012-10-17 | 奇智软件(北京)有限公司 | 一种针对网址的检测方法及装置 |
CN102739653B (zh) * | 2012-06-06 | 2015-05-20 | 北京奇虎科技有限公司 | 一种针对网址的检测方法及装置 |
CN104717226A (zh) * | 2012-06-06 | 2015-06-17 | 北京奇虎科技有限公司 | 一种针对网址的检测方法及装置 |
CN104717226B (zh) * | 2012-06-06 | 2018-11-30 | 北京奇安信科技有限公司 | 一种针对网址的检测方法及装置 |
CN102833258B (zh) * | 2012-08-31 | 2015-09-23 | 北京奇虎科技有限公司 | 网址访问方法及系统 |
CN102833258A (zh) * | 2012-08-31 | 2012-12-19 | 北京奇虎科技有限公司 | 网址访问方法及系统 |
CN102868693A (zh) * | 2012-09-17 | 2013-01-09 | 苏州迈科网络安全技术股份有限公司 | 针对http分片请求的url过滤方法及系统 |
CN103077208A (zh) * | 2012-12-28 | 2013-05-01 | 华为技术有限公司 | 统一资源定位符匹配处理方法及装置 |
CN103077208B (zh) * | 2012-12-28 | 2016-01-27 | 华为技术有限公司 | 统一资源定位符匹配处理方法及装置 |
CN104636340A (zh) * | 2013-11-06 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 网页url过滤方法、装置及系统 |
CN105302815B (zh) * | 2014-06-23 | 2019-06-07 | 腾讯科技(深圳)有限公司 | 网页的统一资源定位符url的过滤方法和装置 |
CN105302815A (zh) * | 2014-06-23 | 2016-02-03 | 腾讯科技(深圳)有限公司 | 网页的统一资源定位符url的过滤方法和装置 |
CN104537107A (zh) * | 2015-01-15 | 2015-04-22 | 中国联合网络通信集团有限公司 | 一种网址存储匹配方法及装置 |
CN105426474A (zh) * | 2015-11-18 | 2016-03-23 | 福建星网锐捷网络有限公司 | 统一资源定位符url匹配的方法及装置 |
CN105426474B (zh) * | 2015-11-18 | 2019-03-01 | 福建星网锐捷网络有限公司 | 统一资源定位符url匹配的方法及装置 |
CN106970917A (zh) * | 2016-01-13 | 2017-07-21 | 中国科学院声学研究所 | 一种黑名单url的哈希表的建立及请求url的查找方法 |
CN106970917B (zh) * | 2016-01-13 | 2019-11-19 | 中国科学院声学研究所 | 一种黑名单url的哈希表的建立及请求url的查找方法 |
WO2018001078A1 (zh) * | 2016-06-29 | 2018-01-04 | 中兴通讯股份有限公司 | 一种url匹配方法、装置及存储介质 |
CN107547671A (zh) * | 2016-06-29 | 2018-01-05 | 中兴通讯股份有限公司 | 一种url匹配方法及装置 |
CN106294815A (zh) * | 2016-08-16 | 2017-01-04 | 晶赞广告(上海)有限公司 | 一种url的聚类方法及装置 |
CN106412054A (zh) * | 2016-09-27 | 2017-02-15 | 网宿科技股份有限公司 | 将动态网址转换为静态网址的命名方法、系统及其应用 |
CN106412054B (zh) * | 2016-09-27 | 2019-05-24 | 网宿科技股份有限公司 | 将动态网址转换为静态网址的命名方法、系统及其应用 |
CN106815334A (zh) * | 2016-12-30 | 2017-06-09 | 晶赞广告(上海)有限公司 | 一种用于终端的数据查询方法及装置 |
CN108628871A (zh) * | 2017-03-16 | 2018-10-09 | 哈尔滨英赛克信息技术有限公司 | 一种基于链接特征的链接去重方法 |
CN109495525A (zh) * | 2017-09-12 | 2019-03-19 | 华为技术有限公司 | 网络组件、解析内容标识的方法和计算机可读存储介质 |
CN110086754A (zh) * | 2018-01-26 | 2019-08-02 | 北京金山云网络技术有限公司 | 一种资源屏蔽方法、装置、电子设备及可读存储介质 |
CN108549716A (zh) * | 2018-04-23 | 2018-09-18 | 广东奥园奥买家电子商务有限公司 | 一种基于布隆算法实现海量黑名单处理的方法 |
CN112532598A (zh) * | 2020-11-19 | 2021-03-19 | 南京大学 | 一种用于实时入侵检测系统的过滤方法 |
CN112532598B (zh) * | 2020-11-19 | 2021-10-26 | 南京大学 | 一种用于实时入侵检测系统的过滤方法 |
CN114143083A (zh) * | 2021-11-30 | 2022-03-04 | 北京天融信网络安全技术有限公司 | 黑名单策略匹配方法、装置、电子设备及存储介质 |
CN114143083B (zh) * | 2021-11-30 | 2023-11-14 | 北京天融信网络安全技术有限公司 | 黑名单策略匹配方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102110132B (zh) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102110132B (zh) | 统一资源定位符匹配查找方法、装置和网络侧设备 | |
US10652265B2 (en) | Method and apparatus for network forensics compression and storage | |
CN102857493B (zh) | 内容过滤方法和装置 | |
CN101446983B (zh) | 一种实现移动终端获取网页的方法、系统和设备 | |
CN106982150B (zh) | 一种基于Hadoop的移动互联网用户行为分析方法 | |
CN102768636B (zh) | 一种日志解析方法及装置 | |
CN103873451B (zh) | 一种数据同步的方法、设备和系统 | |
CN102737119B (zh) | 统一资源定位符的查找方法、过滤方法和相关设备及系统 | |
CN107908694A (zh) | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 | |
CN102882703B (zh) | 一种基于http分析的url自动分类分级的系统及方法 | |
CN102710795B (zh) | 热点聚合方法及装置 | |
CN102971732A (zh) | 键/值存储器的集成分级查询处理的系统结构 | |
CN105024969A (zh) | 一种实现恶意域名识别的方法及装置 | |
CN103618733B (zh) | 一种应用于移动互联网的数据过滤系统及方法 | |
CN101442558B (zh) | 一种为p2sp网络提供索引服务的方法和系统 | |
CN103177005A (zh) | 一种数据访问的处理方法和系统 | |
CN107547671A (zh) | 一种url匹配方法及装置 | |
US20160277306A1 (en) | Data Stream Identifying Method and Device | |
CN103593440A (zh) | 日志文件的读写方法及装置 | |
CN106777387A (zh) | 一种基于HBase的物联网大数据存取方法 | |
CN106503008A (zh) | 文件存储方法和装置及文件查询方法和装置 | |
CN111859127A (zh) | 消费数据的订阅方法、装置及存储介质 | |
CN103593442A (zh) | 日志数据的去重方法及装置 | |
CN104636368A (zh) | 数据检索方法、装置及服务器 | |
CN101635831B (zh) | 一种p2p直播视频节点数据共享的方法、装置及代理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130619 |