CN101605129A - 一种用于url过滤系统的url查找方法 - Google Patents

一种用于url过滤系统的url查找方法 Download PDF

Info

Publication number
CN101605129A
CN101605129A CNA2009100875093A CN200910087509A CN101605129A CN 101605129 A CN101605129 A CN 101605129A CN A2009100875093 A CNA2009100875093 A CN A2009100875093A CN 200910087509 A CN200910087509 A CN 200910087509A CN 101605129 A CN101605129 A CN 101605129A
Authority
CN
China
Prior art keywords
url
prefix
suffix
blacklist
subitem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100875093A
Other languages
English (en)
Other versions
CN101605129B (zh
Inventor
嵩天
周舟
贾云得
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN2009100875093A priority Critical patent/CN101605129B/zh
Publication of CN101605129A publication Critical patent/CN101605129A/zh
Application granted granted Critical
Publication of CN101605129B publication Critical patent/CN101605129B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络信息安全技术领域,具体涉及一种统一资源定位符(Uniform Resource Locator,URL)的查找方法。本发明将已有URL查找方法中的哈希方法与多字符串匹配的方法相结合,提出一种能很好的满足URL过滤系统性能和功能需求的URL查找方法。与已有查找方法相比,本发明的一种用于URL过滤系统的URL查找方法查找速度快、性能稳定;存储效率高,能满足不断增大的URL黑名单的存储要求;支持前缀匹配。本发明适用于URL过滤系统,能够方便的实现对用户上网行为的有效控制,还可以应用于其他网络应用,如搜索引擎、web缓存、第七层交换等。

Description

一种用于URL过滤系统的URL查找方法
技术领域
本发明涉及网络信息安全技术领域,具体涉及一种统一资源定位符(Uniform Resource Locator,URL)的查找方法,适用于URL过滤系统。
背景技术
互联网作为全球最大的信息中心,正以惊人的速度发展壮大。它由数以亿计的网站组成,每个网站都有一个唯一的标识,称为URL。互联网上的信息良莠不齐,存在为数不少的宣扬暴力、色情、反动等不良信息的网站。访问这些网站会对青少年的身心健康带来极大影响。另外,还存在一些包含恶意软件的可疑网站,会威胁到用户的个人隐私甚至破坏用户的电脑。
如何保障互联网的安全,维护一个健康的网络环境,成为一个急需解决的问题。许多网络安全措施介入其中。作为应用最广泛的一个措施,URL过滤系统提供了一种简单而有效的方案防止用户访问不健康和恶意的网站。
URL过滤系统维护一个预先定义好的黑名单,其中包含需要屏蔽的网站的URL集合。它首先从用户所发送的HTTP请求数据包中提取请求的URL。然后查找这个URL是否在黑名单中。如果在黑名单中发现这个URL,则阻断这个URL请求;否则,将数据包发送到目的服务器。
URL查找是URL过滤系统的一个核心操作。通常情况下,URL查找需要考虑以下三个问题:
1.URL查找必须快速,性能必须稳定,不受黑名单中URL数量日益增大的影响而降低性能;
2.存储黑名单中百万级别的URL字符串需要耗费巨大的存储空间,需要一种有效的方法将这些URL压缩到一个合理的大小;
3.对于URL过滤系统,URL查找必须支持前缀匹配。URL查找中涉及的前缀匹配,具体指判断某一请求的URL(T[1…n])的前缀是否与黑名单中的某一URL(p[1…m])完全匹配。
每个URL可以看成一个字符串。基于URL的语法格式,根据分隔符“://”和“/”,可以将一个URL分解成scheme子项、host子项以及path子项,其中path子项可为空,也可有多项。查找中,如果某一请求的URL的前缀与黑名单中的某一URL能够完全匹配,则该请求的URL需要被屏蔽掉。因此,支持前缀匹配是准确、有效地屏蔽所请求的URL的关键。
现有的URL查找技术主要有两大类方法:
第一类是哈希的方法。这类方法的基本原理是将URL通过哈希函数映射到特定的数据结构来加速查找。由于使用了不同的数据结构,研究者们提出了不同的方法。在文献《Summary Cache:A Scalable Wide-Area Web Cache SharingProtocol》中,Li Fan等人提出了将URL通过MD5函数映射到布鲁姆过滤器的方法。利用布鲁姆过滤器可以快速判断一个URL是否在集合中。在文献《Managing Routing Tables for URL Routers in Content Distribution Networks》中,Zornitza Genova等人用哈希函数将每个URL映射到一个哈希表的表项,这样每个URL表示成一个相同长度的编码,URL查找操作通过查找哈希表来实现。
对于哈希方法,由于它们没有考虑URL的语法格式,而是将每个URL从第一个字符到最后一个字符哈希成一个相同长度的编码,所以无法支持URL的前缀匹配。
第二类是建立URL分解树的方法。这类方法的基本原理是:根据URL的语法格式,将每个URL分解为子项,然后建立一棵URL分解树。URL查找过程是一个树的遍历过程,每次匹配树的一个子节点,直到匹配到叶节点。这类方法最早在文献《URL Forwarding and Compression in Adaptive Web Caching》中由B.Scott Michel等人提出来。
对于建立URL分解树这类方法,虽然能解决前缀匹配的问题,但是由于它们使用了树的结构,所以URL的查找效率受到了制约。
本发明使用到的另一项重要已有技术是多字符串匹配。多字符串匹配,即在文本串T[1…n]中找出模式串集合P={p1,p2,…,pk}中的每个模式串pi(1≤i≤k)的所有出现位置,其中T和pi都是在有限字母表上的字符序列。
在文献《A Fast Algorithm for Multi-Pattern Searching》中,Sun Wu等人提出了Wu-Manber方法,采用了跳跃不可能匹配的字符策略和HASH散列的方法,加速匹配的进行。该方法包括一个预处理阶段和一个扫描阶段。
在预处理阶段,首先计算模式串集合P中最短的模式串长度,记为m。然后,对所有模式串(仅考虑前m个字符组成的模式串)构建哈希表(记为HASH),跳转表(记为SHIFT)和前缀表(记为PREFIX)。HASH表的每个表项指向最后B个字符被哈希到该表项的模式串,如果有多个模式串被哈希到同一表项,则采用链式存储结构;SHIFT表用于在扫描文本串的时候,根据读入字符串决定可以跳过的字符数;PREFIX表存储的是每个模式前B’个字符的哈希值。此处,建立HASH表和PREFIX表所用到的哈希函数根据不同情况进行选择;B和B’为正整数,其值根据实验情况择优选择。
在扫描阶段,按如下步骤进行:
第(1)步:设一指针q,指向文本串T的第m个字符;
第(2)步:从当前指针往前的B-1个字符开始,向后扫描B个字符,使用预处理阶段建立HASH表所用到的哈希函数,计算该B个字符的哈希值,得到h;
第(3)步:查SHIFT表找到SHIFT[h]:如果大于0,则根据其值向后移动指针q相应的长度,转到第(2)步;否则转到第(4)步;
第(4)步:从当前指针往前的m-1个字符开始,向后扫描B’个字符,使用预处理阶段建立PREFIX表所用到的哈希函数,计算这B’个字符的前缀哈希值;
第(5)步:查HASH表,找到HASH[h]的指针,遍历链表。对链表中的每个模式串,如果它在PREFIX表的值与前缀哈希值相等,则将文本串和模式串逐一字符进行比较,判断是否完全匹配。如完全匹配,则报告完全匹配位置q;否则,不报告;
第(6)步:判断指针q是否指向文本串的结束符,如指向结束符,则结束过程;否则,将指针q向后移动一个字符,转到第(2)步。
发明内容
本发明针对上述已有URL查找方法存在的不足,将哈希的方法和多字符串匹配的方法相结合,提出一种能很好的满足URL过滤系统性能和功能需求的URL查找方法。本发明的查找方法,查找速度快、性能稳定;存储效率高,能满足不断增大的URL黑名单的存储要求;支持前缀匹配。
本发明的一种用于URL过滤系统的URL查找方法的整体框架设计流程如图1所示。具体操作步骤如下:
步骤一、压缩URL黑名单
首先,将URL黑名单进行压缩,即基于URL的语法格式,用c位(c为一个正整数,其值根据实验情况择优选择)的哈希函数将黑名单中的URL压缩成(c/8)*n(n是各个URL分解出来的子项的数量)字节长度的字符串。具体操作步骤如下:
第(1)步:基于URL语法格式,根据分隔符“://”和“/”,将原始的URL分解成scheme子项、host子项以及path子项,其中path子项可为空,也可有多项;
第(2)步:将第(1)步分解出的每个变长的host子项以及path子项,利用c位的哈希函数压缩成c/8个字节的字符串。此处忽略scheme子项,即不对scheme子项进行计算;
第(3)步:将压缩后的各个子项按原有次序连接成一个字符串并存储,用其代替原始的URL。
对黑名单中的每一个URL都采用上述方法进行处理,得到压缩后的黑名单。
步骤二、为压缩后的URL黑名单建立一个后缀表和一个前缀表
在步骤一的基础上,为压缩后的URL黑名单建立一个后缀表和一个前缀表。具体操作步骤如下:
首先计算压缩后的黑名单中URL的最短长度,记为m。然后对所有压缩后的URL(仅考虑每个URL的前m个字符),建立一个后缀表(记为SUFFIX)和一个前缀表(记为PREFIX)。后缀表和前缀表的建立方法采用文献《A FastAlgorithm for Multi-Pattern Searching》中介绍的Wu-Manber方法中的哈希表以及前缀表的建立方法。后缀表的每个表项指向最后B个字符被哈希到该表项的URL,如果有多个URL被哈希到同一表项,则采用链式存储结构。前缀表存储的是每个模式前B’个字符的哈希值。B和B’为正整数,其值根据实验情况择优选择。建立后缀表和前缀表所用到的哈希函数可根据不同情况进行选择。
步骤三、查找请求URL
在步骤二的基础上,判断一个请求的URL是否在黑名单中。本发明对文献《A Fast Algorithm for Multi-Pattern Searching》中提出的Wu-Manber多字符串匹配方法进行了改进,具体操作步骤如下:
第(1)步:使用步骤一中的压缩步骤将请求URL压缩成(c/8)*n个字节的字符串,n是分解出的URL子项的数目;
第(2)步:判断(c/8)*n的值是否小于m,如果小于则报告“未发现”,并结束过程;否则转到第(3)步;
第(3)步:使用步骤二建立后缀表所用到的哈希函数,计算压缩后的请求URL中B个字符,即从第m-B+1个字符到第m个字符的哈希值h;
第(4)步:使用步骤二建立前缀表所用到的哈希函数,计算压缩后的请求URL前B’个字符的哈希值,记为“URL_前缀”;
第(5)步:判断SUFFIX[h]指针指向的URL是否为空,如果为空,则报告“非发现”,并结束过程;否则,转到第(6)步;
第(6)步:检查SUFFIX[h]指针指向的URL在PREFIX表中的值是否等于“URL_前缀”。如果不相等,转到第(7)步;如果相等,则将该URL与压缩后的请求URL进行逐个字符的比较,如果压缩后的请求URL的前缀与SUFFIX[h]指针指向的URL完全匹配,则报告“发现”,并结束过程;否则,转到第(7)步;
第(7)步:移动SUFFIX[h]指针,指向下一个URL,判断是否为空,如果为空,则报告“未发现”,并结束过程;否则,转到第(6)步。
需要说明的是,URL查找方法也可以用其它多字符串匹配方法进行替换。
有益效果
与已有查找方法相比,本发明的一种用于URL过滤系统的URL查找方法查找速度快、性能稳定;存储效率高,能满足不断增大的URL黑名单的存储要求;支持前缀匹配。本发明适用于URL过滤系统,能够方便的实现对用户上网行为的有效控制,还可以应用于其他网络应用,如搜索引擎、web缓存、第七层交换等。
附图说明
图1为本发明的整体框架设计流程图。
具体实施方式
根据上述技术方案,下面结合附图和实施例对本发明进行详细说明。
假设黑名单中的URL为:
http://network.cs.bit.edu.cn/students/
http://www.sina.com.cn/
http://network.cs.bit.edu.cn/research/
http://www.163.com/news/
请求的URL为:
http://network.cs.bit.edu.cn/research/projects/
http://www.sina.com.cn/
http://www.baidu.com/
http://www.163.com/sports/
步骤一、压缩URL黑名单
首先,将URL黑名单进行压缩。以“http://network.cs.bit.edu.cn/students/”为例详细介绍:
第(1)步:根据分隔符“://”和“/”,将原始的URL“http://network.cs.bit.edu.cn/students/”被分解为四个子项,分别是:scheme子项“http”,host子项“network.cs.bit.edu.cn”,path子项“students”;
第(2)步:将第(1)步分解出的每个变长的host子项“network.cs.bit.edu.cn”以及path子项“students”,利用32位的哈希函数(CRC32)压缩成4个字节的字符串,分为为0x2336F04B和0xA4698DB2。此处忽略scheme子项,即不对scheme子项进行计算。
第(3)步:将0x2336F04B和0xA4698DB2两个子项按原有次序连接成8个字节的字符串0x2336F04BA4698DB2,代替原始的URL地址。
通过上述的实施例可见,使用URL压缩方法,原始的需要38个字节才能表示的URL被压缩成8个字节,极大减少了存储量。
对黑名单中的每一个URL都采用上述步骤进行处理,得到压缩后的黑名单:“http://www.sina.com.cn/”,压缩后的结果为0x24BCB313;“http://network.cs.bit.edu.cn/research/”,压缩后的结果为0x2336F04B57EB50C2;“http://www.163.com/news/”,压缩后的结果为0x3199F9FC1DD39950。
步骤二、为压缩后的URL黑名单建立一个后缀表和一个前缀表
在步骤一的基础上,为压缩后的URL黑名单建立一个后缀表和一个前缀表。具体操作步骤如下:
首先计算压缩后的黑名单中URL的最短长度m=4。然后对于所有压缩后的URL(仅考虑每个URL的前4个字符),建立一个后缀表SUFFIX和一个前缀表PREFIX。后缀表的每个表项指向最后B个字符被哈希到该表项的URL,如果有多个URL被哈希到同一表项,则采用链式存储结构。前缀表存储的是每个模式前B’个字符的哈希值。本例中,B=B’=2,建立后缀表和前缀表所用到的哈希函数定义如下:
unsigned short hash(unsigned char*url)
{
    return(unsigned short)((*url)<<8|*(url+1));
}
步骤三、查找请求URL
在步骤二的基础上,判断一个请求的URL是否在黑名单中。
例1:请求URL为:“http://network.cs.bit.edu.cn/research/projects/”,则具体查找步骤如下:
第(1)步:使用步骤一中的压缩步骤将请求URL压缩成(c/8)*n个字节的字符串。本例中,c=32,n=3,因此“http://network.cs.bit.edu.cn/research/projects/”被压缩成12个字节的字符串0x2336F04B57EB50C25C93B3A4;
第(2)步:(c/8)*n=12,m=4,(c/8)*n的值不小于m,转到第(3)步;
第(3)步:B=2,m=4,使用步骤二建立后缀表所用到的哈希函数,计算出的哈希值h=61515;
第(4)步:B’=2,使用步骤二建立前缀表所用到的哈希函数,计算出的“URL前缀”的值为9014;
第(5)步:h=61515,SUFFIX[h]指针指向的URL(0x2336F04BA4698DB2)不为空,转到第(6)步;
第(6)步:h=61515,SUFFIX[h]指针指向的URL(0x2336F04BA4698DB2)在前缀表PREFIX中的值等于“URL_前缀”。将SUFFIX[h]指针指向的URL(0x2336F04BA4698DB2)与压缩后的请求URL(0x2336F04B57EB50C25C93B3A4)进行逐个字符的比较。压缩后的请求URL的前缀与SUFFIX[h]指针指向的URL不完全匹配,转到第(7)步;
第(7)步:h=61515,移动SUFFIX[h]指针,指向下一个URL(0x2336F04B57EB50C2),不为空,转到第(6)步;
第(6)步:SUFFIX[h]指针指向的URL(0x2336F04B57EB50C2)在前缀表PREFIX中的值等于“URL_前缀”。将SUFFIX[h]指针指向的URL(0x2336F04B57EB50C2)与压缩后的请求URL(0x2336F04B57EB50C25C93B3A4)进行逐个字符的比较。压缩后的请求URL的前缀与SUFFIX[h]指针指向的URL完全匹配,报告“发现”,并结束过程。
例2:请求URL为:“http://www.sina.com.cn/”,则具体查找步骤如下:
第(1)步:使用步骤一中的压缩步骤将请求URL压缩成(c/8)*n个字节的字符串。本例中,c=32,n=1,因此“http://www.sina.com.cn/”被压缩成4个字节的字符串0x24BCB313;
第(2)步:(c/8)*n=4,m=4,(c/8)*n的值不小于m,转到第(3)步;
第(3)步:B=2,m=4,使用步骤二建立后缀表所用到的哈希函数,计算出的哈希值h=45843;
第(4)步:B’=2,使用步骤二建立前缀表所用到的哈希函数,计算出的“URL_前缀”的值为9404;
第(5)步:h=45843,SUFFIX[h]指针指向的URL(0x24BCB313)不为空,转到第(6)步;
第(6)步:SUFFIX[h]指针指向的URL(0x24BCB313)在前缀表PREFIX中的值等于“URL_前缀”。将SUFFIX[h]指针指向的URL(0x24BCB313)与压缩后的请求URL(0x24BCB313)进行逐个字符的比较。压缩后的请求URL的前缀与SUFFIX[h]指针指向的URL完全匹配,报告“发现”,并结束过程。
例3:请求URL为:“http://www.baidu.com/”,则具体查找步骤如下:
第(1)步:使用步骤一中的压缩步骤将请求URL压缩成(c/8)*n个字节的字符串。本例中,c=32,n=1,因此“http://www.baidu.com/”被压缩成4个字节的字符串0x171BC50D;
第(2)步:(c/8)*n=4,m=4,(c/8)*n的值不小于m,转到第(3)步;
第(3)步:B=2,m=4,使用步骤二建立后缀表所用到的哈希函数,计算出的哈希值h=50445;
第(4)步:B’=2,使用步骤二建立前缀表所用到的哈希函数,计算出的“URL_前缀”的值为5915;
第(5)步:h=50445,SUFFIX[h]指针指向的URL为空,报告“非发现”,并结束过程。
例4:请求URL为:“http://www.163.com/sports/”,则具体查找步骤如下:
第(1)步:使用步骤一中的压缩步骤将请求URL压缩成(c/8)*n个字节的字符串。本例中,c=32,n=2,因此“http://www.163.com/sports/”被压缩成8个字节的字符串0x3199F9FC73C9F91C;
第(2)步:(c/8)*n=8,m=4,(c/8)*n的值不小于m,转到第(3)步;
第(3)步:B=2,m=4,使用步骤二建立后缀表所用到的哈希函数,计算出的哈希值h=63996;
第(4)步:B’=2,使用步骤二建立前缀表所用到的哈希函数,计算出的“URL_前缀”的值为12697;
第(5)步:h=63996,SUFFIX[h]指针指向的URL(0x3199F9FC1DD39950)不为空,转到第(6)步;
第(6)步:h=63996,SUFFIX[h]指针指向的URL(0x3199F9FC1DD39950)在前缀表PREFIX中的值等于“URL_前缀”。将SUFFIX[h]指针指向的URL(0x3199F9FC1DD39950)与压缩后的请求URL(0x3199F9FC73C9F91C)进行逐个字符的比较。压缩后的请求URL的前缀与SUFFIX[h]指针指向的URL不完全匹配,转到第(7)步;
第(7)步:h=63996,移动SUFFIX[h]指针,指向下一个URL,为空,报告“非发现”,并结束过程。
由上述实施例可见,本发明的这种URL查找方法将哈希的方法和多字符串匹配的方法相结合,克服了现有技术中的不足,在查找效率和内存消耗两方面实现了高性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,或者对其中部分技术特征进行等同替换,这些改进和替换也应视为本发明的保护范围。

Claims (4)

1.一种用于URL过滤系统的URL查找方法,其特征在于:将已有URL查找方法中的哈希方法与多字符串匹配的方法相结合,提出一种新的URL查找方法;其具体步骤如下:
步骤一、压缩URL黑名单
首先,将URL黑名单进行压缩;
步骤二、为压缩后的URL黑名单建立一个后缀表和一个前缀表
在步骤一的基础上,为压缩后的URL黑名单建立一个后缀表和一个前缀表;
步骤三、查找请求URL
在步骤二的基础上,判断一个请求的URL是否在黑名单中。
2.根据权利要求1所述的一种用于URL过滤系统的URL查找方法,其特征在于步骤一中的压缩URL黑名单是基于URL的语法格式,用c位的哈希函数将黑名单中的URL压缩成(c/8)*n字节长度的字符串,n是分解出的URL子项的数目;具体操作步骤如下:
第(1)步:基于URL语法格式,根据分隔符“://”和“/”,将原始的URL分解成scheme子项、host子项以及path子项,其中path子项可为空,也可有多项;
第(2)步:将第(1)步分解出的每个变长的host子项以及path子项,利用c位的哈希函数压缩成c/8个字节的字符串;此处忽略scheme子项,即不对scheme子项进行计算;
第(3)步:将压缩后的各个子项按原有次序连接成一个字符串并存储,用其代替原始的URL;
对黑名单中的每一个URL都采用上述方法进行处理,得到压缩后的黑名单。
3.根据权利要求1所述的一种用于URL过滤系统的URL查找方法,其特征在于步骤二中的为压缩后的URL黑名单建立一个后缀表和一个前缀表,具体操作步骤如下:
首先计算压缩后的黑名单中URL的最短长度,记为m;然后对所有压缩后的URL的前m个字符建立一个后缀表,记为SUFFIX,以及一个前缀表,记为PREFIX;后缀表和前缀表的建立方法采用Wu-Manber方法中的哈希表以及前缀表的建立方法;后缀表的每个表项指向最后B个字符被哈希到该表项的URL,如果有多个URL被哈希到同一表项,则采用链式存储结构;前缀表存储的是每个模式前B’个字符的哈希值;B和B’为正整数,其值根据实验情况择优选择;建立后缀表和前缀表所用到的哈希函数可根据不同情况进行选择。
4.根据权利要求1所述的一种用于URL过滤系统的URL查找方法,其特征在于步骤三中的查找请求URL的具体操作步骤如下:
第(1)步:使用步骤一中的压缩步骤将请求URL压缩成(c/8)*n个字节的字符串,n是分解出的URL子项的数目;
第(2)步:判断(c/8)*n的值是否小于m,如果小于则报告“未发现”,并结束过程;否则转到第(3)步;
第(3)步:使用步骤二建立后缀表所用到的哈希函数,计算压缩后的请求URL中B个字符,即从第m-B+1个字符到第m个字符的哈希值h;
第(4)步:使用步骤二建立前缀表所用到的哈希函数,计算压缩后的请求URL前B’个字符的哈希值,记为“URL前缀”;
第(5)步:判断SUFFIX[h]指针指向的URL是否为空,如果为空,则报告“非发现”,并结束过程;否则,转到第(6)步;
第(6)步:检查SUFFIX[h]指针指向的URL在PREFIX表中的值是否等于“URL前缀”;如果不相等,转到第(7)步;如果相等,则将该URL与压缩后的请求URL进行逐个字符的比较,如果压缩后的请求URL的前缀与SUFFIX[h]指针指向的URL完全匹配,则报告“发现”,并结束过程;否则,转到第(7)步;
第(7)步:移动SUFFIX[h]指针,指向下一个URL,判断是否为空,如果为空,则报告“未发现”,并结束过程;否则,转到第(6)步。
CN2009100875093A 2009-06-23 2009-06-23 一种用于url过滤系统的url查找方法 Expired - Fee Related CN101605129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100875093A CN101605129B (zh) 2009-06-23 2009-06-23 一种用于url过滤系统的url查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100875093A CN101605129B (zh) 2009-06-23 2009-06-23 一种用于url过滤系统的url查找方法

Publications (2)

Publication Number Publication Date
CN101605129A true CN101605129A (zh) 2009-12-16
CN101605129B CN101605129B (zh) 2012-02-01

Family

ID=41470683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100875093A Expired - Fee Related CN101605129B (zh) 2009-06-23 2009-06-23 一种用于url过滤系统的url查找方法

Country Status (1)

Country Link
CN (1) CN101605129B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004789A (zh) * 2010-12-07 2011-04-06 苏州迈科网络安全技术股份有限公司 Url过滤系统的应用方法
CN102045360A (zh) * 2010-12-27 2011-05-04 成都市华为赛门铁克科技有限公司 恶意网址库的处理方法及装置
CN102110132A (zh) * 2010-12-08 2011-06-29 北京星网锐捷网络技术有限公司 统一资源定位符匹配查找方法、装置和网络侧设备
CN102148805A (zh) * 2010-02-09 2011-08-10 华为技术有限公司 特征匹配方法和装置
CN102193948A (zh) * 2010-03-16 2011-09-21 华为技术有限公司 特征匹配方法和装置
CN102333082A (zh) * 2010-08-23 2012-01-25 微软公司 安全的url缩短
CN102411617A (zh) * 2011-10-31 2012-04-11 北京锐安科技有限公司 一种对海量url进行存储和查询方法
CN102567411A (zh) * 2010-12-31 2012-07-11 上海格尔软件股份有限公司 一种快速检索海量数字证书黑名单的方法
CN102843271A (zh) * 2011-11-14 2012-12-26 哈尔滨安天科技股份有限公司 恶意url的形式化检测方法和系统
CN102857572A (zh) * 2012-09-14 2013-01-02 北京星网锐捷网络技术有限公司 一种http访问请求处理方法、装置及网关设备
CN103023864A (zh) * 2011-09-28 2013-04-03 中国移动通信集团公司 一种域名封堵方法和设备
CN103220274A (zh) * 2013-03-25 2013-07-24 北京东方网信科技股份有限公司 一种用于运营商网络出口的网络报文模式匹配方法及系统
CN103460209A (zh) * 2011-04-11 2013-12-18 阿尔卡特朗讯公司 编码数据标识符的方法
CN103560995A (zh) * 2013-09-25 2014-02-05 深圳市共进电子股份有限公司 一种同时实现ipv4和ipv6的URL过滤方法
CN103957154A (zh) * 2014-04-11 2014-07-30 国家计算机网络与信息安全管理中心 网络数据包url过滤方法
CN104717226A (zh) * 2012-06-06 2015-06-17 北京奇虎科技有限公司 一种针对网址的检测方法及装置
WO2016206389A1 (zh) * 2015-06-26 2016-12-29 中兴通讯股份有限公司 Url匹配方法及装置
CN106412054A (zh) * 2016-09-27 2017-02-15 网宿科技股份有限公司 将动态网址转换为静态网址的命名方法、系统及其应用
CN106970917A (zh) * 2016-01-13 2017-07-21 中国科学院声学研究所 一种黑名单url的哈希表的建立及请求url的查找方法
WO2018001078A1 (zh) * 2016-06-29 2018-01-04 中兴通讯股份有限公司 一种url匹配方法、装置及存储介质
CN107870925A (zh) * 2016-09-26 2018-04-03 华为技术有限公司 一种字符串过滤方法和相关装置
CN109635182A (zh) * 2018-12-21 2019-04-16 全通教育集团(广东)股份有限公司 基于教育信息主题的并行化数据跟踪方法
CN110086754A (zh) * 2018-01-26 2019-08-02 北京金山云网络技术有限公司 一种资源屏蔽方法、装置、电子设备及可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569522B2 (en) 2014-06-04 2017-02-14 International Business Machines Corporation Classifying uniform resource locators
CN106815282B (zh) * 2016-11-29 2019-12-06 腾讯科技(深圳)有限公司 数据访问方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588879A (zh) * 2004-08-12 2005-03-02 复旦大学 一种互联网内容过滤系统及过滤方法
CN101364237A (zh) * 2008-09-05 2009-02-11 成都市华为赛门铁克科技有限公司 一种多关键词匹配方法和装置

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148805B (zh) * 2010-02-09 2015-04-08 华为技术有限公司 特征匹配方法和装置
CN102148805A (zh) * 2010-02-09 2011-08-10 华为技术有限公司 特征匹配方法和装置
CN102193948A (zh) * 2010-03-16 2011-09-21 华为技术有限公司 特征匹配方法和装置
CN102333082A (zh) * 2010-08-23 2012-01-25 微软公司 安全的url缩短
CN102333082B (zh) * 2010-08-23 2016-09-14 微软技术许可有限责任公司 安全的url缩短
CN102004789A (zh) * 2010-12-07 2011-04-06 苏州迈科网络安全技术股份有限公司 Url过滤系统的应用方法
CN102110132A (zh) * 2010-12-08 2011-06-29 北京星网锐捷网络技术有限公司 统一资源定位符匹配查找方法、装置和网络侧设备
CN102110132B (zh) * 2010-12-08 2013-06-19 北京星网锐捷网络技术有限公司 统一资源定位符匹配查找方法、装置和网络侧设备
CN102045360A (zh) * 2010-12-27 2011-05-04 成都市华为赛门铁克科技有限公司 恶意网址库的处理方法及装置
CN102045360B (zh) * 2010-12-27 2014-04-02 华为数字技术(成都)有限公司 恶意网址库的处理方法及装置
CN102567411B (zh) * 2010-12-31 2014-05-07 上海格尔软件股份有限公司 一种快速检索海量数字证书黑名单的方法
CN102567411A (zh) * 2010-12-31 2012-07-11 上海格尔软件股份有限公司 一种快速检索海量数字证书黑名单的方法
CN103460209A (zh) * 2011-04-11 2013-12-18 阿尔卡特朗讯公司 编码数据标识符的方法
CN103023864B (zh) * 2011-09-28 2015-07-29 中国移动通信集团公司 一种域名封堵方法和设备
CN103023864A (zh) * 2011-09-28 2013-04-03 中国移动通信集团公司 一种域名封堵方法和设备
CN102411617A (zh) * 2011-10-31 2012-04-11 北京锐安科技有限公司 一种对海量url进行存储和查询方法
CN102411617B (zh) * 2011-10-31 2013-09-18 北京锐安科技有限公司 一种对海量url进行存储和查询方法
CN102843271A (zh) * 2011-11-14 2012-12-26 哈尔滨安天科技股份有限公司 恶意url的形式化检测方法和系统
CN102843271B (zh) * 2011-11-14 2015-11-18 哈尔滨安天科技股份有限公司 恶意url的形式化检测方法和系统
CN104717226A (zh) * 2012-06-06 2015-06-17 北京奇虎科技有限公司 一种针对网址的检测方法及装置
CN102857572A (zh) * 2012-09-14 2013-01-02 北京星网锐捷网络技术有限公司 一种http访问请求处理方法、装置及网关设备
CN103220274A (zh) * 2013-03-25 2013-07-24 北京东方网信科技股份有限公司 一种用于运营商网络出口的网络报文模式匹配方法及系统
CN103220274B (zh) * 2013-03-25 2016-06-15 北京东方网信科技股份有限公司 一种用于运营商网络出口的网络报文模式匹配方法及系统
CN103560995A (zh) * 2013-09-25 2014-02-05 深圳市共进电子股份有限公司 一种同时实现ipv4和ipv6的URL过滤方法
CN103957154A (zh) * 2014-04-11 2014-07-30 国家计算机网络与信息安全管理中心 网络数据包url过滤方法
CN103957154B (zh) * 2014-04-11 2017-12-05 国家计算机网络与信息安全管理中心 网络数据包url过滤方法
WO2016206389A1 (zh) * 2015-06-26 2016-12-29 中兴通讯股份有限公司 Url匹配方法及装置
CN106970917A (zh) * 2016-01-13 2017-07-21 中国科学院声学研究所 一种黑名单url的哈希表的建立及请求url的查找方法
CN106970917B (zh) * 2016-01-13 2019-11-19 中国科学院声学研究所 一种黑名单url的哈希表的建立及请求url的查找方法
WO2018001078A1 (zh) * 2016-06-29 2018-01-04 中兴通讯股份有限公司 一种url匹配方法、装置及存储介质
CN107547671A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 一种url匹配方法及装置
CN107870925A (zh) * 2016-09-26 2018-04-03 华为技术有限公司 一种字符串过滤方法和相关装置
CN106412054A (zh) * 2016-09-27 2017-02-15 网宿科技股份有限公司 将动态网址转换为静态网址的命名方法、系统及其应用
CN106412054B (zh) * 2016-09-27 2019-05-24 网宿科技股份有限公司 将动态网址转换为静态网址的命名方法、系统及其应用
CN110086754A (zh) * 2018-01-26 2019-08-02 北京金山云网络技术有限公司 一种资源屏蔽方法、装置、电子设备及可读存储介质
CN109635182A (zh) * 2018-12-21 2019-04-16 全通教育集团(广东)股份有限公司 基于教育信息主题的并行化数据跟踪方法

Also Published As

Publication number Publication date
CN101605129B (zh) 2012-02-01

Similar Documents

Publication Publication Date Title
CN101605129B (zh) 一种用于url过滤系统的url查找方法
US9160611B2 (en) System and method for performing longest common prefix strings searches
Zhou et al. A high-performance url lookup engine for url filtering systems
CN107153647B (zh) 进行数据压缩的方法、装置、系统和计算机程序产品
Nour et al. M2HAV: A standardized ICN naming scheme for wireless devices in Internet of Things
CN103401795A (zh) 一种内容中心网络中传输内容冗余的消除方法
US20080065821A1 (en) Method and system for character string searching
Khelifi et al. A name-to-hash encoding scheme for vehicular named data networks
Saxena et al. N-FIB: Scalable, memory efficient name-based forwarding
Wang et al. GPU-accelerated name lookup with component encoding
Saxena et al. Reliable memory efficient name forwarding in named data networking
Asano et al. Efficient compression of web graphs
Papalini et al. High throughput forwarding for ICN with descriptors and locators
Majed et al. Name lookup in named data networking: A review
CN106959975B (zh) 一种转码资源缓存处理方法、装置及设备
KR101097660B1 (ko) 무선 방송 스트림에서 xml 질의 처리 방법
Feng et al. A fast name lookup method in NDN based on hash coding
Zhiwang et al. A multi-layer bloom filter for duplicated URL detection
Yuan Data structures and algorithms for scalable NDN forwarding
JP2006221294A (ja) Url検索方法及び検索装置
Rao et al. Bitlist: New full-text index for low space cost and efficient keyword search
Zhang et al. DHT-based range query processing for web service discovery
Zhang et al. MIR: Multi-Identifier Router and Its Prototype
JP6291435B2 (ja) プログラムおよびクラスタシステム
Ashraf et al. Dynamic naming scheme and lookup method based on trie for vehicular named data network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120201

Termination date: 20120623