CN102110132A

CN102110132A - 统一资源定位符匹配查找方法、装置和网络侧设备

Info

Publication number: CN102110132A
Application number: CN 201010592296
Authority: CN
Inventors: 魏逢一
Original assignee: Beijing Star Net Ruijie Networks Co Ltd
Current assignee: Beijing Star Net Ruijie Networks Co Ltd
Priority date: 2010-12-08
Filing date: 2010-12-08
Publication date: 2011-06-29
Anticipated expiration: 2030-12-08
Also published as: CN102110132B

Abstract

本发明实施例提供一种统一资源定位符匹配查找方法、装置和网络侧设备，所述统一资源定位符匹配查找方法包括：将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项；利用预设的散列函数对每个统一资源定位符子项进行扫描，获得所述每个统一资源定位符子项对应的散列序列；当预设的位向量中与至少一个散列序列对应的位为第一预定数值时，确定所述待匹配的统一资源定位符属于黑名单。本发明实施例通过使用布隆过滤器存储黑名单中的URL条目，大大压缩了URL的存储空间；并且可以通过一次扫描获得所有URL子项的散列值，大大提升了匹配查找的性能；另外，本发明实施例能够很好的支持URL的前缀匹配和子域名匹配。

Description

统一资源定位符匹配查找方法、装置和网络侧设备

技术领域

本发明涉及网络通信技术领域，尤其涉及一种统一资源定位符匹配查找方法、装置和网络侧设备。

背景技术

互联网的迅速普及，不仅带来了诸多便利，也带来了许多负面问题，这些负面问题一般可以分为两个方面：一是娱乐性内容对人们时间的浪费；二是不良信息对人们灵魂的危害。

对于前者，互联网上无数的娱乐性内容正在吞噬人们的宝贵时间，这些与工作无关的活动包括在线游戏、网上购物、股票交易、网上电台、流媒体和动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III；以下简称：MP3)下载等。据一项调查表明，企业员工全部上网活动中，50％以上都是与工作无关的，这意味着这些员工每个月拿到的薪水当中一部分与他们的工作无关。另外，专门研究上网成瘾症状的专家表示，25％到50％的上网成瘾的人都是在办公室里上网的，如果企业对员工在上班时间的上网情况不闻不问，而且也不对某些不良网站进行禁止，那么很有可能会引发一系列严重的后果。

对于后者，黄色网站等不良网站的泛滥，很多青少年因此而荒废学业，成为“网络海洛因”的吸食者。

除此之外，病毒、木马网站的泛滥也在侵蚀着网络，访问互联网随时都有可能受到病毒、木马的侵袭。一旦电脑染上病毒或者木马，就可能造成个人账号等信息被盗窃，而且清除电脑病毒和木马的过程中也浪费了大量的宝贵时间。

为了解决互联网带来的这些负面问题，维护一个健康、高效的网络环境，统一资源定位符(Uniform Resource Locator；以下简称：URL)过滤提供了一种简单而有效的方案，用于防止用户访问与工作无关的、不健康的和恶意的网站。

现有技术中，URL的语法格式如下所示：

HTTP_URL:＝″http:″″//″host[:port][abs_path[″？″query]]

其中“http”代表超文本传输协议(HyperText Transfer Protocol；以下简称：HTTP)，“host[:port]”为HTTP请求报文首部主(host)域的值，即资源站点的地址，可以是域名，也可以是因特网协议(Internet Protocol；以下简称：IP)，如果端口号(port)为空，则代表端口号为80。“abs path[″？″query]”即资源的统一资源标识符(Uniform Resource Identifier；以下简称：URI)。

现有URL过滤系统的通常做法是预先定义好URL黑名单，其中包括需要屏蔽的各类网站的URL集合。接着URL过滤系统从用户发送的HTTP请求报文中提取出URL信息，并查找该URL是否属于黑名单中，如果属于，则阻断该HTTP请求；否则转发该HTTP请求。

在URL过滤系统中，URL匹配查找是整个过滤系统的核心，结合URL的语法格式，通常情况下，URL匹配查找实现方式的选择需要考虑如下几个问题：

(1)URL匹配查找的时间开销：为了保证URL过滤系统有良好的吞吐量，URL匹配查找的时间开销必须越小越好，并且在黑名单中的URL条目数很庞大的情况下，URL过滤系统仍能很好的工作。

(2)URL匹配查找的空间开销：当黑名单中的URL条目数很庞大时(条目数达到百万级别时)，必须能够将整个URL过滤系统的空间需求控制在一个合理的范围。

(3)URL过滤必须要能够支持前缀匹配：例如URL黑名单中包含URL条目“http://filter.org/path”，则当用户访问“http://filter.org/path”以及“http://filter.org/path/test”时，都能被有效禁止。

(4)URL过滤必须要能够支持子域名匹配：例如URL黑名单中包含URL条目“filter.org”，则当用户访问“http://filter.org”、“http://test.filter.org”以及“http://one.test.filter.org”时，都能被有效禁止。

但是，在实现本发明的过程中，发明人发现：现有技术提供的URL匹配查找的实现方式均未能同时很好地解决URL匹配查找需要考虑的上述问题。

发明内容

本发明实施例提供一种统一资源定位符匹配查找方法、装置和网络侧设备，以实现支持统一资源定位符的前缀匹配和子域名匹配，并节省统一资源定位符的存储空间。

本发明实施例提供一种统一资源定位符匹配查找方法，包括：

将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项；

利用预设的散列函数对每个统一资源定位符子项进行扫描，获得所述每个统一资源定位符子项对应的散列序列；

当预设的位向量中与至少一个散列序列对应的位为第一预定数值时，确定所述待匹配的统一资源定位符属于黑名单。

本发明实施例还提供一种统一资源定位符匹配查找装置，包括：

拆分模块，用于将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项；

第一扫描模块，用于利用预设的散列函数对每个统一资源定位符子项进行扫描，获得所述每个统一资源定位符子项对应的散列序列；

第一确定模块，用于当预设的位向量中与至少一个散列序列对应的位为第一预定数值时，确定所述待匹配的统一资源定位符属于黑名单。

本发明实施例还提供一种网络侧设备，包括上述统一资源定位符匹配查找装置。

本发明实施例通过布隆过滤器对待匹配的统一资源定位符拆分后的统一资源定位符子项进行匹配，只要有一个统一资源定位符子项属于黑名单，即可确定该待匹配的统一资源定位符属于黑名单；从而可以能够很好地支持统一资源定位符的前缀匹配和子域名匹配。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明统一资源定位符匹配查找方法一个实施例的流程图；

图2为本发明统一资源定位符匹配查找方法另一个实施例的流程图；

图3为本发明URL条目扫描方向一个实施例的示意图；

图4为本发明URL扫描方向一个实施例的示意图；

图5为本发明将URL条目装入布隆过滤器一个实施例的示意图；

图6为本发明统一资源定位符匹配查找装置一个实施例的结构示意图；

图7为本发明统一资源定位符匹配查找装置另一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明统一资源定位符匹配查找方法一个实施例的流程图，如图1所示，该统一资源定位符匹配查找方法可以包括：

步骤101，将待匹配的URL拆分为至少一个URL子项。

具体地，可以根据URL的语法格式将待匹配的URL拆分为至少一个URL子项，上述至少一个URL子项包括待匹配的URL的域名、各级父域名和前缀。

步骤102，利用预设的散列函数对每个URL子项进行扫描，获得每个URL子项对应的散列序列。

本实施例中，该预设的散列函数可以为预设的布隆过滤器(Bloom Filter)的查询散列函数，则利用预设的散列函数对每个URL子项进行扫描，获得每个URL子项对应的散列序列可以为：利用预设的布隆过滤器的查询散列函数对每个URL子项进行扫描，获得每个URL子项对应的散列序列；

具体地，可以先利用查询散列函数按照从尾部至头部的顺序对待匹配的URL的域名进行扫描，每扫描完一个URL子项，则输出该URL子项对应的散列序列；然后，再利用上述查询散列函数按照从头部至尾部的顺序对待匹配的URL的URI进行扫描，每扫描完一个URL子项，则输出该URL子项对应的散列序列。

当然以上只是本发明实施例的一个示例，不应构成本发明实施例的限定，本发明实施例对散列函数的具体形式不作限定，只要可以对每个URL子项进行扫描，获得每个URL子项对应的散列序列即可。

步骤103，当预设的位向量中与至少一个散列序列对应的位为第一预定数值时，确定待匹配的URL属于黑名单。

本实施例中，预设的位向量可以为预设的布隆过滤器的位向量，上述第一预定数值可以为0或1，本实施例对此不作限定，但本实施例以位向量为布隆过滤器的位向量，第一预定数值为1为例进行说明。也就是说，本实施例中，当布隆过滤器的位向量中与至少一个散列序列对应的位全为1时，即可确定该待匹配的URL属于黑名单，需要对该待匹配的URL进行过滤处理。

另外，本发明实施例对所使用的布隆过滤器的类型不作限定，可以使用现有的传统布隆过滤器，也可以使用计数型布隆过滤器等其他类型的布隆过滤器。

上述实施例通过布隆过滤器对待匹配的URL拆分后的URL子项进行匹配，只要有一个URL子项属于黑名单，即可确定该待匹配的URL属于黑名单；上述实施例通过使用布隆过滤器存储黑名单中的URL条目，大大压缩了URL的存储空间，并且能够很好的支持URL的前缀匹配和子域名匹配。

图2为本发明统一资源定位符匹配查找方法另一个实施例的流程图，如图2所示，该统一资源定位符匹配查找方法可以包括：

步骤201，设置黑名单中需要包含的URL条目。

具体地，可以根据实际需要，设定黑名单中需要包含的URL条目；具体可以分为如下三种情况：

(1)完整的URL匹配；

举例来说，如果希望过滤“www.test.org/index.html”这个URL，则可以将URL条目“www.test.org/index.html”添加至黑名单中。

(2)前缀匹配；

举例来说，如果希望过滤URL前缀为“www.test.org/path”的所有URL，例如“www.test.org/path/test.htm”等，则可以将URL条目“www.test.org/path”添加至黑名单中。

(3)子域名匹配；

举例来说，如果希望过滤包含域名“test.org”或该域名下所有子域名的URL，例如：“www.test.org/index.html”等，则可以将URL条目“test.org”添加至黑名单中。

步骤202，根据黑名单中包含的URL条目的个数和预先设定的假通过率，确定布隆过滤器的位向量长度L和表示散列函数的个数N，其中，L和N为正整数。

本实施例中，假设步骤201中设置的黑名单中URL条目的个数为M，M为正整数，则可以根据M和预先设定的假通过率，确定布隆过滤器需要的位向量长度L以及所需要的表示散列函数的个数N。

下面介绍确定布隆过滤器需要的位向量长度L以及所需要的表示散列函数的个数N的两种实现方式。

(方式一)：一个使用了N个表示散列函数的L位长的布隆过滤器中装入M个元素后，位向量中某一位仍为0的概率为

(1-1/L)^NM (1)

则假通过率p为：

p＝[1-(1-1/L)^NM]^N (2)

式(1)和式(2)中，M为正整数，M的大小一般是预先设定的，因此可以根据式(2)计算出当假通过率在可接受范围内时的N和L。

由于N为正整数，根据对匹配查找性能的要求，通常设定N的值不能大于预定阈值，因此可以采用将N的值逐个代入式(2)进行计算的方式，比如将N＝1代入式(2)即得：

p＝1-(1-1/L)^M (3)

式(3)中假通过率p是预先设定的，集合元素个数M是已知的，因此通过解方程即可求得N＝1时的L值了。同理，当N＝2，3，...时都可以计算出一个对应的L值，然后根据实际情况选取合适的N和L即可。

(方式二)：首先将黑名单中的所有URL条目都装入位向量V，然后用一个测试元素集来测试，通过调整位向量的长度L以及表示散列函数的个数N，使得测试元素集的假通过率在可接受的范围内；其中，上述测试元素集中的URL条目都不属于黑名单。

可以按照以上两种实现方式中的任意一种确定好布隆过滤器的位向量长度L和表示散列函数的个数N。

步骤203，建立长度为L的位向量，并将该位向量的位全部初始化为第二预定数值。

其中，该第二预定数值可以为0或1，本实施例对此不作限定，但本实施例以第二预定数值为0为例进行说明。也就是说，本实施例中，建立长度为L的位向量之后，可以先将该位向量的位全部初始化为0。

步骤204，利用设置的N个表示散列函数对黑名单中的每个URL条目进行扫描，获得每个URL条目对应的散列序列。

图3为本发明URL条目扫描方向一个实施例的示意图。如图3所示，本实施例在进行扫描时，首先判断待扫描的URL条目中是否包括“/”，如果包括，则可以确定该URL条目包括域名(Host)部分和URI部分，并且可以确定该URL条目中从左向右看的第一个“/”的左边为域名部分，第一个“/”的右边为URI部分；然后可以按照从尾部扫到头部的顺序扫描URL条目的域名部分，再按照从头部至尾部的顺序扫描URI部分。如果待扫描的URL条目中不包括“/”，则可以确定待扫描的URL条目仅包括域名部分，这时按照从尾部扫到头部的顺序对待扫描的URL条目的域名部分进行扫描即可。

在实际扫描中忽略“http://”部分，因此图3所示URL条目中字符串的实际扫描顺序为：

“g→r→o→.→t→s→e→t→.→w→w→w→/→p→a→t→h→/→i→n→d→e→x→.→h→t→m→1”。

本实施例中，布隆过滤器用到的表示散列函数可以预先设置，举例来说，可以设置布隆过滤器用到的一个表示散列函数的算法为：假设默认散列值为100，每扫描到一个字符，将该字符对应的美国信息互换标准代码(American Standard Code for Information Interchange；以下简称：ASCII)值累加到默认散列值上，在扫描完一个字符串之后，输出该字符串的散列值。其他表示散列函数可以通过类似的方法进行设置，在此不再赘述。

当然以上仅是本发明实施例的一个示例，本发明实施例对布隆过滤器用到的表示散列函数的设置方式不作限定，例如：该表示散列函数的算法也可以为：每扫描完N个字符，将这N个字符的ASCII码值累加到预设的默认散列值上，在扫描完一个字符串之后，输出该字符串的散列值；其中，N为正整数。

采用上述方式，利用设置的N个表示散列函数对黑名单中的每个URL条目进行扫描，即可获得每个URL条目对应的散列序列。

步骤205，将位向量中与上述散列序列对应的位设为第一预定数值。

其中，该第一预定数值可以为0或1，本实施例对此不作限定，但本实施例以第一预定数值为1为例进行说明。

至此，一个针对黑名单中所有URL条目的布隆过滤器就完成了。

当需要查询一个URL是否属于黑名单时，可以执行如下步骤：

步骤206，将待匹配的URL拆分为至少一个URL子项。

具体地，可以根据URL的语法格式将待匹配的URL拆分为至少一个URL子项，该至少一个URL子项包括待匹配的URL的域名、各级父域名和前缀。

举例来说，对于URL：http://www.test.org/path/index.html，其包含的子项有：

1、一级父域名：org

2、二级父域名：test.org

3、域名：www.test.org

4、第一个URL前缀：www.test.org/

5、第二个URL前缀：www.test.org/path

6、完整的URL：www.test.org/path/index.html

步骤207，利用预设的布隆过滤器的查询散列函数对每个URL子项进行扫描，获得每个URL子项对应的散列序列。

现有技术中，计算字符串的散列值都是将字符串从头扫到尾，然后得出一个散列值。但是在URL所包含的URL子项较多的情况下，采用这种方法进行URL匹配查找的性能较低。因此，本发明实施例提供一种散列值计算方法，改变字符串的扫描方向，使得通过一次扫描即可获得所有URL子项的散列值，从而可以有效地提高散列计算效率。

具体地，可以先确定“http://”之后的第一个“/”为域名部分与URI部分的分界点，然后计算域名部分的散列值，利用查询散列函数从域名的尾部向头部扫描，每当扫到一个点号(“.”)时，表示已经扫描完一个父域名，此时输出该父域名的散列值；以此类推，直至扫描完域名部分。接下来，可以利用查询散列函数从头部向尾部扫描URI部分，每扫描到一个斜线(“/”)，表示已经扫描完一个URL前缀，此时输出该URL前缀的散列值；以此类推，直至扫描完URI部分。

仍以URL：http://www.test.org/path/index.html为例，其扫描过程如图4所示，图4为本发明URL扫描方向一个实施例的示意图。

图4中“1”对应第1步扫描的第1个URL子项，“2”对应第2步扫描的第2个URL子项，以此类推。

URL：http://www.test.org/path/index.html的扫描顺序如下所示：

g→r→o→输出第1个URL子项的散列值；

→.→t→s→e→t→输出第2个URL子项的散列值；

→.→w→w→w→输出第3个URL子项的散列值；

→/→输出第4个URL子项的散列值；

→p→a→t→h→/→输出第5个URL子项的散列值；

→i→n→d→e→x→.→h→t→m→1→输出第6个URL子项的散列值。

本实施例中，布隆过滤器的查询散列函数与表示散列函数一一对应，查询散列函数与表示散列函数对每个字符采用的散列值计算方式是相同的。因此，利用查询散列函数对每个URL子项进行扫描，获得每个URL子项对应的散列序列的具体实现方式可参照步骤204中的描述，在此不再赘述。

步骤208，当布隆过滤器的位向量中与至少一个散列序列对应的位为第一预定数值时，确定待匹配的URL属于黑名单。

本实施例中，第一预定数值为1，当布隆过滤器的位向量中与一个散列序列对应的位全为1时，即可确定该散列序列对应的URL子项属于黑名单，只要有一个URL子项属于黑名单，即可确定该待匹配的URL属于黑名单，需要进行过滤处理。

反之，当布隆过滤器的位向量中与每个散列序列对应的位都不全为1时，可以确定待匹配的URL的所有URL子项都不属于黑名单，因此该待匹配的URL也不属于黑名单。

上述实施例通过布隆过滤器对待匹配的URL拆分后的URL子项进行匹配，只要有一个URL子项属于黑名单，即可确定该待匹配的URL属于黑名单；上述实施例通过使用布隆过滤器存储黑名单中的URL条目，大大压缩了URL的存储空间，并且本发明实施例提出的散列值计算方法，可以通过一次扫描获得所有URL子项的散列值，大大提升了匹配查找的性能，同时实现了匹配查找性能与黑名单中的URL条目数无关；并且本实施例能够很好的支持URL的前缀匹配和子域名匹配。

下面结合具体实例对本发明实施例的具体实施方式进行介绍。

(一)假设希望过滤域名“test.org”下所有URL的访问，并且，希望过滤URL前缀匹配“www.test2.org/sport”或“www.test3.org/news/sport”的所有URL的访问。同时，需要精确过滤如下几个URL：“www.test3.org/file1.html”、“www.test3.org/file2.html”。

假设假通过率为万分之一，即访问一万个正常的URL，最多只能有一个URL被误判为属于黑名单。

步骤一：设置黑名单中需要包含的URL条目。

根据上文的场景假设，设置黑名单中需要包含的URL条目为：

test.org

www.test2.org/sport

www.test3.org/news/sport

www.test3.org/file1.html

www.test3.org/file2.html

步骤二：设计布隆过滤器

黑名单中包含5个URL条目，在具体实现时，可以根据URL过滤系统对性能的要求，使用4个表示散列函数和4个查询散列函数，此时可以根据本发明图2所示实施例步骤202中提供的方式二确定布隆过滤器的位向量长度L，本例中L为400比特(即50字节)。

根据本发明图2所示实施例步骤204中提供的散列计算方式，设计4个不同的表示散列函数(F₁，F₂，F₃，F₄)，并对应地设计4个查询散列函数(F₁’，F₂’，F₃’，F₄’)，用于URL匹配查找时使用。

其中F1算法如下：初始化当前散列值h为5381，其中该当前散列值h的大小可以为任意数值，本发明实施例对此不作限定，只要保证整个实施过程都采用同一个值即可。按照本发明图2所示实施例步骤204中介绍的扫描方向，对于扫描到的每个字符c，执行h₁+＝(h₁＜＜5)+(c)，当扫描完一个URL条目的所有字符时，获得的h₁值即为该URL条目的散列值。

对应地，F₁’的算法如下：初始化当前散列值h₁’为5381，同样h₁’的大小可以为任意数值，本发明实施例对此不作限定，只要保证整个实施过程都采用同一个值即可。按照本发明图2所示实施例步骤207介绍的扫描方向，对于扫描到的每个字符c’，同样执行h₁’+＝(h₁’＜＜5)+(c’)，当扫描完一个URL子项的所有字符时，获得的h₁’值即为该URL子项的散列值。需要说明的是，上述公式中的(c)表示字符c的ASCII码值，(c’)表示字符c’的ASCII码值。

本例中，F₂的算法思路与F₁一致，其对每个扫描到的字符执行如下处理：h₂＝31×h₂+(c)；对应地，F₂’的算法思路与F₁’一致，其对每个扫描到的字符执行如下处理：h₂’＝31×h₂’+(c’)；

F₃的算法思路与F₁一致，其对每个扫描到的字符执行如下处理：h₃^＝(h₃＜＜5)+(c)+(h₃＞＞2)；对应地，F₃’的算法思路与F₁’一致，其对每个扫描到的字符执行如下处理：h₃’^＝(h₃’＜＜5)+(c’)+(h₃’＞＞2)

F₄的算法思路与F₁一致，其对每个扫描到的字符执行如下处理：h₄＝(c)+(h₄＜＜6)+(h₄＜＜16)-h₄；对应地，F₄’的算法思路与F₁’一致，其对每个扫描到的字符执行如下处理：h₄’＝(c’)+(h₄’＜＜6)+(h₄’＜＜16)-h₄’。

步骤三：将黑名单中的URL条目逐一装入布隆过滤器。

首先，建立一个长度为400比特的位向量，然后将该位向量中的400个二进制位全部初始化为0。

然后，利用表示散列函数(F₁，F₂，F₃，F₄)对黑名单中的每个URL条目进行扫描，获得每个URL条目对应的散列序列(f₁，f₂，f₃，f₄)，其中f₁为h₁对400求余后获得的值，f₂为h₂对400求余后获得的值，f₃为h₃对400求余后获得的值，f₄为h₄对400求余后获得的值，因此f₁、f₂、f₃和f₄的取值均为1到400之间的一个值。当然本发明实施例并不仅限于此，本发明实施例对f_n与h_n(n＝1，2，3，4)之间的关系不作限定，只要可以通过预定的映射关系，使得f_n与h_n(n＝1，2，3，4)一一对应，并且f_n的取值在1到400之间即可。

最后，将位向量中与每个散列序列对应的二进制位设为1。

在对黑名单中的每个URL条目都进行上述处理后，就将黑名单中的URL条目都装入了布隆过滤器，一个针对上述黑名单中的URL条目的布隆过滤器就完成了。

以URL条目“test.org”为例，将该URL条目装入布隆过滤器的过程可以如图5所示，图5为本发明将URL条目装入布隆过滤器一个实施例的示意图。

步骤四：查询一个URL是否属于黑名单。

假设现有如下URL访问：“www.good.com/index.html”，可以先根据本发明图2所示实施例步骤206中介绍的方法将该URL拆分为至少一个URL子项，该URL的URL子项包括：

(1)com

(2)good.com

(3)www.good.com

(4)www.good.com/

(5)www.good.com/index.html

然后，可以采用查询散列函数(F₁’，F₂’，F₃’，F₄’)，为上述URL子项计算对应的散列序列(t_s1，t_s2，t_s3，t_s4)，1≤s≤5，s为正整数；其中，t_s1为h₁’对400求余后获得的值，t_s2为h₂’对400求余后获得的值，t_s3为h₃’对400求余后获得的值，t_s4为h₄’对400求余后获得的值，因此t_s1，t_s2，t_s3和t_s4的取值均为1到400之间的一个值。当然本发明实施例并不仅限于此，本发明实施例对t_sN与h_N’(N＝1，2，3，4)之间的关系不作限定，只要可以通过预定的映射关系，使得t_sN与h_N’(N＝1，2，3，4)一一对应，并且t_sN的取值在1到400之间即可。具体来说：

1、URL子项“com”对应的散列序列可以表示为(t₁₁，t₁₂，t₁₃，t₁₄)，布隆过滤器的位向量中与该散列序列对应的位不全为1，所以该URL子项不属于黑名单；

2、URL子项“good.com”对应的散列序列可以表示为(t₂₁，t₂₂，t₂₃，t₂₄)，布隆过滤器的位向量中与该散列序列对应的位不全为1，所以该URL子项不属于黑名单；

3、URL子项“www.good.com”对应的散列序列可以表示为(t₃₁，t₃₂，t₃₃，t₃₄)，布隆过滤器的位向量中与该散列序列对应的位不全为1，所以该URL子项不属于黑名单；

4、URL子项“www.good.com/”对应的散列序列可以表示为(t₄₁，t₄₂，t₄₃，t₄₄)，布隆过滤器的位向量中与该散列序列对应的位不全为1，所以该URL子项不属于黑名单；

5、URL子项“www.good.com/index.html”对应的散列序列可以表示为(t₅₁，t₅₂，t₅₃，t₅₄)，布隆过滤器的位向量中与该散列序列对应的位不全为1，所以该URL子项不属于黑名单。

由于所有的URL子项都不属于黑名单，因此URL“www.good.com/index.html”不属于黑名单。

再举一个例子，假设现有如下URL访问：“news.test.org/file1.html”，同样，可以先根据本发明图2所示实施例步骤206中介绍的方法将该URL拆分为至少一个URL子项，该URL的URL子项包括：

(1)org

(2)test.org

(3)news.test.org

(4)news.test.org/

(5)news.test.org/file 1.html

然后，可以采用查询散列函数(F₁’，F₂’，F₃’，F₄’)，为上述URL子项计算对应的散列序列，计算方式如上所述，在此不再赘述。

本例中，URL子项“test.org”对应的散列序列在布隆过滤器的位向量中的对应位全为1，所以该URL子项“test.org”属于黑名单，因此该URL“news.test.org/file 1.html”属于黑名单。

本发明实施例提供的统一资源定位符匹配查找方法，主要是匹配的时候，将待匹配的URL拆分为至少一个URL子项，将每个URL子项放进布隆过滤器中看是否匹配。性能方面，布隆过滤器主要的时间开销是在散列值计算上，本发明实施例提出了一种散列值计算方式，通过一次扫描即可获得所有URL子项的散列值，因此大大提升了匹配查找的性能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图6为本发明统一资源定位符匹配查找装置一个实施例的结构示意图，本实施例中的统一资源定位符匹配查找装置可以作为网络侧设备，或网络侧设备的一部分，实现本发明图1所示实施例的流程。

如图6所示，该统一资源定位符匹配查找装置可以包括：拆分模块61、第一扫描模块62和第一确定模块63。

其中，拆分模块61，用于将待匹配的URL拆分为至少一个URL子项；具体地，拆分模块61可以根据URL的语法格式将待匹配的URL拆分为至少一个URL子项，其中，该至少一个URL子项包括待匹配的URL的域名、各级父域名和前缀。

第一扫描模块62，用于利用预设的散列函数对每个URL子项进行扫描，获得每个URL子项对应的散列序列。

第一确定模块63，用于当预设的位向量中与至少一个散列序列对应的位为第一预定数值时，确定待匹配的URL属于黑名单；其中，该第一预定数值可以为0或1，本实施例对此不作限定，但本实施例以第一预定数值为1为例进行说明。也就是说，本实施例中，当预设的位向量中与至少一个散列序列对应的位全为1时，第一确定模块63即可确定该待匹配的URL属于黑名单，需要对该待匹配的URL进行过滤处理。

本实施例中的网络侧设备可以为路由器、交换机或网关设备等可以对网络访问进行管理和控制的设备。

上述统一资源定位符匹配查找装置能够很好的支持URL的前缀匹配和子域名匹配。

图7为本发明统一资源定位符匹配查找装置另一个实施例的结构示意图，本实施例中的统一资源定位符匹配查找装置可以作为网络侧设备，或网络侧设备的一部分，实现本发明图2所示实施例的流程。

与图6所示的统一资源定位符匹配查找装置相比，不同之处在于，图7所示的统一资源定位符匹配查找装置中，当预设的散列函数包括预设的布隆过滤器的查询散列函数时，第一扫描模块62具体可以利用预设的布隆过滤器的查询散列函数对每个URL子项进行扫描，获得每个URL子项对应的散列序列。

本实施例中，第一扫描模块62可以包括：第一子项扫描子模块621和第二子项扫描子模块622；

其中，第一子项扫描子模块621，用于利用查询散列函数按照从尾部至头部的顺序对待匹配的URL的域名进行扫描，每扫描完一个URL子项，则输出该URL子项对应的散列序列；

第二子项扫描子模块622，用于在第一子项扫描子模块621扫描完成之后，利用上述查询散列函数按照从头部至尾部的顺序对待匹配的URL的URI进行扫描，每扫描完一个URL子项，则输出该URL子项对应的散列序列。

本实施例中，预设的位向量为上述布隆过滤器的位向量，进一步地，该统一资源定位符匹配查找装置还可以包括：设置模块64、第二确定模块65、建立模块66、第二扫描模块67和数值设置模块68；

其中，设置模块64，用于设置黑名单中需要包含的URL条目；

第二确定模块65，用于根据黑名单中包含的URL条目的个数和预先设定的假通过率，确定上述布隆过滤器的位向量长度L和表示散列函数的个数N；其中，L和N为正整数，并且表示散列函数与查询散列函数一一对应；

建立模块66，用于建立长度为L的位向量，并将该位向量的位全部初始化为第二预定数值；其中，该第二预定数值可以为0或1，本实施例对此不作限定，但本实施例以第二预定数值为0为例进行说明。也就是说，本实施例中，建立模块66建立长度为L的位向量之后，可以先将该位向量的位全部初始化为0；

第二扫描模块67，用于利用设置的N个表示散列函数对黑名单中的每个URL条目进行扫描，获得每个URL条目对应的散列序列；具体地，第二扫描模块67可以利用设置的N个表示散列函数按照从尾部至头部的顺序对URL条目的域名进行扫描；当上述URL条目包括URI时，再利用设置的N个表示散列函数按照从头部至尾部的顺序对该URI进行扫描，获得URL条目对应的散列序列；

数值设置模块68，用于将布隆过滤器的位向量中与上述散列序列对应的位设为第一预定数值；其中，该第一预定数值可以为0或1，本实施例对此不作限定，但本实施例以第一预定数值为1为例进行说明。

本实施例中，在数值设置模块68将布隆过滤器的位向量中与上述散列序列对应的位设为1之后，一个针对黑名单中所有URL条目的布隆过滤器就完成了。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种统一资源定位符匹配查找方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项包括：

根据统一资源定位符的语法格式将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项，所述至少一个统一资源定位符子项包括所述待匹配的统一资源定位符的域名、各级父域名和前缀。

3.根据权利要求1所述的方法，其特征在于，所述预设的散列函数包括预设的布隆过滤器的查询散列函数，所述利用预设的散列函数对每个统一资源定位符子项进行扫描，获得所述每个统一资源定位符子项对应的散列序列包括：

利用预设的布隆过滤器的查询散列函数对每个统一资源定位符子项进行扫描，获得所述每个统一资源定位符子项对应的散列序列。

4.根据权利要求3所述的方法，其特征在于，所述利用预设的布隆过滤器的查询散列函数对每个统一资源定位符子项进行扫描，获得所述每个统一资源定位符子项对应的散列序列包括：

利用所述查询散列函数按照从尾部至头部的顺序对所述待匹配的统一资源定位符的域名进行扫描，每扫描完一个统一资源定位符子项，则输出所述统一资源定位符子项对应的散列序列；

利用所述查询散列函数按照从头部至尾部的顺序对所述待匹配的统一资源定位符的统一资源标识符进行扫描，每扫描完一个统一资源定位符子项，则输出所述统一资源定位符子项对应的散列序列。

5.根据权利要求3所述的方法，其特征在于，所述预设的位向量为所述布隆过滤器的位向量。

6.根据权利要求5所述的方法，其特征在于，所述将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项之前，还包括：

设置黑名单中需要包含的统一资源定位符条目；

根据所述黑名单中包含的统一资源定位符条目的个数和预先设定的假通过率，确定所述布隆过滤器的位向量长度L和表示散列函数的个数N，L和N为正整数；所述表示散列函数与所述查询散列函数一一对应；

建立长度为L的位向量，并将所述位向量的位全部初始化为第二预定数值；

利用设置的N个表示散列函数对所述黑名单中的每个统一资源定位符条目进行扫描，获得所述每个统一资源定位符条目对应的散列序列；

将所述位向量中与所述散列序列对应的位设为第一预定数值。

7.根据权利要求6所述的方法，其特征在于，所述利用设置的N个表示散列函数对所述黑名单中的每个统一资源定位符条目进行扫描，获得所述每个统一资源定位符条目对应的散列序列包括：

利用设置的N个表示散列函数按照从尾部至头部的顺序对所述统一资源定位符条目的域名进行扫描；

当所述统一资源定位符条目包括统一资源标识符时，利用所述设置的N个表示散列函数按照从头部至尾部的顺序对所述统一资源标识符进行扫描，获得所述统一资源定位符条目对应的散列序列。

8.一种统一资源定位符匹配查找装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述拆分模块具体用于根据统一资源定位符的语法格式将待匹配的统一资源定位符拆分为至少一个统一资源定位符子项，所述至少一个统一资源定位符子项包括所述待匹配的统一资源定位符的域名、各级父域名和前缀。

10.根据权利要求8所述的装置，其特征在于，当所述预设的散列函数包括预设的布隆过滤器的查询散列函数时，所述第一扫描模块具体用于利用预设的布隆过滤器的查询散列函数对每个统一资源定位符子项进行扫描，获得所述每个统一资源定位符子项对应的散列序列。

11.根据权利要求10所述的装置，其特征在于，所述第一扫描模块包括：

第一子项扫描子模块，用于利用所述查询散列函数按照从尾部至头部的顺序对所述待匹配的统一资源定位符的域名进行扫描，每扫描完一个统一资源定位符子项，则输出所述统一资源定位符子项对应的散列序列；

第二子项扫描子模块，用于在所述第一子项扫描子模块扫描完成之后，利用所述查询散列函数按照从头部至尾部的顺序对所述待匹配的统一资源定位符的统一资源标识符进行扫描，每扫描完一个统一资源定位符子项，则输出所述统一资源定位符子项对应的散列序列。

12.根据权利要求10所述的装置，其特征在于，还包括：

设置模块，用于设置黑名单中需要包含的统一资源定位符条目；

第二确定模块，用于根据所述黑名单中包含的统一资源定位符条目的个数和预先设定的假通过率，确定所述布隆过滤器的位向量长度L和表示散列函数的个数N，L和N为正整数；所述表示散列函数与所述查询散列函数一一对应；

建立模块，用于建立长度为L的位向量，并将所述位向量的位全部初始化为第二预定数值；

第二扫描模块，用于利用设置的N个表示散列函数对所述黑名单中的每个统一资源定位符条目进行扫描，获得所述每个统一资源定位符条目对应的散列序列；

数值设置模块，用于将所述布隆过滤器的位向量中与所述散列序列对应的位设为第一预定数值。

13.根据权利要求12所述的装置，其特征在于，所述第二扫描模块具体用于利用设置的N个表示散列函数按照从尾部至头部的顺序对所述统一资源定位符条目的域名进行扫描；当所述统一资源定位符条目包括统一资源标识符时，再利用所述设置的N个表示散列函数按照从头部至尾部的顺序对所述统一资源标识符进行扫描，获得所述统一资源定位符条目对应的散列序列。

14.一种网络侧设备，其特征在于，包括如权利要求8-13任意一项所述的统一资源定位符匹配查找装置。