CN108809908B - 一种基于窗口选择的url过滤方法及系统 - Google Patents

一种基于窗口选择的url过滤方法及系统 Download PDF

Info

Publication number
CN108809908B
CN108809908B CN201710307255.6A CN201710307255A CN108809908B CN 108809908 B CN108809908 B CN 108809908B CN 201710307255 A CN201710307255 A CN 201710307255A CN 108809908 B CN108809908 B CN 108809908B
Authority
CN
China
Prior art keywords
window
url
filtering
suffix
blacklist
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710307255.6A
Other languages
English (en)
Other versions
CN108809908A (zh
Inventor
陈晓
郑抗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xinrand Network Technology Co ltd
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Beijing Intellix Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Intellix Technologies Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201710307255.6A priority Critical patent/CN108809908B/zh
Publication of CN108809908A publication Critical patent/CN108809908A/zh
Application granted granted Critical
Publication of CN108809908B publication Critical patent/CN108809908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于窗口选择的URL过滤方法,该方法用于对一条输入URL进行过滤,判断其是否在给定的黑名单中,所述方法包括:步骤1)对黑名单进行第一层过滤预处理,生成第一后缀哈希表,第一前缀哈希表和第一跳转表;步骤2)根据第一后缀哈希表,第一前缀哈希表和第一跳转表在黑名单中对输入URL进行第一层过滤,第一层过滤时,窗口停止一次,则第一层过滤结束,转入步骤3);步骤3)对黑名单进行第二层过滤预处理,生成第二后缀哈希表,第二前缀哈希表及第二跳转表;步骤4)根据第二后缀哈希表,第二前缀哈希表及第二跳转表对输入URL进行第二层过滤,最终判定输入的URL是否在黑名单中;步骤5)输出该URL的过滤结果。

Description

一种基于窗口选择的URL过滤方法及系统
技术领域
本发明涉互联网安全领域,尤其涉及一种基于窗口选择的URL过滤方法及系统。
背景技术
基于哈希与黑名单的URL过滤方法是一种常用的网页过滤方法,这种方法过滤速度快,实现简单,较为实用,并且能取得使人满意的效果,得到了广泛的应用。随着互联网的高速发展,网页的数量日益增长,URL黑名单的规模越来越大,原有的许多过滤方法在黑名单规模不断增大时过滤速度显著降低,因此需要一种更为高效、面向大规模黑名单的URL过滤方法,。
发明内容
本发明的目的在于克服目前的基于哈希与黑名单的URL过滤方法存在的上述缺陷,提出了一种基于窗口选择的URL过滤方法,该方法以基于哈希与黑名单的URL过滤方法为基础,采用动态窗口选择的方法进行两层过滤,在黑名单规模较大时具有较好的过滤效果。
为了实现上述目的,本发明提出了一种基于窗口选择的URL过滤方法,该方法用于对一条输入URL进行过滤,判断其是否在给定的黑名单中,所述方法包括:
步骤1)对黑名单进行第一层过滤预处理,所述第一层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表聚集,并且当一条URL中存在多个等效窗口位置时,选择最左边的窗口位置;用窗口位置中的子串生成用于第一层过滤的第一后缀哈希表,第一前缀哈希表和第一跳转表;
步骤2)根据步骤1)生成的第一后缀哈希表,第一前缀哈希表和第一跳转表在黑名单中对输入URL进行第一层过滤,第一层过滤时,窗口停止一次,则第一层过滤结束,转入步骤3);
步骤3)对黑名单进行第二层过滤预处理,所述第二层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表平均,用窗口位置中的子串生成用于第二层过滤的第二后缀哈希表,第二前缀哈希表及第二跳转表;
步骤4)根据步骤3)生成的第二层过滤的后第二后缀哈希表,第二前缀哈希表及第二跳转表对输入URL进行第二层过滤,最终判定输入的URL是否在黑名单中;
步骤5)输出该URL的过滤结果。
上述技术方案中,所述步骤1)具体包括:
步骤1-1)生成空哈希表HASH0,每个表项的值为0;生成三张空哈希表:第一后缀哈希表HASH1、第一前缀哈希表PREFIX1及第一跳转表SHIFT1;其中,所述第一后缀哈希表是基于窗口后缀生成的哈希链表;所述的第一前缀哈希表为基于窗口前缀生成的哈希链表;所述第一跳转表用来查询窗口向前安全跳转的字符数;
步骤1-2)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL的最左边;
步骤1-3)计算窗口后缀哈希值h,查询哈希表项HASH0[h],若为0,转到步骤1-4);若不为0,转到步骤1-5);
步骤1-4)窗口右移一个字符;若窗口未超出URL右边界,转到步骤1-3);若窗口超出URL右边界,将窗口重置回URL最左边,转到步骤1-5);
步骤1-5)计算窗口后缀哈希值h,将HASH0[h]值加1,若黑名单中还有URL未处理,输入下一条URL,转到步骤1-3),否则,转到步骤1-6);
步骤1-6)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL最左边;
步骤1-7)计算窗口后缀哈希值h,若HASH0[h]为0,转到步骤1-8),否则转到步骤1-9);
步骤1-8)窗口右移一个字符,转到步骤1-7);
步骤1-9)以该窗口中的子串更新第一后缀哈希表HASH1,第一前缀哈希表PREFIX1和第一跳转表SHIFT1;若黑名单中还有URL未处理,输入下一条URL,转到步骤1-7),否则,第一层过滤预处理结束,转入步骤2)。
上述技术方案中,所述步骤2)具体包括:
步骤2-1)选取黑名单中最短URL长度为窗口长度,窗口初始位置在输入URL最左边;
步骤2-2)计算窗口的后缀哈希值h,查询SHIFT1[h],若大于零,将窗口向右滑动SHIFT1[h]个字符,转到步骤2-3),否则,跳转到步骤2-4);
步骤2-3)若窗口未超出输入URL右边界,转到步骤2-2),否则,判断输入URL不被过滤,转入步骤5);
步骤2-4)计算窗口子串前缀哈希值url_prefix,对PREFIX1[h]链表中的每个前缀值pi,检查pi是否等于url_prefix,若存在相等的pi,则进入到步骤3),否则该URL不被过滤,转入步骤5)。
上述技术方案中,所述步骤3)具体包括:
步骤3-1)生成三张空哈希表:第二后缀哈希表HASH2、第二前缀哈希表PREFIX2及第二跳转表SHIFT2;其中,所述第二后缀哈希表是基于窗口后缀生成的哈希链表;所述第二前缀哈希表为基于窗口前缀生成的哈希链表;所述第二跳转表用来查询窗口向前安全跳转的字符数;
步骤3-2)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL最左边;
步骤3-3)计算窗口后缀哈希值h,查询HASH2[h],若为空,转到步骤3-4),若不为空,转到步骤3-5);
步骤3-4)以该窗口中的子串更新第二后缀哈希表HASH2,第二前缀哈希表PREFIX2及第二跳转表SHIFT2,若黑名单中还有URL未处理,输入下一条URL,转到步骤3-3),否则,转入步骤4);
步骤3-5)窗口向右滑动一位,若窗口未超出URL右边界,转到步骤3-3);否则,将窗口移到URL最左边,转到步骤3-4)。
上述技术方案中,所述步骤4)具体包括:
步骤4-1)选取黑名单中最短URL长度为窗口长度,窗口初始位置在输入URL最左边;
步骤4-2)计算窗口的后缀哈希值h,查询SHIFT2[h],若大于零,将窗口向右滑动SHIFT2[h]个字符,转到步骤4-3),否则,跳转到步骤4-4);
步骤4-3)若窗口未超出输入URL右边界,转到步骤4-2);否则,输入URL不被过滤,转入步骤5);
步骤4-4)计算窗口子串前缀哈希值url_prefix,对HASH2[h]链表中的URL链中的第i个URL,检查PREFIX2[i]是否等于url_prefix,若不存在相等的i,该URL不被过滤,转入步骤5);否则,进一步比对输入URL与HASH2[h]链表中的命中URL是否相同,如果相同,则该URL在黑名单中,否则,该URL不被过滤。
一种基于窗口选择的URL过滤系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤:
步骤1)对黑名单进行第一层过滤预处理,所述第一层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表聚集,并且当一条URL中存在多个等效窗口位置时,选择最左边的窗口位置;用窗口位置中的子串生成用于第一层过滤的第一后缀哈希表,第一前缀哈希表和第一跳转表;
步骤2)根据步骤1)生成的第一后缀哈希表,第一前缀哈希表和第一跳转表在黑名单中对输入URL进行第一层过滤,第一层过滤时,窗口停止一次,则第一层过滤结束,转入步骤3);
步骤3)对黑名单进行第二层过滤预处理,所述第二层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表平均,用窗口位置中的子串生成用于第二层过滤的第二后缀哈希表,第二前缀哈希表及第二跳转表;
步骤4)根据步骤3)生成的第二层过滤的后第二后缀哈希表,第二前缀哈希表及第二跳转表对输入URL进行第二层过滤,最终判定输入的URL是否在黑名单中;
步骤5)输出该URL的过滤结果。
本发明的优势在于:
通过本发明的方法可以对输入URL进行精确匹配,以判定其是否出现在给定的URL黑名单集合中,尤其在黑名单规模较大时效果良好。
附图说明
图1为本发明的基于窗口选择的URL过滤方法示意图;
图2为本发明实施例在一种常见应用场景下的URL过滤示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
如图1所示,一种基于窗口选择的URL过滤方法,该方法在已知一个URL黑名单集合,对一条输入URL进行过滤,判断其是否在给定的黑名单中,所述方法包括:
步骤1)对黑名单进行第一层过滤预处理,所述第一层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表聚集,并且当一条URL中存在多个等效窗口位置时,选择最左边的窗口位置;用窗口位置中的子串生成用于第一层过滤的第一后缀哈希表,第一前缀哈希表和第一跳转表,具体包括:
步骤1-1)生成空哈希表HASH0,每个表项的值为0;生成三张空哈希表:第一后缀哈希表HASH1、第一前缀哈希表PREFIX1及第一跳转表SHIFT1;其中,所述第一后缀哈希表是基于窗口后缀生成的哈希链表;所述的第一前缀哈希表为基于窗口前缀生成的哈希链表;所述第一跳转表用来查询窗口向前安全跳转的字符数;
步骤1-2)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL的最左边;
步骤1-3)计算窗口后缀哈希值h,查询哈希表项HASH0[h],若为0,转到步骤1-4);若不为0,转到步骤1-5);
步骤1-4)窗口右移一个字符;若窗口未超出URL右边界,转到步骤1-2);若窗口超出URL右边界,将窗口重置回URL最左边,转到步骤1-5);
步骤1-5)计算窗口后缀哈希值h,将HASH0[h]值加1,若黑名单中还有URL未处理,输入下一条URL,转到步骤1-3),否则,转到步骤1-6);
步骤1-6)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL最左边;
步骤1-7)计算窗口后缀哈希值h,若HASH0[h]为0,转到步骤1-8),否则转到步骤1-9);
步骤1-8)窗口右移一个字符,转到步骤1-7);
步骤1-9)以该窗口中的子串更新后缀哈希表HASH1,前缀哈希表PREFIX1和跳转表SHIFT1;若黑名单URL集合中还有URL未处理,输入下一条URL,转到步骤1-7),否则,第一层过滤预处理结束,转入步骤2);
步骤2)根据步骤1)生成的第一后缀哈希表HASH1,第一前缀哈希表PREFIX1和第一跳转表SHIFT1在黑名单集合中对输入URL进行第一层过滤,第一层过滤时,窗口停止一次,则第一层过滤结束,转入步骤3);
通过第一层过滤可滤除多数不在黑名单中的输入URL,所述步骤2)具体包括:
步骤2-1)选取黑名单集合中最短URL长度为窗口长度,窗口初始位置在输入URL最左边;
步骤2-2)计算窗口的后缀哈希值h,查询SHIFT1[h],若大于零,将窗口向右滑动SHIFT1[h]个字符,转到步骤2-3),否则,跳转到步骤2-4);
步骤2-3)若窗口未超出输入URL右边界,转到步骤2-2),否则,判断输入URL不被过滤;转入步骤5);
步骤2-4)计算窗口子串前缀哈希值url_prefix,对PREFIX1[h]链表中的每个前缀值pi,检查pi是否等于url_prefix,若存在相等的pi,则进入到步骤3),否则该URL不被过滤,转入步骤5);
步骤3)对黑名单进行第二层过滤预处理,所述第二层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表平均,用窗口位置中的子串生成用于第二层过滤的第二后缀哈希表HASH2,第二前缀哈希表PREFIX2及第二跳转表SHIFT2,具体包括:
步骤3-1)生成三张空哈希表:第二后缀哈希表HASH2、第二前缀哈希表PREFIX2及第二跳转表SHIFT2;其中,所述第二后缀哈希表是基于窗口后缀生成的哈希链表;所述第二前缀哈希表为基于窗口前缀生成的哈希链表;所述第二跳转表用来查询窗口向前安全跳转的字符数;
步骤3-2)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL最左边;
步骤3-3)计算窗口后缀哈希值h,查询HASH2[h],若为空,转到步骤3-4),若不为空,转到步骤3-5);
步骤3-4)以该窗口中的子串更新第二后缀哈希表HASH2,第二前缀哈希表PREFIX2及第二跳转表SHIFT2,若黑名单中还有URL未处理,输入下一条URL,转到步骤3-3),否则,转入步骤4);
步骤3-5)窗口向右滑动一位,若窗口未超出URL右边界,转到步骤3-3);否则,将窗口移到URL最左边,转到步骤3-4)。
步骤4)根据步骤3)生成的第二层过滤的第二后缀哈希表HASH2,第二前缀哈希表PREFIX2及第二跳转表SHIFT2对输入URL进行第二层过滤,最终判定输入的URL是否在黑名单中,具体包括:
步骤4-1)选取黑名单中最短URL长度为窗口长度,窗口初始位置在输入URL最左边;
步骤4-2)计算窗口的后缀哈希值h,查询SHIFT2[h],若大于零,将窗口向右滑动SHIFT2[h]个字符,转到步骤4-3),否则,跳转到步骤4-4);
步骤4-3)若窗口未超出输入URL右边界,转到步骤4-2);否则,输入URL不被过滤,转入步骤5);
步骤4-4)计算窗口子串前缀哈希值url_prefix,对HASH2[h]链表中的URL链中的第i个URL,检查PREFIX2[i]是否等于url_prefix,若不存在相等的i,该URL不被过滤,转入步骤5);否则,进一步比对输入URL与HASH2[h]链表中的命中URL是否相同,如果相同,则判定该URL在黑名单中,否则,该URL不被过滤;
步骤5)输出该URL的过滤结果。
图2为本发明实施例在一种常见应用场景下的URL过滤示意图。用户在访问互联网时,防火墙根据预先设置好的黑名单,对用户访问的内容进行过滤,把符合安全策略的访问流量放过,对不符合安全策略的访问流量进行阻断,实现对用户访问的URL的过滤。传统的URL过滤方法在黑名单规模较大时性能明显下降,本发明的方法在黑名单规模较大时效果良好。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于窗口选择的URL过滤方法,该方法用于对一条输入URL进行过滤,判断其是否在给定的黑名单中,所述方法包括:
步骤1)对黑名单进行第一层过滤预处理,所述第一层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表聚集,并且当一条URL中存在多个等效窗口位置时,选择最左边的窗口位置;用窗口位置中的子串生成用于第一层过滤的第一后缀哈希表,第一前缀哈希表和第一跳转表;
步骤2)根据步骤1)生成的第一后缀哈希表,第一前缀哈希表和第一跳转表在黑名单中对输入URL进行第一层过滤,第一层过滤时,窗口停止一次,则第一层过滤结束,转入步骤3);
步骤3)对黑名单进行第二层过滤预处理,所述第二层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表平均,用窗口位置中的子串生成用于第二层过滤的第二后缀哈希表,第二前缀哈希表及第二跳转表;
步骤4)根据步骤3)生成的第二后缀哈希表,第二前缀哈希表及第二跳转表对输入URL进行第二层过滤,最终判定输入的URL是否在黑名单中;
步骤5)输出该URL的过滤结果。
2.根据权利要求1所述的基于窗口选择的URL过滤方法,其特征在于,所述步骤1)具体包括:
步骤1-1)生成空哈希表HASH0,每个表项的值为0;生成三张空哈希表:第一后缀哈希表HASH1、第一前缀哈希表PREFIX1及第一跳转表SHIFT1;其中,所述第一后缀哈希表是基于窗口后缀生成的哈希链表;所述的第一前缀哈希表为基于窗口前缀生成的哈希链表;所述第一跳转表用来查询窗口向前安全跳转的字符数;
步骤1-2)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL的最左边;
步骤1-3)计算窗口后缀哈希值h,查询哈希表项HASH0[h],若为0,转到步骤1-4);若不为0,转到步骤1-5);
步骤1-4)窗口右移一个字符;若窗口未超出URL右边界,转到步骤1-3);若窗口超出URL右边界,将窗口重置回URL最左边,转到步骤1-5);
步骤1-5)计算窗口后缀哈希值h,将HASH0[h]值加1,若黑名单中还有URL未处理,输入下一条URL,转到步骤1-3),否则,转到步骤1-6);
步骤1-6)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL最左边;
步骤1-7)计算窗口后缀哈希值h,若HASH0[h]为0,转到步骤1-8),否则转到步骤1-9);
步骤1-8)窗口右移一个字符,转到步骤1-7);
步骤1-9)以该窗口中的子串更新第一后缀哈希表HASH1,第一前缀哈希表PREFIX1和第一跳转表SHIFT1;若黑名单中还有URL未处理,输入下一条URL,转到步骤1-7),否则,第一层过滤预处理结束,转入步骤2)。
3.根据权利要求2所述的基于窗口选择的URL过滤方法,其特征在于,所述步骤2)具体包括:
步骤2-1)选取黑名单中最短URL长度为窗口长度,窗口初始位置在输入URL最左边;
步骤2-2)计算窗口的后缀哈希值h,查询SHIFT1[h],若大于零,将窗口向右滑动SHIFT1[h]个字符,转到步骤2-3),否则,跳转到步骤2-4);
步骤2-3)若窗口未超出输入URL右边界,转到步骤2-2),否则,判断输入URL不被过滤,转入步骤5);
步骤2-4)计算窗口子串前缀哈希值url_prefix,对PREFIX1[h]链表中的每个前缀值pi,检查pi是否等于url_prefix,若存在相等的pi,则进入到步骤3),否则该URL不被过滤,转入步骤5)。
4.根据权利要求2所述的基于窗口选择的URL过滤方法,其特征在于,所述步骤3)具体包括:
步骤3-1)生成三张空哈希表:第二后缀哈希表HASH2、第二前缀哈希表PREFIX2及第二跳转表SHIFT2;其中,所述第二后缀哈希表是基于窗口后缀生成的哈希链表;所述第二前缀哈希表为基于窗口前缀生成的哈希链表;所述第二跳转表用来查询窗口向前安全跳转的字符数;
步骤3-2)选取黑名单中最短URL长度为窗口长度,窗口初始位置在第一条URL最左边;
步骤3-3)计算窗口后缀哈希值h,查询HASH2[h],若为空,转到步骤3-4),若不为空,转到步骤3-5);
步骤3-4)以该窗口中的子串更新第二后缀哈希表HASH2,第二前缀哈希表PREFIX2及第二跳转表SHIFT2,若黑名单中还有URL未处理,输入下一条URL,转到步骤3-3),否则,转入步骤4);
步骤3-5)窗口向右滑动一位,若窗口未超出URL右边界,转到步骤3-3);否则,将窗口移到URL最左边,转到步骤3-4)。
5.根据权利要求4所述的基于窗口选择的URL过滤方法,其特征在于,所述步骤4)具体包括:
步骤4-1)选取黑名单中最短URL长度为窗口长度,窗口初始位置在输入URL最左边;
步骤4-2)计算窗口的后缀哈希值h,查询SHIFT2[h],若大于零,将窗口向右滑动SHIFT2[h]个字符,转到步骤4-3),否则,跳转到步骤4-4);
步骤4-3)若窗口未超出输入URL右边界,转到步骤4-2);否则,输入URL不被过滤,转入步骤5);
步骤4-4)计算窗口子串前缀哈希值url_prefix,对HASH2[h]链表中的URL链中的第i个URL,检查PREFIX2[i]是否等于url_prefix,若不存在相等的i,该URL不被过滤,转入步骤5);否则,进一步比对输入URL与HASH2[h]链表中的命中URL是否相同,如果相同,则判定该URL在黑名单中,否则,该URL不被过滤。
6.一种基于窗口选择的URL过滤系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~5之一所述方法的步骤:
步骤1)对黑名单进行第一层过滤预处理,所述第一层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表聚集,并且当一条URL中存在多个等效窗口位置时,选择最左边的窗口位置;用窗口位置中的子串生成用于第一层过滤的第一后缀哈希表,第一前缀哈希表和第一跳转表;
步骤2)根据步骤1)生成的第一后缀哈希表,第一前缀哈希表和第一跳转表在黑名单中对输入URL进行第一层过滤,第一层过滤时,窗口停止一次,则第一层过滤结束,转入步骤3);
步骤3)对黑名单进行第二层过滤预处理,所述第二层过滤预处理包括:采用动态窗口方式处理黑名单中的每条URL,移动窗口使后缀哈希链表平均,用窗口位置中的子串生成用于第二层过滤的第二后缀哈希表,第二前缀哈希表及第二跳转表;
步骤4)根据步骤3)生成的第二后缀哈希表,第二前缀哈希表及第二跳转表对输入URL进行第二层过滤,最终判定输入的URL是否在黑名单中;
步骤5)输出该URL的过滤结果。
CN201710307255.6A 2017-05-04 2017-05-04 一种基于窗口选择的url过滤方法及系统 Active CN108809908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710307255.6A CN108809908B (zh) 2017-05-04 2017-05-04 一种基于窗口选择的url过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710307255.6A CN108809908B (zh) 2017-05-04 2017-05-04 一种基于窗口选择的url过滤方法及系统

Publications (2)

Publication Number Publication Date
CN108809908A CN108809908A (zh) 2018-11-13
CN108809908B true CN108809908B (zh) 2020-05-26

Family

ID=64054530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710307255.6A Active CN108809908B (zh) 2017-05-04 2017-05-04 一种基于窗口选择的url过滤方法及系统

Country Status (1)

Country Link
CN (1) CN108809908B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110719274B (zh) * 2019-09-29 2022-10-04 武汉极意网络科技有限公司 网络安全控制方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060411A (zh) * 2007-05-23 2007-10-24 西安交大捷普网络科技有限公司 可提高入侵检测系统检测速率和效率的多模匹配方法
US7624105B2 (en) * 2006-09-19 2009-11-24 Netlogic Microsystems, Inc. Search engine having multiple co-processors for performing inexact pattern search operations
CN101901257A (zh) * 2010-07-21 2010-12-01 北京理工大学 一种多字符串匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7624105B2 (en) * 2006-09-19 2009-11-24 Netlogic Microsystems, Inc. Search engine having multiple co-processors for performing inexact pattern search operations
CN101060411A (zh) * 2007-05-23 2007-10-24 西安交大捷普网络科技有限公司 可提高入侵检测系统检测速率和效率的多模匹配方法
CN101901257A (zh) * 2010-07-21 2010-12-01 北京理工大学 一种多字符串匹配方法

Also Published As

Publication number Publication date
CN108809908A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN103095681B (zh) 一种检测漏洞的方法及装置
WO2015081789A1 (zh) 网址净化方法及装置
US8856138B1 (en) Faster substring searching using hybrid range query data structures
US20140325596A1 (en) Authentication of ip source addresses
WO2020253351A1 (zh) 一种点击劫持漏洞检测方法、装置及计算机设备
CN107045507B (zh) 网页爬取方法及装置
US20160373545A1 (en) Method and apparatus for webpage resource acquisition
CN103473347B (zh) 一种基于网页相似度的浏览器渲染优化方法
CN102915344B (zh) 一种sql语句处理方法及装置
US10623426B1 (en) Building a ground truth dataset for a machine learning-based security application
CN108809908B (zh) 一种基于窗口选择的url过滤方法及系统
US10313369B2 (en) Blocking malicious internet content at an appropriate hierarchical level
CN106919570B (zh) 一种面向网络新媒体的页面链接去重扫描方法及装置
CN107784107A (zh) 基于逃逸行为分析的暗链检测方法及装置
CN111309753A (zh) 结构化查询语句的优化方法、装置、设备及存储介质
US9996619B2 (en) Optimizing web crawling through web page pruning
US8909708B2 (en) System and method for confirming authorship of documents
CN102333123B (zh) 文件存储方法、设备、查找方法、设备和网络设备
JP2011172126A (ja) パケットフィルタシステム及びパケットフィルタ装置及びプログラム
Bremler-Barr et al. Leveraging traffic repetitions for high-speed deep packet inspection
CN113722572B (zh) 一种分布式深度爬取的方法、装置及介质
CN108090115B (zh) 一种针对Gzip压缩数据的过滤方法及系统
US9307052B1 (en) Edge side landing pages
CN106202017A (zh) 填写表单的方法及装置
US10331770B1 (en) System and method for confirming authorship of documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210818

Address after: Room 1601, 16th floor, East Tower, Ximei building, No. 6, Changchun Road, high tech Industrial Development Zone, Zhengzhou, Henan 450001

Patentee after: Zhengzhou xinrand Network Technology Co.,Ltd.

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Effective date of registration: 20210818

Address after: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee after: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Patentee before: BEIJING INTELLIX TECHNOLOGIES Co.,Ltd.