CN113051498A - 一种基于多重布隆过滤的url去重方法及系统 - Google Patents

一种基于多重布隆过滤的url去重方法及系统 Download PDF

Info

Publication number
CN113051498A
CN113051498A CN202110303053.0A CN202110303053A CN113051498A CN 113051498 A CN113051498 A CN 113051498A CN 202110303053 A CN202110303053 A CN 202110303053A CN 113051498 A CN113051498 A CN 113051498A
Authority
CN
China
Prior art keywords
url
bloom filter
hash values
deduplicated
target information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110303053.0A
Other languages
English (en)
Other versions
CN113051498B (zh
Inventor
席泽生
张波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
Original Assignee
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Global Energy Interconnection Research Institute filed Critical State Grid Corp of China SGCC
Priority to CN202110303053.0A priority Critical patent/CN113051498B/zh
Publication of CN113051498A publication Critical patent/CN113051498A/zh
Application granted granted Critical
Publication of CN113051498B publication Critical patent/CN113051498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多重布隆过滤的URL去重方法及系统,方法包括:获取待去重URL目标信息;当待去重URL目标信息不存在于预设URL信息库时,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息,计算k个Hash函数对应的Hash值,并对k个Hash值求和;第二布隆过滤器分析k个Hash值之和,对k个Hash值求和;将第二布隆过滤器求取的k个Hash值之和循环输入第二布隆过滤器,利用第二布隆过滤器将k个Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息,从而提高工作效率,降低损耗时间及误判率。

Description

一种基于多重布隆过滤的URL去重方法及系统
技术领域
本发明涉及电力信息安全技术领域,具体涉及一种基于多重布隆过滤的URL去重方法及系统。
背景技术
随着电力物联网战略推进,以及先进信息通信技术和互联网+在电网中的广泛应用,电力系统逐步打破了以往的封闭性和专有性,开放互动、广泛互联的电力Web业务系统建设部署愈发广泛,电力Web业务系统的先天性漏洞隐患使得公司面临网络与信息安全风险向电力系统传导风险。国内外对电力业务系统后门、漏洞和脆弱性等方面的研究日益重视和深入,一些电力业务系统产品的安全漏洞信息和攻击代码在互联网上传播,导致对电力业务系统网络安全实施攻击的门槛逐渐降低,电力信息系统网络安全形势日益严峻。
现有的对于Web系统的渗透测试工具大都需要通过对目标网站的信息爬取,获取网站中的URL集合,从而完成渗透测试的前期准备工作;对于Web系统的渗透测试包含多个IP地址或网段,其中含有大量的URL,在进行信息爬取时,可能出现已经抓取过的URL再次添加到带抓取队列中的情况,给系统造成负荷,甚至使系统陷入死循环中,极大影响了渗透测试系统的工作效率,存在重复抓取、时间损损耗高、工作效率低及误判率高的问题。
发明内容
因此,本发明提供的一种基于多重布隆过滤的URL去重方法及系统,克服了现有技术中重复抓取、时间损耗高、工作效率低及误判率高的缺陷。为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种基于多重布隆过滤的URL去重方法,包括:
步骤S1:获取待去重URL目标信息;
步骤S2:当待去重URL目标信息不存在于预设URL信息库时,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
步骤S3:利用包含k个Hash函数的第二布隆过滤器分析k个Hash值之和,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
步骤S4:k个Hash值求和完成后,转入步骤S3,利用第二布隆过滤器将k个Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息。
可选地,第一布隆过滤器和第二布隆过滤器的二进制位数的长度相同。
可选地,预设URL信息库包括:当对应的索引位置的值不均为1时的待去重URL目标信息。
可选地,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息过程,包括:
利用包含k个Hash函数的第一布隆过滤器,将待去重URL目标信息的元素映射到二进制位数组中的k个位置上,如果k个位置上的Hash值均为1,该元素存在于第一布隆过滤器中。
可选地,利用网络爬虫工具对待去重URL目标信息进行爬取。
可选地,通过以下公式计算多重布隆过滤器的误判率:
p′=Ps=(1-e-kn/m)sk
其中,m为二进制位数组的长度,k为Hash函数数量,n为需要添加的元素数量,s为布隆过滤器的个数。
第二方面,本发明实施例提供一种基于多重布隆过滤的URL去重系统,包括:
目标获取模块,用于获取待去重URL目标信息;
第一布隆过滤器模块,用于当待去重URL目标信息不存在于预设URL信息库时,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
第二布隆过滤器模块,用于利用包含k个Hash函数的第二布隆过滤器分析k个Hash值之和,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
URL去重模块,用于k个Hash值求和完成后,转入第二布隆过滤器模块,利用第二布隆过滤器将k个Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息。
第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的基于多重布隆过滤的URL去重方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的基于多重布隆过滤的URL去重方法。
本发明技术方案,具有如下优点:
本发明提供的基于多重布隆过滤的URL去重方法及系统,使用多个二进制位数的长度和Hash函数个数均相同的布隆过滤器进行组合,经过多重布隆过滤器可以有效降低Hash函数的碰撞性,从而提高URL去重准确性、降低误判率及时间的损耗,避免在进行URL去重时将未存储的URL错误过滤,保留了布隆过滤器在针对大数据量信息进行存储和查询中对于时间和空间需求平衡的同时,用尽可能少的存储空间实现大范围数据的存储查询。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多重布隆过滤的URL去重方法的一个具体示例的流程图;
图2为本发明实施例提供的一种基于多重布隆过滤的URL去重系统的模块组成图;
图3为本发明实施例提供的一种终端的一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种基于多重布隆过滤的URL去重方法,用于web应用漏洞扫描系统中,如图1所示,包括如下步骤:
步骤S1:获取待去重URL目标信息。
在本发明实施例中,统一资源定位系统(uniform resource locator,URL)是因特网的万维网服务程序上用于指定信息位置的表示方法,URL通过提供资源位置的一种抽象标志符来对资源进行定位,URL是由一串字符组成,这些字符可以是字母、数字和特殊符号。
在本发明实施例中,利用网络爬虫工具对待去重URL目标信息进行爬取,当目标Web系统较为复杂,或者涉及多个Web系统时,包含的URL数量较为庞大,因此,高性能的Web应用漏洞扫描系统采取信息收集和漏洞扫描同步进行的方式,一旦网络爬虫发现新的URL,就会触发漏洞扫描过程,保留了布隆过滤器在针对大数据量信息进行存储和查询中对于时间和空间需求的平衡,用尽可能少的存储空间实现大范围数据的存储查询。
在本发明实施例中,获取待去重URL目标信息,其中,目标信息包含多个IP地址或网段;仅以此举例,不以此为限,在实际应用中根据实际需求对待去重的URL目标信息进行相应的选取。
步骤S2:当待去重URL目标信息不存在于预设URL信息库时,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息,并计算k个Hash函数对应的Hash值,并对k个Hash值求和。
在本发明实施例中,布隆过滤器是一个很长的二进制向量和一系列随机映射函数,布隆过滤器可以用于检索一个元素是否在一个集合中,如果想要判断一个元素是不是在一个集合里,将所有元素保存起来,可以通过一个Hash函数将一个元素映射成一个位阵列中的一个点,只要检查这个点是不是1就可以知道集合中是否存在此元素。
在本发明实施例中,预设URL信息库包括:当对应的索引位置的值不均为1时的待去重URL目标信息,仅以此举例,不以此为限,在实际应用中根据实际需求选择相应的预设URL信息库。例如:对于获取的待去重URL目标信息,可以先与预设URL信息库中的URL信息进行比较,当发现待去重URL目标信息存在于预设URL信息库中时,直接去除重复项,其中,预设URL信息库包括经过多重布隆过滤器去重以后得到的新的URL。
在本发明实施例中,由于大量URL中存在嵌套关系,为避免重复扫描URL、或使网络爬虫陷入死循环中,需要保存已发现的URL,并将新发现的URL与预设URL库进行比较,去除重复项。
在本发明实施例中,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息过程,包括:利用包含k个Hash函数的第一布隆过滤器,将待去重URL目标信息的元素映射到二进制位数组中的k个位置上,如果k个位置上的Hash值均为1,该元素存在于第一布隆过滤器中,为了降低误判率,因此,本发明实施例加入了多重布隆过滤器,其中,k为正整数,如果k个位置上的Hash值不均为1,该元素存不在于第一布隆过滤器中,视为新的URL。例如:对于一个URL,经过k个hash之后,映射到m位长度的二进制数组上,如果对应的k个位置不均为1,代表这个URL是新的URL,不需要去重,不需要再用第二布隆器判断;仅在第一布隆器判断此URL是重复的时候,才会利用第二布隆器进行再次判断,避免误除非重复的URL。
步骤S3:利用包含k个Hash函数的第二布隆过滤器分析k个Hash值之和,并计算k个Hash函数对应的Hash值,并对k个Hash值求和。
在本发明实施例中,第一布隆过滤器和第二布隆过滤器的二进制位数的长度与Hash函数个数均相同,其中,二进制位数的长度与Hash函数个数根据实际情况进行相应确定,在此不作限制。
在本发明实施例中,当该元素经过第一布隆过滤器后,利用包含k个Hash函数的第二布隆过滤器分析k个Hash值之和,并计算k个Hash函数对应的Hash值,并对k个Hash值求和。
步骤S4:k个Hash值求和完成后,转入步骤S3,利用第二布隆过滤器将k个Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息。
在本发明实施例中,k个Hash值求和完成后,转入步骤S3,利用第二布隆过滤器循环计算k个Hash值求和,第二布隆过滤器将k个Hash值之和映射到二进制位数组中,并检查这k个位置上的值,当对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息,否则,为新的URL,同时将新的URL存入预设URL信息库中,预设阈值根据实际情况进行相应选择,在此不作限制。
在本发明实施例中,第一或第二布隆过滤器均存在误判率,即不同的URL经过k个Hash函数映射到k位数组上后存在相同的位置,通过以下公式计算第一或第二布隆过滤器的误判率:
Figure BDA0002987075380000081
其中,m是二进制位数组的长度,k是Hash函数数量,n是需要添加的元素数量(即URL的数量),由公式可知,当布隆过滤器二进制位数组的长度m增大时,误判率p减小;当待插入的元素个数n增大时,误判率p增大;当m和n参数固定时,误判率p的大小仅与Hash函数的个数k有关。
在本发明实施例中,对于多重布隆过滤器的误判率,通过以下进行计算:
p′=Ps=(1-e-kn/m)sk
其中,s为布隆过滤器的个数。
由于,P>p′,因此,多重布隆过滤器的误判率小于标准布隆过滤器。
在一具体实施例中,当查询一个新的URL是否存在于多重布隆过滤器时,首先检查URL经过第一个布隆过滤器的Hash函数组映射之后,对应索引位置的二进制位数组中是否为1,如果相关位置的值均为1,再将经第一布隆过滤器Hash函数得到的Hash值的和,输入第二个布隆过滤器并再次计算Hash值的和,将经第二个布隆过滤器计算Hash值的和循环输入第二个布隆过滤器,将第二布隆过滤器的Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息,否则该URL不存在于第二布隆过滤器中,视为新的URL。
本发明实施例中提供的基于多重布隆过滤的URL去重方法,其中,方法包括:对标准布隆过滤器进行改进,设计多重布隆过滤器,在保证查找效率的情况下,多重布隆过滤器保留了布隆过滤器在针对大数据量信息进行存储和查询中对于时间和空间需求的平衡,用尽可能少的存储空间实现大范围数据的存储查询,提高了工作效率,降低了损耗的时间;相较标准的布隆过滤器,多重布隆过滤器能够显著降低误判率,避免在进行URL去重时将未存储的URL错误过滤。
实施例2
本发明实施例提供一种基于多重布隆过滤的URL去重系统,如图2所示,包括:
目标获取模块1,用于获取待去重URL目标信息;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
第一布隆过滤器模块2,用于当待去重URL目标信息不存在于预设URL信息库时,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
第二布隆过滤器模块3,用于利用包含k个Hash函数的第二布隆过滤器分析k个Hash值之和,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
URL去重模块4,用于k个Hash值求和完成后,转入第二布隆过滤器模块3,利用第二布隆过滤器将k个Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
本发明实施例提供一种基于多重布隆过滤的URL去重系统,提出了一种对标准布隆过滤器进行改进,设计了多重布隆过滤器,在保证查找效率的情况下,多重布隆过滤器保留了布隆过滤器在针对大数据量信息进行存储和查询中对于时间和空间需求的平衡,用尽可能少的存储空间实现大范围数据的存储查询,提高了工作效率,降低了损耗的时间;相较标准的布隆过滤器,多重布隆过滤器能够显著降低误判率,避免在进行URL去重时将未存储的URL错误过滤。
实施例3
本发明实施例提供一种终端,如图3所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的基于多重布隆过滤的URL去重方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的基于多重布隆过滤的URL去重方法。其中,通信总线402可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。其中,处理器401可以是中央处理器(英文:central processingunit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的基于多重布隆过滤的URL去重方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的基于多重布隆过滤的URL去重方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (9)

1.一种基于多重布隆过滤的URL去重方法,其特征在于,包括:
步骤S1:获取待去重URL目标信息;
步骤S2:当待去重URL目标信息不存在于预设URL信息库时,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
步骤S3:利用包含k个Hash函数的第二布隆过滤器分析k个Hash值之和,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
步骤S4:k个Hash值求和完成后,转入步骤S3,利用第二布隆过滤器将k个Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息。
2.根据权利要求1所述的基于多重布隆过滤的URL去重方法,其特征在于,第一布隆过滤器和第二布隆过滤器的二进制位数的长度相同。
3.根据权利要求1所述的基于多重布隆过滤的URL去重方法,其特征在于,预设URL信息库包括:当对应的索引位置的值不均为1时的待去重URL目标信息。
4.根据权利要求2所述的基于多重布隆过滤的URL去重方法,其特征在于,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息过程,包括:
利用包含k个Hash函数的第一布隆过滤器,将待去重URL目标信息的元素映射到二进制位数组中的k个位置上,如果k个位置上的Hash值均为1,该元素存在于第一布隆过滤器中。
5.根据权利要求1所述的基于多重布隆过滤的URL去重方法,其特征在于,利用网络爬虫工具对待去重URL目标信息进行爬取。
6.根据权利要求2所述的基于多重布隆过滤的URL去重方法,其特征在于,通过以下公式计算多重布隆过滤器的误判率:
p′=Ps=(1-e-kn/m)sk
其中,m为二进制位数组的长度,k为Hash函数数量,n为需要添加的元素数量,s为布隆过滤器的个数。
7.一种基于多重布隆过滤的URL去重系统,其特征在于,包括:
目标获取模块,用于获取待去重URL目标信息;
第一布隆过滤器模块,用于当待去重URL目标信息不存在于预设URL信息库时,利用包含k个Hash函数的第一布隆过滤器分析待去重URL目标信息,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
第二布隆过滤器模块,用于利用包含k个Hash函数的第二布隆过滤器分析k个Hash值之和,并计算k个Hash函数对应的Hash值,并对k个Hash值求和;
URL去重模块,用于k个Hash值求和完成后,转入第二布隆过滤器模块,利用第二布隆过滤器将k个Hash值之和映射到二进制位数组中,当检查二进制位数组对应的索引位置的值均为1且误判率小于预设阈值时,去除待去重URL目标信息。
8.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6任一所述的基于多重布隆过滤的URL去重方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任一所述的基于多重布隆过滤的URL去重方法。
CN202110303053.0A 2021-03-22 2021-03-22 一种基于多重布隆过滤的url去重方法及系统 Active CN113051498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110303053.0A CN113051498B (zh) 2021-03-22 2021-03-22 一种基于多重布隆过滤的url去重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110303053.0A CN113051498B (zh) 2021-03-22 2021-03-22 一种基于多重布隆过滤的url去重方法及系统

Publications (2)

Publication Number Publication Date
CN113051498A true CN113051498A (zh) 2021-06-29
CN113051498B CN113051498B (zh) 2024-03-12

Family

ID=76514530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110303053.0A Active CN113051498B (zh) 2021-03-22 2021-03-22 一种基于多重布隆过滤的url去重方法及系统

Country Status (1)

Country Link
CN (1) CN113051498B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115941327A (zh) * 2022-12-08 2023-04-07 西安交通大学 一种基于学习型布隆过滤器的多层恶意url识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598984A (zh) * 2015-10-16 2017-04-26 北京国双科技有限公司 网络爬虫的数据处理方法及装置
CN110399546A (zh) * 2019-07-23 2019-11-01 中南民族大学 基于网络爬虫的链接去重方法、装置、设备及存储介质
WO2020151332A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 数据删除方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598984A (zh) * 2015-10-16 2017-04-26 北京国双科技有限公司 网络爬虫的数据处理方法及装置
WO2020151332A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 数据删除方法、装置、计算机设备及存储介质
CN110399546A (zh) * 2019-07-23 2019-11-01 中南民族大学 基于网络爬虫的链接去重方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115941327A (zh) * 2022-12-08 2023-04-07 西安交通大学 一种基于学习型布隆过滤器的多层恶意url识别方法

Also Published As

Publication number Publication date
CN113051498B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
RU2551820C2 (ru) Способ и устройство для проверки файловой системы на наличие вирусов
CN107786564B (zh) 基于威胁情报的攻击检测方法、系统及电子设备
CN109191021B (zh) 电网异常事件的关联规则匹配方法及装置
KR101733000B1 (ko) 침해 사고 정보 수집 방법 및 장치
CN112651024B (zh) 用于恶意代码检测的方法及装置、设备
US10049113B2 (en) File scanning method and apparatus
US20180268141A1 (en) Identifying signatures for data sets
CN111869176A (zh) 用于恶意软件签名生成的系统和方法
CN111740868A (zh) 告警数据的处理方法和装置及存储介质
CN113051498B (zh) 一种基于多重布隆过滤的url去重方法及系统
CN111666258A (zh) 信息处理方法和装置、信息查询方法和装置
CN117596030A (zh) 网络攻击路径的重构方法、装置、存储介质和电子设备
CN107844702B (zh) 基于云防护环境下网站木马后门检测方法及装置
CN114253479B (zh) 一种can总线入侵检测方法及系统
CN109361658B (zh) 基于工控行业的异常流量信息存储方法、装置及电子设备
CN105095752B (zh) 病毒数据包的识别方法、装置及系统
CN115688099A (zh) 计算机病毒检索方法、装置、计算机设备及存储介质
KR101508577B1 (ko) 악성코드 탐지장치 및 방법
CN113900886A (zh) 一种异常日志监控方法
CN113572747A (zh) 一种ip地址的处理方法、装置、存储介质和处理器
CN114915544B (zh) 网络多跳攻击链的识别方法、装置、设备及存储介质
CN110445799B (zh) 入侵阶段的确定方法、装置及服务器
CN111368294A (zh) 病毒文件的识别方法和装置、存储介质、电子装置
CN113051566B (zh) 一种病毒检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant