CN104408182A - 分布式系统上网络爬虫数据的处理方法和装置 - Google Patents

分布式系统上网络爬虫数据的处理方法和装置 Download PDF

Info

Publication number
CN104408182A
CN104408182A CN201410779172.3A CN201410779172A CN104408182A CN 104408182 A CN104408182 A CN 104408182A CN 201410779172 A CN201410779172 A CN 201410779172A CN 104408182 A CN104408182 A CN 104408182A
Authority
CN
China
Prior art keywords
web page
address
page resources
memory location
cryptographic hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410779172.3A
Other languages
English (en)
Inventor
李庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410779172.3A priority Critical patent/CN104408182A/zh
Publication of CN104408182A publication Critical patent/CN104408182A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式系统上网络爬虫数据的处理方法和装置,其中,该方法包括:解析下载的网页得到网页资源地址;对网页资源地址进行哈希计算得到第一哈希值;按照第一哈希值将网页资源地址分配至对应的第一存储位置;在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过;若网页资源地址被爬取过,则丢弃网页资源地址;若网页资源地址未被爬取过,则保存网页资源地址至待爬取队列。采用本发明,解决了现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题,从而达到了对大规模的网页资源地址数据的快速存储和高效查询的效果。

Description

分布式系统上网络爬虫数据的处理方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种分布式系统上网络爬虫数据的处理方法和装置。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。
网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成,它为搜索引擎从万维网上下载网页。但是,在面对海量的网页信息时,用一台机器进行网络爬虫抓取所有网页信息是不可能的,但是为了抓取所有网页信息,往往是将网络爬虫分布到多个机器集群上,这时就需要防止机器重复爬取。
为了防止重复爬取,分布式爬虫在爬取的过程中需要记录爬虫的爬取历史URL,当下载网页并解析URL(统一资源定位符,即网页资源地址)后,查看当前网页的网页资源地址是否已经存在于历史网页资源地址队列中。分布式爬虫在爬取的过程中需要记录爬虫的爬取历史网页资源地址,当下载网页并解析网页资源地址后,查看其是否存在于历史网页资源地址队列中,若存在,则丢弃,否则就将其存放到待爬取队列。因此,在分布式系统中,涉及到在分布式系统中网页资源地址解析后网页资源地址存储和分配结点的问题。
目前的分布式系统主要分为有两种实现方式,第一种采用集中控制的方式,由集中控制中心来存贮URL历史队列信息及URL待爬取队列信息,通过hash算法将待爬去队列信息映射到各个结点中。第二种采用的是P2P的方式,无控制中心的方式,该方式将各节点抓取的URL历史信息直接存放在本节点中,该方式下,在URL分配上,传统的解决方式使用的是根据结点的数量进行hash取模运算。
与此同时,在URL历史信息的上,传统的存储方式有以下几种:将访问的URL保存到数据库;用Hash表将访问过的URL保存起来;Bit-Map方法,将每个URL经过一个hash函数映射到某一位。
在集中控制的分布式爬虫系统中,因爬虫历史URL队列和带爬取的队列存储在中心节点上,同时URL的分配也受控制中心协调,爬虫受控制中心失效的影响。在P2P方式中,在分配URL时,使用Hash存储的方式,在增删结点时,会破坏原有的映射关系。
在历史URL的存储方式上:在数据量非常庞大时,存在查询效率问题;在URL不断增长时,会大量消耗内存空间。
针对现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种分布式系统上网络爬虫数据的处理方法和装置,以解现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种分布式系统上网络爬虫数据的处理方法,该方法包括:解析下载的网页得到网页资源地址;对网页资源地址进行哈希计算得到第一哈希值;按照第一哈希值将网页资源地址分配至对应的第一存储位置;在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过;若网页资源地址被爬取过,则丢弃网页资源地址;若网页资源地址未被爬取过,则保存网页资源地址至待爬取队列。
进一步地,按照第一哈希值将网页资源地址分配至对应的第一存储位置包括:检测数据表中是否存在第一哈希值;若数据表中不存在第一哈希值,则查询数据表中比第一哈希值大的值中最小的第二哈希值,读取第二哈希值对应的第一存储位置;若数据表中不存在第二哈希值,则将预设结点的预设位置作为第一存储位置;若数据表中存在第一哈希值,则读取第一哈希值的第一存储位置;将网页资源地址存储至第一存储位置。
进一步地,在按照第一哈希值将网页资源地址分配至对应的第一存储位置之后,处理方法包括:读取第一存储位置的第一IP地址;在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过包括:在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值;判断多个第三哈希值对应的第二存储位置上是否已存储网页资源地址;若多个第二存储位置上均已存储网页资源地址,则确定网页资源地址已被爬取过;若多个第二存储位置上未均存储网页资源地址,则确定网页资源地址未被爬取过。
进一步地,在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值之前,处理方法包括:判断第一IP地址是否为第二物理结点的IP地址,其中,第二物理结点为解析网页的物理结点;若第一IP地址为第二物理结点的IP地址,则将第二物理结点确定为第一物理结点;若第一IP地址不为第二物理结点的IP地址,则将网页资源地址发送至第一IP地址对应的第一物理结点。
进一步地,将网页资源地址存储至第一存储位置包括:将网页资源地址分配至第三存储位置,其中,第三存储位置为虚拟结点的存储位置;通过虚拟结点与第一物理结点的映射关系确定第一存储位置;将网页资源地址存储至第一存储位置。
进一步地,在解析下载的网页得到网页资源地址之前,处理方法包括:对分布式系统上的物理结点的IP地址进行哈希计算得到第四哈希值;使用第四哈希值确定物理结点的虚拟结点的子哈希值;按照第四哈希值为物理结点分配第四存储位置,并按照子哈希值为虚拟结点分配第五存储位置;建立第四存储位置、第五存储位置与IP地址的映射关系得到数据表。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种分布式系统上网络爬虫数据的处理装置,该处理装置包括:解析模块,用于解析下载的网页得到网页资源地址;第一计算模块,用于对网页资源地址进行哈希计算得到第一哈希值;存储模块,用于按照第一哈希值将网页资源地址分配至对应的第一存储位置;第一判断模块,用于在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过;第一确定模块,用于若网页资源地址被爬取过,则丢弃网页资源地址;第二确定模块,用于若网页资源地址未被爬取过,则保存网页资源地址至待爬取队列。
进一步地,存储模块包括:检测模块,用于检测数据表中是否存在第一哈希值;查询模块,用于若数据表中不存在第一哈希值,则查询数据表中比第一哈希值大的值中最小的第二哈希值,读取第二哈希值对应的第一存储位置;转换模块,用于若数据表中不存在第二哈希值,则将预设结点的预设位置作为第一存储位置;第三确定模块,用于若数据表中存在第一哈希值,则读取第一哈希值的第一存储位置;第一存储子模块,用于将网页资源地址存储至第一存储位置。
进一步地,处理装置包括读取模块,用于在按照第一哈希值将网页资源地址分配至对应的第一存储位置之后,读取第一存储位置的第一IP地址;第一判断模块包括:第二计算模块,用于在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值;第一判断子模块,用于判断多个第三哈希值对应的第二存储位置上是否已存储网页资源地址;第四确定模块,用于若多个第二存储位置上均已存储网页资源地址,则确定网页资源地址已被爬取过;第五确定模块,用于若多个第二存储位置上未均存储网页资源地址,则确定网页资源地址未被爬取过。
进一步地,处理装置包括:第二判断模块,用于在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值之前,判断第一IP地址是否为第二物理结点的IP地址,其中,第二物理结点为解析网页的物理结点;第六确定模块,用于若第一IP地址为第二物理结点的IP地址,则将第二物理结点确定为第一物理结点;第七确定模块,用于若第一IP地址不为第二物理结点的IP地址,则将网页资源地址发送至第一IP地址对应的第一物理结点。
进一步地,第一存储子模块包括:第一分配模块,用于将网页资源地址分配至第三存储位置,其中,第三存储位置为虚拟结点的存储位置;映射模块,用于通过虚拟结点与第一物理结点的映射关系确定第一存储位置;第二存储子模块,用于将网页资源地址存储至第一存储位置。
进一步地,处理装置包括:第三计算模块,用于在解析下载的网页得到网页资源地址之前,对分布式系统上的物理结点的IP地址进行哈希计算得到第四哈希值;第八确定模块,用于使用第四哈希值确定物理结点的虚拟结点的子哈希值;第二分配模块,用于按照第四哈希值为物理结点分配第四存储位置,并按照子哈希值为虚拟结点分配第五存储位置;建立模块,用于建立第四存储位置、第五存储位置与IP地址的
采用本发明,在爬虫抓取网页资源信息时,判断该网页资源信息是否被爬取过,具体地,解析该网页资源地址,然后将该网页资源地址数据进行哈希计算得到第一哈希值,再按照第一哈希值将网页资源地址分配到第一存储位置,然后在第一存储位置所对应的第一物理结点上判断该网页资源地址是否被爬取过,若判断出该网页资源地址被爬取过则丢弃该网页资源地址,若该网页资源地址没有被爬取过,则将该网页资源地址存储到待爬取队列。采用本发明,解决了现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题,从而达到了对大规模的网页资源地址数据的快速存储和高效查询的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的分布式系统上网络爬虫数据的处理方法的流程图;
图2是根据本发明实施例的一个可选的为网页资源地址分配存储位置的示意图;
图3是根据本发明实施例的一个可选的分布式系统爬虫结构示意图;
图4是根据本发明实施例的一个可选的布隆滤波器算法判断URL是否被爬取过的处理示意图;
图5是根据本发明实施例的虚拟结点与物理结点对应关系的示意图;以及
图6是根据本发明实施例的分布式系统上网络爬虫数据的处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种分布式系统上网络爬虫数据的处理方法。
图1是根据本发明实施例的分布式系统上网络爬虫数据的处理方法的流程图。如图1所示,该方法可以包括步骤如下:
步骤S102,解析下载的网页得到网页资源地址。
步骤S104,对网页资源地址进行哈希计算得到第一哈希值。
步骤S106,按照第一哈希值将网页资源地址分配至对应的第一存储位置。
步骤S108,在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过。
步骤S110,若网页资源地址被爬取过,则丢弃网页资源地址。
步骤S112,若网页资源地址未被爬取过,则保存网页资源地址至待爬取队列。
采用本发明,在爬虫抓取网页资源信息时,判断该网页资源信息是否被爬取过,具体地,解析该网页资源地址,然后将该网页资源地址数据进行哈希计算得到第一哈希值,再按照第一哈希值将网页资源地址分配到第一存储位置,然后在第一存储位置所对应的第一物理结点上判断该网页资源地址是否被爬取过,若判断出该网页资源地址被爬取过则丢弃该网页资源地址,若该网页资源地址没有被爬取过,则将该网页资源地址存储到待爬取队列。采用本发明,解决了现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题,从而达到了对大规模的网页资源地址数据的快速存储和高效查询的效果。
其中,在上述实施例中,步骤S104中,对网页资源地址进行哈希计算得到第一哈希值,可以通过一致性哈希算法实现,使用一致性哈希算法可以保证映射关系的一致性。可选地,如图2所示,可以将对应的URL和结点的IP地址映射到0-232的环形空间中,来保证映射关系的一致性。
具体地,对所有机器结点(即第一物理结点)的IP地址进行Hash计算,根据计算的结果值,将其分配到对应的位置上,同时建立结点位置与IP地址的映射关系。如图2所示,分别对第一物理结点Node1,Node2和Node3的IP地址进行一致性Hash运算后的位置值(即第二哈希值)为KEY1,KEY2和KEY3,并定义字典保存KEY1,KEY2与KEY3对应的IP地址映射关系。
在图3所示的实施例中,在每个第一物理结点(如Node 1、Node 2以及Node 3)下载新的页面,然后对下载的页面解析出新的URL链接(统一资源定位符,即上述的网络资源地址),然后将其与URL历史队列中的URL比较,若该新的URL未被爬取过,则将其保存入URL待爬取队列,若该新的URL不是本机(即IP地址不是本机IP地址),则将其通过URL发送器发送至对应的第一物理结点,当然,每个物理结点还可以通过URL接收器接收来自其他第一物理结点的URL。
根据本发明的上述实施例,按照第一哈希值将网页资源地址分配至对应的第一存储位置可以包括:检测数据表中是否存在第一哈希值;若数据表中不存在第一哈希值,则查询数据表中比第一哈希值大的值中最小的第二哈希值,读取第二哈希值对应的第一存储位置;若数据表中不存在第二哈希值,则将预设结点的预设位置作为第一存储位置;若数据表中存在第一哈希值,则读取第一哈希值的第一存储位置;将网页资源地址存储至第一存储位置。
下面结合图2详述上述实施例,如图2所示,数据表中第二哈希值KEY1对应的是第一物理结点Node1,数据表中第二哈希值KEY2和KEY3对应的第一物理结点分别是Node2和Node3。其中,KEY1、KEEY2以及KEY3可以是预存在数据表(可以是字典)中的数据。若获取到一个新的网页资源地址Object2,则对其做哈希运算得到第一哈希值key2,然后放入数据表中作对比,经检测该第一哈希值与数据表中KEY1、KEY2以及KEY3均不相同,但是检测到数据表中大于第一哈希值key2的第二哈希值中最小的为KEY1,则将key2对应的网页资源地址放入第二哈希值KEY1对应的第一物理结点Node1所对应的第一存储位置;同样地,对网页资源地址Object4进行一致性哈希计算得到的第一哈希值key4对应第二哈希值KEY3,则将其保存入对应的第一物理结点Node3;对网页资源地址Object3进行一致性哈希计算得到的第一哈希值key3对应第二哈希值KEY2,则将其保存入对应的第一物理结点Node2。
在上述实施例中,使用网页资源地址Object1进行一致性Hash运算后生成的第一哈希值key1,在上述的字典中查找对应的第二哈希值KEY,若第一哈希值key1在字典中,则取出其对应的IP地址(也即第一物理结点的地址),不存在则找到第一个比第一哈希值key1大的结点位置值,找到最大位置处,将其保存入最大位置处;若未能找到最大位置处,则将其分配给0结点(即上述的预设结点),并取出0结点对应的IP地址(即预设结点的预设位置),如图3中,若无法找到对应网页资源地址Object1的第一哈希值key1的第二哈希值,则将其顺时针存放到Node1中。
根据本发明的上述实施例,通过第一哈希值与第一物理结点的映射关系,可以将多个网页资源地址存储在同一第一物理结点所对应的第一存储位置,从而解决了现有技术中大规模的网页资源地址数据的存储问题,而且通过这种映射关系,使得网页资源地址能够被快速查询到。
在本方面的上述实施例中,在按照第一哈希值将网页资源地址分配至对应的第一存储位置之后,处理方法可以包括:读取第一存储位置的第一IP地址。
在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过可以包括:在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值;判断多个第三哈希值对应的第二存储位置上是否已存储网页资源地址;若多个第二存储位置上均已存储网页资源地址,则确定网页资源地址已被爬取过;若多个第二存储位置上未均存储网页资源地址,则确定网页资源地址未被爬取过。
如图4所示,可以通过布隆过滤器算法来判断URL是否已经爬取过。首先对URL通过预设的哈希函数进行运算(如图4所示可以通过哈希函数1、哈希函数2、哈希函数3、……、和哈希函数N计算),对每个hash函数运算后的值判断其在对应位置是否为1(该值可以表示在该位置上是否存储有该网络资源地址):若不都为1,则表示未爬取过,且未存放到URL待爬取队列,并将运算后的对应位置置为1,将其放到待爬取队列中;若运算后对应位置都为1则表示其已抓取,丢弃该URL。
如图4所示的实施例,通过哈希函数1、哈希函数2、哈希函数3和哈希函数N计算得到的值分别为5、11、6和15(图中的1至18可以为位数组),若存储位置5、存储位置11、存储位置6和存储位置15上均为1,表示该网络资源地址被爬取过;若存储位置5、存储位置11、存储位置6和存储位置15上不均为1,表示该网络资源地址未被爬取过。
在该实施例中,可以在历史URL的存储上采用bloomfilter算法(即布隆过滤器算法)将其映射到位数组空间中,能够很好地解决大规模数据时存储空间,提高查询效率。
在本发明的上述实施例中,使用多个哈希函数对该IP所对应的网页资源地址进行哈希运算,从而得到多个第三哈希值,若多个第三哈希值对应的第二存储位置均已经存储有网页资源地址则判断出该网页资源地址已经被爬取过;若多个第三哈希值对应的第二存储位置不均存储有网页资源地址则判断出该网页资源地址未被爬取过,则将该网页资源地址放入待爬取队列。通过对网页资源地址的哈希运算,能够快速判断该网页资源地址是否被爬取过,从而提高了对网页资源地址的查询效率。
根据本发明的上述实施例,在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值之前,处理方法可以包括:判断第一IP地址是否为第二物理结点的IP地址,其中,第二物理结点为解析网页的物理结点;若第一IP地址为第二物理结点的IP地址,则将第二物理结点确定为第一物理结点;若第一IP地址不为第二物理结点的IP地址,则将网页资源地址发送至第一IP地址对应的第一物理结点。
在本发明的上述实施例中,在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值之前,判断第一IP地址是否为第二物理结点(即本机)的IP地址,若第一IP地址是本机IP地址,则在本机上执行布隆过滤器算法;若否则通过URL发送器将其发送至对应的物理结点上执行布隆过滤器算法。
具体地,发送URL时,以JSON为数据传输格式,将URL信息递交给socket发送线程,由其发送到IP地址对应的物理结点中,每个物理结点的URL接收器均可以通过单独线程监听socket连接,当有新消息到达时,接下来对URL的执行布隆过滤器算法。
在本发明的上述实施例中,在对网页资源地址进行处理之前,需要对第一IP地址做判断,若该第一IP地址与第二物理结点的IP地址相同,则将第二物理结点作为第一物理结点,若该第一IP地址与第二物理结点的IP地址不同,则将网页资源地址发送到第一IP地址对应的第一物理结点。经过上述判断,可以判断出该网页资源地址对应的哈希值在预设数据表中的大概位置,为下一步对该网页资源地址的具体查询缩小查询范围。
在本方面的上述实施例中,将网页资源地址存储至第一存储位置可以包括:将网页资源地址分配至第三存储位置,其中,第三存储位置为虚拟结点的存储位置;通过虚拟结点与第一物理结点的映射关系确定第一存储位置;将网页资源地址存储至第一存储位置。
根据本发明的上述实施例,在解析下载的网页得到网页资源地址之前,处理方法可以包括:对分布式系统上的物理结点的IP地址进行哈希计算得到第四哈希值;使用第四哈希值确定物理结点的虚拟结点的子哈希值;按照第四哈希值为物理结点分配第四存储位置,并按照子哈希值为虚拟结点分配第五存储位置;建立第四存储位置、第五存储位置与IP地址的映射关系得到数据表。
下面结合图5详述本发明的上述实施例,图5是根据本发明实施例的将网页资源地址存储至第一存储位置的示意图。如图5所示,将网页资源地址Object1对应的第一IP地址做哈希运算,根据上述哈希运算得到的值确定网页资源地址Object1对应的虚拟结点,然后再根据虚拟结点确定网页资源地址Object1对应的第一物理结点,然后由第一物理结点确定网页资源地址的第一存储位置。通过虚拟结点与第一物理结点的映射关系实现了对网页资源地址的高效稳定存储,同时使得在预设数据表中插入新的网页资源地址不会破坏已存在的网页资源地址,使得预设数据能够快速扩展。
在本发明的上述实施例中,由图2可知,若第一物理结点较少时,从图2中移除第一物理结点就会存在分布不不均匀的问题,从而影响存储质量和查询效率,这时通过为每个第一物理结点增加多个虚拟结点,并建立虚拟结点到物理结点的映射关系,以解决第一物理结点分布不均匀的问题。
如图5所示,图5中的虚拟结点的哈希计算方式以第一IP地址加上对应的虚拟结点后做哈希运算,并将虚拟结点计算后的第一物理结点映射到图2中。网页资源地址进行哈希运算后被分配到虚拟结点的位置,通过虚拟结点与第一物理结点的映射关系,存放到对应的第一物理结点中,虚拟结点到第一物理结点的映射如图5所示。通过建立虚拟结点与第一物理结点的映射,引入虚拟结点来保证在结点较少的情况下,负载均衡的问题,提高了存储的效率,同时提高了对网页资源地址查询效率。
具体地,如图5所示的实施例,包括三个物理结点(物理结点N1、物理结点N2和物理结点N3)和六个虚拟结点V1至V6,其中,虚拟结点V1和V2对应物理结点N1,虚拟结点V3和V4对应物理结点N2,虚拟结点V5和V6对应物理结点N3。如图5所示的实施例,将网页资源地址Object1和Object2进行一致性哈希运算后,对应到虚拟结点V2和虚拟结点V5,并进一步获取物理结点N1和N3。
本发明上述实施例,通过一致性hash来解决分布式系统中结点增加时,已分配的内容可以被映射到原有的或者新的结点中,保证了一致性,同时在结点删除时,能够将该结点中的内容移到相邻结点,从而保证其它结点不发生变化;同时引入虚拟结点,将一个物理节点与多个虚拟结点进行映射,对虚拟结点进行hash运算,保证了结点少时的负载均衡的问题;并且,在历史URL的存储上使用bloomfilter算法来记录已爬取的URL状态信息,压缩了存储空间,提高查询效率。
进一步地,待爬取URL的分配上使用了一致性Hash算法来保证分布式系统中在增删结点时满足的映射的一致性及分散性,当过引入在物理结点上引入虚拟结点来解决负载均衡的问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本发明实施例的分布式系统上网络爬虫数据的处理装置的示意图。如图6所示,该装置可以包括如下模块:解析模块10、第一计算模块20、存储模块30、第一判断模块40、第一确定模块50以及第二确定模块60。
其中,解析模块10,用于解析下载的网页得到网页资源地址;第一计算模块20,用于对网页资源地址进行哈希计算得到第一哈希值;存储模块30,用于按照第一哈希值将网页资源地址分配至对应的第一存储位置;第一判断模块40,用于在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过;第一确定模块50,用于若网页资源地址被爬取过,则丢弃网页资源地址;第二确定模块60,用于若网页资源地址未被爬取过,则保存网页资源地址至待爬取队列。
采用本发明,在爬虫抓取网页资源信息时,需要判断该网页资源信息是否被爬取过,解析模块解析该网页资源地址,然后第一计算模块将该网页资源地址数据进行哈希计算得到第一哈希值,再按照第一哈希值将网页资源地址分配到第一存储位置,然后第一判断模块在第一存储位置所对应的第一物理结点上判断该网页资源地址是否被爬取过,若第一确定模块判断出该网页资源地址被爬取过则丢弃该网页资源地址,若第二确定模块判断出该网页资源地址没有被爬取过,则将该网页资源地址存储到待爬取队列。采用本发明,解决了现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题,从而达到了对大规模的网页资源地址数据的快速存储和高效查询的效果。
在上述实施例中,对网页资源地址进行哈希计算得到第一哈希值,可以通过一致性哈希算法实现,使用一致性哈希算法可以保证映射关系的一致性。
根据本发明的上述实施例,对所有机器结点(即第一物理结点)的IP地址进行Hash计算,根据计算的结果值,将其分配到对应的位置上,同时建立结点位置与IP地址的映射关系。如图2所示,分别对第一物理结点Node1,Node2和Node3的IP地址进行一致性Hash运算后的位置值(即第二哈希值)为KEY1,KEY2和KEY3,并定义字典保存KEY1,KEY2与KEY3对应的IP地址映射关系。
在图3所示的实施例中,在每个第一物理结点(如Node 1、Node 2以及Node 3)下载新的页面,然后对下载的页面解析出新的URL链接(统一资源定位符,即上述的网络资源地址),然后将其与URL历史队列中的URL比较,若该新的URL未被爬取过,则将其保存入URL待爬取队列,若该新的URL不是本机(即IP地址不是本机IP地址),则将其通过URL发送器发送至对应的第一物理结点,当然,每个物理结点还可以通过URL接收器接收来自其他第一物理结点的URL。
在本发明的上述实施例中,存储模块可以包括:检测模块,用于检测数据表中是否存在第一哈希值;查询模块,用于若数据表中不存在第一哈希值,则查询数据表中比第一哈希值大的值中最小的第二哈希值,读取第二哈希值对应的第一存储位置;转换模块,用于若数据表中不存在第二哈希值,则将预设结点的预设位置作为第一存储位置;第三确定模块,用于若数据表中存在第一哈希值,则读取第一哈希值的第一存储位置;第一存储子模块,用于将网页资源地址存储至第一存储位置。
采用上述实施例,通过第一哈希值与第一物理结点的映射关系,可以将多个网页资源地址存储在同一第一物理结点所对应的第一存储位置,从而解决了现有技术中大规模的网页资源地址数据的存储问题,而且通过这种映射关系,使得网页资源地址能够被快速查询到。
根据本发明的上述实施例,该处理装置还可以包括:读取模块,用于在按照第一哈希值将网页资源地址分配至对应的第一存储位置之后,读取第一存储位置的第一IP地址。
在本发明的上述实施例中,第一判断模块可以包括:第二计算模块,用于在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值;第一判断子模块,用于判断多个第三哈希值对应的第二存储位置上是否已存储网页资源地址;第四确定模块,用于若多个第二存储位置上均已存储网页资源地址,则确定网页资源地址已被爬取过;第五确定模块,用于若多个第二存储位置上未均存储网页资源地址,则确定网页资源地址未被爬取过。
通过上述实施例,对网页资源地址的哈希运算,能够快速判断该网页资源地址是否被爬取过,从而提高了对网页资源地址的查询效率。
根据本发明的上述实施例,处理装置还可以包括:第二判断模块,用于在第一IP地址的第一物理结点上使用多个预设的哈希函数对网页资源地址进行哈希计算,得到多个第三哈希值之前,判断第一IP地址是否为第二物理结点的IP地址,其中,第二物理结点为解析网页的物理结点;第六确定模块,用于若第一IP地址为第二物理结点的IP地址,则将第二物理结点确定为第一物理结点;第七确定模块,用于若第一IP地址不为第二物理结点的IP地址,则将网页资源地址发送至第一IP地址对应的第一物理结点。
通过上述实施例,可以判断出该网页资源地址对应的哈希值在预设数据表中的大概位置,为下一步对该网页资源地址的具体查询缩小查询范围,提高查询效率。
在本发明的上述实施例中,第一存储子模块可以包括:第一分配模块,用于将网页资源地址分配至第三存储位置,其中,第三存储位置为虚拟结点的存储位置;映射模块,用于通过虚拟结点与第一物理结点的映射关系确定第一存储位置;第二存储子模块,用于将网页资源地址存储至第一存储位置。
在本发明的上述实施例中,将一个第一物理结点与多个虚拟结点进行映射,解决分布式系统中增加第一物理结点和删除第一物理结点对系统的影响;已分配的第一物理结点或者新增加的第一物理结点可以被映射到原有的或者新的第一物理结点中;在删除第一物理结点时,能够将该第一物理结点中的内容移到相邻第一物理结点,从而保证其它第一物理结点不发生变化,达到了维护第一物理结点负载均衡的效果。
在上述实施例中,处理装置还可以包括:第三计算模块,用于在解析下载的网页得到网页资源地址之前,对分布式系统上的物理结点的IP地址进行哈希计算得到第四哈希值;第八确定模块,用于使用第四哈希值确定物理结点的虚拟结点的子哈希值;第二分配模块,用于按照第四哈希值为物理结点分配第四存储位置,并按照子哈希值为虚拟结点分配第五存储位置;建立模块,用于建立第四存储位置、第五存储位置与IP地址的映射关系得到数据表。
本发明上述实施例,通过一致性hash来解决分布式系统中结点增加时,已分配的内容可以被映射到原有的或者新的结点中,保证了一致性,同时在结点删除时,能够将该结点中的内容移到相邻结点,从而保证其它结点不发生变化;同时引入虚拟结点,将一个物理节点与多个虚拟结点进行映射,对虚拟结点进行hash运算,保证了结点少时的负载均衡的问题;并且,在历史URL的存储上使用bloomfilter算法来记录已爬取的URL状态信息,压缩了存储空间,提高查询效率。
进一步地,待爬取URL的分配上使用了一致性Hash算法来保证分布式系统中在增删结点时满足的映射的一致性及分散性,当过引入在物理结点上引入虚拟结点来解决负载均衡的问题。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:
采用本发明,在爬虫抓取网页资源信息时,需要判断该网页资源信息是否被爬取过,具体是解析该网页资源地址,然后将该网页资源地址数据进行哈希计算得到第一哈希值,再按照第一哈希值将网页资源地址分配到第一存储位置,然后在第一存储位置所对应的第一物理结点上判断该网页资源地址是否被爬取过,若判断出该网页资源地址被爬取过则丢弃该网页资源地址,若该网页资源地址没有被爬取过,则将该网页资源地址存储到待爬取队列。采用本发明,解决了现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题,从而达到了对大规模的网页资源地址数据的快速存储和高效查询的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种分布式系统上网络爬虫数据的处理方法,其特征在于,包括:
解析下载的网页得到网页资源地址;
对所述网页资源地址进行哈希计算得到第一哈希值;
按照所述第一哈希值将所述网页资源地址分配至对应的第一存储位置;
在所述第一存储位置对应的第一物理结点上判断所述网页资源地址是否被爬取过;
若所述网页资源地址被爬取过,则丢弃所述网页资源地址;
若所述网页资源地址未被爬取过,则保存所述网页资源地址至待爬取队列。
2.根据权利要求1所述的处理方法,其特征在于,按照所述第一哈希值将所述网页资源地址分配至对应的第一存储位置包括:
检测数据表中是否存在所述第一哈希值;
若所述数据表中不存在所述第一哈希值,则查询所述数据表中比所述第一哈希值大的值中最小的第二哈希值,读取所述第二哈希值对应的所述第一存储位置;若所述数据表中不存在所述第二哈希值,则将预设结点的预设位置作为所述第一存储位置;
若所述数据表中存在所述第一哈希值,则读取所述第一哈希值的所述第一存储位置;
将所述网页资源地址存储至所述第一存储位置。
3.根据权利要求2所述的处理方法,其特征在于,
在按照所述第一哈希值将所述网页资源地址分配至对应的第一存储位置之后,所述处理方法包括:读取所述第一存储位置的第一IP地址;
在所述第一存储位置对应的第一物理结点上判断所述网页资源地址是否被爬取过包括:
在所述第一IP地址的所述第一物理结点上使用多个预设的哈希函数对所述网页资源地址进行哈希计算,得到多个第三哈希值;
判断多个所述第三哈希值对应的第二存储位置上是否已存储所述网页资源地址;
若多个所述第二存储位置上均已存储所述网页资源地址,则确定所述网页资源地址已被爬取过;
若多个所述第二存储位置上未均存储所述网页资源地址,则确定所述网页资源地址未被爬取过。
4.根据权利要求3所述的处理方法,其特征在于,在所述第一IP地址的所述第一物理结点上使用多个预设的哈希函数对所述网页资源地址进行哈希计算,得到多个第三哈希值之前,所述处理方法包括:
判断所述第一IP地址是否为第二物理结点的IP地址,其中,所述第二物理结点为解析所述网页的物理结点;
若所述第一IP地址为所述第二物理结点的IP地址,则将所述第二物理结点确定为所述第一物理结点;
若所述第一IP地址不为所述第二物理结点的IP地址,则将所述网页资源地址发送至所述第一IP地址对应的所述第一物理结点。
5.根据权利要求2所述的处理方法,其特征在于,将所述网页资源地址存储至所述第一存储位置包括:
将所述网页资源地址分配至第三存储位置,其中,所述第三存储位置为虚拟结点的存储位置;
通过所述虚拟结点与所述第一物理结点的映射关系确定所述第一存储位置;
将所述网页资源地址存储至所述第一存储位置。
6.根据权利要求1至5中任意一项所述的处理方法,其特征在于,在解析下载的网页得到网页资源地址之前,所述处理方法包括:
对分布式系统上的物理结点的IP地址进行哈希计算得到第四哈希值;
使用第四哈希值确定所述物理结点的虚拟结点的子哈希值;
按照所述第四哈希值为所述物理结点分配第四存储位置,并按照所述子哈希值为所述虚拟结点分配第五存储位置;
建立所述第四存储位置、所述第五存储位置与所述IP地址的映射关系得到数据表。
7.一种分布式系统上网络爬虫数据的处理装置,其特征在于,包括:
解析模块,用于解析下载的网页得到网页资源地址;
第一计算模块,用于对所述网页资源地址进行哈希计算得到第一哈希值;
存储模块,用于按照所述第一哈希值将所述网页资源地址分配至对应的第一存储位置;
第一判断模块,用于在所述第一存储位置对应的第一物理结点上判断所述网页资源地址是否被爬取过;
第一确定模块,用于若所述网页资源地址被爬取过,则丢弃所述网页资源地址;
第二确定模块,用于若所述网页资源地址未被爬取过,则保存所述网页资源地址至待爬取队列。
8.根据权利要求7所述的处理装置,其特征在于,所述存储模块包括:
检测模块,用于检测数据表中是否存在所述第一哈希值;
查询模块,用于若所述数据表中不存在所述第一哈希值,则查询所述数据表中比所述第一哈希值大的值中最小的第二哈希值,读取所述第二哈希值对应的所述第一存储位置;转换模块,用于若所述数据表中不存在所述第二哈希值,则将预设结点的预设位置作为所述第一存储位置;
第三确定模块,用于若所述数据表中存在所述第一哈希值,则读取所述第一哈希值的所述第一存储位置;
第一存储子模块,用于将所述网页资源地址存储至所述第一存储位置。
9.根据权利要求8所述的处理装置,其特征在于,
所述处理装置包括读取模块,用于在按照所述第一哈希值将所述网页资源地址分配至对应的第一存储位置之后,读取所述第一存储位置的第一IP地址;
所述第一判断模块包括:
第二计算模块,用于在所述第一IP地址的所述第一物理结点上使用多个预设的哈希函数对所述网页资源地址进行哈希计算,得到多个第三哈希值;
第一判断子模块,用于判断多个所述第三哈希值对应的第二存储位置上是否已存储所述网页资源地址;
第四确定模块,用于若多个所述第二存储位置上均已存储所述网页资源地址,则确定所述网页资源地址已被爬取过;
第五确定模块,用于若多个所述第二存储位置上未均存储所述网页资源地址,则确定所述网页资源地址未被爬取过。
10.根据权利要求9所述的处理装置,其特征在于,所述处理装置包括:
第二判断模块,用于在所述第一IP地址的所述第一物理结点上使用多个预设的哈希函数对所述网页资源地址进行哈希计算,得到多个第三哈希值之前,判断所述第一IP地址是否为第二物理结点的IP地址,其中,所述第二物理结点为解析所述网页的物理结点;
第六确定模块,用于若所述第一IP地址为所述第二物理结点的IP地址,则将所述第二物理结点确定为所述第一物理结点;
第七确定模块,用于若所述第一IP地址不为所述第二物理结点的IP地址,则将所述网页资源地址发送至所述第一IP地址对应的所述第一物理结点。
11.根据权利要求8所述的处理装置,其特征在于,所述第一存储子模块包括:
第一分配模块,用于将所述网页资源地址分配至第三存储位置,其中,所述第三存储位置为虚拟结点的存储位置;
映射模块,用于通过所述虚拟结点与所述第一物理结点的映射关系确定所述第一存储位置;
第二存储子模块,用于将所述网页资源地址存储至所述第一存储位置。
12.根据权利要求7至11中任意一项所述的处理装置,其特征在于,所述处理装置包括:
第三计算模块,用于在解析下载的网页得到网页资源地址之前,对分布式系统上的物理结点的IP地址进行哈希计算得到第四哈希值;
第八确定模块,用于使用第四哈希值确定所述物理结点的虚拟结点的子哈希值;
第二分配模块,用于按照所述第四哈希值为所述物理结点分配第四存储位置,并按照所述子哈希值为所述虚拟结点分配第五存储位置;
建立模块,用于建立所述第四存储位置、所述第五存储位置与所述IP地址的映射关系得到数据表。
CN201410779172.3A 2014-12-15 2014-12-15 分布式系统上网络爬虫数据的处理方法和装置 Pending CN104408182A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410779172.3A CN104408182A (zh) 2014-12-15 2014-12-15 分布式系统上网络爬虫数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410779172.3A CN104408182A (zh) 2014-12-15 2014-12-15 分布式系统上网络爬虫数据的处理方法和装置

Publications (1)

Publication Number Publication Date
CN104408182A true CN104408182A (zh) 2015-03-11

Family

ID=52645813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410779172.3A Pending CN104408182A (zh) 2014-12-15 2014-12-15 分布式系统上网络爬虫数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN104408182A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183873A (zh) * 2015-09-18 2015-12-23 北京博雅立方科技有限公司 恶意点击行为检测方法及装置
CN106202077A (zh) * 2015-04-30 2016-12-07 华为技术有限公司 一种任务分发方法及装置
CN106547776A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 网站内容的检测方法及装置
CN106570025A (zh) * 2015-10-10 2017-04-19 北京国双科技有限公司 一种数据过滤的方法及装置
CN107798106A (zh) * 2017-10-31 2018-03-13 广东思域信息科技有限公司 一种分布式爬虫系统中的url去重方法
CN108132948A (zh) * 2016-11-30 2018-06-08 北京国双科技有限公司 处理爬取网页的方法和装置
CN108153817A (zh) * 2017-11-29 2018-06-12 成都东方盛行电子有限责任公司 一种智能网页数据采集方法
CN110941788A (zh) * 2019-12-17 2020-03-31 山西云时代技术有限公司 边缘计算的云环境分布式Web页面提取分析系统和方法
CN111104578A (zh) * 2019-12-18 2020-05-05 北京阿尔山区块链联盟科技有限公司 爬虫系统、方法和服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294311A1 (en) * 2005-06-24 2006-12-28 Yahoo! Inc. Dynamic bloom filter for caching query results
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN103970722A (zh) * 2014-05-07 2014-08-06 江苏金智教育信息技术有限公司 一种文本内容去重的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294311A1 (en) * 2005-06-24 2006-12-28 Yahoo! Inc. Dynamic bloom filter for caching query results
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN103970722A (zh) * 2014-05-07 2014-08-06 江苏金智教育信息技术有限公司 一种文本内容去重的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴昊: "主题爬虫URL分析模型与调度技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202077A (zh) * 2015-04-30 2016-12-07 华为技术有限公司 一种任务分发方法及装置
CN106202077B (zh) * 2015-04-30 2020-01-21 华为技术有限公司 一种任务分发方法及装置
CN105183873A (zh) * 2015-09-18 2015-12-23 北京博雅立方科技有限公司 恶意点击行为检测方法及装置
CN106547776A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 网站内容的检测方法及装置
CN106547776B (zh) * 2015-09-21 2019-12-03 北京国双科技有限公司 网站内容的检测方法及装置
CN106570025B (zh) * 2015-10-10 2020-09-11 北京国双科技有限公司 一种数据过滤的方法及装置
CN106570025A (zh) * 2015-10-10 2017-04-19 北京国双科技有限公司 一种数据过滤的方法及装置
CN108132948A (zh) * 2016-11-30 2018-06-08 北京国双科技有限公司 处理爬取网页的方法和装置
CN107798106A (zh) * 2017-10-31 2018-03-13 广东思域信息科技有限公司 一种分布式爬虫系统中的url去重方法
CN107798106B (zh) * 2017-10-31 2023-04-18 广东思域信息科技有限公司 一种分布式爬虫系统中的url去重方法
CN108153817A (zh) * 2017-11-29 2018-06-12 成都东方盛行电子有限责任公司 一种智能网页数据采集方法
CN108153817B (zh) * 2017-11-29 2021-08-10 成都东方盛行电子有限责任公司 一种智能网页数据采集方法
CN110941788A (zh) * 2019-12-17 2020-03-31 山西云时代技术有限公司 边缘计算的云环境分布式Web页面提取分析系统和方法
CN111104578A (zh) * 2019-12-18 2020-05-05 北京阿尔山区块链联盟科技有限公司 爬虫系统、方法和服务器

Similar Documents

Publication Publication Date Title
CN104408182A (zh) 分布式系统上网络爬虫数据的处理方法和装置
CN104506511A (zh) 一种sdn网络动态目标防御系统及方法
CN109831507B (zh) 物联网系统、负载均衡方法和存储介质
CN109756584B (zh) 域名解析方法、域名解析装置及计算机可读存储介质
CN110198332B (zh) 内容分发网络节点的调度方法、装置及存储介质
CN109729183A (zh) 请求处理方法、装置、设备及存储介质
CN103731482A (zh) 一种集群负载均衡系统及其实现方法
US20160269232A1 (en) Network management apparatus and network management method
CN107454007A (zh) 一种网关业务的处理方法及装置
CN105704246A (zh) 一种基于sdn架构的网络分流装置和方法
CN108370334B (zh) 网络连通性检测
CN102404387A (zh) 一种用于与其他节点进行信息同步的方法、装置和设备
CN104954448A (zh) 图片处理方法、系统和服务器
CN105933437A (zh) 服务器推荐方法及装置
CN105357334B (zh) 一种基于ipv6地址划分的ipv6地址存储及快速查询方法
CN109561469A (zh) 本地内容的缓存方法、装置、存储介质及电子装置
CN113806084A (zh) 一种集群节点内存负载均衡的方法、系统、设备和介质
CN105763391A (zh) 一种会话数据流处理系统、方法和相关设备
CN107612831B (zh) 一种访问源站的数据报文的传输方法及装置
CN103078968B (zh) 域名查询方法、ip分族方法、装置和设备
CN108574637B (zh) 一种地址自学习的方法、装置及交换机
KR102578852B1 (ko) 도시 컴퓨팅 환경에서 엣지 컴퓨팅 기반의 공격 탐지 모델 공유 시스템 및 그 방법
CN107181778B (zh) 一种数据分流方法及装置
CN104244231B (zh) 下一代无线网络的地址配置实现方法
CN113656712A (zh) 资产收集方法、装置、电子装置和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150311