CN102880698A - 一种抓取网站确定方法及装置 - Google Patents
一种抓取网站确定方法及装置 Download PDFInfo
- Publication number
- CN102880698A CN102880698A CN201210356892XA CN201210356892A CN102880698A CN 102880698 A CN102880698 A CN 102880698A CN 201210356892X A CN201210356892X A CN 201210356892XA CN 201210356892 A CN201210356892 A CN 201210356892A CN 102880698 A CN102880698 A CN 102880698A
- Authority
- CN
- China
- Prior art keywords
- application terminal
- website
- access
- threshold value
- chronodispersion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种抓取网站确定方法及装置,包括:获取应用终端在设定时间段内访问指定网站的时刻,以及访问指定网站的次数;并根据获取的访问指定网站的时刻,确定该应用终端在设定时间段内访问指定网站的时间离散度;以及根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,确定该应用终端是否为抓取网站的应用终端。采用本发明实施例提供的方案,提高了确定抓取网站的用户终端的准确性。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种抓取网站确定方法及装置。
背景技术
所谓抓取网站,就是抓取网站上发布的大量内容信息,甚至是整个网站上发布的所有内容信息,并保存到本地,使得即便网络断开,或者被抓取的网站被关闭,抓取下来的网站依然可以浏览。
目前,抓取网站所采用的方式,主要为通过称作网络蜘蛛的应用程序自动实现网站抓取,即网络蜘蛛通过网页链接来寻找网页,从网站的某一页面(通常是首页)开始访问,获取网页内容,并查询到在该网页中的其它链接地址,然后通过这些链接地址访问对应的下一个网页,如此循环下去,直到把这个网站所有网页上发布的内容信息都抓取完为止。
另外,随着Open API(Open Application Programming Interface,开放应用编程接口)技术的发展,一种类似网络蜘蛛的通过API抓取网站的方式出现,采用该方式可以非正常的获取网站上的大量用户信息,以及模拟用户操作。
基于现有技术中的上述抓取网站的操作,一方面,导致网站的大量隐私信息被非法获取,如用户信息,另一方面,网站被频繁的访问,将消耗网站的大量带宽资源以及应用服务器的处理资源,从而影响对其他用户的正常访问的处理。
为了解决上述问题,现有技术中提出了一些针对判定抓取网站的应用终端的方法,例如,可以通过对访问日志中的User Agent(用户代理)进行判断,如果UserAgent表征的不是一般用户所使用的客户端,而是某些服务器上的定时调用程序,则该Uer Agent所属的应用终端很可能为运行抓站蜘蛛程序的终端,即用于抓取网站的应用终端;又如,基于访问网站的应用终端的IP地址,通过分析IP地址来源可以判断出部分应用终端的访问意图,如IP地址属于对手公司的机器IP地址的应用终端,则很可能为抓取网站的应用终端。
然而,基于User Agent的判定方式,由于User Agent容易被篡改,所以容易导致无法确定出User Agent已被篡改的抓取网站的应用终端;基于访问IP地址的判定方式,仅能确定出少部分使用可疑IP地址的应用终端,并且这一部分应用终端也不一定在进行抓取网站的操作,而可能是正常的访问。
综上可知,现有技术中还无法准确的对抓取网站的应用终端进行判定。
发明内容
本发明实施例提供一种抓取网站确定方法及装置,用以解决现有技术中存在确定抓取网站的应用终端不准确的问题。
本发明实施例提供一种抓取网站确定方法,包括:
获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;
根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;
根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。
本发明实施例还提供一种抓取网站确定装置,包括:
获取单元,用于获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;
第一确定单元,用于根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;
第二确定单元,用于根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。
本发明有益效果包括:
本发明实施例提供的方法中,在确定一个应用终端是否为抓取网站的应用终端时,首先获取该应用终端在设定时间段内访问指定网站的时刻,以及访问指定网站的次数,并根据获取的访问指定网站的时刻,确定该应用终端在设定时间段内访问指定网站的时间离散度,然而根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,确定该应用终端是否为抓取网站的应用终端。由于一个应用终端在设定时间段内访问网站的时间离散度和次数,均能够表征应用终端访问网站的行为特性,并且应用终端在进行抓取网站操作时访问网站的时间离散度和次数,与应用终端正常访问网站的时间离散度和次数存在差异,所以,通过应用终端访问网站的时间离散度与离散度阈值的大小关系,以及访问网站的次数与访问次数阈值的大小关系,能够更准确的确定该应用终端是否为抓取网站的应用终端。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的抓取网站确定方法的流程图;
图2为本发明实施例1提供的抓取网站确定方法的流程图;
图3为本发明实施例2提供的抓取网站确定方法的流程图;
图4为本发明实施例3提供的抓取网站确定装置的结构示意图。
具体实施方式
为了给出提高确定抓取网站的用户终端的准确性的实现方案,本发明实施例提供了一种抓取网站确定方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种抓取网站确定方法,如图1所示,包括:
步骤101、获取应用终端在设定时间段内访问指定网站的时刻,以及访问指定网站的次数。
步骤102、根据获取的访问指定网站的时刻,确定该应用终端在设定时间段内访问指定网站的时间离散度。
步骤103、根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,确定该应用终端是否为抓取网站的应用终端。
其中,步骤103中,具体可以根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,是否满足应用终端在抓取网站过程中访问该指定网站的时间离散度和次数的行为特性,如果满足,则确定该应用终端为抓取网站的应用终端,如果不满足,则确定该应用终端不是抓取网站的应用终端,其中,离散度阈值和访问次数阈值可以根据多个应用终端分别在抓取网站过程中访问该指定网站的时间离散度和次数进行确定。
下面结合附图,用具体实施例对本发明提供的方法及装置进行详细描述。
实施例1:
图2所示为本发明实施例1提供的抓取网站确定方法的流程图,具体包括如下处理步骤:
步骤201、针对待确定是否为抓取网站的一个应用终端,获取该应用终端在设定时间段内访问指定网站的时刻。
具体的,可基于该应用终端的终端标识,查询该指定网站被访问时对应保存的网络日志,获取该终端标识表征的该应用终端在设定时间段内访问该指定网站的时刻,例如,该终端标识可以为IP地址,如果是以访问API的方式访问指定网站,该终端标识也可以为AppKey(API密钥对)。
步骤202、根据获取的该应用终端在设定时间段内访问该指定网站的时刻,确定该应用终端在设定时间段内访问该指定网站的时间离散度,所确定的该时间离散度能够表征该应用终端访问该指定网站的行为特性,并且,时间离散度越小,表示该应用终端以抓取网站为目的访问该指定网站的可能性越大。
进一步的,该时间离散度可以通过方差表征,也可以通过标准差表征,具体如下:
第一种方式:根据获取的该应用终端在设定时间段内访问该指定网站的时刻,确定每相邻两次访问该指定网站的各时间间隔xi,其中,xi为该应用终端在设定时间段内第i次和第i+1次访问该指定网站的时间间隔;
确定各时间间隔xi的方差,通过确定的方差表征该应用终端在设定时间段内访问该指定网站的时间离散度,具体采用如下公式确定:
其中,N+1为该应用终端在设定时间段内访问该指定网站的次数,μ为该应用终端在设定时间段内每相邻两次访问该指定网站的各时间间隔的平均值,v为该应用终端在设定时间段内每相邻两次访问该指定网站的各时间间隔的方差,方差越小,表示该应用终端以抓取网站为目的访问该指定网站的可能性越大。
第二种方式:根据获取的该应用终端在设定时间段内访问该指定网站的时刻,确定每相邻两次访问该指定网站的各时间间隔xi,其中,xi为该应用终端在设定时间段内第i次和第i+1次访问该指定网站的时间间隔;
确定各时间间隔xi的标准差,通过标准差表征该应用终端在设定时间段内访问该指定网站的时间离散度,具体采用如下公式确定:
其中,N+1为该应用终端在设定时间段内访问该指定网站的次数,μ为该应用终端在设定时间段内每相邻两次访问该指定网站的各时间间隔的平均值,σ为该应用终端在设定时间段内每相邻两次访问该指定网站的各时间间隔的标准差,标准差越小,表示该应用终端以抓取网站为目的访问该指定网站的可能性越大。
步骤203、获取该应用终端在设定时间段内访问指定网站的次数。
具体的,也可以基于该应用终端的终端标识,查询该指定网站被访问时对应保存的网络日志,统计并获取该终端标识表征的该应用终端在设定时间段内访问该指定网站的次数,终端标识可以为IP地址,也可以为AppKey,具体可以采用与上述步骤201中相同的表征方式。
本步骤与上述步骤201和步骤202之间没有严格的先后顺序。
步骤204、根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,确定该时间离散度和该次数是否满足表征该应用终端为抓取网站的应用终端的条件,如果不满足,进入步骤205,如果满足,进入步骤206。
具体的,可以确定该时间离散度是否小于离散度阈值,且获取的该次数是否小于访问次数阈值,如果不是,进入步骤205,如果是,进入步骤206。
之所以当该时间离散度小于离散度阈值,且获取的该次数小于访问次数阈值时,确定为满足,是因为基于对已知的多个应用终端在抓取网站过程中访问该指定网站的时间离散度和次数的行为特性的分析可知,时间离散度越小,表示该应用终端以抓取网站为目的访问该指定网站的可能性越大,所以上述确定的该时间离散度需要小于离散度阈值;
并且,在实际应用中,针对该指定网站授权的一些官方应用终端,不会限制其在一定时间内访问本指定网站的次数,而对于一些普通应用终端,将限制其在一定时间内访问本指定网站的次数,也就是说,用于抓取网站的应用终端属于未授权的将会被限制访问次数的应用终端,所以,上述确定的次数需要小于访问次数阈值。
进一步的,上述离散度阈值和访问次数阈值可以根据多个应用终端分别在抓取网站过程中访问该指定网站的时间离散度和次数进行确定。
步骤205、确定该应用终端不是抓取网站的应用终端。
步骤206、确定该应用终端为抓取网站的应用终端。
采用上述实施例1中提供的抓取网站确定方法,由于一个应用终端在设定时间段内访问网站的时间离散度和次数,均能够表征应用终端访问网站的行为特性,并且应用终端在进行抓取网站操作时访问网站的时间离散度和次数,与应用终端正常访问网站的时间离散度和次数存在差异,所以,通过应用终端访问网站的时间离散度与离散度阈值的大小关系,以及访问网站的次数与访问次数阈值的大小关系,能够更准确的确定该应用终端是否为抓取网站的应用终端。
实施例2:
图3所示为本发明实施例2提供的抓取网站确定方法的流程图,具体包括如下处理步骤:
步骤301-步骤305,分别与上述图2所示流程中的步骤201-步骤205对应,在此不再进行详细描述。
步骤306、获取该应用终端在设定时间段内每次访问该指定网站所采用接口的接口类型。
步骤307、确定采用指定类型接口访问该指定网站的次数是否大于接口访问次数阈值,如果不大于,进入步骤305,如果大于,进入步骤308。
其中,指定类型接口为用于获取该指定网站上指定内容信息的接口,例如,用于获取该指定网站上的用户信息的接口。
步骤308、确定该应用终端为抓取网站的应用终端。
采用上述实施例2中提供的抓取网站确定方法,能够进一步更准确的对该应用终端是否为抓取网站的应用终端进行判定。
实施例3:
基于同一发明构思,根据本发明上述实施例提供的抓取网站确定方法,相应地,本发明实施例3还提供了一种抓取网站确定装置,其结构示意图如图4所示,具体包括:
获取单元401,用于获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;
第一确定单元402,用于根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;
第二确定单元403,用于根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。
进一步的,第一确定单元402,具体用于根据获取的访问所述指定网站的时刻,确定每相邻两次访问所述指定网站的各时间间隔;并确定所述各时间间隔的方差,所述方差表征所述应用终端在设定时间段内访问所述指定网站的时间离散度。
进一步的,第一确定单元402,具体用于根据获取的访问所述指定网站的时刻,确定每相邻两次访问所述指定网站的各时间间隔;并确定所述各时间间隔的标准差,所述标准差表征所述应用终端在设定时间段内访问所述指定网站的时间离散度。
进一步的,第二确定单元403,具体用于当确定的所述时间离散度小于离散度阈值,且获取的所述次数小于访问次数阈值时,确定所述应用终端为抓取网站的应用终端,否则,确定所述应用终端不是抓取网站的应用终端。
进一步的,第二确定单元403,具体用于当确定的所述时间离散度小于离散度阈值,且获取的所述次数小于访问次数阈值时,获取所述应用终端在所述设定时间段内每次访问所述指定网站所采用接口的接口类型,否则,确定所述应用终端不是抓取网站的应用终端;以及当采用指定类型接口访问所述指定网站的次数大于接口访问次数阈值时,确定所述应用终端为抓取网站的应用终端,否则,确定所述应用终端不是抓取网站的应用终端,所述指定类型接口为用于获取所述指定网站上指定内容信息的接口。
上述各模块的功能可对应于图1-图3所示流程中的相应处理步骤,在此不再赘述。
综上所述,本发明实施例提供的方案,包括:获取应用终端在设定时间段内访问指定网站的时刻,以及访问指定网站的次数;并根据获取的访问指定网站的时刻,确定该应用终端在设定时间段内访问指定网站的时间离散度;以及根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,确定该应用终端是否为抓取网站的应用终端。采用本发明实施例提供的方案,提高了确定抓取网站的用户终端的准确性。
本申请的实施例所提供的上述装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要上述装置具有上述功能,都应该在本申请的保护范围之内。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种抓取网站确定方法,其特征在于,包括:
获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;
根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;
根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。
2.如权利要求1所述的方法,其特征在于,所述根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度,具体包括:
根据获取的访问所述指定网站的时刻,确定每相邻两次访问所述指定网站的各时间间隔;
确定所述各时间间隔的方差,所述方差表征所述应用终端在设定时间段内访问所述指定网站的时间离散度。
3.如权利要求1所述的方法,其特征在于,所述根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度,具体包括:
根据获取的访问所述指定网站的时刻,确定每相邻两次访问所述指定网站的各时间间隔;
确定所述各时间间隔的标准差,所述标准差表征所述应用终端在设定时间段内访问所述指定网站的时间离散度。
4.如权利要求1-3任一所述的方法,其特征在于,所述根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端,具体包括:
当确定的所述时间离散度小于离散度阈值,且获取的所述次数小于访问次数阈值时,确定所述应用终端为抓取网站的应用终端,否则,确定所述应用终端不是抓取网站的应用终端。
5.如权利要求1-3任一所述的方法,其特征在于,所述根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端,具体包括:
当确定的所述时间离散度小于离散度阈值,且获取的所述次数小于访问次数阈值时,获取所述应用终端在所述设定时间段内每次访问所述指定网站所采用接口的接口类型,否则,确定所述应用终端不是抓取网站的应用终端;
当采用指定类型接口访问所述指定网站的次数大于接口访问次数阈值时,确定所述应用终端为抓取网站的应用终端,否则,确定所述应用终端不是抓取网站的应用终端,所述指定类型接口为用于获取所述指定网站上指定内容信息的接口。
6.一种抓取网站确定装置,其特征在于,包括:
获取单元,用于获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;
第一确定单元,用于根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;
第二确定单元,用于根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。
7.如权利要求6所述的装置,其特征在于,所述第一确定单元,具体用于根据获取的访问所述指定网站的时刻,确定每相邻两次访问所述指定网站的各时间间隔;并确定所述各时间间隔的方差,所述方差表征所述应用终端在设定时间段内访问所述指定网站的时间离散度。
8.如权利要求6所述的装置,其特征在于,所述第一确定单元,具体用于根据获取的访问所述指定网站的时刻,确定每相邻两次访问所述指定网站的各时间间隔;并确定所述各时间间隔的标准差,所述标准差表征所述应用终端在设定时间段内访问所述指定网站的时间离散度。
9.如权利要求6-8任一所述的装置,其特征在于,所述第二确定单元,具体用于当确定的所述时间离散度小于离散度阈值,且获取的所述次数小于访问次数阈值时,确定所述应用终端为抓取网站的应用终端,否则,确定所述应用终端不是抓取网站的应用终端。
10.如权利要求6-8任一所述的装置,其特征在于,所述第二确定单元,具体用于当确定的所述时间离散度小于离散度阈值,且获取的所述次数小于访问次数阈值时,获取所述应用终端在所述设定时间段内每次访问所述指定网站所采用接口的接口类型,否则,确定所述应用终端不是抓取网站的应用终端;以及当采用指定类型接口访问所述指定网站的次数大于接口访问次数阈值时,确定所述应用终端为抓取网站的应用终端,否则,确定所述应用终端不是抓取网站的应用终端,所述指定类型接口为用于获取所述指定网站上指定内容信息的接口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210356892.XA CN102880698B (zh) | 2012-09-21 | 2012-09-21 | 一种抓取网站确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210356892.XA CN102880698B (zh) | 2012-09-21 | 2012-09-21 | 一种抓取网站确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102880698A true CN102880698A (zh) | 2013-01-16 |
CN102880698B CN102880698B (zh) | 2015-08-05 |
Family
ID=47482024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210356892.XA Active CN102880698B (zh) | 2012-09-21 | 2012-09-21 | 一种抓取网站确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102880698B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104378361A (zh) * | 2014-10-24 | 2015-02-25 | 苏州阔地网络科技有限公司 | 一种网络入侵检测方法及系统 |
CN106202108A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 网络爬虫抓取任务分配方法与装置及数据抓取方法与装置 |
CN106897296A (zh) * | 2015-12-17 | 2017-06-27 | 北京国双科技有限公司 | 网站屏幕分辨率兼容性的分析方法及装置 |
CN107169024A (zh) * | 2017-04-11 | 2017-09-15 | 微梦创科网络科技(中国)有限公司 | 一种兼容型的业务系统及业务实现方法 |
CN109039737A (zh) * | 2018-07-31 | 2018-12-18 | 深圳市诺信连接科技有限责任公司 | 一种网站运营管理系统 |
CN109246070A (zh) * | 2018-06-28 | 2019-01-18 | 中译语通科技股份有限公司 | 一种反数据爬取的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040025055A1 (en) * | 2002-07-31 | 2004-02-05 | Hewlett-Packard Development Company, L.P. | Online recognition of robots |
CN101561814A (zh) * | 2009-05-08 | 2009-10-21 | 华中科技大学 | 基于社会标注的主题爬虫系统 |
US20110055400A1 (en) * | 2009-08-25 | 2011-03-03 | Vizibility Inc. | Systems and methods of handling internet spiders |
CN102185858A (zh) * | 2011-05-06 | 2011-09-14 | 山东中创软件商用中间件股份有限公司 | 一种应用于应用层的web入侵防御方法及系统 |
CN102495861A (zh) * | 2011-11-24 | 2012-06-13 | 中国科学院计算技术研究所 | 一种网络爬虫识别系统及方法 |
CN102609460A (zh) * | 2012-01-13 | 2012-07-25 | 中国科学院计算技术研究所 | 微博客数据采集方法及系统 |
-
2012
- 2012-09-21 CN CN201210356892.XA patent/CN102880698B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040025055A1 (en) * | 2002-07-31 | 2004-02-05 | Hewlett-Packard Development Company, L.P. | Online recognition of robots |
CN101561814A (zh) * | 2009-05-08 | 2009-10-21 | 华中科技大学 | 基于社会标注的主题爬虫系统 |
US20110055400A1 (en) * | 2009-08-25 | 2011-03-03 | Vizibility Inc. | Systems and methods of handling internet spiders |
CN102185858A (zh) * | 2011-05-06 | 2011-09-14 | 山东中创软件商用中间件股份有限公司 | 一种应用于应用层的web入侵防御方法及系统 |
CN102495861A (zh) * | 2011-11-24 | 2012-06-13 | 中国科学院计算技术研究所 | 一种网络爬虫识别系统及方法 |
CN102609460A (zh) * | 2012-01-13 | 2012-07-25 | 中国科学院计算技术研究所 | 微博客数据采集方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104378361A (zh) * | 2014-10-24 | 2015-02-25 | 苏州阔地网络科技有限公司 | 一种网络入侵检测方法及系统 |
CN106202108A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 网络爬虫抓取任务分配方法与装置及数据抓取方法与装置 |
CN106897296A (zh) * | 2015-12-17 | 2017-06-27 | 北京国双科技有限公司 | 网站屏幕分辨率兼容性的分析方法及装置 |
CN106897296B (zh) * | 2015-12-17 | 2019-12-24 | 北京国双科技有限公司 | 网站屏幕分辨率兼容性的分析方法及装置 |
CN107169024A (zh) * | 2017-04-11 | 2017-09-15 | 微梦创科网络科技(中国)有限公司 | 一种兼容型的业务系统及业务实现方法 |
CN109246070A (zh) * | 2018-06-28 | 2019-01-18 | 中译语通科技股份有限公司 | 一种反数据爬取的方法 |
CN109246070B (zh) * | 2018-06-28 | 2021-04-30 | 中译语通科技股份有限公司 | 一种反数据爬取的方法 |
CN109039737A (zh) * | 2018-07-31 | 2018-12-18 | 深圳市诺信连接科技有限责任公司 | 一种网站运营管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102880698B (zh) | 2015-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102880698A (zh) | 一种抓取网站确定方法及装置 | |
CN103095681B (zh) | 一种检测漏洞的方法及装置 | |
KR100848319B1 (ko) | 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치 | |
CN105100003B (zh) | 一种客户端的网页游戏预加载方法及装置 | |
US20150032504A1 (en) | Influence scores for social media profiles | |
CN107391775A (zh) | 一种通用的网络爬虫模型实现方法及系统 | |
CN104881273B (zh) | 一种网页渲染的分析方法和终端设备 | |
CN108491420A (zh) | 网页爬取的配置方法、应用服务器及计算机可读存储介质 | |
CN102446171A (zh) | 基于加权平均点进率评测推广关键词质量度的方法与设备 | |
CN103701779B (zh) | 一种二次访问网站的方法、装置及防火墙设备 | |
CN106326342B (zh) | 页面流量数据的上报方法及装置、电子设备 | |
US20120166412A1 (en) | Super-clustering for efficient information extraction | |
WO2020155765A1 (zh) | 移动终端爬取数据的方法、装置、移动终端和存储介质 | |
CN103984743A (zh) | 一种管理内存资源的方法及装置 | |
CN114095567A (zh) | 数据访问请求的处理方法、装置、计算机设备及介质 | |
CN112800311A (zh) | 一种浏览器页面数据采集方法、终端设备及存储介质 | |
CN109522501A (zh) | 页面内容管理方法及其装置 | |
CN107241300A (zh) | 用户请求的拦截方法和装置 | |
US9336316B2 (en) | Image URL-based junk detection | |
CN105825044A (zh) | 基于网页浏览的医疗大数据分析及处理系统及方法 | |
CN104967698A (zh) | 一种爬取网络数据的方法和装置 | |
CN103780592A (zh) | 一种用户账号被盗确定方法及装置 | |
CN108287831B (zh) | 一种url分类方法和系统、数据处理方法和系统 | |
CN113495825A (zh) | 线路告警的处理方法、装置、电子设备及可读存储介质 | |
CN111125704A (zh) | 一种网页挂马识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230412 Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193 Patentee after: Sina Technology (China) Co.,Ltd. Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor Patentee before: Sina.com Technology (China) Co.,Ltd. |
|
TR01 | Transfer of patent right |