CN105992194B - 网络数据内容的获取方法及装置 - Google Patents

网络数据内容的获取方法及装置 Download PDF

Info

Publication number
CN105992194B
CN105992194B CN201510051470.5A CN201510051470A CN105992194B CN 105992194 B CN105992194 B CN 105992194B CN 201510051470 A CN201510051470 A CN 201510051470A CN 105992194 B CN105992194 B CN 105992194B
Authority
CN
China
Prior art keywords
task
network
address
terminal device
data content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510051470.5A
Other languages
English (en)
Other versions
CN105992194A (zh
Inventor
蔡文凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510051470.5A priority Critical patent/CN105992194B/zh
Publication of CN105992194A publication Critical patent/CN105992194A/zh
Application granted granted Critical
Publication of CN105992194B publication Critical patent/CN105992194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了网络数据内容的获取方法及装置,其中所述方法包括:客户端接收任务系统下发的获取网络数据内容的任务;所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,移动终端设备通过移动通信网络接入互联网;利用移动通信网络为移动终端设备分配的网络互连协议IP地址执行所述任务;在执行所述任务的过程中,断开移动终端设备与移动通信网络的连接,并重新与移动通信网络进行连接,以便将由移动通信网络为移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务,通过该方法可以降低触发目标站点检测规则的可能性,提高获取网络数据内容的方法的有效性和可持续性。

Description

网络数据内容的获取方法及装置
技术领域
本申请涉及网络数据处理技术领域,特别是涉及网络数据内容的获取方法及装置。
背景技术
随着计算机技术的发展以及互联网的广泛普及,越来越多的用户通过互联网获取各种信息,使用各种互联网服务。同时,通过互联网所能够提供的信息以及服务已经深入到了人们工作生活的方方面面,在诸多领域为人们提供着各种便利。在某些领域的互联网服务中,为了掌握一些实时变化的内容,需要及时的对特定的网络数据内容进行访问和获取。例如,对于提供新闻内容的互联网服务站点,由于对所提供的新闻内容有较高的实时性要求,即需要及时准确地提供发生的新闻内容,基于提高新闻实时性和全面性等目的,一些综合新闻平台会访问其他站点,获取和引用其他站点提供的实时新闻内容。又如,在价格服务类网站中,需要将同一商品在不同电商平台的实时价格提供给用户,方便用户对同一商品在不同平台的价格进行比较,这就需要价格服务站点访问多个电商平台的目标商品页面,并对页面中目标商品的价格进行抓取。由于电商平台中包含的商品数量众多且价格常常变化,因此,同一数据需求方经常需要频繁地对同一站点下的多个页面进行访问,才能进行实时数据内容抓取。
但是,一些站点出于安全因素的考虑,例如,为了防止DoS攻击,站点中会预置一定的安全规则来判定和阻止具有特定特征的访问行为,例如同一源地址的在短时间内过高频度的访问行为。一旦被判定为恶意访问,访问方对应的源地址可能会被目标站点暂时或永久阻止。在合法访问目标站点获取网络数据内容的过程中,通常在一定的时间周期内,需要获取多个页面或者多个业务对象的数据内容,但多数情况下,访问方并不能预先获知目标站点的规则设置,什么样的访问行为对于目标站点来说是非法的。对于访问方来说是合法访问的行为,也可能会触发目标站点的安全规则而导致访问方被屏蔽。而一旦被目标站点阻止,则在目标站点进行数据内容获取的作业就会被中断,从而影响相应服务的提供。
为了避免对目标站点的合法访问被屏蔽,现有技术中,可以根据访问方和受访问方之间的合作协议,在具有合作关系的目标站点中预置白名单,并将访问方的地址加入到该白名单中。但对于不具备合作关系的目标站点,合法的访问仍然可能意外触发其严厉的安全规则而导致被屏蔽。因而,需要本领域技术人员解决的问题就在于,如何降低在目标站点中获取数据内容的过程中被意外屏蔽的风险,提高网络数据内容的获取方法的有效性和可持续性。
发明内容
本申请提供了网络数据内容的获取方法及装置,通过该方法,可以在获取网络数据内容的过程中,降低触发目标站点检测规则的可能性,提高获取网络数据内容的方法的有效性和可持续性。
本申请提供了如下方案:
一种网络数据内容的获取方法,包括:
客户端接收任务系统下发的获取网络数据内容的任务;所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网;
利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务;
在执行所述任务的过程中,断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务。
一种网络数据内容的获取方法,包括:
任务系统服务器向各个客户端下发获取网络数据内容的任务,所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网,以便所述客户端在收到所述任务后,利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务,并在执行所述任务的过程中,断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务;
接收所述客户端返回的抓取结果。
一种网络数据内容的获取装置,包括:
任务接收单元,用于收任务系统下发的获取网络数据内容的任务;所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网;
任务执行单元,用于利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务;
移动网络连接控制单元,用于在执行所述任务的过程中,断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务。
一种网络数据内容的获取装置,包括:
任务下发单元,用于向各个客户端下发获取网络数据内容的任务,所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网,以便所述客户端在收到所述任务后,利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务,并在执行所述任务的过程中,断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务;
抓取结果接收单元,用于接收所述客户端返回的抓取结果。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请,可以在客户端接收任务系统下发的获取网络数据内容的任务后,通过移动通信网络对目标网页的网络数据内容的抓取,在抓取的过程中,可以断开并重新连接移动终端设备的移动通信网络连接,以便移动终端设备快速地重新在移动通信网络中获取新的IP地址,实现了相对快速的动态IP地址的切换,进而使用重新获取的IP地址,通过移动通信网络继续剩余任务,从而降低了同一IP地址访问目标站点的频率,在获取网络数据内容的过程中,降低意外触发目标站点检测规则的可能性,降低被目标站点意外屏蔽的风险,提高获取网络数据内容的方法的有效性和可持续性。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的网络数据内容的获取方法的流程图;
图2是本申请实施例提供的另一网络数据内容的获取方法的流程图;
图3是本申请实施例提供的网络数据内容的获取装置的示意图;
图4是本申请实施例提供的另一网络数据内容的获取装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
为了获取网络数据内容,特别是频繁变化的实时数据内容,更好的满足大量用户的信息查询、阅览等需求,抓取作业需要频繁的访问特定站点,而部分合法的访问可能会触发某些站点的安全规则,而导致访问被暂时甚至永久禁止,一旦访问被屏蔽或禁止,则相应的信息服务的提供就会受到影响。为了避免或降低在目标站点中获取数据内容的过程中被屏蔽的风险,提高网络数据内容的获取的有效性和可持续性,本申请实施例一从客户端的角度,提供了一种网络数据内容的获取方法,如图1所示,其为本申请实施例提供的网络数据内容的获取方法的流程图,该方法可以包括一下步骤:
S101:客户端接收任务系统下发的获取网络数据内容的任务;所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网;
对网络数据内容进行获取,通常需要一定的客户端来执行,在本申请实施例中,客户端可以预置于移动终端设备中,同时,移动终端设备能够通过移动通信网络接入互联网,例如,可以客户端可以预置于能够接入移动通信网络的手机、便携式平板电脑等设备中。通过预置于移动终端设备中的客户端,接收任务系统下发的获取网络数据内容的任务。客户端可以是运行于移动终端设备的代理应用程序,用来实现接收和处理网络数据内容抓取等任务,还可以进行移动终端设备中的相关资源的调用控制等。
通常情况下,一次获取网络数据内容的任务的对象可以是多个目标页面的目标网址,目标页面的目标网址可以是页面的统一资源定位符url,抓取任务的目标网址,可以作为任务内容由任务系统下发到客户端中,并有客户端接收。任务中最基本的可以包括要从中获取网络数据内容的多个目标网址。当然还可以有其他的特定数据,例如,特定的标识符,标明目标网址在抓取时代任务参数等。例如,可以通过标识符指定目标网址的抓取任务是一次性的,还是或重复若干次直至成功获取内容;任务中需要访问多个目标网址时的访问间隔时间等等参数。
S102:利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务;
客户端接收任务系统下发的获取网络数据内容的任务后,可以根据任务内容,对多个目标网址的特定内容进行抓取。对目标网址的对应的网络数据内容的抓取,可以通过移动终端设备所接入的移动通信网络进行。
客户端在接收到获取网络数据内容的任务后,或者在准备执行获取网络数据内容的任务前,可以对移动终端设备的联网状态进行检测,检测移动终端设备是否处于仅通过移动通信网络接入,并在判断移动终端设备仅通过移动通信网络接入的情况下,再开始执行获取目标网址对应的网络数据内容的任务。这是因为,在移动终端设备中,当同时存在多种接入网络的方式,例如,当同时可以通过Wi-Fi,以及移动通信网络接入互联网时,多数设备以及设备中的应用会首选通过Wi-Fi连接的方式访问互联网数据,而本申请实施例是希望客户端通过移动通信网络获取目标网页的网络数据内容,所以,可以首先对终端设备的互联网接入方式进行检测,当同时存在多种接入方式时,可以关闭其他的接入方式而仅保留通过移动通信网络接入的网络连接方式,或者发出通知消息供相关用户参考。
之所以通过移动通信网络进行网络数据内容的抓取,这是因为发明人在实施本申请实施例的过程中发现,目标站点的检测机制多是基于IP地址检测的,即同一IP地址的访问如果超过一定的频度,则判定为非法访问。为避免或降低被目标站点屏蔽的风险,提高网络数据内容的获取的有效性和可持续性,一种方式是,作为访问方可以使用动态IP对目标站点进行访问。而访问方的IP地址通常是由网络服务提供商ISP分配的,获取动态IP地址的一种方式是使用拨号设备,每次进行一定数量的访问后即断开网络,然后连接重新拨号以便重新获取新的IP地址,从而实现了一种动态IP的获取。然而,在这种实现方式下,通常需要配备多条接入线路,且需要投入多套用于接入网络的硬件设备,以及需要开发相应网络管理软件,投入成本过高,同时,由于在传统的拨号网络中断开网络重新连接相对耗时,导致IP转换效率较低,无法满足特定服务中较高的实时性需求。
在移动终端设备中,互联网访问可以通过移动通信网络连接来进行,而且,移动终端设备的在移动通信网络中获取IP地址的速度相对较快,同样,相比较上述动态IP地址获取方式,移动终端设备在与移动通信网络断开后进行重新连接时,获取新的IP地址的速度也相对较快,因而,在接入移动通信网络的移动终端设备中实现动态IP地址的切换,能够获得更高的地址切换效率。因此,在本申请实施例中,在执行任务系统下发的获取网络数据内容的任务时,可以通过移动终端设备接入的移动通信网络,访问目标站点的目标网址,并且在执行任务的过程中,对预置的触发事件进行监听或检测,一旦检测到特定的触发事件,则进行移动通信网络的重新连接,来实现动态IP地址的快速切换,待切换成功后,继续执行剩余任务,从而可以利用在移动通信网络中的动态IP地址的快速切换,以提高任务的执行效率以及信息获取的实时性,同时,避免或降低可在目标站点中获取数据内容的过程中被屏蔽的风险,更好的满足网络信息内容获取的有效性和可持续性。
在进行获取网络数据内容的任务时,通常一次任务中会包括多个目标网页的目标网址,即客户端需要对任务中的多个目标网页中的网络数据内容进行批量抓取,为了避免被站点意外阻止,可以对预置的触发事件进行检测,在发生预置的触发事件时,及时的切换在移动网络中的IP地址,以不同的IP地址继续执行剩余的访问任务。其中的一种实现方式是,预置的触发事件可以是使用同一IP地址访问目标网址的数量达到预置的阈值。具体实现时,可以对使用同一IP地址访问的目标网址数量进行统计,判定目标网址数量是否达到预置的第一阈值,如果是,则确定发生触发事件,例如,可以在使用同一IP地址进行任务时,定义一计数器,对使用该IP地址访问的目标网址数量进行计数,当计数达到特定值,则确定发生触发事件。另外还可以在使用当前IP进行任务时,对属于同一站点的目标网址的数量进行统计,当任意属于同一站点的目标网址达到预置的数量,则确定发生触发事件,即对使用同一IP地址访问的各个目标网址中,属于同一站点的目标网址的数量进行统计,进而判断属于同一站点的目标网址的数量是否达到预置的第二阈值,如果是,则确定发生触发事件。
S103:在执行所述任务的过程中,断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务。
在执行获取网络数据内容的任务的过程中,可以通过断开所述移动终端设备与所述移动通信网络的连接,并重新连接的方式,改变移动终端设备的IP地址,从而使得客户端可以继续执行剩余的任务。在具体实现时,断开并重新建立连接这一操作可以通过一定的事件进行触发,例如,如步骤S102中所述,如果检测到预置触发事件的发生,例如,使用同一IP访问了同一站点的预置数量的网址,则断开移动终端设备与移动通信网络的链接,并将移动终端设备与移动通信网络重新连接,以使移动通信设备通过移动通信网络获取新的IP地址,进而使用重新分配的IP地址继续执行剩余的任务。重复这一过程,即重复检测预置触发事件,重新连接网络,继续执行任务的过程,直至本次获取网络数据内容的任务全部完成。由于在一定的时间周期内,使用同一IP地址仅访问了目标站点的有限个目标页面,降低了同一IP地址访问目标站点的频率,从而降低了意外触发目标站点检测规则而遭到屏蔽的可能性,提高了获取网络数据内容的可持续性。
另外,在终端设备在进行移动通信网络中的IP地址切换的过程中,可以在移动终端设备重新接入移动通信网络后,检测重新被分配的IP地址是否与上一次相同;如果相同,则再次断开移动通信设备与移动通信网络的连接,并重新与移动通信网络进行连接,直至在接入后被分配了与上一次接入时不同的IP地址。以保证经过IP地址切换后,终端设备在移动通信网络中得到了不同的IP地址,保证IP地址切换到有效性。
在获取目标网页中的网络数据内容时,目标数据内容可以是目标页面的全部内容,也可以是根据预置的规则提取的目标页面中特定的数据内容,在获取到目标数据内容后,客户端可以将获取到的数据内容回传到任务系统,以便任务系统对所抓取到的目标数据内容进行调用。根据具体应用需求的不同,将目标数据内容回传给任务系统的方式可以有多种。
根据具体连接方式的不同,目标数据内容的回传可以通过有线传输,或者网络传输等方式实现。在移动终端设备与任务系统所在的设备通过有线的方式连接的情况下,可以将所抓取到的目标数据内容,通过两者的有线连接,同步或异步地回传给任务系统,例如,当终端设备通过USB接口等方式与主机或服务器中的任务系统进行连接时,可以通过USB有线连接的方式,将获取的目标数据内容的回传给任务系统。当终端设备以及任务系统的宿主机都可以接入到互联网中时,客户端可以通过网络链接,如移动通信网络,将将获取的目标数据内容的同步或者异步地回传给任务系统。根据实时性等需求的不同,所获取到的目标数据内容,还可以选择同步或异步的方式回传到任务系统,例如,当信息服务具有较高的实时性需求时,可以在获取到一个或少数几个目标页面的网络数据内容后,即同步回传给任务系统;当实时性需求不高时,还可以采用异步回传的方式,例如,可以在客户端全部完成本次获取网络数据内容的任务后,才将本次任务所获取到的全部目标数据内容一次性的回传给任务系统。特别的,由于客户端通过移动通信网络接入互联网时,常常会根据网络流量进行计费,出于节约资费的考虑,当客户端进行目标数据内容的回传时,可以打开无线保真Wi-Fi连接以接入互联网,在通过Wi-Fi方式连接到互联网的情况下,将所抓取到的目标数据内容,通过Wi-Fi连接异步地回传给任务系统。
以上对本申请实施例提供的网络数据内容的获取方法进行了详细的介绍,通过该方法,可以在客户端接收任务系统下发的获取网络数据内容的任务后,通过移动通信网络对目标网页的网络数据内容的抓取,并在检测到预置的触发事件后,例如检测到使用同一IP地址在同一站点中访问了一定数量的目标网址后,断开并重新连接移动终端设备的移动通信网络连接,以便移动终端设备快速地重新在移动通信网络中获取新的IP地址,实现了相对快速的动态IP地址的切换,进而使用重新获取的IP地址,通过移动通信网络继续剩余任务,从而降低了同一IP地址访问目标站点的频率,降低了意外触发目标站点检测规则的可能性,降低被目标站点意外屏蔽的风险,提高了获取网络数据内容的方法的有效性和可持续性。
实施例二
以上实施例一从客户端的角度对本申请实施例提供的技术方案进行了介绍,该实施例二从服务器的角度提供了一种网络数据内容的获取方法,参见图2,该方法可以包括以下步骤:
S201:任务系统服务器向各个客户端下发获取网络数据内容的任务,所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网,以便所述客户端在收到所述任务后,利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务,并在执行所述任务的过程中,断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务;
S202:接收所述客户端返回的抓取结果。
需要说明的是,该实施例二与实施例一是相对应的,相关的技术实现可以参见实施例一中的介绍,这里不再赘述。
与本申请实施例一提供的网络数据内容的获取方法相对应,还提供了网络数据内容的获取装置,如图3所示,为本申请实施例提供的网络数据内容的获取装置的示意图,该装置可以包括:
任务接收单元301,用于收任务系统下发的获取网络数据内容的任务;任务中包括多个目标网页的目标网址;客户端预置于移动终端设备中,移动终端设备通过移动通信网络接入互联网;
任务执行单元302,用于利用移动通信网络为移动终端设备分配的网络互连协议IP地址执行所述任务;
移动网络连接控制单元303,用于在执行所述任务的过程中,断开移动终端设备与移动通信网络的连接,并重新与移动通信网络进行连接,以便将由移动通信网络为移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务。
另外,该装置还可以包括:
运行事件检测单元,用于断开所述移动终端设备与所述移动通信网络的连接之前,对预置的触发事件进行检测;
触发单元,用于当检测到所述触发事件发生时,触发执行所述断开所述移动终端设备与所述移动通信网络的连接及其后续操作。
其中,具体实现时,运行事件检测单元可以包括:
第一数量统计子单元,用于对使用同一IP地址访问的目标网址数量进行统计;
第一事件确定子单元,用于判断目标网址数量是否达到预置的第一阈值,如果是,则确定发生触发事件。
在另一种实现方式下,运行事件检测单元可以包括:
第二数量统计子单元,用于对使用同一IP地址访问的各个目标网址中,属于同一站点的目标网址的数量进行统计;
第二事件确定子单元,用于判断属于同一站点的目标网址的数量是否达到预置的第二阈值,如果是,则确定发生触发事件。
为了保证该装置使用移动通信网络进行网络连接,该网络数据内容的获取装置还可以包括:
接入方式检测单元,用于在接收到任务后,检测终端设备的网络接入方式;
接入方式控制单元,用于若同时存在包括移动通信网络接入的多种接入方式,关闭其他接入方式而仅保留通过移动通信网络接入的方式。
为了保证重新被分配的IP地址与重新进行连接之前的IP地址不同,该网络数据内容的获取装置还可以包括:
移动网络地址检测单元,用于在重新接入移动通信网络后,检测重新被分配的IP地址是否与上一次相同;
网络再连接单元,用于如果相同,则再次断开与移动通信网络的连接,并重新与移动通信网络进行连接,直至在接入后被分配了与上一次接入时相异的IP地址。
此外,该网络数据内容的获取装置还可以包括:
数据内容回传单元,用于将所抓取到的目标数据内容,回传给任务系统,以便任务系统对所抓取到的目标数据内容进行调用。
为了便于在不进行网络连接方式切换的状态下传输数据,数据内容回传单元可以包括:
第一数据内容回传子单元,用于通过移动通信网络,将所抓取到的目标数据内容,同步或异步地回传给任务系统。
出于节约移动网络使用流量的考虑,数据回传可以通过Wi-Fi进行,数据内容回传单元可以包括:
第二数据内容回传子单元,用于在移动终端设备通过无线保真Wi-Fi方式连接到互联网的情况下,将所抓取到的目标数据内容,异步地回传给任务系统。
在移动终端设备与任务系统宿主机之间的通过有线连接联通的情况下,数据内容回传单元可以包括:
第三数据内容回传子单元,用于在移动终端设备与任务系统所在的设备通过有线的方式连接的情况下,将所抓取到的目标数据内容,通过移动终端设备与任务系统宿主机之间的有线连接,同步或异步地回传给任务系统。
与本申请实施例二提供的网络数据内容的获取方法相对应,本申请实施例还提供了一种网络数据内容的获取装置,参见图4,该装置具体可以包括:
任务下发单元401,用于向各个客户端下发获取网络数据内容的任务,所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网,以便所述客户端在收到所述任务后,利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务,并在执行所述任务的过程中,断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务;
抓取结果接收单元402,用于接收所述客户端返回的抓取结果。
以上对本申请实施例提供的网络数据内容的获取装置进行了详细的介绍,通过该装置,可以在客户端接收任务系统下发的获取网络数据内容的任务后,通过移动通信网络对目标网页的网络数据内容的抓取,并在检测到预置的触发事件后,例如检测到使用同一IP地址在同一站点中访问了一定数量的目标网址后,断开并重新连接移动终端设备的移动通信网络连接,以便移动终端设备快速地重新在移动通信网络中获取新的IP地址,实现了相对快速的动态IP地址的切换,进而使用重新获取的IP地址,通过移动通信网络继续剩余任务,从而降低了同一IP地址访问目标站点的频率,降低了意外触发目标站点检测规则的可能性,降低被目标站点意外屏蔽的风险,提高了获取网络数据内容的方法的有效性和可持续性。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的网络数据内容的获取方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (22)

1.一种网络数据内容的获取方法,其特征在于,包括:
客户端接收任务系统下发的获取网络数据内容的任务;所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网;
利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务;
在执行所述任务的过程中,若发生预置的触发事件,则断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务。
2.根据权利要求1所述的方法,其特征在于,所述断开所述移动终端设备与所述移动通信网络的连接之前,还包括:
对所述预置的触发事件进行检测;
当检测到所述触发事件发生时,触发执行所述断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接。
3.根据权利要求2所述的方法,其特征在于,所述对预置的触发事件进行检测,包括:
对使用同一IP地址访问的目标网址数量进行统计;
判断所述目标网址数量是否达到预置的第一阈值,如果是,则确定发生所述触发事件。
4.根据权利要求2所述的方法,其特征在于,所述对预置的触发事件进行检测,包括:
对使用同一IP地址访问的各个目标网址中,属于同一站点的目标网址的数量进行统计;
判断所述属于同一站点的目标网址的数量是否达到预置的第二阈值,如果是,则确定发生所述触发事件。
5.根据权利要求1所述的方法,其特征在于,还包括:
在接收到所述任务后,检测所述终端设备的网络接入方式;
若同时存在包括移动通信网络接入的多种接入方式,则关闭其他接入方式而仅保留通过移动通信网络接入的方式。
6.根据权利要求1所述的方法,其特征在于,还包括:
在重新接入移动通信网络后,检测重新被分配的IP地址是否与上一次相同;
如果相同,则再次断开与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,直至在接入后被分配了与上一次接入时相异的IP地址。
7.根据权利要求1所述的方法,其特征在于,还包括:
将所抓取到的目标数据内容,回传给所述任务系统,以便所述任务系统对所抓取到的目标数据内容进行调用。
8.根据权利要求7所述的方法,其特征在于,所述将所抓取到的目标数据内容,回传给所述任务系统,包括:
通过所述移动通信网络,将所抓取到的目标数据内容,同步或异步地回传给所述任务系统。
9.根据权利要求7所述的方法,其特征在于,所述将所抓取到的目标数据内容,回传给所述任务系统,包括:
在所述移动终端设备通过无线保真Wi-Fi方式连接到互联网的情况下,将所抓取到的目标数据内容,异步地回传给所述任务系统。
10.根据权利要求7所述的方法,其特征在于,所述将所抓取到的目标数据内容,回传给所述任务系统,包括:
在所述移动终端设备与所述任务系统所在的设备通过有线的方式连接的情况下,将所抓取到的目标数据内容,通过移动终端设备与所述任务系统宿主机之间的有线连接,同步或异步地回传给所述任务系统。
11.一种网络数据内容的获取方法,其特征在于,包括:
任务系统服务器向各个客户端下发获取网络数据内容的任务,所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网,以便所述客户端在收到所述任务后,利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务,并在执行所述任务的过程中,若发生预置的触发事件,则断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务;
接收所述客户端返回的抓取结果。
12.一种网络数据内容的获取装置,其特征在于,包括:
任务接收单元,用于收任务系统下发的获取网络数据内容的任务;所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网;
任务执行单元,用于利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务;
移动网络连接控制单元,用于在执行所述任务的过程中,若发生预置的触发事件,则断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务。
13.根据权利要求12所述的装置,其特征在于,还包括:
运行事件检测单元,用于断开所述移动终端设备与所述移动通信网络的连接之前,对所述预置的触发事件进行检测;
触发单元,用于当检测到所述触发事件发生时,触发执行所述断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接。
14.根据权利要求13所述的装置,其特征在于,所述运行事件检测单元,包括:
第一数量统计子单元,用于对使用同一IP地址访问的目标网址数量进行统计;
第一事件确定子单元,用于判断所述目标网址数量是否达到预置的第一阈值,如果是,则确定发生所述触发事件。
15.根据权利要求13所述的装置,其特征在于,所述运行事件检测单元,包括:
第二数量统计子单元,用于对使用同一IP地址访问的各个目标网址中,属于同一站点的目标网址的数量进行统计;
第二事件确定子单元,用于判断所述属于同一站点的目标网址的数量是否达到预置的第二阈值,如果是,则确定发生所述触发事件。
16.根据权利要求12所述的装置,其特征在于,还包括:
接入方式检测单元,用于在接收到所述任务后,检测所述终端设备的网络接入方式;
接入方式控制单元,用于若同时存在包括移动通信网络接入的多种接入方式,关闭其他接入方式而仅保留通过移动通信网络接入的方式。
17.根据权利要求12所述的装置,其特征在于,还包括:
移动网络地址检测单元,用于在重新接入移动通信网络后,检测重新被分配的IP地址是否与上一次相同;
网络再连接单元,用于如果相同,则再次断开与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,直至在接入后被分配了与上一次接入时相异的IP地址。
18.根据权利要求12所述的装置,其特征在于,还包括:
数据内容回传单元,用于将所抓取到的目标数据内容,回传给所述任务系统,以便所述任务系统对所抓取到的目标数据内容进行调用。
19.根据权利要求18所述的装置,其特征在于,所述数据内容回传单元,包括:
第一数据内容回传子单元,用于通过所述移动通信网络,将所抓取到的目标数据内容,同步或异步地回传给所述任务系统。
20.根据权利要求18所述的装置,其特征在于,所述数据内容回传单元,包括:
第二数据内容回传子单元,用于在所述移动终端设备通过无线保真Wi-Fi方式连接到互联网的情况下,将所抓取到的目标数据内容,异步地回传给所述任务系统。
21.根据权利要求18所述的装置,其特征在于,所述数据内容回传单元,包括:
第三数据内容回传子单元,用于在所述移动终端设备与所述任务系统所在的设备通过有线的方式连接的情况下,将所抓取到的目标数据内容,通过移动终端设备与所述任务系统宿主机之间的有线连接,同步或异步地回传给所述任务系统。
22.一种网络数据内容的获取装置,其特征在于,包括:
任务下发单元,用于向各个客户端下发获取网络数据内容的任务,所述任务中包括多个目标网页的目标网址;所述客户端预置于移动终端设备中,所述移动终端设备通过移动通信网络接入互联网,以便所述客户端在收到所述任务后,利用所述移动通信网络为所述移动终端设备分配的网络互连协议IP地址执行所述任务,并在执行所述任务的过程中,若发生预置的触发事件,则断开所述移动终端设备与所述移动通信网络的连接,并重新与所述移动通信网络进行连接,以便将由所述移动通信网络为所述移动终端设备分配新的IP地址,利用新的IP地址继续执行剩余任务;
抓取结果接收单元,用于接收所述客户端返回的抓取结果。
CN201510051470.5A 2015-01-30 2015-01-30 网络数据内容的获取方法及装置 Active CN105992194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510051470.5A CN105992194B (zh) 2015-01-30 2015-01-30 网络数据内容的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510051470.5A CN105992194B (zh) 2015-01-30 2015-01-30 网络数据内容的获取方法及装置

Publications (2)

Publication Number Publication Date
CN105992194A CN105992194A (zh) 2016-10-05
CN105992194B true CN105992194B (zh) 2019-10-29

Family

ID=57037209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510051470.5A Active CN105992194B (zh) 2015-01-30 2015-01-30 网络数据内容的获取方法及装置

Country Status (1)

Country Link
CN (1) CN105992194B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309403B (zh) * 2018-03-05 2022-11-04 百度在线网络技术(北京)有限公司 用于抓取数据的方法和装置
CN114140082B (zh) * 2021-12-02 2022-08-05 网娱互动科技(北京)股份有限公司 企业内容管理系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404741A (zh) * 2011-11-30 2012-04-04 中国联合网络通信集团有限公司 移动终端上网异常检测方法和装置
CN103139184A (zh) * 2011-12-02 2013-06-05 中国电信股份有限公司 智能网络防火墙设备及网络攻击防护方法
CN103379099A (zh) * 2012-04-19 2013-10-30 阿里巴巴集团控股有限公司 恶意攻击识别方法及系统
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103581910A (zh) * 2012-07-31 2014-02-12 西门子公司 一种用于追踪移动用户的方法和装置
CN104092660A (zh) * 2014-06-09 2014-10-08 武汉传神信息技术有限公司 一种访问网络站点的方法
CN104092698A (zh) * 2014-07-21 2014-10-08 北京网秦天下科技有限公司 对网络资源的访问控制方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725452B1 (en) * 2003-07-03 2010-05-25 Google Inc. Scheduler for search engine crawler
US9258289B2 (en) * 2013-04-29 2016-02-09 Arbor Networks Authentication of IP source addresses

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404741A (zh) * 2011-11-30 2012-04-04 中国联合网络通信集团有限公司 移动终端上网异常检测方法和装置
CN103139184A (zh) * 2011-12-02 2013-06-05 中国电信股份有限公司 智能网络防火墙设备及网络攻击防护方法
CN103379099A (zh) * 2012-04-19 2013-10-30 阿里巴巴集团控股有限公司 恶意攻击识别方法及系统
CN103581910A (zh) * 2012-07-31 2014-02-12 西门子公司 一种用于追踪移动用户的方法和装置
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104092660A (zh) * 2014-06-09 2014-10-08 武汉传神信息技术有限公司 一种访问网络站点的方法
CN104092698A (zh) * 2014-07-21 2014-10-08 北京网秦天下科技有限公司 对网络资源的访问控制方法及装置

Also Published As

Publication number Publication date
CN105992194A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN107645478B (zh) 网络攻击防御系统、方法及装置
CN105550051B (zh) 业务请求的异步处理方法及装置
CN102402620A (zh) 一种恶意网页防御方法和系统
CN104410546B (zh) 实时处理系统的测试方法和装置
CN103490981B (zh) 一种跨移动应用的消息推送方法和装置
CN106341373B (zh) 用于检测和阻止恶意点击广告链接的方法和装置
CN103136255B (zh) 信息管理的方法和装置
CN101631136A (zh) 交互广告的实现方法、系统、终端设备和广告客户端
CN104142975B (zh) 一种基于微博消息的推广方法、装置及系统
CN103973635B (zh) 页面访问控制方法和相关装置及系统
CN107484190B (zh) 网络连接方法、移动终端及计算机可读存储介质
CN103685423A (zh) 一种信息接收的方法、装置及系统
CN106096450A (zh) 一种应用程序冻结方法及移动终端
CN106210153A (zh) 一种资源信息的推送方法、系统及其电子设备
CN105992194B (zh) 网络数据内容的获取方法及装置
CN107862091A (zh) 实现网页访问的控制方法及装置
CN106161389B (zh) 一种作弊识别方法、装置及终端
CN104092660A (zh) 一种访问网络站点的方法
CN103605549A (zh) 一种界面退出展示方法及装置
CN115641180A (zh) 一种请求处理的方法、相关装置及设备
CN117040799A (zh) 页面拦截规则生成、页面访问控制方法、装置及电子设备
EP2701068B1 (en) Network access system
CN102243738A (zh) 一种安全支付的系统及方法
CN110300062B (zh) 风控实现方法和系统
CN104346228A (zh) 共享应用程序的方法及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1229601

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant