CN107291824A - 数据抓取方法及装置 - Google Patents
数据抓取方法及装置 Download PDFInfo
- Publication number
- CN107291824A CN107291824A CN201710381081.8A CN201710381081A CN107291824A CN 107291824 A CN107291824 A CN 107291824A CN 201710381081 A CN201710381081 A CN 201710381081A CN 107291824 A CN107291824 A CN 107291824A
- Authority
- CN
- China
- Prior art keywords
- url
- captured
- crawl
- server
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种数据抓取方法及装置,涉及网络应用技术领域。其中,在本发明实施例中,基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;利用所述更新内容更新所述URL模板,生成待抓取URL;推送所述待抓取URL至抓取服务器;触发所述抓取服务器抓取所述待抓取URL对应的网络数据。本发明实施例提供的技术方案,提高数据抓取有效性及准确度。
Description
技术领域
本发明实施例涉及网络应用技术领域,尤其涉及一种数据抓取方法及装置。
背景技术
数据抓取是目前从互联网中获取信息的一种基本方式。
现有技术中的数据抓取方式,通常是利用网络爬虫进行爬取,网络爬虫可以基于种子URL(Uniform Resource Locator,统一资源定位符)进行深入遍历抓取,但是抓取的URL和抓取内容均无法控制,因此会导致获得很多无效信息。
发明内容
本发明实施例提供一种数据抓取方法及装置,用以解决现有技术中数据抓取有效性及准确度低的技术问题。
第一方面,本发明实施例中提供了一种数据抓取方法,包括:
基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
利用所述更新内容更新所述URL模板,生成待抓取URL;
推送所述待抓取URL至抓取服务器;
触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
可选地,所述推送所述待抓取URL至抓取服务器包括:
推送一批第一数量的待抓取URL至所述抓取服务器;
针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,推送下一批第一数量的待抓取URL至所述抓取服务器。
可选地,所述方法还包括:
针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,推送下一批第一数量的待抓取URL至所述抓取服务器。
可选地,所述触发所述抓取服务器抓取所述待抓取URL对应的网络数据包括:
触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
所述方法还包括:
从所述网络存储空间获取所述网络数据。
可选地,所述从所述网络存储空间获取所述网络数据包括:
每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
第二方面,提供了一种数据抓取装置,包括:
确定模块,用于基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
生成模块,用于利用所述更新内容更新所述URL模板,生成待抓取URL;
推送模块,用于推送所述待抓取URL至抓取服务器;
抓取触发模块,用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
可选地,所述推送模块包括:
推送单元,用于推送一批第一数量的待抓取URL至所述抓取服务器;
第一判断单元,用于针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
可选地,所述推送模块还包括:
第二判断单元,用于针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
可选地,所述抓取触摸模块具体用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
所述装置还包括:
数据获取模块,用于从所述网络存储空间获取所述网络数据。
可选地,所述数据获取模块具体用于每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
本发明实施例中,可以根据参数生成规则,基于预配置的URL模板自动生成待抓取URL,使得待抓取URL根据实际抓取需求生成,针对性更强,抓取服务器仅抓取待抓取URL对应的网络数据,使得基于待抓取URL抓取的网络数据具有针对性,而不是盲目抓取的,从而提高了数据抓取准确度,获得有效的网络数据,避免抓取无效信息,还可以节省抓取资源,降低抓取的开发成本,提高抓取效率。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的一种数据抓取方法一个实施例流程图;
图2示出了本发明实施例提供的一种数据抓取方法又一个实施例流程图;
图3示出了本发明实施例提供的一种数据抓取装置一个实施例的结构示意图;
图4示出了本发明实施例提供的一种数据抓取装置又一个实施例的结构示意图;
图5示出了本发明实施例提供的一种电子装置一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
正如背景技术中所述,目前的数据抓取是利用网络爬虫进行爬取,适用于搜素引擎的信息获取。但是利用网络爬虫无法控制抓取的内容,导致获得很多无用信息,而实际应用中,存在很多针对性的数据分析需求,例如通过抓取某一平台业务涉及的网络数据,进行数据分析,以了解平台业务并相应进行改进等,而采用现有的数据抓取方式却无法准确获得想要的特定的网络数据。
发明人在研究中发现,为了提高数据抓取准确度,那么如何具有针对性、定向的进行数据抓取,以获得想要的网络数据即成为需要克服的技术问题。据此,发明人经过一系列思考提出了本发明实施例的技术方案,在本发明实施例中,可以预配置URL(UniformResource Locator,统一资源定位符)模板以及参数生成规则,基于URL模板以及参数生成规则,可以确定URL中的更新内容,利用更新内容即可以更新URL模板,获得可以进行网络搜索的待抓取URL,基于待抓取URL抓取的网络数据具有针对性,而不是盲目抓取的,从而提高了数据抓取准确度,获得有效的网络数据,避免抓取无效信息,避免了抓取资源的浪费,还可以降低抓取的开发成本,提高抓取效率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种数据抓取方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:基于URL模板对应的参数生成规则,确定更新内容。
从互联网中进行数据抓取时,均是基于URL进行。
本发明实施例中,URL模板以及参数生成规则可以预配置获得,URL模板可以根据待抓取的网络数据对应的数据源服务器进行配置获得。
其中,该参数生成规则中可以包括所述更新内容,当然,该参数生成规则可以用于生成所述更新内容,在下面实施例中会详细进行介绍。
其中,URL是互联网上标准资源的地址,互联网上的每个文件都有一个唯一的URL。一个文件对应一个页面,通过URL即可以获得其标识页面的网络数据。
一个基本的URL结构主要包括:协议(protocol)、服务器名称(hostname)、路径信息(path)、查询信息(query)等内容。其中,查询信息用于向服务端传递参数,在URL中可以以“?”符号引出,传递的多个参数可以通过“&”符号隔开。
URL模板中的至少部分内容可以基于参数生成规则生成。可选地,该参数生成规则生成可以用于生成URL模板中的路径信息和/或查询信息等,URL模板中可以预配置协议以及服务器名称等内容。
参数生产规则可以包括多个,可以用于确定不同更新内容;此外用于确定同一更新内容的参数生产规则也可以包括多个。可选地,URL模板对应的参数生成规则可以是基于用户选择操作确定的。
102:利用所述更新内容更新所述URL模板,生成待抓取URL。
可选地,参数生成规则中可以包括替换标识,从而所述利用所述更新参数更新URL模板,生成待抓取URL可以是:
利用所述更新内容替换所述URL模板中所述替换标识对应的替换内容,生成待抓取URL。
URL模板中可以以占位符信息来表示URL模板中的替换内容,例如@@XX@@即为占位符信息,表示其可以被更新内容替换,该占位符信息中标识的字段信息包括“XX”即为替换标识,可以用于标识更新内容。
举例说明,例如URL模板可以是:“http://esf.fang.com@@param@@”,其中,“@@param@@”为占位符信息,基于参数生成规则确定的更新内容为“/housing/1_1121_0_0_0_0_1_0_0/”是一条路径信息,参数生成规则中的替换标识为“param”,可知该更新内容用于替换URL模板中的“@@param@@”,则生成的待抓取URL即为:“http://esf.fang.com/housing/1_1121_0_0_0_0_1_0_0/”。
103:推送所述待抓取URL至抓取服务器。
104:触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
本实施例中,抓取服务器根据待抓取URL即可以进行网络数据的抓取,仅抓取待抓取URL对应的网络数据,而不会任意爬取,使得抓取的网络数据均为有效信息,提高了抓取准确度。且待抓取URL可以根据参数生成规则,基于预配置的URL模板自动生成,无需人工编写提供,可以生成批量的待抓取URL,实现网络数据的批量抓取,从而降低了抓取的开发成本,提高了抓取效率。
可选地,确定得到的更新内容可以包括多个,利用所述更新内容生成的待抓取URL也即可以包括多个,为了防止抓取服务器压力过大,同时为了保证数据抓取速度,在某些实施例中,所述推送所述待抓取URL至抓取服务器可以包括:
推送一批第一数量的待抓取URL至所述抓取服务器;
针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,推送下一批第一数量的待抓取URL至所述抓取服务器。
其中,第一数量大于第二数量。
也即将待抓取URL分批推送至抓取服务器,每一批包括第一数量的待抓取URL。
且由于抓取服务器进行数据抓取时会存在长尾效应,也即抓取一定数量的URL之后会间隔一定时间,因此无需等待抓取服务器抓取完成一批URL再推送下一批。
在实际应用中,该第一数量可以为5000,该第二数量可以为第一数量的80%。
为了避免长尾效应中抓取服务器等待时间过长而影响抓取速度,可选地,在某些实施例中,所述方法还可以包括:
针对当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,推送下一批第一数量的待抓取URL至所述抓取服务器。
可选地,如果抓取等待时长超过预设时长,即便针对当前一批第一数量的待抓取URL,抓取服务器未处理完成第二数量的待抓取URL,也可以立即推送下一批第一数量的待抓取URL至所述抓取服务器。如图2所述,为本发明实施例提供的一种数据抓取方法又一个实施例的流程图,该方法可以包括以下几个步骤:
201:基于URL模板对应的参数生成规则,确定更新内容。
202:利用所述更新内容更新所述URL模板,生成待抓取URL。
203:推送一批第一数量的待抓取URL至所述抓取服务器。
204:触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
205:针对当前一批第一数量的待抓取URL,判断所述抓取服务器是否处理完成第二数量的待抓取URL,如果是,执行步骤206,如果否,执行步骤207。
206:推送下一批第一数量的待抓取URL至所述抓取服务器。
207:判断所述抓取服务器的抓取等待时长是否超过预设时长,如果是,执行步骤206,如果否,返回步骤205继续执行。
在某些实施例中,所述URL模板以及所述参数生成规则针对任一数据源服务器配置获得。
因此,所述基于URL模板对应的参数生成规则,确定更新内容可以包括:
确定针对所述任一数据源服务器预配置的URL模板以及所述URL模板对应的参数生成规则;
基于所述参数生成规则,确定更新内容。
根据任一数据源服务提供的页面类型,可以预配置多个URL模板,因此,为了方便用户了解抓取操作,在某些实施例中,基于URL模板对应的参数生成规则,确定更新内容之前,所述方法还可以包括:
输出不同数据源服务器对应的基本配置信息;所述基本配置信息可以包括URL模板、数据源名称、页面类型以及请求类型;
所述确定针对所述任一数据源服务器预配置的URL模板可以包括:
响应于针对所述任一数据源服务器的基本配置信息的用户选择操作,确定选择的URL模板。
请求类型可以包括post请求或者get请求,页面类型为待抓取的网络数据所在页面的页面类型。数据源名称标识数据源服务器,也即URL模板中的服务器名称。
可以结合数据源名称以及待抓取的网络数据所在页面的页面类型,来选择基本配置信息,从而确定对应的URL模板。
另外,由于网络数据是由抓取服务器抓取得到,为了方便进行数据处理,可以从抓取服务器中获取其抓取的网络数据。
作为一种可能的实现方式,所述触发所述抓取服务器抓取所述待抓取URL对应的网络数据可以包括:
触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
从所述网络存储空间获取所述网络数据。
也即抓取服务器将抓取的网络数据存储至网络存储空间,可以从网络存储空间中拉取所述网络数据。
可选地,为了提高数据拉取效率,可以采用多进程方式从所述网络存储空间获取所述网络数据。
为了避免压力过大,可选地,所述进程数目可以不大于预设数目,该预设数目例如可以为20个。
此外,为了避免频繁拉取,由于网络存储空间数据量过少导致每次拉取的数据量减少,可选地,可以每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
其中,该预设等待间隔可以根据抓取服务器的总抓取量、已抓取量、已耗费的抓取时间等计算获得。
可选地,可以按照如下方式计算获得:
总抓取时间=已耗费的抓取时间*(总抓取量/已抓取量);
剩余抓取时间=总抓取时间*(未抓取量/总抓取量),未抓取量等于总抓取量减去已抓取量;
预设等待间隔=10*sqrt(剩余抓取时间)。
作为又一种可能的实现方式,抓取服务器可以作为生产者,抓取的网络数据存储至kafka系统中,从而通过消费kafka系统,以获取网络数据。
在某些实施例中,所述基于URL模板对应的参数生成规则,确定更新参数可以包括:
响应于抓取任务的调度指令,生成所述抓取任务的当前抓取批次;
在所述当前抓取批次中,基于URL模板对应的参数生成规则,确定更新内容。
在某些实施例中,由于可以预先配置不同URL模板以及参数生成规则,通过建立不同URL模板与参数生成规则的对应关系,即可以生成不同抓取任务。所述在所述当前抓取批次中,基于URL模板对应的参数生成规则,确定更新内容可以是在所述当前抓取批次中,基于所述抓取任务中配置的URL模板以及所述URL模板对应的参数生成规则,确定更新内容。
抓取任务每被调度一次,即生成一个抓取批次。从而基于待抓取URL抓取的网络数据可以与当前抓取批次对应保存,以方便管理每一个抓取批次抓取获得的网络数据。
其中,该调度指令可以周期性生成,例如每天9点或者每间隔2个小时即生成该调度指令,通过响应该调度指令,即可以生成该抓取任务的一个抓取批次,从而在该抓取批次中,执行一次抓取任务对应的数据抓取流程。
此外,由于可以设置多个抓取任务,任一抓取任务可以是在接收到用户触发请求或者依赖的抓取任务执行结束时,通过响应于调度指令,生成一次抓取批次,以执行所述任一抓取任务对应的数据抓取流程。
由于URL模板以及参数生成规则可以针对任一数据源服务器配置获得;本发明实施例在一个实际应用中,所述任一数据源服务器可以提供列表页面以及信息页面;页面类型也即可以是指列表页面或者信息页面。
其中,每一列表页面用于展示多个目标对象,所述多个目标对象属于同一分组;每一信息页面用于展示任一目标对象的内容信息;每一列表页面的URL包括分组参数,用于索引至对应的列表页面,一个分组参数用于唯一标识一个分组;每一信息页面的URL包括标识参数,用于索引至对应的信息页面,一个标识参数唯一标识一个目标对象。
可选地,基于参数生成规则确定的更新内容即可以包括该分组参数或者标识参数。
其中,目标对象可以是指服务提供方,每一信息页面用于展示任一服务提供方提供的服务对象;每一个列表页面中的多个服务提供方位于同一位置区域,所述分组参数具体为位置坐标参数。
例如,外卖应用场景中,服务提供方即为商户,服务提供方提供的服务对象即为商品。数据源服务器为外卖服务器,其提供的列表页口用于展示属于同一位置区域的多个商户,分组参数即可以位置坐标参数表示。信息页面用于展示一个商户的商品信息,标识参数可以采用商户标识进行标识。
参数生成规则可以包括多个,在所述任一数据源服务器提供列表页面以及信息页面时,所述参数生成规则可以至少包括第一配置规则、第二配置规则以及第三配置规则;
第一配置规则以及第二配置规则可以用于生成标识参数;第三配置规则可以用于生成分组参数。
如果待抓取的网络数据为信息页面的网络数据,即可以选择信息页面对应的URL模板,以及该第一配置规则或者第二配置规则;
如果待抓取的网络数据为列表页面的网络数据,即可以选择列表页面对应的URL模板以及该第三配置规则。
下面分别介绍第一配置规则、第二配置规则以及第三配置规则;
针对第一配置规则:
第一配置规则可以用于生成标识参数,标识参数采用数字编号。
因此,如果所述参数生成规则为第一配置规则,可以具体获取所述第一配置规则中预配置的基准参数以及遍历范围;
基于所述基准参数以及遍历范围,计算获得标识参数。
由于实际应用中,标识参数通常采用数字编号,不同目标对象的数字编号组成连续的数字,据此可以设置第一配置规则,该第一配置规则即可以包括基准参数以及遍历范围;
该遍历范围可以包括向上遍历范围以及向下遍历范围,基于基准参数以及遍历范围,可以获得标识参数,即为[基准参数-向下遍历范围,基准参数+向上遍历范围]范围内的全部数字编号,实现了标识参数的批量生成。
该第一配置规则中还可以包括替换标识,从而将标识参数替换URL模板中所述替换标识对应的替换内容,即可以得到待抓取URL,该待抓取URL即用于获取信息页面中的网络数据。
基于标识参数生成的待抓取URL,即可以用户抓取该标识参数标识的信息页面的网络数据。
此外,该第一配置规则中还可以配置有规则名称,以方便进行规则识别。
针对第二配置规则:
如果所述参数生成规则为第二配置规则,可以具体是基于所述第二配置规则从已抓取的信息页面对应的URL数据库中读取标识参数。
由于实际应用中,数据抓取过程会一直进行,已抓取数据可以与其对应的标识参数或者分组参数对应存储,据此可以配置第二配置规则。
该第二配置规则中可以包括数据库信息、数据源名称、替换标识以及标识选择SQL。以利用标识选择SQL从数据库信息对应的URL数据库中该数据源名称对应的数据中获取该替换标识对应的标识参数。例如该标识选择SQL可以为:
select shop_id from dim_shop_all where source='waimai';
其中,替换标识用于用于标识参数,shop_id即为替换标识、dim_shop为标识参数存储的URL数据库,waimai为数据源名称。从而获得的标识参数可以替换URL模板中的替换内容为“@@shop_id@@”
基于标识参数生成的待抓取URL,即可以用户抓取该标识参数标识的信息页面的网络数据。
此外,该第二配置规则中还可以包括规则名称等。
针对第三配置规则:
如果所述参数生成规则为第三配置规则,则具体可以是基于所述第三配置规则从参数数据库中读取分组参数。
该参数数据库中存储大量的分组参数,该参数数据库中的分组参数可以预先配置或者根据已抓取的列表页面获取。
该第三配置规则中可以包括数据源名称、数据库信息、分组选择SQL等。具体可以是利用该分组选择SQL从数据库信息对应的参数数据库中该数据源名称对应的数据中获取分组参数。
该第三配置规则还可以包括规则名称等。
由于第三配置规则用于生成分组参数,而分组参数可以索引至列表页面,但是列表页面通常还具有翻页页面,需要进行翻页才能获得全部的网络数据。
因此,作为又一个实施例,所述第三配置规则具体可以包括分组选择规则以及翻页配置规则;
如果所述参数生成规则为第三配置规则,基于所述第三配置规则从参数数据库中读取分组参数可以包括:
如果所述参数生成规则为第三配置规则,基于分组选择规则从参数数据库中读取分组参数以及基于翻页配置规则确定翻页参数,所述翻页参数用于索引至所述分组参数对应的列表页面的翻页页面。
更新内容也即包括所述分组参数以及所述翻页参数,第三配置规则中包括的替换标识即包括分组参数对应的分组标识以及翻页参数对应的翻页标识,从而可以利用分组参数替换URL模板中分组标识对应的替换内容,例如分组标识为“lat”,则URL模板中的替换内容可以为“@@lat@@”;利用翻页参数替换URL模板中翻页标识对应的替换内容,例如翻页标识为“pn”,对应URL模板中替换内容可以为“@@lat@@”。
由于翻页类型通常包括两种:页码翻页以及偏移量翻页。
该翻页配置规则中还可以包括翻页类型、翻页参数、每页目标对象数量以及翻页页数;
如果翻页类型为页码翻页,翻页参数具体为页码参数,其基于翻页页数确定,例如翻页页数为2,第一页的页码参数为1,第二页的页码参数为2,
如果翻页类型为偏移量翻页,翻页参数具体为偏移量参数,其基于每页目标对象数量确定,例如每页20个商户,第一页的偏移量是0,第二页的偏移量是20,第三页的偏移量是40。
其中,可选地,基于翻页配置规则还可以确定每页目标对象数量
也即所述更新内容还可以包括每页目标对象数量,基于该更新内容生成的待抓取URL,即可以用于按照每页目标对象数量,从抓取列表页面以及列表页面的翻页页面抓取网络数据。
此外,作为又一个实施例,该参数生成规则可以包括通用配置规则,该通用配置规则中包括所述更新内容,还可以包括替换标识。
如果所述参数生成规则为所述通用配置规则,则可以具体是确定所述通用配置规则中配置的所述更新内容。
该更新内容即可以替换URL模板中所述替换标识对应的替换内容。
图3为本发明实施例提供的一种数据抓取装置一个实施例的结构示意图,该装置可以包括:
确定模块301,用于基于统一资源定位符URL模板对应的参数生成规则,确定更新内容。
可选地,该URL模板以及该参数生成规则可以是针对任一数据源服务器配置获得;
所述确定模块可以具体用于确定针对所述任一数据源服务器预配置的URL模板以及所述URL模板对应的参数生成规则;基于所述参数生成规则,确定更新内容。
根据任一数据源服务提供的页面类型,可以预配置多个URL模板。
参数生产规则可以包括多个,可以用于确定不同更新内容;此外用于确定同一更新内容的参数生产规则也可以包括多个。可选地,URL模板对应的参数生成规则可以是基于用户选择操作确定的。
生成模块302,用于利用所述更新内容更新所述URL模板,生成待抓取URL。
可选地,参数生成规则中可以包括替换标识,该生成模块可以具体用于:
利用所述更新内容替换所述URL模板中所述替换标识对应的替换内容,生成待抓取URL。
推送模块303,用于推送所述待抓取URL至抓取服务器;
抓取触发模块304,用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
本实施例中,抓取服务器根据待抓取URL即可以进行网络数据的抓取,仅抓取待抓取URL对应的网络数据,而不会任意爬取,使得抓取的网络数据均为有效信息,提高了抓取准确度。且待抓取URL可以根据参数生成规则,基于预配置的URL模板自动生成,无需人工编写提供,可以生成批量的待抓取URL,实现网络数据的批量抓取,从而降低了抓取的开发成本,提高了抓取效率。
可选地,确定得到的更新内容可以包括多个,利用所述更新内容生成的待抓取URL也即可以包括多个,为了防止抓取服务器压力过大,同时为了保证数据抓取速度,作为又一个实施例,如图4中所示,其与图3对应实施例不同之处在于,所述推送模块303可以包括:
推送单元401,用于推送一批第一数量的待抓取URL至所述抓取服务器;
第一判断单元402,用于针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
其中,第一数量大于第二数量。
也即将待抓取URL分批推送至抓取服务器,每一批包括第一数量的待抓取URL。
且由于抓取服务器进行数据抓取时会存在长尾效应,也即抓取一定数量的URL之后会间隔一定时间,因此无需等待抓取服务器抓取完成一批URL再推送下一批。
此外,为了避免长尾效应中抓取服务器等待时间过长而影响抓取速度,可选地,如图4中所述,所述推送模块303还可以包括:
第二判断单元403,用于针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
可选地,如果抓取等待时长超过预设时长,即便针对当前一批第一数量的待抓取URL,抓取服务器未处理完成第二数量的待抓取URL,也可以立即推送下一批第一数量的待抓取URL至所述抓取服务器。
在某些实施例中,根据任一数据源服务提供的页面类型,可以预配置多个URL模板,为了方便用户了解抓取操作,在某些实施例中,该装置还可以包括:
输出模块,用于输出不同数据源服务器对应的基本配置信息;所述基本配置信息包括URL模板、数据源名称、页面类型以及请求类型;
所述确定模块确定针对所述任一数据源服务器预配置的URL模板具体用于响应于针对所述任一数据源服务器的基本配置信息的用户选择操作,确定选择的URL模板。
其中,请求类型可以包括post请求或者get请求,页面类型为待抓取的网络数据所在页面的页面类型。数据源名称标识数据源服务器,也即URL模板中的服务器名称。
可以结合数据源名称以及待抓取的网络数据所在页面的页面类型,来选择基本配置信息,从而确定对应的URL模板。
在某些实施例中,由于网络数据是由抓取服务器抓取得到,为了方便进行数据处理,可以从抓取服务器中获取其抓取的网络数据。
因此所述抓取触摸模块具体用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
所述装置还可以包括:
数据获取模块,用于从所述网络存储空间获取所述网络数据。
可选地,为了提高数据拉取效率,可以采用多进程方式从所述网络存储空间获取所述网络数据。
此外,为了避免频繁拉取,由于网络存储空间数据量过少导致每次拉取的数据量减少,可选地,所述数据获取模块可以具体用于每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
其中,该预设等待间隔可以根据抓取服务器的总抓取量、已抓取量、已耗费的抓取时间等计算获得。
可选地,可以按照如下方式计算获得:
总抓取时间=已耗费的抓取时间*(总抓取量/已抓取量);
剩余抓取时间=总抓取时间*(未抓取量/总抓取量),未抓取量等于总抓取量减去已抓取量;
预设等待间隔=10*sqrt(剩余抓取时间)。
在某些实施例中,所述抓取触发模块可以具体用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至kafka系统;
因此,该数据抓取装置具体通过消费kafka系统,以获取网络数据。
在某些实施例中,所述确定模块可以具体用于:响应于抓取任务的调度指令,生成所述抓取任务的当前抓取批次;
在所述当前抓取批次中,基于URL模板对应的参数生成规则,确定更新内容。
在某些实施例中,由于可以预先配置不同URL模板以及参数生成规则,通过建立不同URL模板与参数生成规则的对应关系,即可以生成不同抓取任务。抓取任务每被调度一次即生成一个抓取批次,从而基于待抓取URL抓取的网络数据可以与当前抓取批次对应保存,以方便管理每一个抓取批次抓取获得的网络数据。。
因此,所述确定模块可以具体是在所述当前抓取批次中,基于所述抓取任务中配置的URL模板以及所述URL模板对应的参数生成规则,确定更新内容。
其中,该抓取调度指令可以周期性生成;
此外,由于可以设置多个抓取任务,任一抓取任务可以是在接收到用户触发请求或者依赖的抓取任务执行结束时,通过响应于调度指令,生成一次抓取批次,以执行所述任一抓取任务对应的数据抓取流程。
由于URL模板以及参数生成规则可以针对任一数据源服务器配置获得;本发明实施例在一个实际应用中,所述任一数据源服务器具有列表页面以及信息页面;每一列表页面用于展示多个目标对象,所述多个目标对象属于同一分组;每一信息页面用于展示任一目标对象的内容信息;每一列表页面的URL包括分组参数,用于索引至对应的列表页面,一个分组参数用于唯一标识一个分组;每一信息页面的URL包括标识参数,用于索引至对应的信息页面,一个标识参数唯一标识一个目标对象;
所述更新内容包括所述分组参数或所述标识参数。
其中,目标对象可以是指服务提供方,每一信息页面用于展示任一服务提供方提供的服务对象;每一个列表页面中的多个服务提供方位于同一位置区域,所述分组参数具体为位置坐标参数。
其中,参数生成规则可以包括多个,在所述任一数据源服务器提供列表页面以及信息页面时,所述参数生成规则可以至少包括第一配置规则、第二配置规则以及第三配置规则。
在实际应用中,标识参数通常采用数字编号。
因此,所述确定模块可以具体用于所述确定模块具体用于如果所述参数生成规则为第一配置规则,获取所述第一配置规则中预配置的基准参数以及遍历范围;基于所述基准参数以及遍历范围,计算获得标识参数;如果所述参数生成规则为第二配置规则,基于所述第二配置规则从已抓取的信息页面对应的URL数据库中读取标识参数;如果所述参数生成规则为第三配置规则,基于所述第三配置规则从参数数据库中读取分组参数。
此外,由于列表页面通常还具有翻页页面,需要进行翻页才能获得全部的网络数据。因此,在某些实施例中,所述第三配置规则包括分组选择规则以及翻页配置规则;
所述确定模块如果所述参数生成规则为第三配置规则,基于所述第三配置规则从参数数据库中读取分组参数具体是如果所述参数生成规则为第三配置规则,基于分组选择规则从参数数据库中读取分组参数以及基于翻页配置规则确定翻页参数,所述翻页参数用于索引至所述分组参数对应的列表页面的翻页页面。
更新内容即包括所述分组参数以及所述翻页参数。第三配置规则中包括的替换标识即包括分组参数对应的分组标识以及翻页参数对应的翻页标识,从而可以利用分组参数替换URL模板中分组标识对应的替换内容。
由于翻页类型通常包括两种:页码翻页以及偏移量翻页。
该翻页配置规则中还可以包括翻页类型、翻页参数、每页目标对象数量以及翻页页数;
如果翻页类型为页码翻页,翻页参数具体为页码参数,其基于翻页页数确定,例如翻页页数为2,第一页的页码参数为1,第二页的页码参数为2,
如果翻页类型为偏移量翻页,翻页参数具体为偏移量参数,其基于每页目标对象数量确定,例如每页20个商户,第一页的偏移量是0,第二页的偏移量是20,第三页的偏移量是40。
其中,可选地,所述确定模块还可以用于基于翻页配置规则确定每页目标对象数量
也即所述更新内容还可以包括每页目标对象数量,基于该更新内容生成的待抓取URL,即可以用于按照每页目标对象数量,从抓取列表页面以及列表页面的翻页页面抓取网络数据。
此外,作为又一个实施例,该参数生成规则可以包括通用配置规则,该通用配置规则中包括所述更新内容,还可以包括替换标识。
如果所述参数生成规则为所述通用配置规则,则可以具体是确定所述通用配置规则中配置的所述更新内容。
该更新内容即可以替换URL模板中所述替换标识对应的替换内容。
在一个可能的设计中,上述任一实施例所述的数据抓取装置可以实现为电子装置。如图5所示,该电子装置可以包括一个或多个处理器501以及一个或多个存储器502。
所述一个或多个存储器502存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述一个或多个处理器501调用执行。
所述一个或多个处理器501用于:
基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
利用所述更新内容更新所述URL模板,生成待抓取URL;
推送所述待抓取URL至抓取服务器;
触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
可选地,所述一个或多个处理器还用于执行上述任一实施例所述的数据抓取方法。
此外,本发明实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行时实现上述任一实施例所述的数据抓取方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围
本发明公开了A1、一种数据抓取方法,包括:
基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
利用所述更新内容更新所述URL模板,生成待抓取URL;
推送所述待抓取URL至抓取服务器;
触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
A2、根据A1所述的方法,所述推送所述待抓取URL至抓取服务器包括:
推送一批第一数量的待抓取URL至所述抓取服务器;
针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,推送下一批第一数量的待抓取URL至所述抓取服务器。
A3、根据A2所述的方法,所述方法还包括:
针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,推送下一批第一数量的待抓取URL至所述抓取服务器。
A4、根据A1所述的方法,所述触发所述抓取服务器抓取所述待抓取URL对应的网络数据包括:
触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
所述方法还包括:
从所述网络存储空间获取所述网络数据。
A5、根据A4所述的方法,所述从所述网络存储空间获取所述网络数据包括:
每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
A6、根据A1所述的方法,所述URL模板以及所述参数生成规则针对任一数据源服务器配置获得;
所述基于URL模板对应的参数生成规则,确定更新内容包括:
确定针对所述任一数据源服务器预配置的URL模板以及所述URL模板对应的参数生成规则;
基于所述参数生成规则,确定更新内容。
A7、根据A6所述的方法,所述任一数据源服务器具有列表页面以及信息页面;每一列表页面用于展示多个目标对象,所述多个目标对象属于同一分组;每一信息页面用于展示任一目标对象的内容信息;每一列表页面的URL包括分组参数,用于索引至对应的列表页面,一个分组参数用于唯一标识一个分组;每一信息页面的URL包括标识参数,用于索引至对应的信息页面,一个标识参数唯一标识一个目标对象;
所述更新内容包括所述分组参数或所述标识参数。
A8、根据A7所述的方法,所述标识参数采用数字编号;
所述更新内容确定步骤包括:
如果所述参数生成规则为第一配置规则,获取所述第一配置规则中预配置的基准参数以及遍历范围;
基于所述基准参数以及遍历范围,计算获得标识参数;
如果所述参数生成规则为第二配置规则,基于所述第二配置规则从已抓取的信息页面对应的URL数据库中读取标识参数;
如果所述参数生成规则为第三配置规则,基于所述第三配置规则从参数数据库中读取分组参数。
A9、根据A8所述的方法,所述第三配置规则包括分组选择规则以及翻页配置规则;
所述如果所述参数生成规则为第三配置规则,基于所述第三配置规则从参数数据库中读取分组参数包括:
如果所述参数生成规则为第三配置规则,基于分组选择规则从参数数据库中读取分组参数以及基于翻页配置规则确定翻页参数,所述翻页参数用于索引至所述分组参数对应的列表页面的翻页页面;所更新内容包括所述分组参数以及所述翻页参数。
A10、根据A7所述的方法,所述目标对象为服务提供方,每一信息页面用于展示任一服务提供方提供的服务对象;
每一个列表页面中的多个服务提供方位于同一位置区域,所述分组参数具体为位置坐标参数。
A11、根据A1所述的方法,所述参数生成规则中包括替换标识;
所述利用所述更新参数更新URL模板,生成待抓取URL包括:
利用所述更新内容替换所述URL模板中所述替换标识对应的替换内容,生成待抓取URL。
A12、根据A6所述的方法,还包括:
输出不同数据源服务器对应的基本配置信息;所述基本配置信息包括URL模板、数据源名称、页面类型以及请求类型;
所述确定针对所述任一数据源服务器预配置的URL模板包括:
响应于针对所述任一数据源服务器的基本配置信息的用户选择操作,确定选择的URL模板。
A13、根据A1所述的方法,所述基于URL模板对应的参数生成规则,确定更新内容包括:
响应于抓取任务的调度指令,生成所述抓取任务的当前抓取批次;
在所述当前抓取批次中,基于URL模板对应的参数生成规则,确定更新内容;其中,所述网络数据对应所述当前抓取批次保存。
B14、一种数据抓取装置,包括:
确定模块,用于基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
生成模块,用于利用所述更新内容更新所述URL模板,生成待抓取URL;
推送模块,用于推送所述待抓取URL至抓取服务器;
抓取触发模块,用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
B15、根据B14所述的装置,所述推送模块包括:
推送单元,用于推送一批第一数量的待抓取URL至所述抓取服务器;
第一判断单元,用于针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
B16、根据B15所述的装置,所述推送模块还包括:
第二判断单元,用于针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
B17、根据B14所述的装置,所述抓取触摸模块具体用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
所述装置还包括:
数据获取模块,用于从所述网络存储空间获取所述网络数据。
B18、根据B17所述的装置,所述数据获取模块具体用于每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
B19、根据B14所述的装置,所述URL模板以及所述参数生成规则针对任一数据源服务器配置获得;
所述确定模块具体用于确定针对所述任一数据源服务器预配置的URL模板以及所述URL模板对应的参数生成规则;基于所述参数生成规则,确定更新内容。
B20、根据B19所述的装置,所述任一数据源服务器具有列表页面以及信息页面;每一列表页面用于展示多个目标对象,所述多个目标对象属于同一分组;每一信息页面用于展示任一目标对象的内容信息;每一列表页面的URL包括分组参数,用于索引至对应的列表页面,一个分组参数用于唯一标识一个分组;每一信息页面的URL包括标识参数,用于索引至对应的信息页面,一个标识参数唯一标识一个目标对象;
所述更新内容包括所述分组参数或所述标识参数。
B21、根据B20所述的装置,所述标识参数采用数字编号;
所述确定模块具体用于如果所述参数生成规则为第一配置规则,获取所述第一配置规则中预配置的基准参数以及遍历范围;基于所述基准参数以及遍历范围,计算获得标识参数;如果所述参数生成规则为第二配置规则,基于所述第二配置规则从已抓取的信息页面对应的URL数据库中读取标识参数;如果所述参数生成规则为第三配置规则,基于所述第三配置规则从参数数据库中读取分组参数。
B22、根据B21所述的装置,所述第三配置规则包括分组选择规则以及翻页配置规则;
所述确定模块如果所述参数生成规则为第三配置规则,基于所述第三配置规则从参数数据库中读取分组参数具体是如果所述参数生成规则为第三配置规则,基于分组选择规则从参数数据库中读取分组参数以及基于翻页配置规则确定翻页参数,所述翻页参数用于索引至所述分组参数对应的列表页面的翻页页面。
B23、根据B20所述的装置,所述目标对象为服务提供方,每一信息页面用于展示任一服务提供方提供的服务对象;
每一个列表页面中的多个服务提供方位于同一位置区域,所述分组参数具体为位置坐标参数。
B24、根据B14所述的装置,所述参数生成规则中包括替换标识;
所述生成模块具体用于利用所述更新内容替换所述URL模板中所述替换标识对应的替换内容,生成待抓取URL。
B25、根据B19所述的装置,还包括:
输出模块,用于输出不同数据源服务器对应的基本配置信息;所述基本配置信息包括URL模板、数据源名称、页面类型以及请求类型;
所述确定模块确定针对所述任一数据源服务器预配置的URL模板具体用于响应于针对所述任一数据源服务器的基本配置信息的用户选择操作,确定选择的URL模板。
B26、根据B14所述的装置,所述确定模块具体用于响应于抓取任务的调度指令,生成所述抓取任务的当前抓取批次;在所述当前抓取批次中,基于URL模板对应的参数生成规则,确定更新内容;其中,所述网络数据对应所述当前抓取批次保存。
B27、一种电子装置,包括一个或多个处理器以及一个或多个存储器;
所述一个或多个存储器一条或多条计算机指令,其中,所述一条或多条计算机指令供所述一个或多个处理器调用执行。
所述一个或多个处理器用于:
基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
利用所述更新内容更新所述URL模板,生成待抓取URL;
推送所述待抓取URL至抓取服务器;
触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
B28、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;
所述计算机程序使计算机执行时实现如A1~A13任一项所述的数据抓取方法。
Claims (10)
1.一种数据抓取方法,其特征在于,包括:
基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
利用所述更新内容更新所述URL模板,生成待抓取URL;
推送所述待抓取URL至抓取服务器;
触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
2.根据权利要求1所述的方法,其特征在于,所述推送所述待抓取URL至抓取服务器包括:
推送一批第一数量的待抓取URL至所述抓取服务器;
针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,推送下一批第一数量的待抓取URL至所述抓取服务器。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,推送下一批第一数量的待抓取URL至所述抓取服务器。
4.根据权利要求1所述的方法,其特征在于,所述触发所述抓取服务器抓取所述待抓取URL对应的网络数据包括:
触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
所述方法还包括:
从所述网络存储空间获取所述网络数据。
5.根据权利要求4所述的方法,其特征在于,所述从所述网络存储空间获取所述网络数据包括:
每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
6.一种数据抓取装置,其特征在于,包括:
确定模块,用于基于统一资源定位符URL模板对应的参数生成规则,确定更新内容;
生成模块,用于利用所述更新内容更新所述URL模板,生成待抓取URL;
推送模块,用于推送所述待抓取URL至抓取服务器;
抓取触发模块,用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据。
7.根据权利要求6所述的装置,其特征在于,所述推送模块包括:
推送单元,用于推送一批第一数量的待抓取URL至所述抓取服务器;
第一判断单元,用于针对当前一批第一数量的待抓取URL,如果所述抓取服务器处理完成第二数量的待抓取URL,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
8.根据权利要求7所述的装置,其特征在于,所述推送模块还包括:
第二判断单元,用于针对所述当前一批第一数量的待抓取URL,如果所述抓取服务器的抓取等待时长超过预设时长,触发所述推送单元推送下一批第一数量的待抓取URL至所述抓取服务器。
9.根据权利要求6所述的装置,其特征在于,所述抓取触摸模块具体用于触发所述抓取服务器抓取所述待抓取URL对应的网络数据,并将所述网络数据存储至网络存储空间;
所述装置还包括:
数据获取模块,用于从所述网络存储空间获取所述网络数据。
10.根据权利要求9所述的装置,其特征在于,所述数据获取模块具体用于每间隔预设等待间隔,采用多进程方式从所述网络存储空间获取所述网络数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710381081.8A CN107291824A (zh) | 2017-05-25 | 2017-05-25 | 数据抓取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710381081.8A CN107291824A (zh) | 2017-05-25 | 2017-05-25 | 数据抓取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107291824A true CN107291824A (zh) | 2017-10-24 |
Family
ID=60094518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710381081.8A Pending CN107291824A (zh) | 2017-05-25 | 2017-05-25 | 数据抓取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291824A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657167A (zh) * | 2018-11-29 | 2019-04-19 | 彩讯科技股份有限公司 | 数据采集方法、装置、服务器及存储介质 |
CN110851746A (zh) * | 2018-07-27 | 2020-02-28 | 北京国双科技有限公司 | 爬虫种子生成方法及装置 |
CN111522654A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 分布式爬虫的调度处理方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399933A (zh) * | 2013-08-08 | 2013-11-20 | 人民搜索网络股份公司 | 一种抓取网络平面媒体的网页内容的方法及系统 |
CN103399908A (zh) * | 2013-07-30 | 2013-11-20 | 北京北纬通信科技股份有限公司 | 业务数据抓取方法和系统 |
CN106294364A (zh) * | 2015-05-15 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 实现网络爬虫抓取网页的方法和装置 |
CN106599094A (zh) * | 2016-11-24 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 网络内容异步抓取系统和方法 |
-
2017
- 2017-05-25 CN CN201710381081.8A patent/CN107291824A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399908A (zh) * | 2013-07-30 | 2013-11-20 | 北京北纬通信科技股份有限公司 | 业务数据抓取方法和系统 |
CN103399933A (zh) * | 2013-08-08 | 2013-11-20 | 人民搜索网络股份公司 | 一种抓取网络平面媒体的网页内容的方法及系统 |
CN106294364A (zh) * | 2015-05-15 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 实现网络爬虫抓取网页的方法和装置 |
CN106599094A (zh) * | 2016-11-24 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 网络内容异步抓取系统和方法 |
Non-Patent Citations (1)
Title |
---|
戴奇123456: ""python 根据规律生成url列表"", 《HTTPS://ZHIDAO.BAIDU.COM/QUESTION/393008151382104485.HTML》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851746A (zh) * | 2018-07-27 | 2020-02-28 | 北京国双科技有限公司 | 爬虫种子生成方法及装置 |
CN109657167A (zh) * | 2018-11-29 | 2019-04-19 | 彩讯科技股份有限公司 | 数据采集方法、装置、服务器及存储介质 |
CN109657167B (zh) * | 2018-11-29 | 2023-11-21 | 彩讯科技股份有限公司 | 数据采集方法、装置、服务器及存储介质 |
CN111522654A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 分布式爬虫的调度处理方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291824A (zh) | 数据抓取方法及装置 | |
CN107370667A (zh) | 多线程并行处理方法和装置、可读介质和存储控制器 | |
CN107958028A (zh) | 数据采集的方法、装置、存储介质及终端 | |
CN106933854A (zh) | 短链接处理方法、装置及服务器 | |
CN105893509B (zh) | 一种大数据分析模型的标记与解释系统及方法 | |
CN107515878A (zh) | 一种数据索引的管理方法及装置 | |
CN108614862A (zh) | 基于流计算引擎的实时标签处理方法和装置 | |
CN108108466A (zh) | 一种分布式系统日志查询分析方法及装置 | |
CN106997394B (zh) | 一种数据乱序到达处理方法和系统 | |
CN103905482B (zh) | 推送信息的方法、推送服务器和系统 | |
CN108762735A (zh) | 工作流引擎的管理方法及装置、存储介质、终端 | |
CN104951509A (zh) | 一种大数据在线交互式查询方法及系统 | |
CN106326339A (zh) | 任务分配方法及装置 | |
CN107480260A (zh) | 大数据实时分析方法、装置、计算设备及计算机存储介质 | |
CN107943767A (zh) | 一种基于html模板邮件的报表生成方法及装置 | |
CN108734566A (zh) | 征信数据查询方法、终端设备及介质 | |
CN109298943A (zh) | 用于udp服务器的并发处理方法 | |
CN100407663C (zh) | 一种电信智能业务的通用测试系统及方法 | |
CN104298671B (zh) | 数据统计分析方法及装置 | |
CN107247721A (zh) | 可视化数据采集方法 | |
CN110442647A (zh) | 数据一致性同步方法、装置及计算机可读存储介质 | |
CN109726313A (zh) | 操作数据库的方法及装置 | |
CN108052599A (zh) | 一种支持特征查询的时序数据存储的方法和装置 | |
CN106406985A (zh) | 分布式计算框架和分布式计算方法 | |
CN109241042A (zh) | 数据处理方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171024 |