CN110489629A - 数据爬取方法、数据爬取装置、数据爬取设备及存储介质 - Google Patents

数据爬取方法、数据爬取装置、数据爬取设备及存储介质 Download PDF

Info

Publication number
CN110489629A
CN110489629A CN201910802820.5A CN201910802820A CN110489629A CN 110489629 A CN110489629 A CN 110489629A CN 201910802820 A CN201910802820 A CN 201910802820A CN 110489629 A CN110489629 A CN 110489629A
Authority
CN
China
Prior art keywords
target data
data
data source
source
required parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910802820.5A
Other languages
English (en)
Inventor
李锐
刘云锋
秦国君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hon Core City (shanghai) Internet Polytron Technologies Inc
Original Assignee
Hon Core City (shanghai) Internet Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Core City (shanghai) Internet Polytron Technologies Inc filed Critical Hon Core City (shanghai) Internet Polytron Technologies Inc
Priority to CN201910802820.5A priority Critical patent/CN110489629A/zh
Publication of CN110489629A publication Critical patent/CN110489629A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据爬取方法,首先根据数据采集清单确定目标数据源,并针对目标数据源生成初始读取请求,将初始读取请求发送至目标数据源,并接收目标数据源返回的反馈结果,根据反馈结果确定目标数据源的请求参数规则,并依据请求参数规则生成符合目标数据源验证机制要求的目标数据采集请求,将目标数据采集请求发送至目标数据源,即可获取数据采集清单指定的目标数据。采用本发明提供的数据爬取方法,在设置了验证机制等传统的网络爬虫爬取数据办法无法获取数据的目标数据源中也能够获取目标数据,提高了电子元器件领域产品采集过程中数据爬取的成功率。本发明还公开了一种数据爬取装置、数据爬取设备及存储介质,具有上述有益效果。

Description

数据爬取方法、数据爬取装置、数据爬取设备及存储介质
技术领域
本发明涉及网络技术领域,特别是涉及一种数据爬取方法、数据爬取装置、数据爬取设备及存储介质。
背景技术
电子商务(电商),一般指的是借助互联网平台进行产品交易或者相关服务活动。经过多年的发展,电商凭借信息全面、操作便捷等优势成为消费者进行产品交易的重要选择方式。然而由于各行业内产品的信息量非常庞大,对于供应商或者是电商平台建设商来说,如何高效实现各大厂商产品信息的采集是构建一个兼容庞大数据库的电商平台的关键。
在电子元器件领域,由于上游供应商通常并不会向电商平台提供完整的数据,只能提供产品数据的几个关键信息如型号、厂牌、采购价格及库存信息,其他信息非常匮乏,需要平台自主完善。同时,由于供应商给到的数据库中存储的数据是静态的,必须在客户有购买诉求的时候及时向供应商网站或数据接口中获取实时数据以做出产品是否可售的判断。
产品信息的采集是一个到目标数据源(包括供应商网站或数据接口)进行数据爬取的问题。传统的解决办法是应用网络爬虫到目标数据源爬取关键词对应的信息。然而,当今许多网站或数据接口为了信息安全,常设有验证机制,采用传统的网络爬虫爬取数据的办法无法通过验证机制,导致无法进一步获取目标数据。
提供一种能够适应现今目标数据源的验证机制的数据爬取办法,提高电子元器件领域产品采集过程中数据爬取的成功率,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种数据爬取方法、数据爬取装置、数据爬取设备及存储介质,用于适应现今目标数据源的验证机制的数据爬取办法,提高了电子元器件领域产品采集过程中数据爬取的成功率。
为解决上述技术问题,本发明提供一种数据爬取方法,包括:
根据数据采集清单确定目标数据源,并针对所述目标数据源生成初始读取请求;
将所述初始读取请求发送至所述目标数据源,并接收所述目标数据源返回的反馈结果;
根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求;
将所述目标数据采集请求发送至所述目标数据源,以获取所述数据采集清单指定的目标数据。
可选的,在所述针对所述目标数据源生成初始读取请求之前,还包括:
将所述目标数据源进行去重。
可选的,所述依据所述请求参数规则生成目标数据采集请求,具体为:
依据所述请求参数规则生成与所述初始读取请求具有相同session的目标数据采集请求。
可选的,所述根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求,具体为:
当解析所述反馈结果得到验证码时,根据所述验证码生成所述目标数据采集请求。
可选的,所述将所述目标数据采集请求发送至所述目标数据源,以获取所述数据采集清单指定的目标数据,具体包括:
将所述目标数据采集请求发送至所述目标数据源,并接收所述目标数据源返回的状态码和返回数据;
依据所述状态码和所述返回数据判断是否得到所述目标数据;
如果是,则输出所述目标数据;
如果否,则以所述状态码和所述返回数据为所述反馈结果,返回所述根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求的步骤。
可选的,在所述输出所述目标数据之前,还包括:
分别利用lxml软件和BeautifulSoup软件对所述目标数据进行过滤和解析,得到处理后的目标数据;
相应的,所述输出所述目标数据,具体为:
输出所述处理后的目标数据。
可选的,还包括:
按预设分类规则在所述处理后的目标数据中进行数据抽取,并将抽取结果存储于文档型数据库和关系型数据库。
为解决上述技术问题,本发明还提供一种数据爬取装置,包括:
初始配置单元,用于根据数据采集清单确定目标数据源,并针对所述目标数据源生成初始读取请求;
第一交互单元,用于将所述初始读取请求发送至所述目标数据源,并接收所述目标数据源返回的反馈结果;
请求配置单元,用于根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求;
第二交互单元,用于将所述目标数据采集请求发送至所述目标数据源,以获取所述数据采集清单指定的目标数据。
为解决上述技术问题,本发明还提供一种数据爬取设备,包括:
存储器,用于存储指令,所述指令包括上述任意一项所述数据爬取方法的步骤;
处理器,用于执行所述指令。
为解决上述技术问题,本发明还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述数据爬取方法的步骤。
本发明所提供的一种数据爬取方法,首先根据数据采集清单确定目标数据源,并针对目标数据源生成初始读取请求,将初始读取请求发送至目标数据源,并接收目标数据源返回的反馈结果,根据反馈结果确定目标数据源的请求参数规则,并依据请求参数规则生成符合目标数据源验证机制要求的目标数据采集请求,将目标数据采集请求发送至目标数据源,即可获取数据采集清单指定的目标数据。采用本发明提供的数据爬取方法,在设置了验证机制等传统的网络爬虫爬取数据办法无法获取数据的目标数据源中也能够获取目标数据,提高了电子元器件领域产品采集过程中数据爬取的成功率。本发明还提供一种数据爬取装置、数据爬取设备及存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据爬取方法的流程图;
图2为本发明实施例提供的另一种数据爬取方法的流程图;
图3为本发明实施例提供的一种数据爬取装置的结构示意图;
图4为本发明实施例提供的一种数据爬取设备的结构示意图。
具体实施方式
本发明的核心是提供一种数据爬取方法、数据爬取装置、数据爬取设备及存储介质,用于适应现今目标数据源的验证机制的数据爬取办法,提高了电子元器件领域产品采集过程中数据爬取的成功率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种数据爬取方法的流程图。
在电子元器件领域,由于上游供应商通常并不会向电商平台提供完整的数据,需要到供应商网站或数据接口等目标数据源获取实时的产品信息数据。现有技术中的网络爬虫爬取数据的方法是一种按照预先制定的请求格式单向向目标数据源发起数据读取请求的方式,如果目标数据源设有验证机制或数据格式未知,则会重复向目标数据源发送数据读取请求而无法得到目标数据。而本发明实施例提供的数据爬取方法则是模拟用户登录网站获取数据的场景,通过目标数据源的交互,对目标数据源的验证机制或请求参数规则进行判断,生成符合目标数据源要求的目标数据采集请求,从而获得目标数据。
如图1所示,本发明实施例提供的数据爬取方法包括:
S101:根据数据采集清单确定目标数据源,并针对目标数据源生成初始读取请求。
基于预设的本地配置文件(配置有日志文件位置、数据库文件名称、消息队列名称等),监听采集清单(包括erp、邮件等)或消息队列(购物车、erp、订单等),当监听到采集清单或消息队列时,消息出列,即数据采集清单。根据数据采集清单判断目标数据源,并针对目标数据源生成初始读取请求。目标数据源的信息通常来源于协定的供应商、生产商等。
由于不同的目标数据源可能具有不同的验证机制或数据读取要求,对于不具有验证机制且已经访问通过的目标数据源,可以根据预存的请求参数规则设置请求参数,而对于具有验证机制或未访问过的目标数据源,则需要先发送初始读取请求,以获取通过目标数据源的验证机制或请求参数规则的钥匙。
在具体实施中,可以基于开源软件requests开发请求参数配置软件。如果请求状态码有301,302跳转的链接,可能会采集到相同的数据,因此可以设置请求参数配置软件在针对所述目标数据源生成初始读取请求之前,将目标数据源进行去重。
不同的网站数据源所需要的参数不一样,都需要单独设置请求参数,在设置好参数的基础上,再利用python请求库requests添加参数headers等发起请求。
S102:将初始读取请求发送至目标数据源,并接收目标数据源返回的反馈结果。
S103:根据反馈结果确定目标数据源的请求参数规则,并依据请求参数规则生成目标数据采集请求。
预先准备代理IP池和模拟浏览器,从而通过程序设计的方式模拟人为操作浏览器,以第三方身份登录目标数据源的网络。向目标数据源发起网络登录请求,预设requests、Webkit和Api等模式。
当发起网络请求的时候,需要设置headers请求头参数,例如:user-agent,referer,cookies,accept等参数信息,有的需要在获取第一次请求(初始读取请求)的反馈结果中提取关键词,进行编码转义生成新的请求参数,发起二次请求或多次请求。
由于采集同一目标数据往往需要向目标数据源发送多次请求,由于http请求是无状态的,各次请求之间上下文不连贯,常常会出现第二次请求和第一次请求结果相同、无法获取到目标数据的情况,因此,在依据请求参数规则生成目标数据采集请求时,可以同样利用开源软件requests将目标数据采集请求和初始读取请求设置同一个session(会话),保证上下文连贯。
对于步骤S103来说,根据目标数据源对请求(如初始读取请求)的反馈结果确定目标数据源的请求参数规则,如验证方式、请求参数配置方法等,并根据请求参数规则生成符合目标数据源的数据读取要求的获取数据采集清单指定的目标数据的目标数据采集请求。如目标数据源的反馈结果中包括验证码,则以验证码作为再次发起请求的钥匙。因此S103可以包括:
当解析反馈结果得到验证码时,根据验证码生成目标数据采集请求。
S104:将目标数据采集请求发送至目标数据源,以获取数据采集清单指定的目标数据。
将目标数据采集请求发送至目标数据源获取数据采集清单指定的目标数据后,将目标数据存储至指定位置。
本发明实施例提供的一种数据爬取方法,首先根据数据采集清单确定目标数据源,并针对目标数据源生成初始读取请求,将初始读取请求发送至目标数据源,并接收目标数据源返回的反馈结果,根据反馈结果确定目标数据源的请求参数规则,并依据请求参数规则生成符合目标数据源验证机制要求的目标数据采集请求,将目标数据采集请求发送至目标数据源,即可获取数据采集清单指定的目标数据。采用本发明实施例提供的数据爬取方法,在设置了验证机制等传统的网络爬虫爬取数据办法无法获取数据的目标数据源中也能够获取目标数据,提高了数据爬取成功率。
图2为本发明实施例提供的另一种数据爬取方法的流程图。
在上述实施例的基础上,在本发明实施例提供的数据爬取方法中,步骤S104具体包括:
S201:将目标数据采集请求发送至目标数据源,并接收目标数据源返回的状态码和返回数据。
S202:依据状态码和返回数据判断是否得到目标数据;如果是,则进入步骤S203;如果否,则进入步骤S204。
S203:输出目标数据。
S204:以状态码和返回数据为反馈结果,返回步骤S103。
根据目标数据源的反馈结果生成的目标数据采集请求可能还是无法得到目标数据,因此还需要再次对目标数据源发起请求。
目标数据源的反馈结果中包括状态码和返回数据,识别状态码或返回数据均可以判断是否接收到了目标数据,如果否,则需要根据状态码和返回数据重新对目标数据源的读取参数规则进行判别,再次生成目标数据采集请求发送至目标数据源,直至获得目标数据。
从目标数据源获取的目标数据通常为html文件,而在html文件中往往会有几百几千行数据,不利于存储与展示。因此在上述实施例的基础上,在步骤S203输出目标数据之前,还包括:
分别利用lxml软件和BeautifulSoup软件对目标数据进行过滤和解析,得到处理后的目标数据。
相应的,步骤S203具体为:
输出处理后的目标数据。
利用lxml软件将html文件生成树状文档,利用BeautifulSoup软件将html文件拆解成相互关联的对象,并实现快速准确的查找、提取关键词。
在此基础上,本发明实施例提供的数据爬取方法还可以包括:
按预设分类规则在处理后的目标数据中进行数据抽取,并将抽取结果存储于文档型数据库和关系型数据库。
在上述实施例的基础上,各步骤均可以利用线程池、进程池和协程池等技术,利用python语言支持进程池特性等,对多个采集任务进行分布采集、并行处理,增加采集效率,最后汇总目标数据进行存储或后续应用。
基于本发明各项实施例得到的目标数据,可以用于电商平台标准信息库的完善,也可以供业务系统(如产品信息展示系统、产品eccn属性查找系统、产品价格对比系统、大数据产品在线分析系统等)使用。
上文详述了数据爬取方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的数据爬取装置。
图3为本发明实施例提供的一种数据爬取装置的结构示意图。
如图3所示,本发明实施例提供的数据爬取装置包括:
初始配置单元301,用于根据数据采集清单确定目标数据源,并针对目标数据源生成初始读取请求;
第一交互单元302,用于将初始读取请求发送至目标数据源,并接收目标数据源返回的反馈结果;
请求配置单元303,用于根据反馈结果确定目标数据源的请求参数规则,并依据请求参数规则生成目标数据采集请求;
第二交互单元304,用于将目标数据采集请求发送至目标数据源,以获取数据采集清单指定的目标数据。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图4为本发明实施例提供的一种数据爬取设备的结构示意图。
如图4所示,本发明实施例提供的数据爬取设备包括:
存储器401,用于存储指令,所述指令包括上述任意一项实施例所述数据爬取方法的步骤;
处理器402,用于执行所述指令。
本实施例提供的数据爬取设备,由于可以通过处理器调用存储器存储的计算机程序,实现如上述任一实施例提供的数据爬取方法的步骤,所以本数据爬取设备具有同上述数据爬取方法同样的实际效果。
为了更好地理解本方案,本发明实施例还提供一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一实施例提到的数据爬取方法的步骤。
本实施例提供的存储介质,由于可以通过处理器调用存储介质存储的计算机程序,实现如上述任一实施例提供的数据爬取方法的步骤,所以本存储介质具有同上述数据爬取方法同样的实际效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置、设备及存储介质,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用装置,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种数据爬取方法、数据爬取装置、数据爬取设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种数据爬取方法,其特征在于,包括:
根据数据采集清单确定目标数据源,并针对所述目标数据源生成初始读取请求;
将所述初始读取请求发送至所述目标数据源,并接收所述目标数据源返回的反馈结果;
根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求;
将所述目标数据采集请求发送至所述目标数据源,以获取所述数据采集清单指定的目标数据。
2.根据权利要求1所述的数据爬取方法,其特征在于,在所述针对所述目标数据源生成初始读取请求之前,还包括:
将所述目标数据源进行去重。
3.根据权利要求1所述的数据爬取方法,其特征在于,所述依据所述请求参数规则生成目标数据采集请求,具体为:
依据所述请求参数规则生成与所述初始读取请求具有相同session的目标数据采集请求。
4.根据权利要求1所述的数据爬取方法,其特征在于,所述根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求,具体为:
当解析所述反馈结果得到验证码时,根据所述验证码生成所述目标数据采集请求。
5.根据权利要求1所述的数据爬取方法,其特征在于,所述将所述目标数据采集请求发送至所述目标数据源,以获取所述数据采集清单指定的目标数据,具体包括:
将所述目标数据采集请求发送至所述目标数据源,并接收所述目标数据源返回的状态码和返回数据;
依据所述状态码和所述返回数据判断是否得到所述目标数据;
如果是,则输出所述目标数据;
如果否,则以所述状态码和所述返回数据为所述反馈结果,返回所述根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求的步骤。
6.根据权利要求5所述的数据爬取方法,其特征在于,在所述输出所述目标数据之前,还包括:
分别利用lxml软件和BeautifulSoup软件对所述目标数据进行过滤和解析,得到处理后的目标数据;
相应的,所述输出所述目标数据,具体为:
输出所述处理后的目标数据。
7.根据权利要求6所述的数据爬取方法,其特征在于,还包括:
按预设分类规则在所述处理后的目标数据中进行数据抽取,并将抽取结果存储于文档型数据库和关系型数据库。
8.一种数据爬取装置,其特征在于,包括:
初始配置单元,用于根据数据采集清单确定目标数据源,并针对所述目标数据源生成初始读取请求;
第一交互单元,用于将所述初始读取请求发送至所述目标数据源,并接收所述目标数据源返回的反馈结果;
请求配置单元,用于根据所述反馈结果确定所述目标数据源的请求参数规则,并依据所述请求参数规则生成目标数据采集请求;
第二交互单元,用于将所述目标数据采集请求发送至所述目标数据源,以获取所述数据采集清单指定的目标数据。
9.一种数据爬取设备,其特征在于,包括:
存储器,用于存储指令,所述指令包括权利要求1至7任意一项所述数据爬取方法的步骤;
处理器,用于执行所述指令。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述数据爬取方法的步骤。
CN201910802820.5A 2019-08-28 2019-08-28 数据爬取方法、数据爬取装置、数据爬取设备及存储介质 Pending CN110489629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910802820.5A CN110489629A (zh) 2019-08-28 2019-08-28 数据爬取方法、数据爬取装置、数据爬取设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910802820.5A CN110489629A (zh) 2019-08-28 2019-08-28 数据爬取方法、数据爬取装置、数据爬取设备及存储介质

Publications (1)

Publication Number Publication Date
CN110489629A true CN110489629A (zh) 2019-11-22

Family

ID=68554850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910802820.5A Pending CN110489629A (zh) 2019-08-28 2019-08-28 数据爬取方法、数据爬取装置、数据爬取设备及存储介质

Country Status (1)

Country Link
CN (1) CN110489629A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231093A (zh) * 2020-12-14 2021-01-15 北京智慧星光信息技术有限公司 基于代码模板和协程池的数据采集方法、系统及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
US20170193569A1 (en) * 2015-12-07 2017-07-06 Brandon Nedelman Three dimensional web crawler
CN107506502A (zh) * 2017-10-10 2017-12-22 山东浪潮云服务信息科技有限公司 一种数据采集系统和数据采集方法
CN107784064A (zh) * 2017-07-27 2018-03-09 上海壹账通金融科技有限公司 网页数据处理方法、装置、计算机设备及计算机存储介质
CN108345641A (zh) * 2018-01-12 2018-07-31 深圳壹账通智能科技有限公司 一种爬取网站数据的方法、存储介质和服务器
CN109543085A (zh) * 2018-11-15 2019-03-29 中电科嘉兴新型智慧城市科技发展有限公司 数据提取方法、装置及计算机可读存储介质
CN109815380A (zh) * 2018-12-20 2019-05-28 山东中创软件工程股份有限公司 一种信息爬取方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193569A1 (en) * 2015-12-07 2017-07-06 Brandon Nedelman Three dimensional web crawler
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN107784064A (zh) * 2017-07-27 2018-03-09 上海壹账通金融科技有限公司 网页数据处理方法、装置、计算机设备及计算机存储介质
CN107506502A (zh) * 2017-10-10 2017-12-22 山东浪潮云服务信息科技有限公司 一种数据采集系统和数据采集方法
CN108345641A (zh) * 2018-01-12 2018-07-31 深圳壹账通智能科技有限公司 一种爬取网站数据的方法、存储介质和服务器
CN109543085A (zh) * 2018-11-15 2019-03-29 中电科嘉兴新型智慧城市科技发展有限公司 数据提取方法、装置及计算机可读存储介质
CN109815380A (zh) * 2018-12-20 2019-05-28 山东中创软件工程股份有限公司 一种信息爬取方法、装置、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231093A (zh) * 2020-12-14 2021-01-15 北京智慧星光信息技术有限公司 基于代码模板和协程池的数据采集方法、系统及电子设备

Similar Documents

Publication Publication Date Title
USRE48681E1 (en) System and method for tracking web interactions with real time analytics
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
US20160140626A1 (en) Web page advertisement configuration and optimization with visual editor and automatic website and webpage analysis
US20130226967A1 (en) Data acquisition system with on-demand and prioritized data fetching
CN111311136A (zh) 风控决策方法、计算机设备及存储介质
CN110020002A (zh) 事件处理方案的查询方法、装置、设备和计算机存储介质
CN110727761B (zh) 对象信息获取方法、装置及电子设备
CN105610819B (zh) 提供服务器信息的查询服务的方法和装置
CN110245953B (zh) 一种信息验证方法、信息验证装置及电子设备
CN109729044A (zh) 一种通用的互联网数据采集反反爬系统及方法
CN109614319B (zh) 自动化测试方法、装置、电子设备及计算机可读介质
CN110083752A (zh) 房源信息推荐方法、装置、设备及存储介质
CN112561565A (zh) 一种基于行为日志的用户需求识别方法
CN110795305A (zh) 用于处理和管理web流量数据的系统、装置和方法
CN110188291A (zh) 基于代理日志的文档处理
Ali et al. A hybrid DevOps process supporting software reuse: A pilot project
CN109462582B (zh) 文本识别方法、装置、服务器及存储介质
CN105450462B (zh) 在线状态的监测方法和系统
CN110489629A (zh) 数据爬取方法、数据爬取装置、数据爬取设备及存储介质
CN106998255A (zh) 一种反馈处理服务器、网络系统以及反馈处理方法
Liu Analysis of Cross‐Border E‐Commerce Commodities in Internet of Things Based on Semantic Traceability Algorithm
CN108256078A (zh) 信息获取方法和装置
CN106982147A (zh) 一种Web通讯应用的通讯监控方法和装置
CN115114519A (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122

RJ01 Rejection of invention patent application after publication