CN112836106A - 数据爬取应用的创建方法、装置、存储介质及设备 - Google Patents

数据爬取应用的创建方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN112836106A
CN112836106A CN201911168511.3A CN201911168511A CN112836106A CN 112836106 A CN112836106 A CN 112836106A CN 201911168511 A CN201911168511 A CN 201911168511A CN 112836106 A CN112836106 A CN 112836106A
Authority
CN
China
Prior art keywords
data
crawling
unit
data crawling
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911168511.3A
Other languages
English (en)
Inventor
何熠皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201911168511.3A priority Critical patent/CN112836106A/zh
Publication of CN112836106A publication Critical patent/CN112836106A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • G06F8/24Object-oriented

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据爬取应用的创建方法、装置、存储介质及设备。所述方法包括:定义用于输入所述数据爬取单元的请求参数,所述请求参数中至少包括:待爬取网址;基于所述请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据;根据所述响应数据,确定输出数据;将所述数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口根据所述请求参数定义,所述数据爬取应用的输出接口根据所述输出数据定义。由此,通过抽象封装方法生成能够进行数据爬取的数据爬取单元,并基于数据爬取单元生成数据爬取应用,供用户直接使用以实现数据爬取功能,无需重复编写代码,提升数据爬取的效率,可用性强。

Description

数据爬取应用的创建方法、装置、存储介质及设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种数据爬取应用的创建方法、装置、存储介质及设备。
背景技术
目前,对于数据的爬取,特别是对于网页数据的爬取,一般由代码定义一切,在需要爬取所需数据时,由专业人士编写代码。首先,对相关人员的专业素质要求很高,不具备编程基础的用户往往无法完成代码编写,也就无法实现数据爬取,人员成本很高。另外,具备相关专业知识的技术人员每次有爬取数据的需求,就需要重新编写一次代码,设置相关的参数,间接导致数据爬取效率不高。
发明内容
本公开的目的是提供一种数据爬取应用的创建方法、装置、存储介质及设备,以提升数据爬取效率。
为了实现上述目的,根据本公开的第一方面,提供一种数据爬取应用的创建方法,所述数据爬取应用至少包括一个数据爬取单元,所述方法包括:
定义用于输入所述数据爬取单元的请求参数,所述请求参数中至少包括:待爬取网址;
基于所述请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据;
根据所述响应数据,确定输出数据;
将所述数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口根据所述请求参数定义,所述数据爬取应用的输出接口根据所述输出数据定义。
可选地,所述根据所述响应数据,确定输出数据,包括:
接收针对所述响应数据输入的裁剪指令,所述裁剪指令用于指示对所述响应数据中的冗余信息进行剔除;
响应于所述裁剪指令对所述响应数据进行裁剪,得到所述输出数据;
和/或,
在得到所述输出数据之后,所述方法还包括以下至少一种:
根据预先设置的结果验证表达式,验证所述输出数据中的数据格式是否有效;
根据预先设置的翻页条件,判断在得到所述输出数据后是否需要继续执行翻页操作;
根据翻页参数,生成下一请求所需的实际参数,所述翻页参数是基于前一响应数据生成的。
可选地,所述请求参数中还包括以下至少一种:
参数类型信息,所述参数类型为输入、枚举、翻页、固定、计算和引用中的至少一种;
输入类型信息,所述输入类型信息为文本、数字、时间、时间范围和集合中的至少一种;
采用预设规则表达式表示的过滤字段,所述过滤字段用于通过所述预设规则表达式对输入的所述请求参数进行过滤,得到实际请求参数;
用于存储每种参数类型对应的额外信息的选项字段,其中,当所述参数类型为枚举时,所述选项字段中存储的额外信息是枚举值的字典;当所述参数类型为翻页时,所述选项字段中存储的额外信息是翻页条件、翻页间隔时间和最大翻页数;当所述参数类型为引用时,所述选项字段中存储的额外信息是引用的参数名。
可选地,所述数据爬取单元为多个时,所述将所述数据爬取单元进行封装,得到所述数据爬取应用,包括:
获取连接结构信息,所述连接结构信息中至少包括:数据爬取入口单元的标识信息,以及各个数据爬取单元之间的连接关系;
根据所述数据爬取结构信息中的标识信息,确定数据爬取入口单元,并从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,并将最后一个数据爬取单元确定为数据爬取出口单元;
对连接之后的所述各个数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口位于所述数据爬取入口单元,所述数据爬取应用的输出接口位于所述数据爬取出口单元。
可选地,所述连接关系包括依赖关系;
所述从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,包括:
若第一数据爬取单元为第二数据爬取单元的前一数据爬取单元、且所述第一数据爬取单元与第二数据爬取单元存在依赖关系,则将所述第二数据爬取单元的请求参数与所述第一数据爬取单元的输出数据进行绑定;以及
为所述第一数据爬取单元的输出数据设置配置信息,以将所述第一数据爬取单元的输出数据转化为对所述第二数据爬取单元的请求参数有效的形式。
可选地,所述连接关系包括传递关系;
所述从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,包括:
若第三数据爬取单元为第四数据爬取单元的前一数据爬取单元、且所述第三数据爬取单元与第四数据爬取单元存在传递关系,则在所述第三数据爬取单元和所述第四数据爬取单元之间定义过滤器,所述过滤器用于确定所述第三数据爬取单元的输出数据中能够传递给所述第四数据爬取单元的流转数据、以及所述流转数据传递到所述第四数据爬取单元的请求参数的数据转换规则。
可选地,所述数据爬取应用具有爬取任务参数配置界面,在得到所述数据爬取应用之后,所述方法还包括:
接收用户在所述任务参数配置界面上输入的任务参数;
采用所述数据爬取应用基于所述任务参数进行数据爬取,得到数据爬取结果。
根据本公开的第二方面,提供一种数据爬取应用的创建装置,所述数据爬取应用至少包括一个数据爬取单元,所述装置包括:
定义模块,用于定义用于输入所述数据爬取单元的请求参数,所述请求参数中至少包括:待爬取网址;
第一爬取模块,用于基于所述请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据;
第一确定模块,用于根据所述响应数据,确定输出数据;
封装模块,用于将所述数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口根据所述请求参数定义,所述数据爬取应用的输出接口根据所述输出数据定义。
可选地,所述第一确定模块包括:
接收子模块,用于接收针对所述响应数据输入的裁剪指令,所述裁剪指令用于指示对所述响应数据中的冗余信息进行剔除;
裁剪子模块,用于响应于所述裁剪指令对所述响应数据进行裁剪,得到所述输出数据;
和/或,
所述装置还包括以下至少一种:
验证模块,用于在得到所述输出数据之后,根据预先设置的结果验证表达式,验证所述输出数据中的数据格式是否有效;
判断模块,用于根据预先设置的翻页条件,判断在得到所述输出数据后是否需要继续执行翻页操作;
参数生成模块,用于根据翻页参数,生成下一请求所需的实际参数,所述翻页参数是基于前一响应数据生成的。
可选地,所述请求参数中还包括以下至少一种:
参数类型信息,所述参数类型为输入、枚举、翻页、固定、计算和引用中的至少一种;
输入类型信息,所述输入类型信息为文本、数字、时间、时间范围和集合中的至少一种;
采用预设规则表达式表示的过滤字段,所述过滤字段用于通过所述预设规则表达式对输入的所述请求参数进行过滤,得到实际请求参数;
用于存储每种参数类型对应的额外信息的选项字段,其中,当所述参数类型为枚举时,所述选项字段中存储的额外信息是枚举值的字典;当所述参数类型为翻页时,所述选项字段中存储的额外信息是翻页条件、翻页间隔时间和最大翻页数;当所述参数类型为引用时,所述选项字段中存储的额外信息是引用的参数名。
可选地,所述数据爬取单元为多个时,所述封装模块包括:
获取子模块,用于获取连接结构信息,所述连接结构信息中至少包括:数据爬取入口单元的标识信息,以及各个数据爬取单元之间的连接关系;
确定子模块,用于根据所述连接结构信息中的标识信息,确定数据爬取入口单元,并从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,并将最后一个数据爬取单元确定为数据爬取出口单元;
封装子模块,用于对连接之后的所述各个数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口位于所述数据爬取入口单元,所述数据爬取应用的输出接口位于所述数据爬取出口单元。
可选地,所述连接关系包括依赖关系;
所述确定子模块用于若第一数据爬取单元为第二数据爬取单元的前一数据爬取单元、且所述第一数据爬取单元与第二数据爬取单元存在依赖关系,则将所述第二数据爬取单元的请求参数与所述第一数据爬取单元的输出数据进行绑定;以及
为所述第一数据爬取单元的输出数据设置配置信息,以将所述第一数据爬取单元的输出数据转化为对所述第二数据爬取单元的请求参数有效的形式。
可选地,所述连接关系包括传递关系;
所述确定子模块用于若第三数据爬取单元为第四数据爬取单元的前一数据爬取单元、且所述第三数据爬取单元与第四数据爬取单元存在传递关系,则在所述第三数据爬取单元和所述第四数据爬取单元之间定义过滤器,所述过滤器用于确定所述第三数据爬取单元的输出数据中能够传递给所述第四数据爬取单元的流转数据、以及所述流转数据传递到所述第四数据爬取单元的请求参数的数据转换规则。
可选地,所述数据爬取应用具有爬取任务参数配置界面,所述装置还包括:
接收模块,用于在得到所述数据爬取应用之后,接收用户在所述任务参数配置界面上输入的任务参数;
数据爬取模块,用于采用所述数据爬取应用基于所述任务参数进行数据爬取,得到数据爬取结果。
根据本公开的第三方面,提供一种存储介质,其上存储有程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
根据本公开的第四方面,提供一种设备,所述设备包括:
至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;
其中,所述处理器、所述存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行本公开第一方面所述方法的步骤。
通过上述技术方案,定义用于输入数据爬取单元的请求参数,基于请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据,并根据响应数据,确定输出数据,以及,将数据爬取单元进行封装,得到数据爬取应用,其中,数据爬取应用的输入接口根据请求参数定义,数据爬取应用的输出接口根据输出数据定义。由此,通过抽象封装方法生成能够进行数据爬取的数据爬取单元,并基于数据爬取单元生成数据爬取应用,供用户直接使用以实现数据爬取功能,无需重复编写代码,提升数据爬取的效率,可用性强。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的数据爬取应用的创建方法的流程图;
图2是根据本公开提供的数据爬取应用的创建方法中,将数据爬取单元进行封装,得到数据爬取应用的步骤的一种示例性实现方式的流程图;
图3是根据本公开的一种实施方式提供的数据爬取应用的创建装置的框图;
图4是根据本公开的一种实施方式提供的设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据本公开的一种实施方式提供的数据爬取应用的创建方法的流程图。如图1所示,该方法可以包括以下步骤。
在步骤11中,定义用于输入数据爬取单元的请求参数。
请求参数中至少包括:待爬取网址。其中,待爬取网址用于反映参数所在的位置,爬虫的目标一般是网页、站点或接口,一般遵循标准的HTTP定义,包含:Query,Path,Body,Header。参数所在位置不同,对应的请求方法也不同。例如,当参数位置是Body时,请求的方法对应Post,需要设定Body模板,实际请求时,会按照模板填充实际的参数值。
另外,请求参数中还可以包括以下至少一种:参数类型信息、输入类型信息、采用预设规则表达式表示的过滤字段、用于存储每种参数类型对应的额外信息的选项字段。
其中,参数类型为输入、枚举、翻页、固定、计算和引用中的至少一种。在参数类型中,输入类型的参数的赋值来源于用户输入或者其他数据爬取单元;枚举类型的参数与输入类型类似,但仅限固定值,可由用户设置;翻页类型的参数用于指示翻页,翻页行为有两种类型,一种是显示的数字声明,另一种是依据上一次响应结果生成一个参数;固定类型的参数就是固定值,其数值不会发生变化;计算类型参数的参数值依赖系统生成,而非用户输入;引用类型的参数的参数值引用其他参数的值,自身无法进行任何设置。
输入类型信息为文本、数字、时间、时间范围和集合中的至少一种。输入类型信息所包含的输入类型能够反映参数的数据处理逻辑以及对外呈现的样式。例如,若输入类型为文本,则其对外呈现可以为输入框,再例如,若输入类型为时间,则其对外呈现可以为日期选择框。
过滤字段用于通过预设规则表达式对输入的请求参数进行过滤,得到实际请求参数。示例地,在参数类型是输入时,过滤字段指示输入内容到实际参数的填入的变换关系,比如用户输入一个Url,过滤字段过滤出其中包含的文章Id,实际获取数据时,采用该文章Id作为实际参数。示例地,可以以@+参数名称的方式在表达式中指代用户的原始输入值。再例如,在参数类型是计算时,过滤字段指示生成系统值的表达式。
选项字段用于存储额外的信息说明。其中,当参数类型为枚举时,选项字段中存储的额外信息是枚举值的字典;当参数类型为翻页时,选项字段中存储的额外信息是翻页条件(例如,bool类型的表达式)、翻页间隔时间和最大翻页数;当参数类型为引用时,选项字段中存储的额外信息是引用的参数名。
在步骤12中,基于请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据。
基于请求参数中的待爬取网址,进行数据爬取,也就是模拟数据爬取,能够获得对应于该请求参数的响应数据。
响应数据为针对请求参数进行数据爬取后所返回的内容,其中包含响应头、响应体、Cookies。
在步骤13中,根据响应数据,确定输出数据。
在一种可能的实施方式中,可以直接将响应数据确定为输出数据。
在另一种可能的实施方式中,经步骤12所得到的响应数据并不一定全部是有用的,可以对其中包括的冗余信息进行剔除,因此,步骤13可以包括以下步骤:
接收针对响应数据输入的裁剪指令;
响应于裁剪指令对响应数据进行裁剪,得到输出数据。
其中,裁剪指令用于指示对相应数据中的冗余信息进行剔除。
如上所述,响应数据可能包含了很多用不到的冗余信息,因此需要对响应数据进行剪裁,也就是根据裁剪指令对响应数据进行裁剪。在一种可能的情况中,裁剪指令可以由用户输入,用户选择自己需要的数据字段,形成对应的裁剪指令。在另一种可能的情况中,若用户未进行选择,还可自行生成裁剪指令。例如,生成用于保留响应数据的响应体的裁剪指令,由于大部分的有效数据在响应数据的响应体中,通过保留响应数据响应体而剔除掉其他数据的方式,可以在剔除冗余信息的同时保留大部分的有效数据。
其中,对数据的裁剪可以通过设定表达式进行数据转换,再由转换后的数据得到输出数据。数据爬取单元与外界的数据交换都是基于输出数据的。
在步骤14中,将数据爬取单元进行封装,得到数据爬取应用。
其中,数据爬取应用的输入接口根据请求参数定义,数据爬取应用的输出接口根据输出数据定义。
示例地,基于单个的数据爬取单元,将数据爬取单元进行封装,得到数据爬取应用,此时,数据爬取应用具有与数据爬取单元相同的数据爬取功能,能够实现最基本的数据爬取。
通过上述技术方案,定义用于输入数据爬取单元的请求参数,基于请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据,并根据响应数据,确定输出数据,以及,将数据爬取单元进行封装,得到数据爬取应用,其中,数据爬取应用的输入接口根据请求参数定义,数据爬取应用的输出接口根据输出数据定义。由此,通过抽象封装方法生成能够进行数据爬取的数据爬取单元,并基于数据爬取单元生成数据爬取应用,供用户直接使用以实现数据爬取功能,无需重复编写代码,提升数据爬取的效率,可用性强。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上文中的相应步骤及相关概念进行详细的说明。
在一种可能的实施方式中,在经步骤13得到输出数据之后,本公开提供的方法还可以包括以下中的至少一种:
根据预先设置的结果验证表达式,验证输出数据中的数据格式是否有效;
根据预先设置的翻页条件,判断在得到输出数据后是否需要继续执行翻页操作;
根据翻页参数,生成下一请求所需的实际参数,翻页参数是基于前一响应数据生成的。
其中,根据预先设置的结果验证表达式,验证输出数据中的数据格式是否有效,以实现数据有效性检查。例如,通过设定基于输出数据的表达式,返回一个布尔(bool)类型,用来检查目标返回的数据是否是有效的数据。
根据预先设置的翻页条件,判断在得到输出数据后是否需要继续执行翻页操作,以实现翻页条件设定。例如,通过设定基于输出数据的表达式,返回一个布尔类型,用于检查是否继续后续的翻页操作。
根据翻页参数,生成下一请求所需的实际参数,例如,在翻页参数的行为是依据上一次响应结果生成时,通过基于输出数据,设定参数实际值的提取表达式,生成下一页请求所需的实际参数。
在一种可能的实施方式中,对于深层次的数据爬取需求(例如,在搜索任务完成之后,根据搜索出的文章ID,获取文章详情,或者,根据搜索出的用户ID,获取用户信息),单个数据爬取单元构成的数据爬取应用显然无法满足这样复杂的数据爬取需求。此时,可以利用多个数据爬取单元得到数据爬取应用,也就是,数据爬取应用包括多个数据爬取单元。在这一实施方式中,步骤13可以包括以下步骤。
在步骤21中,获取连接结构信息。
其中,连接结构信息中至少包括:数据爬取入口单元的标识信息,以及各个数据爬取单元之间的连接关系。
在步骤22中,根据连接结构信息中的标识信息,确定数据爬取入口单元,并从数据爬取入口单元开始,根据连接关系依次连接各个数据爬取单元,并将最后一个数据爬取单元确定为数据爬取出口单元。
其中,数据爬取应用的输入接口位于数据爬取入口单元,数据爬取应用的输出接口位于数据爬取出口单元。
首先,在获取到连接结构信息后,首先根据数据爬取入口单元的标识信息,从已有的数据爬取单元中确定数据爬取入口单元。数据爬取入口单元为数据爬取应用的入口,数据爬取应用的数据爬取以该入口为起点。其中,数据爬取入口单元的标识信息可以是数据爬取单元的请求参数,从而,根据请求参数,可以从已有的数据爬取单元中确定出请求参数相匹配(例如,请求参数的类型相同)的数据爬取单元作为数据爬取入口单元。
而后,根据确定的数据爬取入口单元,从该数据爬取入口单元开始,根据连接结构信息中的各个数据爬取单元之间的连接关系,依次连接各个数据爬取单元,并将最后一个数据爬取单元确定为数据爬取出口单元。数据爬取出口单元为数据爬取应用的出口,数据爬取应用的数据爬取以该出口为结束,并通过该出口输出爬取到的数据。
连接关系可以有两种类型,一种是依赖(Dependency),一种是传递(Forward)。依赖是指在一个数据爬取单元执行前,需要依赖于其他数据爬取单元的输出值。传递是指以数据爬取单元执行完毕之后,会将获取的数据传递到下一个数据爬取单元。
在一种可能的实施例中,若连接关系包括依赖关系,相应地,从数据爬取入口单元开始,根据连接关系依次连接各个数据爬取单元,包括:
若第一数据爬取单元为第二数据爬取单元的前一数据爬取单元、且第一数据爬取单元与第二数据爬取单元存在依赖关系,则将第二数据爬取单元的请求参数与所述第一数据爬取单元的输出数据进行绑定;以及
为第一数据爬取单元的输出数据设置配置信息,以将第一数据爬取单元的输出数据转化为对第二数据爬取单元的请求参数有效的形式。
对于依赖关系,需要将当前数据爬取单元(第二数据爬取单元)的一个输入值,和其依赖的数据爬取单元(第一数据爬取单元)的一个输出值做绑定,这种绑定操作叫配对。每一个输入、输出值都有一个唯一的Key值,在后台会记录这些Key值的配对信息。并且,设置配置信息,就是对输出值设置一个转换表达式,将输出值转换成对输入值有效的形式。在某些情况中,被依赖的数据爬取单元(第一数据爬取单元)的输入值,还依赖于当前数据爬取单元(第二数据爬取单元)的一些元数据信息,比如url等,此时,允许当前数据爬取单元(第二数据爬取单元)向被依赖的数据爬取单元(第一数据爬取单元)传递参数,并指定参数所需要对应的输入项的Key值以及转换表达式。
需要说明的是,上述“第一”、“第二”用于对不同的数据爬取单元进行区分,并非用于限定这些数据爬取单元所执行的功能的顺序或者相互依存关系。
在一种可能的实施例中,连接关系包括传递关系,相应地,从数据爬取入口单元开始,根据连接关系依次连接各个数据爬取单元,包括:
若第三数据爬取单元为第四数据爬取单元的前一数据爬取单元、且第三数据爬取单元与第四数据爬取单元存在传递关系,则在第三数据爬取单元和所述第四数据爬取单元之间定义过滤器。
其中,过滤器用于确定第三数据爬取单元的输出数据中能够传递给第四数据爬取单元的流转数据、以及流转数据传递到第四数据爬取单元的请求参数的数据转换规则。
对于传递关系,需要定义一个过滤器(表达式)。过滤器的作用在于:设定哪些数据可以流转到下游、设定数据的转换格式、以及将当前数据爬取单元(第三数据爬取单元)产生的流转数据传递到它的下一个数据爬取单元(第四数据爬取单元)中去。过滤器的输出类型可以是一个数组,在后续的处理中,将这个数组中的每个元素分离出来,作为下一数据爬取单元(第四数据爬取单元)输入项的值,这之中也包含配对过程,后台会记录与哪些输入项的值配对,以及相应的转换表达式。
需要说明的是,上述“第三”、“第四”用于对不同的数据爬取单元进行区分,并非用于限定这些数据爬取单元所执行的功能的顺序或者相互依存关系。
另外,在传递数据过程中还可以在第三数据爬取单元和所述第四数据爬取单元之间设置一个去重器,去重器可以用于设定去重的Key和去重的范围,比如按照任务返回去重。
在步骤23中,对连接之后的各个数据爬取单元进行封装,得到数据爬取应用。
通过上述方式,在面对较为复杂的数据爬取需求时,还可以基于连接结构信息对已定义的数据爬取单元进行连接,并从数据爬取入口单元开始、到数据爬取出口单元为止,对连接之后的各个数据爬取单元进行封装,以得到最终的数据爬取应用,以此应对深层次的数据爬取需求,具有较强的灵活性,应用场景更加丰富。
在一种可能的实施方式中,数据爬取应用具有爬取任务参数配置界面,以及,在得到所述数据爬取应用之后,本公开提供的方法还可以包括以下步骤:
接收用户在所述任务参数配置界面上输入的任务参数;
采用数据爬取应用基于任务参数进行数据爬取,得到数据爬取结果。
在得到数据爬取应用后,可以为用户提供爬取任务参数配置界面,以供用户使用。其中,每一数据爬取单元的请求参数中,对应于需要用户手动输入(即,数据来源并非数据爬取单元)的请求参数,均会为用户显示相应的界面显示组件。并且,界面显示组件的呈现于输入类型有关,例如,文本类型对应文本输入框、数字类型对应数字输入框、时间类型对应日期输入框、枚举类型对应下拉框、翻页类型对应数组输入框。
用户在输入框输入相应的参数后,后台会接收用户通过任务参数配置界面输入的任务参数,并采用数据爬取应用基于该任务参数进行数据爬取,得到数据爬取结果。
其中,在接收到用户通过任务参数配置界面输入的任务参数后,后台会将实际参数值绑定到数据爬取应用的相应请求参数中,进而基于数据爬取应用发起真实的请求,以获得数据爬取结果。
示例地,将实际参数值绑定到数据爬取应用的相应请求参数中,可以包括以下步骤:
为每个输入数据创建请求对象,其中,请求对象的属性为Query、Header、Path、Body和Auth中的一者;
根据输入数据对应的请求参数的参数所在位置,将参数所在位置相同的输入数据划分为一个分组,并针对每个分组,依次将各个输入数据对应的请求对象作为目标请求对象,并执行如下操作:
将目标请求对象的属性设置为与其参数所在位置对应的属性;
遍历目标请求对象的参数所在位置对应的每个参数,并将目标请求对象对应的输入数据填充至相应的参数中;
遍历实际爬取参数中属于引用类型的参数,并将引用类型的参数的参数值更新为其引用的参数的值。
在上述步骤中,遍历目标请求对象的参数所在位置对应的每个参数,并将目标请求对象对应的输入数据填充至相应的参数中,可以包括以下步骤:
若目标请求对应的参数类型为引用或翻页,确定新的目标请求对象,并返回将目标请求对象的属性设置为与其参数所在位置对应的属性这一步骤;
将目标请求对象对应的输入数据的类型转换为其对应的参数类型,并填充至目标请求对象对应的参数所在位置;
若目标请求对象的属性为除Body外的属性,将目标请求对象对应的输入数据填充至目标请求对象对应的参数所在位置;
若目标请求对象的属性为Body且为json类型,利用目标请求对象的输入数据,对Body模板内的相应值进行替换。
一般来说,需要进行数据填充的参数为非固定参数,可分为几种情况,因此,将目标请求对象对应的输入数据的类型转换为其对应的参数类型,并填充至目标请求对象对应的参数所在位置,可以采用如下方式中的任意一者或几者:
在参数设置有过滤字段的情况下,若类型为计算,直接利用过滤字段将计算返回值填充至参数所在位置,或者,将输入数据利用过滤字段转换并填充至参数所在位置;
在参数未设置有过滤字段的情况下,直接将输入数据转换为目标请求对象对应的参数类型,并填充至参数所在位置。
在参数未设置有过滤字段的情况下,可以对数据类型进行强制转换。
通过上述方式,基于已生成的数据爬取应用,在数据爬取应用对应的可视化界面输入实际的任务参数,即可获得数据爬取应用的数据爬取结果,可提升数据爬取效率。
图3是根据本公开的一种实施方式提供的数据爬取应用的创建装置的框图。该数据爬取应用至少包括一个数据爬取单元,如图3所示,所述装置30包括:
定义模块31,用于定义用于输入所述数据爬取单元的请求参数,所述请求参数中至少包括:待爬取网址;
第一爬取模块32,用于基于所述请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据;
第一确定模块33,用于根据所述响应数据,确定输出数据;
封装模块34,用于将所述数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口根据所述请求参数定义,所述数据爬取应用的输出接口根据所述输出数据定义。
可选地,所述第一确定模块33包括:
接收子模块,用于接收针对所述响应数据输入的裁剪指令,所述裁剪指令用于指示对所述响应数据中的冗余信息进行剔除;
裁剪子模块,用于响应于所述裁剪指令对所述响应数据进行裁剪,得到所述输出数据;
和/或,
所述装置30还包括以下至少一种:
验证模块,用于在得到所述输出数据之后,根据预先设置的结果验证表达式,验证所述输出数据中的数据格式是否有效;
判断模块,用于根据预先设置的翻页条件,判断在得到所述输出数据后是否需要继续执行翻页操作;
参数生成模块,用于根据翻页参数,生成下一请求所需的实际参数,所述翻页参数是基于前一响应数据生成的。
可选地,所述请求参数中还包括以下至少一种:
参数类型信息,所述参数类型为输入、枚举、翻页、固定、计算和引用中的至少一种;
输入类型信息,所述输入类型信息为文本、数字、时间、时间范围和集合中的至少一种;
采用预设规则表达式表示的过滤字段,所述过滤字段用于通过所述预设规则表达式对输入的所述请求参数进行过滤,得到实际请求参数;
用于存储每种参数类型对应的额外信息的选项字段,其中,当所述参数类型为枚举时,所述选项字段中存储的额外信息是枚举值的字典;当所述参数类型为翻页时,所述选项字段中存储的额外信息是翻页条件、翻页间隔时间和最大翻页数;当所述参数类型为引用时,所述选项字段中存储的额外信息是引用的参数名。
可选地,所述数据爬取单元为多个时,所述封装模块34包括:
获取子模块,用于获取连接结构信息,所述连接结构信息中至少包括:数据爬取入口单元的标识信息,以及各个数据爬取单元之间的连接关系;
确定子模块,用于根据所述连接结构信息中的标识信息,确定数据爬取入口单元,并从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,并将最后一个数据爬取单元确定为数据爬取出口单元;
封装子模块,用于对连接之后的所述各个数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口位于所述数据爬取入口单元,所述数据爬取应用的输出接口位于所述数据爬取出口单元。
可选地,所述连接关系包括依赖关系;
所述确定子模块用于若第一数据爬取单元为第二数据爬取单元的前一数据爬取单元、且所述第一数据爬取单元与第二数据爬取单元存在依赖关系,则将所述第二数据爬取单元的请求参数与所述第一数据爬取单元的输出数据进行绑定;以及
为所述第一数据爬取单元的输出数据设置配置信息,以将所述第一数据爬取单元的输出数据转化为对所述第二数据爬取单元的请求参数有效的形式。
可选地,所述连接关系包括传递关系;
所述确定子模块用于若第三数据爬取单元为第四数据爬取单元的前一数据爬取单元、且所述第三数据爬取单元与第四数据爬取单元存在传递关系,则在所述第三数据爬取单元和所述第四数据爬取单元之间定义过滤器,所述过滤器用于确定所述第三数据爬取单元的输出数据中能够传递给所述第四数据爬取单元的流转数据、以及所述流转数据传递到所述第四数据爬取单元的请求参数的数据转换规则。
可选地,所述数据爬取应用具有爬取任务参数配置界面,所述装置30还包括:
接收模块,用于在得到所述数据爬取应用之后,接收用户在所述任务参数配置界面上输入的任务参数;
数据爬取模块,用于采用所述数据爬取应用基于所述任务参数进行数据爬取,得到数据爬取结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
所述数据爬取应用的创建装置包括处理器和存储器,上述定义模块、第一爬取模块、第一确定模块和封装模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升数据爬取效率。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据爬取应用的创建方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据爬取应用的创建方法。
本发明实施例提供了一种设备,如图4所示,设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703;其中,处理器701、存储器702通过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行上述的数据爬取应用的创建方法。本文中的设备可以是服务器、PC等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
定义用于输入所述数据爬取单元的请求参数,所述请求参数中至少包括:待爬取网址;
基于所述请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据;
根据所述响应数据,确定输出数据;
将所述数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口根据所述请求参数定义,所述数据爬取应用的输出接口根据所述输出数据定义。
可选地,所述根据所述响应数据,确定输出数据,包括:
接收针对所述响应数据输入的裁剪指令,所述裁剪指令用于指示对所述响应数据中的冗余信息进行剔除;
响应于所述裁剪指令对所述响应数据进行裁剪,得到所述输出数据;
和/或,
在得到所述输出数据之后,所述方法还包括以下至少一种:
根据预先设置的结果验证表达式,验证所述输出数据中的数据格式是否有效;
根据预先设置的翻页条件,判断在得到所述输出数据后是否需要继续执行翻页操作;
根据翻页参数,生成下一请求所需的实际参数,所述翻页参数是基于前一响应数据生成的。
可选地,所述请求参数中还包括以下至少一种:
参数类型信息,所述参数类型为输入、枚举、翻页、固定、计算和引用中的至少一种;
输入类型信息,所述输入类型信息为文本、数字、时间、时间范围和集合中的至少一种;
采用预设规则表达式表示的过滤字段,所述过滤字段用于通过所述预设规则表达式对输入的所述请求参数进行过滤,得到实际请求参数;
用于存储每种参数类型对应的额外信息的选项字段,其中,当所述参数类型为枚举时,所述选项字段中存储的额外信息是枚举值的字典;当所述参数类型为翻页时,所述选项字段中存储的额外信息是翻页条件、翻页间隔时间和最大翻页数;当所述参数类型为引用时,所述选项字段中存储的额外信息是引用的参数名。
可选地,所述数据爬取单元为多个时,所述将所述数据爬取单元进行封装,得到所述数据爬取应用,包括:
获取连接结构信息,所述连接结构信息中至少包括:数据爬取入口单元的标识信息,以及各个数据爬取单元之间的连接关系;
根据所述数据爬取结构信息中的标识信息,确定数据爬取入口单元,并从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,并将最后一个数据爬取单元确定为数据爬取出口单元;
对连接之后的所述各个数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口位于所述数据爬取入口单元,所述数据爬取应用的输出接口位于所述数据爬取出口单元。
可选地,所述连接关系包括依赖关系;
所述从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,包括:
若第一数据爬取单元为第二数据爬取单元的前一数据爬取单元、且所述第一数据爬取单元与第二数据爬取单元存在依赖关系,则将所述第二数据爬取单元的请求参数与所述第一数据爬取单元的输出数据进行绑定;以及
为所述第一数据爬取单元的输出数据设置配置信息,以将所述第一数据爬取单元的输出数据转化为对所述第二数据爬取单元的请求参数有效的形式。
可选地,所述连接关系包括传递关系;
所述从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,包括:
若第三数据爬取单元为第四数据爬取单元的前一数据爬取单元、且所述第三数据爬取单元与第四数据爬取单元存在传递关系,则在所述第三数据爬取单元和所述第四数据爬取单元之间定义过滤器,所述过滤器用于确定所述第三数据爬取单元的输出数据中能够传递给所述第四数据爬取单元的流转数据、以及所述流转数据传递到所述第四数据爬取单元的请求参数的数据转换规则。
可选地,所述数据爬取应用具有爬取任务参数配置界面,在得到所述数据爬取应用之后,所述方法还包括:
接收用户在所述任务参数配置界面上输入的任务参数;
采用所述数据爬取应用基于所述任务参数进行数据爬取,得到数据爬取结果。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据爬取应用的创建方法,其特征在于,所述数据爬取应用至少包括一个数据爬取单元,所述方法包括:
定义用于输入所述数据爬取单元的请求参数,所述请求参数中至少包括:待爬取网址;
基于所述请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据;
根据所述响应数据,确定输出数据;
将所述数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口根据所述请求参数定义,所述数据爬取应用的输出接口根据所述输出数据定义。
2.根据权利要求1所述的方法,其特征在于,所述根据所述响应数据,确定输出数据,包括:
接收针对所述响应数据输入的裁剪指令,所述裁剪指令用于指示对所述响应数据中的冗余信息进行剔除;
响应于所述裁剪指令对所述响应数据进行裁剪,得到所述输出数据;
和/或,
在得到所述输出数据之后,所述方法还包括以下至少一种:
根据预先设置的结果验证表达式,验证所述输出数据中的数据格式是否有效;
根据预先设置的翻页条件,判断在得到所述输出数据后是否需要继续执行翻页操作;
根据翻页参数,生成下一请求所需的实际参数,所述翻页参数是基于前一响应数据生成的。
3.根据权利要求1所述的方法,其特征在于,所述请求参数中还包括以下至少一种:
参数类型信息,所述参数类型为输入、枚举、翻页、固定、计算和引用中的至少一种;
输入类型信息,所述输入类型信息为文本、数字、时间、时间范围和集合中的至少一种;
采用预设规则表达式表示的过滤字段,所述过滤字段用于通过所述预设规则表达式对输入的所述请求参数进行过滤,得到实际请求参数;
用于存储每种参数类型对应的额外信息的选项字段,其中,当所述参数类型为枚举时,所述选项字段中存储的额外信息是枚举值的字典;当所述参数类型为翻页时,所述选项字段中存储的额外信息是翻页条件、翻页间隔时间和最大翻页数;当所述参数类型为引用时,所述选项字段中存储的额外信息是引用的参数名。
4.根据权利要求1所述的方法,其特征在于,所述数据爬取单元为多个时,所述将所述数据爬取单元进行封装,得到所述数据爬取应用,包括:
获取连接结构信息,所述连接结构信息中至少包括:数据爬取入口单元的标识信息,以及各个数据爬取单元之间的连接关系;
根据所述连接结构信息中的标识信息,确定数据爬取入口单元,并从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,并将最后一个数据爬取单元确定为数据爬取出口单元;
对连接之后的所述各个数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口位于所述数据爬取入口单元,所述数据爬取应用的输出接口位于所述数据爬取出口单元。
5.根据权利要求4所述的方法,其特征在于,所述连接关系包括依赖关系;
所述从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,包括:
若第一数据爬取单元为第二数据爬取单元的前一数据爬取单元、且所述第一数据爬取单元与第二数据爬取单元存在依赖关系,则将所述第二数据爬取单元的请求参数与所述第一数据爬取单元的输出数据进行绑定;以及
为所述第一数据爬取单元的输出数据设置配置信息,以将所述第一数据爬取单元的输出数据转化为对所述第二数据爬取单元的请求参数有效的形式。
6.根据权利要求4所述的方法,其特征在于,所述连接关系包括传递关系;
所述从所述数据爬取入口单元开始,根据所述连接关系依次连接各个所述数据爬取单元,包括:
若第三数据爬取单元为第四数据爬取单元的前一数据爬取单元、且所述第三数据爬取单元与第四数据爬取单元存在传递关系,则在所述第三数据爬取单元和所述第四数据爬取单元之间定义过滤器,所述过滤器用于确定所述第三数据爬取单元的输出数据中能够传递给所述第四数据爬取单元的流转数据、以及所述流转数据传递到所述第四数据爬取单元的请求参数的数据转换规则。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述数据爬取应用具有爬取任务参数配置界面,在得到所述数据爬取应用之后,所述方法还包括:
接收用户在所述任务参数配置界面上输入的任务参数;
采用所述数据爬取应用基于所述任务参数进行数据爬取,得到数据爬取结果。
8.一种数据爬取应用的创建装置,其特征在于,所述数据爬取应用至少包括一个数据爬取单元,所述装置包括:
定义模块,用于定义用于输入所述数据爬取单元的请求参数,所述请求参数中至少包括:待爬取网址;
第一爬取模块,用于基于所述请求参数中的待爬取网址,执行模拟数据爬取,获得响应数据;
第一确定模块,用于根据所述响应数据,确定输出数据;
封装模块,用于将所述数据爬取单元进行封装,得到所述数据爬取应用,其中,所述数据爬取应用的输入接口根据所述请求参数定义,所述数据爬取应用的输出接口根据所述输出数据定义。
9.一种存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种设备,其特征在于,所述设备包括:
至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;
其中,所述处理器、所述存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1-7中任一项所述方法的步骤。
CN201911168511.3A 2019-11-25 2019-11-25 数据爬取应用的创建方法、装置、存储介质及设备 Pending CN112836106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911168511.3A CN112836106A (zh) 2019-11-25 2019-11-25 数据爬取应用的创建方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911168511.3A CN112836106A (zh) 2019-11-25 2019-11-25 数据爬取应用的创建方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN112836106A true CN112836106A (zh) 2021-05-25

Family

ID=75922490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911168511.3A Pending CN112836106A (zh) 2019-11-25 2019-11-25 数据爬取应用的创建方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN112836106A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739401A (zh) * 2008-11-26 2010-06-16 富士通株式会社 网络搜索方法和设备
CN104750804A (zh) * 2015-03-24 2015-07-01 南京途牛科技有限公司 一种插件式可配置的垂直领域网络爬虫实现方法
EP3107009A1 (en) * 2015-06-19 2016-12-21 Tata Consultancy Services Limited Self-learning based crawling and rule-based data mining for automatic information extraction
CN106354843A (zh) * 2016-08-31 2017-01-25 虎扑(上海)文化传播股份有限公司 网络爬虫系统以及方法
CN106570023A (zh) * 2015-10-10 2017-04-19 北京国双科技有限公司 一种爬虫系统自定义去重的方法及装置
CN108334585A (zh) * 2018-01-29 2018-07-27 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备
CN108563797A (zh) * 2018-05-11 2018-09-21 珠海横琴盛达兆业科技投资有限公司 一种网页内容有分页的抓取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739401A (zh) * 2008-11-26 2010-06-16 富士通株式会社 网络搜索方法和设备
CN104750804A (zh) * 2015-03-24 2015-07-01 南京途牛科技有限公司 一种插件式可配置的垂直领域网络爬虫实现方法
EP3107009A1 (en) * 2015-06-19 2016-12-21 Tata Consultancy Services Limited Self-learning based crawling and rule-based data mining for automatic information extraction
CN106570023A (zh) * 2015-10-10 2017-04-19 北京国双科技有限公司 一种爬虫系统自定义去重的方法及装置
CN106354843A (zh) * 2016-08-31 2017-01-25 虎扑(上海)文化传播股份有限公司 网络爬虫系统以及方法
CN108334585A (zh) * 2018-01-29 2018-07-27 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备
CN108563797A (zh) * 2018-05-11 2018-09-21 珠海横琴盛达兆业科技投资有限公司 一种网页内容有分页的抓取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚莎;朱应钦;梁艳华;: "基于Python的可配置自动化爬虫系统的设计与实现", 电脑迷, no. 10, 12 September 2018 (2018-09-12) *

Similar Documents

Publication Publication Date Title
CN108228166B (zh) 一种基于模板的后端代码生成方法及系统
CN109062925A (zh) 自动生成insert语句的方法、装置、计算机设备及存储介质
CN110069259B (zh) 基于idl文件的解析方法、装置、电子设备和存储介质
CN111199054B (zh) 一种数据脱敏方法、装置及数据脱敏设备
CN112615759B (zh) 全链路压测组件、全链路压测方法及装置
CN110704418A (zh) 区块链信息查询方法、装置和设备
CN110507986B (zh) 动画信息的处理方法和装置
CN109815231A (zh) 数据分片方法、装置、计算机设备和存储介质
CN103152391A (zh) 一种日志输出方法和装置
CN112037061A (zh) 区块链中交易的处理方法、装置、电子设备及存储介质
CN111615688A (zh) 一种断言验证代码绑定方法及装置
CN112187713B (zh) 报文转换的方法、装置、计算机设备和存储介质
CN106547658A (zh) 一种自动化测试方法及装置
CN105511935B (zh) 资源索引值的获取方法及装置
CN108460068A (zh) 报表导入导出的方法、装置、存储介质及终端
CN111859076A (zh) 数据爬取方法、装置、计算机设备及计算机可读存储介质
CN111104158A (zh) 一种软件打包的方法、装置、计算机设备及存储介质
CN114398293A (zh) 接口测试用例生成方法、电子设备和存储介质
CN108924185A (zh) 接口生成方法及装置
CN115145708A (zh) 系统仿真任务调用方法、装置、计算机设备和存储介质
CN111240772A (zh) 一种基于区块链的数据处理方法、装置及存储介质
CN106294700A (zh) 一种日志的存储与读取方法及装置
CN112836106A (zh) 数据爬取应用的创建方法、装置、存储介质及设备
CN113032374A (zh) 数据处理方法、装置、介质及设备
CN113485746B (zh) 应用程序接口文档的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination