CN111222027A - 基于微服务架构的分布式网络爬虫数据提取系统及方法 - Google Patents

基于微服务架构的分布式网络爬虫数据提取系统及方法 Download PDF

Info

Publication number
CN111222027A
CN111222027A CN202010002302.8A CN202010002302A CN111222027A CN 111222027 A CN111222027 A CN 111222027A CN 202010002302 A CN202010002302 A CN 202010002302A CN 111222027 A CN111222027 A CN 111222027A
Authority
CN
China
Prior art keywords
data
crawler
module
page
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010002302.8A
Other languages
English (en)
Inventor
葛又嘉
章韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010002302.8A priority Critical patent/CN111222027A/zh
Publication of CN111222027A publication Critical patent/CN111222027A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种基于微服务架构的分布式网络爬虫数据提取系统及方法,通过当前业界比较前沿的微服务架构理念,将整个爬虫系统拆分成数据提取模块,请求预处理模块,数据分布式存储模块,下载模块等,基于这套系统和云架构,用户可以实现分布式爬虫系统的快速部署,支持水平扩展和容器化部署,可以大大提升爬虫系统的可拓展性及快速部署的能力。

Description

基于微服务架构的分布式网络爬虫数据提取系统及方法
技术领域
本发明涉及一种基于微服务架构的分布式网络爬虫数据提取系统及方法,属于大数据分布技术领域。
背景技术
随着网络在人们生活中的日益普及,也催生出了越来越多的新技术,而网络爬虫就是其中一项运用相当广泛的技术,据统计,当今网络世界中的将近80%的流量来自于各大互联网公司或者个人开发者所开发的网络爬虫。随着网页技术的日益发展,互联网上的数据也随之呈现出爆炸式的增长速度,与此同时,人们对网页信息提取的要求越来越高,对信息抓取的专业性与通用性的要求也越来越高,从而催生出了种类繁多的爬虫系统,当前的爬虫系统根据其体系结构的不同可以区分成通用抓取型爬虫,特定领域垂直爬虫,深度URL(uniform resource locator,统一资源定位系统)抓取爬虫等不同类型。网络爬虫的主要原理是通过给定的URL链接去模拟用户访问页面,将被访问页面的数据下载到本地,并且根据指定的提取策略在所爬取道德页面信息中获取所需的关键信息,并对获取到的URL链接进行深度爬取。
随着软件开发架构的日益演进,人们提出了一种全新的软件开发架构,这种理念被称为微服务开发理念,通常而言,微服务是一种软件架构的思想和风格,其核心理念是将原本的一站式应用依据其不同功能划分成一组小的服务,从而彻底的实现跨耦合,每个服务运行在自己的进程中,服务与服务之间通过一些轻量级的通信方式进行相互通信,甚至于各个服务可以使用不同的语言进行开发,而对整个微服务系统就可以通过一个完善的监控平台去实现全链路监控,尤其是在开发一个分布式爬虫系统时,可以将整个爬虫系统依据其各个子模块的功能不同去划分出不同的微服务模块,例如请求调度微服务,页面下载微服务,请求预处理微服务等。同时,通过在各个服务之间采用的熔断措施,避免出现传统软件架构中某部分业务逻辑崩溃而导致整个系统不可用的场景,从而大大提高系统的可靠性。
目前传统的网络爬虫系统,功能模块划分不清晰,功能与功能之间耦合度较高,且面对大数据量时无法具备高效的数据吞吐与爬取效率并重。功能与功能之间不存在类似微服务模块之间的隔离划分与系统熔断处理,从而导致存在若一部分功能逻辑崩溃后导致整个系统雪崩的可能性。
发明内容
本发明所要解决的技术问题是,克服现有技术的不足而提供一种大数据场景下基于微服务架构的分布式网络爬虫数据提取系统及方法,针对目前的传统网络爬虫系统,本发明一方面通过微服务架构的解耦可以使得功能模块的划分更清晰,利用微服务架构相关技术可以避免一部分功能逻辑崩溃从而导致的系统整体雪崩,另一方面结合了消息队列和文档数据库的使用,可以大大提升爬虫系统的整体吞吐性能。
本发明提供一种基于微服务架构的分布式网络爬虫数据提取系统,包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块;数据提取模块,用于将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息;请求预处理模块,用于通过负载均衡算法将爬虫任务请求投递至消息队列中;数据分布式存储模块,用于将解析后的页面数据存放至MongoDB这样的文档型数据库中;下载模块,用于从消息队列中取出相应的爬虫任务,从数据池中取出相应数据组装成完整的爬虫请求,通过模块中的多线程下载器开启下载,并将下载得到的页面信息写入消息队列中。
本发明通过微服务与爬虫系统的相结合,开发出一个高性能,易监控,高可靠性的分布式爬虫系统。该系统通过当前业界比较前沿的微服务架构理念,将整个爬虫系统拆分成数据提取模块,请求预处理模块,数据分布式存储模块,页面解析模块等,基于这套系统和云架构,用户可以实现分布式爬虫系统的快速部署,支持水平扩展和容器化部署,可以大大提升爬虫系统的可拓展性及快速部署的能力。
本发明的整个系统中各个模块彼此之间互相隔离,模块与模块之间通过HTTP(hypertext transfer protocol,超文本传输协议)或者RPC(Remote Procedure Call,远程过程调用)通信,并且各个模块之间基于spring cloud hystrix做了服务熔断处理,一但有模块发生奔溃,因为熔断处理中存在的断路器模型,可以保证其他模块不发生雪崩式服务失败。
本发明还提供一种基于微服务架构的分布式网格爬虫数据提取方法,包括以下步骤:
S01、用户在可视化界面提交爬虫任务数据;
S02、请求预处理模块采用负载均衡算法将爬虫任务信息投递至消息队列;
S03、将页面提取规则以及步骤S02中生成的全局唯一ID作为缓存对象缓存至内存数据库中;
S04、下载模块根据任务信息抓取页面数据;
S05、将下载模块抓取到的页面信息写入消息队列中,同时更新爬虫任务状态;
S06、页面解析模块从消息队列中提取页面信息,然后使用jsoup(是一款Java 的HTML解析器)进行解析,并将解析后的数据存储到数据库中;
S07、爬虫控制台可视化数据展示。
本发明进一步优化的技术方案如下:
在步骤S01中,用户从可视化界面上输入指定爬取的URL路径,同时用户确定该类型页面所要提取的字段属性及提取规则,提取规则支持CSS和XPath两种主流提取规则,指定爬取的URL路径以及该类型页面所要提取的字段属性和提取规则等组成爬虫任务数据。
在步骤S02中,请求预处理模块获取对应的请求体信息,并在请求预处理模块对该请求进行过滤,然后将URL路径信息以及生成的一个全局唯一ID写入消息队列,依赖负载均衡算法将请求分散到不同机器上。
本发明使用消息队列,大大提升了整体系统的吞吐量,各个模块之间做到了解耦,彼此作为生产端生产数据和消费端消费数据,而消息队列则作为存放数据的载体。
在步骤S04中,下载模块作为消费端从消息队列中不断获取到爬取页面信息,并根据该信息的URL类型从cookie池和user-agent池获取到对应的数据(即下载模块从数据池中获取user-agent和cookie值),user-agent值和cookie值同URL组合成完整的请求头数据,在下载模块中内置了一个线程池,可以开启多线程下载,最大程度上利用机器资源。
本发明在应对网站反爬的措施场景下,通过维护一个cookie池和user-agent池,通过轮训算法,从池中取出数据组合至请求头,从而加大爬取的成功率。
在步骤S06中,页面解析模块从消息队列中获取步骤S04抓取到的页面信息,并且页面解析模块从Redis(键值对类型数据库)中根据ID取出该页面对应的数据提取规则(即从缓存中获取页面信息解析规则),使用jsoup(HTML文件解析工具)进行解析,并将解析后的数据储到MongoDB这样的文档型数据库中。这样,在爬虫系统中会存在海量爬取下来的页面数据信息,针对这类文档型信息,采用了业界开源的MongoDB数据库存储。
在步骤S07中,用户在可视化界面上看到各自爬虫任务的运行状况和数据提取结果。
本发明采用以上技术方案与现有技术相比,具有以下技术效果 :
1.针对目前的传统网络爬虫系统,本发明通过微服务架构的解耦可以使得功能模块的划分更清晰;
2.利用微服务架构相关技术可以避免一部分功能逻辑奔溃从而导致的系统整体雪崩;
3.通过在系统中整合消息队列和文档数据库的使用,可以大大提升爬虫系统的整体吞吐性能。
附图说明
图1为本发明的基于微服务架构的分布式网络爬虫数据提取系统的整体流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护权限不限于下述的实施例。
本实施例提出了一种基于微服务架构的分布式网络爬虫数据提取系统,包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块。数据提取模块,主要作用是:将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息。请求预处理模块,主要作用是:通过负载均衡算法将爬虫任务请求投递至消息队列中。数据分布式存储模块,主要作用是:将解析后的页面数据存放至MongoDB这样的文档型数据库中。下载模块,主要作用是:从消息队列中取出相应的爬虫任务,从数据池中取出相应数据组装成完整的爬虫请求,通过模块中的多线程下载器开启下载,并将下载得到的页面信息写入消息队列中。
本实施例的整个系统中上述各个模块彼此之间互相隔离,模块与模块之间通过HTTP(hypertext transfer protocol,超文本传输协议)或者RPC(Remote ProcedureCall,远程过程调用)通信,并且各个模块之间基于spring cloud hystrix做了服务熔断处理,一但有模块发生奔溃,因为熔断处理中存在的断路器模型,可以保证其他模块不发生雪崩式服务失败。
本实施例还提供一种基于微服务架构的分布式网格爬虫数据提取方法,包括以下步骤:
S01、用户在可视化界面提交爬虫任务数据。
用户从可视化界面上输入指定爬取的URL路径,同时用户确定该类型页面所要提取的字段属性及提取规则,提取规则支持CSS pattrn和XPath两种主流提取规则,指定爬取的URL路径以及该类型页面所要提取的字段属性和提取规则等组成爬虫任务数据。这样,通过可视化平台页面用户自定义待爬取的URL路径和页面信息提取规则,并将这些信息包装成一个request(任务)对象提交至请求预处理模块。
S02、请求预处理模块采用负载均衡算法将爬虫任务信息投递至消息队列。
请求预处理模块获取对应的请求体信息,并在请求预处理模块对该请求进行过滤,然后将URL路径信息以及生成的一个全局唯一ID写入消息队列,依赖负载均衡算法将请求分散到不同机器上。
因为本实施例的系统是对外开放的,所以会存在大量用户同时提交爬虫请求的场景出现,因此本系统设计了一个请求预处理模块作为网关层,请求预处理模块会采用一种根据响应时间权重来进行请求分发的负载均衡算法,将大量的爬虫请求分散到不同的部署了下载模块的机器上。该算法的计算公式为:
Oi=σ(W[hi-s , …hi , …, hi+s])/ times
其中,Oi 为第i台机器的服务注册号,σ为机器编号哈希计算函数,h为各台机器之前所接受的请求的响应时间,hi 为第i台机器之前所接受请求的响应时间,times为所处理的请求树,从而计算出平均响应时间,W为计算最小值的函数,选出响应时间最少的那台机器作为此次该请求的处理机器。并且在请求预处理模块中,每一个爬虫请求会生成一个全局唯一的分布式ID。
S03、将页面提取规则以及步骤S02中生成的全局唯一ID作为缓存对象缓存至内存数据库中。即步骤S02中生成的ID作为每个crawlerjob的唯一标识同每个crawler job的数据提取规则写入Redis。
S04、下载模块根据任务信息抓取页面数据。
下载模块作为消费端从消息队列中不断获取到爬取页面信息,并根据该信息的URL类型从cookie池和user-agent池获取到对应的数据(即下载模块从数据池中获取user-agent和cookie值),user-agent值和cookie值同URL组合成完整的请求头数据,在下载模块中内置了一个线程池,可以开启多线程下载,最大程度上利用机器资源。
当步骤S03中的爬虫请求下发到下载模块时,下载模块从cookie池和user-agent池中取出相关数据,组合成一个模拟请求,在下载模块中开启多线程爬取。
S05、将下载模块抓取到的页面信息写入消息队列中,同时更新爬虫任务状态。
步骤S04中下载成功的页面信息会被写入消息队列中,消息队列作为一种高吞吐量的中间件,可以在系统层面解耦,从而可以自定义控制消费端的消费速度,防止出现大量爬虫任务的堆积,导致系统超出负载。
S06、页面解析模块从消息队列中提取页面信息,然后使用jsoup(是一款Java 的HTML解析器)进行解析,并将解析后的数据存储到数据库中。
页面解析模块从消息队列中按需获取下载下来的页面信息,并且页面解析模块根据步骤S02中生成的唯一ID从Redis中取出该页面对应的数据提取规则(即从缓存中获取页面信息解析规则),利用jsoup从返回的纯文本中提取出用户的所需信息,并将提取出来的信息存储到文档型数据库MongoDB中。
S07、爬虫控制台可视化数据展示。
用户在可视化界面上看到各自爬虫任务的运行状况和数据提取结果。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于微服务架构的分布式网络爬虫数据提取系统,其特征在于:包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块;数据提取模块,用于将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息;请求预处理模块,用于通过负载均衡算法将爬虫任务请求投递至消息队列中;数据分布式存储模块,用于将解析后的页面数据存放至数据库中;下载模块,用于从消息队列中取出相应的爬虫任务,从数据池中取出相应数据组装成完整的爬虫请求,通过模块中的多线程下载器开启下载,并将下载得到的页面信息写入消息队列中。
2.一种基于微服务架构的分布式网格爬虫数据提取方法,其特征在于,包括以下步骤:
S01、用户在可视化界面提交爬虫任务数据;
S02、请求预处理模块采用负载均衡算法将爬虫任务信息投递至消息队列;
S03、将页面提取规则以及步骤S02中生成的全局唯一ID作为缓存对象缓存至内存数据库中;
S04、下载模块根据任务信息抓取页面数据;
S05、将下载模块抓取到的页面信息写入消息队列中,同时更新爬虫任务状态;
S06、页面解析模块从消息队列中提取页面信息,然后使用jsoup进行解析,并将解析后的数据存储到数据库中;
S07、爬虫控制台可视化数据展示。
3.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法,其特征在于,在步骤S01中,用户从可视化界面上输入指定爬取的URL路径,同时用户确定该类型页面所要提取的字段属性及提取规则,指定爬取的URL路径以及该类型页面所要提取的字段属性和提取规则等组成爬虫任务数据。
4.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法,其特征在于,在步骤S02中,请求预处理模块获取对应的请求体信息,并在请求预处理模块对该请求进行过滤,然后将URL路径信息以及生成的一个全局唯一ID写入消息队列,依赖负载均衡算法将请求分散到不同机器上。
5.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法,其特征在于,在步骤S04中,下载模块作为消费端从消息队列中不断获取到爬取页面信息,并根据该信息的URL类型从cookie池和user-agent池获取到对应的数据,同URL组合成完成的请求头数据,在下载模块中内置了一个线程池,可以开启多线程下载,最大程度上利用机器资源。
6.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取系统及方法,其特征在于,在步骤S06中,页面解析模块从消息队列中获取步骤S04抓取到的页面信息,并且页面解析模块从Redis(键值对类型数据库)中根据ID取出该页面对应的数据提取规则,使用jsoup(html文本解析工具)进行解析,并将解析后的数据储到MongoDB文档型数据库中。
7.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法,其特征在于,在步骤S07中,用户在可视化界面上看到各自爬虫任务的运行状况和数据提取结果。
CN202010002302.8A 2020-01-02 2020-01-02 基于微服务架构的分布式网络爬虫数据提取系统及方法 Withdrawn CN111222027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010002302.8A CN111222027A (zh) 2020-01-02 2020-01-02 基于微服务架构的分布式网络爬虫数据提取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010002302.8A CN111222027A (zh) 2020-01-02 2020-01-02 基于微服务架构的分布式网络爬虫数据提取系统及方法

Publications (1)

Publication Number Publication Date
CN111222027A true CN111222027A (zh) 2020-06-02

Family

ID=70810781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010002302.8A Withdrawn CN111222027A (zh) 2020-01-02 2020-01-02 基于微服务架构的分布式网络爬虫数据提取系统及方法

Country Status (1)

Country Link
CN (1) CN111222027A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667873A (zh) * 2020-12-16 2021-04-16 北京华如慧云数据科技有限公司 一种适用于多数网站通用采集数据的爬虫系统及方法
CN112765438A (zh) * 2021-01-25 2021-05-07 北京星汉博纳医药科技有限公司 一种基于微服务的自动爬虫管理方法
CN112818198A (zh) * 2021-01-25 2021-05-18 苏州市中地行信息技术有限公司 一种高度解耦可动态管理爬虫的方法
CN112989160A (zh) * 2021-01-19 2021-06-18 苏州工业园区测绘地理信息有限公司 基于数据管道模型的网络爬虫方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667873A (zh) * 2020-12-16 2021-04-16 北京华如慧云数据科技有限公司 一种适用于多数网站通用采集数据的爬虫系统及方法
CN112989160A (zh) * 2021-01-19 2021-06-18 苏州工业园区测绘地理信息有限公司 基于数据管道模型的网络爬虫方法及系统
CN112765438A (zh) * 2021-01-25 2021-05-07 北京星汉博纳医药科技有限公司 一种基于微服务的自动爬虫管理方法
CN112818198A (zh) * 2021-01-25 2021-05-18 苏州市中地行信息技术有限公司 一种高度解耦可动态管理爬虫的方法
CN112818198B (zh) * 2021-01-25 2022-01-25 苏州市中地行信息技术有限公司 一种高度解耦可动态管理爬虫的方法
CN112765438B (zh) * 2021-01-25 2024-03-26 北京星汉博纳医药科技有限公司 一种基于微服务的自动爬虫管理方法

Similar Documents

Publication Publication Date Title
CN111222027A (zh) 基于微服务架构的分布式网络爬虫数据提取系统及方法
CN101176079B (zh) 在服务器和客户机之间分配计算的方法以及分布式计算机系统
US7043525B2 (en) Techniques for updating live objects at clients using a dynamic routing network
US7814225B2 (en) Techniques for delivering personalized content with a real-time routing network
US8725794B2 (en) Enhanced website tracking system and method
US7899991B2 (en) Method and system for an extensible caching framework
CN100481088C (zh) 网页资源发布方法和发布系统
CN111401903A (zh) 区块链消息处理方法、装置、计算机以及可读存储介质
CN111309374A (zh) 一种微服务系统和微服务系统中的服务调用方法
US20080071922A1 (en) Methods, systems, and computer program products to transparently dispatch requests to remote resources in a multiple application server environment
CN103473696A (zh) 一种收集、分析和分发网络商业信息的方法和系统
CN112738184B (zh) 一种插件式动态注册分布式微服务网关系统
CN111770022B (zh) 基于链路监控的扩容方法、系统、设备及计算机存储介质
CN114615135A (zh) 一种前端灰度发布方法、系统及存储介质
CN106559498A (zh) 风控数据收集平台及其收集方法
US20070050482A1 (en) System and method for executing web pages using a multi-tiered distributed framework
Ingram Reconfigurable middleware for high availability sensor systems
US20120173341A1 (en) Information publishing method, apparatus and system
CN109086064A (zh) 基于自定义标签语言的http协议要素通用抽取方法
CN113067878A (zh) 信息采集方法、装置、设备、介质及程序产品
CN103269327A (zh) 一种基于代理机制的通用文件数据服务的实现方法
CN110769026A (zh) 分布式互联网信息采集系统及方法
JP2003132039A (ja) シナリオ分割方式
CN110287428A (zh) 一种url数据挖掘方法及系统
CN115103026B (zh) 业务处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200602

WW01 Invention patent application withdrawn after publication