CN112989160A - 基于数据管道模型的网络爬虫方法及系统 - Google Patents
基于数据管道模型的网络爬虫方法及系统 Download PDFInfo
- Publication number
- CN112989160A CN112989160A CN202110071249.1A CN202110071249A CN112989160A CN 112989160 A CN112989160 A CN 112989160A CN 202110071249 A CN202110071249 A CN 202110071249A CN 112989160 A CN112989160 A CN 112989160A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- crawler
- database
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004140 cleaning Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000013500 data storage Methods 0.000 claims abstract description 33
- 239000003795 chemical substances by application Substances 0.000 claims description 14
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 3
- 238000007789 sealing Methods 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Cleaning In General (AREA)
Abstract
本发明公开了一种基于数据管道模型的网络爬虫方法及系统,方法为:进行数据采集规则、数据清洗规则、数据应用规则和数据存储与服务规则的管道模型配置,爬虫系统根据数据采集规则采集数据并存储至缓存数据库,将数据从缓存数据库中取出并根据用户需要选择进行数据清洗或数据应用的处理,根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库。系统包括数据采集模块、数据处理模块和数据存储与服务模块。本发明将数据采集、数据清洗、数据应用、数据存储与服务结合在一起,形成直达业务系统的数据管道,实现采集数据到业务系统的管道化流转,降低数据采集到数据应用的实际成本,弥补现有爬虫系统在数据输出和数据应用上的不足。
Description
技术领域
本发明涉及互联网应用技术领域,具体涉及一种基于数据管道模型的网络爬虫方法及系统。
背景技术
网络爬虫是一种可以按规则自动采集互联网信息的程序或脚本,程序开发者针对不同的网页结构和特点构造网络爬虫程序,实现对网络站点的大规模数据采集。使用网络爬虫可以更加高效、实时和准确的从互联网中采集大规模数据。随着大数据时代的来临,对网络爬虫的需求也日益增加。为满足增长的数据需求,程序开发者使用异步采集、多线程采集、分布式等手段,不断提高采集效率。爬虫技术的进步虽然提高了数据采集的效率,但在采集数据到业务应用的过程仍存在一些问题。
当爬虫将解析出的结构化数据存储至数据库后,业务系统使用这些数据仍需要定期从数据库提取数据,完成数据预处理和数据清洗后存入业务数据库。爬虫采集的数据难以直接为业务系统所用,采集的数据需要通过软件、编码等方式进行再加工,采集数据到数据应用过程不连贯。这些问题都增加了数据采集到数据应用的实际成本。现阶段通常采用编写数据清洗转存的程序来实现与业务系统的数据对接,但随着采集数据源的不断增加,数据清洗转存程序的开发维护成本也随之增加。在网络爬虫的数据采集流程中插入对数据清洗、处理和输出的环节不灵活,网络爬虫与业务系统数据流转成本高。
发明内容
本发明要解决的技术问题是提供一种整合数据清洗、处理和输出环节与数据采集流程,且保证爬虫系统的通用性,支撑数据清洗、应用处理的灵活配置。的基于数据管道模型的网络爬虫方法及系统。
为解决上述技术问题,本发明提供了一种基于数据管道模型的网络爬虫方法,包括以下步骤:
进行管道模型初始化配置,所述管道模型初始化包括数据采集规则的配置、数据清洗规则的配置、数据应用规则的配置和数据存储与服务规则的配置;
爬虫系统根据所述数据采集规则开启数据采集工程并采集数据,将爬取到的数据存储至缓存数据库;
根据用户需要选择进行数据清洗或数据应用,将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理;
根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库。
进一步地,所述数据采集规则的配置包括:
配置页面初始URL和遍历方式构建任务队列,用于使爬虫系统从队列中逐个取出URL并进行数据采集;
配置数据解析规则,用于使爬虫系统根据使用者需求解析网页元素或从数据接口中提取所需字段;
设置采集频率、并发数量、最大重试次数、代理IP池和User-Agent池,用于控制爬虫系统运行时的状态,在遵守Reboot协议的基础上控制数据采集的速度和持续采集时间。
进一步地,所述数据清洗规则的配置为:
通过系统接口规范将相应的清洗功能加入数据清洗规则,所述清洗功能包括格式校验、缺失值处理、数据一致化处理、异常值处理和编码统一。
进一步地,所述数据应用规则的配置为:
通过系统接口规范将相应的应用功能加入数据应用规则,所述应用功能包括图文分离、地名解析、情感倾向识别、音视频压缩、正文重编码、附件下载和图片压缩裁剪。
进一步地,所述数据存储与服务规则的配置为:
指定数据存储结构和数据存储地址,将上游数据存储至指定业务数据库或爬虫数据库,进行数据缓存服务和数据检索服务的配置。
进一步地,所述将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理后,根据用户需求选择进行数据推送服务,将处理后的数据以消息形式推送,推送后的数据不再进行存储。
进一步地,所述根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库,当处理后的数据存储至所述爬虫数据库时自动构建数据缓存服务和数据检索服务。
进一步地,所述将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理时,提取数据的频率与爬虫系统采集数据时的频率保持一致。
本发明还提供了一种基于数据管道模型的网络爬虫系统,包括数据采集模块、数据处理模块和数据存储与服务模块,
所述数据采集模块根据配置的数据采集规则生成爬虫采集工程并采集数据,采集到的数据存入缓存数据库;
所述数据处理模块中封装有数据清洗模块和数据应用模块,根据用户需要从缓存数据库中提取数据并执行清洗功能或应用功能的处理;
所述数据存储与服务模块在数据处理完后,根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库,并对存入爬虫数据库的数据构建数据缓存服务和数据检索服务。
进一步地,还包括用户界面,所述用户界面通过调用底层接口服务给用户提供控制平台,通过用户界面对数据采集模块、数据处理模块和数据存储与服务模块进行配置和任务执行状态的查看。
本发明将数据采集规则的配置、数据清洗规则的配置、数据应用规则的配置和数据存储与服务规则等环节视为部分组件进行灵活配置,根据不同的用户需求实现相应的数据清洗、数据应用和数据存储与服务功能,将数据采集、数据清洗、数据应用、数据存储与服务不同部分组件结合在一起,形成直达业务系统的数据管道,实现采集数据到业务系统的管道化流转,降低了数据采集到数据应用的实际成本,弥补了现有爬虫系统在数据输出和数据应用上的不足。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是基于数据管道模型的网络爬虫方法的流程图。
图2是基于数据管道模型的网络爬虫系统的整体架构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
在本发明的描述中,术语“包括”意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备,没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
参照图1流程图所示,本发明一种基于数据管道模型的网络爬虫方法的实施例,包括以下步骤:
步骤1:进行管道模型初始化配置,所述管道模型初始化包括数据采集规则的配置、数据清洗规则的配置、数据应用规则的配置和数据存储与服务规则的配置。
步骤1-1:进行数据采集规则的配置。
步骤1-1-1:配置页面初始URL和遍历方式构建任务队列,爬虫根据初始URL按照遍历方式获取所有需要采集的页面URL并将这些URL构成任务队列,用于使爬虫系统从队列中逐个取出URL并进行数据采集。其中,遍历方式为广度遍历或深度遍历。
步骤1-1-2:配置数据解析规则,用于使爬虫系统根据使用者需求解析网页元素或从数据接口中提取所需字段。
步骤1-1-3:设置采集频率、并发数量、最大重试次数、代理IP池和User-Agent池,用于控制爬虫系统运行时的状态,在遵守Reboot协议的基础上控制数据采集的速度和持续采集时间。
步骤1-2:进行数据清洗规则的配置。通过系统接口规范将相应的清洗功能加入数据清洗规则,所述清洗功能包括格式校验、缺失值处理、数据一致化处理、异常值处理和编码统一。清洗功能可根据需求进行开发拓展,只需通过系统接口规范将相应的清洗功能加入数据清洗规则即可。清洗功能中的各个功能组件互相独立,不存在数据的前后依赖关系,相较于传统的固定清洗功能可以进行灵活的配置和管理。
步骤1-3:进行数据应用规则的配置。通过系统接口规范将相应的应用功能加入数据应用规则,所述应用功能包括图文分离、地名解析、情感倾向识别、音视频压缩、正文重编码、附件下载和图片压缩裁剪。应用功能可根据需求进行开发拓展,只需通过系统接口规范将相应的应用功能加入数据应用规则即可。应用功能中的各个功能组件互相独立,不存在数据的前后依赖关系,相较于传统的固定应用功能可以进行灵活的配置和管理。加入数据应用功能可以进一步减少业务系统与采集数据的对接工作,数据应用功能中包括在业务系统中常用的一些数据处理功能,包括图文分离、正文重编码、图片压缩,通过配置的方式可以选择开启这些功能。
步骤1-4:进行数据存储与服务规则的配置。指定数据存储结构和数据存储地址,将上游数据存储至指定业务数据库或爬虫数据库,进行数据缓存服务和数据检索服务的配置。配置的数据缓存服务和数据检索服务用户可以选择关闭。此步中还包括配置是否开启数据备份,配置是否使用数据接口的方式访问数据和配置是否直接存储至业务数据库。配置是否开启数据备份用于决定数据处理工程从缓存数据库提取数据后是否删除缓存数据。配置是否使用数据接口的方式访问数据,若开启配置系统将会对处理后的数据构建全文索引,并提供简单的查询、检索接口。配置是否直接存储至业务数据库,用于通过指定数据存储结构和业务数据库账号信息将处理后的数据直接存储至业务数据库。
步骤2:爬虫系统根据所述数据采集规则开启数据采集工程并采集数据,将爬取到的数据存储至缓存数据库。
步骤3:根据用户需要选择进行数据清洗或数据应用,将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理;若用户需要进行数据清洗则开启清洗功能,用户可选取清洗功能中的任意功能;若用户需要进行数据应用则开启应用功能,用户可选取应用功能中的任意功能;若用户需要进行数据清洗和数据应用则开启清洗功能和应用功能,用户可选取清洗功能和应用功能中的任意功能。将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理后,根据用户需求选择进行数据推送服务,将处理后的数据以消息形式推送,推送后的数据不再进行步骤4中的存储。本实施例中消息的推送形式为webhook形式。数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理时,提取数据的频率与所述步骤2中爬虫系统采集数据时的频率保持一致,提取数据的频率也可以手动更改。此处通过将采集和处理工程分离的方式来兼顾爬虫效率。
步骤4:根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库。实现数据采集、清洗、应用到业务系统的管道生产。当处理后的数据存储至所述爬虫数据库时自动构建数据缓存服务和数据检索服务。
如图2整体架构图所示,本发明一种基于数据管道模型的网络爬虫系统的实施例,包括数据采集模块、数据处理模块、数据存储与服务模块和用户界面。
所述数据采集模块根据配置的数据采集规则生成爬虫采集工程并采集数据,采集到的网页或接口数据按照规则解析存入缓存数据库。数据采集模块中,用户指定需要采集的数据源、采集频率、页面遍历方式、页面/接口数据解析规则、代理IP池等采集规则。爬虫系统会在采集任务开始前根据初始网页URL,按照遍历规则生成需要采集的页面URL任务队列。从任务队列中逐个取出URL进行数据采集,默认使用URL作为任务标识,不会重复采集同一个URL。依据解析规则,从网页元素中或数据接口中,获取用户指定的结构化数据,将数据存储至缓存数据库。采集过程中的请求并发数、请求IP、请求agent、失败重试次数等参数,由用户手动配置。
所述数据处理模块中封装有数据清洗模块和数据应用模块,根据用户需要从缓存数据库中提取数据并执行清洗功能或应用功能的处理,用户通过图形界面可以开启相应配置。以指定频率从缓存数据库中提取采集到数据并执行数据清洗和加工的处理,数据处理完后存入爬虫源数据库或按照用户指定的表结构将处理后的数据直接存入指定的业务数据库;数据处理模块中,用户指定数据检测规则,即判断数据是否为无效值、数据格式是否一致等。指定数据预处理规则,例如为缺省值设置默认值、统一日期数据格式、标记错误数据(如数据取值不在合理范围内的数据)等。指定数据加工规则,对正文内容进行重编码、图片压缩、图片裁剪、地名分词等。系统将从缓存数据库中提取采集的数据,进行数据校验,对未通过校验的数据按照预设方式处理,不符合预设规则的不合数据将被标记。完成数据检查后,开始执行数据加工任务,完成数据加工后从清除缓存数据。整个数据加工过程与数据采集是相互分离,异步执行的,以此来兼顾爬虫采集效率。
所述数据存储与服务模块在数据处理完后,根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库,并对存入爬虫数据库的数据构建数据缓存服务和数据检索服务,支持用户以数据接口的方式访问采集数据。模块支持MySQL、PostgreSQL等主流数据库的数据操作。数据输出模块中,用户指定业务数据库名称、地址、用户信息、表结构,将处理完成后的数据,写入业务数据库。数据输出的时机由数据处理模块决定,数据处理模块按照预设的处理频率(假设为1次/小时),从缓存数据库中提取数据(本实施例中,默认每次提取1000条记录,该数值可手动指定),完成这批次数据的清洗加工后,将会触发一次数据存储。将处理后的数据存储至业务数据库,确认写入后清除对应的数据缓存。
所述用户界面通过调用底层接口服务给用户提供控制平台,通过用户界面对数据采集模块、数据处理模块和数据存储与服务模块进行配置和任务执行状态的查看。
管道模型(Pipeline)是一种通过串接不同的程序或者不同的组件组成一条直线的工作流以解决高内聚、低耦合问题的数据处理方式。管道模型下给定一个完整的输入,经过各个组件的先后协同处理,可以得到唯一的最终输出。相较于传统爬虫系统,本发明在保证爬虫系统通用性的前提下,在数据采集过程中引入了可配置的数据采集规则、数据清洗规则、数据应用规则和数据存储与服务规则,用户可以通过配置的方式对爬取的数据进行处理,使用爬虫系统提供的数据接口直接获取数据或配置存储规则将数据直接存入业务数据。通过这样的数据管道,用户可以将常用数据处理的工作纳入数据采集流程中,减少爬虫数据与业务系统的对接工作。
本发明的有益效果:本发明将数据采集规则的配置、数据清洗规则的配置、数据应用规则的配置和数据存储与服务规则等环节视为部分组件进行灵活配置,根据不同的用户需求实现相应的数据清洗、数据应用和数据存储与服务功能,将数据采集、数据清洗、数据应用、数据存储与服务不同部分组件结合在一起,形成直达业务系统的数据管道,实现采集数据到业务系统的管道化流转,降低了数据采集到数据应用的实际成本,弥补了现有爬虫系统在数据输出和数据应用上的不足。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.一种基于数据管道模型的网络爬虫方法,其特征在于,包括以下步骤:
进行管道模型初始化配置,所述管道模型初始化包括数据采集规则的配置、数据清洗规则的配置、数据应用规则的配置和数据存储与服务规则的配置;
爬虫系统根据所述数据采集规则开启数据采集工程并采集数据,将爬取到的数据存储至缓存数据库;
根据用户需要选择进行数据清洗或数据应用,将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理;
根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库。
2.根据权利要求1所述的基于数据管道模型的网络爬虫方法,其特征在于,所述数据采集规则的配置包括:
配置页面初始URL和遍历方式构建任务队列,用于使爬虫系统从队列中逐个取出URL并进行数据采集;
配置数据解析规则,用于使爬虫系统根据使用者需求解析网页元素或从数据接口中提取所需字段;
设置采集频率、并发数量、最大重试次数、代理IP池和User-Agent池,用于控制爬虫系统运行时的状态,在遵守Reboot协议的基础上控制数据采集的速度和持续采集时间。
3.根据权利要求1所述的基于数据管道模型的网络爬虫方法,其特征在于:所述数据清洗规则的配置为:
通过系统接口规范将相应的清洗功能加入数据清洗规则,所述清洗功能包括格式校验、缺失值处理、数据一致化处理、异常值处理和编码统一。
4.根据权利要求1所述的基于数据管道模型的网络爬虫方法,其特征在于:所述数据应用规则的配置为:
通过系统接口规范将相应的应用功能加入数据应用规则,所述应用功能包括图文分离、地名解析、情感倾向识别、音视频压缩、正文重编码、附件下载和图片压缩裁剪。
5.根据权利要求1所述的基于数据管道模型的网络爬虫方法,其特征在于:所述数据存储与服务规则的配置为:
指定数据存储结构和数据存储地址,将上游数据存储至指定业务数据库或爬虫数据库,进行数据缓存服务和数据检索服务的配置。
6.根据权利要求1所述的基于数据管道模型的网络爬虫方法,其特征在于:所述将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理后,根据用户需求选择进行数据推送服务,将处理后的数据以消息形式推送,推送后的数据不再进行存储。
7.根据权利要求1所述的基于数据管道模型的网络爬虫方法,其特征在于,所述根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库,当处理后的数据存储至所述爬虫数据库时自动构建数据缓存服务和数据检索服务。
8.根据权利要求1-7任一项所述的基于数据管道模型的网络爬虫方法,其特征在于,所述将数据从缓存数据库中提取出来并进行数据清洗或数据应用的处理时,提取数据的频率与爬虫系统采集数据时的频率保持一致。
9.一种基于数据管道模型的网络爬虫系统,其特征在于:包括数据采集模块、数据处理模块和数据存储与服务模块,
所述数据采集模块根据配置的数据采集规则生成爬虫采集工程并采集数据,采集到的数据存入缓存数据库;
所述数据处理模块中封装有数据清洗模块和数据应用模块,根据用户需要从缓存数据库中提取数据并执行清洗功能或应用功能的处理;
所述数据存储与服务模块在数据处理完后,根据用户需要将处理后的数据存储至指定业务数据库或爬虫数据库,并对存入爬虫数据库的数据构建数据缓存服务和数据检索服务。
10.根据权利要求9所述的基于数据管道模型的网络爬虫系统,其特征在于:还包括用户界面,所述用户界面通过调用底层接口服务给用户提供控制平台,通过用户界面对数据采集模块、数据处理模块和数据存储与服务模块进行配置和任务执行状态的查看。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110071249.1A CN112989160A (zh) | 2021-01-19 | 2021-01-19 | 基于数据管道模型的网络爬虫方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110071249.1A CN112989160A (zh) | 2021-01-19 | 2021-01-19 | 基于数据管道模型的网络爬虫方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112989160A true CN112989160A (zh) | 2021-06-18 |
Family
ID=76345375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110071249.1A Pending CN112989160A (zh) | 2021-01-19 | 2021-01-19 | 基于数据管道模型的网络爬虫方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989160A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577805A (zh) * | 2017-09-26 | 2018-01-12 | 华南理工大学 | 一种面向日志大数据分析的业务服务系统 |
CN109445949A (zh) * | 2018-12-07 | 2019-03-08 | 武汉轻工大学 | 一种数据采集系统和数据采集方法 |
CN109582722A (zh) * | 2018-11-30 | 2019-04-05 | 珠海市新德汇信息技术有限公司 | 公安资源数据服务系统 |
CN111222027A (zh) * | 2020-01-02 | 2020-06-02 | 南京邮电大学 | 基于微服务架构的分布式网络爬虫数据提取系统及方法 |
CN111767443A (zh) * | 2020-06-11 | 2020-10-13 | 西安石油大学 | 一种高效的网络爬虫分析平台 |
CN111898011A (zh) * | 2020-07-15 | 2020-11-06 | 北京明亮的星文化传媒有限公司 | 基于Kubernetes和Typescript扩展数据方法和系统 |
-
2021
- 2021-01-19 CN CN202110071249.1A patent/CN112989160A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577805A (zh) * | 2017-09-26 | 2018-01-12 | 华南理工大学 | 一种面向日志大数据分析的业务服务系统 |
CN109582722A (zh) * | 2018-11-30 | 2019-04-05 | 珠海市新德汇信息技术有限公司 | 公安资源数据服务系统 |
CN109445949A (zh) * | 2018-12-07 | 2019-03-08 | 武汉轻工大学 | 一种数据采集系统和数据采集方法 |
CN111222027A (zh) * | 2020-01-02 | 2020-06-02 | 南京邮电大学 | 基于微服务架构的分布式网络爬虫数据提取系统及方法 |
CN111767443A (zh) * | 2020-06-11 | 2020-10-13 | 西安石油大学 | 一种高效的网络爬虫分析平台 |
CN111898011A (zh) * | 2020-07-15 | 2020-11-06 | 北京明亮的星文化传媒有限公司 | 基于Kubernetes和Typescript扩展数据方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919612B (zh) | 一种上线结构化查询语言脚本的处理方法及装置 | |
CN101484892B (zh) | 使用集成文档管理网络服务的方法 | |
KR20040088397A (ko) | 트랜잭션적으로 일관성있는 트리거 기반 데이터베이스변경 추적 방법 및 시스템 | |
JP2017524174A (ja) | 大規模なコンピュータ支援設計モデルにおける設計変更の漸進的探索のための方法およびシステム | |
CN112597373A (zh) | 一种基于分布式爬虫引擎的数据采集方法 | |
US20110137872A1 (en) | Model-driven data archival system having automated components | |
CN103699591A (zh) | 一种基于示例页面的网页正文提取方法 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN112000929A (zh) | 一种跨平台数据分析方法、系统、设备及可读存储介质 | |
CN107704620B (zh) | 一种档案管理的方法、装置、设备和存储介质 | |
CN113962597A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN113191139A (zh) | 基于列级数据的数据血缘解析方法及装置 | |
CN110347954B (zh) | 面向复杂Web应用的服务化方法 | |
CN101315629B (zh) | 网页动态内容的下载方法及其系统 | |
CN117370464A (zh) | 一种数据抓取方法、装置及相关设备 | |
CN112416944A (zh) | 一种同步业务数据的方法和设备 | |
CN113760734A (zh) | 一种数据准备方法及装置、设备、存储介质 | |
CN112989160A (zh) | 基于数据管道模型的网络爬虫方法及系统 | |
JP4846029B2 (ja) | 動作検証装置、動作検証方法および動作検証プログラム | |
CN113190582B (zh) | 一种数据实时交互式挖掘流建模分析系统 | |
CN113485983B (zh) | 问卷数据处理方法及装置 | |
CN108563665A (zh) | 一种基于大数据技术的数据处理系统及方法 | |
JP2005327297A (ja) | 知識情報収集システムおよび知識情報収集方法 | |
CN109471966B (zh) | 一种自动获取目标数据源的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215000 surveying and mapping geographic information building, 101 Suhong Middle Road, Suzhou City, Jiangsu Province Applicant after: Yuance Information Technology Co.,Ltd. Address before: 215000 surveying and mapping geographic information building, 101 Suhong Middle Road, Suzhou City, Jiangsu Province Applicant before: SUZHOU INDUSTRIAL PARK SURVEYING MAPPING AND GEOINFORMATION Co.,Ltd. |