CN108133041A - 基于网络爬虫和数据转移技术的数据采集系统及方法 - Google Patents
基于网络爬虫和数据转移技术的数据采集系统及方法 Download PDFInfo
- Publication number
- CN108133041A CN108133041A CN201810027341.6A CN201810027341A CN108133041A CN 108133041 A CN108133041 A CN 108133041A CN 201810027341 A CN201810027341 A CN 201810027341A CN 108133041 A CN108133041 A CN 108133041A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- acquisition
- collecting
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网络爬虫和数据转移技术的数据采集系统及方法,该系统集成了多种爬虫组件及数据转移组件,进行在线、离线数据采集。实现了针对不同的数据采集任务,对各个网络爬虫组件的灵活集成、自动选择、统一调度和管理等功能,使用户“一站式”完成对所需业务数据的采集。从而有效避免了开发人员因配置开发不同爬虫软件和其它采集系统所带来的繁重的重复性工作,提高了开发人员的开发和使用效率。
Description
技术领域
本发明涉及一种计算机数据采集及处理领域,具体涉及一种基于网络爬虫和数据转移技术的数据采集系统及方法。
背景技术
随着大数据时代的到来,数据的获取又一次引起了人们的高度的重视,而网络爬虫技术作为一个重要和主要的网络数据获取手段,也同样得到越来越多的研究。
网络爬虫的基本工作流程如下:1.首先选取一部分精心挑选的种子URL;2.将这些URL放入待抓取URL队列;3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。
目前存在的网络爬虫软件少则几十种多则上百种,众多的软件各具特色:有些善于抓取Html格式的页面,有些善于抓取Json格式的页面,有些善于横向广度爬取,有些善于纵向深度爬取,等等。开发人员每次都会根据不同的业务需求,开发、配置不同的爬虫工具,当需求变更后页面结构发生变化,又不得不重新更换爬虫工具,开展繁重而又重复性的工作。目前,还没有一个将这些爬虫以及Sqoop等工具以组件的形式集成到一个系统中加以统一协调管理。
发明内容
为解决现有技术中不能灵活适应业务需求的变化、且管理不便、效率低等技术问题,本发明提出一种基于网络爬虫和数据转移技术的数据采集系统及方法,为用户提供一个集成了多种爬虫组件及数据转移组件的在线、离线数据采集系统,解决了网络爬虫等工具的集成、协调和统一调用等技术问题。
本发明通过下述技术方案实现:
基于网络爬虫和数据转移技术的数据采集系统,其特征在于,包括任务管理模块、数据采集模块和数据处理模块;数据采集模块集成了n个爬行组件和数据转移工具,n个爬行组件用于在线数据的采集,数据转移工具用于离线数据的处理和转移,n个爬行组件和数据转移工具通过统一的接口将采集到的数据传输到上层数据处理模块进行进一步处理;任务管理模块通过服务接口与前端系统通信,接收来自前端发送的采集任务,并对采集任务进行统一的管理和调度,其中,n>=1。
优选的,所述数据处理模块包括日志收集系统、分布式发布订阅消息系统、分布式文件系统及数据仓库系统。
优选的,离线数据通过序列化存储接口直接存储在分布式文件系统中,在线数据通过序列化存储接口发送到日志收集系统之中,日志收集系统中的数据经过分布式发布订阅消息系统进行缓存适配,经过适配后的数据,进行初步数据仓库系统清洗,为后续终端系统提供结构化的数据支撑。
优选的,所述任务管理模块包括本地目录监控单元、数据库、任务队列单元和任务监控单元。
优选的,任务管理模块将接收到的采集任务保存在数据库中,用于用户后期的查询、修改操作;同时,将待执行的采集任务压入任务队列单元中,待用户发出启动采集的命令时,开始进行实际的采集工作。
基于上述的网络爬虫和数据转移技术的数据采集系统,本发明还提出了一种数据采集方法,包括以下步骤,步骤一、对采集任务参数进行解析;步骤二、按照具体类型分发到不同的采集线程启动实际的采集业务;步骤三、记录并根据具体采集线程上报的情况更新当前任务状态,循环监听,直到用户终止所有采集业务。
进一步,具体包括以下步骤:
S1、启动服务;
S2、查询数据库,将状态为“未执行”的任务加载到任务队列中;
S3、任务的运行状态循环监控,当系统中已有任务正在运行时,系统处于循环等待状态;
S4、待已有任务执行完毕后,检查队列是否有任务,如果队列为空,继续等待;
S5、一旦队列中有待执行的任务时,从中取出队列头部的任务;
S6、对取出的任务进行参数提取和解析,读取任务的类型信息;
S7、当当前任务的类型为离线类型时,管理模块将该任务分发到离线采集线程,并启动实际的采集业务,采用数据转移工具进行离线数据的处理和转移,并将转移的离线数据通过序列化存储接口直接存储在分布式文件系统中;
S8、当当前任务的类型为在线类型时,管理模块将该任务分发到在线采集线程,并启动实际的采集业务,采用网络爬虫进行在线数据的采集,并将采集到的在线数据通过序列化存储接口发送到日志收集系统中;日志收集系统中的数据经过分布式发布订阅消息系统进行缓存适配;经过适配后的数据,进行初步数据仓库系统清洗为后续终端系统提供结构化的数据支撑;
S9、当前任务结束,并更新结束标志和任务状态;
S10、循环执行步骤S3~S9进行下一条任务的执行,直到用户终止所有采集业务。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明提供的数据采集系统是一个开放的架构,不但可以轻松集成已有的爬虫工具进行在线数据抓取,而且还应用了数据转移工具对离线静态数据库数据进行转移。系统通过任务配置的方式对以上组件进行统一管理,包括启动、暂停、继续、终止等,根据具体数据抓取业务动态选择一种或多种爬虫组件,集各组件优势,更好地为系统的数据抓取业务服务。只要开发人员在初期一次性花费少量时间,将所用到的爬虫软件集成到系统中,便可轻松实现对其业务数据的抓取。
本发明提供了一个集成了多种爬虫组件及数据转移组件的在线、离线数据采集系统。实现了针对不同的数据采集任务,对各个网络爬虫组件的灵活集成、自动选择、统一调度和管理等功能,使用户“一站式”完成对所需业务数据的采集。从而有效避免了开发人员因配置开发不同爬虫软件和其它采集系统所带来的繁重的重复性工作,提高了开发人员的开发和使用效率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的数据采集系统结构框图。
图2为本发明的数据流向示意图。
图3为本发明的数据采集方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明主要针对在线网络数据和大规模离线数据库数据,提出了一种基于网络爬虫和数据转移技术的数据采集系统。如图1所示,系统集成了爬虫组件1、爬虫组件2…爬虫组件n,作为统一的在线采集模块(n>=1),集成了数据转移工具(如:Sqoop工具)作为离线数据的采集模块,二者通过采集业务接口对上层提供数据输入,分别通过日志收集系统(如:Flume)、分布式发布订阅消息系统(如:Kafka)、分布式文件系统(如:HDFS)及数据仓库系统(如:ETL)进行进一步处理,最终统一为后端系统提供数据支撑。另外,上述采集业务是由系统的任务管理模块进行统一的管理和调度。任务管理模块通过Webservice服务接口与前端系统通信,接收来自前端发来的采集任务,并将其保存到数据库(如:MySql)中,以便用户后期的查询、修改等操作。同时,将待执行的任务压如内存队列,待用户发出启动采集的命令时,开始进行实际的采集工作。系统首先进行任务参数的解析,并按照具体类型分发到不同的采集线程,记录并根据具体采集线程上报的情况更新当前任务的状态,循环监听,直到用户终止所有采集业务。系统具有指定目录监控的功能,随时将采集到的资源(视频、文档、图片等)数据转移到指定目标系统。任务管理模块和采集业务模块通过系统命令和MySql中的任务配置和任务状态进行通信和交互。
所述任务管理模块包括本地目录监控单元、数据库、任务队列单元和任务监控单元。
目录监控单元监测本地文件间变化情况,只处理变化的文件,防止重复处理。任务监控单元监控内存中任务执行情况,对任务进行开始,暂停,删除,新增任务等。他们之间通过数据库配置和系统命令进行通信和交互。
以数据流向的角度划分,该系统由数据源(Internet和database)、采集模块(爬虫和Sqoop)、预处理模块、缓存适配模块、输出模块(将处理完的数据输出到前端展示网页或者用户数据库)等部分组成,如图2所示。
上述数据采集系统的运行流程如图3所示,具体执行步骤如下:
S1:启动服务。
S2:查询数据库,将状态为“未执行”的任务加载到任务队列中。
S3:任务的运行状态循环监控,当系统中已有任务正在运行时,系统处于循环等待状态。
S4:待已有任务执行完毕后,检查队列是否有任务,如果队列为空,继续等待。
S5:一旦队列中有待执行的任务时,从中取出队列头部的任务。
S6:对取出的任务进行参数提取和解析,读取任务的类型信息。
S7、如果当前任务的类型为离线类型时,管理模块将该任务分发到离线采集线程,并启动实际的采集业务,采用数据转移工具(如:Sqoop工具)进行离线数据的处理和转移,并将转移的离线数据通过序列化存储接口直接存储在HDFS文件系统中;
S8、如果当前任务的类型为在线类型时,管理模块将该任务分发到在线采集线程,并启动实际的采集业务,采用网络爬虫进行在线数据的采集,并将采集到的在线数据通过序列化存储接口发送到Flume系统中;Flume系统中的数据经过Kafka系统进行缓存适配;经过适配后的数据,进行初步ETL清洗为后续终端系统提供结构化的数据支撑;
S9、当前任务结束,并更新结束标志和任务状态;
S10、循环执行步骤S3~S9进行下一条任务的执行,直到用户终止所有采集业务。
本发明的目的是为了解决网络爬虫等工具的集成、协调和统一调用等问题,提出一种集成了多种爬虫组件及数据转移工具(如:Sqoop工具)的在线、离线数据采集系统,该系统具有以下主要功能:
1、任务的管理,包括对任务的增、删、改、查等操作。
2、任务同步,系统同时维护了数据库及内部队列两套任务存储系统,并保持同步。数据库负责存放用户创建的所有任务,包括已执行的、未执行的及正在执行的,而内存队列中只存放未执行的且将要执行的。
3、采集任务的启动、停止、暂停和继续等功能。
4、网络数据的实时采集,系统支持天气数据、网络购物数据及图片的实时采集和下载。
5、数据库数据的批量转移,系统可以将数据库表数据批量转存到HDFS系统中。
6、本地目录文件的监控,支持将本地资源及系统的LOG文件等上传到HDFS系统中。
该系统具有以下特点:
1、Java语言开发的多线程服务系统。
2、与前端采用Webservice接口通信方式,实现了系统间的解耦。
3、框架具有开放性及较强的可扩展性,轻松实现对不同类型网络爬虫软件的集成和管理。
4、离线数据获取方面,支持从多种数据库及文件系统的数据源中采集数据。
5、系统具有一定的数据清洗的功能。
6、具有负载均衡的功能,以解决由于网络传输瓶颈导致的数据丢失的问题。
7、具有向不同的目标传送数据的功能,如:HDFS、HBase、Hive、Spark、Storm等。
本发明采用统一任务的形式对网络爬虫及数据转移工具(如:Sqoop工具)进行透明化统一管理,并结合数据库和内存队列的双重存储方式,既能高效的进行任务队列的实时监控,同时又具有系统对任务的“记忆”功能。本发明的欲保护点如下:
1、对爬虫组件及数据转移工具(如:Sqoop工具)的有效集成并统一管理。
2、Webservice方式实现与前端的任务传递。
3、对在线和离线任务的管理,包括增、删、改、查。
4、系统对本地指定目录的监控,对在该目录下新增的文件进行异步上传。
5、数据库和内存队列的双重存储及同步技术。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于网络爬虫和数据转移技术的数据采集系统,其特征在于,包括任务管理模块、数据采集模块和数据处理模块;数据采集模块集成了n个爬行组件和数据转移工具,n个爬行组件用于在线数据的采集,数据转移工具用于离线数据的处理和转移,n个爬行组件和数据转移工具通过统一的接口将采集到的数据传输到上层数据处理模块进行进一步处理;任务管理模块通过服务接口与前端系统通信,接收来自前端发送的采集任务,并对采集任务进行统一的管理和调度,其中,n>=1。
2.根据权利要求1所述的数据采集系统,其特征在于,所述数据处理模块包括日志收集系统、分布式发布订阅消息系统、分布式文件系统及数据仓库系统。
3.根据权利要求2所述的数据采集系统,其特征在于,离线数据通过序列化存储接口直接存储在分布式文件系统中,在线数据通过序列化存储接口发送到日志收集系统之中,日志收集系统中的数据经过分布式发布订阅消息系统进行缓存适配,经过适配后的数据,进行初步数据仓库系统清洗,为后续终端系统提供结构化的数据支撑。
4.根据权利要求1所述的数据采集系统,其特征在于,所述任务管理模块包括本地目录监控单元、数据库、任务队列单元和任务监控单元。
5.根据权利要求4所述的数据采集系统,其特征在于,任务管理模块将接收到的采集任务保存在数据库中,用于用户后期的查询、修改操作;同时,将待执行的采集任务压入任务队列单元中,待用户发出启动采集的命令时,开始进行实际的采集工作。
6.基于网络爬虫和数据转移技术的数据采集方法,其特征在于,该方法应用于权利要求1-5任一项所述的数据采集系统中,包括以下步骤:步骤一、对采集任务参数进行解析;步骤二、按照具体类型分发到不同的采集线程启动实际的采集业务;步骤三、记录并根据具体采集线程上报的情况更新当前任务状态,循环监听,直到用户终止所有采集业务。
7.根据权利要求6所述的数据采集方法,其特征在于,具体包括以下步骤:
S1、启动服务;
S2、查询数据库,将状态为“未执行”的任务加载到任务队列中;
S3、任务的运行状态循环监控,当系统中已有任务正在运行时,系统处于循环等待状态;
S4、待已有任务执行完毕后,检查队列是否有任务,如果队列为空,继续等待;
S5、一旦队列中有待执行的任务时,从中取出队列头部的任务;
S6、对取出的任务进行参数提取和解析,读取任务的类型信息;
S7、当当前任务的类型为离线类型时,管理模块将该任务分发到离线采集线程,并启动实际的采集业务,采用数据转移工具进行离线数据的处理和转移,并将转移的离线数据通过序列化存储接口直接存储在分布式文件系统中;
S8、当当前任务的类型为在线类型时,管理模块将该任务分发到在线采集线程,并启动实际的采集业务,采用网络爬虫进行在线数据的采集,并将采集到的在线数据通过序列化存储接口发送到日志收集系统中;日志收集系统中的数据经过分布式发布订阅消息系统进行缓存适配;经过适配后的数据,进行初步数据仓库系统清洗为后续终端系统提供结构化的数据支撑;
S9、当前任务结束,并更新结束标志和任务状态;
S10、循环执行步骤S3~S9进行下一条任务的执行,直到用户终止所有采集业务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810027341.6A CN108133041A (zh) | 2018-01-11 | 2018-01-11 | 基于网络爬虫和数据转移技术的数据采集系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810027341.6A CN108133041A (zh) | 2018-01-11 | 2018-01-11 | 基于网络爬虫和数据转移技术的数据采集系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108133041A true CN108133041A (zh) | 2018-06-08 |
Family
ID=62400425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810027341.6A Pending CN108133041A (zh) | 2018-01-11 | 2018-01-11 | 基于网络爬虫和数据转移技术的数据采集系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108133041A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442769A (zh) * | 2019-08-05 | 2019-11-12 | 深圳乐信软件技术有限公司 | 分布式数据爬取系统、方法、装置、设备和存储介质 |
CN111367979A (zh) * | 2020-03-05 | 2020-07-03 | 广州快决测信息科技有限公司 | 一种数据收集方法和系统 |
CN111581098A (zh) * | 2020-05-09 | 2020-08-25 | 深圳市朱墨科技有限公司 | 接口数据转移存储的方法、装置、服务器及存储介质 |
CN111797297A (zh) * | 2020-09-09 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 页面数据处理方法、装置、计算机设备及存储介质 |
CN112269902A (zh) * | 2020-11-10 | 2021-01-26 | 珠海市新德汇信息技术有限公司 | 一种大数据的数据采集方法 |
CN113792891A (zh) * | 2021-11-15 | 2021-12-14 | 北京华品博睿网络技术有限公司 | 一种机器学习特征生产系统及方法 |
US11960497B2 (en) | 2020-03-05 | 2024-04-16 | Guangzhou Quick Decision Information Technology Co., Ltd. | Method and system for automatically generating data determining result |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105138561A (zh) * | 2015-07-23 | 2015-12-09 | 中国测绘科学研究院 | 一种暗网空间数据采集方法及装置 |
US20160055215A1 (en) * | 2013-08-19 | 2016-02-25 | Joseph Gregory Kauwe | Systems and methods of enabling integrated activity scheduling, sharing and real-time social connectivity through an event-sharing platform |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN106951552A (zh) * | 2017-03-27 | 2017-07-14 | 重庆邮电大学 | 一种基于Hadoop的用户行为数据处理方法 |
CN107193960A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种分布式爬虫系统及周期性增量抓取方法 |
CN107273409A (zh) * | 2017-05-03 | 2017-10-20 | 广州赫炎大数据科技有限公司 | 一种网络数据采集、存储及处理方法及系统 |
-
2018
- 2018-01-11 CN CN201810027341.6A patent/CN108133041A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055215A1 (en) * | 2013-08-19 | 2016-02-25 | Joseph Gregory Kauwe | Systems and methods of enabling integrated activity scheduling, sharing and real-time social connectivity through an event-sharing platform |
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105138561A (zh) * | 2015-07-23 | 2015-12-09 | 中国测绘科学研究院 | 一种暗网空间数据采集方法及装置 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN106951552A (zh) * | 2017-03-27 | 2017-07-14 | 重庆邮电大学 | 一种基于Hadoop的用户行为数据处理方法 |
CN107273409A (zh) * | 2017-05-03 | 2017-10-20 | 广州赫炎大数据科技有限公司 | 一种网络数据采集、存储及处理方法及系统 |
CN107193960A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种分布式爬虫系统及周期性增量抓取方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442769A (zh) * | 2019-08-05 | 2019-11-12 | 深圳乐信软件技术有限公司 | 分布式数据爬取系统、方法、装置、设备和存储介质 |
CN111367979A (zh) * | 2020-03-05 | 2020-07-03 | 广州快决测信息科技有限公司 | 一种数据收集方法和系统 |
US11960497B2 (en) | 2020-03-05 | 2024-04-16 | Guangzhou Quick Decision Information Technology Co., Ltd. | Method and system for automatically generating data determining result |
CN111581098A (zh) * | 2020-05-09 | 2020-08-25 | 深圳市朱墨科技有限公司 | 接口数据转移存储的方法、装置、服务器及存储介质 |
CN111581098B (zh) * | 2020-05-09 | 2024-02-23 | 深圳市朱墨科技有限公司 | 接口数据转移存储的方法、装置、服务器及存储介质 |
CN111797297A (zh) * | 2020-09-09 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 页面数据处理方法、装置、计算机设备及存储介质 |
CN111797297B (zh) * | 2020-09-09 | 2020-12-15 | 平安国际智慧城市科技股份有限公司 | 页面数据处理方法、装置、计算机设备及存储介质 |
CN112269902A (zh) * | 2020-11-10 | 2021-01-26 | 珠海市新德汇信息技术有限公司 | 一种大数据的数据采集方法 |
CN113792891A (zh) * | 2021-11-15 | 2021-12-14 | 北京华品博睿网络技术有限公司 | 一种机器学习特征生产系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133041A (zh) | 基于网络爬虫和数据转移技术的数据采集系统及方法 | |
CN105243159B (zh) | 一种基于可视化脚本编辑器的分布式网络爬虫系统 | |
DE69819211T2 (de) | Verteilte interfacearchitektur einer programmierbaren industriellen steuerung | |
CN111400326B (zh) | 一种智慧城市数据管理系统及其方法 | |
CN103605764B (zh) | 一种网络爬虫系统及网络爬虫多任务执行和调度方法 | |
CN101651707B (zh) | 一种网络用户行为日志自动获取方法 | |
CN110147475B (zh) | 一种分布式部署的网络数据采集系统 | |
CN103984745B (zh) | 分布式视频垂直搜索方法及系统 | |
CN109120461B (zh) | 一种业务性能端到端监控方法、系统及装置 | |
CN106776829A (zh) | 一种数据导出系统及其工作方法 | |
CN105677918A (zh) | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 | |
CN100471137C (zh) | 服务网格溯源信息收集系统及方法 | |
EP1495398A2 (en) | Method and system for problem determination in distributed enterprise applications | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN107508722A (zh) | 一种业务监控方法和装置 | |
CN107025222A (zh) | 一种分布式日志采集方法及装置 | |
CN101738997A (zh) | 多线程电力负控系统及控制方法 | |
CN113741883B (zh) | 一种rpa轻量级数据中台系统 | |
CN110991984A (zh) | 基于企业信息化异构系统的数字化经营分析平台及方法 | |
CN108011931A (zh) | Web数据采集方法和Web数据采集系统 | |
CN107220297A (zh) | 面向软件项目的多源异构数据自动收集方法及系统 | |
CN107395747A (zh) | 一种基于stf平台的高扩展方法 | |
CN102510536A (zh) | 一种互联网音视频下载方法 | |
CN111898009A (zh) | 一种多源电力数据融合的分布式采集系统及方法 | |
CN109766488B (zh) | 一种基于Scrapy的数据采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180608 |