CN112100495B - 一种基于分布式的一站式采集方法及采集系统 - Google Patents
一种基于分布式的一站式采集方法及采集系统 Download PDFInfo
- Publication number
- CN112100495B CN112100495B CN202010960596.5A CN202010960596A CN112100495B CN 112100495 B CN112100495 B CN 112100495B CN 202010960596 A CN202010960596 A CN 202010960596A CN 112100495 B CN112100495 B CN 112100495B
- Authority
- CN
- China
- Prior art keywords
- acquisition
- cluster
- list page
- rule
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003203 everyday effect Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 description 25
- 238000012544 monitoring process Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开提出了一种基于分布式的一站式采集方法及系统,包括:分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。用户可根据采集需求自定义分配采集资源,采集任务结束后自动释放采集资源,有效的提高了采集效率。
Description
技术领域
本公开属于数据采集技术领域,尤其涉及一种基于基于分布式的一站式采集方法及采集系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
现在越来越多的企业和政府都意识到了数据的重要性,而互联网数据可以政府和企业提供底层数据信息。为了满足政府和企业对海量数据的需求,就需要专业的分布式互联网数据采集技术实现大规模的数据采集。
网页数据类型多样,展现形式也各有不同。传统的数据采集技术可以实现对单一网站编写特定的采集脚本、配置专属该网页的页面解析规则,这导致采集成本很高,很难实现大规模的数据采集。而且实现使用门槛较高,普通用户很难上手使用。在对采集任务监控中,对于不同的采集需求不能灵活设置采集周期采集、采集频率,不能对不同的采集任务进行实时监控。
现在市面上也有一些数据采集工具,用户可通过软件界面配置目标网站的采集规则和采集计划,并支持将数据保存和发布到Mysql/Oracle等数据库中。但是这种工具多为客户端软件,无法进行分布式部署,采集性能也受到客户端所在的物理机器的性能限制,同时需要人工配置网站规则,具有使用门槛,一些分布式爬虫系统,部署繁琐,尤其是在系统扩容时需要在新增的节点机器上单独部署采集系统,并进行相关配置,系统扩容成本较高,也较繁琐,而且,各个机器节点相对独立,运维压力较高,不支持可视化用户界面,对于使用人员的技术要求较高。
发明内容
为克服上述现有技术的不足,本公开提供了一种基于基于分布式的一站式采集方法,该系统兼容多种网站数据类型,并支持大规模数据采集解决上述问题。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
第一方面,公开了一种基于分布式的一站式采集方法,包括:
分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;
解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。
第二方面,公开了一种基于分布式的一站式采集系统,包括:
分布式采集集群构建模块,被配置为:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
全网采集模块,被配置为:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;
解析模块,被配置为:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
采集任务配置模块,被配置为:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。
第三方面,公开了一种采集系统,包括:
集群监控管理平台、任务调度管理平台及数据采集平台;
所述集群监控管理平台被配置为:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
所述任务调度管理平台分别发送调度信息至集群监控管理平台及数据采集平台,进行任务调度;
所述数据采集平台被配置为:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。
以上一个或多个技术方案存在以下有益效果:
本公开提供的一种基于分布式的一站式采集方法和系统,用户只需输入待采集网站首页,即可自动获取网站中的列表页,并调用人工智能算法模型对列表页规则和详情页规则进行智能解析,避免人工配置页面Xpath规则,降低平台使用门槛。同时,本方法支持数据采集集群的一键扩容采集资源自定义分配。用户可根据采集需求自定义分配采集资源,采集任务结束后自动释放采集资源,有效的提高了采集效率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例基于分布式的一站式采集方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
参见附图1所示,本实施例公开了一种基于分布式的一站式采集方法,包括以下步骤:
步骤1:集群管理。通过集群管理中通过输入服务器IP、服务器用户名和密码可将服务器添加到采集集群中,通过此方法可以充分利用闲置机器启动采集任务。
集群是由多服务器组成,在启动采集任务时可以指定多台服务器、多个应用,从而实现分布式采集。
步骤2:应用管理,在集群服务器中直接添加采集应用。通过集群监控管理平台监控采集集群中服务器的资源使用情况,从而限制添加采集集群的数量。
集群监控管理是在开源项目普罗米修斯的基础上进行了改造,利用监控界面。点击进入之后就能看到集群中所有服务器的资源使用情况。
步骤3:全网采集。通过手动录入或者批量导入方式添加网站,选择所需采集的网站,然后进行全网数据采集,并对网站中的列表页数据进行智能化过滤。
具体的,使用分类构建了一个是否是列表页的分类模型,通过这个模型实现对列表页的智能化过滤。
步骤4:智能解析。调用人工智能算法模型对步骤3中获取的列表页进行智能解析,获取列表页网站规则以及列表页中详情页的规则。
人工智能算法模型包括列表规则解析模型和详情页规则解析模型。通过列表规则解析模型获取列表页中标题、发文时间的xpath规则。通过详情页规则解析模型获取内容详情页的xpath规则。通过这两个模型代替人工手动点选获取xpath规则。
步骤5:采集任务配置。选择步骤4中智能配置成功的列表页生成采集任务,并配置采集任务所需采集应用。其中,采集应用为步骤2中配置的采集应用,配置增量采集和全量采集所需的采集应用。使用时,点击”开启“按钮,则启动“增量采集”和“全量采集”。然后根据启动增量采集和全量采集。
步骤4的智能解析是在后台调用,前台自动调用模型,没有配置,点击智能解析按钮就会自动调用模型,实现对网页的智能解析。
配置采集任务所需采集应用:选择解析成功后的列表页,生成采集任务之后,会进入一个列表。在列表的操作列要配置采集任务所需的采集应用(采集应用为步骤2中配置好的)。然后在采集任务列表中有“增量采集”和“全量采集”两种任务类型,可勾选是否启动“增量采集”和“全量采集”,点击启动后任务会进入任务管理模块。
”增量采集“:每日采集新增的数据。“全量采集”:采集现有的全部数据。这两种采集方法已经在程序中设定好。
步骤6:任务管理及监控。步骤5中启动的全量采集或者增量采集进入数据任务管理中,用户可根据需求立即启动任务还是启动定时任务。运行中的任务可在任务监控中查看任务状态、运行次数以及任务运行日志。
人工智能算法模型包括列表规则解析模型和详情页规则解析模型。通过列表规则解析模型获取列表页中标题、发文时间的xpath规则。通过详情页规则解析模型获取内容详情页的xpath规则。通过这两个模型代替人工手动点选获取xpath规则。
在步骤1集群管理中通过输入服务器IP、服务器用户名和密码可将服务器添加到采集集群中,实现一键扩容。同时在步骤2的应用管理中可自定义启动的应用数量。
在步骤2的应用管理中可自定义启动的应用数量,采集任务结束后自动释放资源。
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例子一中的具体步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实施例子一中的具体步骤。
实施例四
本实施例的目的是提供一种基于分布式的一站式采集系统,包括:
分布式采集集群构建模块,被配置为:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
全网采集模块,被配置为:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;
解析模块,被配置为:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
采集任务配置模块,被配置为:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。
实施例五
再次参见附图1所示,本实施例的目的是提供一种采集系统,包括:
集群监控管理平台、任务调度管理平台及数据采集平台;
所述集群监控管理平台被配置为:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
所述任务调度管理平台分别发送调度信息至集群监控管理平台及数据采集平台,进行任务调度;
所述数据采集平台被配置为:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。
在数据采集平台包括数据采集服务器,添加采集应用、配置采集服务、启动采集服务。
集群监控管理平台包括监控服务器,是监控采集任务运行期间服务器的资源使用情况。
任务调度管理平台包括调度服务器是为了监控采集任务的运行状态,以及控制采集任务的启停操作。
数据采集平台上的采集任务会提交到任务调度管理平台,任务调度管理平台会控制任务的启动、停止,自定义任务的启动时间及周期。任务启动后会监控任务的运行状态。
以上实施例的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (6)
1.一种基于分布式的一站式采集方法,其特征是,包括:
分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;
解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集;
所述方法调用人工智能算法模型对列表页规则和详情页规则进行智能解析,人工智能算法模型包括列表规则解析模型和详情页规则解析模型,通过列表规则解析模型获取列表页中标题、发文时间的xpath规则,通过详情页规则解析模型获取内容详情页的xpath规则,通过这两个模型代替人工手动点选获取xpath规则;
所述将集群服务器添加到采集集群中:通过输入服务器IP、服务器用户名和密码将服务器添加到采集集群中,实现一键扩容;
添加采集应用至集群服务器中时,能够自定义启动的应用数量。
2.如权利要求1所述的一种基于分布式的一站式采集方法,其特征是,应用管理中能够自定义启动的应用数量,采集任务结束后自动释放资源。
3.如权利要求1所述的一种基于分布式的一站式采集方法,其特征是,所述增量采集:每日采集新增的数据,所述全量采集:采集现有的全部数据。
4.一种基于分布式的一站式采集系统,实现如权利要求1-3任一所述的一种基于分布式的一站式采集方法,其特征是,包括:
分布式采集集群构建模块,被配置为:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
全网采集模块,被配置为:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;
解析模块,被配置为:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
采集任务配置模块,被配置为:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。
5.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现权利要求1-3任一所述的方法中的具体步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行权利要求1-3任一所述的方法中的具体步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010960596.5A CN112100495B (zh) | 2020-09-14 | 2020-09-14 | 一种基于分布式的一站式采集方法及采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010960596.5A CN112100495B (zh) | 2020-09-14 | 2020-09-14 | 一种基于分布式的一站式采集方法及采集系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100495A CN112100495A (zh) | 2020-12-18 |
CN112100495B true CN112100495B (zh) | 2024-04-16 |
Family
ID=73752558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010960596.5A Active CN112100495B (zh) | 2020-09-14 | 2020-09-14 | 一种基于分布式的一站式采集方法及采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100495B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188714A (zh) * | 2011-12-29 | 2013-07-03 | 中兴通讯股份有限公司 | 实时数据采集方法、系统和采集网元 |
CN106484828A (zh) * | 2016-09-29 | 2017-03-08 | 西南科技大学 | 一种分布式互联网数据快速采集系统及采集方法 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
WO2020015067A1 (zh) * | 2018-07-19 | 2020-01-23 | 平安科技(深圳)有限公司 | 数据采集方法、装置、设备及存储介质 |
-
2020
- 2020-09-14 CN CN202010960596.5A patent/CN112100495B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188714A (zh) * | 2011-12-29 | 2013-07-03 | 中兴通讯股份有限公司 | 实时数据采集方法、系统和采集网元 |
CN106484828A (zh) * | 2016-09-29 | 2017-03-08 | 西南科技大学 | 一种分布式互联网数据快速采集系统及采集方法 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
WO2020015067A1 (zh) * | 2018-07-19 | 2020-01-23 | 平安科技(深圳)有限公司 | 数据采集方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112100495A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241078B (zh) | 数据分析系统、数据分析的方法及装置 | |
JP5298117B2 (ja) | 分散コンピューティングにおけるデータマージング | |
CN107317724B (zh) | 基于云计算技术的数据采集系统及方法 | |
CN102880503B (zh) | 数据分析系统及数据分析方法 | |
CN104954453A (zh) | 基于云计算的数据挖掘rest服务平台 | |
CN111400326A (zh) | 一种智慧城市数据管理系统及其方法 | |
CN110740079B (zh) | 一种面向分布式调度系统的全链路基准测试系统 | |
CN111984390A (zh) | 任务调度方法、装置、设备及存储介质 | |
CN105677842A (zh) | 基于Hadoop大数据处理技术的日志分析系统 | |
CN109814992A (zh) | 用于大规模网络数据采集的分布式动态调度方法和系统 | |
CN103927314A (zh) | 一种数据批量处理的方法和装置 | |
CN113448812A (zh) | 微服务场景下的监控告警方法及装置 | |
CN113282649A (zh) | 分布式任务的处理方法、装置和计算机设备 | |
KR101686919B1 (ko) | 빅데이터에 기반한 추론 엔진을 관리하는 방법 및 장치 | |
Hamdaqa et al. | Adoop: MapReduce for ad-hoc cloud computing | |
CN112685370A (zh) | 一种日志采集方法、装置、设备和介质 | |
US9922539B1 (en) | System and method of telecommunication network infrastructure alarms queuing and multi-threading | |
CN114356714A (zh) | 基于Kubernetes智能板卡集群的资源集成监控与调度装置 | |
CN106254452A (zh) | 云平台下的医疗大数据访问方法 | |
CN112130849B (zh) | 代码自动生成方法及装置 | |
CN112100495B (zh) | 一种基于分布式的一站式采集方法及采集系统 | |
CN112448855B (zh) | 区块链系统参数更新方法和系统 | |
CN114969183A (zh) | 一种应用于高速公路建设的信息化管理服务平台 | |
US11836125B1 (en) | Scalable database dependency monitoring and visualization system | |
CN112988904A (zh) | 一种分布式数据管理系统及数据存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Floor 12, Building 3, Shuntai Plaza, No. 2000 Shunhua Road, High tech Industrial Development Zone, Jinan City, Shandong Province, 250101 Patentee after: SHANDONG ECLOUD INFORMATION TECHNOLOGY CO.,LTD. Country or region after: China Address before: 250014 3rd floor, block B, Yinhe building, 2008 Xinluo street, high tech Zone, Jinan City, Shandong Province Patentee before: SHANDONG ECLOUD INFORMATION TECHNOLOGY CO.,LTD. Country or region before: China |
|
CP03 | Change of name, title or address |