CN112559480A - 一种并行计算场景下分布式数据集合计算方法和系统 - Google Patents
一种并行计算场景下分布式数据集合计算方法和系统 Download PDFInfo
- Publication number
- CN112559480A CN112559480A CN202010650280.6A CN202010650280A CN112559480A CN 112559480 A CN112559480 A CN 112559480A CN 202010650280 A CN202010650280 A CN 202010650280A CN 112559480 A CN112559480 A CN 112559480A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- unit
- distributed
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 24
- 238000013500 data storage Methods 0.000 claims abstract description 19
- 238000007405 data analysis Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种并行计算场景下分布式数据集合计算方法和系统,尤其是一种并行计算场景下分布式数据集合计算系统,其特征在于,包括信息收集模块、信息分类模块、数据处理模块和数据存储模块,所述信息收集模块、信息分类模块、数据处理模块和数据存储模块依次连接,所述信息收集模块包括信息抓取单元,所述信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接。本发明能够分别对不同类型的互联网网站进行处理,能够对互联网上的数据做到全面、高效、多样化的抓取,同时,能够通过分布式数据计算效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种并行计算场景下分布式数据集合计算方法和系统。
背景技术
当前是一个互联网的时代,互联网深入到了人们的日常生活中,日常消费、生活习惯、个人爱好都在互联网中留下了各种痕迹和数据,这样就造成互联网上留下了海量的待发掘的消费数据,对这些数据的分析和挖掘,获取其中的关键业务信息,是至关重要的。
现有的分布式数据分析方法中,通过默认以文件或分布式文件系统中的数据块作为分布式数据计算分析的最小执行单元,各个单元分别由一个计算单元计算,待所有计算单元数据计算完成后,对计算结果进行汇总,至此整个分布式计算完成。然而,现有的分布式数据计算效率较低,数据计算较为繁琐。
发明内容
基于背景技术存在的技术问题,本发明提出了一种并行计算场景下分布式数据集合计算方法和系统。
本发明提出的一种并行计算场景下分布式数据集合计算系统,包括信息收集模块、信息分类模块、数据处理模块和数据存储模块,所述信息收集模块、信息分类模块、数据处理模块和数据存储模块依次连接,所述信息收集模块包括信息抓取单元,所述信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接,所述数据处理模块包括中心调度单元、分布式计算单元和汇总单元,所述中心调度单元、分布式计算单元和汇总单元依次连接。
优选的,所述信息抓取单元用于收集互联网网站信息,对互联网网站信息进行整理,得到互联网网站的特性信息数据,并将特性信息数据传输至信息分类模块。
优选的,所述数据解析单元接收特征信息数据,并对特征信息数据进行数据解析,将特征信息数据解析成常用数据信息,并将解析后的数据信息传输至数据过滤单元。
优选的,所述数据过滤单元将对常用数据信息进行筛分,剔除无用数据信息,并将有用数据信息传输至数据去重单元。
优选的,所述数据去重单元将有用数据信息中重复数据信息进行剔除,得到精简数据信息,并将精简数据信息传输至数据分类单元。
优选的,所述数据分类单元用于将精简数据信息根据不同数据类型进行分类,并将分类后的数据信息传输至数据处理模块。
优选的,所述中心调度单元用于对数据信息进行分析和分配,分析后的数据信息进行数据的分配,并将分配的数据传输至分布式计算单元。
优选的,所述分布式计算单元用于对分配的数据信息进行计算处理,计算处理后的数据传输至汇总单元进行汇总处理,汇总后的数据传输至数据存储模块进行存储。
一种并行计算场景下分布式数据集合计算方法,包括如下步骤:
S1信息收集:信息收集模块包括信息抓取单元,信息抓取单元用于收集互联网网站信息,对互联网网站信息进行整理,得到互联网网站的特性信息数据,并将特性信息数据传输至信息分类模块;
S2信息分类:信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接,数据解析单元接收特征信息数据,并对特征信息数据进行数据解析,将特征信息数据解析成常用数据信息,并将解析后的数据信息传输至数据过滤单元,数据过滤单元将对常用数据信息进行筛分,剔除无用数据信息,并将有用数据信息传输至数据去重单元,数据去重单元将有用数据信息中重复数据信息进行剔除,得到精简数据信息,并将精简数据信息传输至数据分类单元,数据分类单元用于将精简数据信息根据不同数据类型进行分类,并将分类后的数据信息传输至数据处理模块;
S3数据处理:数据处理模块包括中心调度单元、分布式计算单元和汇总单元,所述中心调度单元、分布式计算单元和汇总单元依次连接,中心调度单元用于对数据信息进行分析和分配,分析后的数据信息进行数据的分配,并将分配的数据传输至分布式计算单元,分布式计算单元用于对分配的数据信息进行计算处理,计算处理后的数据传输至汇总单元进行汇总处理;
S4数据存储:将汇总后的数据传输至数据存储模块进行存储。
本发明中,所述一种并行计算场景下分布式数据集合计算方法和系统,能够分别对不同类型的互联网网站进行处理,能够对互联网上的数据做到全面、高效、多样化的抓取,同时,能够通过分布式数据计算效率。
附图说明
图1为本发明提出的一种并行计算场景下分布式数据集合计算系统的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种并行计算场景下分布式数据集合计算系统,包括信息收集模块、信息分类模块、数据处理模块和数据存储模块,信息收集模块、信息分类模块、数据处理模块和数据存储模块依次连接,信息收集模块包括信息抓取单元,信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接,数据处理模块包括中心调度单元、分布式计算单元和汇总单元,中心调度单元、分布式计算单元和汇总单元依次连接。
本发明中,信息抓取单元用于收集互联网网站信息,对互联网网站信息进行整理,得到互联网网站的特性信息数据,并将特性信息数据传输至信息分类模块。
本发明中,数据解析单元接收特征信息数据,并对特征信息数据进行数据解析,将特征信息数据解析成常用数据信息,并将解析后的数据信息传输至数据过滤单元。
本发明中,数据过滤单元将对常用数据信息进行筛分,剔除无用数据信息,并将有用数据信息传输至数据去重单元。
本发明中,数据去重单元将有用数据信息中重复数据信息进行剔除,得到精简数据信息,并将精简数据信息传输至数据分类单元。
本发明中,数据分类单元用于将精简数据信息根据不同数据类型进行分类,并将分类后的数据信息传输至数据处理模块。
本发明中,中心调度单元用于对数据信息进行分析和分配,分析后的数据信息进行数据的分配,并将分配的数据传输至分布式计算单元。
本发明中,分布式计算单元用于对分配的数据信息进行计算处理,计算处理后的数据传输至汇总单元进行汇总处理,汇总后的数据传输至数据存储模块进行存储。
一种并行计算场景下分布式数据集合计算方法,包括如下步骤:
S1信息收集:信息收集模块包括信息抓取单元,信息抓取单元用于收集互联网网站信息,对互联网网站信息进行整理,得到互联网网站的特性信息数据,并将特性信息数据传输至信息分类模块;
S2信息分类:信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接,数据解析单元接收特征信息数据,并对特征信息数据进行数据解析,将特征信息数据解析成常用数据信息,并将解析后的数据信息传输至数据过滤单元,数据过滤单元将对常用数据信息进行筛分,剔除无用数据信息,并将有用数据信息传输至数据去重单元,数据去重单元将有用数据信息中重复数据信息进行剔除,得到精简数据信息,并将精简数据信息传输至数据分类单元,数据分类单元用于将精简数据信息根据不同数据类型进行分类,并将分类后的数据信息传输至数据处理模块;
S3数据处理:数据处理模块包括中心调度单元、分布式计算单元和汇总单元,中心调度单元、分布式计算单元和汇总单元依次连接,中心调度单元用于对数据信息进行分析和分配,分析后的数据信息进行数据的分配,并将分配的数据传输至分布式计算单元,分布式计算单元用于对分配的数据信息进行计算处理,计算处理后的数据传输至汇总单元进行汇总处理;
S4数据存储:将汇总后的数据传输至数据存储模块进行存储。
本发明:信息收集:信息收集模块包括信息抓取单元,信息抓取单元用于收集互联网网站信息,对互联网网站信息进行整理,得到互联网网站的特性信息数据,并将特性信息数据传输至信息分类模块;信息分类:信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接,数据解析单元接收特征信息数据,并对特征信息数据进行数据解析,将特征信息数据解析成常用数据信息,并将解析后的数据信息传输至数据过滤单元,数据过滤单元将对常用数据信息进行筛分,剔除无用数据信息,并将有用数据信息传输至数据去重单元,数据去重单元将有用数据信息中重复数据信息进行剔除,得到精简数据信息,并将精简数据信息传输至数据分类单元,数据分类单元用于将精简数据信息根据不同数据类型进行分类,并将分类后的数据信息传输至数据处理模块;数据处理:数据处理模块包括中心调度单元、分布式计算单元和汇总单元,中心调度单元、分布式计算单元和汇总单元依次连接,中心调度单元用于对数据信息进行分析和分配,分析后的数据信息进行数据的分配,并将分配的数据传输至分布式计算单元,分布式计算单元用于对分配的数据信息进行计算处理,计算处理后的数据传输至汇总单元进行汇总处理;数据存储:将汇总后的数据传输至数据存储模块进行存储。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种并行计算场景下分布式数据集合计算系统,其特征在于,包括信息收集模块、信息分类模块、数据处理模块和数据存储模块,所述信息收集模块、信息分类模块、数据处理模块和数据存储模块依次连接,所述信息收集模块包括信息抓取单元,所述信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接,所述数据处理模块包括中心调度单元、分布式计算单元和汇总单元,所述中心调度单元、分布式计算单元和汇总单元依次连接。
2.根据权利要求1所述的一种并行计算场景下分布式数据集合计算系统,其特征在于,所述信息抓取单元用于收集互联网网站信息,对互联网网站信息进行整理,得到互联网网站的特性信息数据,并将特性信息数据传输至信息分类模块。
3.根据权利要求1所述的一种并行计算场景下分布式数据集合计算系统,其特征在于,所述数据解析单元接收特征信息数据,并对特征信息数据进行数据解析,将特征信息数据解析成常用数据信息,并将解析后的数据信息传输至数据过滤单元。
4.根据权利要求1所述的一种并行计算场景下分布式数据集合计算系统,其特征在于,所述数据过滤单元将对常用数据信息进行筛分,剔除无用数据信息,并将有用数据信息传输至数据去重单元。
5.根据权利要求1所述的一种并行计算场景下分布式数据集合计算系统,其特征在于,所述数据去重单元将有用数据信息中重复数据信息进行剔除,得到精简数据信息,并将精简数据信息传输至数据分类单元。
6.根据权利要求1所述的一种并行计算场景下分布式数据集合计算系统,其特征在于,所述数据分类单元用于将精简数据信息根据不同数据类型进行分类,并将分类后的数据信息传输至数据处理模块。
7.根据权利要求1所述的一种并行计算场景下分布式数据集合计算系统,其特征在于,所述中心调度单元用于对数据信息进行分析和分配,分析后的数据信息进行数据的分配,并将分配的数据传输至分布式计算单元。
8.根据权利要求1所述的一种并行计算场景下分布式数据集合计算系统,其特征在于,所述分布式计算单元用于对分配的数据信息进行计算处理,计算处理后的数据传输至汇总单元进行汇总处理,汇总后的数据传输至数据存储模块进行存储。
9.一种并行计算场景下分布式数据集合计算方法,其特征在于,包括如下步骤:
S1信息收集:信息收集模块包括信息抓取单元,信息抓取单元用于收集互联网网站信息,对互联网网站信息进行整理,得到互联网网站的特性信息数据,并将特性信息数据传输至信息分类模块;
S2信息分类:信息分类模块包括数据解析单元、数据过滤单元、数据去重单元和数据分类单元,数据解析单元、数据过滤单元、数据去重单元和数据分类单元依次连接,数据解析单元接收特征信息数据,并对特征信息数据进行数据解析,将特征信息数据解析成常用数据信息,并将解析后的数据信息传输至数据过滤单元,数据过滤单元将对常用数据信息进行筛分,剔除无用数据信息,并将有用数据信息传输至数据去重单元,数据去重单元将有用数据信息中重复数据信息进行剔除,得到精简数据信息,并将精简数据信息传输至数据分类单元,数据分类单元用于将精简数据信息根据不同数据类型进行分类,并将分类后的数据信息传输至数据处理模块;
S3数据处理:数据处理模块包括中心调度单元、分布式计算单元和汇总单元,所述中心调度单元、分布式计算单元和汇总单元依次连接,中心调度单元用于对数据信息进行分析和分配,分析后的数据信息进行数据的分配,并将分配的数据传输至分布式计算单元,分布式计算单元用于对分配的数据信息进行计算处理,计算处理后的数据传输至汇总单元进行汇总处理;
S4数据存储:将汇总后的数据传输至数据存储模块进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650280.6A CN112559480A (zh) | 2020-07-08 | 2020-07-08 | 一种并行计算场景下分布式数据集合计算方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010650280.6A CN112559480A (zh) | 2020-07-08 | 2020-07-08 | 一种并行计算场景下分布式数据集合计算方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112559480A true CN112559480A (zh) | 2021-03-26 |
Family
ID=75040879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010650280.6A Pending CN112559480A (zh) | 2020-07-08 | 2020-07-08 | 一种并行计算场景下分布式数据集合计算方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559480A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113483814A (zh) * | 2021-06-22 | 2021-10-08 | 北京德风新征程科技有限公司 | 一种基于互联网大数据的机械故障监控系统 |
CN115994726A (zh) * | 2023-03-21 | 2023-04-21 | 北京德风新征程科技股份有限公司 | 派送路径调整方法、装置、电子设备和计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391990A (zh) * | 2014-12-16 | 2015-03-04 | 浪潮软件集团有限公司 | 一种基于垂直行业的多任务式采集与收割方法 |
CN106599253A (zh) * | 2016-12-21 | 2017-04-26 | 济南浪潮高新科技投资发展有限公司 | 一种采用NoSQL数据库实现分布式计算的方法 |
CN109543103A (zh) * | 2018-11-14 | 2019-03-29 | 深圳市中易科技有限责任公司 | 一种基于分布式数据收集的方法 |
CN111177106A (zh) * | 2019-12-30 | 2020-05-19 | 嘉联支付有限公司 | 一种分布式数据计算系统及方法 |
-
2020
- 2020-07-08 CN CN202010650280.6A patent/CN112559480A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391990A (zh) * | 2014-12-16 | 2015-03-04 | 浪潮软件集团有限公司 | 一种基于垂直行业的多任务式采集与收割方法 |
CN106599253A (zh) * | 2016-12-21 | 2017-04-26 | 济南浪潮高新科技投资发展有限公司 | 一种采用NoSQL数据库实现分布式计算的方法 |
CN109543103A (zh) * | 2018-11-14 | 2019-03-29 | 深圳市中易科技有限责任公司 | 一种基于分布式数据收集的方法 |
CN111177106A (zh) * | 2019-12-30 | 2020-05-19 | 嘉联支付有限公司 | 一种分布式数据计算系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113483814A (zh) * | 2021-06-22 | 2021-10-08 | 北京德风新征程科技有限公司 | 一种基于互联网大数据的机械故障监控系统 |
CN115994726A (zh) * | 2023-03-21 | 2023-04-21 | 北京德风新征程科技股份有限公司 | 派送路径调整方法、装置、电子设备和计算机可读介质 |
CN115994726B (zh) * | 2023-03-21 | 2023-06-13 | 北京德风新征程科技股份有限公司 | 派送路径调整方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105528280B (zh) | 系统日志与健康监控关系决定日志告警等级的方法及系统 | |
JP2019023937A5 (zh) | ||
CN105637891A (zh) | 遥测数据的动态收集分析和报告 | |
CN104246786A (zh) | 模式发现中的字段选择 | |
CN106951409A (zh) | 一种网络社交媒体观点倾向性分析系统及方法 | |
CN112559480A (zh) | 一种并行计算场景下分布式数据集合计算方法和系统 | |
CN106250287A (zh) | 一种日志信息处理装置 | |
CN104199903A (zh) | 一种基于路径关联的车辆数据查询系统及方法 | |
CN1275137C (zh) | 海量数据处理方法和系统 | |
CN108280213A (zh) | 一种大数据的分析系统 | |
CN111583442A (zh) | 终端策略配置方法、装置、计算机设备和存储介质 | |
CN202815869U (zh) | 一种车载微机图像视频数据提取装置 | |
CN113612645A (zh) | 一种物联网数据处理方法及系统 | |
CN118113999A (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN106708876B (zh) | 一种基于Lucene的相似视频检索方法及系统 | |
CN110597993A (zh) | 一种微博热点话题数据挖掘方法 | |
CN110941836A (zh) | 一种分布式垂直爬虫方法及终端设备 | |
CN111610928A (zh) | 一种快速通用的埋点数据采集方法 | |
CN110555592A (zh) | 一种计算机技术开发咨询和评估系统 | |
CN104572767B (zh) | 一种站点语种分类的方法和系统 | |
EP3828712A1 (en) | Data parsing method and device | |
CN109447177A (zh) | 账号聚类方法、装置和服务器 | |
CN110968570A (zh) | 面向电商平台的分布式大数据挖掘系统 | |
CN113360313B (zh) | 一种基于海量系统日志的行为分析方法 | |
CN108038490A (zh) | 一种基于互联网数据的p2p企业自动识别方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210326 |