CN103514205A - 海量数据处理方法和系统 - Google Patents

海量数据处理方法和系统 Download PDF

Info

Publication number
CN103514205A
CN103514205A CN201210215717.9A CN201210215717A CN103514205A CN 103514205 A CN103514205 A CN 103514205A CN 201210215717 A CN201210215717 A CN 201210215717A CN 103514205 A CN103514205 A CN 103514205A
Authority
CN
China
Prior art keywords
data
subtask
parallel
cleaning
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210215717.9A
Other languages
English (en)
Inventor
闻剑峰
贺仁龙
石屹嵘
龚德志
段勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201210215717.9A priority Critical patent/CN103514205A/zh
Publication of CN103514205A publication Critical patent/CN103514205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1858Parallel file systems, i.e. file systems supporting multiple processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量数据处理方法和系统,涉及数据处理领域,包括并行采集多个数据文件;将每个所述数据文件划分成多个独立的数据块,分别存储所述数据块;对每个所述数据块进行清洗;将清洗后的每个所述数据块保存到数据仓库。本发明通过并行采集和分散存储的数据处理方式,有效解决了数据输入的瓶颈限制,提高数据输入的效率,并且数据块分散存储为后续的并行处理提供了前提条件。

Description

海量数据处理方法和系统
技术领域
本发明涉及数据处理领域,特别涉及一种海量数据处理方法和系统。
背景技术
随着电信业务的不断发展,电信业务从语音业务的CDR(CallDetail Record,呼叫详细记录)发展为数据业务的UDR(User DataRecord,用户数据记录),记录规模从千万条增长100倍发展到数十亿条,数据处理规模正由TB(TeraByte,太字节)级别向PB(PetaByte)级别发展。
对于海量数据,如用户上网行为的UDR海量日志,传统的ETL(Extract Transform Load,抽取转换装载)数据处理方法采用串行处理方式,也就是将海量数据文件逐个的采集到本地服务器,然后逐个完成数据文件的字段提取、格式转换等数据清洗的工作,最后通过传统数据仓库提供的单个数据访问点,将清洗后的数据文件串行的导入数据仓库,完成海量数据处理。
上述传统的海量数据处理方法采用串行处理方式,存在处理时间较长、处理效率较低、处理速度较慢的问题。
发明内容
本发明实施例所要解决的技术问题是:提供一种海量数据处理方法和系统,以解决传统海量数据处理方法存在的处理时间较长、处理效率较低、处理速度较慢的问题。
根据本发明实施例的一个方面提供的一种海量数据处理方法,包括:并行采集多个数据文件;将每个所述数据文件划分成多个独立的数据块,分别存储所述数据块;对每个所述数据块进行清洗;将清洗后的每个所述数据块保存到数据仓库。
可选的,所述并行采集多个数据文件包括:同时启动多个采集子任务,多个所述采集子任务并行采集多个所述数据文件。
可选的,所述分别存储所述数据块包括:将多个所述数据块分散存储到云平台的分布式文件系统上。
可选的,所述对每个所述数据块进行清洗包括:同时启动多个数据处理子任务,多个所述数据处理子任务并行对多个所述数据块进行数据读取、字段提取和格式转换。
可选的,所述将清洗后的每个所述数据块保存到数据仓库包括:利用所述数据仓库提供的多个数据访问点,同时将清洗后的每个所述数据块保存到所述数据仓库。
根据本发明实施例的另一个方面提供的一种海量数据处理系统,包括:并行采集装置,用于并行采集多个数据文件;分散存储装置,用于将每个所述数据文件划分成多个独立的数据块,分别存储所述数据块;清洗装置,用于对每个所述数据块进行清洗;入库装置,用于将清洗后的每个所述数据块保存到数据仓库。
可选的,所述并行采集装置,用于同时启动多个采集子任务,多个所述采集子任务并行采集多个所述数据文件。
可选的,所述分散存储装置,用于将每个所述数据文件划分成多个独立的数据块,并将多个所述数据块分散存储到云平台的分布式文件系统上。
可选的,所述清洗装置,用于同时启动多个数据处理子任务,多个所述数据处理子任务并行对多个所述数据块进行数据读取、字段提取和格式转换。
可选的,所述入库装置,用于利用所述数据仓库提供的多个数据访问点,同时将清洗后的每个所述数据块保存到所述数据仓库。
基于本发明提供的海量数据处理方法和系统,通过并行采集和分散存储的数据处理方式,有效解决了数据输入的瓶颈限制,提高数据输入的效率,并且数据块分散存储为后续的并行处理提供了前提条件;通过多个数据块并行清洗的方式,解决了数据清洗过程中的串行限制,提升了数据清洗的效率;通过多个数据访问点,可以将海量数据并行导入数据仓库,节省了数据加载的时间。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明海量数据处理方法一个实施例的流程图;
图2为本发明一个实施例并行采集和分散存储的流程图;
图3为本发明一个实施例并行清洗和并行入库的流程图;
图4为本发明海量数据处理方法一个实施例的流程图;
图5为本发明海量数据处理方法一个实施例的时序图;
图6为本发明海量数据处理系统一个实施例的结构示意图;
图7为本发明海量数据处理系统另一个实施例的架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明海量数据处理方法一个实施例的流程图。如图1所示,该实施例的海量数据处理方法采用了并行采集和分散存储的方式,可以由多个计算机节点执行,包括:
S102,并行采集多个数据文件,多个数据文件可以是海量数据文件,例如,用户上网行为的UDR海量日志等;
S104,将每个数据文件划分成多个独立的数据块,分别存储数据块,数据块的大小可以设置,每个数据块可以被上层应用独立访问,例如,可以将多个数据块分散存储到云平台的HDFS(HadoopDistributed File System,分布式文件系统)上;
S106,对每个数据块进行清洗;
S108,将清洗后的每个数据块保存到数据仓库。
上述实施例中,通过并行采集和分散存储的数据处理方式,有效解决了数据输入的瓶颈限制,提高数据输入的效率,并且数据块分散存储为后续的并行处理提供了前提条件;并且由多个计算机节点进行并行处理,可以充分利用每个计算机节点的资源,数据处理效率更高。
图2为本发明一个实施例并行采集和分散存储的流程图。如图2所示,并行采集和分散存储包括:
S202,流程开始;
S204,基于云计算的MapReduce(映射简化)并行计算算法,启动数据采集任务;
S206,针对每个数据文件启动一个采集子任务,同时启动多个采集子任务,例如启动采集子任务1~N;
S208,多个采集子任务并行采集多个数据文件1~N;
S210,将每个数据文件划分成多个独立的数据块,例如数据块11~NN,将多个数据块分散存储到云平台的HDFS上。
S212,流程结束。
在对数据块进行清洗处理和入库处理时,可以采用并行处理方式。图3为本发明一个实施例并行清洗和并行入库的流程图。如图3所示,并行清洗和并行入库可以由多个计算机节点执行,包括:
S302,流程开始;
S304,基于云计算的MapReduce并行计算算法,启动数据处理子任务,针对每个数据块启动一个数据处理子任务,同时启动多个数据处理子任务11~NN,对于用户上网行为的UDR海量日志等海量数据,可以同时并发上千个数据处理子任务,极大地提供数据处理速度;
S306,多个数据处理子任务并行读取多个数据块11~NN;
S308,多个数据处理子任务并行提取多个数据块中的有效字段,有效字段可以根据实际需要灵活设定,例如,一个数据块包括时间、地点、操作项等字段,可以提取其中的时间字段;
S310,多个数据处理子任务并行对多个数据块进行格式转换,可以主要将上述提取的有效字段进行格式转换,例如,将时间字段统一成20120619格式等;
S312,利用数据仓库提供的多个数据访问点,同时将清洗后的每个数据块保存到数据仓库;
S314,流程结束。
上述实施例中,通过多个数据块并行清洗的方式,解决了数据清洗过程中的串行限制,提升了数据清洗的效率;通过多个数据访问点,可以将海量数据并行导入数据仓库,节省了数据加载的时间;并且由多个计算机节点进行并行处理,可以充分利用每个计算机节点的资源,数据处理效率更高。
图4为本发明海量数据处理方法一个实施例的流程图。如图4所示,该实施例的海量数据处理方法采用了并行采集和分散存储,以及并行清洗和并行入库的方式,可以由多个计算机节点执行,包括:
S402,流程开始;
S404,基于云计算的MapReduce并行计算算法,启动数据采集任务,同时启动多个采集子任务,例如启动采集子任务1~N;
S406,多个采集子任务并行采集多个数据文件1~N,将每个数据文件划分成多个独立的数据块,例如数据块11~NN,将多个数据块分散存储到云平台的HDFS上;
S408,基于云计算的MapReduce并行计算算法,启动数据处理子任务,同时启动多个数据处理子任务11~NN;
S410,利用数据仓库提供的多个数据访问点,同时将清洗后的每个数据块保存到数据仓库;
S412,流程结束。
上述实施例中,通过并行采集和分散存储的数据处理方式,有效解决了数据输入的瓶颈限制,提高数据输入的效率,并且数据块分散存储为后续的并行处理提供了前提条件;通过多个数据块并行清洗的方式,解决了数据清洗过程中的串行限制,提升了数据清洗的效率;通过多个数据访问点,可以将海量数据并行导入数据仓库,节省了数据加载的时间。并且由多个计算机节点进行并行处理,可以充分利用每个计算机节点的资源,数据处理效率更高。
图5为本发明海量数据处理方法一个实施例的时序图。如图5所示,该实施例的海量数据处理方法采用了并行采集和分散存储,以及并行清洗和并行入库的方式,可以由多个计算机节点执行,包括:
S502,启动采集任务;
S504,同时启动多个采集子任务,并发执行采集子任务1~N;
S506,采集完成后发出数据存储请求1~N;
S508,将每个数据文件划分成多个独立的数据块,分散存储数据块11~NN;
S510,存储完成后发出数据清洗请求11~NN;
S512,并发读取数据块11~NN;
S514,并发提取数据块11~NN中的有效字段;
S516,并发对数据块11~NN进行格式转换;
S518,清洗完成后发出数据入库请求11~NN;
S520,将数据块11~NN并发存入数据仓库。
上述实施例中,通过并行采集和分散存储的数据处理方式,有效解决了数据输入的瓶颈限制,提高数据输入的效率,并且数据块分散存储为后续的并行处理提供了前提条件;通过多个数据块并行清洗的方式,解决了数据清洗过程中的串行限制,提升了数据清洗的效率;通过多个数据访问点,可以将海量数据并行导入数据仓库,节省了数据加载的时间。并且由多个计算机节点进行并行处理,可以充分利用每个计算机节点的资源,数据处理效率更高。
图6为本发明海量数据处理系统一个实施例的结构示意图。如图6所示,该系统包括:并行采集装置602,用于并行采集多个数据文件;分散存储装置604,用于将每个数据文件划分成多个独立的数据块,分别存储数据块;清洗装置606,用于对每个数据块进行清洗;入库装置608,用于将清洗后的每个数据块保存到数据仓库。
上述并行采集装置602、分散存储装置604、清洗装置606、或者入库装置608可以包括多个计算机节点。
作为海量数据处理系统另一个实施例,并行采集装置602,具体用于同时启动多个采集子任务,多个采集子任务并行采集多个数据文件。
作为海量数据处理系统另一个实施例,分散存储装置604,具体用于将每个数据文件划分成多个独立的数据块,并将多个数据块分散存储到云平台的分布式文件系统上。
作为海量数据处理系统另一个实施例,清洗装置606,具体用于同时启动多个数据处理子任务,多个数据处理子任务并行对多个数据块进行数据读取、字段提取和格式转换。
作为海量数据处理系统另一个实施例,入库装置608,具体用于利用数据仓库提供的多个数据访问点,同时将清洗后的每个数据块保存到数据仓库。
图7为本发明海量数据处理系统另一个实施例的架构示意图。如图7所示,该系统包括:并行处理装置702和分布式计算引擎704,并行处理装置702可以包括多个计算机节点;并行处理装置702包括并行采集装置7022,用于并行采集多个数据文件;分散存储装置7024,用于将每个数据文件划分成多个独立的数据块,分别存储数据块;清洗装置7026,用于同时启动多个数据处理子任务,多个数据处理子任务并行对多个数据块进行数据读取、字段提取和格式转换;以及入库装置7028,用于利用数据仓库提供的多个数据访问点,同时将清洗后的每个数据块保存到数据仓库;分布式计算引擎704包括MapReduce并行计算引擎7042,用于基于云计算的MapReduce并行计算算法,同时启动多个数据采集子任务进行并行数据采集,或者同时启动多个数据处理子任务进行并行数据清洗;以及HDFS引擎7044,用于对数据块进行分散存储。
上述实施例中,通过并行采集和分散存储的数据处理方式,有效解决了数据输入的瓶颈限制,提高数据输入的效率,并且数据块分散存储为后续的并行处理提供了前提条件;通过多个数据块并行清洗的方式,解决了数据清洗过程中的串行限制,提升了数据清洗的效率;通过多个数据访问点,可以将海量数据并行导入数据仓库,节省了数据加载的时间。并且由多个计算机节点进行并行处理,可以充分利用每个计算机节点的资源,数据处理效率更高。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种海量数据处理方法,其特征在于,所述方法包括:
并行采集多个数据文件;
将每个所述数据文件划分成多个独立的数据块,分别存储所述数据块;
对每个所述数据块进行清洗;
将清洗后的每个所述数据块保存到数据仓库。
2.根据权利要求1所述的方法,其特征在于,所述并行采集多个数据文件包括:
同时启动多个采集子任务,多个所述采集子任务并行采集多个所述数据文件。
3.根据权利要求1所述的方法,其特征在于,所述分别存储所述数据块包括:
将多个所述数据块分散存储到云平台的分布式文件系统上。
4.根据权利要求1所述的方法,其特征在于,所述对每个所述数据块进行清洗包括:
同时启动多个数据处理子任务,多个所述数据处理子任务并行对多个所述数据块进行数据读取、字段提取和格式转换。
5.根据权利要求1所述的方法,其特征在于,所述将清洗后的每个所述数据块保存到数据仓库包括:
利用所述数据仓库提供的多个数据访问点,同时将清洗后的每个所述数据块保存到所述数据仓库。
6.一种海量数据处理系统,其特征在于,所述系统包括:
并行采集装置,用于并行采集多个数据文件;
分散存储装置,用于将每个所述数据文件划分成多个独立的数据块,分别存储所述数据块;
清洗装置,用于对每个所述数据块进行清洗;
入库装置,用于将清洗后的每个所述数据块保存到数据仓库。
7.根据权利要求6所述的系统,其特征在于,所述并行采集装置,用于同时启动多个采集子任务,多个所述采集子任务并行采集多个所述数据文件。
8.根据权利要求6所述的系统,其特征在于,所述分散存储装置,用于将每个所述数据文件划分成多个独立的数据块,并将多个所述数据块分散存储到云平台的分布式文件系统上。
9.根据权利要求6所述的系统,其特征在于,所述清洗装置,用于同时启动多个数据处理子任务,多个所述数据处理子任务并行对多个所述数据块进行数据读取、字段提取和格式转换。
10.根据权利要求6所述的系统,其特征在于,所述入库装置,用于利用所述数据仓库提供的多个数据访问点,同时将清洗后的每个所述数据块保存到所述数据仓库。
CN201210215717.9A 2012-06-27 2012-06-27 海量数据处理方法和系统 Pending CN103514205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210215717.9A CN103514205A (zh) 2012-06-27 2012-06-27 海量数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210215717.9A CN103514205A (zh) 2012-06-27 2012-06-27 海量数据处理方法和系统

Publications (1)

Publication Number Publication Date
CN103514205A true CN103514205A (zh) 2014-01-15

Family

ID=49896940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210215717.9A Pending CN103514205A (zh) 2012-06-27 2012-06-27 海量数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN103514205A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317928A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式数据库的业务etl方法及系统
CN104572862A (zh) * 2014-12-19 2015-04-29 阳珍秀 一种海量数据存储访问方法及系统
CN104731891A (zh) * 2015-03-17 2015-06-24 浪潮集团有限公司 一种etl中海量数据抽取的方法
CN104915414A (zh) * 2015-06-04 2015-09-16 北京京东尚科信息技术有限公司 数据抽取方法及装置
CN105100149A (zh) * 2014-05-13 2015-11-25 中国电信股份有限公司 用于管理文件的方法和系统
CN105677853A (zh) * 2016-01-06 2016-06-15 北京国电通网络技术有限公司 一种基于大数据技术框架的数据存储方法及装置
CN106484915A (zh) * 2016-11-03 2017-03-08 国家电网公司信息通信分公司 一种海量数据的清洗方法和系统
CN108153793A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种原始数据处理方法
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN108153789A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种交易平台数据处理方法
WO2018184418A1 (zh) * 2017-04-06 2018-10-11 平安科技(深圳)有限公司 数据清洗的方法、终端及计算机可读存储介质
CN109241045A (zh) * 2018-08-29 2019-01-18 宜人恒业科技发展(北京)有限公司 一种预处理数据的方法和装置
CN109857832A (zh) * 2019-01-03 2019-06-07 中国银行股份有限公司 一种支付数据的预处理方法和装置
CN111858630A (zh) * 2020-07-10 2020-10-30 山东云海国创云计算装备产业创新中心有限公司 一种数据处理方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7650331B1 (en) * 2004-06-18 2010-01-19 Google Inc. System and method for efficient large-scale data processing
CN102375837A (zh) * 2010-08-19 2012-03-14 中国移动通信集团公司 数据采集系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7650331B1 (en) * 2004-06-18 2010-01-19 Google Inc. System and method for efficient large-scale data processing
CN102375837A (zh) * 2010-08-19 2012-03-14 中国移动通信集团公司 数据采集系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘永增等: "基于Hadoop/Hive的web日志分析系统的设计", 《广西大学学报(自然科学版)》 *
吴翠雁: "基于Nutch的信息采集系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
崔杰等: "基于Hadoop的海量数据存储平台设计与开发", 《计算机研究与发展》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100149A (zh) * 2014-05-13 2015-11-25 中国电信股份有限公司 用于管理文件的方法和系统
CN104317928A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式数据库的业务etl方法及系统
CN104572862A (zh) * 2014-12-19 2015-04-29 阳珍秀 一种海量数据存储访问方法及系统
CN104731891A (zh) * 2015-03-17 2015-06-24 浪潮集团有限公司 一种etl中海量数据抽取的方法
CN104915414A (zh) * 2015-06-04 2015-09-16 北京京东尚科信息技术有限公司 数据抽取方法及装置
CN105677853A (zh) * 2016-01-06 2016-06-15 北京国电通网络技术有限公司 一种基于大数据技术框架的数据存储方法及装置
CN106484915A (zh) * 2016-11-03 2017-03-08 国家电网公司信息通信分公司 一种海量数据的清洗方法和系统
CN106484915B (zh) * 2016-11-03 2019-10-11 国家电网公司信息通信分公司 一种海量数据的清洗方法和系统
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN108153789A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种交易平台数据处理方法
CN108153793A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种原始数据处理方法
WO2018184418A1 (zh) * 2017-04-06 2018-10-11 平安科技(深圳)有限公司 数据清洗的方法、终端及计算机可读存储介质
CN109241045A (zh) * 2018-08-29 2019-01-18 宜人恒业科技发展(北京)有限公司 一种预处理数据的方法和装置
CN109857832A (zh) * 2019-01-03 2019-06-07 中国银行股份有限公司 一种支付数据的预处理方法和装置
CN111858630A (zh) * 2020-07-10 2020-10-30 山东云海国创云计算装备产业创新中心有限公司 一种数据处理方法、装置、设备及可读存储介质
CN111858630B (zh) * 2020-07-10 2022-06-17 山东云海国创云计算装备产业创新中心有限公司 一种数据处理方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN103514205A (zh) 海量数据处理方法和系统
Sandhu Big data with cloud computing: Discussions and challenges
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN105447088B (zh) 一种基于志愿者计算的多租户专业云爬虫系统
US11580441B2 (en) Model training method and apparatus
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN111258978A (zh) 一种数据存储的方法
CN103970788A (zh) 一种基于网页爬取的爬虫技术
CN105243155A (zh) 一种大数据抽取和交换系统
CN105786864A (zh) 一种实现海量数据离线分析的方法
CN102880503A (zh) 数据分析系统及数据分析方法
CN103399887A (zh) 一种海量日志的查询与统计分析系统
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN102567480A (zh) 自动匹配数据集与存储组件
CN104077402A (zh) 数据处理方法和数据处理系统
CN102523131A (zh) 用户上网行为收集方法、分析方法和系统
CN106294745A (zh) 大数据清洗方法及装置
CN105007314A (zh) 面向海量读者阅读数据的大数据处理系统
Kim et al. A study on utilization of spatial information in heterogeneous system based on apache nifi
CN103109293A (zh) 一种用户行为处理系统及方法
CN104598536A (zh) 一种分布式网络信息结构化处理方法
CN106570153A (zh) 一种海量url的数据提取方法及系统
CN106570151A (zh) 一种海量文件的数据收集处理方法及系统
CN106570152B (zh) 一种手机号码的海量提取方法及系统
CN102724290A (zh) 一种获取目标客户群的方法、设备及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140115