CN107015989A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN107015989A
CN107015989A CN201610057344.5A CN201610057344A CN107015989A CN 107015989 A CN107015989 A CN 107015989A CN 201610057344 A CN201610057344 A CN 201610057344A CN 107015989 A CN107015989 A CN 107015989A
Authority
CN
China
Prior art keywords
data
file system
internal memory
distributed file
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610057344.5A
Other languages
English (en)
Inventor
郑壮杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Burson Marsteller Network Game Development (shenzhen) Co Ltd
Original Assignee
Burson Marsteller Network Game Development (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Burson Marsteller Network Game Development (shenzhen) Co Ltd filed Critical Burson Marsteller Network Game Development (shenzhen) Co Ltd
Priority to CN201610057344.5A priority Critical patent/CN107015989A/zh
Publication of CN107015989A publication Critical patent/CN107015989A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据处理方法和装置。该方法包括以下步骤:对内存分布式文件系统及Spark集群进行配置,将内存分布式文件系统及Spark集群进行关联;启动Spark集群,并对Spark集群初始化;从内存分布式文件系统中读取源数据;对所述源数据进行预处理,得到预处理后的数据;将所述预处理后的数据进行分析得到数据分析结果;将所述数据分析结果存储到所述内存分布式文件系统中。上述数据处理方法和装置,从内存分布式文件系统中读取源数据,为外部读取设备提供内存级速度的跨集群文件共享服务,提高了数据读取效率,且该内存分布式文件系统将数据存储和数据处理分隔开,减少了数据处理中垃圾回收次数和时间,提高了数据处理效率。

Description

数据处理方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理方法和装置。
背景技术
随着计算机和网络技术的发展,电子设备的普及,越来越多的用户使用网络,为此产生了大量的数据,为了快速从海量数据中获得真正的业务价值,需要构建一种性能高的数据分析应用系统。
Spark是一种基于内存的迭代处理框架,它具有高吞吐量和强容错性的特点,由于其内部优秀的调度机制、快速的分布式计算能力,能够用极快的速度进行迭代计算,在某些特定业务可以实现准实时的分析处理。但是,Spark在对数据进行处理时,如果源数据保存在磁盘上,需要从磁盘加载数据,耗时较长。
发明内容
基于此,有必要针对Spark从磁盘加载数据耗时长的问题,提供一种数据处理方法,能提高加载数据的效率。
此外,还有必要提供一种数据处理装置,能提高加载数据的效率。
一种数据处理方法,包括以下步骤:
对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
启动所述Spark集群,并对所述Spark集群初始化;
从所述内存分布式文件系统中读取源数据;
对所述源数据进行预处理,得到预处理后的数据;
将所述预处理后的数据进行分析得到数据分析结果;
将所述数据分析结果存储到所述内存分布式文件系统中。
在其中一个实施例中,还包括:
当Spark出现故障时,重启Spark,从所述内存分布式文件系统中读取缓存的源数据及数据分析结果。
在其中一个实施例中,所述对所述源数据进行预处理,得到预处理后的数据的步骤包括:
将所述源数据转换为预定格式的数据;
将所述预定格式的数据进行过滤;
将过滤后的数据注册成具有相同结构模式的临时表;
所述将所述预处理后的数据进行分析得到数据分析结果的步骤包括:
通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
在其中一个实施例中,对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联的步骤包括:
指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
设置内存分布式文件系统的主节点的IP、访问端口及缓存路径,内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;
指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能;
对所述Spark集群初始化的步骤包括:
初始化上下文全局对象;
初始化执行类型。
在其中一个实施例中,在启动所述Spark集群,并对所述Spark集群初始化的步骤之后,所述数据处理方法还包括:
接收数据;
对所述数据进行处理得到源数据;
将所述源数据存入内存分布式文件系统。
一种数据处理装置,包括:
配置模块,用于对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
初始化模块,用于启动所述Spark集群,并对所述Spark集群初始化;
读取模块,用于从所述内存分布式文件系统中读取源数据;
预处理模块,用于对所述源数据进行预处理,得到预处理后的数据;
分析模块,用于将所述预处理后的数据进行分析得到数据分析结果;
存储模块,用于将所述数据分析结果存储到所述内存分布式文件系统中。
在其中一个实施例中,所述读取模块还用于当Spark出现故障时,重启Spark,从内存分布式文件系统中读取缓存的源数据及数据分析结果。
在其中一个实施例中,所述预处理模块包括:
转换单元,用于将所述源数据转换为预定格式的数据;
过滤单元,用于将所述预定格式的数据进行过滤;
注册单元,用于将过滤后的数据注册成具有相同结构模式的临时表;
所述分析模块还用于通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
在其中一个实施例中,所述配置模块还用于指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
设置内存分布式文件系统的主节点的IP、访问端口和缓存路径,及设置内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;以及
指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能;
所述初始化模块还用于初始化上下文全局对象,以及初始化执行类型。
在其中一个实施例中,所述数据处理装置还包括:
接收模块,用于在初始化模块启动所述Spark集群,并对所述Spark集群初始化之后,接收数据;
处理模块,用于对所述数据进行处理得到源数据;
所述存储模块还用于将所述源数据存入所述内存分布式文件系统。
上述数据处理方法和装置,通过将内存分布式文件系统与Spark集群进行关联,基于Spark分析数据时,从内存分布式文件系统中读取源数据,对源数据进行预处理后进行分析得到数据分析结果,并将数据分析结果存储到内存分布式文件系统中,因Spark执行任务时,从内存分布式文件系统中读取源数据,为外部读取设备提供内存级速度的跨集群文件共享服务,提高了数据读取效率,且该内存分布式文件系统将数据存储和数据处理分隔开,减少了数据处理中垃圾回收次数和时间,提高了数据处理效率。
附图说明
图1为一个实施例中数据处理方法的流程图;
图2为一个实施例中对内存分布式文件系统及Spark集群进行配置,将内存分布式文件系统及Spark集群进行关联的具体流程图;
图3为一个实施例中对该源数据进行预处理,得到预处理后的数据的具体流程图;
图4为另一个实施例中数据处理方法的流程图;
图5为一个实施例中数据处理装置的结构框图;
图6为一个实施例中预处理模块的内部结构框图;
图7为另一个实施例中数据处理装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中数据处理方法的流程图。如图1所示,一种数据处理方法,包括以下步骤102至步骤112:
步骤102,对内存分布式文件系统及Spark集群进行配置,将内存分布式文件系统及Spark集群进行关联。
具体地,内存分布式文件系统是一种基于堆外内存的分布式存储。堆外内存把数据存储和数据处理分隔开,数据存放在处理逻辑的JVM(Java VirtualMachine,虚拟机)堆空间之外,从而减少数据处理中JVM的垃圾回收次数和时间,提高数据处理效率。因为每一次的full GC都需要对数据进行一个全局扫描,非常耗费时间,同时随着处理时间和迭代次数的增加,GC的开销会变得越来越大。由于数据存储在内存分布式文件系统中,当处理逻辑读取数据时,避免了磁盘IO(Input/Output,输入/输出)的开销,读取效率大幅上升。
内存分布式文件系统可为Tachyon。将内存分布式文件系统及Spark集群进行关联是指将内存分布式文件系统与Spark集群产生联系。
图2为一个实施例中对内存分布式文件系统及Spark集群进行配置,将内存分布式文件系统及Spark集群进行关联的具体流程图。如图2所示,以内存分布式文件系统为Tachyon为例,对内存分布式文件系统及Spark集群进行配置,将内存分布式文件系统及Spark集群进行关联的步骤包括步骤202至步骤206:
步骤202,指定内存分布式文件系统底层使用的文件系统及文件系统的实现类。
具体地,指定Tachyon底层使用的文件系统及文件系统的实现类。指定Tachyon底层使用的文件系统为hadoop分布式文件系统,其实现类为org.apache.hadoop.hdfs.DistributedFileSystem,指定其在文件系统中的相关存储路径,设置是否使用Zookeeper来进行master容错。
hadoop分布式文件系统,是一个容错性高,扩展性强的适合PB级数据存储的系统。它在磁盘上默认存储了三份数据,而上层的Tachyon仅需保存一份和Hadoop分布式文件系统中的数据一致的数据到内存中即可,这样使得宝贵的内存资源得到最大化的利用。只有内存中没有处理程序所需的数据时,Tachyon才会从hadoop分布式文件系统中加载;而如果Tachyon的某个节点没有数据时,它可以通过网络从其他Tachyon节点读取没有磁盘IO只有网络开销的数据。
步骤204,设置内存分布式文件系统的主节点的IP、访问端口及缓存路径,内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径。
具体地,指定Tachyon的主节点的IP(Internet Protocol,网际协议)地址、访问端口及缓存路径。指定Tachyon的从节点的端口、数据服务端口、数据存储路径以及内存容量大小等。
内存分布式文件系统配置完成后,第一次启动前先格式化数据存储目录,再启动内存分布式文件系统(Tachyon)。
步骤206,指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能。
在${SPARK_HOME}/conf/spark-env.sh中设置程序启动必选参数:
MASTER:指定spark集群的连接地址
SPARK_MASTER_IP:指定spark集群主节点机器主机名
SPARK_MASTER_PORT:指定spark集群主节点机器端口号
SPARK_WORKER_CORES:指定任务执行时需要使用的cpu个数
SPARK_EXECUTOR_MEMORY:指定任务执行时需要使用的内存
SPARK_LOCAL_IP:指定执行任务的机器IP地址
SPARK_CLASSPATH:指定Tachyon依赖包路径
在${SPARK_HOME}/conf/core-site.xml中配置:
fs.tachyon.impl→tachyon.hadoop.TFS:配置tachyon运行在hadoop上面。
fs.tachyon-ft.impl→tachyon.hadoop.TFSFT:配置tachyon的容错功能。
步骤104,启动该Spark集群,并对该Spark集群初始化。
本实施例中,对该Spark集群初始化的步骤包括:初始化上下文全局对象;初始化执行类型。
具体地,初始化spark上下文全局对象:
JavaSparkContext jsc=new JavaSparkContext(newSparkConf().setMaster("spark://localhost:7077").setAppName("例子"));
初始化执行类型:
HiveContext hiveContext=new HiveContext(jsc.sc())。
步骤106,从内存分布式文件系统中读取源数据。
具体地,Spark集群所需的数据存储在内存分布式文件系统中。Tachyon将Spark需要的数据存储在自己的文件系统中,通过使用Lineage记录源数据和计算过程,对数据进行Lineage容错。
从Tachyon中读取源数据:
DataFrame df1=hiveContext.read().json("tachyon://localhost:19998/demo");
步骤108,对该源数据进行预处理,得到预处理后的数据。
图3为一个实施例中对该源数据进行预处理,得到预处理后的数据的具体流程图。如图3所示,对该源数据进行预处理,得到预处理后的数据的步骤包括步骤302至306:
步骤302,将该源数据转换为预定格式的数据。
本实施例中,预定格式可为json格式,则将源数据按行转换成一个json字符串返回。
步骤304,将该预定格式的数据进行过滤。
本实施例中,将json格式的数据进行过滤。
步骤306,将过滤后的数据注册成具有相同结构模式的临时表。
本实施例中,过滤后的数据存放在DataFrame中。因DataFrame中存放的数据格式是一致的,把DataFrame注册成一个具有相同结构模式的临时表:df2.registerTempTable("demo")。
步骤110,将该预处理后的数据进行分析得到数据分析结果。
本实施例中,通过SQL(Structured Query Language,结构化查询语言)将该临时表映射的框架数据进行分析得到数据分析结果。
DataFrame demo=hiveContext.sql("select count(*)from demo")
步骤112,将该数据分析结果存储到该内存分布式文件系统中。
本实施例中,将数据分析结果存储到内存分布式文件系统中,可采用两种方式。
第一种是将数据分析结果中的数据转化为文本存储到内存分布式文件系统中。
例如,内存分布式文件系统为Tachyon,数据分析结果为rdd,则:demo.javaRDD().saveAsTextFile("tachyon://localhost:19998/result")。
第二种是将数据分析结果直接保存到内存分布式文件系统中。
例如,内存分布式文件系统为Tachyon,数据分析结果为rdd,则:
demo.javaRDD().persist(StorageLevel.OFF_HEAP())。
上述数据处理方法,通过将内存分布式文件系统与Spark集群进行关联,基于Spark分析数据时,从内存分布式文件系统中读取源数据,对源数据进行预处理后进行分析得到数据分析结果,并将数据分析结果存储到内存分布式文件系统中,因Spark执行任务时,从内存分布式文件系统中读取源数据,为外部读取设备提供内存级速度的跨集群文件共享服务,提高了数据读取效率,且该内存分布式文件系统将数据存储和数据处理分隔开,减少了数据处理中垃圾回收次数和时间,提高了数据处理效率。
在一个实施例中,上述数据处理方法还包括:判断Spark是否出现故障,若是,则重启Spark,从内存分布式文件系统中读取缓存的源数据及数据分析结果,若否,则将数据分析结果存储到内存分布式文件系统中。
本实施例中,当Spark出现故障时,源数据以及数据分析结果都安全地存储在Tachyon内存分布式文件系统中。重启Spark后,程序直接从Tachyon内存分布式文件系统中读取上次时间间隔缓存的源数据及数据分析结果,快速实现数据恢复的功能,数据不易消失。数据分析结果包括数据分析过程中的所有结果。
图4为另一个实施例中数据处理方法的流程图。如图4所示,在一个实施例中,在启动该Spark集群,并对该Spark集群初始化的步骤之后,该数据处理方法还包括:
步骤402,接收数据。
本实施例中,接收一个或多个客户端传输的数据。为了提高数据的传输效率,减少TCP请求次数,客户端可先在本地缓存预定数据,压缩后再传输至服务器。服务器监听数据接收端口,当有新数据到达时,获取数据的路径信息并缓存到队列中。
步骤404,对该数据进行处理得到源数据。
本实施例中,从队列中提取出数据的路径信息,用信息摘要值算法检查数据的完整性,通过后对数据进行清洗、转换、合并、缓存等操作,直到整个数据处理完成,得到源数据。
步骤406,将该源数据存入内存分布式文件系统。
本实施例中,整个数据处理完成后,调用存储接口把源数据按预定规则写入到内存分布式文件系统中。
通过对接收的数据进行处理转化为源数据,将源数据存储到内存分布式文件系统中,方便读取。
需要说明的是,上述数据处理方法因将数据存储在内存分布式文件系统中,可以跟第三方软件共享数据,第三方软件可为Hive、MapReduce等。Hive是基于Hadoop平台的数据仓库,通过将SQL语句转换为MapReduce任务中运行,适用于处理海量离线数据分析。
图5为一个实施例中数据处理装置的结构框图。如图5所示,一种数据处理装置,包括配置模块502、初始化模块504、读取模块506、预处理模块508、分析模块510和存储模块512。其中:
配置模块502用于对内存分布式文件系统及Spark集群进行配置,将内存分布式文件系统及Spark集群进行关联。
本实施例中,配置模块502还用于指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;设置内存分布式文件系统的主节点的IP、访问端口和缓存路径,及设置内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能等。
初始化模块504用于启动该Spark集群,并对该Spark集群初始化。
本实施例中,初始化模块504还用于初始化上下文全局对象,以及初始化执行类型。
读取模块506用于从内存分布式文件系统中读取源数据。
预处理模块508用于对该源数据进行预处理,得到预处理后的数据。
图6为一个实施例中预处理模块的内部结构框图。如图6所示,该预处理模块508包括转换单元5082、过滤单元5084和注册单元5086。其中:
转换单元5082用于将该源数据转换为预定格式的数据。
本实施例中,预定格式可为json格式,则将源数据按行转换成一个json字符串返回。
过滤单元5084用于将该预定格式的数据进行过滤。
本实施例中,将json格式的数据进行过滤。
注册单元5086用于将过滤后的数据注册成具有相同结构模式的临时表。
分析模块510用于将该预处理后的数据进行分析得到数据分析结果。
本实施例中,通过SQL将该临时表映射的框架数据进行分析得到数据分析结果。
存储模块512用于将该数据分析结果存储到该内存分布式文件系统中。
本实施例中,将数据分析结果存储到内存分布式文件系统中,可采用两种方式。第一种是将数据分析结果中的数据转化为文本存储到内存分布式文件系统中。第二种是将数据分析结果直接保存到内存分布式文件系统中。
上述数据处理装置,通过将内存分布式文件系统与Spark集群进行关联,基于Spark分析数据时,从内存分布式文件系统中读取源数据,对源数据进行预处理后进行分析得到数据分析结果,并将数据分析结果存储到内存分布式文件系统中,因Spark执行任务时,从内存分布式文件系统中读取源数据,为外部读取设备提供内存级速度的跨集群文件共享服务,提高了数据读取效率,且该内存分布式文件系统将数据存储和数据处理分隔开,减少了数据处理中垃圾回收次数和时间,提高了数据处理效率。
在一个实施例中,上述数据处理装置还包括判断模块,判断模块判断Spark是否出现故障。读取模块506还用于当Spark出现故障时,重启Spark,从内存分布式文件系统中读取缓存的源数据及数据分析结果。
本实施例中,当Spark出现故障时,源数据以及数据分析结果都安全地存储在Tachyon内存分布式文件系统中。重启Spark后,程序直接从Tachyon内存分布式文件系统中读取上次时间间隔缓存的源数据及数据分析结果,快速实现数据恢复的功能,数据不易消失。数据分析结果包括数据分析过程中的所有结果。
图7为另一个实施例中数据处理装置的结构框图。如图7所示,一种数据处理装置,除了包括配置模块502、初始化模块504、读取模块506、预处理模块508、分析模块510和存储模块512,还包括接收模块514和处理模块516。其中:
接收模块514用于在初始化模块启动该Spark集群,并对该Spark集群初始化之后,接收数据。
处理模块516用于对该数据进行处理得到源数据。
存储模块512还用于将该源数据存入内存分布式文件系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据处理方法,其特征在于,包括以下步骤:
对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
启动所述Spark集群,并对所述Spark集群初始化;
从所述内存分布式文件系统中读取源数据;
对所述源数据进行预处理,得到预处理后的数据;
将所述预处理后的数据进行分析得到数据分析结果;
将所述数据分析结果存储到所述内存分布式文件系统中。
2.根据权利要求1所述的数据处理方法,其特征在于,还包括:
当Spark出现故障时,重启Spark,从所述内存分布式文件系统中读取缓存的源数据及数据分析结果。
3.根据权利要求1所述的数据处理方法,其特征在于,所述对所述源数据进行预处理,得到预处理后的数据的步骤包括:
将所述源数据转换为预定格式的数据;
将所述预定格式的数据进行过滤;
将过滤后的数据注册成具有相同结构模式的临时表;
所述将所述预处理后的数据进行分析得到数据分析结果的步骤包括:
通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
4.根据权利要求1所述的数据处理方法,其特征在于,对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联的步骤包括:
指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
设置内存分布式文件系统的主节点的IP、访问端口和缓存路径,及设置内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;
指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能;
对所述Spark集群初始化的步骤包括:
初始化上下文全局对象;
初始化执行类型。
5.根据权利要求1所述的数据处理方法,其特征在于,在启动所述Spark集群,并对所述Spark集群初始化的步骤之后,所述数据处理方法还包括:
接收数据;
对所述数据进行处理得到源数据;
将所述源数据存入所述内存分布式文件系统。
6.一种数据处理装置,其特征在于,包括:
配置模块,用于对内存分布式文件系统及Spark集群进行配置,将所述内存分布式文件系统及所述Spark集群进行关联;
初始化模块,用于启动所述Spark集群,并对所述Spark集群初始化;
读取模块,用于从所述内存分布式文件系统中读取源数据;
预处理模块,用于对所述源数据进行预处理,得到预处理后的数据;
分析模块,用于将所述预处理后的数据进行分析得到数据分析结果;
存储模块,用于将所述数据分析结果存储到所述内存分布式文件系统中。
7.根据权利要求6所述的数据处理装置,其特征在于,所述读取模块还用于当Spark出现故障时,重启Spark,从所述内存分布式文件系统中读取缓存的源数据及数据分析结果。
8.根据权利要求6所述的数据处理装置,其特征在于,所述预处理模块包括:
转换单元,用于将所述源数据转换为预定格式的数据;
过滤单元,用于将所述预定格式的数据进行过滤;
注册单元,用于将过滤后的数据注册成具有相同结构模式的临时表;
所述分析模块还用于通过SQL将所述临时表映射的框架数据进行分析得到数据分析结果。
9.根据权利要求6所述的数据处理装置,其特征在于,所述配置模块还用于指定内存分布式文件系统底层使用的文件系统及文件系统的实现类;
设置内存分布式文件系统的主节点的IP、访问端口和缓存路径,及设置内存分布式文件系统的从节点的端口、数据服务端口和数据存储路径;以及
指定Spark集群启动参数,指定内存分布式文件系统所依赖包路径,配置内存文件系统运行在底层使用的文件系统之上以及内存文件系统的容错功能;
所述初始化模块还用于初始化上下文全局对象,以及初始化执行类型。
10.根据权利要求6所述的数据处理装置,其特征在于,所述数据处理装置还包括:
接收模块,用于在初始化模块启动所述Spark集群,并对所述Spark集群初始化之后,接收数据;
处理模块,用于对所述数据进行处理得到源数据;
所述存储模块还用于将所述源数据存入所述内存分布式文件系统。
CN201610057344.5A 2016-01-27 2016-01-27 数据处理方法和装置 Pending CN107015989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610057344.5A CN107015989A (zh) 2016-01-27 2016-01-27 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610057344.5A CN107015989A (zh) 2016-01-27 2016-01-27 数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN107015989A true CN107015989A (zh) 2017-08-04

Family

ID=59438555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610057344.5A Pending CN107015989A (zh) 2016-01-27 2016-01-27 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN107015989A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943904A (zh) * 2017-11-17 2018-04-20 北京锐安科技有限公司 一种大数据分析的方法以及装置
CN108446570A (zh) * 2018-02-28 2018-08-24 四川新网银行股份有限公司 一种数据脱敏方法及装置
CN109408711A (zh) * 2018-09-29 2019-03-01 北京三快在线科技有限公司 数据过滤方法、装置、电子设备及存储介质
CN109408537A (zh) * 2018-10-18 2019-03-01 网易(杭州)网络有限公司 基于Spark SQL的数据处理方法及装置、存储介质及计算设备
CN109783251A (zh) * 2018-12-21 2019-05-21 招银云创(深圳)信息技术有限公司 基于Hadoop大数据平台的数据处理系统
CN110032412A (zh) * 2019-02-28 2019-07-19 努比亚技术有限公司 一种按键输入控制方法、终端及计算机可读存储介质
CN110309116A (zh) * 2018-03-19 2019-10-08 北京京东尚科信息技术有限公司 数据处理方法和装置
CN111666260A (zh) * 2019-03-08 2020-09-15 杭州海康威视数字技术股份有限公司 数据处理方法及装置
CN111736776A (zh) * 2020-06-24 2020-10-02 杭州海康威视数字技术股份有限公司 一种数据存储、读取方法及装置
CN116166655A (zh) * 2023-04-25 2023-05-26 尚特杰电力科技有限公司 大数据清洗系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254024A (zh) * 2011-07-27 2011-11-23 国网信息通信有限公司 海量数据处理系统及方法
CN103761275A (zh) * 2014-01-09 2014-04-30 浪潮电子信息产业股份有限公司 一种分布式文件系统中元数据的管理方法
CN104462389A (zh) * 2014-12-10 2015-03-25 上海爱数软件有限公司 基于分级存储的分布式文件系统实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254024A (zh) * 2011-07-27 2011-11-23 国网信息通信有限公司 海量数据处理系统及方法
CN103761275A (zh) * 2014-01-09 2014-04-30 浪潮电子信息产业股份有限公司 一种分布式文件系统中元数据的管理方法
CN104462389A (zh) * 2014-12-10 2015-03-25 上海爱数软件有限公司 基于分级存储的分布式文件系统实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于俊等: "《Spark核心技术与高级应用》", 31 December 2015 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943904A (zh) * 2017-11-17 2018-04-20 北京锐安科技有限公司 一种大数据分析的方法以及装置
CN108446570A (zh) * 2018-02-28 2018-08-24 四川新网银行股份有限公司 一种数据脱敏方法及装置
CN110309116A (zh) * 2018-03-19 2019-10-08 北京京东尚科信息技术有限公司 数据处理方法和装置
CN110309116B (zh) * 2018-03-19 2024-05-21 北京京东尚科信息技术有限公司 数据处理方法和装置
CN109408711A (zh) * 2018-09-29 2019-03-01 北京三快在线科技有限公司 数据过滤方法、装置、电子设备及存储介质
CN109408711B (zh) * 2018-09-29 2019-12-06 北京三快在线科技有限公司 数据过滤方法、装置、电子设备及存储介质
CN109408537A (zh) * 2018-10-18 2019-03-01 网易(杭州)网络有限公司 基于Spark SQL的数据处理方法及装置、存储介质及计算设备
CN109783251A (zh) * 2018-12-21 2019-05-21 招银云创(深圳)信息技术有限公司 基于Hadoop大数据平台的数据处理系统
CN110032412A (zh) * 2019-02-28 2019-07-19 努比亚技术有限公司 一种按键输入控制方法、终端及计算机可读存储介质
CN110032412B (zh) * 2019-02-28 2022-07-01 努比亚技术有限公司 一种按键输入控制方法、终端及计算机可读存储介质
CN111666260A (zh) * 2019-03-08 2020-09-15 杭州海康威视数字技术股份有限公司 数据处理方法及装置
CN111736776A (zh) * 2020-06-24 2020-10-02 杭州海康威视数字技术股份有限公司 一种数据存储、读取方法及装置
CN111736776B (zh) * 2020-06-24 2023-10-10 杭州海康威视数字技术股份有限公司 一种数据存储、读取方法及装置
CN116166655A (zh) * 2023-04-25 2023-05-26 尚特杰电力科技有限公司 大数据清洗系统
CN116166655B (zh) * 2023-04-25 2023-07-07 尚特杰电力科技有限公司 大数据清洗系统

Similar Documents

Publication Publication Date Title
CN107015989A (zh) 数据处理方法和装置
US10447772B2 (en) Managed function execution for processing data streams in real time
US9122510B2 (en) Querying and managing computing resources in a networked computing environment
CN107645508A (zh) 一种数据处理系统、方法、客户端及服务器
US9582319B2 (en) Migrating virtual machines across network separated data centers
CN108282527B (zh) 生成服务实例的分布式系统和方法
CN105765578B (zh) 分布式文件系统中的数据的并行访问
WO2012022585A1 (en) Service deployment from a service registry
US11921720B1 (en) Systems and methods for decoupling search processing language and machine learning analytics from storage of accessed data
CN112291094B (zh) 容器网络管理方法、装置、设备及存储介质
CN109213498A (zh) 一种互联网web前端的配置方法及服务器
CN110392882A (zh) 在包括虚拟化网络功能的网络中批量创建被管功能
US11321090B2 (en) Serializing and/or deserializing programs with serializable state
US11727007B1 (en) Systems and methods for a unified analytics platform
CN111949832A (zh) 批量作业依赖关系的解析方法及装置
JP2021515299A (ja) 時系列順のアウトオブプレース更新のためのシステム、時系列順のアウトオブプレース更新のための方法、および時系列順のアウトオブプレース更新のためのコンピュータ・プログラム
CN109885535A (zh) 一种文件存储的方法及相关装置
US20160092206A1 (en) Managing executable files
US20210176138A1 (en) Data center cartography bootstrapping from process table data
US11016821B2 (en) Resegmenting chunks of data for efficient load balancing across indexers
CN108365976B (zh) 网络服务的优化方法及装置
CN110417860A (zh) 文件传输管理方法、装置、设备及存储介质
US11949547B2 (en) Enhanced simple network management protocol (SNMP) connector
US11163636B2 (en) Chronologically ordered log-structured key-value store from failures during garbage collection
US20150095482A1 (en) Method and System for Deploying Service in a Cloud Computing System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170804

RJ01 Rejection of invention patent application after publication