CN104391916A - 基于分布式计算平台的gpeh数据解析方法和装置 - Google Patents

基于分布式计算平台的gpeh数据解析方法和装置 Download PDF

Info

Publication number
CN104391916A
CN104391916A CN201410663142.6A CN201410663142A CN104391916A CN 104391916 A CN104391916 A CN 104391916A CN 201410663142 A CN201410663142 A CN 201410663142A CN 104391916 A CN104391916 A CN 104391916A
Authority
CN
China
Prior art keywords
data
gpeh
hdfs
computing platform
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410663142.6A
Other languages
English (en)
Inventor
蒋超
杜翠凤
吴靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201410663142.6A priority Critical patent/CN104391916A/zh
Publication of CN104391916A publication Critical patent/CN104391916A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式计算平台的GPEH数据解析方法和装置,首先获取GPEH原始数据;然后将GPEH原始数据上传到HDFS;最后利用MapReduce读取上传到HDFS的数据并进行解析,将解析后的数据输出到HDFS。本发明采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。

Description

基于分布式计算平台的GPEH数据解析方法和装置
技术领域
本发明涉及大数据技术领域,特别是涉及一种基于分布式计算平台的GPEH数据解析方法和装置。
背景技术
GPEH(General performance event handling,通过系统定义事件的采集和统计来定位问题)是WCDMA(Wideband Code Division Multiple Access,宽带码分多址)的一个重要功能。对于采集的GPEH原始数据进行解析,可用于无线网络规划、无线网络评估、无线网络资源管理等应用,为通信运营商提供强有力的支撑。
目前GPEH信令数据解析通常采用大型服务器进行处理,将原始的GPEH二进制数据通过反加密算法利用多线程资源进行解析,对于小规模GPEH数据可以在一定时间内解析完成。为了全面、准确、快速的进行无线网络规划支撑,底层的GPEH数据需求量巨大(数据总量可达PB级),使用大型服务器解析完成GPEH数据消耗时间难以接受。
传统GPEH数据解析通常采用单一机器,机器解析性能受机器硬件条件限制,无法随解析数据量增大而扩展;并且机器的存储、管理和分析数据量也相对较小;对于大数据量数据处理周期长。
发明内容
基于上述情况,本发明提出了一种基于分布式计算平台的GPEH数据解析方法,采用MapReduce(一种编程模型)计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
为了实现上述目的,本发明技术方案的实施例为:
一种基于分布式计算平台的GPEH数据解析方法,包括以下步骤:
获取GPEH原始数据;
将所述GPEH原始数据上传到HDFS(Hadoop Distributed File System,分布式文件系统);
利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
针对现有技术问题,本发明还提出了一种基于分布式计算平台的GPEH数据解析装置,采用MapReduce并行计算框架实现对GPEH数据的快速、准确解析,结构简单、成本低,符合实际应用。
本发明技术方案的实施例为:
一种基于分布式计算平台的GPEH数据解析装置,包括:
获取模块,用于获取GPEH原始数据;
传输模块,用于将所述GPEH原始数据上传到HDFS;
解析模块,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
与现有技术相比,本发明的有益效果为:本发明基于分布式计算平台的GPEH数据解析方法和装置,采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;可根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
附图说明
图1为一个实施例中基于分布式计算平台的GPEH数据解析方法流程图;
图2为一个实施例中利用MapReduce对上传到HDFS的数据进行读取并解析的方法流程图;
图3为基于图1所示方法一个具体示例中基于分布式计算平台的GPEH数据解析方法流程图;
图4为一个实施例中基于分布式计算平台的GPEH数据解析装置结构示意图;
图5为一个实施例中解析模块结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
一个实施例中基于分布式计算平台的GPEH数据解析方法,如图1所示,包括以下步骤:
步骤S101:获取GPEH原始数据;
步骤S102:将所述GPEH原始数据上传到HDFS;
步骤S103:利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
从以上描述可知,本发明基于分布式计算平台的GPEH数据解析方法,采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,数据处理周期随机器计算能力增加而缩短,并且存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展。
作为一个实施例,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS的步骤,如图2所示,包括:
步骤S201:将上传到所述HDFS的数据分配给空闲的datanode节点(数据节点),所述datanode节点读取分配到的数据;
步骤S202:调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key(键),value(值)>格式输出给Explainvalue函数进行解析;
步骤S203:调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS;
重复上述步骤S201-步骤S203的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
上述MapReduce程序可以根据实际业务需求定制解析程序;并行解析数据量随着集群规模可以动态扩展,能够满足解析海量数据的时间性能要求;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
作为一个实施例,在所述获取GPEH原始数据之后,将所述GPEH原始数据上传到HDFS之前,还包括步骤:
根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述GPEH原始数据进行切分;
数据切分将GPEH原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率,应用价值高。
作为一个实施例,在所述将解析后的数据输出到所述HDFS之后,还包括步骤:
导出输出到所述HDFS的解析后的数据,方便用户查看、使用解析结果,适合应用。
作为一个实施例,将所述GPEH原始数据上传到HDFS的步骤包括:
调用writeToHDFS函数将所述GPEH原始数据上传到HDFS,符合实际应用,保证后续处理正常运行。
为了更好地理解本方法,以下详细阐述一个本发明基于分布式计算平台的GPEH数据解析方法应用实例。
如图3所示,该应用实例可以包括以下步骤:
步骤S301:获取GPEH原始数据;
步骤S302:根据MapReduce中设定的解析数据大小,调用EventSplitMain函数对上述GPEH原始数据进行切分;数据切分将GPEH原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率;
步骤S303:调用writeToHDFS函数将切分处理后的GPEH原始数据上传到HDFS,保证后续处理正常运行;
步骤S304:利用上述MapReduce将上传到HDFS的数据分配给空闲的datanode节点,分配到任务的datanode节点读取分配的数据;调用EventExpalinMapper函数将上述datanode节点读取到的数据以<key,value>格式输出,输出给EventExpalinMapper函数中的Explainvalue函数进行解析;调用EventOrderReduce函数对上述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到HDFS;在处理完成之后,datanode节点变为空闲状态;
重复上述步骤S304的处理过程直到MapReduce完成对上传到HDFS的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
步骤S305:导出输出到所述HDFS的解析后的数据。
本应用实例采用MapReduce计算框架对GPEH数据进行解析,可根据数据规模定制集群机器数目,集群机器共同完成数据处理,对于海量数据的处理,具有高容错特性和可行性,解析周期随着集群资源扩展而缩短;MapReduce程序可以根据实际业务需求定制解析程序;存储容量为集群机器所有可用存储之和,可随集群机器数目增加而扩展;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
一个实施例中基于分布式计算平台的GPEH数据解析装置,如图4所示,包括:
获取模块401,用于获取GPEH原始数据;
传输模块402,用于将所述GPEH原始数据上传到HDFS403;
解析模块404,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS403。
如图4所示,本装置各模块连接关系的一个优选的实施例为:获取模块401、传输模块402依次顺序连接,传输模块402的输出端连接HDFS403的输入端,HDFS403连接解析模块404。
首先获取模块401获取GPEH原始数据;然后传输模块402将GPEH原始数据上传到HDFS403;最后解析模块404利用MapReduce读取上传到HDFS403的数据并进行解析,将解析后的数据输出到HDFS403。
从以上描述可知,本发明基于分布式计算平台的GPEH数据解析装置,采用MapReduce并行计算框架实现对GPEH数据的快速、准确解析,结构简单、成本低,符合实际应用。
作为一个实施例,所述解析模块404如图5所示,包括:
读取单元4041,用于将上传到所述HDFS403的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据;
解析单元4042,用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key,value>格式输出给Explainvalue函数进行解析;
输出单元4043,用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS403;
重复上述分配单元4041-输出单元4043的处理过程直到MapReduce完成对上传到HDFS403的所有数据的解析,在该过程中,各个datanode节点数据处理为并行处理;
上述解析模块404中的各个组成单元可以根据实际业务需求定制处理程序;并行解析数据量随着集群规模可以动态扩展,能够满足解析海量数据的时间性能要求;使用MapReduce解析GPEH数据之后,可进一步使用大数据相关技术进行统计分析处理。
作为一个实施例,还包括:
切分模块405,用于根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述获取模块401获取的GPEH原始数据进行切分;
所述传输模块402将所述切分模块405切分后的GPEH原始数据上传到HDFS403;
数据切分将GPEH原始数据制作成MapReduce便于处理的形式,加快后续处理,提高数据解析效率,应用价值高。
作为一个实施例,还包括:
导出模块406,用于导出所述解析模块输出到所述HDFS403的解析后的数据,方便用户查看、使用解析结果,适合应用。
作为一个实施例,所述传输模块402包括:
writeToHDFS传输单元,用于调用writeToHDFS函数将所述GPEH原始数据上传到HDFS403,符合实际应用,保证后续处理正常运行。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于分布式计算平台的GPEH数据解析方法,其特征在于,包括以下步骤:
获取GPEH原始数据;
将所述GPEH原始数据上传到HDFS;
利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
2.根据权利要求1所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,所述利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS的步骤包括:
将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据;
调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key,value>格式输出给Explainvalue函数进行解析;
调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS。
3.根据权利要求1或2所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,在所述获取GPEH原始数据之后,将所述GPEH原始数据上传到HDFS之前,还包括步骤:
根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述GPEH原始数据进行切分。
4.根据权利要求3所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,在所述将解析后的数据输出到所述HDFS之后,还包括步骤:
导出输出到所述HDFS的解析后的数据。
5.根据权利要求1所述的基于分布式计算平台的GPEH数据解析方法,其特征在于,将所述GPEH原始数据上传到HDFS的步骤包括:
调用writeToHDFS函数将所述GPEH原始数据上传到HDFS。
6.一种基于分布式计算平台的GPEH数据解析装置,其特征在于,包括:
获取模块,用于获取GPEH原始数据;
传输模块,用于将所述GPEH原始数据上传到HDFS;
解析模块,用于利用MapReduce读取上传到所述HDFS的数据并进行解析,将解析后的数据输出到所述HDFS。
7.根据权利要求6所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,所述解析模块包括:
读取单元,用于将上传到所述HDFS的数据分配给空闲的datanode节点,所述datanode节点读取分配到的数据;
解析单元,用于调用EventExpalinMapper函数将所述datanode节点读取到的数据以<key,value>格式输出给Explainvalue函数进行解析;
输出单元,用于调用EventOrderReduce函数对所述Explainvalue函数解析后的数据进行总体排序,并将总体排序后的数据输出到所述HDFS。
8.根据权利要求6或7所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,还包括:
切分模块,用于根据所述MapReduce中设定的解析数据大小,调用EventSplitMain函数对所述获取模块获取的GPEH原始数据进行切分;
所述传输模块将所述切分模块切分后的GPEH原始数据上传到HDFS。
9.根据权利要求8所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,还包括:
导出模块,用于导出所述解析模块输出到所述HDFS的解析后的数据。
10.根据权利要求6所述的基于分布式计算平台的GPEH数据解析装置,其特征在于,所述传输模块包括:
writeToHDFS传输单元,用于调用writeToHDFS函数将所述GPEH原始数据上传到HDFS。
CN201410663142.6A 2014-11-19 2014-11-19 基于分布式计算平台的gpeh数据解析方法和装置 Pending CN104391916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410663142.6A CN104391916A (zh) 2014-11-19 2014-11-19 基于分布式计算平台的gpeh数据解析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410663142.6A CN104391916A (zh) 2014-11-19 2014-11-19 基于分布式计算平台的gpeh数据解析方法和装置

Publications (1)

Publication Number Publication Date
CN104391916A true CN104391916A (zh) 2015-03-04

Family

ID=52609820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410663142.6A Pending CN104391916A (zh) 2014-11-19 2014-11-19 基于分布式计算平台的gpeh数据解析方法和装置

Country Status (1)

Country Link
CN (1) CN104391916A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104811959A (zh) * 2015-05-25 2015-07-29 中国联合网络通信有限公司成都市分公司 基于大数据的移动网络用户感知分析系统和方法
CN108874738A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 分布式并行运算方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425707A (zh) * 2012-05-25 2013-12-04 中兴通讯股份有限公司 数据分析方法和装置
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
CN103699442A (zh) * 2013-12-12 2014-04-02 深圳先进技术研究院 MapReduce计算框架下的可迭代式数据处理方法
CN103810272A (zh) * 2014-02-11 2014-05-21 北京邮电大学 一种数据处理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425707A (zh) * 2012-05-25 2013-12-04 中兴通讯股份有限公司 数据分析方法和装置
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
CN103699442A (zh) * 2013-12-12 2014-04-02 深圳先进技术研究院 MapReduce计算框架下的可迭代式数据处理方法
CN103810272A (zh) * 2014-02-11 2014-05-21 北京邮电大学 一种数据处理方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104811959A (zh) * 2015-05-25 2015-07-29 中国联合网络通信有限公司成都市分公司 基于大数据的移动网络用户感知分析系统和方法
CN104811959B (zh) * 2015-05-25 2019-02-15 中国联合网络通信有限公司成都市分公司 基于大数据的移动网络用户感知分析系统和方法
CN108874738A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 分布式并行运算方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112449009B (zh) 一种基于svd的联邦学习推荐系统通信压缩方法及装置
CN104317749B (zh) 信息写入方法和装置
US9639444B2 (en) Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services
US20140207820A1 (en) Method for parallel mining of temporal relations in large event file
CN106055630A (zh) 日志存储的方法及装置
CN105302885B (zh) 一种全文数据的提取方法和装置
CN104462222A (zh) 一种卡口车辆通行数据的分布式存储方法及系统
CN107798059B (zh) 一种nco气象数据结构化存储方法和装置
CN111459986A (zh) 数据计算系统及方法
CN105005585A (zh) 一种日志数据的处理方法和装置
Kchaou et al. Towards an offloading framework based on big data analytics in mobile cloud computing environments
CN103699610A (zh) 一种生成文件校验信息的方法、文件校验方法及设备
CN111935140A (zh) 异常报文识别方法及装置
CN113900810A (zh) 分布式图处理方法、系统及存储介质
CN104166701A (zh) 机器学习方法及系统
CN107346270B (zh) 基于实时计算的基数估计的方法和系统
CN104391916A (zh) 基于分布式计算平台的gpeh数据解析方法和装置
US20160098442A1 (en) Verifying analytics results
CN105335313A (zh) 一种基础数据的传输方法及装置
CN111611479B (zh) 用于网络资源推荐的数据处理方法及相关装置
CN111539281B (zh) 分布式人脸识别方法及系统
CN104599092A (zh) 用于监控订单业务的方法及设备
CN116382916A (zh) 用于云电脑算力集群的资源调度方法、系统及电子设备
CN115664992A (zh) 网络运行数据的处理方法、装置、电子设备及介质
CN104636474A (zh) 构建音频指纹库及检索音频指纹的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150304

RJ01 Rejection of invention patent application after publication