CN106383886B - 一种基于大数据分布式编程框架的大数据预统系统及方法 - Google Patents

一种基于大数据分布式编程框架的大数据预统系统及方法 Download PDF

Info

Publication number
CN106383886B
CN106383886B CN201610838908.9A CN201610838908A CN106383886B CN 106383886 B CN106383886 B CN 106383886B CN 201610838908 A CN201610838908 A CN 201610838908A CN 106383886 B CN106383886 B CN 106383886B
Authority
CN
China
Prior art keywords
data
relational database
rule
module
query language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610838908.9A
Other languages
English (en)
Other versions
CN106383886A (zh
Inventor
程涛木
刘军徽
叶春生
车新奕
雷果
王敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Broid Technology Co.,Ltd.
Original Assignee
SHENZHEN BAOAD TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN BAOAD TECHNOLOGY Co Ltd filed Critical SHENZHEN BAOAD TECHNOLOGY Co Ltd
Priority to CN201610838908.9A priority Critical patent/CN106383886B/zh
Publication of CN106383886A publication Critical patent/CN106383886A/zh
Application granted granted Critical
Publication of CN106383886B publication Critical patent/CN106383886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Abstract

本发明属于数据处理领域,尤其涉及一种基于大数据分布式编程框架的大数据预统系统及方法,旨在解决现有的大数据预统系统处理效率低的问题。本发明对Spark Streaming进行组件功能开发扩充,使得SQL语句解析后可以在Spark Streaming中运行,并结合了Spark Streaming的对数据的批处理和数据流处理优势,最终采用了Spark Streaming技术和SQL语句相结合的方式对大数据进行预统处理,使得整个系统对大数据的处理达到非常高的效率。

Description

一种基于大数据分布式编程框架的大数据预统系统及方法
技术领域
本发明属于数据处理领域,尤其涉及一种基于大数据分布式编程框架的大数据预统系统及方法。
背景技术
随着信息化建设的不断深入,企业级的信息管理平台已经完成了从信息化建设到数据积累的职能转变,在通信、金融、大型生产制造等领域,海量数据的存储、分析需求的迫切性日益明显。以移动通信运营商为例,数据业务需求猛增、流量急剧增加,需要运营商协同发展不同的网络(WLAN、LTE、3G、2G),集中管理、实时维护网络存在的问题,及时处理网络故障。大数据预统系统是在这样的背景下生成的,专门为规划、建设、经营、维护、优化等部门工程人员提供所需的支撑数据,提供解决方案的综合分析优化平台。
传统的大数据预统系统将读取并解析后的外部数据表示法(XDR,External DataRepresentation)文件按照程序设定的时间粒度进行预统,此操作在内存中进行,对内存的消耗较大,系统对XDR文件的处理速度有时效限制,因此,只能依靠较高的内存消耗来换取高效的处理速度。由此可看出,传统的预统系统的处理效率有限,无法满足快速增长的大数据处理需求。
发明内容
本发明提供了一种基于大数据分布式编程框架的大数据预统系统,旨在解决现有的大数据预统系统处理效率低的问题。
为解决上述技术问题,本发明提供了一种基于大数据分布式编程框架的大数据预统系统,所述系统包括数据处理模块,所述数据处理模块包括解析模块、批处理模块、数据流转换模块、数据转换模块以及存储模块;
所述解析模块,用于获取结构化查询语言(SQL,Structured Query Language)语句,并通过基于大数据分布式编程框架的结构化查询语言(SparkSQL,Spark StructuredQuery Language)技术对所述SQL语句进行解析,得到可以在实时计算框架(SparkStreaming)中运行的SQL语句解析结果;
所述批处理模块,用于基于Spark Streaming技术,根据所述SQL语句解析结果配置预统规则,根据所述预统规则中的批规则对待处理数据进行批处理,以将所述待处理数据分解成若干段离散数据流(DStream,Discretized Stream);
所述数据流转换模块,用于将每一段所述离散数据流DStream转换成弹性分布式数据集(RDD,Resilient Distributed Datasets);
所述数据转换模块,用于根据Spark Streaming技术中对DStream的转换操作方法,对所述弹性分布式数据集RDD进行转换操作,得到中间结果数据;
所述存储模块,用于将所述中间结果数据按照所述预统规则进行叠加,得到可查询数据,并将所述可查询数据存入关系数据库中。
进一步地,所述系统还包括读取模块,用于获取所述待处理数据,并将所述待处理数据发送给所述数据处理模块进行处理。
进一步地,所述系统还包括归并模块,用于应用与所述关系数据库相对应的归并方法,根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成,得到统计粒度数据,并将所述统计粒度数据存入所述关系数据库中。
进一步地,所述系统还包括SQL语句配置界面,接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句,并将所述结构化查询语言语句传送至所述数据处理模块。
进一步地,所述系统还包括关系数据库:所述关系数据库具有查询接口,用于第三方通过所述查询接口查询所述关系数据库中存储的所述可查询数据或/和所述统计粒度数据。
本发明还提供了一种基于大数据分布式编程框架的大数据预统方法,所述方法包括:
获取SQL语句,并通过Spark SQL技术对所述SQL语句进行解析,得到可以在SparkStreaming中运行的SQL语句解析结果;
基于Spark Streaming技术,根据所述SQL语句解析结果配置预统规则,根据所述预统规则中的批规则对待处理数据进行批处理,以将所述待处理数据分解成若干段离散数据流DStream;
将每一段所述离散数据流DStream转换成弹性分布式数据集RDD;
根据Spark Streaming技术中对DStream的转换操作方法,对所述弹性分布式数据集RDD进行转换操作,得到中间结果数据;
将所述中间结果数据按照所述预统规则进行叠加,得到可查询数据,并将所述可查询数据存入关系数据库中。
进一步地,所述方法还包括:获取所述待处理数据,并将所述待处理数据发送给数据处理模块进行处理。
进一步地,所述方法还包括:应用与所述关系数据库相对应的归并方法,根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成,得到统计粒度数据,并将所述统计粒度数据存入所述关系数据库中。
进一步地,所述方法还包括:接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句,并将所述结构化查询语言语句传送至所述数据处理模块。
进一步地,所述方法步骤还包括:第三方通过所述关系数据库的查询接口查询所述可查询数据或/和所述统计粒度数据。
本发明与现有技术相比,有益效果在于:
本发明对Spark Streaming进行组件功能开发扩充,使得SQL语句解析后可以在Spark Streaming中运行,并结合了Spark Streaming的对数据的批处理和数据流处理优势,最终采用了Spark Streaming技术和SQL语句相结合的方式对大数据进行预统处理,使得整个系统对大数据的处理达到非常高的效率。
附图说明
图1是本发明第一实施例提供的基于大数据分布式编程框架的大数据预统系统示意图;
图2是本发明第二实施例提供的基于大数据分布式编程框架的大数据预统系统示意图;
图3是本发明第三实施例提供的基于大数据分布式编程框架的大数据预统方法流程图;
图4是本发明第四实施例提供的基于大数据分布式编程框架的大数据预统方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
作为本发明的第一实施例,如图1所示,为一种基于大数据分布式编程框架的大数据预统系统示意图:
该系统包括数据处理模块,所述数据处理模块包括解析模块101、批处理模块102、数据流转换模块103、数据转换模块104以及存储模块105;
解析模块101,用于获取SQL语句,并通过SparkSQL技术对该SQL语句进行解析,得到可以在Spark Streaming中运行的SQL语句解析结果。
批处理模块102,用于基于Spark Streaming技术,根据SQL语句解析结果配置预统规则,根据预统规则中的批规则对待处理数据进行批处理,以将该待处理数据分解成若干段离散数据流DStream。其中,预统规则中的批规则指批大小(batch size),而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如,在本发明实施例中,bitch size被设定为batch size=10秒,即待处理数据按照10秒的时间间隔规则进行批处理,每10秒内的待处理数据作为一段离散数据流DStream,最终待处理数据被分解成若干段离散数据流DStream。
数据流转换模块103,用于将102中得到的每一段离散数据流DStream转换成弹性分布式数据集RDD。
数据转换模块104,用于根据Spark Streaming技术中对DStream的转换操作方法,对103得到的弹性分布式数据集RDD进行转换操作,得到中间结果数据。
存储模块105,用于将104中得到的中间结果数据按照预统规则进行叠加,得到可查询数据,并将所述可查询数据存入关系数据库中。在本发明实施例中,关系数据库应用了HIVE,HIVE是指建立在Hadoop上的数据仓库。此处应用HIVE关系数据库并不能用于限定本发明,还可以选择其他关系数据库,例如Oracle等。
需要说明的是,上述数据转换模块104中,对弹性分布式数据集RDD进行转换操作,得到中间结果数据的过程中,系统会根据预统规则将弹性分布式数据集RDD直接转换成符合预统规则的中间结果数据。一般情况下,中间结果数据的预统规则与最终要得到的可查询数据的预统规则类型相同。例如,本发明实施例所提供的系统需要每1个小时统计一次可查询数据,预统规则即为每1小时,则按照每1小时的时间间隔,对每1小时内的中间结果数据进行叠加。此时,中间结果的预统规则也应该是时间类型,预统规则可以为1分钟,也可以为5分钟。若中间结果的预统规则为1分钟,则按照每1分钟的时间间隔,系统会对每1分钟内的弹性分布式数据集RDD进行转换操作,得到每1分钟的中间结果数据。
作为本发明的第二实施例,如图2所示,为本发明第二实施例提供的一种基于大数据分布式编程框架的大数据预统系统示意图:
该系统包括读取模块201、SQL语句配置界面202、数据处理模块203、关系数据库204以及归并模块205。
读取模块201,用于获取待处理数据,并将该待处理数据发送给数据处理模块203进行处理。在本发明实施例中,读取模块201主要通过对XDR文件的读取并解析,来获取待处理数据。对XDR文件的读取并解析,从而获取待处理数据的过程为现有技术,在本发明实施例中不详加赘述。
SQL语句配置界面202,用于接收用户在配置界面202配置的与业务需求对应的SQL语句,并将SQL语句传送至所述数据处理模块203。
数据处理模块203包括解析模块203-1、批处理模块203-2、数据流转换模块203-3、数据转换模块203-4以及存储模块203-5。
解析模块203-1,用于获取SQL语句配置界面202发送的SQL语句,并通过SparkSQL技术对该SQL语句进行解析,得到可以在Spark Streaming中运行的SQL语句解析结果。
批处理模块203-2,用于基于Spark Streaming技术,根据203-1得到的SQL语句解析结果配置预统规则,根据该预统规则中的批规则对读取模块201发送的待处理数据进行批处理,以将所述待处理数据分解成若干段离散数据流DStream。其中,预统规则中的批规则指批大小(batch size),而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如,在本发明实施例中,bitch size被设定为batch size=10秒,即待处理数据按照10秒的时间间隔规则进行批处理,每10秒内的待处理数据作为一段离散数据流DStream,最终待处理数据被分解成若干段离散数据流DStream。
数据流转换模块203-3,用于将上述每一段离散数据流DStream转换成弹性分布式数据集RDD。
数据转换模块203-4,用于根据Spark Streaming技术中对DStream的转换操作方法,对弹性分布式数据集RDD进行转换操作,得到中间结果数据。
存储模块203-5,用于将203-4得到的中间结果数据按照预统规则进行叠加,得到可查询数据,并将该可查询数据存入关系数据库204中。在本发明实施例中,关系数据库204应用了HIVE,HIVE是指建立在Hadoop上的数据仓库。此处应用HIVE关系数据库并不能用来限定本发明,还可以选择其他关系数据库,例如Oracle等。
需要说明的是,上述数据转换模块203-4中,对弹性分布式数据集RDD进行转换操作,得到中间结果数据的过程中,系统会根据预统规则将弹性分布式数据集RDD直接转换成符合预统规则的中间结果数据。一般情况下,中间结果数据的预统规则与最终要得到的可查询数据的预统规则类型相同。例如,本发明实施例所提供的系统需要每1个小时统计一次可查询数据,预统规则即为每1小时,则按照每1小时的时间间隔,对每1小时内的中间结果数据进行叠加。此时,中间结果的预统规则也应该是时间类型,预统规则可以为1分钟,也可以为5分钟。若中间结果的预统规则为1分钟,则按照每1分钟的时间间隔,系统会对每1分钟内的弹性分布式数据集RDD进行转换操作,得到每1分钟的中间结果数据。
关系数据库204,具有查询接口,用于第三方通过所述查询接口查询所述关系数据库中存储的所述可查询数据或/和所述统计粒度数据。
归并模块205,用于应用与所述关系数据库204相对应的归并方法,根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成,得到统计粒度数据,并将该统计粒度数据存入关系数据库204中。在本发明实施例中,应用了与HIVE关系数据库对应的映射归约(MapReduce)归并方法。本发明实施例按照统计粒度的不同,例如,统计粒度为5分钟、小时或者天,通过MapReduce进行归并合成可以得到不同统计粒度的统计粒度数据,然后再将该统计粒度数据存入HIVE中。
需要说明的是,第三方可以通过关系数据库204的查询接口直接查询可查询数据,也可以查询统计粒度数据。
作为本发明的第三实施例,如图3所示,为本发明第三实施例提供的基于大数据分布式编程框架的大数据预统方法流程图,所述方法包括下述步骤:
步骤S101:获取SQL语句,并通过Spark SQL技术对所述SQL语句进行解析,得到可以在Spark Streaming中运行的SQL语句解析结果。
步骤S102:基于Spark Streaming技术,根据步骤S101得到的SQL语句解析结果配置预统规则,根据该预统规则中的批规则对待处理数据进行批处理,以将所述待处理数据分解成若干段离散数据流DStream。
在步骤S102中,预统规则中的批规则指批大小(batch size),而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如,在本发明实施例中,bitch size被设定为batch size=10秒,即待处理数据按照10秒的时间间隔规则进行批处理,每10秒内的待处理数据作为一段离散数据流DStream,最终待处理数据被分解成若干段离散数据流DStream。
步骤S103:将步骤S102得到的每一段所述离散数据流DStream转换成弹性分布式数据集RDD。
步骤S104:根据Spark Streaming技术中对DStream的转换操作方法,对步骤S103得到的弹性分布式数据集RDD进行转换操作,得到中间结果数据。
步骤S105:将步骤S104得到的中间结果数据按照所述预统规则进行叠加,得到可查询数据,并将该可查询数据存入关系数据库中。
作为本发明的第四实施例,如图4所示,为本发明第四实施例提供的基于大数据分布式编程框架的大数据预统方法流程图,所述方法包括下述步骤:
步骤S201:获取所述待处理数据,并将所述待处理数据发送给数据处理模块进行处理。
步骤S202:接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句,并将所述结构化查询语言语句传送至所述数据处理模块。在步骤S201中,主要通过对XDR文件的读取并解析,来获取待处理数据。对XDR文件的读取并解析,从而获取待处理数据的过程为现有技术,在本发明实施例中不详加赘述。
步骤S203:获取步骤S202得到的SQL语句,并通过Spark SQL技术对该SQL语句进行解析,得到可以在Spark Streaming中运行的SQL语句解析结果。
步骤S204:基于Spark Streaming技术,根据SQL语句解析结果配置预统规则,根据该预统规则中的批规则对步骤S201得到的待处理数据进行批处理,以将该待处理数据分解成若干段离散数据流DStream。
在步骤S204中,预统规则中的批规则指批大小(batch size),而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如,在本发明实施例中,bitch size被设定为batch size=10秒,即待处理数据按照10秒的时间间隔规则进行批处理,每10秒内的待处理数据作为一段离散数据流DStream,最终待处理数据被分解成若干段离散数据流DStream。
步骤S205:将步骤S204得到的每一段离散数据流DStream转换成弹性分布式数据集RDD。
步骤S206:根据Spark Streaming技术中对DStream的转换操作方法,对步骤S205得到的弹性分布式数据集RDD进行转换操作,得到中间结果数据。
需要说明的是,在步骤S206中,对弹性分布式数据集RDD进行转换操作,得到中间结果数据的过程中,系统会根据预统规则将弹性分布式数据集RDD直接转换成符合预统规则的中间结果数据。一般情况下,中间结果数据的预统规则与最终要得到的可查询数据的预统规则类型相同。例如,本发明实施例所提供的系统需要每1个小时统计一次可查询数据,预统规则即为每1小时,则按照每1小时的时间间隔,对每1小时内的中间结果数据进行叠加。此时,中间结果的预统规则也应该是时间类型,预统规则可以为1分钟,也可以为5分钟。若中间结果的预统规则为1分钟,则按照每1分钟的时间间隔,系统会对每1分钟内的弹性分布式数据集RDD进行转换操作,得到每1分钟的中间结果数据。
步骤S207:将步骤S206得到的中间结果数据按照步骤S204中的预统规则进行叠加,得到可查询数据,并将该可查询数据存入关系数据库中。
在步骤S207中,关系数据库应用了HIVE,HIVE是指建立在Hadoop上的数据仓库。此处应用HIVE关系数据库并不能用了限定本发明,还可以选择其他关系数据库,例如Oracle等。
步骤S208:应用与所述关系数据库相对应的归并方法,根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成,得到统计粒度数据,并将所述统计粒度数据存入所述关系数据库中。
在步骤S208中,应用了与HIVE关系数据库对应的MapReduce归并方法。本发明实施例按照统计粒度的不同,例如,统计粒度为5分钟、小时或者天,统计粒度可以自定义,通过MapReduce进行归并合成可以得到不同统计粒度的统计粒度数据,然后再将该统计粒度数据存入HIVE中。
步骤S209:第三方通过所述关系数据库的查询接口查询所述可查询数据或/和所述统计粒度数据。
为了更好的说明本发明的优势,下面对本发明所使用的技术优点进行简单的说明。本发明主要采用的技术是Spark Streaming技术,Spark Streaming技术具备执行引擎以及统一的编程模型,可实现批处理与流处理,是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming的优势在于:能运行在100+的结点上,并达到秒级延迟;使用基于内存的Spark作为执行引擎,具有高效和容错的特性;能集成Spark的批处理和交互查询;为实现复杂的算法提供和批处理类似的简单接口。
综上所述,面对日益剧增的数据流量,传统的预统方案已经无法满足当前的系统分析需求,要满足预统系统实时处理、智能挖掘等全方面应用功能要求,需要一种适用于云计算的同步处理方案来解决该问题。本发明实施例是一种可以在云技算平台上应用的高效便捷的大数据预统处理系统,该系统对Spark Streaming进行组件功能开发扩充,使得SQL语句解析后可以在Spark Streaming中运行,并结合了Spark Streaming的对数据的批处理和数据流处理优势,最终采用了Spark Streaming技术和SQL语句相结合的方式对大数据进行预统处理,使得整个系统对大数据的处理达到非常高的效率。本发明除了应用在移动通信领域之外,还适用于大数据处理的各个领域,例如:视频数据存储系统、天气信息存储系统等。
以上所述仅为本发明的较佳实施例而已,并不用以限制发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据分布式编程框架的大数据预统系统,其特征在于,所述系统包括数据处理模块,所述数据处理模块包括解析模块、批处理模块、数据流转换模块、数据转换模块以及存储模块;
所述解析模块,用于获取结构化查询语言语句,并通过基于大数据分布式编程框架的结构化查询语言技术对所述结构化查询语言语句进行解析,得到可以在实时计算框架中运行的结构化查询语言语句解析结果;
所述批处理模块,用于基于实时计算框架技术,根据所述结构化查询语言语句解析结果配置预统规则,根据所述预统规则中的批规则对待处理数据进行批处理,以将所述待处理数据分解成若干段离散数据流;
所述数据流转换模块,用于将每一段所述离散数据流转换成弹性分布式数据集;
所述数据转换模块,用于根据实时计算框架技术中对离散数据流的转换操作方法,对所述弹性分布式数据集进行转换操作,得到中间结果数据;
所述存储模块,用于将所述中间结果数据按照所述预统规则进行叠加,得到可查询数据,并将所述可查询数据存入关系数据库中。
2.如权利要求1所述的系统,其特征在于,所述系统还包括读取模块;
所述读取模块,用于获取所述待处理数据,并将所述待处理数据发送给所述数据处理模块进行处理。
3.如权利要求1所述的系统,其特征在于,所述系统还包括归并模块;
所述归并模块,用于应用与所述关系数据库相对应的归并方法,根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成,得到统计粒度数据,并将所述统计粒度数据存入所述关系数据库中;所述关系数据库相对应的归并方法为HIVE关系数据库对应的MapReduce归并方法。
4.如权利要求1所述的系统,其特征在于,所述系统还包括结构化查询语言语句配置界面;
接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句,并将所述结构化查询语言语句传送至所述数据处理模块。
5.如权利要求3所述的系统,其特征在于,所述系统还包括关系数据库;
所述关系数据库具有查询接口,用于第三方通过所述查询接口查询所述关系数据库中存储的所述可查询数据或/和所述统计粒度数据。
6.一种基于大数据分布式编程框架的大数据预统方法,其特征在于,所述方法包括:
获取结构化查询语言语句,并通过基于大数据分布式编程框架的结构化查询语言技术对所述结构化查询语言语句进行解析,得到可以在实时计算框架中运行的结构化查询语言语句解析结果;
基于实时计算框架技术,根据所述结构化查询语言语句解析结果配置预统规则,根据所述预统规则中的批规则对待处理数据进行批处理,以将所述待处理数据分解成若干段离散数据流;
将每一段所述离散数据流转换成弹性分布式数据集;
根据实时计算框架技术中对离散数据流的转换操作方法,对所述弹性分布式数据集进行转换操作,得到中间结果数据;
将所述中间结果数据按照所述预统规则进行叠加,得到可查询数据,并将所述可查询数据存入关系数据库中。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述待处理数据,并将所述待处理数据发送给数据处理模块进行处理。
8.如权利要求6所述的方法,其特征在于,所述方法还包括:
应用与所述关系数据库相对应的归并方法,根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成,得到统计粒度数据,并将所述统计粒度数据存入所述关系数据库中;所述关系数据库相对应的归并方法为HIVE关系数据库对应的MapReduce归并方法。
9.如权利要求6所述的方法,其特征在于,所述方法步骤还包括:
接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句,并将所述结构化查询语言语句传送至所述数据处理模块。
10.如权利要求8所述的方法,其特征在于,所述方法还包括:
第三方通过所述关系数据库的查询接口查询所述可查询数据或/和所述统计粒度数据。
CN201610838908.9A 2016-09-21 2016-09-21 一种基于大数据分布式编程框架的大数据预统系统及方法 Active CN106383886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610838908.9A CN106383886B (zh) 2016-09-21 2016-09-21 一种基于大数据分布式编程框架的大数据预统系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610838908.9A CN106383886B (zh) 2016-09-21 2016-09-21 一种基于大数据分布式编程框架的大数据预统系统及方法

Publications (2)

Publication Number Publication Date
CN106383886A CN106383886A (zh) 2017-02-08
CN106383886B true CN106383886B (zh) 2019-08-30

Family

ID=57935731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610838908.9A Active CN106383886B (zh) 2016-09-21 2016-09-21 一种基于大数据分布式编程框架的大数据预统系统及方法

Country Status (1)

Country Link
CN (1) CN106383886B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991166A (zh) * 2017-03-31 2017-07-28 北京奇艺世纪科技有限公司 一种大数据处理方法及装置
CN107368517B (zh) * 2017-06-02 2018-07-13 上海恺英网络科技有限公司 一种大数据流查询的方法及设备
CN113791742B (zh) * 2021-11-18 2022-03-25 南湖实验室 一种高性能的数据湖系统及数据存储方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260680A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
CN101582090A (zh) * 2009-07-07 2009-11-18 北京黑米世纪信息技术有限公司 一种基于web分析的分布式处理方法和系统
CN102026230A (zh) * 2010-12-20 2011-04-20 中兴通讯股份有限公司 Cdma网络数据业务质量监控的方法及装置
CA2864042C (en) * 2012-04-26 2019-12-10 Amadeus S.A.S. Database system using batch-oriented computation
CN102880658B (zh) * 2012-08-31 2016-11-16 电子科技大学 基于地震数据处理的分布式文件管理系统
CN102929951B (zh) * 2012-10-08 2015-04-01 深圳市博瑞得科技有限公司 一种数据绑定批量入库方法和装置
CN103345514B (zh) * 2013-07-09 2016-06-08 焦点科技股份有限公司 大数据环境下的流式数据处理方法
CN103593404B (zh) * 2013-10-17 2016-04-27 广东电网有限责任公司茂名供电局 一种数据库一体化在线管理系统实现方法
CN103605732B (zh) * 2013-11-19 2018-03-30 北京京东尚科信息技术有限公司 基于Infobright的数据仓库和系统及其构建方法
CN103617231A (zh) * 2013-11-26 2014-03-05 国家电网公司 大数据管理系统
CN103678609B (zh) * 2013-12-16 2017-05-17 中国科学院计算机网络信息中心 一种基于分布式关系‑对象映射处理的大数据查询的方法
CN103646111B (zh) * 2013-12-25 2017-02-15 普元信息技术股份有限公司 大数据环境下实现实时数据关联的系统及方法
CN103955502B (zh) * 2014-04-24 2017-07-28 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN104102702A (zh) * 2014-07-07 2014-10-15 浪潮(北京)电子信息产业有限公司 一种实现软硬件结合的面向应用的大数据系统及方法
CN105721337B (zh) * 2014-12-04 2019-06-25 中国移动通信集团公司 软件定义网络中的分布式事务处理方法及装置
CN104536700B (zh) * 2014-12-22 2017-07-07 深圳市博瑞得科技有限公司 一种码流数据的快速存储/读取方法及系统
CN104765840B (zh) * 2015-04-16 2017-11-24 成都睿峰科技有限公司 一种大数据分布式存储的方法和装置
CN105589920B (zh) * 2015-09-29 2019-10-01 中国银联股份有限公司 用于大数据预分析的方法和装置
CN105488148A (zh) * 2015-11-26 2016-04-13 上海晶赞科技发展有限公司 大数据的存储访问系统及方法
CN105868395A (zh) * 2016-04-19 2016-08-17 武汉邮电科学研究院 基于事件驱动的智慧城市大数据体系及处理方法

Also Published As

Publication number Publication date
CN106383886A (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
Qian et al. The internet of things for smart cities: Technologies and applications
Manogaran et al. Machine learning assisted information management scheme in service concentrated IoT
CN106383886B (zh) 一种基于大数据分布式编程框架的大数据预统系统及方法
CN105930446B (zh) 一种基于Hadoop分布式技术的电信客户标签生成方法
CN103235825A (zh) 一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法
CN106982150A (zh) 一种基于Hadoop的移动互联网用户行为分析方法
Hosseinpour et al. An approach for smart management of big data in the fog computing context
Jeon et al. A distributed nwdaf architecture for federated learning in 5g
CN103685517A (zh) 一种基于业务类别特征的存储分级调度方法及系统
Tyagi et al. Computing resource optimization of big data in optical cloud radio access networked industrial Internet of Things
Sinaeepourfard et al. A zero emission neighbourhoods data management architecture for smart city scenarios: discussions toward 6Vs challenges
Assem et al. St-dennetfus: A new deep learning approach for network demand prediction
Sinaeepourfard et al. A comprehensive scenario agnostic Data LifeCycle model for an efficient data complexity management
Roy et al. A proposal for optimization of data node by horizontal scaling of name node using big data tools
Kupriyanovsky et al. Semantics, metadata and ontologies in smart city applications-new BSI standards
Ding et al. Task allocation in hybrid big data analytics for urban IoT applications
Du et al. An efficient indexing and query mechanism for ubiquitous IoT services
Tai et al. RETRACTED ARTICLE: Multimedia based intelligent network big data optimization model
CN108430067A (zh) 一种基于xdr的互联网业务质量分析方法及系统
CN106209978B (zh) 一种联盟关系服务组合选择系统及选择方法
Xu et al. TransMUSE: Transferable traffic prediction in multi-service edge networks
Chan et al. Duality between feature selection and data clustering
Chen et al. A Data Propagation Method of Internet of Vehicles Based on Sharding Blockchain
Velmurugadass et al. The cloud based edge computing with iot infrastructure and security
Dia et al. Fast SPARQL join processing between distributed streams and stored RDF graphs using bloom filters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 401120 No.2, 7th floor, Fenghuang a building, No.18, Qingfeng North Road, Yubei District, Chongqing

Patentee after: Broid Technology Co.,Ltd.

Address before: 518057 No.1, area a, 3 / F, B1 building, Gaoxin South 7th road digital technology park, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN BROADTECH Co.,Ltd.

CP03 Change of name, title or address