CN106126515A - 一种大数据系统构件的自动选型方法 - Google Patents

一种大数据系统构件的自动选型方法 Download PDF

Info

Publication number
CN106126515A
CN106126515A CN201610312904.7A CN201610312904A CN106126515A CN 106126515 A CN106126515 A CN 106126515A CN 201610312904 A CN201610312904 A CN 201610312904A CN 106126515 A CN106126515 A CN 106126515A
Authority
CN
China
Prior art keywords
decision making
layer
user
lectotype
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610312904.7A
Other languages
English (en)
Inventor
陈军
王建民
周珑
肖展辉
彭泽武
黄向东
钟雨
龙明盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Information Center of Guangdong Power Grid Co Ltd
Original Assignee
Tsinghua University
Information Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Information Center of Guangdong Power Grid Co Ltd filed Critical Tsinghua University
Priority to CN201610312904.7A priority Critical patent/CN106126515A/zh
Publication of CN106126515A publication Critical patent/CN106126515A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种大数据系统构件的自动选型方法,属于计算机数据库管理技术领域,该方法分为三个阶段,训练阶段、使用阶段和动态更新阶段。用户先收集初始训练数据,进行训练阶段;再将训练阶段得到的选型决策树应用于大数据系统构件的自动选型;之后,根据用户的反馈对选型决策树进行动态更新,使得选型决策树提高选型的准确度。本方法可提高选型的准确度,能够有效减少用户对大数据系统调研、选择、决策的时间,使得用户可以快速地开发他们的大数据应用。

Description

一种大数据系统构件的自动选型方法
技术领域
本发明属于计算机数据库管理技术领域,特别涉及在大数据应用开发过程中一种大数据系统构件的自动选型方法。
背景技术
随着互联网的高速发展和社会信息化步伐的加快,各行业的数据迅猛发展,人类已经步入大数据时代。基于对大数据的处理和分析,可以从中挖掘出有价值的信息,进而有效地解决特定领域的问题。然而,大数据带来的不仅是机遇,还有一系列的困难和挑战。不同领域的用户对于大数据需求各异,需要处理的数据类型千差万别;就算是同一领域,不同的用户对在数量、速度等方面有不同的预期,导致了最终所形成的大数据应用的多样化。开源化、模块化是近年来大数据技术发展的主要趋势,大型互联网公司和开源组织往往会将他们的大数据系统开源,并且围绕几个主流的技术形成了生态圈,如Hadoop、Spark等;一个大数据系统只有某一方面的功能,如分布式存储、结构化查询、日志收集等等;一个完整的大数据应用往往需要多个大数据系统的配合,比如使用NoSQL数据库作为分布式存储,使用Spark进行计算分析,使用Storm进行流程分发,使用Scribe收集系统日志等等。本发明将这些大数据系统作为大数据应用的大数据系统构件,选择合适的大数据系统构件进行组合,是进行大数据应用系统的开发的前提。
针对不同的应用需求,如何选择和组合合适的大数据系统构件往往使用户困惑。目前市场上各类大数据系统构件呈现了百花齐放的态势,例如存储键值对的大数据系统构件HBase、Cassandra、Redis、Memcached,存储文档数据的大数据系统构件MongoDB、CouchDB,面向图数据的大数据系统构件Neo4J、OrientDB,面向批处理的大数据系统构件Hadoop、Hive、Pig、Greenplum,面向交互式处理的大数据系统构件Dremel、Drill、Impala,面向实时处理的大数据系统构件Strom、S4、Puma等。这些功能相似的大数据系统构件导致了在大数据应用开发过程中选型困难。目前在学术界和工业届已经有不少关于大数据系统构件的选型的研究成果,文献Cattell R.Scalable SQL and NoSQL data stores[J].ACM SIGMODRecord,2011,39(4):12–27.对主流的NoSQL系统进行了分析,对比了这些系统构件中数据模型、一致性机制、存储机制,保证持久性、可用性、查询支持以及其他方面的不同点;文献ShikhareA,Kulkarni S.A Case Study Comparing Different Big-Data Handling Approaches Using Hadoop-Hive VSSpark-Shark.对比了Hadoop Hive和Spark Shark两种处理大数据的技术在架构、编程模型、实现细节和性能等方面的差异。除此之外,还有很多文献也进行了类似的研究,但都在理论上对大数据系统构件进行对比并提供选型建议,没有提出一种大数据系统构件自动选型的实用方法。
发明内容
本发明的目的是为减少用户对大数据系统调研、选择、决策的时间,提出一种大数据系统构件的自动选型方法,本发明可提高选型的准确度,使得用户可以快速地开发他们的大数据应用。
本发明提出一种大数据系统构件的自动选型方法,其特征在于,该方法分为三个阶段,训练阶段、使用阶段和动态更新阶段。用户先收集初始训练数据,进行训练阶段;再将训练阶段得到的选型决策树应用于大数据系统构件的自动选型;之后,根据用户的反馈对选型决策树进行动态更新,使得选型决策树提高选型的准确度。
本发明方法具体包括以下步骤:
(1)训练阶段:构建存储层、计算层和分析层三层选型决策树,具体包括以下步骤:
(1-1)从现有的大数据应用实例和大数据专家中收集大数据应用需求指标和对应的大数据系统构件,作为初始训练数据;
(1-2)将所有的大数据系统构件分为三种层次的构件,三种层次包括:存储层、计算层、分析层;
(1-3)将步骤(1-1)的所有需求指标也划分到步骤(1-2)的三种层次中;
(1-4)将步骤(1-1)得到的初始训练数据中的大数据系统构件按照与三种层次对应关系进行分组,将步骤(1-1)得到的初始训练数据中的大数据的应用需求指标也按照步骤(1-3)与三种层次的对应关系进行分组,分别得到存储层训练数据、计算层训练数据和分析层训练数据;
(1-5)利用C5.0决策树算法,对步骤(1-4)的中三种层次训练数据分别进行训练,得到三个选型决策树,分别是:存储层选型决策树、计算层选型决策树和分析层选型决策树;
(2)使用阶段:大数据系统构件自动选型,具体包括以下步骤:
(2-1)将用户的需求进行整理,并按照步骤(1-1)中所述需求指标进行匹配,得到用户的需求指标结果;
(2-2)若步骤(2-1)得到的用户需求指标结果中,需求类型为存储、计算或分析中任一种,则将步骤(1-4)中存储层输入参数对应的用户需求指标结果输入步骤(1-5)得到的存储层选型决策树,存储层选型决策树输出为存储系统构件的选型;
(2-3)若步骤(2-1)得到的用户需求指标结果中,需求类型为计算或者分析,则将步骤(1-4)计算层中输入参数对应的用户需求指标结果输入步骤(1-5)得到的计算层选型决策树,该计算层选型决策树输出为计算系统构件的选型;
(2-4)若步骤(2-1)得到的用户需求指标结果中,需求类型为分析,则将步骤(1-4)中分析层输入参数对应的用户需求指标结果输入步骤(1-5)得到的分析层选型决策树,分析层选型决策树输出为分析系统构件的选型;
(3)动态更新阶段:动态更新三种层次选型决策树,具体包括以下步骤:
(3-1),将用户反馈的大数据应用需求指标和对应的大数据系统构件,作为更新训练数据;
(3-2)重复步骤(1-1)至(1-4),将更新训练数据分别添加到存储层、计算层和分析层训练数据中,得到更新后的三种层次训练数据;
(3-3)利用C5.0决策树算法,对更新后的三种层次训练数据分别进行训练,得到三个新的选型决策树,并用更新后的选型决策树代替原有的选型决策树,更新的选型决策树的输出作为大数据系统构件的最终选型。
本发明提出的大数据系统构件的自动选型方法,其特点和有益效果是:
1、本发明方法减少了用户对大数据系统调研、选择、决策的时间,使得用户可以快速地开发他们的大数据应用;
2、本发明方法中的选型决策树支持动态扩展,可以根据用户的反馈进行学习,不断地提高选型的准确度。
具体实施方式
本发明提出的一种大数据系统构件的自动选型方法,下面结合具体实施例进一步详细说明如下。
本发明提出的一种大数据系统构件的自动选型方法,该方法分为三个阶段,训练阶段、使用阶段和动态更新阶段,用户先收集初始训练数据,进行训练阶段;再将训练阶段得到
的选型决策树应用于大数据系统构件的自动选型;之后,根据用户的反馈对选型决策树进行动态更新,使得选型决策树提高选型的准确度。
该方法具体实施步骤如下:
(1)训练阶段:构建存储层、计算层和分析层三层选型决策树,具体包括以下步骤:
(1-1)从现有的大数据应用实例和大数据专家中收集大数据应用需求指标和对应的大数据系统构件,作为初始训练数据;需求指标如表1所示,表1中共有10种需求指标及其取值范围;
表1
(1-2)将所有的大数据系统构件分为三种层次的构件,三种层次包括:存储层、计算层、分析层,大数据系统构件与三种层次的对应关系如表2所示;
表2
(1-3)将步骤(1-1)的所有的10种需求指标也划分到步骤(1-2)的三种层次中,需求指标与三种层次的对应关系如表3所示;
表3
(1-4)将步骤(1-1)得到的初始训练数据中的大数据系统构件按照表2与三种层次对应关系进行分组,将步骤(1-1)得到的初始训练数据中的大数据的应用需求指标也按照步骤(1-3)表3中与三种层次对应关系进行分组,分别得到存储层训练数据、计算层训练数据和分析层训练数据,如表4所示;
表4
表4中,存储系统表示初始训练数据中的存储层大数据系统构件,计算系统表示初始训练数据中的计算层大数据系统构件;以存储系统为例,分类后,它既属于存储层训练数据,也属于计算层和分析层训练数据;
(1-5)利用C5.0决策树算法,对步骤(1-4)的表4中三种层次训练数据分别进行训练,得到三个选型决策树,分别是:存储层选型决策树、计算层选型决策树和分析层选型决策树;
(2)使用阶段:大数据系统构件自动选型,具体包括以下步骤:
(2-1)将用户的需求进行整理,并按照步骤(1-1)中表1所示需求指标进行匹配,得到用户的需求指标结果;
(2-2)若步骤(2-1)得到的用户需求指标结果中,需求类型为存储、计算或分析中任一种,则将步骤(1-4)表4中存储层输入参数对应的用户需求指标结果输入步骤(1-5)得到的存储层选型决策树,存储层选型决策树输出为存储系统构件的选型;
(2-3)若步骤(2-1)得到的用户需求指标结果中,需求类型为计算或者分析,则将步骤(1-4)表4中计算层输入参数对应的用户需求指标结果输入步骤(1-5)得到的计算层选型决策树,该计算层选型决策树输出为计算系统构件的选型;
(2-4)若步骤(2-1)得到的用户需求指标结果中,需求类型为分析,则将步骤(1-4)表4中分析层输入参数对应的用户需求指标结果输入步骤(1-5)得到的分析层选型决策树,分析层选型决策树输出为分析系统构件的选型;
(3)动态更新阶段:动态更新三种层次选型决策树,具体包括以下步骤:
(3-1),将用户反馈的大数据应用需求指标和对应的大数据系统构件,作为更新训练数据;
(3-2)重复步骤(1-1)至(1-4),将更新训练数据分别添加到存储层、计算层和分析层训练数据中,得到更新后的三种层次训练数据;
(3-3)利用C5.0决策树算法,对更新后的三层训练数据分别进行训练,得到三个新的选型决策树,并用更新后的选型决策树代替原有的选型决策树,更新的选型决策树的输出作为大数据系统构件的最终选型。

Claims (2)

1.一种大数据系统构件的自动选型方法,其特征在于,该方法分为三个阶段,训练阶段、使用阶段和动态更新阶段;用户先收集初始训练数据,进行训练阶段,再将训练阶段得到的选型决策树应用于进行大数据系统构件的自动选型,之后,根据用户的反馈对选型决策树进行动态更新,使得选型决策树提高选型的准确度。
2.如权利要求1所述的方法,其特征在于,该方法具体包括以下步骤:
(1)训练阶段:构建存储层、计算层和分析层三层选型决策树,具体包括以下步骤:
(1-1)从现有的大数据应用实例和大数据专家中收集大数据应用需求指标和对应的大数据系统构件,作为初始训练数据;
(1-2)将所有的大数据系统构件分为三种层次的构件,三种层次包括:存储层、计算层、分析层;
(1-3)将步骤(1-1)的所有需求指标也划分到步骤(1-2)的三种层次中;
(1-4)将步骤(1-1)得到的初始训练数据中的大数据系统构件按照与三种层次对应关系进行分组,将步骤(1-1)得到的初始训练数据中的大数据的应用需求指标也按照步骤(1-3)与三种层次的对应关系进行分组,分别得到存储层训练数据、计算层训练数据和分析层训练数据;
(1-5)利用C5.0决策树算法,对步骤(1-4)的中三种层次训练数据分别进行训练,得到三个选型决策树,分别是:存储层选型决策树、计算层选型决策树和分析层选型决策树;
(2)使用阶段:大数据系统构件自动选型,具体包括以下步骤:
(2-1)将用户的需求进行整理,并按照步骤(1-1)中所述需求指标进行匹配,得到用户的需求指标结果;
(2-2)若步骤(2-1)得到的用户需求指标结果中,需求类型为存储、计算或分析中任一种,则将步骤(1-4)中存储层输入参数对应的用户需求指标结果输入步骤(1-5)得到的存储层选型决策树,存储层选型决策树输出为存储系统构件的选型;
(2-3)若步骤(2-1)得到的用户需求指标结果中,需求类型为计算或者分析,则将步骤(1-4)计算层中输入参数对应的用户需求指标结果输入步骤(1-5)得到的计算层选型决策树,该计算层选型决策树输出为计算系统构件的选型;
(2-4)若步骤(2-1)得到的用户需求指标结果中,需求类型为分析,则将步骤(1-4)中分析层输入参数对应的用户需求指标结果输入步骤(1-5)得到的分析层选型决策树,分析层选型决策树输出为分析系统构件的选型;
(3)动态更新阶段:动态更新三种层次选型决策树,具体包括以下步骤:
(3-1),将用户反馈的大数据应用需求指标和对应的大数据系统构件,作为更新训练数据;
(3-2)重复步骤(1-1)至(1-4),将更新训练数据分别添加到存储层、计算层和分析层训练数据中,得到更新后的三种层次训练数据;
(3-3)利用C5.0决策树算法,对更新后的三种层次训练数据分别进行训练,得到三个新的选型决策树,并用更新后的选型决策树代替原有的选型决策树,更新的选型决策树的输出作为大数据系统构件的最终选型。
CN201610312904.7A 2016-05-12 2016-05-12 一种大数据系统构件的自动选型方法 Pending CN106126515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610312904.7A CN106126515A (zh) 2016-05-12 2016-05-12 一种大数据系统构件的自动选型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610312904.7A CN106126515A (zh) 2016-05-12 2016-05-12 一种大数据系统构件的自动选型方法

Publications (1)

Publication Number Publication Date
CN106126515A true CN106126515A (zh) 2016-11-16

Family

ID=57269908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610312904.7A Pending CN106126515A (zh) 2016-05-12 2016-05-12 一种大数据系统构件的自动选型方法

Country Status (1)

Country Link
CN (1) CN106126515A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943463A (zh) * 2017-12-15 2018-04-20 清华大学 交互式自动化大数据分析应用开发系统
CN110781221A (zh) * 2019-09-27 2020-02-11 同济大学 一种法院被执行人隐匿财产估算决策支持系统架构
CN112183604A (zh) * 2020-09-22 2021-01-05 国网江苏省电力有限公司营销服务中心 一种基于决策树的电能计量装置选型方法和系统
CN117540915A (zh) * 2023-11-14 2024-02-09 南方电网调峰调频发电有限公司检修试验分公司 基于大数据技术的选型方案生成方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和系统
CN104881706A (zh) * 2014-12-31 2015-09-02 天津弘源慧能科技有限公司 一种基于大数据技术的电力系统短期负荷预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和系统
CN104881706A (zh) * 2014-12-31 2015-09-02 天津弘源慧能科技有限公司 一种基于大数据技术的电力系统短期负荷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟 雨,邱明明,黄向东: ""大数据系统开发中的构件自动选型与参数配置"", 《计算机科学与探索》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943463A (zh) * 2017-12-15 2018-04-20 清华大学 交互式自动化大数据分析应用开发系统
CN107943463B (zh) * 2017-12-15 2018-10-16 清华大学 交互式自动化大数据分析应用开发系统
CN110781221A (zh) * 2019-09-27 2020-02-11 同济大学 一种法院被执行人隐匿财产估算决策支持系统架构
CN112183604A (zh) * 2020-09-22 2021-01-05 国网江苏省电力有限公司营销服务中心 一种基于决策树的电能计量装置选型方法和系统
CN112183604B (zh) * 2020-09-22 2024-05-28 国网江苏省电力有限公司营销服务中心 一种基于决策树的电能计量装置选型方法和系统
CN117540915A (zh) * 2023-11-14 2024-02-09 南方电网调峰调频发电有限公司检修试验分公司 基于大数据技术的选型方案生成方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110147357A (zh) 一种基于大数据环境下的多源数据聚合抽样方法及系统
US20150227521A1 (en) System and method for analysis and management of data distribution in a distributed database environment
CN107292186A (zh) 一种基于随机森林的模型训练方法和装置
Baldán et al. Distributed fastshapelet transform: a big data time series classification algorithm
US20150006509A1 (en) Incremental maintenance of range-partitioned statistics for query optimization
CN106126515A (zh) 一种大数据系统构件的自动选型方法
CN103631922A (zh) 基于Hadoop集群的大规模Web信息提取方法及系统
CN107291895B (zh) 一种快速的层次化文档查询方法
CN105159971B (zh) 一种云平台数据检索方法
Dehdouh Building OLAP cubes from columnar NoSQL data warehouses
Khan et al. Predictive performance comparison analysis of relational & NoSQL graph databases
Chen et al. Big data analysis
CN104598474B (zh) 云环境下基于数据语义的信息推荐方法
US11288266B2 (en) Candidate projection enumeration based query response generation
Gao Stability analysis of rock slope based on an abstraction ant colony clustering algorithm
CN111126865A (zh) 一种基于科技大数据的技术成熟度判断方法和系统
Heripracoyo et al. Big Data Analysis with MongoDB for decision support system
Ruzgas Big data mining and knowledge discovery
Jun A technology forecasting method using text mining and visual apriori algorithm
Trinks A classification of real time analytics methods. an outlook for the use within the smart factory
CN104778253B (zh) 一种提供数据的方法和装置
CN104331507A (zh) 机器数据类别自动发现和分类的方法及装置
Shuijing Big data analytics: Key technologies and challenges
Rodríguez-Mazahua et al. Comparative Analysis of Decision Tree Algorithms for Data Warehouse Fragmentation
Rudenko et al. Real-time skyline computation on data streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Jun

Inventor after: Wang Jianmin

Inventor after: Zhou Long

Inventor after: Xiao Zhanhui

Inventor after: Peng Zewu

Inventor after: Huang Xiangdong

Inventor after: Zhong Yu

Inventor after: Long Mingsheng

Inventor before: Chen Jun

Inventor before: Wang Jianmin

Inventor before: Zhou Long

Inventor before: Xiao Zhanhui

Inventor before: Peng Zewu

Inventor before: Huang Xiangdong

Inventor before: Zhong Yu

Inventor before: Long Mingsheng

COR Change of bibliographic data
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161116

WD01 Invention patent application deemed withdrawn after publication