CN105589958A - 一种分布式的大数据规划方法 - Google Patents

一种分布式的大数据规划方法 Download PDF

Info

Publication number
CN105589958A
CN105589958A CN201510970695.0A CN201510970695A CN105589958A CN 105589958 A CN105589958 A CN 105589958A CN 201510970695 A CN201510970695 A CN 201510970695A CN 105589958 A CN105589958 A CN 105589958A
Authority
CN
China
Prior art keywords
data
standard
source
boundary
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510970695.0A
Other languages
English (en)
Inventor
于晓晨
邵兵
杨通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201510970695.0A priority Critical patent/CN105589958A/zh
Publication of CN105589958A publication Critical patent/CN105589958A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种分布式的大数据规划方法,属于信息化建设领域。该方法包括规划目标、边界划分、数据标准规划以及评估分析四步,将由普通系统移植到大数据系统的过程进行规范化、电子化处理,是大数据系统建设的基础,通过制定数据标准,解决业务界限不明确、数据来源不清晰、数据量不准确、沟通不顺畅、责任人不清楚等诸多问题。从目标规划到业务边界确认到元数据处理到数据应用建立,实现全过程管理,使用户轻松完成大数据系统的迁移。

Description

一种分布式的大数据规划方法
技术领域
本发明涉及信息化建设领域,具体地说是一种分布式的大数据规划方法。
背景技术
随着行业应用系统的发展,各种信息系统应用数据快速增长,企业的信息化建设已逐步进入了大数据时代。当前业界大数据信息化建设前期突出的问题反映在以下几个方面:
a)数据分散在各个业务系统中,无法对其进行综合利用。
b)数据来源不清楚,无法与其业务系统对应,导致数据来源混乱,版本众多。
c)数据量的大小无法准确计算,影响存储资源规划。
d)数据源的结构、格式、关系的复杂多样性,无法为数据采集提供科学的指导和支持。
e)数据拥有人不清晰,数据拥有者不能及时按业务要求提供正确的数据,导致数据无法准确追溯。
f)数据定义的分歧,对相同业务的不同解释与定义。
g)研究方向多样性,对数据的要求较高,数据梳理不清晰,影响分析结果的准确性。
h)数据管理混乱,导致数据冗余存储,增加不必要的存储采购负担。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种分布式的大数据规划方法。
本发明的技术任务是按以下方式实现的:一种分布式的大数据规划方法,其特点是包括以下步骤:
一、规划目标
制定总体规划目标和总体需求,从全局角度明确工作任务,并对总体规划进行初步研究分解,之后将任务下发至各需求提供方、使用总体以及技术总体,进行下一步工作;
二、边界划分
包括业务边界划分、数据边界划
业务边界划分:针对具体的业务应用目标进行需求的统一管理,提供业务边界划分模板,业务边界划分完成后可以从中抽取相应信息作为生成数据应用需求方案的源材料;
数据边界划分:根据业务边界梳理其需要的数据来源以及梳理已有数据挖掘成果和方法,提供数据边界模板对数据源进行描述;
三、数据标准规划
包括建立数据标准中心和建立数据迁移中心
建立数据标准中心,以保证各业务功能在数据使用上的一致性,对源数据在数据中心的存储制定一个标准,将同类的源数据进行归一化处理的方案,为数据抽取到数据中心提供数据对应标准;
建立数据迁移中心,以确定数据标准表的数据如何初始化以及如何对数据标准表中的数据进行增量导入;
四、评估分析
依据自身需求,各使用主体对数据规划成果进行评估分析。
进一步的,步骤二中进行业务边界划分时,按照研究背景、研究目标、研究内容、应用方向进行梳理。可以达到研究方向明确、业务边界合理,同时避免口头多次交流造成资源浪费;为了保证系统灵活性,用户也可制作模板并导入,适应自身业务。
步骤二中进行数据边界划分时,提供数据边界模板对数据源进行描述,所述数据边界模板包括单位、数据类型、数据来源、当前数据量及数据产生速率等条目,用户也可自定义模板进行数据边界划分。
步骤三中建立数据标准中心的方法优选为:
(一)制定数据标准:数据标准的制定依赖于同类表的表结构,具体步骤为:
a)选取同类数据表,获得到每个表的表结构;
b)分析表结构中相同字段,选做数据中心的字段;
c)对于表结构中不同的字段进行分析,找出其共同意义生成新的字段;
d)对于业务支撑没有意义的字段可以暂时抛弃,后期如果需要生成新的字段,可以在数据中心中进行添加;
(二)配置数据关系:对于数据中心和源数据表之间存在何种关系需要在两者之间做一个数据字段的映射,以便实现对数据标准中心字段的来源进行追溯;
(三)建立数据主题:数据主题是依据具体业务,将数据分为各种主题类。
建立数据主题时优选包括以下分类方式:
a、按照数据产生方式分类:根据不同产生方式,数据可归为三大类:基础数据、衍生数据、公共代码类数据,其中,基础数据由系统生成或直接录入,衍生类数据由基础数据通过转换和计算产生,公共代码类数据是通用的共享代码,是特殊的基础数据;
b、按照数据模型分类:按主题对数据分类,每个信息类包含有一个或多个信息子类,以所述类为依据,确认相应类别的认责部门。
步骤四中以数据地图等方式对数据量、数据迁移的状态、迁移趋势进行展示,并通过数据图谱描绘各数据源关联关系。
前三个步骤完成后生成的方案均可在评估分析模块统一展示和输出,同时根据数据源总数据量、数据增长量及数据存储方式计算对于存储能力的需求,从数据访问频率、数据关联性及数据预处理、算法研究中对计算能力的需求,从数据的交换频率、访问频率等计算对网络能力的需求,生成硬件能力评估方案,为用户整体硬件环境建设提供建议。
与现有技术相比,本发明的分布式的大数据规划方法具有以下有益效果:
(一)数据标准规范化—数据标准化,实现研究目标确切,数据的来源、业务、结构、格式清晰,数据的去向明确。
(二)数据关系脉络化—对研究方向所需要的数据进行整理,杜绝重复提交数据。
(三)数据存储度量化—实现数据存储准确计算,为存储设备采购提供科学依据。
(四)数据评估流程化—发现数据问题,提供畅通的沟通渠道,及时反馈给数据拥有者。
(五)数据服务电子化—提供研究目标管理,数据源管理,元数据定义,评估分析系统。
具体实施方式
以具体实施例对本发明的分布式的大数据规划方法作以下详细地说明。
实施例:
本发明规划方法采用B/S架构,集成于IOP(In-cloudOpenPlatform)平台,作为平台应用开发建设的基础,由规划目标、边界划分、数据标准规划以及评估分析四步完成。
(1)规划目标制定总体规划目标和总体需求,从全局角度明确工作任务,并对总体规划进行初步研究分解,之后将任务下发至各需求提供方、使用总体以及技术总体,进行下一步工作。
(2)边界划分分为业务边界划分以及数据边界划分两部分:
业务边界划分主要是针对具体的业务应用目标进行需求的统一管理,提供业务边界划分模板,按照研究背景、研究目标、研究内容、应用方向等进行梳理,以达到研究方向明确、业务边界合理,同时避免口头多次交流造成资源浪费;为了保证系统灵活性,用户也可制作模板并导入,适应自身业务。业务边界划分完成后系统可以从中抽取相应信息作为生成数据应用需求方案的源材料。
数据边界划分主要根据业务边界梳理其需要的数据来源以及梳理已有数据挖掘成果和方法。提供数据边界模板对数据源进行描述,包括单位、数据类型、数据来源、当前数据量、数据产生速率等条目,用户也可自定义模板进行数据边界划分。
(3)数据标准规划包括数据标准中心和数据迁移中心两部分。
数据标准中心是为保证各业务功能在数据使用上的一致性,需要对源数据在数据中心的存储制定一个标准,将同类的源数据进行归一化处理的方案,为数据抽取到数据中心提供数据对应标准。
由定义数据标准、配置数据关系以及建立数据主题等步骤完成。
1)数据标准:数据标准的制定依赖于同类表的表结构,对于同类型的数据表不同的单位或系统提供的表结构存在很多差异,比如字段名称或字段信息的不一致性等,但对于同一类表来说,同类表代表的意义是相近的,因此对于同类表具备建立统一数据标准的基础。在实现起来可以借鉴如下步骤:
a)选取同类数据表,获得到每个表的表结构。
b)分析表结构中相同字段,选做数据中心的字段。
c)对于表结构中不同的字段进行分析,找出其共同意义生成新的字段
d)对于业务支撑没有意义的字段可以暂时抛弃,后期如果需要生成新的字段,可以在数据中心中进行添加。
这样数据标准建立后,数据标准表中的每一个字段都会记录或者来源于哪个源数据表,或者是属于新建的表。
2)配置数据关系:对于数据中心和源数据表之间存在何种关系需要在两者之间做一个数据字段的映射,以便实现对数据标准中心字段的来源进行追溯。在数据标准表的制定过程中已经有了数据标准表中字段来源于那个源数据表,还需要建立源数据表与数据标准表之间的对应关系,这样在进行数据表初始化及数据增量添加时,了解源数据表的数据如何导入到数据标准表。
3)建立数据主题:数据主题是依据具体业务,将数据分为各种主题类,通常有以下分类方式:
a)按照数据产生方式分类:根据不同产生方式,数据可归为三大类:基础数据、衍生数据、公共代码类数据。其中,基础数据由系统生成或直接录入,衍生类数据由基础数据通过转换和计算产生,公共代码类数据是通用的共享代码,是特殊的基础数据。
b)按照数据模型分类:按主题对数据分类,如部门、人员、地域、业务、环境、事件等信息类,其中每个信息类包含有一个或多个信息子类,应该以这些类别为依据,确认相应类别的认责部门,后期可以建设信息化的审核流程,评估数据完整性及监督数据质量问题,并由该部门负责相应数据标准的解释与定义。
数据迁移中心是在建立数据标准中心后,对于数据标准表的数据如何初始化以及如何对数据标准表中的数据进行增量导入所制定的规范。是源数据迁移到平台标准化目的数据的过程,因此需定义各数据源到平台的数据迁移标准,包括数据唯一性标识、迁移频率、迁移规则等,对数据迁移进行标准化管理,完成数据迁移标准配置后可生成数据迁移方案,为数据采集中心提供辅助支持。
数据迁移标准建立后,能够对数据的信息做出详细的记录,包括迁移的数据条数、每条数据大小、数据的唯一性标识、数据关联关系,迁移规则等方面。在对数据标准表进行初始化或增量导入时按照数据迁移中心建立的数据迁移标准对数据进行操作。
(4)评估分析:
依据自身需求,各使用主体对数据规划成果进行评估分析。提供数据地图等方式对数据量、数据迁移的状态、迁移趋势等进行展示,并通过数据图谱等方式描绘各数据源关联关系。前三部分完成后生成的方案均在评估分析模块统一展示和输出,同时根据数据源总数据量、数据增长量及数据存储方式计算对于存储能力的需求,从数据访问频率、数据关联性及数据预处理、算法研究中对计算能力的需求,从数据的交换频率、访问频率等计算对网络能力的需求,生成硬件能力评估方案,为用户整体硬件环境建设提供建议。

Claims (6)

1.一种分布式的大数据规划方法,其特征在于包括以下步骤:
一、规划目标
制定总体规划目标和总体需求,从全局角度明确工作任务,并对总体规划进行初步研究分解,之后将任务下发至各需求提供方、使用总体以及技术总体,进行下一步工作;
二、边界划分
包括业务边界划分、数据边界划
业务边界划分:针对具体的业务应用目标进行需求的统一管理,提供业务边界划分模板,业务边界划分完成后可以从中抽取相应信息作为生成数据应用需求方案的源材料;
数据边界划分:根据业务边界梳理其需要的数据来源以及梳理已有数据挖掘成果和方法,提供数据边界模板对数据源进行描述;
三、数据标准规划
包括建立数据标准中心和建立数据迁移中心
建立数据标准中心,以保证各业务功能在数据使用上的一致性,对源数据在数据中心的存储制定一个标准,将同类的源数据进行归一化处理的方案,为数据抽取到数据中心提供数据对应标准;
建立数据迁移中心,以确定数据标准表的数据如何初始化以及如何对数据标准表中的数据进行增量导入;
四、评估分析
依据自身需求,各使用主体对数据规划成果进行评估分析。
2.根据权利要求1所述的分布式的大数据规划方法,其特征在于:步骤二中进行业务边界划分时,按照研究背景、研究目标、研究内容、应用方向进行梳理。
3.根据权利要求1所述的分布式的大数据规划方法,其特征在于:步骤二中进行数据边界划分时,提供数据边界模板对数据源进行描述,所述数据边界模板包括单位、数据类型、数据来源、当前数据量及数据产生速率。
4.根据权利要求1所述的分布式的大数据规划方法,其特征在于:步骤三中建立数据标准中心的方法为:
(一)制定数据标准:数据标准的制定依赖于同类表的表结构,具体步骤为:
选取同类数据表,获得到每个表的表结构;
分析表结构中相同字段,选做数据中心的字段;
对于表结构中不同的字段进行分析,找出其共同意义生成新的字段;
对于业务支撑没有意义的字段可以暂时抛弃,后期如果需要生成新的字段,可以在数据中心中进行添加;
(二)配置数据关系:对于数据中心和源数据表之间存在何种关系需要在两者之间做一个数据字段的映射,以便实现对数据标准中心字段的来源进行追溯;
(三)建立数据主题:数据主题是依据具体业务,将数据分为各种主题类。
5.根据权利要求4所述的分布式的大数据规划方法,其特征在于:建立数据主题时包括以下分类方式:
a、按照数据产生方式分类:根据不同产生方式,数据可归为三大类:基础数据、衍生数据、公共代码类数据,其中,基础数据由系统生成或直接录入,衍生类数据由基础数据通过转换和计算产生,公共代码类数据是通用的共享代码,是特殊的基础数据;
b、按照数据模型分类:按主题对数据分类,每个信息类包含有一个或多个信息子类,以所述类为依据,确认相应类别的认责部门。
6.根据权利要求1所述的分布式的大数据规划方法,其特征在于:步骤四中以数据地图等方式对数据量、数据迁移的状态、迁移趋势进行展示,并通过数据图谱描绘各数据源关联关系。
CN201510970695.0A 2015-12-22 2015-12-22 一种分布式的大数据规划方法 Pending CN105589958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510970695.0A CN105589958A (zh) 2015-12-22 2015-12-22 一种分布式的大数据规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510970695.0A CN105589958A (zh) 2015-12-22 2015-12-22 一种分布式的大数据规划方法

Publications (1)

Publication Number Publication Date
CN105589958A true CN105589958A (zh) 2016-05-18

Family

ID=55929537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510970695.0A Pending CN105589958A (zh) 2015-12-22 2015-12-22 一种分布式的大数据规划方法

Country Status (1)

Country Link
CN (1) CN105589958A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202457A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 一种分布式的大数据规划方法
CN107545349A (zh) * 2016-06-28 2018-01-05 国网天津市电力公司 一种面向电力大数据的数据质量分析评价模型
CN110363383A (zh) * 2019-06-03 2019-10-22 华东电力试验研究院有限公司 一种基于数字化发展下的分布式发电监测技术
CN110795422A (zh) * 2019-09-12 2020-02-14 三盟科技股份有限公司 一种数据服务管理方法及系统
CN114610797A (zh) * 2022-03-25 2022-06-10 澜途集思生态科技集团有限公司 一种基于流体动力学的数据分布规划方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706909A (zh) * 2009-11-18 2010-05-12 山东浪潮齐鲁软件产业股份有限公司 一种面向企业数据集成的全面数据质量管理方法
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN103778148A (zh) * 2012-10-23 2014-05-07 阿里巴巴集团控股有限公司 Hadoop分布式文件系统数据文件的生命周期管理方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706909A (zh) * 2009-11-18 2010-05-12 山东浪潮齐鲁软件产业股份有限公司 一种面向企业数据集成的全面数据质量管理方法
CN103778148A (zh) * 2012-10-23 2014-05-07 阿里巴巴集团控股有限公司 Hadoop分布式文件系统数据文件的生命周期管理方法和设备
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545349A (zh) * 2016-06-28 2018-01-05 国网天津市电力公司 一种面向电力大数据的数据质量分析评价模型
CN106202457A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 一种分布式的大数据规划方法
CN110363383A (zh) * 2019-06-03 2019-10-22 华东电力试验研究院有限公司 一种基于数字化发展下的分布式发电监测技术
CN110795422A (zh) * 2019-09-12 2020-02-14 三盟科技股份有限公司 一种数据服务管理方法及系统
CN110795422B (zh) * 2019-09-12 2020-10-27 三盟科技股份有限公司 一种数据服务管理方法及系统
CN114610797A (zh) * 2022-03-25 2022-06-10 澜途集思生态科技集团有限公司 一种基于流体动力学的数据分布规划方法

Similar Documents

Publication Publication Date Title
CN105589958A (zh) 一种分布式的大数据规划方法
CN105320690B (zh) 一种基于元数据的统计表单快速生成方法及系统
CN103473342B (zh) 一种报表数据生成方法及系统
CN103093154B (zh) 一种定密信息管理系统及定密信息管理方法
Montero et al. Fusing mobile phone data with other data sources to generate input OD matrices for transport models
CN103995899A (zh) 一种kpi的分析系统
CN104599302B (zh) 获取pet晶体能量峰值及设定能量鉴频器的方法
CN107705199A (zh) 特征计算代码的生成方法和装置
CN103020117B (zh) 一种服务对比方法及系统
CN103500382A (zh) 一种教师绩效考核方法及系统
CN105117588A (zh) 一种基于医院海量业务数据的医疗质量分析方法
CN106250110A (zh) 建立模型的方法及装置
Safonova On one approach to modeling enterprise-wide function-oriented computer networks
CN108153917A (zh) 一种可视化定义人地房关系的不动产调查建库方法
US20150095051A1 (en) Automated algorithm and framework for multi-patient treatment plan access in radiation therapy
CN107392560A (zh) 一种基于互联网的Excel表格数据发布采集方法及系统
CN106199706A (zh) 三维观测系统面元属性统计方法及装置
CN106157216A (zh) 一种空间信息数据管理方法及系统
CN106355315A (zh) 一种旅游管理服务集成系统
CN103985076B (zh) 医院医疗设备计量与质量监测信息系统
CN106372081A (zh) 表单标示符生成方法、表单分流方法和装置
CN104361138A (zh) 成本分摊及溯源装置和方法
CN103699671A (zh) 数据报表生成方法及系统
CN111933228B (zh) 用于临床研究中的项目分发与管理系统的实现方法和装置
CN107908697A (zh) 主机批处理作业结果的自动采集方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160518