CN108153815A - 面向大数据的指标分类方法 - Google Patents

面向大数据的指标分类方法 Download PDF

Info

Publication number
CN108153815A
CN108153815A CN201711224719.3A CN201711224719A CN108153815A CN 108153815 A CN108153815 A CN 108153815A CN 201711224719 A CN201711224719 A CN 201711224719A CN 108153815 A CN108153815 A CN 108153815A
Authority
CN
China
Prior art keywords
data
classification
index classification
index
towards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711224719.3A
Other languages
English (en)
Inventor
吴艳林
吴志成
张军锋
王学勇
徐江涛
贾菲菲
彭新玲
高晓琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN201711224719.3A priority Critical patent/CN108153815A/zh
Publication of CN108153815A publication Critical patent/CN108153815A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据分析技术领域,具体涉及一种面向大数据的指标分类方法,所述方法基于指标分类系统来实施,所述系统包括:预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎;所述方法包括:预处理、系统定义、对海量数据进行获取、预处理、转化和写入,建立指标分类模型、驱动指标分类模型;该方法可以在数据分析时能够科学、准确、有效的对海量数据进行处理和分析。

Description

面向大数据的指标分类方法
技术领域
本发明属于大数据分析技术领域,具体涉及一种面向大数据的指标分类方法。
背景技术
随着国际国内信息化建设的快速发展,各政府、行业、企事业单位等机构的业务数据已经呈现一种井喷式的数据增长趋势,积累了海量的用户行为数据、企业运行数据、行业运营数据、政府行政数据等,如何更好的运用这些沉淀的历史数据和正在快速增长的生产、运营数据,成为了现在政府、行业、企事业单位重点关注的问题。因此,在数据分析过程中,指标分类直接关系到数据分析结果的准确性、科学性和有效性,指标的分类已然成为一个重要的、迫在眉睫的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种在数据分析时能够科学、准确、有效的对海量数据进行处理和分析的面向大数据的指标分类方法。
(二)技术方案
为解决上述技术问题,本发明提供一种面向大数据的指标分类方法,所述方法基于指标分类系统来实施,所述系统包括:预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎;
所述方法包括如下步骤:
步骤1:由所述预处理模块根据业务需求分析,收集相关的信息,包括业务需求方案、技术要求方案、项目管理计划要求;
步骤2:由系统定义模块对业务类别进行分析定义、对数据分析维度进行分析、梳理和划分,对数据分析颗粒进行分析定义、对数据指标类别进行分析定义;
步骤3:由数据融合模块对海量数据进行获取、预处理、转化和写入;
步骤4:由模型建立模块建立指标分类模型;
所述指标分类模型建立包括:设定分类模型设计思想;定义分类模型;确定分类模型设计方式;
步骤5:由分布式算法引擎驱动指标分类模型;
分布式算法引擎由许多不同的算法库和算法调度元数据组成,分布式算法引擎与传统的算法引擎不同,可以根据指标分类模型的设计要求,按照分类模型设计方式的不同,将海量数据进行分类和切割,形成多个不同的算法单元,每个算法单元的调用都依赖于算法调度元数据,通过算法调度元数据的合成,将每个算法单元结果汇集,输出指标的分类结果。
其中,所述步骤2中,对业务类别进行分析定义是:在技术要求文件中技术限定的条件下,根据步骤1中需求分析,对分析的业务领域进行分析。
其中,所述步骤2中,对数据分析维度进行分析、梳理和划分是:维度即分析事物的角度,海量数据的分析维度就是根据步骤1中的需求分析,对海量数据的维度进行分析、梳理和划分。
其中,所述步骤2中,对数据分析颗粒进行分析定义是:数据分析颗粒即数据汇总的程度,数据分析颗粒就是根据步骤1中的需求分析,对海量数据的汇总程度进行分类。
其中,所述步骤2中,对数据指标类别进行分析定义是:数据指标类别即指标服务的群体类别,指标类别就是根据步骤1中的需求分析,对海量数据指标类别根据服务的群体进行分类。
其中,所述步骤3中,数据获取:与各类数据源建立获取接口,包括内部数据获取接口和外部数据获取接口。内部数据获取接口从数据仓库中获取数据,外部数据获取接口从传感器、互联网等获取数据,共同为分布式文件系统输入数据。
其中,所述步骤3中,数据预处理:数据预清洗主要面向外部数据获取接口的的数据,需要通过插值法、回归法、最近邻补插、使用固定值、补插中位数方法对数据进行预处理。
其中,所述步骤3中,数据转化:数据转化包括对从内部、外部数据获取接口的数据的转化处理,保证数据可以按照要求装入分布式文件系统中。
其中,所述步骤3中,数据写入:数据写入部分负责将数据按照物理数据模型定义的数据存储方式写入到分布式文件系统中。
其中,所述步骤4中,包括:
步骤41:设定分类模型设计思想;
分类模型设计思想,通过适当运用计算机的逻辑思维,将业务流程、大数据应用业务工作进行梳理,对数据进行科学分类,使看起来不相关的海量数据产生相互关系;
步骤42:定义分类模型;
分类模型是指根据业务的不同需要,用适当的模型设计方式将获取的海量数据进行分组、分类的过程;
步骤43:确定分类模型设计方式;
分类模型设计方式采用维度法、颗粒度法进行模型设计;维度法即通过对对象分析的角度设计分类的模型;颗粒度发即通过对数据汇总后颗粒度级别的不同设计分类的模型。
(三)有益效果
与现有技术相比较,本发明提供一种在数据分析时能够科学、准确、有效的对海量数据进行处理和分析的面向大数据的指标分类方法。
附图说明
图1为本发明技术方案原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决上述技术问题,本发明提供一种面向大数据的指标分类方法,如图1所述,所述方法基于指标分类系统来实施,所述系统包括:预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎;
所述方法包括如下步骤:
步骤1:由所述预处理模块根据业务需求分析,收集相关的信息,包括业务需求方案、技术要求方案、项目管理计划要求;
步骤2:由系统定义模块对业务类别进行分析定义、对数据分析维度进行分析、梳理和划分,对数据分析颗粒进行分析定义、对数据指标类别进行分析定义;
步骤3:由数据融合模块对海量数据进行获取、预处理、转化和写入;
步骤4:由模型建立模块建立指标分类模型;
所述指标分类模型建立包括:设定分类模型设计思想;定义分类模型;确定分类模型设计方式;
步骤5:由分布式算法引擎驱动指标分类模型;
分布式算法引擎由许多不同的算法库和算法调度元数据组成,分布式算法引擎与传统的算法引擎不同,可以根据指标分类模型的设计要求,按照分类模型设计方式的不同,将海量数据进行分类和切割,形成多个不同的算法单元,每个算法单元的调用都依赖于算法调度元数据,通过算法调度元数据的合成,将每个算法单元结果汇集,输出指标的分类结果。
其中,所述步骤2中,对业务类别进行分析定义是:在技术要求文件中技术限定的条件下,根据步骤1中需求分析,对分析的业务领域进行分析。
其中,所述步骤2中,对数据分析维度进行分析、梳理和划分是:维度即分析事物的角度,海量数据的分析维度就是根据步骤1中的需求分析,对海量数据的维度进行分析、梳理和划分。
其中,所述步骤2中,对数据分析颗粒进行分析定义是:数据分析颗粒即数据汇总的程度,数据分析颗粒就是根据步骤1中的需求分析,对海量数据的汇总程度进行分类。
其中,所述步骤2中,对数据指标类别进行分析定义是:数据指标类别即指标服务的群体类别,指标类别就是根据步骤1中的需求分析,对海量数据指标类别根据服务的群体进行分类。
其中,所述步骤3中,数据获取:与各类数据源建立获取接口,包括内部数据获取接口和外部数据获取接口。内部数据获取接口从数据仓库中获取数据,外部数据获取接口从传感器、互联网等获取数据,共同为分布式文件系统输入数据。
其中,所述步骤3中,数据预处理:数据预清洗主要面向外部数据获取接口的的数据,需要通过插值法、回归法、最近邻补插、使用固定值、补插中位数方法对数据进行预处理。
其中,所述步骤3中,数据转化:数据转化包括对从内部、外部数据获取接口的数据的转化处理,保证数据可以按照要求装入分布式文件系统中。
其中,所述步骤3中,数据写入:数据写入部分负责将数据按照物理数据模型定义的数据存储方式写入到分布式文件系统中。
其中,所述步骤4中,包括:
步骤41:设定分类模型设计思想;
分类模型设计思想,通过适当运用计算机的逻辑思维,将业务流程、大数据应用业务工作进行梳理,对数据进行科学分类,使看起来不相关的海量数据产生相互关系;
步骤42:定义分类模型;
分类模型是指根据业务的不同需要,用适当的模型设计方式将获取的海量数据进行分组、分类的过程;
步骤43:确定分类模型设计方式;
分类模型设计方式采用维度法、颗粒度法进行模型设计;维度法即通过对对象分析的角度设计分类的模型;颗粒度发即通过对数据汇总后颗粒度级别的不同设计分类的模型。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种面向大数据的指标分类方法,其特征在于,所述方法基于指标分类系统来实施,所述系统包括:预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎;
所述方法包括如下步骤:
步骤1:由所述预处理模块根据业务需求分析,收集相关的信息,包括业务需求方案、技术要求方案、项目管理计划要求;
步骤2:由系统定义模块对业务类别进行分析定义、对数据分析维度进行分析、梳理和划分,对数据分析颗粒进行分析定义、对数据指标类别进行分析定义;
步骤3:由数据融合模块对海量数据进行获取、预处理、转化和写入;
步骤4:由模型建立模块建立指标分类模型;
所述指标分类模型建立包括:设定分类模型设计思想;定义分类模型;确定分类模型设计方式;
步骤5:由分布式算法引擎驱动指标分类模型;
分布式算法引擎由许多不同的算法库和算法调度元数据组成,分布式算法引擎与传统的算法引擎不同,可以根据指标分类模型的设计要求,按照分类模型设计方式的不同,将海量数据进行分类和切割,形成多个不同的算法单元,每个算法单元的调用都依赖于算法调度元数据,通过算法调度元数据的合成,将每个算法单元结果汇集,输出指标的分类结果。
2.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤2中,对业务类别进行分析定义是:在技术要求文件中技术限定的条件下,根据步骤1中需求分析,对分析的业务领域进行分析。
3.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤2中,对数据分析维度进行分析、梳理和划分是:维度即分析事物的角度,海量数据的分析维度就是根据步骤1中的需求分析,对海量数据的维度进行分析、梳理和划分。
4.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤2中,对数据分析颗粒进行分析定义是:数据分析颗粒即数据汇总的程度,数据分析颗粒就是根据步骤1中的需求分析,对海量数据的汇总程度进行分类。
5.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤2中,对数据指标类别进行分析定义是:数据指标类别即指标服务的群体类别,指标类别就是根据步骤1中的需求分析,对海量数据指标类别根据服务的群体进行分类。
6.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤3中,数据获取:与各类数据源建立获取接口,包括内部数据获取接口和外部数据获取接口。内部数据获取接口从数据仓库中获取数据,外部数据获取接口从传感器、互联网等获取数据,共同为分布式文件系统输入数据。
7.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤3中,数据预处理:数据预清洗主要面向外部数据获取接口的的数据,需要通过插值法、回归法、最近邻补插、使用固定值、补插中位数方法对数据进行预处理。
8.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤3中,数据转化:数据转化包括对从内部、外部数据获取接口的数据的转化处理,保证数据可以按照要求装入分布式文件系统中。
9.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤3中,数据写入:数据写入部分负责将数据按照物理数据模型定义的数据存储方式写入到分布式文件系统中。
10.如权利要求1所述的面向大数据的指标分类方法,其特征在于,所述步骤4中,包括:
步骤41:设定分类模型设计思想;
分类模型设计思想,通过适当运用计算机的逻辑思维,将业务流程、大数据应用业务工作进行梳理,对数据进行科学分类,使看起来不相关的海量数据产生相互关系;
步骤42:定义分类模型;
分类模型是指根据业务的不同需要,用适当的模型设计方式将获取的海量数据进行分组、分类的过程;
步骤43:确定分类模型设计方式;
分类模型设计方式采用维度法、颗粒度法进行模型设计;维度法即通过对对象分析的角度设计分类的模型;颗粒度发即通过对数据汇总后颗粒度级别的不同设计分类的模型。
CN201711224719.3A 2017-11-29 2017-11-29 面向大数据的指标分类方法 Pending CN108153815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711224719.3A CN108153815A (zh) 2017-11-29 2017-11-29 面向大数据的指标分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711224719.3A CN108153815A (zh) 2017-11-29 2017-11-29 面向大数据的指标分类方法

Publications (1)

Publication Number Publication Date
CN108153815A true CN108153815A (zh) 2018-06-12

Family

ID=62469100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711224719.3A Pending CN108153815A (zh) 2017-11-29 2017-11-29 面向大数据的指标分类方法

Country Status (1)

Country Link
CN (1) CN108153815A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐系统构建方法
CN105653830A (zh) * 2014-10-21 2016-06-08 北京京航计算通讯研究所 一种基于模型驱动的数据分析方法
CN107092962A (zh) * 2016-02-17 2017-08-25 阿里巴巴集团控股有限公司 一种分布式机器学习方法和平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐系统构建方法
CN105653830A (zh) * 2014-10-21 2016-06-08 北京京航计算通讯研究所 一种基于模型驱动的数据分析方法
CN107092962A (zh) * 2016-02-17 2017-08-25 阿里巴巴集团控股有限公司 一种分布式机器学习方法和平台

Similar Documents

Publication Publication Date Title
Chirigati et al. Data polygamy: The many-many relationships among urban spatio-temporal data sets
US9087306B2 (en) Computer-implemented systems and methods for time series exploration
US9244887B2 (en) Computer-implemented systems and methods for efficient structuring of time series data
CN107145586B (zh) 一种基于电力营销数据的标签产出方法和装置
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
Praveena et al. A survey paper on big data analytics
WO2016054908A1 (zh) 基于物联网大数据平台的智能用户画像方法及装置
CN104112026B (zh) 一种短信文本分类方法及系统
CN111240662A (zh) 一种基于任务可视化拖拽的spark机器学习系统及学习方法
CN110334274A (zh) 信息推送方法、装置、计算机设备和存储介质
Hao et al. Ts-benchmark: A benchmark for time series databases
CN106484915B (zh) 一种海量数据的清洗方法和系统
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
Kun et al. Application of big data technology in scientific research data management of military enterprises
CN101739454B (zh) 数据处理系统
CN110544035A (zh) 一种内控检测方法、系统和计算机可读存储介质
CN105653830A (zh) 一种基于模型驱动的数据分析方法
Gao et al. Big data processing and application research
WO2020259155A1 (zh) 一种生成告警数据报表的方法及装置
CN105069574A (zh) 一种业务流程行为相似度分析的新方法
US10460010B2 (en) Computing scenario forecasts using electronic inputs
CN108153815A (zh) 面向大数据的指标分类方法
CN116089448A (zh) 一种基于多维感知建立人口画像的实时人口管理系统
CN113641654A (zh) 一种基于实时事件的营销处置规则引擎方法
RU133632U1 (ru) Автоматизированная система "монитор руководителя" информационной и аналитической поддержки принятия решений в сфере авиаперевозок

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612

RJ01 Rejection of invention patent application after publication