CN111813847A - 企业运营数据的处理方法 - Google Patents

企业运营数据的处理方法 Download PDF

Info

Publication number
CN111813847A
CN111813847A CN202010634389.0A CN202010634389A CN111813847A CN 111813847 A CN111813847 A CN 111813847A CN 202010634389 A CN202010634389 A CN 202010634389A CN 111813847 A CN111813847 A CN 111813847A
Authority
CN
China
Prior art keywords
data
enterprise operation
library
processing
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010634389.0A
Other languages
English (en)
Inventor
陈晓娟
马聪聪
王和平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xu Ji Electric Co ltd
State Grid Corp of China SGCC
Original Assignee
Beijing Xu Ji Electric Co ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xu Ji Electric Co ltd, State Grid Corp of China SGCC filed Critical Beijing Xu Ji Electric Co ltd
Priority to CN202010634389.0A priority Critical patent/CN111813847A/zh
Publication of CN111813847A publication Critical patent/CN111813847A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种企业运营数据的处理方法,包括:数据抽取步骤,用于从多种不同系统中抽取数据;数据存储与处理步骤,用于将抽取到的数据存储到分布式存储架构搭建数据仓库中;数据挖掘与数据计算,用于对运营数据进行数据挖掘与数据计算,以获取可满足单业务分析及多业务分析需要的数据。本发明实施例的上述方案实现权限内数据从数据仓库抽取至大数据平台进行数据计算与挖掘,形成企业运营数据资产。数据集市从数据仓库与大数据平台抽取健全的数据资产,结合主数据模型支撑上层应用开发。

Description

企业运营数据的处理方法
技术领域
本发明实施例涉及数据处理技术领域,特别涉及企业运营数据的处理方法。
背景技术
强化运营管理商业智能,已经成为全世界、各行业普遍关注、亟待提升的命题。世界领先的制造企业均通过集约化运营管理、加强运营监控、提高运营管理的商业智能等手段来提升企业核心竞争力。自1996年“商业智能”这一概念被Gartner机构提出,伴随ERP等企业事务处理过程系统在世界各大企业的深入融合应用以及大数据、数据挖掘、数据仓库、AI等先进技术日益发展成熟,运营管理商业智能在世界范围内,尤其是制造业及流通企业展现了前所未有的市场前景。包括微软、IBM、Oracle、SAP在内的著名IT厂商纷纷致力于该领域内解决方案的研究。
近年来,我国多项政策均有涉及到推进AI技术在商业领域实现落地的内容。国内各行业大型企业已经建设完备并深化推广应用ERP、CRM、PLM等核心业务系统及综合协同办公系统,以支撑企业日常生产运营工作。随着运营管理数据的爆炸式增长,市场竞争日益加剧,为发掘数据背后的价值以获得快速决策和市场反应能力,各企业纷纷投入研发力量并规划建设企业一体化运营监控体系。
由于企业运营监控系统立足于企业以往建立的ERP、财务管控、CRM、 PLM、人力资源系统、生产制造系统、综合管理系统,甚至线下手工台账流程等系统之上,需要与既建多种系统进行集成以抽取各类业务数据,并对所得数据进行统一管理与应用。将面临数据来源系统接口多样、数据类型不统一、数据冗余、数据体量庞大、同步及管理困难等问题。但是现有技术中,对于此类运营数据还没有一种很好的数据处理方案。
发明内容
针对现有技术中的缺少对海量企业运营数据进行处理方法的问题,本发明实施例提出了一种企业运营数据的处理方法,能够对海量的企业运营数据进行有效和快速的处理。
为了解决上述问题,本发明实施例提出了一种自主可控数据库分布式集群的流式数据处理方法,包括:
数据抽取步骤,用于从多种不同系统中抽取数据;
数据存储与处理步骤,用于将抽取到的数据存储到分布式存储架构搭建数据仓库中;
数据挖掘与数据计算,用于对运营数据进行数据挖掘与数据计算,以获取可满足单业务分析及多业务分析需要的数据。
其中,所述数据抽取步骤包括:
通过SmartHub从不同的企业运营系统中抽取数据;其中所述SmartHub 为支持DB、日志、API类型的数据中进行数据采集的插件,且能够对数据采集的过程进行实时的一致性检测,并对采集过程中出现的异常进行及时告警。
其中,所述企业运营系统包括以下的至少一种:ERP、财务管控、CRM、 PLM、人力资源、生产制造数据系统;其中所述数据抽取步骤用于从所述企业营业系统的数据接口或中间库进行历史数据与实时数据的抽取;还用于从没有数据接口或中间库的企业运营系统中的数据通过EXCEL表的形式进行数据导入。
其中,所述数据存储与处理步骤包括:通过基于SG-RDB-PG数据库的分布式存储架构搭建数据仓库,在数据仓库内进行企业运营数据的存储、清洗转换以及加载。
其中,所述数据存储与处理步骤包括:
从数据源获取的分散、零乱、标准不统一的原始企业运营数据初步存放在贴源库中,贴源库用于数据溯源,当数据应用出现偏差或不符时能够通过贴源数据追踪到原数据、原系统,同时为后续清洗转换、统计分析提供原始数据支撑;
采用ETL软件对贴源库中的不符合要求的数据进行清洗,主要包括不完整的数据、错误的数据、重复的数据三大类。同时对清洗后的数据进行不一致数据转换与整合,将不同业务系统的相同类型的数据统一;处理后的数据通过 ETL工具加载到明细库;
对明细库中业务系统数据根据业务需求进行深度处理,如数据粒度转换、商务规则计算,所得数据存放在汇总库;
为满足数据挖掘与应用的需要,针对数据仓库使用WebService开发数据流通接口。
其中,所述数据存储与处理步骤包括:
数据挖掘与数据计算,通过基于Hadoop架构、Spark计算引擎搭建的运监大数据平台,对企业运营数据进行分析和计算;其中所述运监大数据平台至少搭载了SnappyData、HDFS、ElasticSearch、Druid组件。
其中,所述数据存储与处理步骤包括:
所述运监大数据平台通过ETL与SQL方式相结合对数据仓库中的数据进行抽取;
根据预设的数据分析预测模型,针对所得运营数据进行数据挖掘与数据计算。
本发明的上述技术方案的有益效果如下:本发明实施例的上述方案是一种企业运营监控(测)数据处理方法,应用SmartHub对接企业不同业务源系统,抽取原始数据存放在SG-RDB-PG数据仓库的贴源库中。采用ETL工具对贴源库中数据进行数据清洗、初步数据转换、并将结果数据资产加载到数据仓库的明细库中。根据业务需求使用Kettle工具对明细库中数据进行商务规则计算等深度处理,然后加载至汇总库。针对数据仓库开发WebService接口,实现权限内数据从数据仓库抽取至大数据平台进行数据计算与挖掘,形成企业运营数据资产。数据集市从数据仓库与大数据平台抽取健全的数据资产,结合主数据模型支撑上层应用开发。
附图说明
图1为本发明实施例的系统原理图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
数据抽取步骤,用于从多种不同系统中抽取数据;
具体的,可以通过SmartHub从不同的系统中抽取数据;其中该SmartHub 为支持DB、日志、API等多种类型的数据中进行数据采集的插件,且能够对数据采集的过程进行实时的一致性检测,并对采集过程中出现的异常进行及时告警。在一些实施例中,可以通过SmartHub技术实现从ERP、财务管控、CRM、 PLM、人力资源、生产制造等系统的数据接口或中间库进行历史数据与实时数据的抽取。同时,对不能提供接口或中间库企业运营数据数据支持通过EXCEL 表的形式进行数据导入。
数据存储与处理,本方案采用基于SG-RDB-PG数据库的分布式存储架构搭建数据仓库,在数据仓库内进行企业运营数据的存储、清洗转换以及加载。 1)从数据源获取的分散、零乱、标准不统一的原始企业运营数据初步存放在贴源库中,贴源库用于数据溯源,当数据应用出现偏差或不符时能够通过贴源数据追踪到原数据、原系统,同时为后续清洗转换、统计分析提供原始数据支撑;2)本方法采用Kettle等成熟ETL软件对贴源库中的不符合要求的数据进行清洗,主要包括不完整的数据、错误的数据、重复的数据三大类。同时对清洗后的数据进行不一致数据转换与整合,将不同业务系统的相同类型的数据统一。处理后的数据通过ETL工具加载到明细库;3)对明细库中业务系统数据根据业务需求进行深度处理,如数据粒度转换、商务规则计算,所得数据存放在汇总库;4)为满足数据挖掘与应用的需要,本方法针对数据仓库使用 WebService开发数据流通接口。
数据挖掘与数据计算,本方法包括基于Hadoop先进架构、Spark计算引擎搭建的运监大数据平台,平台搭载了SnappyData、HDFS、ElasticSearch、 Druid等组件,可对企业运营数据进行灵活高效的内存级分析和运算。平台采用ETL与SQL方式相结合对数据仓库中的数据进行抽取,结合多种数据分析、预测分析模型,针对所得运营数据进行数据挖掘与数据计算,可满足单业务分析及多业务分析需要,使数据成为标准统一、质量可靠、安全有效的数据资产。
数据服务,对企业运营数据进行上述一系列处理,可形成健全的数据资产支撑上层应用开发。本方法针对企业运营业务及运营监控(测)需要搭建数据集市,接收来自大数据平台及数据仓库的数据。本方法基于SG-RDB-PG架构搭建数据集市,可实现主数据模型构造;存储内存计算结果数据,并结合主数据模型,对业务应用提供更通用的OLTP支撑;存储面向各类报表、统计分析类前台应用程序功能需要访问的重度汇总类数据。
本发明实施例的上述方案是一种企业运营监控(测)数据处理方法,应用SmartHub对接企业不同业务源系统,抽取原始数据存放在SG-RDB-PG数据仓库的贴源库中。采用ETL工具对贴源库中数据进行数据清洗、初步数据转换、并将结果数据资产加载到数据仓库的明细库中。根据业务需求使用Kettle 工具对明细库中数据进行商务规则计算等深度处理,然后加载至汇总库。针对数据仓库开发WebService接口,实现权限内数据从数据仓库抽取至大数据平台进行数据计算与挖掘,形成企业运营数据资产。数据集市从数据仓库与大数据平台抽取健全的数据资产,结合主数据模型支撑上层应用开发。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.企业运营数据的处理方法,其特征在于,包括:
数据抽取步骤,用于从多种不同系统中抽取数据;
数据存储与处理步骤,用于将抽取到的数据存储到分布式存储架构搭建数据仓库中;
数据挖掘与数据计算,用于对运营数据进行数据挖掘与数据计算,以获取可满足单业务分析及多业务分析需要的数据。
2.根据权利要求1所述的企业运营数据的处理方法,其特征在于,所述数据抽取步骤包括:
通过SmartHub从不同的企业运营系统中抽取数据;其中所述SmartHub为支持DB、日志、API类型的数据中进行数据采集的插件,且能够对数据采集的过程进行实时的一致性检测,并对采集过程中出现的异常进行及时告警。
3.根据权利要求2所述的企业运营数据的处理方法,其特征在于,所述企业运营系统包括以下的至少一种:ERP、财务管控、CRM、PLM、人力资源、生产制造数据系统;其中所述数据抽取步骤用于从所述企业营业系统的数据接口或中间库进行历史数据与实时数据的抽取;还用于从没有数据接口或中间库的企业运营系统中的数据通过EXCEL表的形式进行数据导入。
4.根据权利要求1所述的企业运营数据的处理方法,其特征在于,所述数据存储与处理步骤包括:通过基于SG-RDB-PG数据库的分布式存储架构搭建数据仓库,在数据仓库内进行企业运营数据的存储、清洗转换以及加载。
5.根据权利要求4所述的企业运营数据的处理方法,其特征在于,所述数据存储与处理步骤包括:
从数据源获取的分散、零乱、标准不统一的原始企业运营数据初步存放在贴源库中,贴源库用于数据溯源,当数据应用出现偏差或不符时能够通过贴源数据追踪到原数据、原系统,同时为后续清洗转换、统计分析提供原始数据支撑;
采用ETL软件对贴源库中的不符合要求的数据进行清洗,主要包括不完整的数据、错误的数据、重复的数据三大类。同时对清洗后的数据进行不一致数据转换与整合,将不同业务系统的相同类型的数据统一;处理后的数据通过ETL工具加载到明细库;
对明细库中业务系统数据根据业务需求进行深度处理,如数据粒度转换、商务规则计算,所得数据存放在汇总库;
为满足数据挖掘与应用的需要,针对数据仓库使用WebService开发数据流通接口。
6.根据权利要求1所述的企业运营数据的处理方法,其特征在于,所述数据存储与处理步骤包括:
数据挖掘与数据计算,通过基于Hadoop架构、Spark计算引擎搭建的运监大数据平台,对企业运营数据进行分析和计算;其中所述运监大数据平台至少搭载了SnappyData、HDFS、ElasticSearch、Druid组件。
7.根据权利要求6所述的企业运营数据的处理方法,其特征在于,所述数据存储与处理步骤包括:
所述运监大数据平台通过ETL与SQL方式相结合对数据仓库中的数据进行抽取;
根据预设的数据分析预测模型,针对所得运营数据进行数据挖掘与数据计算。
CN202010634389.0A 2020-07-02 2020-07-02 企业运营数据的处理方法 Pending CN111813847A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010634389.0A CN111813847A (zh) 2020-07-02 2020-07-02 企业运营数据的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010634389.0A CN111813847A (zh) 2020-07-02 2020-07-02 企业运营数据的处理方法

Publications (1)

Publication Number Publication Date
CN111813847A true CN111813847A (zh) 2020-10-23

Family

ID=72856138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010634389.0A Pending CN111813847A (zh) 2020-07-02 2020-07-02 企业运营数据的处理方法

Country Status (1)

Country Link
CN (1) CN111813847A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365355A (zh) * 2020-12-10 2021-02-12 深圳迅策科技有限公司 实时计算基金估值和风险指标的方法、装置及可读介质
CN113535831A (zh) * 2021-06-09 2021-10-22 福建升腾资讯有限公司 一种基于大数据的报表分析方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140313882A1 (en) * 2013-04-17 2014-10-23 Systech Corporation Gateway device for machine-to-machine communication with dual cellular interfaces
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN110489459A (zh) * 2019-08-07 2019-11-22 国网安徽省电力有限公司 一种基于大数据平台的企业级业数融合数据分析系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140313882A1 (en) * 2013-04-17 2014-10-23 Systech Corporation Gateway device for machine-to-machine communication with dual cellular interfaces
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN110489459A (zh) * 2019-08-07 2019-11-22 国网安徽省电力有限公司 一种基于大数据平台的企业级业数融合数据分析系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔立真 等: "面向智能电网的电力大数据存储与分析应用", 大数据, vol. 3, no. 6, 20 November 2017 (2017-11-20), pages 42 - 54 *
胡聪 等: "基于Kafka分布式发布订阅消息系统的电网全业务统一数据中心-数据实时接入方法设计研究", 第三届智能电网会议论文集——智能用电, 28 October 2019 (2019-10-28), pages 87 - 90 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365355A (zh) * 2020-12-10 2021-02-12 深圳迅策科技有限公司 实时计算基金估值和风险指标的方法、装置及可读介质
CN112365355B (zh) * 2020-12-10 2023-12-26 深圳迅策科技有限公司 实时计算基金估值和风险指标的方法、装置及可读介质
CN113535831A (zh) * 2021-06-09 2021-10-22 福建升腾资讯有限公司 一种基于大数据的报表分析方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN104572895B (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN112347071B (zh) 一种配电网云平台数据融合方法及配电网云平台
CN111813847A (zh) 企业运营数据的处理方法
CN112181960A (zh) 一种基于AIOps的智能运维框架系统
CN108334557B (zh) 一种聚合数据分析方法、装置、存储介质及电子设备
CN113741883B (zh) 一种rpa轻量级数据中台系统
CN112182077A (zh) 一种基于数据中台技术的智能运维系统
CN112883001A (zh) 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN108132969A (zh) 数据质量大数据治理实现方法、电子设备及存储介质
CN109829003A (zh) 数据库备份方法及装置
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
CN111046054A (zh) 一种电力营销业务数据分析的方法和系统
CN114925042A (zh) 一种基于图形数据库的元数据关系的构建方法
CN113590599B (zh) 基于多元复杂数据环境的数据检查方法
CN114358812A (zh) 一种基于运维大数据的多维度电力营销分析方法及系统
CN113886472A (zh) 一种数据接入系统、接入方法、计算机设备和存储介质
CN216751819U (zh) 基于5g通讯技术的智能检测系统
CN112965948A (zh) 一种基于数据的管理服务中台系统
CN113220674A (zh) 一种基于能源大数据的数据清洗转换系统
CN117609349A (zh) 一种数据分析平台管理方法、系统、设备及可存储介质
Tian et al. RETRACTED: Research on Big Data Analysis Platform of Power Grid Enterprise Accounting Based on Cloud Computing
CN116775948A (zh) 一种用于yms系统的数据仓库系统及其构建方法
CN115510170A (zh) 一种基于金融数据增量计算的实时指标计算方法
CN116681559A (zh) 社交媒体中诉求内容自动识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination