CN110838055A

CN110838055A - 一种基于大数据的电力企业财务数据管理系统

Info

Publication number: CN110838055A
Application number: CN201911112859.0A
Authority: CN
Inventors: 郭琳; 张媛; 王新; 白雪; 张奇; 刘倩; 王辉; 孙伟亮; 于涵; 闫丽娜; 齐建威
Original assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Cangzhou Power Supply Co of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Cangzhou Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-02-25

Abstract

本发明公开了一种基于大数据的电力企业财务数据管理系统，该系统总体架构分为五层：数据来源层，数据存储层，大数据并行处理层，大数据并行分析层及数据可视化层；数据来源层提供内部数据和外部数据，数据存储层对数据进行存储，大数据并行处理层对数据进行分类处理，大数据并行分析层对处理后的数据进行分析并进行行为预测，数据可视化层将所得数据以图表、网络图方式进行分析后数据可视化。本发明基于NoSQL的大数据存储管理、基于Hadoop的财务大数据预处理以及财务大数据分析挖掘算法为在线决策分析提供理论依据及基础技术支撑大幅提升了电力企业财务数据的管理效率和准确性。

Description

一种基于大数据的电力企业财务数据管理系统

技术领域

本发明涉及电网财会管理技术领域，具体涉及一种基于大数据的电力企业财务数据管理系统。

背景技术

近年来，全球能源问题愈加严重，智能电网被广泛研究。2011年在麦肯锡的研究报告中所提及的大数据，让大数据浪潮在各行各业中愈加火热。大数据被视为下一个创新和生产力提升的前沿，随着大数据研究的地位以及将会给社会带来的价值，大数据已成为学术界和产业界共同关注的研究主题。

当前，在各类电力生产经营财务数据管理活动中产生的海量、高频数据，具有实时性、突发性、易失性、无序性、无限性等特征。为解决电力企业接入的财务数据的不一致、不规范的问题，以及如何快速从这些海量高频数据中获取有价值的信息、提高数据资产带来的经济效益和数据管理效率，需要电力企业财务数据大数据平台的支持。

大数据平台实施的必要性主要是以下三个方面：

1）业务融合与信息共享的需要

业务融合是指按照业务主线深度集成主营业务流程，高度集中相关业务应用，实现公司整体资源共享和业务协作，建设整合系统内、外共享的信息资源池，提供国内、国际业务支撑。财务公司业务融合与信息共享之间存在着不足，在数据方面存在着数据多头输入，数据准确性、一致性不强以及数据反复抽取、过度存储、质量不高的问题。目前，财务公司各项业务数据基本由业务部门自行进行管理和应用，系统和数据自成体系，业务系统的数据字典、数据库和系统查询功能对外开放共享程度不够。

2）资金调控与精细化管理需要

按照电力企业资金监控的总体思路和工作目标，增强公司资金实时监控能力，持续提升资金使用效率和效益，支撑财务资源的集团化、集约化运作，建立健全适应财务集约化管理体系的“电力企业总部、省级电力公司”二级资金监控体系，促进数据共享与融合，丰富经营决策模型，进一步提升资金调控水平。利用财务公司资金调控中心可疑交易筛查功能，实现公司总部和各单位支付指令在线监控，重点开展重复支付监测，防范支付风险。开展结算监控，监督公司端服务提供情况，辅助进行服务满意度测评，提供支付问题在线解答，发布支付结算业务运行相关提醒事项。综合监控财务公司账户余额，重点开展集团账户监控。监控集团账户各级账户余额和可用余额，监控中间层账户占用下级账户资金规模，进行单个集团账户收支规律分析，辅助“资金池”备付监控。监控资金优化配置执行情况。

3）信息技术提升的需要

财务公司原有数据管理与应用基于数据仓库和商业智能技术，随着业务的拓展、需求的日益复杂，以及数据量的快速增长，原有数据平台已经日益成为财务公司业务拓展和金融创新的瓶颈。大数据、云计算等新技术日趋成熟，使得PB级数据统一存储与管理、跨地域、跨系统分布式计算、基础软硬件资源弹性扩展成为可能。信息技术的提升，为大数据平台的构建提供了技术保障，也成为财务公司大数据平台建设的直接推动力。

发明内容

本发明的目的是提供一种基于大数据的电力企业财务数据管理系统，基于 NoSQL的大数据存储管理、基于 Hadoop 的财务大数据预处理以及财务大数据分析挖掘算法为在线决策分析提供理论依据及基础技术支撑大幅提升了电力企业财务数据的管理效率和准确性。

为了实现上述目的，本发明采取的技术方案如下：

一种基于大数据的电力企业财务数据管理系统，该系统总体架构分为五层：数据来源层，数据存储层，大数据并行处理层，大数据并行分析层及数据可视化层；

数据来源层提供内部数据和外部数据，数据存储层对数据进行存储，大数据并行处理层对数据进行分类处理，大数据并行分析层对处理后的数据进行分析并进行行为预测，数据可视化层将所得数据以图表、网络图方式进行分析后数据可视化。

作为本发明的进一步改进，所述数据来源层的内部数据来源于四大数据中心的结构化、半结构化、非结构化数据和财务信息数据；所述数据来源层的外部数据来源于互联网、社交及移动外部数据。

作为本发明的进一步改进，所述数据存储层描述数据存储方法、数据存储格式以及数据并行化存储结构；采用NoSQL 数据存储系统，以 Key-Value 数据格式、面向文档方式以及图数据方式进行分布式存储

作为本发明的进一步改进，所述大数据并行处理层通过 Map Reduce 计算框架来构建电力大数据并行化分析服务体系，基于 Hadoop分布式处理平台，利用此平台对数据进行处理。

作为本发明的进一步改进，所述大数据并行分析层以聚类算法为基础，分成两个阶段，采用 Canopy 算法和基于蚁群的 K-Means 算法和Map Reduce相结合的方法，对处理后的数据进行大数据分析，并利用分析结果对用户行为进行预测。

作为本发明的进一步改进，NoSQL 数据存储系统具有两种架构：Master-Slave 结构和 P2P 环形结构；

Master-Slave 结构基于水平分区实现数据分布，将 master 节点和 slave 节点的功能分开，由 master 节点维护其管理的 slave 节点；

P2P 环形结构的系统无中心节点，各节点平等，基于 Hash 分布数据。

作为本发明的进一步改进，所述大数据并行处理层采用基于Hadoop 和 Hive 以及 HBase 的财务数据预处理平台；

在此预处理平台中，实现对数据的清洗、集成和归约，利用噪声处理、数据缺失填补以及对数据属性维度的约简来进行财务大数据的预处理过程；此方法结合 Hadoop 平台，通过增添负责预处理任务的监控和控制节点，该节点维护一个预处理的任务列表，并存储对应的预处理程序和启动规则。

作为本发明的进一步改进，预处理功能集中于存储节点上，由特定的主机承担预处理任务的控制节点，并通过该节点维护预处理系统的运行，预处理程序库的管理；

Hadoop 分布式处理平台的底层利用分布式文件系统HDFS 来存储海量财务结构化数据和非结构化数据，利用 Map Reduce 分布式计算框架实现对海量明细数据的高效处理。处理之后的结果存储在 HBase中，其中 HDFS 为 HBase 提供了高可靠性的底层存储支持，Map Reduce 为 HBase 提供高性能的计算能力，Hive 为 HBase 提供高层语言支持。

作为本发明的进一步改进，在聚类算法中的第一个阶段选择初始聚类中心采用一个 Map Reduce 过程来实现；

首先将原始的数据集合划分为若干个分片并且复制到各个执行map任务的节点中，各节点单独并行执行；Map过程主要负责将复制到本节点的数据按照canopy算法的思想以(key，value)对的形式进行处理产生若干个canopy中心，并将其作为中间输出结果作为reduce过程的输入，此时的canopy数目一定是远远小于原数据集合中对象的数目；reduce过程只设置一个reduce任务，处理方法与map过程相同，由此而得到的若干个新的canopy中心就是整个数据集合的canopy中心，即下一步聚类的初始聚类中心；第二个阶段的基于蚁群聚类中信息素思想的K-means聚类使用三个Map Reduce过程来实现，Map Reduce1目的是计算上次迭代产生的各个聚类中心的密度，剔除孤立点，并且计算同一聚类中中对象的信息素和能见度乘积的和；Map Reduce2功能则是划分对象到各个聚类，更新信息素；MapReduce3的功能就是更新各个聚类中心。

作为本发明的进一步改进，大数据并行分析层采用聚类算法的分析过程如下：首先把经过大数据预处理的数据集在 Hadoop集群分析平台下进行 Canopy 聚类，在聚类过程中会出现孤立点和分离点，离群点数据的有效性的判断，通过使用小波降噪对财务数据进行滤除噪声处理，然后利用改进的 ISODATA 算法将数据进行聚类分析，再用 KNN 算法对数据进行分类，利用投票的方式来筛选可疑数据，进而识别出可疑不良数据，从而对不良数据的有效识别，把不良的孤立点剔除，从而排除不良数据对财务分析带来的负面影响；此过程通过 Map/Reduce 操作实现，通过设计业务分析模型，定位此项数据分析所需输入数据，并将数据分割成若干独立的块，然后通过 mapper count 分给不同的 mapper进行处理。

与现有技术相比，本发明所取得的有益效果如下：

本发明基于大数据的电力企业财务数据管理系统，从数据存储、数据处理以及数据分析三个层次来描述电力企业财务数据管理系统，将传统的财务数据分析从数理统计、假设检验、统计描述及推断的层面提升到智能算法、全数据处理、并行计算、可视化展现及决策支持的层面，推进了大数据在财务数据分析研究领域的应用，为电力财务数据的高效价值挖掘及在线决策分析提供理论依据及基础技术支撑。

附图说明

附图1是电力企业财务数据管理系统构架图；

附图2是基于 hadoop的财务大数据预处理整体生命周期图；

附图3是大数据预处理系统与 Hadoop 系统相结合架构图；

附图4是基于 Hadoop 的大数据分析流程图；

附图5是大数据并行分析层采用聚类算法的分析流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。

因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

如图1所示，一种基于大数据的电力企业财务数据管理系统，该系统总体架构分为五层：数据来源层，数据存储层，大数据并行处理层，大数据并行分析层及数据可视化层；

作为本发明的进一步改进，所述大数据并行处理层通过 Map Ｒeduce 计算框架来构建电力大数据并行化分析服务体系，基于 Hadoop分布式处理平台，利用此平台对数据进行处理。

作为本发明的进一步改进，所述大数据并行分析层以聚类算法为基础，分成两个阶段，采用 Canopy 算法和基于蚁群的 K-Means 算法和MapＲeduce相结合的方法，对处理后的数据进行大数据分析，并利用分析结果对用户行为进行预测。

基于Hadoop的财务大数据预处理整体生命周期如图 2 所示，在此预处理平台中，实现对数据的清洗、集成和归约，利用噪声处理、数据缺失填补以及对数据属性维度的约简来进行财务大数据的预处理过程；此方法结合 Hadoop 平台，通过增添负责预处理任务的监控和控制节点，该节点维护一个预处理的任务列表，并存储对应的预处理程序和启动规则。

作为本发明的进一步改进，预处理功能集中于存储节点上，由特定的主机承担预处理任务的控制节点，并通过该节点维护预处理系统的运行，预处理程序库的管理，由于典型的 Hadoop 系统采用计算节点和存储节点同构的部署模式，因此存储节点往往也是计算节点，因此这里提到的是逻辑结构上的存储节点；在 HDFS 上每个主机都是具有完整功能的通用主机，因此存储节点也可以完成相对复杂的任务；任务将尽量被推送到数据所在节点进行处理，这样将避免不必要的网络开销，其整体架构如图 3 所示。

Hadoop 分布式处理平台的底层利用分布式文件系统HDFS 来存储海量财务结构化数据和非结构化数据，利用 Map Ｒeduce 分布式计算框架实现对海量明细数据的高效处理。处理之后的结果存储在 HBase中，其中 HDFS 为 HBase 提供了高可靠性的底层存储支持，Map Ｒeduce 为 HBase 提供高性能的计算能力，Hive 为 HBase 提供高层语言支持。

作为本发明的进一步改进，如图 4 所示，在聚类算法中的第一个阶段选择初始聚类中心采用一个 Map Ｒeduce 过程来实现；

首先将原始的数据集合划分为若干个分片并且复制到各个执行map任务的节点中，各节点单独并行执行；Map过程主要负责将复制到本节点的数据按照canopy算法的思想以(key，value)对的形式进行处理产生若干个canopy中心，并将其作为中间输出结果作为reduce过程的输入，此时的canopy数目一定是远远小于原数据集合中对象的数目；reduce过程只设置一个reduce任务，处理方法与map过程相同，由此而得到的若干个新的canopy中心就是整个数据集合的canopy中心，即下一步聚类的初始聚类中心；第二个阶段的基于蚁群聚类中信息素思想的K-means聚类使用三个MapＲeduce过程来实现，MapＲeduce1目的是计算上次迭代产生的各个聚类中心的密度，剔除孤立点，并且计算同一聚类中中对象的信息素和能见度乘积的和；MapＲeduce2功能则是划分对象到各个聚类，更新信息素；MapＲeduce3的功能就是更新各个聚类中心。

作为本发明的进一步改进，如图5所示，大数据并行分析层采用聚类算法的分析流程如下：首先把经过大数据预处理的数据集在 Hadoop集群分析平台下进行 Canopy 聚类，在聚类过程中会出现孤立点和分离点，离群点数据的有效性的判断，通过使用小波降噪对财务数据进行滤除噪声处理，然后利用改进的 ISODATA 算法将数据进行聚类分析，再用KNN 算法对数据进行分类，利用投票的方式来筛选可疑数据，进而识别出可疑不良数据，从而对不良数据的有效识别，把不良的孤立点剔除，从而排除不良数据对财务分析带来的负面影响；此过程通过 Map/Reduce 操作实现，通过设计业务分析模型，定位此项数据分析所需输入数据，并将数据分割成若干独立的块，然后通过 mapper count 分给不同的 mapper进行处理。

随着智能电网的深入推进，业务系统及数据中心的数据迅速大量积累成为大数据，对系统的建设模式、计算速度、分析能力等多个方面均带来明显影响，同时也给数据的处理和分析带来前所未有的丰富条件。本发明基于大数据的电力企业财务数据管理系统，从数据存储、数据处理以及数据分析三个层次来描述电力企业财务数据管理系统，将传统的财务数据分析从数理统计、假设检验、统计描述及推断的层面提升到智能算法、全数据处理、并行计算、可视化展现及决策支持的层面，推进了大数据在财务数据分析研究领域的应用，为电力财务数据的高效价值挖掘及在线决策分析提供理论依据及基础技术支撑。

以上所述实例表达了本发明的优选实施例，描述内容较为详细和具体，但并不仅仅局限于本发明；特别指出的是，对于本领域的研究人员或技术人员来讲，在不脱离本发明的结构之内，系统内部的局部改进和子系统之间的改动、变换等，均属于本发明的保护范围之内。

Claims

1.一种基于大数据的电力企业财务数据管理系统，其特征在于：该系统总体架构分为五层：数据来源层，数据存储层，大数据并行处理层，大数据并行分析层及数据可视化层；

2.根据权利要求1所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：所述数据来源层的内部数据来源于四大数据中心的结构化、半结构化、非结构化数据和财务信息数据；所述数据来源层的外部数据来源于互联网、社交及移动外部数据。

3.根据权利要求1所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：所述数据存储层描述数据存储方法、数据存储格式以及数据并行化存储结构；采用NoSQL数据存储系统，以 Key-Value 数据格式、面向文档方式以及图数据方式进行分布式存储。

4.根据权利要求1所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：所述大数据并行处理层通过 Map Reduce 计算框架来构建电力大数据并行化分析服务体系，基于 Hadoop分布式处理平台，利用此平台对数据进行处理。

5.根据权利要求1所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：所述大数据并行分析层以聚类算法为基础，分成两个阶段，采用 Canopy 算法和基于蚁群的 K-Means 算法和Map Reduce相结合的方法，对处理后的数据进行大数据分析，并利用分析结果对用户行为进行预测。

6.根据权利要求3所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：NoSQL 数据存储系统具有两种架构：Master-Slave 结构和 P2P 环形结构；

Master-Slave 结构基于水平分区实现数据分布，将 master 节点和 slave 节点的功能分开，由 master 节点维护其管理的 slave节点；

7.根据权利要求4所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：所述大数据并行处理层采用基于Hadoop 和 Hive 以及 HBase 的财务数据预处理平台；

8.根据权利要求7所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：预处理功能集中于存储节点上，由特定的主机承担预处理任务的控制节点，并通过该节点维护预处理系统的运行，预处理程序库的管理；

Hadoop 分布式处理平台的底层利用分布式文件系统HDFS 来存储海量财务结构化数据和非结构化数据，利用 Map Reduce 分布式计算框架实现对海量明细数据的高效处理；

处理之后的结果存储在 HBase中，其中 HDFS 为 HBase 提供了高可靠性的底层存储支持，Map Reduce 为 HBase 提供高性能的计算能力，Hive 为 HBase 提供高层语言支持。

9.根据权利要求5所述的一种基于大数据的电力企业财务数据管理系统，其特征在于：在聚类算法中的第一个阶段选择初始聚类中心采用一个 Map Reduce 过程来实现；

首先将原始的数据集合划分为若干个分片并且复制到各个执行map任务的节点中，各节点单独并行执行；Map过程负责将复制到本节点的数据按照canopy算法的思想以(key，value)对的形式进行处理产生若干个canopy中心，并将其作为中间输出结果作为reduce过程的输入，此时的canopy数目一定是远远小于原数据集合中对象的数目；reduce过程只设置一个reduce任务，处理方法与map过程相同，由此而得到的若干个新的canopy中心就是整个数据集合的canopy中心，即下一步聚类的初始聚类中心；第二个阶段的基于蚁群聚类中信息素思想的K-means聚类使用三个Map Reduce过程来实现，Map Reduce1目的是计算上次迭代产生的各个聚类中心的密度，剔除孤立点，并且计算同一聚类中中对象的信息素和能见度乘积的和；MapReduce2功能则是划分对象到各个聚类，更新信息素；Map Reduce3的功能就是更新各个聚类中心。

10.根据权利要求9所述的一种基于大数据的电力企业财务数据管理系统，其特征在于，大数据并行分析层采用聚类算法的分析过程如下：首先把经过大数据预处理的数据集在 Hadoop集群分析平台下进行 Canopy 聚类，在聚类过程中会出现孤立点和分离点，离群点数据的有效性的判断，通过使用小波降噪对财务数据进行滤除噪声处理，然后利用改进的 ISODATA 算法将数据进行聚类分析，再用 KNN 算法对数据进行分类，利用投票的方式来筛选可疑数据，进而识别出可疑不良数据，从而对不良数据的有效识别，把不良的孤立点剔除，从而排除不良数据对财务分析带来的负面影响；此过程通过 Map/Reduce 操作实现，通过设计业务分析模型，定位此项数据分析所需输入数据，并将数据分割成若干独立的块，然后通过 mapper count 分给不同的 mapper进行处理。