CN111639121A

CN111639121A - 一种构建客户画像的大数据平台及构建方法

Info

Publication number: CN111639121A
Application number: CN202010268302.2A
Authority: CN
Inventors: 刘晓华; 李剑; 齐勇; 张黎新; 李阳; 柏青; 全龙翔; 李艳; 贾峰; 赵鑫; 常海赐
Original assignee: Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd; State Grid Xinjiang Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd; State Grid Xinjiang Electric Power Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-09-08

Abstract

本发明采用的一种构建客户画像的大数据平台，包括用以接入客户电网数据的数据接入层，依照客户电网数据的使用特点提供对应存储技术的数据存储层、针对客户电网数据提供数据处理及计算引擎的数据计算层、对客户电网数据进行统计检索分析的数据分析层以及对接所述数据接入层、数据存储层、数据计算层及数据分析层提供数据服务的数据应用层。本发明的大数据平台，从客户电网数据的角度出发，将监测数据海量小文件组合成大的序列文件，并压缩存储，可将客户电网数据的标签信息组合起来，经过巨量的逻辑运算形成客户画像。

Description

一种构建客户画像的大数据平台及构建方法

技术领域

本发明是关于一种大数据平台，更具体来说，是有关于一种构建客户画像的大数据平台及构建方法。

背景技术

近年以来，在电力行业，坚强智能电网的迅速发展使信息通信技术正以前所未有的广度，深度与电网生产、企业管理快速融合，信息通信系统已经成为智能电网的“中枢神经”，支撑新一代电网生产和管理发展。

目前电力营销客户数据种类繁多，数据信息碎片化分布于多个信息化系统中，营销业务人员需要从庞杂的业务系统中筛选有效信息，工作量大，对业务人员的业务水平要求高。此外，由于缺乏分类方法的理论指导，客户标签类别根据业务需求粗放型扩展，为后续标签模型的建立、标签计算效率、标签管理和使用带来越来越多的问题。

因此，如何建立基于大数据技术的电力客户画像，可以有效识别客户特征，洞悉客户需求，提供精准化、个性化的优质服务手段是目前业界仍待解决的问题。

发明内容

本发明第一方面提供一种构建客户画像的大数据平台，包括：数据接入层，用以接入客户电网数据，所述客户电网数据包括客户基本信息、用电行业信息、电量信息、电费信息、客户信用信息等客户电网数据；数据存储层，依照所述客户电网数据的使用特点提供对应的存储技术；数据计算层，针对所述客户电网数据提供数据处理及计算引擎，用于支持计算框架及应对业务场景，所述计算框架包括批处理计算框架、内存计算框架、流计算框架，所述业务场景包括批处理任务场景、历史数据分析场景，以及实时流数据处理场景；数据分析层，对所述客户电网数据进行统计检索分析；以及数据应用层，对接所述数据接入层、数据存储层、数据计算层及数据分析层，提供多种数据服务。

进一步的，所述客户电网数据依照自身接入数据方式的不同分为：关系型数据库数据、实时数据、文件数据以及图片数据。

进一步的，所述存储技术包括独立的分布式内存列式存储、内存/SSD缓存相结合的混合数据存储、多副本磁盘存储、与磁盘存储方式。

进一步的，所述数据服务包括数据高并发检索查询、即席查询、数据交互式统计分析、数据可视化、实时数据比对异常检测警告、实时数据基于滑动时间窗口统计分析以及数据统计挖掘。

进一步的，构建客户画像的大数据平台通过安全通信协议和角色权限管理功能，在软件层面提供通信安全和数据访问安全的双重保障，有效的对客户电网数据访问进行控制和安全管理。

进一步的，数据接入层通过分布式消息队列Kafka接入实时数据；通过ETL工具，并采用全量或定时增量中的一种方式抽取同步关系型数据库，优选的，所述ETL工具包括Sqoop、DataStage，所述抽取同步关系型数据库采用文本文件方式批量导入；自带HUE作为数据抽取管理工具，提供图形化的界面定义数据抽取规则，完成数据抽取的工作流；分布式文件系统HDFS通过FTP Over HDFS提供文件，并通过FTP传入HDFS的通道；以及通过Flume提供海量日志文件的聚汇到HDFS。

进一步的，数据存储层包括统一分布式存储HDFS以及分布式NoSQL实时数据库Hyperbase，其中统一分布式存储HDFS通过Erasure Code技术将历史冷数据降低其存储开销，分布式NoSQL实时数据库Hyperbase通过多种索引支持数据多维度的检索查询，所述多种索引包括全局索引、全文索引以及组合索引。

进一步的，数据计算层采用Inceptor内存计算分析，通过独立的分布式内存列式存储Holodesk，提供交互式分析。

进一步的，数据计算层通过内置的基于Spark计算框架的基础并行统计算法库以及机器学习算法库，进行数据挖掘。

进一步的，数据分析层提供可视化的挖掘建模设计工具RStudio，使用R语言进行交互式数据挖掘与统计分析，挖掘所述客户电网数据深度规律并建立数据模型，同时利用Mahout中的并行化机器学习算法对所述客户电网数据进行分析挖掘。

本发明第二方面提供一种基于大数据的客户画像构建方法，包括：

步骤(1)：通过一种构建客户画像的大数据平台的数据接入层获取客户电网数据，并将所述客户电网数据保存在所述大数据平台的数据存储层；所述客户电网数据包括客户基本信息、用电行业分类信息、电量信息、电费信息、客户信用信息等客户电网数据；

步骤(2)：通过所述大数据平台的数据应用层的设定的规则，从存储在所述数据存储层的所述客户电网数据中提取客户标签信息，并根据所述客户标签信息确定标签数据；

步骤(3)：通过所述大数据分析平台的数据计算层和所述数据分析层对所述标签数据进行计算和分析，形成客户画像。

进一步的，所述规则包括设潜在风险欠费客户的规则，所述大数据平台根据所述潜在风险欠费客户的规则，通过所述数据计算层和所述数据分析层对所述标签数据进行分析和计算，形成潜在风险欠费客户画像。

相较于习用技术，本发明提供一种构建客户画像的大数据平台，能够对客户画像中潜在风险欠费客户与实际发生欠费客户进行对比，以命中率、覆盖率、提升度来评估电费风险防控客户标签实施效果。针对高风险等级用户通过电子账单、催费单等渠道宣传征信等相关政策，引导交费习惯变更；根据用户特征标签(习惯交费时段、渠道偏好)采取个性化催费措施，及时预警潜在欠费人群，降低电力客户总体欠费率。为精准把握客户特征，提高营销策略和客户服务的差异化、精准度提供借鉴。

附图说明

图1是本发明提供的一种构建客户画像的大数据平台的技术架构图。

图2为本发明提供的大数据平台的数据存储层的技术架构图。

图3为本发明提供的大数据平台基于Spark的分析引擎的技术架构图。

图4为本发明提供的一种基于大数据的客户画像构建方法的流程图。

具体实施方式

以下藉由特定的具体实施例说明本发明之实施方式，熟悉此技艺之人士可由本说明书所揭示之内容轻易地了解本发明之其他优点与功效。本发明亦可藉由其他不同的具体实施例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不悖离本发明之精神下进行各种修饰与变更。

请参阅图1，图1为本发明提供的一种构建客户画像的大数据平台的技术架构图。如图1所述，本发明的大数据平台1包括数据接入层11、数据存储层12、数据计算层13、数据分析层14以及数据应用层15。数据接入层11用以接入客户电网数据，所述客户电网数据包括客户基本信息、用电行业信息、电量信息、电费信息、客户信用信息等客户电网数据。客户电网数据可依照接入数据方式的不同分为：关系型数据库数据、实时数据、文件数据以及图片数据。

面对于数据接入的需求，数据接入层11提供多种针对性的接入方式以及工具，通过分布式消息队列Kafka接入实时数据；通过ETL工具，并采用全量或定时增量中的一种方式抽取同步关系型数据库，所述ETL工具包括Sqoop、DataStage，所述抽取同步关系型数据库采用文本文件方式批量导入；自带HUE作为数据抽取管理工具，提供图形化的界面定义数据抽取规则，完成数据抽取的工作流；同时，分布式文件系统HDFS通过FTP Over HDFS提供文件，并通过FTP传入HDFS的通道；以及通过Flume提供海量日志文件的聚汇到HDFS。

数据存储层12依照所述客户电网数据的使用特点提供对应的存储技术。这些存储技术包括支持独立的分布式内存列式存储，支持内存/SSD缓存相结合的混合数据存储，支持常见的多副本磁盘存储，还支持低副本高容错的磁盘存储方式。请参阅图2，图2为本发明提供的大数据平台的数据存储层的技术架构图。在数据存储层12中，底层为统一分布式存储HDFS121，HDFS采用三份副本策略保证数据的安全性以及可靠性。然而，随着时间的推移，很少被使用到的归档历史数据会越来越多，占用大量的HDFS存储空间，HDFS通过ErasureCode技术将历史冷数据在保证数据安全可靠的基础上降低其存储开销。

在HDFS之上提供分布式NoSQL(Not Only SQL)实时数据库122，为高并发检索分析以及事务支持提供平台级支撑。通过多种索引支持海量数据多维度的秒级检索查询，包括全局索引，全文索引，组合索引等。在数据存储层12中，数据存储支持各类结构化、半结构化、非结构化海量数据的低成本存储，为超长时间的海量历史数据存储和使用提供基础支撑。并通过对于海量数据高并发低延时的检索能力，很好的支持移动互联业务场景的数据访问需求。

数据计算层13针对客户电网数据提供多种数据处理及计算引擎，并且支持多种计算框架，包括批处理计算框架、内存计算框架、流计算框架，支持企业应对各种业务场景，包括批处理任务场景、历史数据分析场景，以及实时流数据处理场景。在数据存储层12之上的数据计算层13通过YARN提供统一的资源管理调度，可以动态创建和销毁集群，灵活部署业务。采用Inceptor并且通过独立的分布式内存列式存储Holodesk，解决开源Spark的稳定性问题以及进一步提供交互式分析能力，同时为了降低平台建设成本与提高平台内存分析数据量，分布式内存存储可建在内存或者固态硬盘SSD上。

数据计算层13利用Spark高速内存迭代计算的优势，通过内置的基于Spark计算框架的基础并行统计算法库以及机器学习算法库，为大数据平台1提供高效的数据挖掘能力。同时，数据计算层13保留传统的MapReduce计算框架，完整大数据平台1对于各个计算框架的支持。此外，实时流数据通过Spark Streaming支持实时数据的低延时高吞吐的处理。通过消息队列Kafka消费实时数据流，做到数据不丢不重，基于Spark Streaming提供类似于批处理系统的计算能力、健壮性、扩展性的同时，将数据时延降低至秒级，适用于各种实时数据的复杂处理业务场景。

数据分析层14通过Inceptor对所述客户电网数据进行统计检索分析，并为所述数据应用层15提供JDBC/ODBC接口。同时为了降低大数据平台1学习与使用成本，方便传统业务迁移，Inceptor可兼容支持SQL2003标准以及PL/SQL。对于数据挖掘，数据分析层14提供可视化的挖掘建模设计工具RStudio，使用R语言进行交互式数据挖掘与统计分析，挖掘数据深度规律并建立数据模型。同时支持Mahout，利用Mahout中丰富的并行化机器学习算法对海量数据进行分析挖掘。

数据应用层15对接所述数据接入层11、数据存储层12、数据计算层13及数据分析层14，进行封装后提供多种数据服务。数据服务包括海量数据高并发检索查询、即席查询、海量数据交互式统计分析、数据可视化、实时数据比对异常检测警告、实时数据基于滑动时间窗口统计分析、海量数据统计挖掘以及大数据平台1中的数据交换。通过大数据平台1对外提供的各种服务，在其之上实现各类应用，包括管理驾驶舱、统一报表平台、数据分析、实时数据处理等。

此外，大数据平台1通过安全通信协议和角色权限管理功能，在软件层面提供通信安全和数据访问安全的双重保障，有效的对各个部门以及下级单位的数据访问进行控制和安全管理，实现数据平台4A级(认证Authentication、账号Account、授权Authorization、审计Audit)统一安全管理解决方案。通过LDAP管理用户账号，使用Kerberos进行用户身份认证，同时大数据平台1实现基于角色的访问权限控制(Role Based Access Control)，最后所有的安全访问审计内容都会记录在大数据平台1的日志中。大数据平台中，从数据的接入，如分布式消息队列Kafka的Topic权限控制，到大数据平台中的各个组件都支持安全管理，包括HDFS、YARN、Inceptor等组件。同时为了重要数据的安全考虑，HDFS提供加密存储。

请参阅图3，图3为大数据平台1基于Spark的分析引擎的技术架构图。在图3中，大数据平台1基于Spark的分析引擎的技术架构从下往上有三层架构，最下面是一个分布式内存列式存储31，可建在内存或者SSD上，中间层是Spark计算引擎层32，最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库33，提供完整的R语言访问接口。Spark是Map/Reduce计算模式的一个全新实现。Spark的创新之一是提出RDD(ResilientDistributed Dataset)的概念，所有的统计分析任务是由对RDD的若干基本操作组成。RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据，因此速度可以得到很大提升。

Spark的创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图，根据数据之间的依赖性把相邻的任务合并，从而减少了大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。从这个意义上来说，如果任务够复杂，迭代次数够多，Spark比Map/Reduce快100倍或1000倍都很容易。基于这两点创新，可在Spark基础上进行批处理、交互式分析、迭代式机器学习、流处理，因此Spark可以成为一个用途广泛的计算引擎，并在未来取代Map/Reduce的地位。同时，系统通过改进Spark使之更好的与HBase融合。系统通过结合Inceptor，可以为HBase提供完整的SQL支持，包括批量SQL统计、OLAP分析以及高并发低延时的SQL查询能力，使得HBase的应用可以从简单的在线查询应用扩展到复杂分析和在线应用结合的混合应用中，大大拓展了HBase的应用范围。

本发明的大数据平台采用Spark的分布式计算框架，支持分布式部署方式，支持Master/Slave的集群架构，系统性能随着节点数增加而线性提升，基于HBase改造的数据库支持分布式事务处理能力。

此外，大数据平台具有负载均衡设计。系统自主改进的一致性Hash算法，可以实现数据自动动态均匀分布，系统计算能力会随节点数线性扩展。数据在录入集群的时候就进行负载均衡，根据各个节点的情况来做数据平衡分发存放。但是如果在新增节点之后，如果想做到负载均衡则需要使用balancer的命令。对于这个命令，一般是有一个阀值，节点之间差额不超过10％，集群认为就是均衡的。

当然，负载的越平均，查询相对也较快，但是均衡的过程会耗时不少。同时，对索引表进行探测，如超过阈值，会对索引表重新分配。支持自动设置好阈值，实现数据自动平衡；分布式常常用Hash算法来分布数据，当数据节点不变化时是非常好的，但当数据节点有增加或减少时，由于需要调整Hash算法里的模，导致所有数据得重新按照新的模分布到各个节点中去。如果数据量庞大，这样的工作常常是很难完成的。一致性Hash算法是基于Hash算法的优化，通过一些映射规则解决以上问题。

本发明的用以构建电力客户画像的大数据平台提供了强大的在线水平扩展功能，不需要宕机停库，不需要停止业务，就可以添加新的节点，实现在线扩展。节点添加完成之后可以立即对新添加的节点进行角色的分配，一旦配置成功，则新加的节点就会马上投入运算；同时由于采取的分布式架构，因此不存在分布式协调瓶颈的问题，计算能力会随节点数线性扩展。

根据大数据平台的建设要求，大数据平台需要满足全量3PB数据的存储要求，根据数据的特点，大概30％为结构化数据，70％为非结构化数据，并以此进行估算。其中：

1)结构化数据的数据量为：

3PB*30％＝0.9PB＝922TB(结构化数据全部进入数据仓库)

对于结构化数据存储容量要求为：

922TB*(3+1+0.5)/3*1.3＝1798TB

注：对结构化数据，采用3倍副本冗余存储，1倍中间结果余留，0.5倍索引存储空间，3倍数据压缩，0.3倍空间余留。

2)非结构化数据的数据量为：

3PB*70％＝2.1PB＝2151TB

对于非结构化数据存储要求为：

2151TB*3＝6453TB

非结构化数据采用3倍副本冗余存储。

3)全量数据存储容量要求为：

1798TB(结构化数据)+6453TB(非结构化数据)＝8251TB

DataNode单节点存储容量推荐配置为：4TB*12＝48TB

基础Hadoop平台DataNode节点数为：8251TB/48TB＝172节点。

因此，DataNode服务器推荐配置为：

另外对于此次搭建的大规模Hadoop集群，需要单独规划Zookeeper 9个节点，NameNode 2个节点，Resource Manager 2个节点，HMaster 5个节点，总共9+2+2+5＝18个节点。综上所述，基础Hadoop平台节点规模如下：

针对NameNode，Zookeeper，Resource Manager，HMaster等角色的功能和性能要求，服务器建议采用如下配置：

根据此次大数据平台的建设要求，大数据平台需要满足全量3PB数据的存储要求，根据数据的特点，大概30％为结构化数据，70％为非结构化数据，并以此进行估算。其中结构化数据922TB*(3+1+0.5)/3*1.3＝1798TB(结构化数据全部进入数据仓库)。

DataNode单节点存储容量推荐配置为：2TB*12＝24TB

基础Hadoop平台DataNode节点数为：1798TB/24TB＝75节点。

因此，DataNode服务器推荐配置为：

另外：对于此次搭建的大规模Hadoop集群，需要单独规划Zookeeper7个节点，NameNode2个节点，Resource Manager2个节点，HMaster5个节点，总共7+2+2+5＝16个节点。综上所述，基础Hadoop平台节点规模如下：

集群规模综述

开发集群配置建议

测试集群配置建议

综上所述，本发明提供一种用以构建电力客户画像的大数据平台，其技术设计原则体现如下几方面：

标准规范性：建立标准的ETL开发流程，制定符合大数据平台的代码标准化统一规范，设计应对有高效数据处理要求及日常低能耗操作的兼容性数据模型，建设符合大数据平台远景目标利益的技术管理体系。

开放性：系统建设遵循开放原则，适应未来业务和技术发展，与现有系统进行有序的数据交互。数据模型的设计尽量接口化，关系与抽象并存。应对新出现的业务种类，同时能够兼容与现有系统进行数据交互，完成输入与输出系统的角色。ETL程序处理逻辑规则模块化，应对日益更新的技术发展及业务变更。

可扩展性：设计基础数据层和数据预处理层模型时应充分考虑，除了能够容纳现有源系统的结构设计，还应该尽可能满足即将要上线的业务系统数据模型，同时还需要制定一套合理的模型设计规范，使得新上线的业务系统数据模型能很方便地扩展到数据平台。在设计时应考虑，随着分发数据规模的扩大和推送节点的增多，对交换处理和传输处理的性能要求会越来越高，必须支持集群的方式进行扩展。此外，数据交换平台还必须提供二次开发接口，支持SOA服务模式，可以进行应用级的扩展。

高性能：系统尽可能的支持尽量多的数据服务需求，还能承受用户峰值时间段压力，使得数据平台能够满足分行范围内的使用者。在进行ETL设计时，需要考虑大数据量条件下的处理效率，确保在规定的时间窗口内完成ETL处理，特别是一些特殊日期的ETL处理，例如结息日、月底等。需要考虑在大数据量条件下的文件传输效率，主要也是体现在一些特殊日期条件下的文件传输，以及特殊情况下的全量文件传输。

可管理性：在实际运行过程中，系统能很方便地对系统的运行状态进行监控，查看数据质量情况；出现系统异常时，能及时收到消息通知，并有一套完善的流程来处理数据或系统方面的异常等等。

高可用性：系统在一些特殊情况发生时，依靠架构的有效设计，仍然能保证正常运行。模型的设计应能屏蔽证券业务源系统结构的变化对数据平台集成平台和将在其上建设的分析应用系统带来影响。局部数据模型的扩展不会对其它数据模型产生大的影响。充分考虑各源系统的时间窗口可能存在不一致的情况，避免出现一个系统的数据时间窗口没有满足条件，影响到其它所有系统的ETL处理。当系统出现异常时，系统应具备相应的备份恢复机制，确保系统能及时恢复处理。

安全性：系统在进行总体设计的时候充分考虑数据传输过程中的安全性，对敏感数据进行了加密操作。在程序中对数据进行过滤，用户无法涉及其权限范围以外的数据，以确保数据范围的安全。

请参阅图4，图4为本发明一种基于大数据的客户画像构建方法的流程图，包括：步骤(1)通过一种构建客户画像的大数据平台的数据接入层获取客户电网数据，并将所述客户电网数据保存在所述大数据平台的数据存储层；所述客户电网数据包括客户基本信息、用电行业信息、电量信息、电费信息、客户信用信息等客户电网数据；步骤(2)通过所述大数据平台的数据应用层设定的规则，从存储在所述数据存储层的所述客户电网数据中提取客户标签信息，并根据所述客户标签信息确定标签数据；步骤(3)通过所述大数据平台的数据计算层和所述数据分析层对所述标签数据进行计算和分析，形成客户画像。

本发明提供一种可选的实施例，以构建形成潜在风险欠费客户画像为例进行简单示意。其中，针对不同的客户标签信息具有不同设定的规则，设定的规则可以根据具体的客户标签信息确定，当客户标签信息改变时，只需要修改设定的规则，就能快速自动地实现目标对象新画像的构建。根据欠费风险的类型，不同的实施例具体如下：

(一)构建大额欠费高风险客户画像

步骤(1)：通过一种构建客户画像的大数据平台的数据接入层获取客户电网数据，并将所述客户电网数据保存在所述大数据平台的数据存储层；所述客户电网数据包括客户基本信息、用电行业分类信息、电量信息、电费信息、客户信用信息、电价码信息、立户时间和缴费方式等；

步骤(2)：通过大数据平台的数据应用层设定的规则，从存储在所述数据存储层的所述客户电网数据中提取客户标签信息，所述客户标签信息包括高耗能客户、其他三高客户(高污染、高耗水工业企业)、新增缴纳承兑汇票客户等，并根据所述客户标签信息确定对应的标签数据；

步骤(2)中所述高耗能客户设定的规则为从数据存储层中获取电价码信息和用电行业分类信息；所述其他三高客户(高污染、高耗水工业企业)设定的规则为从数据存储层中获取用电行业分类信息；所述新增缴纳承兑汇票客户设定的规则为从数据存储层中获取客户半年内的缴费信息；

步骤(3)：通过所述大数据平台的数据计算层和所述数据分析层对所述对应的标签数据进行计算和分析，并据此标识出高能耗客户、其他三高客户(高污染、高耗水工业企业)、半年内原来未缴纳承兑汇票，而本月开始缴纳大额汇票的客户(即新增缴纳承兑汇票客户)，进而形成大额欠费高风险客户画像。

(二)构建大额欠费中风险客户画像

步骤(2)：通过大数据平台的数据应用层设定的规则，从存储在所述数据存储层的所述客户电网数据中提取客户标签信息，所述客户标签信息包括习惯以承兑汇票方式缴纳电费的客户、当年新增高压而未实现付费购电的客户，并根据所述客户标签信息确定对应的标签数据；

步骤(2)中所述习惯以承兑汇票方式缴纳电费的客户设定的规则为从数据存储中获取客户半年内的缴费信息；所述当年新增高压而未实现付费购电的客户设定的规则为从数据存储层中获取客户的立户时间和缴费方式。

步骤(3)：通过所述大数据平台的数据计算层和所述数据分析层对所述对应的标签数据进行计算和分析，并据此标识出习惯以承兑汇票方式缴纳电费的客户、当年新增高压而未实现付费购电的客户，进而形成大额欠费中风险客户画像。

(三)构建小额欠费高风险客户画像

步骤(2)：通过所述大数据平台的数据应用层设定的规则，从存储在所述数据存储层的所述客户电网数据中提取客户标签信息，所述客户标签信息包括卡表欠费的客户、习惯性欠费的客户，并根据所述客户标签信息确定对应的标签数据；

步骤(2)中所述卡表欠费的客户的设定的规则为从数据存储中获取低压卡表客户信息和欠费信息；所述习惯性欠费客户的设定的规则为从数据存储层中获取低压非卡表客户信息和欠费信息。

步骤(3)：通过所述大数据平台的数据计算层和所述数据分析层对所述对应的标签数据进行计算和分析，并据此标识出卡表欠费的客户、半年内有2次欠费的客户(即习惯性欠费的客户)，进而形成小额欠费高风险客户画像。

(四)构建迟交风险客户画像

步骤(2)：通过所述大数据平台的数据应用层设定的规则，从存储在所述数据存储层的所述客户电网数据中提取客户标签信息，所述客户标签信息包括因收费方式迟交的客户，并根据所述客户标签信息确定对应的标签数据；

步骤(2)中所述因收费方式迟交的客户的设定的规则为从数据存储中获取用户的缴费信息，包括半年内有三个月在月末最后一天采用POS机、电e宝、支付宝、第三方代收、自助终端方式的缴费的客户；

步骤(3)：通过所述大数据平台的数据计算层和所述数据分析层对所述对应的标签数据进行计算和分析，并据此标识出因收费方式迟交的客户，进而形成迟交风险客户画像。

上述实施方式仅为例示性说明本发明之原理及其功效，而非用于限制本发明。任何熟习此项技艺之人士均可在不违背本发明之精神及范畴下，对上述实施例进行修饰与变化。因此，本发明之权利保护范围，应如后述之权利要求所列。

Claims

1.一种构建客户画像的大数据平台，其特征在于，所述大数据平台包括：

数据接入层，用以接入客户电网数据，所述客户电网数据包括客户基本信息、用电行业信息、电量信息、电费信息、客户信用信息；

数据存储层，依照所述客户电网数据的使用特点提供对应的存储技术；

数据计算层，针对所述客户电网数据提供数据处理及计算引擎，用于支持计算框架及应对业务场景；所述计算框架包括批处理计算框架、内存计算框架、流计算框架；所述业务场景包括批处理任务场景、历史数据分析场景、实时流数据处理场景；

数据分析层，对所述客户电网数据进行统计检索分析；以及

数据应用层，对接所述数据接入层、数据存储层、数据计算层及数据分析层，提供数据服务。

2.根据权利要求1所述的大数据平台，其特征在于，所述客户电网数据依照接入方式的不同分为：关系型数据库数据、实时数据、文件数据以及图片数据。

3.根据权利要求1所述的大数据平台，其特征在于，所述存储技术包括独立的分布式内存列式存储、内存/SSD缓存相结合的混合数据存储、多副本磁盘存储、与磁盘存储。

4.根据权利要求1所述的大数据平台，其特征在于，所述数据服务包括：数据高并发检索查询、即席查询、数据交互式统计分析、数据可视化、实时数据比对异常检测警告、实时数据基于滑动时间窗口统计分析以及数据统计挖掘。

5.根据权利要求1所述的大数据平台，其特征在于，所述数据接入层

通过分布式消息队列Kafka接入实时数据；

通过ETL工具，并采用全量或定时增量中的一种方式抽取同步关系型数据库，所述ETL工具包括Sqoop、DataStage，所述抽取同步关系型数据库采用文本文件方式批量导入；

自带HUE作为数据抽取管理工具，提供图形化的界面定义数据抽取规则，完成数据抽取的工作流；

分布式文件系统HDFS通过FTP Over HDFS提供文件，并通过FTP传入HDFS的通道；以及

通过Flume提供海量日志文件的聚汇到HDFS。

6.根据权利要求1所述的大数据平台，其特征在于，所述数据存储层包括统一分布式存储HDFS以及分布式NoSQL实时数据库Hyperbase，其中所述统一分布式存储HDFS通过Erasure Code方式降低历史冷数据的存储开销，所述分布式NoSQL实时数据库Hyperbase通过索引方式支持数据多维度的检索查询，所述索引方式包括全局索引、全文索引以及组合索引。

7.根据权利要求1所述的大数据平台，其特征在于，所述数据计算层采用Inceptor内存计算分析，通过独立的分布式内存列式存储Holodesk，提供交互式分析；并通过内置的基于Spark计算框架并行统计算法库以及机器学习算法库，进行数据挖掘。

8.根据权利要求1所述的大数据平台，其特征在于，所述数据分析层提供可视化的挖掘建模设计工具RStudio，使用R语言进行交互式数据挖掘与统计分析，挖掘所述客户电网数据的规律并建立数据模型，同时利用Mahout中的并行化机器学习算法对所述客户电网数据进行分析挖掘。

9.一种基于大数据的客户画像构建方法，其特征在于，包括：

通过一种构建客户画像的大数据平台的数据接入层获取客户电网数据，并将所述客户电网数据保存在所述大数据平台的数据存储层；所述客户电网数据包括客户基本信息、用电行业分类信息、电量信息、电费信息、客户信用信息；

通过所述大数据平台的数据应用层的设定的规则，从存储在所述数据存储层的所述客户电网数据中提取客户标签信息，并根据所述客户标签信息确定标签数据；

通过所述大数据平台的数据计算层和所述数据分析层对所述标签数据进行计算和分析，形成客户画像。

10.根据权利要求9所述的方法，其特征在于，

所述规则包括设潜在风险欠费客户的规则，所述大数据平台根据所述潜在风险欠费客户的规则，通过所述数据计算层和所述数据分析层对所述标签数据进行分析和计算，形成潜在风险欠费客户画像。