CN111640040A - 基于客户画像技术的供电客户价值评价方法及大数据平台 - Google Patents

基于客户画像技术的供电客户价值评价方法及大数据平台 Download PDF

Info

Publication number
CN111640040A
CN111640040A CN202010268303.7A CN202010268303A CN111640040A CN 111640040 A CN111640040 A CN 111640040A CN 202010268303 A CN202010268303 A CN 202010268303A CN 111640040 A CN111640040 A CN 111640040A
Authority
CN
China
Prior art keywords
data
platform
customer
distributed
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010268303.7A
Other languages
English (en)
Inventor
刘晓华
郭爱民
李允昭
宋新德
张黎新
柏青
李阳
倪凯峰
张超
马磊
贾峰
赵鑫
常海赐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd
State Grid Xinjiang Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd
State Grid Xinjiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd, State Grid Xinjiang Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd
Priority to CN202010268303.7A priority Critical patent/CN111640040A/zh
Publication of CN111640040A publication Critical patent/CN111640040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于客户画像技术的供电客户价值评价方法,通过分析用电客户服务系统等信息化系统中的企业内部数据以及互联网交易平台等外部数据,提取用户特征并制定基于业务需求的电力客户标签集合以进行客户价值评价。所述方法包括进行数据采集步骤以及对所述数据进行分析挖掘。所述数据采集步骤包括从各业务系统及外部环境采集数据,并进行清洗、转换及加工,所述数据包括用户台账、用电数据、缴费信息、GIS数据等企业内部数据以及互联网交易平台等外部数据,通过对所述数据进行分析挖掘以便由所述数据提取客户特征并制定基于业务需求的电力客户标签集合。

Description

基于客户画像技术的供电客户价值评价方法及大数据平台
技术领域
本发明是关于一种供电客户价值评价方法,更具体来说,基于客户画像技术的供电客户价值评价方法及大数据平台。
背景技术
近年电力体制改革的进行和售电侧的放开,对电力企业的客户服务提出了新要求,如何充分利用各类电力客户数据,洞察客户需求并据此制定精准营销策略和提供差异化服务,成为了供电企业提升客户体验、拓展市场份额的关键,而客户画像是实现客户隐性特征显性化,辅助深入洞察客户需求的有效技术手段。
目前电力营销客户数据种类繁多,数据信息碎片化分布于多个信息化系统中,营销业务人员需要从庞杂的业务系统中筛选有效信息,工作量大,对业务人员的业务水平要求高;并且由于缺乏分类方法的理论指导,客户标签类别根据业务需求粗放型扩展,为后续标签模型的建立、标签计算效率、标签管理和使用带来越来越多的问题。
因此,如何利用客户画像技术,制定基于业务需求的电力客户标签集合,藉此洞悉客户需求,提供精准化、个性化的优质服务手段,是目前业界待克服的课题。
发明内容
为解决现有技术的不足,本发明提供一种基于客户画像技术的供电客户价值评价方法,包括以下步骤:进行数据采集步骤,从各业务系统及外部环境采集数据,并进行清洗、转换及加工;所述数据包括企业内部数据以及企业外部数据;所述企业内部数据包括用户台账、用电数据、缴费信息、GIS数据等,所述企业外部数据包括由互联网交易平台取得的外部数据。以及对所述数据进行分析挖掘,以便由所述数据提取客户特征,并制定基于业务需求的电力客户标签集合。最后根据所述电力客户标签集合进行客户价值评价。
进一步的,所述各业务系统包括分析用电信息采集系统、营销业务应用系统、客户服务系统。
本发明提供一种用于所述方法的大数据平台,基于客户画像技术提取用户特征并制定基于业务需求的电力客户标签集合,所述大数据平台包括:数据仓库,采用Hadoop/HBase架构建构而成;数据采集加工平台,从各业务系统及外部环境采集数据,经清洗、排重及加工后,将所述数据批量加载到所述数据仓库,所述数据包括企业内部数据和企业外部数据;以及数据分析挖掘平台,包含并行化算法模型库及数据分析挖掘工具,结合电网营销业务并且提供多个核心算法模型以进行数据的挖掘分析,以提取用户特征并制定基于业务需求的电力客户标签集合。
进一步的,所述各业务系统包括分析用电信息采集系统、营销业务应用系统、客户服务系统,且所述企业内部数据包括用户台账、用电数据、缴费信息、GIS数据,所述企业外部数据包括互联网平台取得的外部数据。
进一步的,由所述数据提取用户特征,并制定基于业务需求的电力客户标签集合。
此外,本发明提供一种大数据平台的硬件架构,包括:分布式数据存储模块,用以存储数据,所述数据包括半结构数据、非结构数据、结构化数据及全文索引数据,所述半结构数据或非结构数据包括Office文件、XML数据、Email数据、凭证单据扫描件、视频图像及Web网页,所述结构化数据包括从现有业务系统数据库采集的数据、整合加工后的多主题关联的数据集及面向应用的数据集市;分布式计算处理模块,用以对所述数据进行数据加工,数据清洗,对多计算框架管理,并行计算及并发处理,PL/SQL存储,全文检索,结构化数据、半结构化及非结构化数据联合查询,预定义维度数据查询,以及简单查询、组合查询及模糊查询;数据集成及管控模块,用以进行数据采集、数据交换以及数据管理;以及身份认证和访问控制组件,提供为访问的企业门户、经营分析等应用的用户统一提供身份认证和鉴权访问控制服务。
相较于现有技术,本发明提供的基于客户画像技术的供电客户价值评价方法通过进行数据采集与数据挖掘分析,提取客户特征并制定基于业务需求的电力客户标签集合,藉此洞悉客户需求,提供精准化、个性化的优质服务手段,并据此制定精准营销策略和提供差异化服务。
附图说明
图1为本发明基于客户画像技术的供电客户价值评价方法的流程图。
图2为适用本发明的基于客户画像技术的供电客户价值评价方法的大数据平台示意图。
图3为本发明的大数据平台的部分技术框架示意图。
图4为本发明的大数据平台的逻辑结构示意图。
图5为本发明的大数据平台的硬件架构示意图。
具体实施方式
以下藉由特定的具体实施例说明本发明的实施方式,熟悉此技艺的人士可由本说明书所揭示的内容轻易地了解本发明的其他优点与功效。本发明亦可藉由其他不同的具体实施例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。
本发明的基于客户画像技术的供电客户价值评价方法主要包括数据采集、数据分析挖掘以及客户价值评价。如图1所示,先从各业务系统及外部环境采集数据,并进行清洗、排重及加工,再对所述数据进行分析挖掘,以便由所述数据提取客户特征并制定基于业务需求的电力客户标签集合,最后根据所述电力客户标签集合进行客户价值评价。所述数据包括用户台账、用电数据、缴费信息、GIS数据等企业内部数据以及互联网交易平台等外部数据。所述各业务系统包括分析用电信息采集系统、营销业务应用系统、客户服务系统。
请参阅图2,图2为适用本发明的基于客户画像技术的供电客户价值评价方法的大数据平台示意图。大数据平台1包括:
(一)数据仓库11;
(二)数据采集加工平台12,供大数据平台1从各业务系统及外部环境抓取、采集、清洗、排重、加工、整合数据;
(三)数据管控平台13,为大数据平台1提供元数据管理、主数据管理、数据质量管理、数据标准管理、数据安全管理等服务;
(四)企业级数据分析平台14,主要用于经营分析和决策支持;
(五)数据可视化展现平台15,包括:图表展示、移动展示、地图展示、大屏展示、可视化交互查询、管理驾驶舱等;
(六)数据分析与挖掘平台16,包括:并行化算法模型库、数据分析挖掘工具等。
更具体言之,大数据平台1中的数据仓库11是采用Hadoop/HBase架构建构而成。数据采集加工平台12是从各业务系统及外部环境采集数据,经清洗、排重及加工后,将数据批量加载到所述数据仓库11,其中所述各业务系统包括用电信息采集系统、营销业务应用系统、客户服务系统,且所述数据包括用户台账、用电数据、缴费信息、GIS数据等企业内部数据以及互联网交易平台等外部数据。数据分析挖掘平台16包含并行化算法模型库及数据分析挖掘工具,结合电网营销业务并且提供多个核心算法模型以进行数据的挖掘分析,以提取用户特征并制定基于业务需求的电力客户标签集合,最后根据电力客户标签集合进行客户价值评价。
本发明中的大数据平台1的技术框架自下而上可包含六层:
硬件设备层:部署于公司数据中心机房的服务器设备、网络设备、存储设备、负载均衡器、VPN/防火墙等硬件设备;
虚拟化资源层21:基于分布式容器集群管理系统构建的服务器虚拟化资源池,可为各类应用、分布式计算和存储服务组件提供容器资源分配及调度管理、应用打包部署及运行、服务注册和发现、动态扩缩、均衡容灾等资源管理服务。虚拟化资源层21采用互联网全新的基于容器技术的分布式应用管理模式,系统具备完善的集群管理能力,包括多层次的安全防护和准入机制、多租户应用支撑能力、透明的服务注册和服务发现机制、内建负载均衡器、故障发现和自我修复能力、服务滚动升级和在线扩容、可扩展的资源自动调度机制、多粒度的资源配额管理能力;
应用支撑平台22:为大数据分析应用的开发、测试和运行提供支撑,主要包括:报表和分析工具、并行化算法模型库、ESB服务总线和ETL数据集成平台、身份认证和访问控制组件、J2EE应用服务平台和Spring框架、全文检索组件等。大数据分布式计算和存储服务平台23,主要包括:实时流处理引擎、SQL引擎、联合查询引擎、分布式文件系统、分布式列存储数据库、并行化R算法执行引擎、全文检索引擎、分布式批处理计算引擎(Hadoop/Spark/MapReduce)以及任务调度与监控等组件。其中,全文检索引擎支持智能索引技术,相对于普通索引技术,智能索引技术基于代价的执行优化,准确率高,性能更好,能满足各类复杂场景需求,包括基于条件的多表关联即席查询与统计,可以满足高速的OLAP数据分析应用需求。
应用服务层24:基于应用支撑平台22及大数据分布式计算和存储服务平台23,定制开发各类应用服务,主要包括:运营管理、数据管理、内容管理和决策支持等应用。
通信网络层:外部用户可通过Internet互联网(含移动互联网)接入访问已授权的相关应用服务;公司内部人员可通过公司综合网接入访问内网应用服务。
终端接入层:系统用户可通过PCWeb浏览器、移动终端(智能手机、平板电脑等)访问相关的应用服务。平台支持电子邮件、手机APP、微信和短信等交互。
请参阅图3,图3为大数据平台1的部分技术框架2的示意图。此外,图3还包含:大数据管理标准规范制订、统一安全运维管理系统集成及相关管理规范制订等。
本发明中的大数据平台1的逻辑结构3,如图4所示。基于Hadoop构建的企业级数据仓库11,包含分布式数据库111和分布式文件系统(HDFS)112。通过数据集成及ETL平台12,采集公司现有业务系统数据,经清洗、转换、加工后将数据批量加载到数据仓库11。通过分布式消息队列(Kafka)320和流处理引擎(Spark Streaming)321,可实时采集处理流数据(如:实时事件流数据等);流处理引擎321可通过SQL接口将流数据实时加载至分布式内存数据库中。通过互联网数据采集软件33可采集互联网数据(网站、SNS等),并经加工处理后导入数据仓库11。本平台1还支持在线填报、报表文件上传等数据采集方式。
结构化数据导入数据仓库11后,可通过批处理引擎322进行数据关联操作和汇总加工处理;半/非结构化数据导入数据仓库11后,可通过全文检索引擎(Elastic Search)323快速创建全文索引。
大数据平台1为数据分析与挖掘平台16,提供可视化的数仓建模管理工具34、数据分析挖掘工具35、并行化R算法模型库36及分布式计算引擎。大数据平台1还为数据可视化展现平台15,提供分析报表和仪表盘、OLAP多维查询、iGIS地图等可视化数据展现组件37。大数据平台为上层的各类应用提供数据访问接口服务,包括:SQL引擎(Inceptor SQL)324、联合查询引擎(Inceptor StarGate,支持结构化数据和非结构数据联合查询)325、全文检索引擎(Elastic Search)323。本平台1还支持分布式内存OLAP Cube38功能,多维分析应用可通过SQL引擎324快速访问OLAP Cube数据集。
基于支撑平台开发的应用系统采用面向服务架构(SOA)设计。采用J2EE/Spring、Apache CXF框架,实现内置的服务注册功能,能够将已有的外部Web Service进行注册、调用。ESB服务总线平台39,可通过JDBC/ODBC接口与SQL引擎324对接,将分布式数据库查询访问封装为Web Services,供相关应用系统调用;ESB服务总线平台39,可通过HTTP/JSON接口与联合查询引擎325对接,将非结构化数据和结构化数据联合查询访问封装为WebServices,供相关应用系统调用;基于ESB服务总线平台39,可将报表/分析平台生成的分析挖掘结果封装为RESTful服务,供相关应用系统调用。同时,可应用ESB服务总线平台39实现与公司主数据管理系统、元数据管理系统、统一运维管理平台之间的实时数据交换。
本发明中的大数据平台1,其硬件架构主要是由大数据分布式计算和存储服务、分布式容器集群管理、数据采集交换、数据管控、应用支撑平台及定制开发的应用服务等组件组成。如图5所示,硬件架构4主要包括:
(一)分布式数据存储模块,包括:
1.分布式文件系统(HDFS)112
存储半/非结构数据,包括Office文件、XML数据、Email数据、凭证单据扫描件、视频图像、Web网页等数据。有关文件属性数据主要是存于分布式数据库中;对文本数据生成的索引数据主要是存于全文索引库(ElasticSearch)中。应用系统可通过JAVA API访问分布式文件系统(HDFS)112,也可通过FUSE挂载分布式文件系统(HDFS)112,将分布式文件系统(HDFS)112映射为远程盘访问使用。系统分布式存储采用了独立的分布式数据访问层,后端分布式数据库集群对前端应用透明。相对于其他系统具有以下优点:
·集成了缓存集群,减少对后端数据库的访问,提高数据的查询效率。
·同时支持垂直及水平两种扩展方式。
·基于全局唯一性主键范围的切分方式,减轻了后续维护的工作量。
2.分布式列式存储数据库111:
存储结构化数据,包括从现有业务系统数据库采集的数据、整合加工后的多主题关联的数据集及面向应用的数据集市等。应用系统可通过SQL引擎(InceptorSQL)324、基于JDBC/ODBC标准接口访问。
3.分布式内存/OLAPCube 38
可将数据集市及OLAPCube数据加载到分布式内存节点,为即时查询、多维统计分析等应用提供快速访问服务。应用系统可通过SQL引擎(InceptorSQL)324、基于JDBC/ODBC标准接口访问分布式内存/OLAPCube 38。
4.分布式全文检索库(ElasticSearch)414
存储ES索引引擎生成的全文索引数据,并为全文检索查询应用提供HTTP/JSON、JAVA API访问接口。
(二)分布式计算处理模块,包括:
1.HadoopMapReduce框架和Spark内存计算引擎421
HadoopMR为分布式批处理计算提供了JAVA API框架;Spark引擎充分利用内存计算技术实现快速分布式处理,支持Java、Scala、Python等语言。
2.SQL引擎(InceptorSQL)324
基于Spark实现的高性能、高兼容性(SQL99、SQL2003标准)的SQL引擎,为应用系统提供JDBC/ODBC标准接口访问分布式内存数据库。SQL引擎支持PL/SQL,方便开发人员实现多表关联、汇总处理等应用。
3.流处理引擎(SparkStreaming)321
基于SparkStreaming实现的流处理引擎,可与分布式消息系统Kafka对接,实时接收处理流数据;可通过JMSAPI接口与公司ESB平台对接,实时接收处理业务数据流;可将实时检测出异常事件信息向ESB平台发送。流处理引擎321可通过SQL引擎324将流数据实时导入至分布式内存数据库中。流处理引擎运行中所用到的业务参考数据、规则数据等可放在分布式内存数据库中,从而大大减少了访问数据库的时间消耗。
4.联合查询引擎(InceptorStargate)325
联合查询引擎为应用系统提供非结构化数据和结构化数据联合查询服务。应用系统与联合查询引擎之间通过HTTP/JSON接口交互查询请求和响应信息。联合查询引擎支持通过JDBC/ODBC接口访问数据库(Oracle、MySQL等);支持通过InceptorSQL引擎访问分布式数据库、分布式内存/OLAPCube;支持通过JavaAPI接口访问分布式文件系统HDFS;支持通过HTTP接口访问JSON、XML数据。
5.并行化R算法引擎425
基于SparkR实现的并行化R算法引擎,目前已支持近60种并行化R算法。开发人员可通过可视化编程环境将应用包加载到算法引擎执行。并行化R算法引擎,可通过JDBC接口及SQL引擎向提取所需数据,并将分析结果存入。并行化R算法引擎也可直接读取HDFS上的文件数据。
6.分布式检索引擎(ElasticSearch)426
可从HDFS提取文本数据并创建全文索引库。全文索引库数据可存于分布式文件系统HDFS。ElasticSearch为全文检索查询应用提供HTTP/JSON访问接口。
总体来说,平台分布式计算处理引擎有如下几方面的特点:支持数据加工功能,提供数据加工规则管理,支持不同形态数据加工管理;支持数据清洗功能,包括数据清洗环节管理、数据清洗规则管理、数据清洗监控、数据清洗预览、应用主数据进行清洗管理等功能。支持对多计算框架管理,计算框架包括批处理计算框架、内存计算框架、流计算框架等。支持并行计算及并发处理功能,支持多服务器、多CPU、多进程并行及并发处理数据的机制。支持PL/SQL存储过程、分布式事务及ACID属性及自定义函数功能。能够实现OLAP查询功能,需要内置OLAP函数,支持超大数据立方,支持雪花、星型等复杂模型。支持CUBE,支持国际SQL92、SQL2003标准,能够实现数据字典、动态SQL执行、视图、子查询、JOIN查询功能。支持全文检索。支持中文字符集,实现中文分词功能,支持结构化数据和半/非结构化数据联合查询,支持预定义维度数据查询,支持简单查询、组合查询、模糊查询等。
(三)数据集成及管控模块,包括:
1.数据集成及ETL平台12
提供数据抽取、转换和加载功能。平台可通过SQL/JDBC/ODBC接口、批量导出脚本、Sqoop并行化抽取等方式,从现有业务系统数据库(Oracle)、数仓中批量导出数据并经转换处理后,加载到或HDFS中。网络爬虫所抓取的网页数据也可通过ETL平台加载到HDFS或中。
2.数据管控平台432
提供元数据管理、主数据管理、数据质量管理、数据标准管理、数据安全管理等功能。可通过ETL平台的元数据采集引擎,统一采集处理分布式文件系统HDFS、分布式数据库、ETL处理流程及规则、现有业务系统数据库以及Oracle数据库的元数据,并统一存于数据管控平台的数据库中,建立源库表-->接口表-->ETL处理过程-->目标库表的元数据关联关系,从而为后续的数据标准管理、主数据管理、数据质量管理、数据安全管理奠坚基础。本项目涉及与公司现有的元数据管理、主数据管理系统对接交换数据,可采用ESB平台及消息传输中间件,基于JMS接口与现有系统实时交换元数据、主数据变更记录。
3.ESB服务总线平台39
ESB服务总线平台39提供消息队列(消息存储转发、消息路由)、消息订阅和发布、WebService服务编排及组合调用、服务监控等功能。基于ESB服务总线平台39及JMS消息接口,可实现大数据平台系统与现有业务系统之间的实时数据交换(包括:运维管理数据、元数据/主数据等),并可将大数据平台分析挖掘的结果数据集实时推送到应用服务系统。ESB服务总线平台39支持JDBC/ODBC、HTTP/JSON接口,可与大数据平台的SQL引擎、联合查询引擎对接,从而可将数据库查询、非结构化和结构化数据的联合查询功能封装为WebService服务,供相关应用系统调用。基于应用支撑平台开发的图表展现、多维分析等应用,可封装为轻量级的RESTful/HTTP服务,并注册于ESB服务总线平台39上,可供相关应用系统调用。
平台持不同频度、不同形态的数据采集。采集方式包含网上数据填报、流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结构化数据、半结构化数据、非结构化数据。数据交换方面,平台支持各类数据格式、各类传输频次的数据导入导出。数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。数据格式主要包含文本文件,XML等多种方式,传输频次包含非实时、准实时、实时形式。同时支持数据源管理功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。
(四)经营分析等应用及可视化展现组件37
基于J2EE平台和可视化展现组件(即时查询、报表和仪表盘、OLAP多维分析、地图展现等组件)定制开发的经营分析和决策支持应用服务系统,可通过SQL引擎及JDBC/ODBC接口访问分布式数据库、分布式内存/OLAPCube。应用系统可通过联合查询引擎及HTTP/JSON接口实现非结构化数据(如存于HDFS中的文本数据、XML数据)和结构化数据(包括:Oracle、MySQL、Teradata、等数据库数据)的联合查询。应用系统还可通过HTTP/JSON接口对接全文检索引擎,实现全文检索查询。
经营分析等应用及可视化展现组件支持多数据来源输入输出;支持表格、图形、地图等可视化元素展示,对电子地图、GPS定位的应用、服务提供支持。支持数据互动、过滤、钻取、刷取、关联、变换等功能。支持多维度多种类的自定义。支持数据脱敏的展示。支持多种展示端的展示,包括PC端、移动端、大屏等。其中移动端应基于集团移动应用平台架构建设。
基于面向服务架构(SOA)设计思想,将定制开发的经营分析和决策支持应用及分析挖掘结果数据集查询功能封装为轻量级的Web Service服务,注册发布于ESB平台,可供相关应用系统调用。
(五)身份认证和访问控制组件(IM/AM)45
IM/AM组件45是为访问企业门户、经营分析等应用的用户统一提供身份认证和鉴权访问控制服务。用户证书、授权信息可存于关系数据库(Oracle或MySQL)或轻量级的LDAP目录库中。可通过专有接口或ESB平台的JMS接口,与公司CA中心交换用户证书信息。IM/AM组件45还提供SSO Agent插件,可实现对多种应用系统、管理系统的SSO单点登录集成。
(六)分布式容器集群管理系统21
基于分布式容器集群管理系统构建的服务器虚拟化资源池,可为大数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资源调配管理、应用打包部署及SLA管理、作业调度管理以及统一运维监控管理。系统配置管理信息以及系统运行监控记录是存于本地的关系数据库中,可对外提供SNMP协议接口、ESB平台的JMS消息接口,以实现与公司运维管理平台交换运维监控信息。
平台对外提供各种开发接口,包括完全兼容Hadoop生态圈开源各个组件API接口,REST访问接口包括Web HDFS以及StarGate/REST接口;同时通过支持SQL2003标准以及PL/SQL,提供JDBC/ODBC接口,能够使传统业务场景向大数据平台上进行平滑迁移;此外,大数据平台为数据挖掘提供JavaAPI以及R语言接口。通过接口,用户可以直接使用R语言与SQL进行交互式数据挖掘探索,同时可以通过平台开放的API进行二次开发,通过JDBC/ODBC接口给上层应用进行SQL查询。此外,Inceptor中还包含了基础的并行统计挖掘算法库的JavaAPI,用户可以通过并行算法库进行数据挖掘的二次开发。平台提供的主要开发接口详细描述如下:
Figure BDA0002441433980000091
Figure BDA0002441433980000101
大数据平台支持Apache Hadoop发布的多个版本,包括但不限于支持HBase,Pig,Hive,JavaMR,Oozie等各种知名的Hadoop框架开源方案。大数据平台兼容各种C/C++、Java、ANSI SQL、Python、R等各种开发语言,兼容各种文件系统及数据库,如HDFS,GPFS-FPO,RDMBS,MPP等。大数据平台常见的大数据分析软件,支持各种常见的大数据分析软件,例如SAS、SPSS、Murex,Algorithmics,Sugard,Calypso,Tilling Hast,Micro Strategy,IBMCognos等。大数据平台通过通用JDBC/ODBC接口或标准接口与数据可视化工具进行集成和对接,例如Tableau,Pentaho,Zoomdata等。大数据平台通过相关工具,例如Sqoop、Informatica、DataStage等与各种常见的关系数据库的对接和数据交换。大数据平台支持ESB、WEBSERVICE等接口,用于系统间互联;支持文本文件数据的导入导出;支持采用SOA架构。
同样,平台对内提供各种运维接口,包括CLI命令行,FTP文件接口等。平台提供的主要开发接口详细描述如下:
Figure BDA0002441433980000102
应用软件采用SOA架构进行设计,可服务化封装的功能列表如下:
Figure BDA0002441433980000103
Figure BDA0002441433980000111
综上所述,本发明提案系统总体设计基于如下原则:
(一)标准化:系统采用的技术架构均遵循网络协议和传输标准的要求,提供文档标准化,满足GB8567-1988、GB/T11457-89的行业标准;
(二)可扩展性:由于用户以后的需求会不断发展,使用人数将随之扩大,业务压力不断上升,只要横向扩展增加服务器台数,不用添加其它附加设备,以保证用户的原投资被利用。系统采用业内最先进的微服务模式,部署发布应用了容器技术,可以随着用户数量及数据量的扩充快速的对资源节点进行扩展。
(三)可用性和可靠性:我们的方案在充分考虑用户实际情况的基础上,采用了Weblogic作为Web应用容器,操作系统采用Linux,从而减少了其它因素造成的故障。
(四)易用性:系统使用界面良好,用户无需安装客户端软件,只需通过浏览器就可进行实时操作,同时系统架构设计优良,可以很方便进行系统升级。
(五)开发式结构:该系统内置“数据交换适配平台”可以与第三方系统相融合,可以读取第三方系统的相关数据,可以为第三方系统提供其需要的相关数据,提供标准的WebService接口,具有开放式结构。
(六)完善和可靠性:具有设计独到的功能使用及数据访问权限控制,保证统一、规范管理,支持3DES和RSA加密技术,使数据存储和传输安全牢不可破。系统具有错误故障日志记录功能,便于快速诊断定位问题。
(七)实时性:该系统支持负载均衡技术,及时响应多人实时并发操作。平台支持大用户量同时在线访问、并发操作。
(八)先进性:基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证系统易扩展、易升级、易操作、易维护等特性。分布式大数据平台采用Hadoop/HBase架构,搭建了超过100个节点的集群,满足约PB级别的数据存储能力以及每秒写入大概6千万至7千万条数据的读写性能。
(九)高效性:线性扩展的大数据平台,保证了ETL时间的窗口以及查询效率,数据抽取的特殊性,通常在夜间业务稀少的情况下进行数据抽取,减少了对其他系统的影响。数据平台的性能为:
高速数据插入吞吐量远高于单节点20MB/S;
单节点在索引上检索性能不低于10000条/秒;
提供数据据高并发查询,单节点SQL并发度不低于2000次/秒;
提供SQL对数据的高速统计分析,线性扫描性能单节点不低于70MB/S。
上述实施方式仅为例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟习此项技艺的人士均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与变化。因此,本发明的权利保护范围,应如后述的权利要求所列。

Claims (10)

1.一种基于客户画像技术的供电客户价值评价方法,其特征在于,所述方法包括以下步骤:
A.数据采集,从各业务系统及外部环境采集数据,并进行清洗、排重及加工,所述数据包括企业内部数据以及企业外部数据;所述企业内部数据包括用户台账、用电数据、缴费信息、GIS数据;
B.对所述数据进行分析挖掘,以便由所述数据提取客户特征,并制定基于业务需求的电力客户标签集合;
C.根据所述电力客户标签集合进行客户价值评价。
2.如权利要求1所述的基于客户画像技术的供电客户价值评价方法,其特征在于,所述各业务系统包括分析用电信息采集系统、营销业务应用系统、客户服务系统。
3.如权利要求1所述的基于客户画像技术的供电客户价值评价方法,其特征在于,所述企业外部数据包括由互联网交易平台取得的外部数据。
4.一种大数据平台,基于客户画像技术提取用户特征并制定基于业务需求的电力客户标签集合,其特征在于,所述大数据平台包括:
数据仓库,采用Hadoop/HBase架构建构而成;
数据采集加工平台,从各业务系统及外部环境采集数据,经清洗、排重及加工后,将所述数据批量加载到所述数据仓库,所述数据包括企业内部数据和企业外部数据;以及
数据分析挖掘平台,包含并行化算法模型库及数据分析挖掘工具,结合电网营销业务并且提供多个核心算法模型以进行数据的挖掘分析,以提取用户特征并制定基于业务需求的电力客户标签集合。
5.如权利要求4所述的大数据平台,其特征在于,所述各业务系统包括分析用电信息采集系统、营销业务应用系统、客户服务系统,且所述企业内部数据包括用户台账、用电数据、缴费信息、GIS数据,所述企业外部数据包括互联网平台取得的外部数据。
6.如权利要求4所述的大数据平台,其特征在于,由所述数据提取用户特征,并制定基于业务需求的电力客户标签集合。
7.一种如权利要求4至6任一项所述大数据平台的硬件架构,其特征在于,所述大数据平台的硬件架构包括:
分布式数据存储模块,用以存储数据,所述数据包括半结构数据、非结构数据、结构化数据及全文索引数据,所述半结构数据或非结构数据包括Office文件、XML数据、Email数据、凭证单据扫描件、视频图像及Web网页,所述结构化数据包括从业务系统数据库采集的数据、整合加工后的多主题关联的数据集及面向应用的数据集市;
分布式计算处理模块,用以对所述数据进行数据加工,数据清洗,对多计算框架管理,并行计算及并发处理,PL/SQL存储,全文检索,对所述结构化数据、所述半结构化及所述非结构化数据联合查询,预定义维度数据查询,以及简单查询、组合查询及模糊查询;
数据集成及管控模块,用以进行数据采集、数据交换以及数据管理;以及
身份认证和访问控制组件,提供为访问的企业门户、经营分析的用户统一提供身份认证和鉴权访问控制服务。
8.如权利要求7所述的大数据平台,其特征在于,所述分布式数据存储模块包括:
分布式文件系统HDFS,用以存储半结构数据或非结构数据、文件数据及文本数据;
分布式列式存储数据库,用以存储结构化数据;
分布式内存数据库,用以存储数据集市及OLAPCube数据;以及
分布式全文检索库,用以存储由文本数据生成的全文索引数据。
9.如权利要求8所述的大数据平台,其特征在于,所述分布式计算处理模块包括:
HadoopMapReduce框架和Spark内存计算引擎,所述HadoopMapReduce框架提供了JAVAAPI框架,所述Spark内存计算引擎进行快速分布式处理;
SQL引擎,提供JDBC/ODBC标准接口访问所述分布式内存数据库;
流处理引擎,实时接收处理流数据,并将所述流数据实时导入至分布式内存数据库中;
联合查询引擎,提供非结构化数据和结构化数据联合查询;
并行化R算法引擎,可通过JDBC接口及SQL引擎提取所需数据,并存入分析结果,也可直接读取所述分布式文件系统HDFS的文件数据;以及
分布式检索引擎,用以从所述分布式文件系统HDFS提取文本数据并创建全文索引库。
10.如权利要求7所述的大数据平台,其特征在于,所述数据集成及管控模块包括:
数据集成及ETL平台,提供数据抽取、转换和加载;
数据管控平台,提供元数据管理、主数据管理、数据质量管理、数据标准管理、数据安全管理;以及
ESB服务总线平台,提供消息队列、消息订阅和发布、WebService服务编排及组合调用、服务监控。
CN202010268303.7A 2020-04-07 2020-04-07 基于客户画像技术的供电客户价值评价方法及大数据平台 Pending CN111640040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268303.7A CN111640040A (zh) 2020-04-07 2020-04-07 基于客户画像技术的供电客户价值评价方法及大数据平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268303.7A CN111640040A (zh) 2020-04-07 2020-04-07 基于客户画像技术的供电客户价值评价方法及大数据平台

Publications (1)

Publication Number Publication Date
CN111640040A true CN111640040A (zh) 2020-09-08

Family

ID=72333169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268303.7A Pending CN111640040A (zh) 2020-04-07 2020-04-07 基于客户画像技术的供电客户价值评价方法及大数据平台

Country Status (1)

Country Link
CN (1) CN111640040A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100246A (zh) * 2020-09-22 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种基于多维图码标签的客户用电价值挖掘方法
CN112215655A (zh) * 2020-10-13 2021-01-12 广东电网有限责任公司 一种客户画像的标签管理方法及系统
CN112463760A (zh) * 2020-10-28 2021-03-09 深圳供电局有限公司 信息处理方法、装置、计算机设备和存储介质
CN112612761A (zh) * 2020-12-16 2021-04-06 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112685514A (zh) * 2021-01-08 2021-04-20 北京云桥智联科技有限公司 Ai智能客户价值管理平台
CN112700082A (zh) * 2020-11-26 2021-04-23 国网湖北省电力有限公司电力科学研究院 变电站关口计量大数据分析与在线监测系统和方法
CN113190524A (zh) * 2021-04-21 2021-07-30 武汉卓尔信息科技有限公司 一种工业大数据采集方法及系统
CN113392302A (zh) * 2021-06-19 2021-09-14 国网福建省电力有限公司信息通信分公司 一种电力外部环境检测的分析系统
CN113505048A (zh) * 2021-07-09 2021-10-15 浪潮云信息技术股份公司 基于应用系统画像的统一监控平台及实现方法
CN113516500A (zh) * 2021-04-23 2021-10-19 深圳市威斯登信息科技有限公司 一种基于大数据商旅运营平台的实现方法和系统
CN113672627A (zh) * 2021-09-08 2021-11-19 湖南惠农科技有限公司 Elasticsearch搜索引擎索引构建方法及装置
CN114841570A (zh) * 2022-05-07 2022-08-02 金腾科技信息(深圳)有限公司 用于客户关系管理系统的数据处理方法、装置、设备及介质
CN114881681A (zh) * 2022-03-17 2022-08-09 广西电网有限责任公司贵港供电局 一种科技电力营销综合任务系统
CN116739646A (zh) * 2023-08-15 2023-09-12 南京易联阳光信息技术股份有限公司 网络交易大数据分析方法及分析系统
CN116995816A (zh) * 2023-09-25 2023-11-03 国网山东省电力公司淄博供电公司 一种基于人工智能的供电数据处理平台及方法
CN118245677A (zh) * 2024-04-08 2024-06-25 江苏思行达信息技术股份有限公司 一种电网营销前端大数据平台开发方法
CN118445309A (zh) * 2024-07-08 2024-08-06 广州思迈特软件有限公司 基于Spark引擎的数据处理方法、装置以及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060118371A (ko) * 2006-10-13 2006-11-23 한국전기연구원 인터넷을 통한 전력 수요관리 평가 시스템
JP5905652B1 (ja) * 2015-01-30 2016-04-20 株式会社Ubic データ評価システム、データ評価方法、およびデータ評価プログラム
CN106934530A (zh) * 2017-02-27 2017-07-07 广州海颐软件有限公司 一种智慧能源的综合能源营销自动化系统平台
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析系统
CN209674725U (zh) * 2019-06-04 2019-11-22 任亚辉 一种电力营销多点分布用户识别标签

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060118371A (ko) * 2006-10-13 2006-11-23 한국전기연구원 인터넷을 통한 전력 수요관리 평가 시스템
JP5905652B1 (ja) * 2015-01-30 2016-04-20 株式会社Ubic データ評価システム、データ評価方法、およびデータ評価プログラム
CN106934530A (zh) * 2017-02-27 2017-07-07 广州海颐软件有限公司 一种智慧能源的综合能源营销自动化系统平台
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析系统
CN209674725U (zh) * 2019-06-04 2019-11-22 任亚辉 一种电力营销多点分布用户识别标签

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100246A (zh) * 2020-09-22 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种基于多维图码标签的客户用电价值挖掘方法
CN112215655A (zh) * 2020-10-13 2021-01-12 广东电网有限责任公司 一种客户画像的标签管理方法及系统
CN112463760A (zh) * 2020-10-28 2021-03-09 深圳供电局有限公司 信息处理方法、装置、计算机设备和存储介质
CN112463760B (zh) * 2020-10-28 2024-05-31 深圳供电局有限公司 信息处理方法、装置、计算机设备和存储介质
CN112700082A (zh) * 2020-11-26 2021-04-23 国网湖北省电力有限公司电力科学研究院 变电站关口计量大数据分析与在线监测系统和方法
CN112612761A (zh) * 2020-12-16 2021-04-06 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112612761B (zh) * 2020-12-16 2024-01-30 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112685514A (zh) * 2021-01-08 2021-04-20 北京云桥智联科技有限公司 Ai智能客户价值管理平台
CN113190524A (zh) * 2021-04-21 2021-07-30 武汉卓尔信息科技有限公司 一种工业大数据采集方法及系统
CN113516500A (zh) * 2021-04-23 2021-10-19 深圳市威斯登信息科技有限公司 一种基于大数据商旅运营平台的实现方法和系统
CN113392302B (zh) * 2021-06-19 2022-05-13 国网福建省电力有限公司信息通信分公司 一种电力外部环境检测的分析系统
CN113392302A (zh) * 2021-06-19 2021-09-14 国网福建省电力有限公司信息通信分公司 一种电力外部环境检测的分析系统
CN113505048A (zh) * 2021-07-09 2021-10-15 浪潮云信息技术股份公司 基于应用系统画像的统一监控平台及实现方法
CN113672627A (zh) * 2021-09-08 2021-11-19 湖南惠农科技有限公司 Elasticsearch搜索引擎索引构建方法及装置
CN113672627B (zh) * 2021-09-08 2023-08-18 湖南惠农科技有限公司 Elasticsearch搜索引擎索引构建方法及装置
CN114881681A (zh) * 2022-03-17 2022-08-09 广西电网有限责任公司贵港供电局 一种科技电力营销综合任务系统
CN114841570A (zh) * 2022-05-07 2022-08-02 金腾科技信息(深圳)有限公司 用于客户关系管理系统的数据处理方法、装置、设备及介质
CN114841570B (zh) * 2022-05-07 2023-07-25 金腾科技信息(深圳)有限公司 用于客户关系管理系统的数据处理方法、装置、设备及介质
CN116739646B (zh) * 2023-08-15 2023-11-24 南京易联阳光信息技术股份有限公司 网络交易大数据分析方法及分析系统
CN116739646A (zh) * 2023-08-15 2023-09-12 南京易联阳光信息技术股份有限公司 网络交易大数据分析方法及分析系统
CN116995816A (zh) * 2023-09-25 2023-11-03 国网山东省电力公司淄博供电公司 一种基于人工智能的供电数据处理平台及方法
CN116995816B (zh) * 2023-09-25 2024-02-23 国网山东省电力公司淄博供电公司 一种基于人工智能的供电数据处理平台及方法
CN118245677A (zh) * 2024-04-08 2024-06-25 江苏思行达信息技术股份有限公司 一种电网营销前端大数据平台开发方法
CN118445309A (zh) * 2024-07-08 2024-08-06 广州思迈特软件有限公司 基于Spark引擎的数据处理方法、装置以及设备
CN118445309B (zh) * 2024-07-08 2024-09-10 广州思迈特软件有限公司 基于Spark引擎的数据处理方法、装置以及设备

Similar Documents

Publication Publication Date Title
CN111640040A (zh) 基于客户画像技术的供电客户价值评价方法及大数据平台
CN109272155B (zh) 一种基于大数据的企业行为分析系统
Muniswamaiah et al. Big data in cloud computing review and opportunities
US11036735B2 (en) Dimension context propagation techniques for optimizing SQL query plans
CN107315776B (zh) 一种基于云计算的数据管理系统
CN108255712B (zh) 数据系统的测试系统和测试方法
CN106709067B (zh) 一种基于Oracle数据库的多源异构空间数据流转方法
CN110431545A (zh) 针对结构化数据和非结构化数据执行查询
CN106202207B (zh) 一种基于HBase-ORM的索引及检索系统
Kraska Finding the needle in the big data systems haystack
US9158843B1 (en) Addressing mechanism for data at world wide scale
US20030088546A1 (en) Collecting and/or presenting demographics information in a database system
CN105912609A (zh) 一种数据文件处理方法和装置
TW201205320A (en) Optimizing data cache when applying user-based security
Jewell et al. Performance and capacity implications for big data
CN108121778B (zh) 一种异构数据交换与清洗系统及方法
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
US20170140160A1 (en) System and method for creating, tracking, and maintaining big data use cases
Caldarola et al. Big data: A survey-the new paradigms, methodologies and tools
CN113535846B (zh) 一种大数据平台及其构建方法
CN114297173A (zh) 一种面向大规模海量数据的知识图谱构建方法和系统
CN105354189A (zh) 搜寻应用软件的方法及其系统
Luo et al. Big-data analytics: challenges, key technologies and prospects
US7287022B2 (en) System and method for analytically modeling data organized according to related attributes
CN117171108A (zh) 一种虚拟模型映射方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200908