CN118277372A - 一种电力客户数据清洗治理方法 - Google Patents
一种电力客户数据清洗治理方法 Download PDFInfo
- Publication number
- CN118277372A CN118277372A CN202410710657.0A CN202410710657A CN118277372A CN 118277372 A CN118277372 A CN 118277372A CN 202410710657 A CN202410710657 A CN 202410710657A CN 118277372 A CN118277372 A CN 118277372A
- Authority
- CN
- China
- Prior art keywords
- data
- cleaning
- power customer
- power
- customer data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000004088 simulation Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000002159 abnormal effect Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000007689 inspection Methods 0.000 claims description 15
- 238000013523 data management Methods 0.000 claims description 10
- 238000012797 qualification Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 4
- 238000013499 data model Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000012141 concentrate Substances 0.000 abstract description 2
- 238000013519 translation Methods 0.000 description 13
- 238000007726 management method Methods 0.000 description 10
- 230000005611 electricity Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000013524 data verification Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010992 reflux Methods 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电力系统数据处理技术领域,具体涉及一种电力客户数据清洗治理方法。所述方法包括:采集电力客户数据;对采集到的电力客户数据进行清洗;建立初始的多元异构统一模型;根据具体业务场景,选取相应的与具体业务相关电力客户数据,输入到多元异构统一模型中,所述多元异构统一模型经过业务场景的模拟运行及训练,得到训练好的多元异构统一模型;基于训练好的多元异构统一模型,对电力客户数据进行治理。本发明将分散在不同系统或部门的电力客户数据集中到统一的平台中,实现用户信息统一管理,这种集中化管理方式有助于实现数据的标准化和规范化,提高数据质量,并降低数据冗余和重复的风险。
Description
技术领域
本发明属于电力系统数据处理技术领域,具体涉及一种电力客户数据清洗治理方法。
背景技术
随着电力行业的不断发展,电力行业内积累大量不同的相关系统,比如营销系统、移动APP平台、实体营业厅、客户画像、政企平台、实体营业厅、服务调度系统等各个系统平台。每个系统内部对于电力客户的数据治理都有一套自己的治理方式,电力客户的数据治理变得日益复杂,没有形成统一的客服治理,存在数据处理效率低下、电力客户数据不互通,会造成数据准确性不高、电力用户治理困难等问题,难以满足现代电力行业的需求。
现有的关于用户数据治理的方法大多是通过对权限控制等手段实现用户数据互通,各个用户数据还是分散不同的系统中,没有形成较为完全的统一电力客户数据的治理。
因此,需要开发一种用电大客户数据治理方法,实现多个系统电力用户大数据的多元异构数据集成,满足各业务系统客户档案统一治理应用,实现对电力行业用电数据的统一集中治理,建立统一客户体系,对于提升电力系统的稳定性和效率具有重要意义。
发明内容
为了克服现有技术中的问题,本发明提出了一种电力客户数据清洗治理方法。
本发明解决上述技术问题的技术方案如下:
本发明提供了一种电力客户数据清洗治理方法,包括以下步骤:
步骤100:采集电力客户数据;
步骤200:对采集到的电力客户数据进行清洗;
步骤300:基于业务逻辑与业务规则,建立初始的多元异构统一模型;
步骤400:根据具体业务场景,选取相应清洗后的电力客户数据,输入到初始的多元异构统一模型中,所述初始的多元异构统一模型经过业务场景的模拟运行,得到训练好的多元异构统一模型;
步骤500:基于训练好的多元异构统一模型,对电力客户数据进行治理。
进一步地,所述步骤100中采集电力客户数据包括:数据采集的初始阶段,通过全量采集的方式对各个系统进行全面、详细的数据采集;在全量采集完成后,后续的数据采集转为定时增量采集,所述定时增量采集是指定期收集在预设时间段内新增或变更的数据;其中,各个系统包括:营销系统、移动APP平台、实体营业厅、客户画像、政企平台、实体营业厅及服务调度系统。
进一步地,对采集到的电力客户数据进行清洗之前,还包括建立电力用户数据检验规则库,具体包括:
获取业务需要和用户逻辑,对业务需要与用户逻辑进行分析;
基于对业务需求的和用户逻辑的分析,总结梳理出当前需要检验的数据字段,所述数据字段包括用户手机号、用电地址、证件号码;为每个数据字段制定具体的检验标准,以此建立电力用户数据检验规则库。
进一步地,所述步骤200中对采集到的电力客户数据进行清洗,包括:
无效数据清洗处理,针对无法关联客户的数据进行无效数据清理;
重复数据清洗处理,针对重复数据进行去重处理;
空值清洗处理,对采集的数据对象字段进行清洗,针对必填内容进行默认值赋值,无默认值赋值规则的需进行人工补充完善;
值域清洗分析,手机号码、地址数据项数据,根据值大小检查或固定格式规则校验,清洗无端字符长度异常数据;
字典项清洗分析,针对下拉字段按照指定的字典项进行检测,清洗不符合相关字段下拉字典项规则的异常数据;
字段类型清洗处理,对采集对象的数据项字段进行字段类型判定,针对字段类型异常的数据进行统一清洗处理;
人工数据处理,针对空值、值域异常、下拉字典项异常无法自动化清理或需人工确认清洗处理的异常数据,需人工完善补充或干预确认后再清洗处理。
进一步地,所述步骤300中建立初始的多元异构统一模型,包括:
根据当前业务逻辑分析电力客服业务流程、组织结构和业务需求,确定建模实体,其中,所述实体包括用户、客户档案、客户资质、客户认证、地址;
对于每个确定的实体,进一步分析实体的属性,所述实体的属性用于描述实体的特征和状态;
在分析实体的属性之后,使用实体-关系图来表示每个实体之间的关系,识别关键实体的属性,以此构建初始的多元异构统一模型。
进一步地,所述步骤400具体包括:
根据具体业务场景,选取相应的与具体业务相关电力客户数据,输入到初始的多元异构统一模型中,所述初始的多元异构统一模型经过业务场景的模拟运行,得到首次的数据处理结果;
将首次数据处理结果与数据清洗的电力用户数据检验规则相匹配,判断评估当前多元异构统一模型的准确率;
若当前多元异构统一模型的准确率未达到预设阈值,根据首次数据处理结果,对电力客户数据进行数据治理与调优,并且对当前多元异构统一数据模型的相关实体以及关系进行调整、校对,形成新的迭代模型,进行训练;
若当前多元异构统一模型的准确率达到预设阈值,则得到训练好的多元异构统一模型。
与现有技术相比,本发明具有如下技术效果:
(1)本发明依据电力行业以及环境为基础,通过用电客户数据清洗、治理等统一处理,可以将分散在不同系统或部门的电力客户数据集中到统一的平台中,实现用户信息统一管理,这种集中化管理方式有助于实现数据的标准化和规范化,提高数据质量,并降低数据冗余和重复的风险。
(2)通过数据迁移的方式统一管理用户信息,能够帮助电力企业更快速、更准确地获取用户数据,避免了在多个系统或部门之间重复查找和确认信息的繁琐过程,这不仅提高了企业内部的工作效率,也加快了与用户之间的沟通和响应速度。
(3)对电力客户信息的数据清洗与数据迁移的过程中,也实现了对客户身份的唯一认证;通过迁移统一处理,可以将分散在不同系统或部门的电力客户档案数据集中到一个统一的平台或数据库中,这种集中化管理方式有助于实现数据的标准化和规范化,提高数据质量,并降低数据冗余和重复的风险。
(4)支持决策分析:统一的电力客户管理体系为电力企业的决策分析提供了有力支持。通过对数据的深入挖掘和分析,企业可以了解市场趋势、客户需求变化等信息,为业务策略制定和调整提供数据依据。
(5)可扩展性强:本发明的技术方案可以扩展到其他领域和服务中,具有广泛的应用前景和市场价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明的方法的流程示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在本发明的一个实施例中,参照图1,提供了一种电力客户数据清洗治理方法,包括以下步骤:步骤100:采集电力客户数据;步骤200:对采集到的电力客户数据进行清洗;步骤300:建立初始的多元异构统一模型;步骤400:根据具体业务场景,选取相应清洗后的电力客户数据,输入到初始的多元异构统一模型中,所述初始的多元异构统一模型经过业务场景的模拟运行,得到训练好的多元异构统一模型;步骤500:基于训练好的多元异构统一模型,对电力客户数据进行治理。
下面对上述各个步骤进行详细展开:
步骤100:采集电力客户数据。
通过全量采集与定时增量采集相结合的方式,采集与电力客户数据相关的系统中的电力客户数据,其中,与电力客户数据相关的系统可包括:营销系统、移动APP平台、实体营业厅、客户画像、政企平台、实体营业厅及服务调度系统等。
数据采集的初始阶段,通过全量采集的方式对各个系统进行全面、详细的数据采集。全量采集的方式一次性将所有电力客户相关数据都采集过来,其可以确保数据的全面性和准确性。
例如,全量采集可包括:对于营销系统,收集用户基本信息、电费信息、电力产品消费记录、用电数据、用电偏好、用户电力终端等数据;对于移动APP,捕获用户行为数据、使用习惯、反馈信息;对于实体营业厅,收集现场交易数据、客户咨询记录、业务办理情况等;对于客户画像,获取客户的全面画像,包括消费习惯、信用状况、偏好分析;对于政企平台,采集政企客户的业务数据、合作项目信息、合同执行情况等;对于服务调度系统,收集服务请求、调度记录、完成情况等。
在全量采集完成后,后续的数据采集工作转为定时增量采集阶段,定时增量采集是指定期收集在特定时间段内新增或变更的数据,这种方式可以大大减少数据采集的工作量,提高数据更新的效率,并且可以及时捕捉到数据的动态变化。
例如,定时增量采集可以设定固定的时间间隔(如每小时、每天或每周),针对以下内容进行数据收集:对于营销系统,采集定期更新产品消费记录、用电数据、用户电力终端等数据;对于移动APP平台,实时捕获新增用户行为数据、使用习惯、反馈信息;对于实体营业厅,定期收集新增业务办理记录、客户咨询数据等;对于客户画像,根据新增数据和客户行为变化,定期更新客户画像;对于政企平台,定期更新政企客户的业务进展、合同变更等信息;对于服务调度系统,实时捕获新增服务请求、调度记录等。
通过全量采集和定时增量采集结合的方式,可以有效地采集来自不同系统的电力客户数据,为后续提供有力的数据支持。同时,根据业务需求和数据特点,可以不断优化采集策略,提高数据采集的效率和质量。
定时增量采集可能会产生与全量采集重复的数据,在具体实施例中,在采集过程中,利用Redis(Remote Dictionary Server,远程字典服务)的高速缓存特性,存储全量采集的数据的和定时增量采集的数据的唯一标识(如主键或唯一索引),在采集新数据时,首先检查Redis中是否存在相同标识的数据。若发现重复数据,去除重复的数据,存储在数据库中;对于非重复数据,将其存储在数据库中。
具体的,重复判断可使用集合(Set):将增量数据中的每个客户数据的唯一标识(如客户oneID)作为集合中的成员进行添加;若添加成功(Redis返回1),则表示该电力客户数据是新的;若添加失败(Redis返回0),则表示该电力客户数据已经存在(即重复)。使用有序集合(ZSet):虽然有序集合主要用于存储带分数的成员,但同样可以用于去重,可以将电力客户数据的唯一标识作为成员,可以设置固定阈值(如时间戳或0),通过ZADD命令添加成员时,若成员已存在,则不会进行任何操作,并且不会报错;可以通过ZRANK或ZSCORE等命令来检查成员是否存在。
步骤200:对采集到的电力客户数据进行清洗处理。
在一实施例中,在对电户客户数据清洗之前,建立电力用户数据检验规则库,其有助于确保数据的准确性和完整性,满足业务分析的需求。建立初始电力用户数据检验规则库,具体包括以下步骤:
获取业务需要和用户逻辑,对业务需要与用户逻辑进行分析,其中,业务需求是电力领域内存在解决客户问题、推广用电产品等具体使用场景以及关键业务流程,业务流转中产生对数据质量的具体要求,对业务需求进行分析包括深入了解电力业务的各个环节,确定哪些数据字段对业务分析至关重要;用户逻辑是用户在使用电力服务过程中的行为模式,如注册、缴费、报修等,对用户逻辑分析包括分析电力用户的行为模式和交互逻辑,理解电力用户数据的产生背景和可能存在的异常情况。
基于对业务需求和用户逻辑的分析,总结梳理出当前需要检验的数据字段和检验标准,建立电力用户数据检验规则库。数据字段可包括用户手机号、用电地址、证件号码等,为每个数据字段制定具体的检验标准,如手机号格式、用电地址标准、证件号码有效性等,以此建立电力用户数据检验规则库,所述电力用户数据检验规则库中还可以包括规则名称及业务影响等。检验数据字段和检验标准可来源于各个系统建立之初已经预建立好的统一的业务模型与业务规则,比如电费计量业务模型是预规定的,业务模型建立时也就存在了一定的业务约束条件。
电力用户数据检验规则库中,比如,数据字段为“用电地址”,规则名称“用电地址不规范”,业务影响“影响客户服务、客户停电等业务”,检验标准“营销系统非销户用户,存在以下情况则判定为异常:若结构化地址已维护,且结构化地址的第七级(小区/自然村)为空,或者地址的第七级(小区/自然村)不为空,但是在系统的标准地址代码里面找不到对应地址的地址代码;若结构化地址未维护,且电力客户的用户地址为空”。
随着业务的发展和变化,定期审查现有的电力用户数据检验规则,根据需要进行更新或增补。当业务需要新的检验规则时,按照规定的流程进行增补,确保规则库的完整性和时效性。
对采集到的来自各个系统中的多元的电力客户数据进行清洗处理,其中,电力客户数据清洗处理包括:无效数据清洗处理、重复数据清洗处理、空值清洗处理、值域清洗处理、字典项清洗处理、字段类型清洗处理及人工数据处理等。
无效数据清洗处理,即针对无法关联客户的数据进行无效数据清理。其中,无效数据指的是无法关联到具体客户或无法用于分析的数据,无效数据可能是由于录入错误、数据损坏或数据源问题导致的,清洗无效数据的目的是删除或修正无法为业务分析提供有价值信息的数据。无效数据清洗处理方法包括:通过业务规则、数据完整性检查或与其他数据源对比来识别无效数据;根据数据无效的原因,可以选择删除这些数据,或者用合理的默认值或替代值进行修正。
重复数据清洗处理,针对重复数据进行清洗处理,如一个客户存在相同手机号码的两条或多条联系信息,进行去重处理。其中,重复数据指的是存在完全相同或非常相似的记录。重复数据清洗处理的方法可包括:通过比较关键字段来识别重复记录,关键字段如客户ID、手机号码等;基于关键字段的去重,存储在数据库中的数据基本是通过SQL进行处理,其他类型的处理也可通过SQL完成;删除重复的记录,或合并重复记录中的信息,保留一条完整且准确的记录。
空值清洗处理,对采集的数据对象字段进行清洗,针对必填内容进行默认值赋值无默认值赋值规则的需进行人工补充完善。空值是指数据集中缺失的字段值。空值清洗处理方法:检查数据集中的每个字段,确定哪些字段存在空值。使用默认值,根据业务规则和数据特征,对于必填的内容进行默认赋值,当插入新记录时,若某个字段或列的值为空,系统会自动使用默认值代替;对于需要高度准确性的字段,无默认值赋值规则的需进行人工补充完善;若某条记录的关键字段存在空值,且无法合理填充,可以考虑删除该记录;存储在数据库中的数据基本是通过SQL直接进行处理的。
值域清洗分析,手机号码、地址等数据项数据,根据值大小检查或固定格式规则校验,清洗无端字符长度异常数据。值域清洗是指检查数据项的值是否在合理的范围内,或是否符合特定的格式规则。值域清洗分析方法:根据业务知识和经验,为手机号码、地址等数据项设定合理的值域范围和格式规则;对比每个数据项与设定的值域规则,识别出不符合规则的数据;对不符合规则的数据进行修正或删除,确保数据的准确性和规范性。具体的,手机号的格式校验、长度检查、无效字符检查,地址的格式校验、长度检查、无效字符检查等,一般通过用SQL来执行值域清洗操作。
字典项清洗分析,针对下拉字段按照指定的字典项进行检测,清洗不符合相关字段下拉字典项规则的异常数据。字典项清洗是针对下拉字段(或称为枚举字段)的清洗过程,确保字段的值符合预定义的字典项。字典项清洗分析方法:建立并维护一个包含所有有效字典项的列表;对比数据库中的下拉字段值与字典项列表,找出不符合字典项规则的数据。具体地,存储在数据库中的数据基本是通过SQL直接进行处理的。
字段类型清洗处理,对采集对象的数据项字段进行字段类型判定,包括数值型、字符型、时间型、逻辑型等,针对字段类型异常的数据进行统一清洗处理。字段类型清洗处理是确保每个数据项字段的数据类型正确的过程,这涉及对采集对象的数据项字段进行类型判定,并根据判定结果进行清洗。字段类型判定:首先,需要识别每个字段的预期类型,如数值型、字符型、时间型、逻辑型等;然后,通过检查字段中的实际数据,确定其实际类型是否与预期类型一致。存储在数据库中的数据基本是通过SQL,直接进行处理的。
人工数据处理,针对空值、值域异常、下拉字典项异常等无法自动化清理或需人工确认清洗处理的异常数据,需人工完善补充或干预确认后再清洗处理。
步骤300:建立初始的多元异构统一模型。
建立初始的多元异构统一模型,包括:
确定数据建模实体:根据当前业务逻辑分析电力客服业务流程、组织结构和业务需求,确定整体模型中需要涉及的全部实体。实体来源于电力系统中各个业务流程的与客户信息有关的关键业务要素,基于这些与客户相关的要素进而确定建模实体。在电力客户数据的背景下,主要的实体可能包括用户、客户档案、客户资质、客户认证、地址等。
对于每个确定的实体,需要进一步分析实体的属性,实体的属性应该能够全面、准确地描述实体的特征和状态。例如:用户实体可能包括用户ID、用户名、联系方式、用电类型、用电地址等属性;客户档案实体可能包括档案ID、客户名称、创建时间、更新时间、档案状态等属性;客户资质实体可能包括资质ID、资质类型、有效期、审核状态等属性;地址实体可能包括地址ID、省份、城市、区县、街道、门牌号等属性。
在定义了实体的属性之后,通过使用实体-关系图(ER图),描述实体及其属性之间关系,初步建立一个简单的多元异构模型,多元异构统一模型用于输出与客户信息相关的中心数据对应结果。
使用实体-关系图(ER图)来表示实体及实体属性之间的关系,有助于可视化所述模型并更好地理解实体如何相互关联。在电力客户数据的背景下,实体之间可能存在多种关系。例如:用户与客户档案:一个用户可能有一个或多个客户档案(如家庭档案、企业档案等);客户档案与地址:一个客户档案通常关联一个或多个地址,用于记录客户的用电地址或联系地址;这些关系在ER图中可以通过不同的线段和符号来表示,以清晰地展示所述模型的结构和逻辑。
步骤400:根据具体业务场景,选取相应清洗后的电力客户数据,输入到初始的多元异构统一模型中,所述初始的多元异构统一模型经过业务场景的模拟运行,得到训练好的多元异构统一模型。
多元异构统一模型建立完成,就可以将清洗后的电力客户数据输入到所述模型中,确保电力客户数据能够准确地映射到模型的各个实体和属性上。
在多元异构统一模型训练运行之前,通常需要根据具体需求和场景选择合适的方法来设定接收阈值,本实施例中多元异构统一模型主要是用户数据的治理,因此根据业务需求,可以提前假设制定电力客户数据多元异构统一模型的正确率到达80以上才算合格,这有助于确保模型在实际应用中能够满足特定的性能要求。
步骤410:根据具体业务场景,选取相应的与业务场景相关的电力客户数据,输入到初始的多元异构统一模型中,所述初始的多元异构统一模型经过业务场景的模拟运行,得到首次的数据处理结果。
如根据更名过户业务场景模拟,假设一个用户半年来进行N次户名地址更替,需要办理N次业务流转和数据处理,通过多元异构统一模型的设定半年模拟运行,获得用户增量业务数据,作为更名过户业务场景的首次的数据处理结果。
步骤420:将首次的数据结果与数据清洗的电力用户数据检验规则相匹配,判断评估当前模型的准确率。
若当前模型的结果未达到80%左右的正确率,根据首次的数据处理结果,例如出现用户数据不匹配、未找到用户实体的情况,对各个电力客户数据进行数据治理与调优,并且根据出现的问题对多元异构统一数据模型的相关实体以及关系等进行调整、校对,形成新的迭代模型。其中,数据治理与调优方法为:分析首次数据结果,若存在数据的问题,检查电力客户数据准确性或者一致性,检查是否存在缺失值、重复值或不一致的数据,若存在重新进行数据清洗或者标准化处理;同时,排查对比是否存在规则漏洞,若存在,对电力用户数据检验进行修正改进。
若模型的准确率达到预设阈值,得到训练好的多元异构统一模型。
在真实数据迭代验证的过程中,不断过滤劣质数据,同时优化生成数据的质量;直至真实数据验证准确率达到80%以上,后续规模化的用户数据治理都可以通过这个模型来进行数据治理。
步骤500:基于训练好的电力客户数据多元异构统一模型,对电力客户数据进行治理。
基于达到预设阈值的电力客户数据多元异构统一模型,对电力客户数据治理,即得到电力客户数据实体相互关联关系。
数据治理之后的结果是以枚举值为主,枚举值通常是一组预定义的常量,用于表示特定的状态、类别或选项。在本实施例中,数据治理后的用户数据多是数字、代码或缩写,需要通过数据转译规则,将特定的一堆枚举值转译成可读的文本描述或标签,以便进行显示、存储或传输。
转译规则配置:按照电力客户数据多元异构统一模型,制定数据转译规则,按照数据对象、字段中文名称、字段中文名称、枚举值、字段编码及对应原始数据对象、原始字段名称、原始字段编码及原始数据来源等客户信息内容进行数据转译配置,若存在人员、供电单位、类型等下拉参数,需进行字典项映射配置。
原本的用户信息的相关代码是引用的各个系统或者国标相关数据字典,数据转译是根据原本的数据字典,重新新建了统一的中心数据字典,根据统一的中心数据字典进行数据转译。
转义逻辑实现的流程包括:
步骤510:转译处理,对采集的客户基本信息、联系人信息、证件信息、地址、银行卡信息、积分信息按照电力客户数据多元异构统一模型的转译规则配置信息进行转译处理。
步骤520:转译处理过程添加日志记录,记录转译开始时间、转译任务标识、转译状态(正常、异常中断等等)、异常原因、处理结束时间等。
步骤530:转译异常治理:针对转译异常的任务进行处理,可查看异常原因,异常处理后填写处理结果,并进行异常处理归档。
在另一实施例中,还包括:
数据交互,利用更高一级的上级单位数据中心自主空间与当前客户中心进行档案数据互通,打破数据孤岛,实现省网侧客户档案信息的更新上传及数据回流;
数据核查,将转译处理的数据与更高级别权限的上级单位客户中心电力客户数据进行核查,判断上级单位是否已存在客户信息或其他地市存在本电力客户数据,从而判断后续电力客户数据上传上级单位客户中心的方式,若客户中心不存在,则客户信息全量上传;否则,判断变更的内容,仅上传变更信息。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (6)
1.一种电力客户数据清洗治理方法,其特征在于,包括以下步骤:
步骤100:采集电力客户数据;
步骤200:对采集到的电力客户数据进行清洗;
步骤300:基于业务逻辑,建立初始的多元异构统一模型;
步骤400:根据具体业务场景,选取相应清洗后的电力客户数据,输入到初始的多元异构统一模型中,所述初始的多元异构统一模型经过业务场景的模拟运行及训练,得到训练好的多元异构统一模型;
步骤500:基于训练好的多元异构统一模型,对电力客户数据进行治理。
2.根据权利要求1所述的一种电力客户数据清洗治理方法,其特征在于,所述步骤100中采集电力客户数据包括:数据采集的初始阶段,通过全量采集的方式对各个系统进行数据采集;在全量采集完成后,后续的数据采集转为定时增量采集,所述定时增量采集是指定期收集在预设时间段内新增或变更的数据;其中,各个系统包括:营销系统、移动APP平台、实体营业厅、客户画像、政企平台、实体营业厅及服务调度系统。
3.根据权利要求1所述的一种电力客户数据清洗治理方法,其特征在于,对采集到的电力客户数据进行清洗之前,还包括建立电力用户数据检验规则库,具体包括:
获取业务需要和用户逻辑,对所述业务需要与用户逻辑进行分析;
基于对业务需求的和用户逻辑的分析,总结梳理出当前需要检验的数据字段,所述数据字段包括用户手机号、用电地址、证件号码;为每个数据字段制定具体的检验标准,以此建立电力用户数据检验规则库。
4.根据权利要求1所述的一种电力客户数据清洗治理方法,其特征在于,所述步骤200中对采集到的电力客户数据进行清洗,包括:
无效数据清洗处理,针对无法关联客户的数据进行无效数据清理;
重复数据清洗处理,针对重复数据进行去重处理;
空值清洗处理,对采集的数据对象字段进行清洗,针对必填内容进行默认值赋值,无默认值赋值规则的需进行人工补充完善;
值域清洗分析,手机号码、地址数据项数据,根据值大小检查或固定格式规则校验,清洗无端字符长度异常数据;
字典项清洗分析,针对下拉字段按照指定的字典项进行检测,清洗不符合相关字段下拉字典项规则的异常数据;
字段类型清洗处理,对采集对象的数据项字段进行字段类型判定,针对字段类型异常的数据进行统一清洗处理;
人工数据处理,针对空值、值域异常、下拉字典项异常无法自动化清理或需人工确认清洗处理的异常数据,需人工完善补充或干预确认后清洗处理。
5.根据权利要求3所述的一种电力客户数据清洗治理方法,其特征在于,所述步骤300中建立初始的多元异构统一模型,包括:
根据当前业务逻辑分析电力客服业务流程、组织结构和业务需求,确定建模实体,其中,所述实体包括用户、客户档案、客户资质、客户认证、地址;
对于每个确定的实体,进一步分析实体的属性,所述实体的属性用于描述实体的特征和状态;
在分析实体的属性之后,使用实体-关系图来表示每个实体之间的关系,识别关键实体的属性,以此构建初始的多元异构统一模型。
6.根据权利要求5所述的一种电力客户数据清洗治理方法,其特征在于,所述步骤400具体包括:
根据具体业务场景,选取相应的与具体业务场景相关的清洗后的电力客户数据,输入到初始的多元异构统一模型中,所述初始的多元异构统一模型经过业务场景的模拟运行,得到首次的数据处理结果;
将首次数据处理结果与数据清洗的电力用户数据检验规则相匹配,判断评估当前多元异构统一模型的准确率;
若当前多元异构统一模型的准确率未达到预设阈值,根据首次数据处理结果,对电力客户数据进行数据治理与调优,并且对当前多元异构统一数据模型的相关实体以及关系进行调整、校对,同时排查对比规则漏洞,对数据治理规则进行修正改进;形成新的迭代模型,进行训练;
若当前多元异构统一模型的准确率达到预设阈值,则得到训练好的多元异构统一模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410710657.0A CN118277372A (zh) | 2024-06-04 | 2024-06-04 | 一种电力客户数据清洗治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410710657.0A CN118277372A (zh) | 2024-06-04 | 2024-06-04 | 一种电力客户数据清洗治理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118277372A true CN118277372A (zh) | 2024-07-02 |
Family
ID=91638705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410710657.0A Pending CN118277372A (zh) | 2024-06-04 | 2024-06-04 | 一种电力客户数据清洗治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118277372A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200210954A1 (en) * | 2018-12-31 | 2020-07-02 | TraxID,LLC | Heterogeneous Data Management Methodology and System |
CN114298550A (zh) * | 2021-12-28 | 2022-04-08 | 安徽海螺信息技术工程有限责任公司 | 一种对水泥生产经营数据的治理方法 |
CN116244386A (zh) * | 2023-02-10 | 2023-06-09 | 北京友友天宇系统技术有限公司 | 应用于多源异构数据存储系统的实体关联关系的识别方法 |
CN116362443A (zh) * | 2023-03-30 | 2023-06-30 | 中国水利水电第三工程局有限公司 | 一种企业信息平台的数据治理方法和装置 |
CN116483810A (zh) * | 2022-07-29 | 2023-07-25 | 四创电子股份有限公司 | 一种基于公安大数据处理技术指南的数据治理方法 |
CN117931913A (zh) * | 2024-01-08 | 2024-04-26 | 西北工业大学 | 一种面向多源异构数据的多主体数据空间互操作方法 |
-
2024
- 2024-06-04 CN CN202410710657.0A patent/CN118277372A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200210954A1 (en) * | 2018-12-31 | 2020-07-02 | TraxID,LLC | Heterogeneous Data Management Methodology and System |
CN114298550A (zh) * | 2021-12-28 | 2022-04-08 | 安徽海螺信息技术工程有限责任公司 | 一种对水泥生产经营数据的治理方法 |
CN116483810A (zh) * | 2022-07-29 | 2023-07-25 | 四创电子股份有限公司 | 一种基于公安大数据处理技术指南的数据治理方法 |
CN116244386A (zh) * | 2023-02-10 | 2023-06-09 | 北京友友天宇系统技术有限公司 | 应用于多源异构数据存储系统的实体关联关系的识别方法 |
CN116362443A (zh) * | 2023-03-30 | 2023-06-30 | 中国水利水电第三工程局有限公司 | 一种企业信息平台的数据治理方法和装置 |
CN117931913A (zh) * | 2024-01-08 | 2024-04-26 | 西北工业大学 | 一种面向多源异构数据的多主体数据空间互操作方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110300963B (zh) | 大规模数据储存库中的数据管理系统 | |
CN110168515B (zh) | 用于分析数据关系以支持查询执行的系统 | |
CN112347071B (zh) | 一种配电网云平台数据融合方法及配电网云平台 | |
CN103473672A (zh) | 企业级数据中心的元数据质量稽核系统、方法及平台 | |
Hamad et al. | An enhanced technique to clean data in the data warehouse | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN113283772A (zh) | 一种电力营销稽查业务规则分析应用方法 | |
CN111737335B (zh) | 产品信息集成处理方法、装置、计算机设备和存储介质 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN113868498A (zh) | 数据存储方法、电子装置、装置及可读存储介质 | |
KR101927578B1 (ko) | 기업정보 제공 시스템 및 방법 | |
CN110781235A (zh) | 基于大数据的采购数据处理方法、装置、终端及存储介质 | |
CN114416852A (zh) | 数据处理方法、装置、设备及介质 | |
CN112214536B (zh) | 一种企业账目数据实时导入管理系统 | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
CN112416904A (zh) | 电力数据规范化处理方法及装置 | |
Hinrichs et al. | An ISO 9001: 2000 Compliant Quality Management System for Data Integration in Data Warehouse Systems. | |
Zhao et al. | Hadoop-based power grid data quality verification and monitoring method | |
CN118277372A (zh) | 一种电力客户数据清洗治理方法 | |
CN111427936B (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
CN112395343B (zh) | 一种基于dsg的字段变更数据采集抽取方法 | |
CN114676054A (zh) | 一种测试数据生成方法、装置、设备、介质及产品 | |
CN114004575A (zh) | 一种个性化招聘系统及实现招聘系统个性化的方法 | |
CN112396343A (zh) | 一种数据质量核查方法及装置 | |
Palepu et al. | Meta data quality control architecture in data warehousing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |