CN108154311A - 基于随机森林和决策树的优质客户识别方法及装置 - Google Patents
基于随机森林和决策树的优质客户识别方法及装置 Download PDFInfo
- Publication number
- CN108154311A CN108154311A CN201810028005.3A CN201810028005A CN108154311A CN 108154311 A CN108154311 A CN 108154311A CN 201810028005 A CN201810028005 A CN 201810028005A CN 108154311 A CN108154311 A CN 108154311A
- Authority
- CN
- China
- Prior art keywords
- customer
- sample
- data
- value
- tier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于随机森林和决策树的优质客户识别方法及装置,所述方法包括以下步骤:获取样本客户价值特征,并进行样本客户的优质性判别;采用样本客户数据,基于随机森林和决策树算法进行训练,构建优质客户识别模型;将待识别客户的价值特征作为输入,基于所述优质客户识别模型,判断所述客户是否为优质客户。本发明基于大数据实现了优质客户的精准定位。
Description
技术领域
本发明属于机器学习的技术领域,尤其涉及一种基于随机森林和决策树的优 质客户识别方法及装置。
背景技术
随着电力改革深化、售电侧市场的全面放开,国家电网公司各级供电公司均 面临着市场竞争压力,为提升电网企业盈利能力和竞争力,增加优质客户的忠诚 度、满意度和客户黏性,企业在做好全社会普遍服务的基础上,为优质客户提供 优质服务将是各售电主体竞争优质客户的主要手段和策略。
为了实现上述目的,保持电网企业的长期可持续发展,必须精准定位优质客 户,并为优质客户提供差异化优质服务,增强客户对电网企业的忠诚度和依赖粘 性,抢占优质客户资源市场,制定有针对性的竞争服务策略,将有限的服务资源 投入到优质客户的身上,与其建立稳定的供用电关系。
随着公司营销信息化、自动化建设的大力推进,以及4亿用户智能电能表全 面实现信息自动采集,公司拥有的海量客户数据,4.3亿客户的档案、业扩、 计量、电费等数据年增长量约50TB,4.0亿只智能电能表电量、电能质量采集带 来数据年增长量约500TB,每日约20万次95598电话带来数据年增长量约10TB, 每日约15万张业务工单带来数据年增长量约2TB,节能服务、电动汽车充换电 网络运营等也积累了海量数据;同时,随着互联网经济的快速发展,95598智能 互动网站、“掌上电力”手机APP、“电e宝”、“e充电”等网络用户的应用呈爆 炸式增长。
然而,随着数据量的爆发式增长和业务要求的不断提高,传统的业务系统架 构已经越来越难满足系统运行的要求。大数据技术作为重要的战略资源已经在全 球范围内达成共识,数据这一基础性战略资源为分析客户需求和提供针对性服务, 提供了数据支撑。
综上所述,如何基于大数据实现优质客户的精准识别定位,是目前需要迫切 解决的技术问题。
发明内容
为克服上述现有技术的不足,解决现有技术中针对如何基于大数据实现优质 客户的精准识别定位的问题,本发明提供了一种基于随机森林和决策树的优质客 户识别方法及装置,所述方法以售电侧电网公司客户的用电属性、用电行为、用 电特征等海量数据为基础,建立多维度的客户评价指标体系,通过以数据分析方 式构建的客户评价模型,对客户进行综合评分,从而实现对优质客户的精准识别 定位。
本发明的第一目的是提供一种基于随机森林和决策树的优质客户识别方法。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于随机森林和决策树的优质客户识别方法,包括以下步骤:
获取样本客户价值特征,并进行样本客户的优质性判别;
采用样本客户数据,基于随机森林和决策树算法进行训练,构建优质客户识 别模型;
将待识别客户的价值特征作为输入,基于所述优质客户识别模型,判断所述 客户是否为优质客户。
作为进一步的优选方案,所述获取样本客户价值特征并进行样本客户的优质 性判别的具体步骤包括:
选择样本客户,获取样本客户的用户各项用电信息,并对其影响客户综合价 值进行分析,构建多维度的客户价值评价特征指标体系;
根据所述指标体系统计样本客户的价值特征,并进行样本客户优质性判别。
作为进一步的优选方案,所述获取样本客户价值特征中价值特征包括用户对 应的基本属性、经济价值、负荷价值、发展价值、信用价值、行业价值数据。
作为进一步的优选方案,所述采用样本客户数据,基于随机森林和决策树算 法进行训练,构建优质客户识别模型的具体步骤包括:
对样本客户数据进行预处理;
基于随机森林法构建优质客户判断模型;
基于决策树算法构建优质客户业务规则释义模型;
采用预处理后的样本客户数据对优质客户判断模型和优质客户业务规则释 义模型进行模型训练,构建优质客户识别模型。
作为进一步的优选方案,所述对样本客户数据进行预处理的具体步骤包括: 数据清洗、特征因素量化、特征拓展、特征选择和异常值处理。
作为进一步的优选方案,所述数据清洗为通过数据超限值检验、特征有效性 检验和数据空值检验,对数据进行清洗;
所述数据超限值检验为检查样本客户数据中用电量和电费电价均为0的记 录并予以删除;所述特征有效性检验为检查样本客户数据中用户重要性特征信息 过于单一的记录;所述数据空值检验为检查暂停天数字段全空和电费回款逾期天 数缺失严重的记录。
作为进一步的优选方案,所述采用预处理后的样本客户数据对优质客户判断 模型和优质客户业务规则释义模型进行模型训练的具体步骤包括:依次进行全特 征训练、重要特征训练、全特征交叉训练和重要特征交叉训练;
所述全特征训练:样本选取全部样本客户数据,模型入参为全部业务指标;
所述重要特征训练:样本选取全部样本客户数据,模型入参为重要性高的前 40%指标;
所述全特征交叉训练:将样本客户数据平均拆分成10份,每次选择其中9 份作为训练样本,剩余1份作为预测样本,循环迭代10次,模型入参为全部业 务指标;
所述重要特征交叉训练:将样本客户数据平均拆分成10份,每次选择其中 9份作为训练样本,剩余1份作为预测样本,循环迭代10次,模型入参为重要 性高的前40%指标。
作为进一步的优选方案,在模型训练前,所述方法还包括:采用MDA法和 MDG法相结合的方式选取重要性指标,通过模型训练,得到指标重要性分析结果。
作为进一步的优选方案,所述方法还包括:对训练好的所述优质客户识别模 型进行集成,通过数据接口收集用户特征数据,定期进行优质客户的识别,将待 识别客户的价值特征作为输入,基于所述优质客户识别模型,判断所述客户是否 为优质客户。
本发明的第二目的是提供一种基于随机森林和决策树的优质客户识别装置。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于随机森林和决策树的优质客户识别装置,包括存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现所述的一种基于随机森林和决策树的优质客户识别方法。
本发明的第三目的是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时 执行所述的一种基于随机森林和决策树的优质客户识别方法。
本发明的有益效果
1、本发明以电网公司客户的用电属性、用电行为、用电特征等海量数据为 基础,采用机器学习的技术手段,实现了优质客户的识别,为针对优质客户提供 优质服务提供了保障,有助于提升电网企业竞争力。
2、本发明采用随机森林和决策树相结合的方式进行客户识别模型的训练, 所述识别模型能够在识别客户是否优质的基础上,判断优质客户的业务规则释义, 进一步实现了优质客户的精准定位。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请 的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明基于随机森林和决策树的优质客户识别方法流程图;
图2为本发明基于决策树算法构建优质客户业务规则释义模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部 的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都属于本发明保护的范围。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。 除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域 的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限 制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出, 否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使 用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或 它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方 法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每 个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代 码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可 执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以 按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可 以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及 的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或 框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系 统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下 面结合附图与实施例对本发明作进一步说明。
实施例一
本实施例公开了一种基于随机森林和决策树的优质客户识别方法,如图1 所示,包括以下步骤:
步骤(1):获取样本客户价值特征,并进行样本客户的优质性判别;
步骤(2):采用样本客户数据,基于随机森林和决策树算法进行训练,构建 优质客户识别模型;
步骤(3):将待识别客户的价值特征作为输入,基于所述优质客户识别模型, 判断所述客户是否为优质客户。
步骤(1)为数据准备阶段
1、建立客户价值评价特征指标体系:
收集电网公司客户的档案信息、经济价值类信息、负荷价值类信息、发展价 值类信息、信用价值类信息、行业价值类信息,综合分析各种影响客户综合价值 的因素,以电网公司客户的用电属性、用电行为、用电特征等海量数据为基础, 建立多维度的客户价值评价特征指标体系。
通过客户集中研讨及客户调研,实现各地市样本客户优质性判别,为模型训 练提供数据基础。
依据优质客户为电网公司带来的各种价值特征为基础,梳理客户的各项用电 指标,依据客户价值角度对指标进行归类,构建客户评价指标体系,对指标标准 化处理,并进行多维度汇总,为判断客户优质特性提供数据基础。
2、确定模型训练样本:
通过与地市专家讨论确定的优质客户指标体系,基于营销业务应用系统、用 电信息采集系统,分别统计出样本客户对应的基本属性、经济价值、负荷价值、 发展价值、信用价值、行业价值数据,以此作为模型训练样本。本实施例中对 47.4万样本客户用电行为特征数据进行了专家评判,标注了是否优质。
用户属性:户号、户名、行业分类、是否高耗能和用电类别。
经济价值:客户用电给供电企业所带来的盈利情况,如售电均价较高、用电 量较大、电费较多的客户。包括:当期售电均价、当期电费、当期电量、累计售 电均价、累计电费、累计电量、合同容量和运行容量。
负荷价值:客户在用电过程中表现出来的电力负荷价值,如功率因素较大、 平均负荷率高、低谷用电率较好的客户。包括:平均日负荷率、高峰用电率、低 谷用电率和力调系数。
发展价值:客户自身用电发展较好的,未来贡献较大的客户,能给公司带来 持续的利润贡献。包括:当期电量增长率、近3个月电量增长率、近6个月电量 增长率、近一年电量增长率、增容次数和减容次数。
信用价值:信用是供用电双方完成交易的基本保障,能够依法用电、按时交 纳电费的客户。包括:电费预收结转率、电费回款逾期天数、电费回款逾期次数、 电费回款期、支票退票次数和违约窃电次数。
行业价值:考虑客户的行业发展前景,行业整体用电水平的发展较好。包括: 行业电量增长率、行业大类电量增长率和行业小类电量增长率。
在数据准备阶段,还进行了待识别客户监督源的标准制定工作,即制定作为 有效的监督源应该满足的业务范畴,并对待识别客户进行初步的筛选,只有在该 业务范畴内产出的监督源,我们才认为是有效的待识别客户。
本实施例中对47.4万样本客户用电行为特征数据进行了专家评判,标注了 是否优质。
步骤(2)为数据处理阶段和模型训练阶段。
步骤(2-1):数据处理阶段
当今数据库极易受噪声、丢失数据和不一致数据的侵扰,数量太大,并且多 半来自多个异构数据源,导致数据质量较低,低质量的数据将导致数据分析的结 果不准确,因此在模型训练之前,需要进行数据预处理。本方案的数据预处理主 要从特征因素量化、异常值处理、连续变量处理等方面展开。
1、数据清洗
通过数据超限值检验、特征有效性检验、数据空值检验,对数据进行清洗。
超限检查:检查用电量和电费电价均为0的记录并予以删除,用电量和电费 电价均为0表示用户都不用电,即都不生产,其相关其他特征也不具特征性。
特征有效性检查:检查用户重要性特征信息过于单一的记录,仅有少数属于 重要用户。
空值检查:检查暂停天数字段全空和电费回款逾期天数缺失严重的记录。暂 停天数字段全空表示暂停天数全用户都缺失;检查电费回款逾期天数,发现字段 记录为空,但具体业务为未逾期。
2、特征因素量化
从营销系统或其他系统采集来的用户档案、节假日和天气等信息都是用文字 或代号表示的,需要对这类变量进行数值化表示。
户名、户号、行业、行业小类、行业大类、高耗能行业、重要性等级等42 个字段特征。分类如下:1)用户属性信息;2)经济价值;3)负荷价值;4)发 展价值;5)信用价值;6)行业价值。
因子化转换:(采用0/1/2/3...数字编码来表达)行业、行业小类、行业大 类、高耗能行业、重要性等级、用电类别、电压等级、所在区域、投资规模、产 能规模、负荷性质;
3、特征拓展:
1)归一化拓展:(将用户数据值设置为[0-1]之内数据作为特征)电费、合 同容量、近一年平均售电量、近6个月平均售电量、近3个月平均售电量、运行 容量;
2)离散化拓展:(将用户数据值按大小分段作为特征)电费、合同容量、近 一年平均售电量、近6个月平均售电量、近3个月平均售电量、运行容量;
3)排序特征拓展:(将用户数据值按大小排序作为特征)电费、合同容量、 近一年平均售电量、近6个月平均售电量、近3个月平均售电量、运行容量;
4)量少数据编码拓展:(onehot 0/1编码)增容次数、减容次数、陈欠电 费、陈欠电费占比、违约窃电次数。
4、特征选择:
针对用户属性特征,观测数据的分布均衡情况,初步分析这些维度特征对是 否优质和需求项的影响。
针对5类价值特征,观测数据的分布均衡情况,初步分析这些维度特征对是 否优质和需求项的影响。查看是否具有关联特性。
综合降维,探索尝试多种方法,综合各种方法的结果进行降维。
5、异常值处理
采集数据存在未采集或异常数据的情况,档案类数据也存在缺失的情况,需 要针对这部分数据进行缺失值处理,根据不同业务规则选用不同的缺失值处理方 法:
默认值替换:对于某些档案中如负荷性质、电压等级的情况,按普遍的业务 规则设置默认值进行计算。
个案剔除法:如果缺失值所占比例比较少,且确实的属性比较重要,则采用 个案剔除法,剔除掉该条数据。例如用户档案信息中若用户id丢失,则直接剔 除掉该条数据。
均值替换法:如果缺失值是数值类型的,则用前后数据的平均值来填充缺失 的数据。
如果缺失值是非数值类型的,则用该属性的众数来补齐缺失的数据。
热卡填充法:在数据集中选择一个与缺失数据对象最相似的对象,用该对象 的值代替缺失值。
步骤(2-2):模型训练阶段
本实施例采用随机森林和决策树法进行模型训练。
1、基于随机森林法训练优质客户判断模型
重要性指标选取
采用以下两种方法进行重要性指标选取:一种是基于OOB误差的方法,称为 MDA(Mean Decrease Accuracy);另一种是基于Gini不纯度的方法,称为MDG (Mean DecreaseGini)。两种方法都是标量值越大表示变量越重要。通过模型 训练,得到指标重要性分析结果,对比两种方法得到的重要性指标,具体如下表:
表1
结合以上重要性指标,确定13个指标为重要性指标,具体如下:
表2
通过随机森林法对训练数据进行训练及优化,找出用电行为特征值与用户是 否优质之间的对应关系,生成判断客户是否优质的模型。
在本实施例中,采用如下训练过程,实现模型逐步调整,从模型稳定性和准 确性两个维度开展模型有效性分析,实现模型逐步调整。具体的训练过程如下:
全特征训练:样本选取全部47.4万户,模型入参为全部业务指标;
重要特征训练:样本选取全部47.4万户,模型入参为重要性高的前40%指 标;
全特征交叉训练:将全部样本平均拆分成10份,每次选择其中9份作为训 练样本,剩余1份作为预测样本,循环迭代10次,模型入参为全部业务指标;
重要特征交叉训练:将全部样本平均拆分成10份,每次选择其中9份作为 训练样本,剩余1份作为预测样本,循环迭代10次,模型入参为重要性高的前 40%指标。
其中,通过分析模型输入变量的显著性系数p进行噪声认定,噪声变量将不 纳入模型。
本实施例总计收集47.4万条数据,通过数据清洗,剔除掉3.94万条样本客 户。模型训练过程共计应用43.5条样本,其中10.06万户为优质客户,33.39万 户为非优质客户,优质与非优质样本的比例0.3比1。
2、采用决策树算法构建优质客户业务规则释义模型,如图2所示;
随机森林模型训练结果好,作为优质客户识别主模型,但该随机森林方法的 释义性较差;而决策树则能够给出判断优质客户的业务规则释义,将决策树算法 作为优质客户识别辅助模型。
决策树算法对47.4万条样本客户,进行各种组合判断,最终会对每组分支得 出最优的评价标准,理想情况下,每组分支最终的结果应该全部为优质或非优质, 如下描述两组分支分析说明:
I、决策树模型得出当力调系数≤-0.001且当期电费>40235.03且累计售电 均价≤1.12,有98.2%的概率户为优质用户;是由于目前所提供的指标属性,算 法对此分支的用户无法进一步细化,故此无法100%判断优质与否;
II、决策树模型得出当力调系数>-0.001且当期电费≤3566.49且累计电 费≤481560时,有100%的概率为非优质用户。
步骤(3):将待识别客户的价值特征作为输入,基于所述优质客户识别模型, 判断所述客户是否为优质客户。
步骤(3)为模型部署应用阶段
对训练好的所述优质客户识别模型进行集成,通过数据接口收集用户特征数 据,定期进行优质客户的识别,将待识别客户的价值特征作为输入,基于所述优 质客户识别模型,判断所述客户是否为优质客户。
实施例二
本实施例的目的是提供一种基于随机森林和决策树的优质客户识别装置。
一种基于随机森林和决策树的优质客户识别装置,包括存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现以下步骤,包括:
步骤(1):获取样本客户价值特征,并进行样本客户的优质性判别;
步骤(2):采用样本客户数据,基于随机森林和决策树算法进行训练,构建 优质客户识别模型;
步骤(3):将待识别客户的价值特征作为输入,基于所述优质客户识别模型, 判断所述客户是否为优质客户。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时 执行以下步骤:
步骤(1):获取样本客户价值特征,并进行样本客户的优质性判别;
步骤(2):采用样本客户数据,基于随机森林和决策树算法进行训练,构建 优质客户识别模型;
步骤(3):将待识别客户的价值特征作为输入,基于所述优质客户识别模型, 判断所述客户是否为优质客户。
以上实施例二和三的装置中涉及的各步骤与方法实施例一相对应,具体实施 方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为 包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质, 所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行 本发明中的任一方法。
在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用 于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可 以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例 如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设 备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体 的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存 储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、 软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上 述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的 电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个 计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下 载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传 输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设 备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算 机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或 者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言 包括面向对象的编程语言—诸如C++等,以及常规的过程式编程语言—诸如“C” 语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、 部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上 部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远 程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或 广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序 指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵 列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从 而实现本公开内容的各个方面。
本发明的有益效果
1、本发明以电网公司客户的用电属性、用电行为、用电特征等海量数据为 基础,采用机器学习的技术手段,实现了优质客户的识别,为针对优质客户提供 优质服务提供了保障,有助于提升电网企业竞争力。
2、本发明采用随机森林和决策树相结合的方式进行客户识别模型的训练, 所述识别模型能够在识别客户是否优质的基础上,判断优质客户的业务规则释义, 进一步实现了优质客户的精准定位。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算 机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而, 可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集 成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。 本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保 护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本 领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的 保护范围以内。
Claims (10)
1.一种基于随机森林和决策树的优质客户识别方法,其特征在于,包括以下步骤:
获取样本客户价值特征,并进行样本客户的优质性判别;
采用样本客户数据,基于随机森林和决策树算法进行训练,构建优质客户识别模型;
将待识别客户的价值特征作为输入,基于所述优质客户识别模型,判断所述客户是否为优质客户。
2.如权利要求1所述的一种基于随机森林和决策树的优质客户识别方法,其特征在于,所述获取样本客户价值特征并进行样本客户的优质性判别的具体步骤包括:
选择样本客户,获取样本客户的用户各项用电信息,并对其影响客户综合价值进行分析,构建多维度的客户价值评价特征指标体系;
根据所述指标体系统计样本客户的价值特征,并进行样本客户优质性判别。
3.如权利要求1或2所述的一种基于随机森林和决策树的优质客户识别方法,其特征在于,所述获取样本客户价值特征中价值特征包括用户对应的基本属性、经济价值、负荷价值、发展价值、信用价值、行业价值数据。
4.如权利要求1所述的一种基于随机森林和决策树的优质客户识别方法,其特征在于,所述采用样本客户数据,基于随机森林和决策树算法进行训练,构建优质客户识别模型的具体步骤包括:
对样本客户数据进行预处理;
基于随机森林法构建优质客户判断模型;
基于决策树算法构建优质客户业务规则释义模型;
采用预处理后的样本客户数据对优质客户判断模型和优质客户业务规则释义模型进行模型训练,构建优质客户识别模型。
5.如权利要求4所述的一种基于随机森林和决策树的优质客户识别方法,其特征在于,所述对样本客户数据进行预处理的具体步骤包括:数据清洗、特征因素量化、特征拓展、特征选择和异常值处理。
6.如权利要求5所述的一种基于随机森林和决策树的优质客户识别方法,其特征在于,所述数据清洗为通过数据超限值检验、特征有效性检验和数据空值检验,对数据进行清洗;
所述数据超限值检验为检查样本客户数据中用电量和电费电价均为0的记录并予以删除;所述特征有效性检验为检查样本客户数据中用户重要性特征信息过于单一的记录;所述数据空值检验为检查暂停天数字段全空和电费回款逾期天数缺失严重的记录。
7.如权利要求4所述的一种基于随机森林和决策树的优质客户识别方法,其特征在于,所述采用预处理后的样本客户数据对优质客户判断模型和优质客户业务规则释义模型进行模型训练的具体步骤包括:依次进行全特征训练、重要特征训练、全特征交叉训练和重要特征交叉训练;
所述全特征训练:样本选取全部样本客户数据,模型入参为全部业务指标;
所述重要特征训练:样本选取全部样本客户数据,模型入参为重要性高的前40%指标;
所述全特征交叉训练:将样本客户数据平均拆分成10份,每次选择其中9份作为训练样本,剩余1份作为预测样本,循环迭代10次,模型入参为全部业务指标;
所述重要特征交叉训练:将样本客户数据平均拆分成10份,每次选择其中9份作为训练样本,剩余1份作为预测样本,循环迭代10次,模型入参为重要性高的前40%指标。
8.如权利要求4所述的一种基于随机森林和决策树的优质客户识别方法,其特征在于,在模型训练前,所述方法还包括:采用MDA法和MDG法相结合的方式选取重要性指标,通过模型训练,得到指标重要性分析结果。
9.一种基于随机森林和决策树的优质客户识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行如权利要求1-8任一项所述的一种基于随机森林和决策树的优质客户识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028005.3A CN108154311A (zh) | 2018-01-11 | 2018-01-11 | 基于随机森林和决策树的优质客户识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028005.3A CN108154311A (zh) | 2018-01-11 | 2018-01-11 | 基于随机森林和决策树的优质客户识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108154311A true CN108154311A (zh) | 2018-06-12 |
Family
ID=62461393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810028005.3A Pending CN108154311A (zh) | 2018-01-11 | 2018-01-11 | 基于随机森林和决策树的优质客户识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108154311A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034729A (zh) * | 2018-07-02 | 2018-12-18 | 深圳市诺信连接科技有限责任公司 | 一种合同自动管理方法 |
CN109255480A (zh) * | 2018-08-30 | 2019-01-22 | 中国平安人寿保险股份有限公司 | 间佣率预测方法、装置、计算机设备及存储介质 |
CN110033307A (zh) * | 2019-01-04 | 2019-07-19 | 国网浙江省电力有限公司电力科学研究院 | 一种基于机器学习模型的电力优质客户筛选方法 |
CN110619010A (zh) * | 2019-09-23 | 2019-12-27 | 税友软件集团股份有限公司 | 一种推销信息处理装置、相关方法及相关装置 |
CN111091408A (zh) * | 2019-10-30 | 2020-05-01 | 北京天元创新科技有限公司 | 用户识别模型创建方法、装置与识别方法、装置 |
CN113591018A (zh) * | 2021-07-30 | 2021-11-02 | 中国联合网络通信集团有限公司 | 通信客户分类管理方法、系统、电子设备及存储介质 |
-
2018
- 2018-01-11 CN CN201810028005.3A patent/CN108154311A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034729A (zh) * | 2018-07-02 | 2018-12-18 | 深圳市诺信连接科技有限责任公司 | 一种合同自动管理方法 |
CN109034729B (zh) * | 2018-07-02 | 2023-01-31 | 深圳市诺信连接科技有限责任公司 | 一种合同自动管理方法 |
CN109255480A (zh) * | 2018-08-30 | 2019-01-22 | 中国平安人寿保险股份有限公司 | 间佣率预测方法、装置、计算机设备及存储介质 |
CN110033307A (zh) * | 2019-01-04 | 2019-07-19 | 国网浙江省电力有限公司电力科学研究院 | 一种基于机器学习模型的电力优质客户筛选方法 |
CN110619010A (zh) * | 2019-09-23 | 2019-12-27 | 税友软件集团股份有限公司 | 一种推销信息处理装置、相关方法及相关装置 |
CN111091408A (zh) * | 2019-10-30 | 2020-05-01 | 北京天元创新科技有限公司 | 用户识别模型创建方法、装置与识别方法、装置 |
CN113591018A (zh) * | 2021-07-30 | 2021-11-02 | 中国联合网络通信集团有限公司 | 通信客户分类管理方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388974A (zh) | 基于随机森林和决策树的优质客户优化识别方法及装置 | |
CN108280541A (zh) | 基于随机森林和决策树的客户服务策略制定方法、装置 | |
CN108154311A (zh) | 基于随机森林和决策树的优质客户识别方法及装置 | |
CN109063945B (zh) | 一种基于价值评估体系的售电公司360度客户画像构建方法 | |
CN107958043B (zh) | 一种电网工程预算清单自动生成方法 | |
CN107818344A (zh) | 用户行为进行分类和预测的方法和系统 | |
CN108389069A (zh) | 基于随机森林和逻辑回归的优质客户识别方法及装置 | |
CN108388955A (zh) | 基于随机森林和逻辑回归的客户服务策略制定方法、装置 | |
CN108364191A (zh) | 基于随机森林和逻辑回归的优质客户优化识别方法及装置 | |
CN110555782A (zh) | 一种基于大数据的科学用电模型构建系统及方法 | |
CN107609771A (zh) | 一种供应商价值评价方法 | |
CN108596467B (zh) | 一种适于售电公司的市场运营模拟交易仿真系统 | |
CN110119948A (zh) | 基于时变权重动态组合的电力用户信用评价方法及系统 | |
CN108629632A (zh) | 预测用户收入的方法、装置及计算机可读存储介质 | |
CN110427418A (zh) | 一种基于客户能源价值指标体系的客户分析分群方法 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN106294882A (zh) | 数据挖掘方法以及装置 | |
CN114943565A (zh) | 基于智能算法的电力现货价格预测方法及装置 | |
CN115130811A (zh) | 电力用户画像的建立方法、装置及电子设备 | |
CN116187808A (zh) | 一种基于虚拟电厂用户-套餐标签画像的电力套餐推荐方法 | |
CN105359172A (zh) | 计算企业存在拖欠的概率 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN115310752A (zh) | 面向能源大数据的数据资产价值评价方法及系统 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN110188255A (zh) | 基于业务数据共享融合的电力用户行为挖掘方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180612 |