CN114398941A

CN114398941A - 一种用户缴费行为分类方法、装置、设备及可读存储介质

Info

Publication number: CN114398941A
Application number: CN202111492981.2A
Authority: CN
Inventors: 韩娟; 杜丽洁; 郑岳; 姜帅; 孙源; 温馨; 田梦雨; 李爱青; 王新新; 仝天
Original assignee: Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Current assignee: Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-26

Abstract

本发明提供一种用户缴费行为分类方法、装置、设备及可读存储介质，包括：获取用户缴费行为数据，根据用户缴费行为特征，构建特征指标样本集；设定聚类数目K和截断距离，计算特征指标样本集中各样本点的密度和距离，确定每个样本点的决策值；对特征指标样本集内样本点的决策值进行降序排序，选取前K个样本点作为初始聚类中心；根据初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体。这样，可以实现用户缴费群体的科学分类，从而支撑差异化、精准化催费策略的制定，提高催费效率，降低催费成本。

Description

一种用户缴费行为分类方法、装置、设备及可读存储介质

技术领域

本发明属于数据分析应用技术领域，尤其涉及一种用户缴费行为分类方法、装置、设备及可读存储介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

电费催收作为电力公司的主要工作之一，具有面向用户数量多、客户需求差异大等特点，传统催收方式无法灵活适应电力客户的需求与外在变化形势。目前电费催费业务存在着以下问题：

一是服务质量无法保障。存在催费员业务水平参差不齐、催费方式不恰当等问题，容易导致与客户沟通不畅，存在服务投诉风险，影响供电公司企业形象。此外，随着社会经济发展水平提升，用电客户数量逐年递增，人力催收任务繁重。

二是电费催收效率低。传统电费催收采取“人工+短信”的方式，催费员无法根据客户的服务需求和交费习惯优化催费策略，只能被动性执行传统催费流程。对于联系信息不准确的用户，仅能通过多次短信催收无效后再进行人工电话催收，更或者需要人工上门催收才能获取用户正确的联系方式，催收工作计划性不足；对于交费习惯良好的欠费用户，无法进行筛选分类，进行批量化短信催收，因此催费工作针对性不强，催费员无法实现“一对多”精准管控，精准营销成效不高，电费催收效率低下。

三是电费催收成本高。如用户在网上国网等线上渠道活跃度较高，通过站内信、消息提醒即可实现电费催收目的。而对于自身交费习惯良好的用户及系统内联系信息错误的用户等，进行短信催收本质上也是一种浪费。此外，每年约有大量的欠费用户需催费员上门张贴电费通知单，耗费大量人力物力财力。

因此，亟需提供一种用户缴费行为分类方法，使其能够支撑差异化、精准化催费策略的制定。

发明内容

为了解决上述问题，本发明的第一个方面提供一种用户缴费行为分类方法，通过分析用户缴费特征数据，筛选出用户缴费的特征指标，利用聚类算法设计用户的分群模型，以实现用户缴费群体的科学分类，从而支撑差异化、精准化催费策略的制定，重构电费催收模式，提高催费效率，降低催费成本。

为了实现上述目的，本发明主要包括以下几个方面：

第一方面，本发明实施例提供一种用户缴费行为分类方法，包括：

获取用户缴费行为数据，根据用户缴费行为特征，构建特征指标样本集；

设定聚类数目K和截断距离，计算所述特征指标样本集中各样本点的密度和距离，根据样本点的密度和距离，确定每个样本点的决策值；

对所述特征指标样本集内样本点的决策值进行降序排序，选取前K个样本点作为初始聚类中心；

根据所述初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体。

在一种可能的实施方式中，所述用户缴费行为数据包括：用户基础数据和用户缴费相关数据，其中，所述用户基础数据包括用户类型、户名、用户行业、所属站点、年月、所处台区，所述用户缴费相关数据包括缴费渠道、缴费金额、缴费周期、欠费次数、违约用电次数、用户实名制认证情况、电子账单开通情况；

所述用户缴费行为特征包括：缴费次数、时间间隔、最近一次缴费周期、缴费总额、欠费金额占比，违约金总额。

在一种可能的实施方式中，所述用户缴费行为分类方法还包括：对所述用户缴费行为数据进行预处理，所述预处理包括剔除用户缴费行为数据中的无关数据、重复数据、平滑噪声数据；

采用数据标准化处理，将预处理后的各个数据变换到预设数值范围之内。

在一种可能的实施方式中，通过以下公式确定每个样本点的决策值：

其中，γ_i为第i个样本点的决策值，ρ_i为第i个样本点的密度，δ_i为第i个样本点的距离，n为特征指标样本集中样本点的个数，maxρ样本密度最大值，minρ为样本密度最小值，maxδ为距离最大值，minδ为距离最小值。

在一种可能的实施方式中，所述根据所述初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体，包括：

根据初始聚类中心，计算剩余每个样本点与各类簇的初始聚类中心的距离，并将每个数据对象赋给距其最近的类簇，并计算初始目标函数值；

重新计算每个新簇的均值作为新的类簇中心；

根据新的类簇中心，计算目标函数值；

若目标函数值与初始目标函数值的差值不满足收敛条件，则将新的类簇中心作为初始聚类中心，重新上述步骤，直到目标函数值与初始函数值的差值满足收敛条件，输出聚类结果，确定用户缴费行为群体。

在一种可能的实施方式中，在确定用户缴费行为群体之后，所述用户缴费行为分类方法还包括：

针对不同的用户缴费群体，给出与之对应的催费策略。

在一种可能的实施方式中，所述针对不同的用户缴费群体，给出与之对应的催费策略，包括：

根据缴费结清日，将用户缴费行为群体划分为若干个子群体；

针对不同子群体，采取与各子群体相对应的缴费方式。

第二方面，本发明实施例提供一种用户缴费行为分类装置，包括：

获取模块，用于获取用户缴费行为数据，根据用户缴费行为特征，构建特征指标样本集；

确定模块，用于设定聚类数目K和截断距离，计算所述特征指标样本集中各样本点的密度和距离，根据样本点的密度和距离，确定每个样本点的决策值；

选取模块，用于对所述特征指标样本集内样本点的决策值进行降序排序，选取前K个样本点作为初始聚类中心；

聚类模块，用于根据所述初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体。

第三方面，本发明实施例提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面中任一种可能的实施方式中所述的一种用户缴费行为分类方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面中任一种可能的实施方式中所述的一种用户缴费行为分类方法的步骤。

本发明的有益效果是：

(1)本发明在K-means聚类算法中引入密度的概念，提出了一种新的DCK-means聚类模型，根据样本点的密度和距离，确定特征指标样本集中每个样本点的决策值，根据决策值确定初始聚类中心，可以解决本发明中用户的分群问题，同时提高分类结果的准确率。

(2)本发明对RFM用户价值模型进行了拓展和改进，以催费为研究目标，在模型中延伸了欠费次数、欠费金额、最近一次缴费周期、年总电费等多个指标，用于评估用户缴费的用电情况，缴费及时性等，能够更好的衡量用户缴费行为特征，提升各个字段之间的关联度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所提供的一种用户缴费行为分类方法的流程示意图；

图2是本发明实施例所提供的手肘法选取聚类中心示例图；

图3是本发明实施例决策值散点图显示的初始聚类中心示例图；

图4是本发明实施例所提供的一种用户缴费行为分类方法的分群效果示意图；

图5是本发明实施例所提供的一种用户缴费行为分类方法的架构图；

图6是本发明实施例所提供的一种用户缴费行为分类装置的结构示意图；

图7是本发明实施例所提供的一种计算机设备的示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明针对居民缴费特征的用户分群模型，辅助电力机构进行电费催收，缩短回收周期。首先从电力系统中抽取缴费数据和用电数据，接着在数据处理阶段处理缺失、错误和冗余数据，提高数据质量；随后改进RFM价值模型，构造用户特征矩阵，以无监督学习思想为依托，设计了用户缴费的特征的分群模型，并结合相关算法指标验证了模型的可用性和有效性，将数据应用到模型上，能够对用户进行精准分群。针对分群结果，根据结果中的特征表现设计差异化的催收方式旨在提升电费回收率，缩短回收周期，提升网上国网APP的缴费比率。

实施例一

请参阅图1，图1是本发明实施例所提供的一种用户缴费行为分类方法的流程示意图，如图1中所示，所述用户缴费行为分类方法包括：

S101：获取用户缴费行为数据，根据用户缴费行为特征，构建特征指标样本集。

本发明实施例中，作为一可选实施例，所述用户缴费行为数据包括：用户基础数据和用户缴费相关数据，其中，所述用户基础数据包括用户类型、户名、用户行业、所属站点、年月、所处台区，所述用户缴费相关数据包括缴费渠道、缴费金额、缴费周期、欠费次数、违约用电次数、用户实名制认证情况、电子账单开通情况；

在具体实施中，从电力系统数据库中获取用户缴费行为数据，并从用户缴费行为数据中抽取用户的基础数据及用户缴费相关数据，所述的用户基础数据包括用户类型(低压居民、低压非居)、户名、用户行业、所属站点、年月、所处台区等信息，所述的用户缴费相关数据包括缴费渠道、缴费金额、缴费周期(收到电费通知后的缴费响应速度)、欠费次数、违约用电次数(了解用户电费风险特征)、用户实名制认证情况、电子账单开通情况(高质量用户特征)等。这样，可以有效的整合用户基础数据及缴费相关数据，形成用户分类原始数据。

RFM模型能够反应客户价值和客户创利能力，为了能够更好的衡量用户在缴费这一行为上的积极性，即价值，以辅助催收。本发明对RFM价值模型进行拓展和改进，提出了一种新的价值模型CRFMON模型，通过构造用户缴费的特征指标体系，更好的衡量用户缴费行为特征，提升各个字段之间的关联度。增强聚类效果，CRFMON模型主要指标体系包括缴费次数(C)、时间间隔(R)、最近一次缴费周期(F)、缴费总额(M)、欠费金额占比(O)，违约金总额(N)。

本发明实施例中，作为一可选实施例，所述用户缴费行为分类方法还包括：对所述用户缴费行为数据进行预处理，所述预处理包括剔除用户缴费行为数据中的无关数据、重复数据、平滑噪声数据；

在具体实施中，为了避免不同字段的数据范围对特征指标的筛选结果产生影响，因此采用数据标准化处理，将原始数据集中的各个数据变换到[0,1]的范围之内。数据变换的模型为：

其中，v为用户缴费行为特征项的特征值，min_A为特征指标样本集中该用户缴费行为特征项的最小特征值，max_A为特征指标样本集中该用户缴费行为特征项的最大特征值，new_max_A为预设数值范围的上边界，new_min_A为预设数值范围的下边界。

S102：设定聚类数目K和截断距离，计算所述特征指标样本集中各样本点的密度和距离，根据样本点的密度和距离，确定每个样本点的决策值。

在具体实施中，针对K-means聚类算法需要随机选取初始聚类中心导致分类结果不准确、收敛速度慢的缺点，本发明做出了改进，提出了一种DCK-means聚类分群模型，该模型在算法中引入密度的概念，将初始聚类中心选在密度比较大的区域，避免初始聚类中心对最终聚类效果的影响。

因此，通过决策值选取具体的样本点，决策值构造时包含了密度和距离两个指标，并且构造时设置密度最大时，距离也最大，将决策值进行排序后绘制散点图，决策值大的样本点会分布于散点图的左上角，如图3所示，可以很容易发现初始聚类中心。聚类中心的选取需要兼顾样本点分布的密度和不同聚类中心之间的距离。理想的聚类中心，第一，需要选在数据集中样本分布较密集的区域，第二，不同样本点之间最好保持尽量大的距离，这样聚类分析时才能花费更少时间，取得更好的效果。而仅仅靠密度选取时，无法保障不同聚类中心之间保持一定距离，仅仅靠距离进行选取时，无法保障将聚类中心选在数据分布较密集区域，因此，本发明的聚类中心选取方法具有一定优势，试验证明，新提出的模型分群效果更稳定。

其中，样本点的密度计算公式为：

其中，ρ_i为样本点的密度，d_ij为样本点i和j之间的欧式距离，d_c为截断距离，取所有样本点两两之间距离按升序排列后前2％位置的数值距离作为截断距离。

S103：对所述特征指标样本集内样本点的决策值进行降序排序，选取前K个样本点作为初始聚类中心。

数据对象之间的距离公式为：

对于每个样本点i，首先需要计算局部密度ρ_i和距离δ_j，然后，根据局部密度和距离计算得到决策值。

本申请实施例，作为一可选实施例，通过以下公式确定每个样本点的决策值：

S104：根据所述初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体。

本申请实施例，作为一可选实施例，步骤S104，即根据所述初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体，包括：

重新计算每个新簇的均值作为新的类簇中心；

根据新的类簇中心，计算目标函数值；

本发明利用轮廓系数来评估聚类分群效果。轮廓系数取值范围为[-1,1]，取值越接近1则说明聚类性能越好，相反，取值越接近-1则说明聚类性能越差。某个样本点的轮廓系数的表达式为：

其中，a表示某个样本与其所在簇内其他样本的平均距离，b表示某个样本与其他簇样本的平均距离，将各个样本点的轮廓系数求平均即为总体轮廓系数。

在具体应用中，DCK-means聚类模型的执行过程如下：

输入：用户催缴费特征数据集合；

输出：K个分群结果。

步骤1：如图2中所示，利用手肘法确定聚类数目K；

步骤2：确定截断距离d_c；

步骤3：根据截断距离dc，依据密度计算公式计算每个样本点的密度ρ_i；

步骤4：依据距离计算公式确定距离δ_i；

步骤5：根据

计算特征指标样本集内样本点的决策值，选取前K个样本点作为初始聚类中心，决策值散点图显示的初始聚类中心示例图，如图3中所示；

步骤6：计算剩余每个数据对象与各类簇的中心的距离，并将每个数据对象赋给距其最近的类簇，进行划分；

步骤7：重新计算每个新簇的均值作为新的类簇中心；

步骤8：计算目标函数值；

步骤9：直到目标函数不再发生变化，算法终止，否则，转步骤g。

其中，聚类模型的目标函数为：

其中，p为样本点，m_i为初始聚类中心，k为聚类数目，C_i代表聚类形成的某一个簇。

经过上述步骤得到的分群效果示意图如图4中所示，该方法可以解决用户分群问题，并且分群结果较为准确。

本申请实施例，作为一可选实施例，在确定用户缴费行为群体之后，所述用户缴费行为分类方法还包括：

S105：针对不同的用户缴费群体，给出与之对应的催费策略。

在本申请实施例中，作为一可选实施例，如图5中所示，在确定用户缴费行为群体之后，可以根据用户缴费信息对用户缴费群体进行精细化划分，具体包括以下步骤：

步骤A：根据缴费结清日，将用户缴费行为群体划分为若干个子群体。

在具体实施中，利用聚类分析得到第一层客户分群结果后，从缴费结清日不同的维度进行分析，进一步划分群体为发行日3日内结清群体(群体A)，发行日7日内结清群体(群体B)，发行日20日内结清群体(群体C)，发行日20日尚未结清群体(群体D)。

步骤B：针对不同子群体，采取与各子群体相对应的缴费方式。

在具体实施中，针对群体A，基本可以判断为缴费积极，是预收和代扣类型；群体B特征为交费及时，针对自有渠道用户，站内发送账单，针对第三方渠道，短信发送账单；群体C特征为交费较及时，针对自有渠道用户，站内发送账单与交费提醒，针对第三方渠道，短信发送账单与交费提醒；群体D交费不积极，需进一步开展精细化分群研究。

针对20日尚未结清的群体(群体D)，通过交费人身份、交费人变更、是否更名过户、电量是否突增突减、交费习惯变化次数等维度作为分群因子，开展进一步精细化分群研究，分群结果展示如下：

(1)户主交费群体：若拖欠次数小于等于2次，则该用户为偶尔性欠费，可以通过客户常用的渠道进行缴费提醒；若拖欠次数大于2次，则可判定为经常性欠费，这类用户风险较大，需要推荐合适的缴费方式，从而提升电费回收效率。

(2)非户主交费群体：群体交费及时，需要人工核实交费人身份；拖欠电费的这类群体可以进一步划分为两类，分别为交费人不变(群体a)、交费人变化(群体b)。针对群体a，需要人工核实交费人身份信息，若地域是偏远农村和郊区农村，需要推荐合适的缴费方式；若地域是城镇，租客或亲朋可以推荐适合的缴费方式，未登记的新户主可以办理更名过户。针对群体b，若地域是偏远农村，需要人工核实交费人身份信息，并推荐适合的缴费方式；若地域是郊区农村，人工核实房屋是否出租，并登记租客信息，推荐适合的缴费方式；若地域是城镇，需要人工核实交费人身份信息，租客或亲朋可以推荐适合的缴费方式，未登记的新户主可以办理更名过户。

(3)无法确定交费人身份群体：根据交费及时情况可以分为两类，交费及时群体(群体c)、交费不及时群体(群体d)。针对群体c，若是有线上渠道绑定信息的，可通过站内信息发送账单与交费提醒，未绑定线上渠道的，通过短信发送账单。针对群体d，联系方式准确的可以采用体验感逐步增强的催费方式，联系方式不准确的，采用人工催收的方式。

目前国网系统各网省公司较少开展智能催费工作，在电费催收过程中，均面临传统催收模式下工作效率低、催收成本高和服务质量无法保证等问题，电费催收工作无法精准发力。本发明首创客户分群，针对不同特征的群体制定针对性的催收策略，避免盲目催收，实现电费催收由粗放型向精细型转变，大大降低了人力催收成本，压减电费催收时限，提高电费回收效率，提升企业服务水平，同时，基于实名信息识别缴费人身份，判断房屋过户、出租，提前发现和规避电费风险，在国网系统内具有广泛的应用价值。

另外，在社会各行业，如银行、物业、水务等行业，也均面临同样问题和痛点，对更加方便简洁、智能化、精准化、差异化的催费模式有较大需求。本发明创新性实现客户分群，从而支撑差异化催费策略制定，提升催收效率的智能催费服务模式，具有巨大的推广价值。

实施例二

请参阅图6，图6是本发明实施例所提供的深度图像上采样系统的结构示意图。如图6中所示，本实施例提供一种用户缴费行为分类装置600，包括：

获取模块610，用于获取用户缴费行为数据，根据用户缴费行为特征，构建特征指标样本集；

确定模块620，用于设定聚类数目K和截断距离，计算所述特征指标样本集中各样本点的密度和距离，根据样本点的密度和距离，确定每个样本点的决策值；

选取模块630，用于对所述特征指标样本集内样本点的决策值进行降序排序，选取前K个样本点作为初始聚类中心；

聚类模块640，用于根据所述初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体。

实施例三

请参阅图7，图7是本发明实施例的一种计算机设备的示意图。如图7中所示，所述计算机设备700包括处理器710、存储器720和总线730。

所述存储器720存储有所述处理器710可执行的机器可读指令，当计算机设备700运行时，所述处理器710与所述存储器720之间通过总线730通信，所述机器可读指令被所述处理器710执行时，可以执行如上述图1所示方法实施例中的一种用户缴费行为分类方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

实施例四

基于同一申请构思，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法实施例中所述的一种用户缴费行为分类方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户缴费行为分类方法，其特征在于，包括：

2.根据权利要求1所述的用户缴费行为分类方法，其特征在于，所述用户缴费行为数据包括：用户基础数据和用户缴费相关数据，其中，所述用户基础数据包括用户类型、户名、用户行业、所属站点、年月、所处台区，所述用户缴费相关数据包括缴费渠道、缴费金额、缴费周期、欠费次数、违约用电次数、用户实名制认证情况、电子账单开通情况；

3.根据权利要求1所述的用户缴费行为分类方法，其特征在于，所述用户缴费行为分类方法还包括：对所述用户缴费行为数据进行预处理，所述预处理包括剔除用户缴费行为数据中的无关数据、重复数据、平滑噪声数据；

4.根据权利要求1所述的用户缴费行为分类方法，其特征在于，通过以下公式确定每个样本点的决策值：

5.根据权利要求1所述的用户缴费行为分类方法，其特征在于，所述根据所述初始聚类中心，将特征指标样本集中的数据进行聚类，根据聚类结果确定用户缴费行为群体，包括：

重新计算每个新簇的均值作为新的类簇中心；

根据新的类簇中心，计算目标函数值；

6.根据权利要求1所述的用户缴费行为分类方法，其特征在于，在确定用户缴费行为群体之后，所述用户缴费行为分类方法还包括：

针对不同的用户缴费群体，给出与之对应的催费策略。

7.根据权利要求7所述的用户缴费行为分类方法，其特征在于，所述针对不同的用户缴费群体，给出与之对应的催费策略，包括：

针对不同子群体，采取与各子群体相对应的缴费方式。

8.一种用户缴费行为分类装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的一种用户缴费行为分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任意一项所述的一种用户缴费行为分类方法的步骤。