CN114389962A - 宽带流失用户确定方法、装置、电子设备和存储介质 - Google Patents

宽带流失用户确定方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114389962A
CN114389962A CN202111613823.8A CN202111613823A CN114389962A CN 114389962 A CN114389962 A CN 114389962A CN 202111613823 A CN202111613823 A CN 202111613823A CN 114389962 A CN114389962 A CN 114389962A
Authority
CN
China
Prior art keywords
value
quantized
broadband
user
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111613823.8A
Other languages
English (en)
Inventor
张婉璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202111613823.8A priority Critical patent/CN114389962A/zh
Publication of CN114389962A publication Critical patent/CN114389962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种宽带流失用户确定方法、装置、电子设备和存储介质,通过预警模型来预测流失用户,以实现对用户的提前预测。本申请实施例中,从数据库中提取与宽带用户关联的多种指标;将多种指标输入预警模型中,以根据每个指标对应的权重对宽带用户进行流失概率预测;进而可以确定出宽带流失用户。在本申请实施例中,将与宽带用户关联的指标输入预警模型,进而实现对用户的预测,提高预测效率,缩短对宽带用户预测的时长,进而提高对宽带流失用户的挽回的时效性,达到了提高对宽带流失用户的挽回效果。

Description

宽带流失用户确定方法、装置、电子设备和存储介质
技术领域
本申请涉及数据分析技术领域,尤其涉及一种宽带流失用户确定方法、装置、电子设备和存储介质。
背景技术
针对宽带用户流失的问题,相关技术中通常会进行提前预警,在进行提前预警时通常采用的技术手段是数据统计分析技术,即:采集用户消费、宽带用户登录次数、上网时长、使用流量等指标,对指标进行统计、分析和监控,预测用户是否有流失倾向,以判断是否需要采取相关措施挽留客户。
但是,在相关技术中采用的流失预警方法,存在以下问题:数据统计分析方法需要对用户的指标进行先统计再分析,两个计算步骤使得计算速度降低,进而使得对宽带用户预测时长较长,导致预测效率低下。
发明内容
本申请的目的是提供一种宽带流失用户确定方法、装置、电子设备和存储介质,通过预警模型来预测流失用户,提高预测的效率,缩短对宽带用户预测的时长。
第一方面,本申请实施例提供了一种宽带流失用户确定方法,所述方法包括:
从数据库中提取与宽带用户关联的多种指标;其中,所述多种指标表征所述宽带用户在网络中的活跃程度;
将所述多种指标输入预警模型中,以根据每个指标对应的权重对所述宽带用户进行流失概率预测;其中,所述预警模型是基于正样本和负样本得到,所述正样本包括与活跃用户关联的多种指标,所述负样本包括与不活跃用于关联的多种指标;
若所述宽带用户的流失概率大于预设值,则确定所述宽带用户为宽带流失用户,其中所述宽带流失用户为在预设时间内离网的宽带用户。
在本申请实施例中,将与宽带用户关联的指标输入预警模型,进而实现对用户的预测,提高预测的效率,缩短对宽带用户预测的时长,进而提高对宽带流失用户的挽回的时效性,达到了提高对宽带流失用户的挽回效果。
在一些可能的实施例中,所述预警模型是根据以下方法得到的:
基于所述正样本和所述负样本,对预警模型进行多轮训练,直到所述预警模型输出的宽带用户的流失概率与所述正样本和负样本中的宽带用户的流失概率之间的误差在预设误差范围内;
其中,每轮训练过程包括下列步骤:
将第一样本输入所述预警模型,以第一样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第一样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第一样本中的宽带用户的流失概率和所述第一样本中的宽带用户的流失概率值确定第一损失值;
将第二样本输入所述预警模型,以第二样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第二样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第二样本中的宽带用户的流失概率和所述第二样本中的宽带用户的流失概率值确定第二损失值;
基于所述第一损失值和所述第二损失值对所述预警模型进行参数调整;
其中,若所述第一样本为正样本,则所述第二样本为负样本;若所述第二样本为正样本,则所述第一样本为负样本。
在本申请中,根据正样本和负样本对预警模型进行训练,使得预警模型更加的准确。
在一些可能的实施例中,所述基于所述正样本和所述负样本,对预警模型进行多轮训练之前,所述方法还包括:
构建第一指标集合和第二指标集合;其中,所述第一指标集合由与活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成,所述第二指标集合由与不活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成;
对所述第一指标集合中的量化值中的第一异常值和所述第二指标集合中的量化值中的第二异常值进行纠正处理;其中,所述第一异常值为所述第一指标集合中大于第一上限值或小于第一下限值的量化值;所述第二异常值为第二指标集合中大于第二上限值或小于第二下限值的量化值。
在本申请实施例中,在对预警模型进行训练之前,对指标中的异常值进行纠正处理,进一步保证了建模数据的纯度。
在一些可能的实施例中,所述构建第一指标集合和第二指标集合之后,所述方法还包括:
若确定所述第一指标集合中存在没有对应量化值的指标,则将第一预设值作为所述没有量化值的指标对应的量化值进行填充;
若确定所述第二指标集合中存在没有对应量化值的指标,则采用第二预设值作为所述没有量化值的指标对应的量化值。
在本申请中,为了进一步提高正样本和负样本的纯度,因此采用预设值对样本中的缺失量化值的指标进行填充。
在一些可能的实施例中,所述第一异常值是根据以下方法确定的:
将所述第一指标集合中的指标按照对应的量化值的大小进行排序,得到第一量化值序列,并确定所述第一量化值序列的第一上限值和第一下限值;将大于第一上限值的量化值或小于第一下限值的量化值作为第一异常值;
所述第二异常值是根据以下方法确定的:
将所述第二指标集合中的指标按照对应的量化值的大小进行排序,得到第二量化值序列;并确定所述第二量化值序列的第二上限值和第二下限值;将大于第二上限值的量化值或小于第二下限值的量化值作为第二异常值。
在本申请中,根据上限值和下限值确定异常值,避免了极端的样本对模型训练的影响。
在一些可能的实施例中,所述确定所述第一量化值序列的第一上限值和第一下限值,包括:
选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值;
根据与所述第一指定位置的量化值和所述第二指定位置的量化值确定所述第一量化值序列的第一上限值和第一下限值;
所述确定所述第二量化值序列的第二上限值和第二下限值,包括:
选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值;
根据与所述第三指定位置的量化值和所述第四指定位置的量化值确定所述第二量化值序列的第二上限值和第二下限值。
在一些可能的实施例中,所述选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值,包括:
确定所述第一量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第一量化值序列的四分之一处的量化值,所述下四分位数为所述第一量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第一指定位置,将所述下四分位数作为所述第二指定位置;
所述选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值,包括:
确定所述第二量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第二量化值序列的四分之一处的量化值,所述下四分位数为所述第二量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第三指定位置,将所述下四分位数作为所述第四指定位置。
在本申请中,根据上四分位数确定上限值并根据下四分位数确定下限值,使得对上限值和下限值的确定更加的准确。
在一些可能的实施例中,所述对第一指标集合中的量化值中的第一异常值和第二指标集合中的量化值中的第二异常值进行纠正处理,包括:
采用所述第一上限值替换大于所述第一指标集合第一上限值的异常值;
采用所述第一下限值替换小于所述第一指标集合第一下限值的异常值;
采用所述第二上限值替换大于所述第二指标集合第二上限值的异常值;
采用所述第二下限值替换小于所述第二指标集合第二下限值的异常值。
在本申请实施例中,采用上限值和下限值替换样本中的异常值,进一步的提高的样本的纯度,使得对预警模型的训练更加的准确。
第二方面本申请还提供了一种宽带流失用户确定装置,所述装置包括:
提取模块,用于从数据库中提取与宽带用户关联的多种指标;其中,所述多种指标表征所述宽带用户在网络中的活跃程度;
预测模块,用于将所述多种指标输入预警模型中,以根据每个指标对应的权重对所述宽带用户进行流失概率预测;其中,所述预警模型是基于正样本和负样本得到,所述正样本包括与活跃用户关联的多种指标,所述负样本包括与不活跃用于关联的多种指标;
确定模块,用于若所述宽带用户的流失概率大于预设值,则确定所述宽带用户为宽带流失用户,其中所述宽带流失用户为在预设时间内离网的宽带用户。
在一些可能的实施例中,所述预警模型是所述预测模块根据以下方法得到的:
基于所述正样本和所述负样本,对预警模型进行多轮训练,直到所述预警模型输出的宽带用户的流失概率与所述正样本和负样本中的宽带用户的流失概率之间的误差在预设误差范围内;
其中,每轮训练过程包括下列步骤:
将第一样本输入所述预警模型,以第一样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第一样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第一样本中的宽带用户的流失概率和所述第一样本中的宽带用户的流失概率值确定第一损失值;
将第二样本输入所述预警模型,以第二样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第二样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第二样本中的宽带用户的流失概率和所述第二样本中的宽带用户的流失概率值确定第二损失值;
基于所述第一损失值和所述第二损失值对所述预警模型进行参数调整;
其中,若所述第一样本为正样本,则所述第二样本为负样本;若所述第二样本为正样本,则所述第一样本为负样本。
在一些可能的实施例中,所述预测模块执行基于所述正样本和所述负样本,对预警模型进行多轮训练之前,还被配置为:
构建第一指标集合和第二指标集合;其中,所述第一指标集合由与活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成,所述第二指标集合由与不活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成;
对所述第一指标集合中的量化值中的第一异常值和所述第二指标集合中的量化值中的第二异常值进行纠正处理;其中,所述第一异常值为所述第一指标集合中大于第一上限值或小于第一下限值的量化值;所述第二异常值为第二指标集合中大于第二上限值或小于第二下限值的量化值。
在一些可能的实施例中,所述预测模块执行构建第一指标集合和第二指标集合之后,还被配置为:
若确定所述第一指标集合中存在没有对应量化值的指标,则将第一预设值作为所述没有量化值的指标对应的量化值进行填充;
若确定所述第二指标集合中存在没有对应量化值的指标,则采用第二预设值作为所述没有量化值的指标对应的量化值。
在一些可能的实施例中,所述第一异常值是根据以下方法确定的:
将所述第一指标集合中的指标按照对应的量化值的大小进行排序,得到第一量化值序列,并确定所述第一量化值序列的第一上限值和第一下限值;将大于第一上限值的量化值或小于第一下限值的量化值作为第一异常值;
所述第二异常值是根据以下方法确定的:
将所述第二指标集合中的指标按照对应的量化值的大小进行排序,得到第二量化值序列;并确定所述第二量化值序列的第二上限值和第二下限值;将大于第二上限值的量化值或小于第二下限值的量化值作为第二异常值。
在一些可能的实施例中,所述预测模块执行确定所述第一量化值序列的第一上限值和第一下限值时,被配置为:
选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值;
根据与所述第一指定位置的量化值和所述第二指定位置的量化值确定所述第一量化值序列的第一上限值和第一下限值;
所述确定所述第二量化值序列的第二上限值和第二下限值,包括:
选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值;
根据与所述第三指定位置的量化值和所述第四指定位置的量化值确定所述第二量化值序列的第二上限值和第二下限值。
在一些可能的实施例中,所述预测模块执行选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值时,被配置为:
确定所述第一量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第一量化值序列的四分之一处的量化值,所述下四分位数为所述第一量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第一指定位置,将所述下四分位数作为所述第二指定位置;
所述选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值,包括:
确定所述第二量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第二量化值序列的四分之一处的量化值,所述下四分位数为所述第二量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第三指定位置,将所述下四分位数作为所述第四指定位置。
在一些可能的实施例中,所述预测模块执行对第一指标集合中的量化值中的第一异常值和第二指标集合中的量化值中的第二异常值进行纠正处理时,被配置为:
采用所述第一上限值替换大于所述第一指标集合第一上限值的异常值;
采用所述第一下限值替换小于所述第一指标集合第一下限值的异常值;
采用所述第二上限值替换大于所述第二指标集合第二上限值的异常值;
采用所述第二下限值替换小于所述第二指标集合第二下限值的异常值。
第三方面,本申请另一实施例还提供了一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面实施例提供的任一方法。
第四方面,本申请另一实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行本申请第一方面实施例提供的任一方法。
第五方面,本申请另一实施例还提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行本申请第一方面实施例提供的任一方法。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种宽带流失用户确定方法的应用场景图;
图2为本申请实施例提供的一种宽带流失用户确定方法的整体流程示意图;
图3为本申请实施例提供的一种宽带流失用户确定方法的训练预警模型的流程示意图;
图4A为本申请实施例提供的一种宽带流失用户确定方法的对数据进行稽核的流程示意图;
图4B为本申请实施例提供的一种宽带流失用户确定方法的质差与流失概率关联关系示意图;
图4C为本申请实施例提供的一种宽带流失用户确定方法的登录次数与流失概率关联关系示意图;
图4D为本申请实施例提供的一种宽带流失用户确定方法的实收套餐比与流失概率关联关系示意图;
图5为本申请实施例提供的一种宽带流失用户确定方法的确定第一异常值的流程示意图;
图6为本申请实施例提供的一种宽带流失用户确定方法的确定第二异常值的流程示意图;
图7为本申请实施例提供的一种宽带流失用户确定方法的流失概率示意图;
图8为本申请实施例提供的一种宽带流失用户确定方法的用户分类可视化示意图;
图9为本申请实施例提供的一种宽带流失用户确定方法的装置示意图;
图10为本申请实施例提供的一种宽带流失用户确定方法的电子设备示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
发明人研究发现,针对宽带用户流失的问题,相关技术中通常会进行提前预警,在进行提前预警时通常采用的技术手段是数据统计分析技术,即:采集用户消费、宽带用户登录次数、上网时长、使用流量等指标,对指标进行统计、分析和监控,预测用户是否有流失倾向,以判断是否需要采取相关措施挽留客户。但是,在相关技术中采用的流失预警方法,存在以下问题:数据统计分析方法宽带用户预测时长较长,进而导致预测效率低下。
有鉴于此,本申请提出了一种宽带流失用户确定方法、装置、电子设备和存储介质,用于解决上述问题。本申请的发明构思可概括为:从数据库中提取与宽带用户关联的多种指标;将多种指标输入预警模型中,以根据每个指标对应的权重对宽带用户进行流失概率预测;进而可以确定出宽带流失用户。
为了便于理解,下面结合附图对本申请实施例提供的一种宽带流失用户确定方法进行详细说明:
如图1所示,为本申请实施例中的宽带流失用户确定方法的应用场景图。图中包括:服务器10、数据库20、终端设备30;其中:
响应于技术人员在终端设备30上触发的预测指令,服务器10从数据库20中提取与宽带用户关联的多种指标;其中,多种指标表征宽带用户在网络中的活跃程度;然后将多种指标输入预警模型中,以根据每个指标对应的权重对宽带用户进行流失概率预测;其中,预警模型是基于正样本和负样本得到,正样本包括与活跃用户关联的多种指标,负样本包括与不活跃用于关联的多种指标;若宽带用户的流失概率大于预设值,则确定宽带用户为宽带流失用户,其中宽带流失用户为在预设时间内离网的宽带用户。
本申请中的描述中仅就单个服务器或终端设备加以详述,但是本领域技术人员应当理解的是,示出的终端设备30、服务器10和数据库20旨在表示本申请的技术方案涉及的终端设备、服务器以及数据库的操作。对单个服务器和数据库加以详述至少为了说明方便,而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意,如果向图1所示环境中添加附加模块或从其中去除个别模块,不会改变本申请的示例实施例的底层概念。
需要说明的是,本申请实施例中的数据库例如可以是缓存系统、也可以是硬盘存储、内存存储等等。此外,本申请提出的宽带流失用户确定方法不仅适用于图1所示的应用场景,还适用于任何有宽带流失用户确定需求的装置。
如图2所示,为本申请实施例提供的一种宽带流失用户确定方法的流程示意图,其中:
步骤201中:从数据库中提取与宽带用户关联的多种指标;其中,多种指标表征宽带用户在网络中的活跃程度;
步骤202中:将多种指标输入预警模型中,以根据每个指标对应的权重对宽带用户进行流失概率预测;其中,预警模型是基于正样本和负样本得到,正样本包括与活跃用户关联的多种指标,负样本包括与不活跃用于关联的多种指标;
步骤203中:若宽带用户的流失概率大于预设值,则确定宽带用户为宽带流失用户,其中宽带流失用户为在预设时间内离网的宽带用户。
为了便于理解,下面首先对训练预警模型的过程进行详细说明:
在本申请实施例中,为了提升预警模型对宽带用户预测的准确性,因此构建了正样本和负样本。基于正样本和负样本,对预警模型进行多轮训练,直到预警模型输出的宽带用户的流失概率与正样本和负样本中的宽带用户的流失概率之间的误差在预设误差范围内。其中每轮的训练过程可实施为如图3所示的步骤:
步骤301中:将第一样本输入预警模型,以第一样本中的宽带用户的流失概率值为期望输出训练预警模型,获取预警模型输出的第一样本中的宽带用户的流失概率;
步骤302中:根据预警模型输出的第一样本中的宽带用户的流失概率和第一样本中的宽带用户的流失概率值确定第一损失值;
步骤303中:将第二样本输入预警模型,以第二样本中的宽带用户的流失概率值为期望输出训练预警模型,获取预警模型输出的第二样本中的宽带用户的流失概率;
步骤304中:根据预警模型输出的第二样本中的宽带用户的流失概率和第二样本中的宽带用户的流失概率值确定第二损失值;
步骤305中:基于第一损失值和第二损失值对预警模型进行参数调整;其中,若第一样本为正样本,则第二样本为负样本;若第二样本为正样本,则第一样本为负样本。
例如:在第一轮训练中,首先将正样本作为第一样本输入预警模型,得到预警模型输出的正样本中的宽带用户的流失概率,并得到的第一损失值;然后再将负样本作为第二样本输入预警模型,得到预警模型输出的负样本中的宽带用户的流失概率,并得到第二损失值;基于第一损失值和第二损失值对预警模型的参数进行调节。
综上,经过多轮训练后,预警模型输出的宽带用户的流失概率和正样本和负样本中的宽带用户的流失概率之间的误差在预设误差范围内;在具体实施时仅需将与用户关联的指标输入预警模型即可得到用户的流失概率,提高预测的效率,缩短对宽带用户预测的时长。在用户有流失倾向之前确定出宽带流失用户,进而提高对宽带流失用户的挽回的时效性,达到了提高对宽带流失用户的挽回效果。
需要知道的是,本申请对采用正样本训练预警模型和采用负样本训练预警模型的顺序不作限定,即可以先采用正样本训练预警模型再采用负样本训练预警模型,也可以先采用负样本训练预警模型再采用正样本训练预警模型。
在本申请实施例中,为了保证正样本和负样本中数据的纯度,为了使得训练得到的预警模型更加的准确,因此,在本申请中,在训练预警模型之前,可采用如图4A所示的步骤,对数据进行稽核:
步骤401中:构建第一指标集合和第二指标集合;其中,第一指标集合由与活跃用户关联的多种指标中的指定指标和指定指标的量化值构成,第二指标集合由与不活跃用户关联的多种指标中的指定指标和指定指标的量化值构成;
步骤402中:对第一指标集合中的量化值中的第一异常值和第二指标集合中的量化值中的第二异常值进行纠正处理;其中,第一异常值为第一指标集合中大于第一上限值或小于第一下限值的量化值;第二异常值为第二指标集合中大于第二上限值或小于第二下限值的量化值。
相关技术中通常采用用户消费、用户主动通信行为等指标,对指标进行统计、分析和监控,预测用户是否有流失倾向,但是该方法对指标的选取有一定的局限性。因此,在本申请实施例中,为了保证建模的普适性,选取较多的指标,为了便于理解,下面对指标中的具有代表性的部分进行说明,如表1所示:
Figure BDA0003436016290000141
表1
下面以最近一年宽带质差次数为例介绍本申请中选取表1所示的指标的原因,如图4B所示,最近一年宽带质差次数与流失概率之间的关联关系如图表4B,其中,出现质差次数大于5次的客户流失的概率明显比宽带质差次数小于5次的客户流失的概率高。如图4C所示,用户宽带登录次数与流失概率之间的关联关系,其中登录数小于50次的客户流失概率明显比登录次数大于50次的客户流失概率高。如图4D所示,用户实收套餐比与流失概率之间的关联关系,其中实收套餐比小于0.5的流失概率明显比实收套餐比大于0.5的流失概率高。
为了便于理解,首先对构建第一指标集合和第二指标集合进行举例说明,例如:假设选取的指标为:客户当月实际收入、近一月是否异网客户接触、宽带上网时长平均值、客户下宽带总数;则第一指标集合中包含:与活跃用户关联的指标,以及指标对应的量化值;即:客户当月实际收入5000、4500、6800、4300;近一月是否异网客户接触0、0、1、0;宽带上网时长平均值7.5、4.3、4.2、6.7;客户下宽带总数1、1、2、1。第二指标集合中包括:与不活跃用户关联的指标以及指标对应的量化值,即:客户当月实际收入6000、3000、4500、4300;近一月是否异网客户接触1、1、1、0;宽带上网时长平均值1、0.3、2、0;客户下宽带总数2、2、2、1。
在构建第一指标集合和第二指标集合后,需要对第一指标集合和第二指标集合中的异常值进行纠正处理,下面分三部分进行说明:
1、确定第一异常值
在本申请实施例中,确定第一指标集合中的第一异常值的方法可实施为如图5所示的步骤,其中:
步骤501中:将第一指标集合中的指标按照对应的量化值的大小进行排序,得到第一量化值序列;
例如:针对第一指标集合中的客户当月实际收入对应的量化值3200、4500、19600、5600、6400、5200、3300、4600、5300、5600、按照大小进行排序,得到第一量化值序列:3200、3300、4500、4600、5200、5300、5600、5600、6400、19600。
步骤502中:确定第一量化值序列的第一上限值和第一下限值;
在本申请中,确定第一上限值和第一下限值的方法可实施为以下方法:
首先选取第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值;然后根据与第一指定位置的量化值和第二指定位置的量化值确定第一量化值序列的第一上限值和第一下限值。
在一些可能的实施例中,本申请为了计算方便,且易实现,因此本申请中可将第一量化值序列的上四分位数作为第一指定位置,将第一量化值序列的下四分位数作为第二指定位置。其中,上四分位数为所述第一量化值序列的四分之一处的量化值,所述下四分位数为所述第一量化值序列的四分之三处的量化值。例如:第一量化值序列为:3200、3300、4500、4600、5200、5300、5600、5600、6400、19600;则上四分位数为3900,下四分位数为:6000。
步骤503中:将大于第一上限值的量化值或小于第一下限值的量化值作为第一异常值。
例如:第一量化值序列为:3200、3300、4500、4600、5200、5300、5600、5600、6400、19600;则上四分位数为3900,下四分位数为:6000,则第一异常值为:3200、3300、6400、19600。
2、确定第二异常值
在本申请实施例中,确定第二指标集合中的第二异常值的方法可实施为如图6所示的步骤,其中:
步骤601中:将所述第二指标集合中的指标按照对应的量化值的大小进行排序,得到第二量化值序列;
例如:针对第二指标集合中的宽带上网时长平均值对应的量化值1.2、2.5、1.1、1.1、1.8、4.6、1.2、1.3、1.7、2.2、按照大小进行排序,得到第二量化值序列:1.1、1.1、1.2、1.2、1.3、1.7、1.8、2.2、2.5、4.6。
步骤602中:确定所述第二量化值序列的第二上限值和第二下限值;
在本申请中,确定第二上限值和第二下限值的方法可实施为以下方法:
首先选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值;然后根据与所述第三指定位置的量化值和所述第四指定位置的量化值确定所述第二量化值序列的第二上限值和第二下限值。
在一些可能的实施例中,本申请为了计算方便,且易实现,因此本申请中可将第二量化值序列的上四分位数作为第三指定位置,将第二量化值序列的下四分位数作为第四指定位置。其中,上四分位数为所述第二量化值序列的四分之一处的量化值,所述下四分位数为所述第二量化值序列的四分之三处的量化值。例如:第二量化值序列为:1.1、1.1、1.2、1.2、1.3、1.7、1.8、2.2、2.5、4.6;则上四分位数为1.15,下四分位数为:2.35。
步骤603中:将大于第二上限值的量化值或小于第二下限值的量化值作为第二异常值。
例如:第二量化值序列为1.1、1.1、1.2、1.2、1.3、1.7、1.8、2.2、2.5、4.6;上四分位数为1.15,下四分位数为:2.35,则第一异常值为:1.1、1.1、2.5、4.6。
3、对异常值进行纠正处理
在本申请中,为了进一步的使得预警模型的输出结果更加准确,因此本申请中,在确定出第一异常值和第二异常值后,需要对异常值进行纠正处理,在本申请中,采用盖帽法对异常值进行纠正,即:采用第一上限值替换大于第一指标集合第一上限值的异常值;采用第一下限值替换小于第一指标集合第一下限值的异常值;采用第二上限值替换大于第二指标集合第二上限值的异常值;采用第二下限值替换小于第二指标集合第二下限值的异常值。
例如:第一量化值序列为:3200、3300、4500、4600、5200、5300、5600、5600、6400、19600;则上四分位数为3900,下四分位数为:6000,则第一异常值为:3200、3300、6400、19600;采用3900替换3200、3300,采用6000替换6400、19600;第二量化值序列为1.1、1.1、1.2、1.2、1.3、1.7、1.8、2.2、2.5、4.6;上四分位数为1.15,下四分位数为:2.35,则第一异常值为:1.1、1.1、2.5、4.6;采用1.15替换1.1、1.1,采用2.35替换2.5、4.6。
当然其他可以纠正异常值的方法同样适用于本申请,例如:采用众数或平均值替换异常值,本申请对此不作限定,本领域的技术人员可根据自己的需求确定纠正异常值的方法。
在本申请实施例中,为了使得样本更加的丰富,因此可能存在获取不到对应量化值的指标,但是若该指标参与预警模型的训练势必会对预警模型的准确性造成影响,因此,本申请中为了进一步的提高预警模型的准确性,针对第一指标集合和第二指标集合分别进行以下处理:
1、针对第一指标集合
若确定第一指标集合中存在没有对应量化值的指标,则将第一预设值作为没有量化值的指标对应的量化值进行填充。
例如:针对第一指标集合中的客户当月实际收入对应的量化值获取情况如下:3200、空缺1、19600、5600、6400、5200、空缺2、4600、5300、5600;则要对两处空缺进行填充,可采用第一预设值进行填充,在一些实施例中,第一预设值可以为该指标对应的量化值的众数或平均数,也可以为技术人员指定的数值,假设技术人员指定的数值为4500,则采用4500对空缺1空缺2进行填充。
2、针对第二指标集合
若确定第二指标集合中存在没有对应量化值的指标,则采用第二预设值作为没有量化值的指标对应的量化值。
针对第二指标集合中的宽带上网时长平均值对应的量化值获取情况如下:1.2、2.5、1.1、1.1、空缺1、2.1、1.2、空缺2、1.7、2.2;则要对两处空缺进行填充,可采用第二预设值进行填充,在一些实施例中,第二预设值可以为该指标对应的量化值的众数或平均数,也可以为技术人员指定的数值,假设技术人员指定的数值为1.5,则采用1.5对空缺1空缺2进行填充。
当然需要知道的是,第一预设值和第二预设值可以相同,也可以不同,本申请对此不作限定。
在本申请实施例中,在得到正样本和负样本后,采用lightGBM(Light GradientBoosting Machine)算法来训练预警模型,LightGBM算法使用基于直方图的算法,即它将连续的特征值存储到离散的区间中,从而加快训练过程。将连续值替换为离散的区间,从而降低内存使用率。比任何其他提升算法(boosting)都更精确,与XGBoost相比,具有更快的训练效率、低内存使用、更高的准确率,且速度快将近10倍,内存占用率大约为XGBoost的1/6,并且准确率也有提升。
由于本申请中,对预警模型进行训练时采用的多种指标,如表2所示为本申请实施例提供的一个指标重要性排名示意表:
指标名称 指标重要性
宽带登录次数环比 8.38%
宽带使用时长环比 6.42%
宽带最后一次上网时间 5.84%
客户实收 5.26%
实收套餐比 4.95%
近一年质差次数 4.86%
宽带使用流量变化率 4.41%
宽带月平均使用时长 4.01%
客户在网时长 3.70%
宽带登录次数变化率 3.65%
宽带速度变化率 3.30%
月平均宽带使用流量 3.21%
月平均宽带登录次数 3.07%
客户年龄 3.03%
是否本网宽带+异网移动 2.99%
近一月是否异网客服接触 2.99%
预存款余额 2.85%
近一年报障次数 2.63%
活跃状态是否改变 2.63%
有效产品数 2.58%
是否安装itv 2.41%
有效宽带数 2.41%
近三月产品减少数 2.23%
月实际收入中位数 2.23%
近三月实收是否降低 2.09%
欠费金额 2.01%
客户主套餐档位 2.01%
月实际收入总和 1.96%
预存款余额 1.92%
表2
当然在具体实施时,技术人员可根据需求自行设定指标的重要程度,表2中仅为本申请给出的一个实施例。
例如:如图7所示,为本申请实施例提供的将用户指标输入预警模型之后,得到的用户的流失概率的示意图,若预设值为0.5,则流失用户为:用户A、用户B、用户C。
综上,可根据预警模型的输出结果确定宽带用户的流失概率,根据宽带用户的流失概率可确定出宽带流失用户,在本申请实施例中,针对宽带流失用户,可分为以下四类:高消费宽带客户、异常沉默竞争策反客户、合约到期客户、宽带质差报障客户。在得到每个宽带用户的流失概率之后,可根据流失用户的类型生成如图8所示的可视化表,以便于技术人员根据用户的不同类别针对性进行挽回。
针对不同类别的用户可采用不同挽回策略。例如:针对高消费宽带客户进行优先维挽策略,针对异常沉默竞争策反客户进行关怀回访维挽策略,针对合约到期客户进行续约优惠维挽策略,针对宽带质差报障客户结合装维工程师工单维挽策略。当然在具体实施时,可根据技术人员的需求,自行设定挽回策略以及对宽带流失用户的分类标准。
如图9所示,基于相同的发明构思,提出一种宽带流失用户确定装置900,所述装置包括:
提取模块9001,用于从数据库中提取与宽带用户关联的多种指标;其中,所述多种指标表征所述宽带用户在网络中的活跃程度;
预测模块9002,用于将所述多种指标输入预警模型中,以根据每个指标对应的权重对所述宽带用户进行流失概率预测;其中,所述预警模型是基于正样本和负样本得到,所述正样本包括与活跃用户关联的多种指标,所述负样本包括与不活跃用于关联的多种指标;
确定模块9003,用于若所述宽带用户的流失概率大于预设值,则确定所述宽带用户为宽带流失用户,其中所述宽带流失用户为在预设时间内离网的宽带用户。
在一些可能的实施例中,所述预警模型是所述预测模块9002根据以下方法得到的:
基于所述正样本和所述负样本,对预警模型进行多轮训练,直到所述预警模型输出的宽带用户的流失概率与所述正样本和负样本中的宽带用户的流失概率之间的误差在预设误差范围内;
其中,每轮训练过程包括下列步骤:
将第一样本输入所述预警模型,以第一样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第一样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第一样本中的宽带用户的流失概率和所述第一样本中的宽带用户的流失概率值确定第一损失值;
将第二样本输入所述预警模型,以第二样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第二样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第二样本中的宽带用户的流失概率和所述第二样本中的宽带用户的流失概率值确定第二损失值;
基于所述第一损失值和所述第二损失值对所述预警模型进行参数调整;
其中,若所述第一样本为正样本,则所述第二样本为负样本;若所述第二样本为正样本,则所述第一样本为负样本。
在一些可能的实施例中,所述预测模块9002执行基于所述正样本和所述负样本,对预警模型进行多轮训练之前,还被配置为:
构建第一指标集合和第二指标集合;其中,所述第一指标集合由与活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成,所述第二指标集合由与不活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成;
对所述第一指标集合中的量化值中的第一异常值和所述第二指标集合中的量化值中的第二异常值进行纠正处理;其中,所述第一异常值为所述第一指标集合中大于第一上限值或小于第一下限值的量化值;所述第二异常值为第二指标集合中大于第二上限值或小于第二下限值的量化值。
在一些可能的实施例中,所述预测模块9002执行构建第一指标集合和第二指标集合之后,还被配置为:
若确定所述第一指标集合中存在没有对应量化值的指标,则将第一预设值作为所述没有量化值的指标对应的量化值进行填充;
若确定所述第二指标集合中存在没有对应量化值的指标,则采用第二预设值作为所述没有量化值的指标对应的量化值。
在一些可能的实施例中,所述第一异常值是根据以下方法确定的:
将所述第一指标集合中的指标按照对应的量化值的大小进行排序,得到第一量化值序列,并确定所述第一量化值序列的第一上限值和第一下限值;将大于第一上限值的量化值或小于第一下限值的量化值作为第一异常值;
所述第二异常值是根据以下方法确定的:
将所述第二指标集合中的指标按照对应的量化值的大小进行排序,得到第二量化值序列;并确定所述第二量化值序列的第二上限值和第二下限值;将大于第二上限值的量化值或小于第二下限值的量化值作为第二异常值。
在一些可能的实施例中,所述预测模块9002执行确定所述第一量化值序列的第一上限值和第一下限值时,被配置为:
选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值;
根据与所述第一指定位置的量化值和所述第二指定位置的量化值确定所述第一量化值序列的第一上限值和第一下限值;
所述确定所述第二量化值序列的第二上限值和第二下限值,包括:
选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值;
根据与所述第三指定位置的量化值和所述第四指定位置的量化值确定所述第二量化值序列的第二上限值和第二下限值。
在一些可能的实施例中,所述预测模块9002执行选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值时,被配置为:
确定所述第一量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第一量化值序列的四分之一处的量化值,所述下四分位数为所述第一量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第一指定位置,将所述下四分位数作为所述第二指定位置;
所述选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值,包括:
确定所述第二量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第二量化值序列的四分之一处的量化值,所述下四分位数为所述第二量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第三指定位置,将所述下四分位数作为所述第四指定位置。
在一些可能的实施例中,所述预测模块9002执行对第一指标集合中的量化值中的第一异常值和第二指标集合中的量化值中的第二异常值进行纠正处理时,被配置为:
采用所述第一上限值替换大于所述第一指标集合第一上限值的异常值;
采用所述第一下限值替换小于所述第一指标集合第一下限值的异常值;
采用所述第二上限值替换大于所述第二指标集合第二上限值的异常值;
采用所述第二下限值替换小于所述第二指标集合第二下限值的异常值。
在介绍了本申请示例性实施方式的宽带流失用户确定方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的宽带流失用户确定方法中的步骤。
下面参照图10来描述根据本申请的这种实施方式的电子设备130。图10显示的电子设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图10中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的一种宽带流失用户确定方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种宽带流失用户确定方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于宽带流失用户确定的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种宽带流失用户确定方法,其特征在于,所述方法包括:
从数据库中提取与宽带用户关联的多种指标;其中,所述多种指标表征所述宽带用户在网络中的活跃程度;
将所述多种指标输入预警模型中,以根据每个指标对应的权重对所述宽带用户进行流失概率预测;其中,所述预警模型是基于正样本和负样本得到,所述正样本包括与活跃用户关联的多种指标,所述负样本包括与不活跃用于关联的多种指标;
若所述宽带用户的流失概率大于预设值,则确定所述宽带用户为宽带流失用户,其中所述宽带流失用户为在预设时间内离网的宽带用户。
2.根据权利要求1所述的方法,其特征在于,所述预警模型是根据以下方法得到的:
基于所述正样本和所述负样本,对预警模型进行多轮训练,直到所述预警模型输出的宽带用户的流失概率与所述正样本和负样本中的宽带用户的流失概率之间的误差在预设误差范围内;
其中,每轮训练过程包括下列步骤:
将第一样本输入所述预警模型,以第一样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第一样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第一样本中的宽带用户的流失概率和所述第一样本中的宽带用户的流失概率值确定第一损失值;
将第二样本输入所述预警模型,以第二样本中的宽带用户的流失概率值为期望输出训练所述预警模型,获取所述预警模型输出的所述第二样本中的宽带用户的流失概率;
根据所述预警模型输出的所述第二样本中的宽带用户的流失概率和所述第二样本中的宽带用户的流失概率值确定第二损失值;
基于所述第一损失值和所述第二损失值对所述预警模型进行参数调整;
其中,若所述第一样本为正样本,则所述第二样本为负样本;若所述第二样本为正样本,则所述第一样本为负样本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述正样本和所述负样本,对预警模型进行多轮训练之前,所述方法还包括:
构建第一指标集合和第二指标集合;其中,所述第一指标集合由与活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成,所述第二指标集合由与不活跃用户关联的多种指标中的指定指标和所述指定指标的量化值构成;
对所述第一指标集合中的量化值中的第一异常值和所述第二指标集合中的量化值中的第二异常值进行纠正处理;其中,所述第一异常值为所述第一指标集合中大于第一上限值或小于第一下限值的量化值;所述第二异常值为第二指标集合中大于第二上限值或小于第二下限值的量化值。
4.根据权利要求3所述的方法,其特征在于,所述构建第一指标集合和第二指标集合之后,所述方法还包括:
若确定所述第一指标集合中存在没有对应量化值的指标,则将第一预设值作为所述没有量化值的指标对应的量化值进行填充;
若确定所述第二指标集合中存在没有对应量化值的指标,则采用第二预设值作为所述没有量化值的指标对应的量化值。
5.根据权利要求3所述的方法,其特征在于,所述第一异常值是根据以下方法确定的:
将所述第一指标集合中的指标按照对应的量化值的大小进行排序,得到第一量化值序列,并确定所述第一量化值序列的第一上限值和第一下限值;将大于第一上限值的量化值或小于第一下限值的量化值作为第一异常值;
所述第二异常值是根据以下方法确定的:
将所述第二指标集合中的指标按照对应的量化值的大小进行排序,得到第二量化值序列;并确定所述第二量化值序列的第二上限值和第二下限值;将大于第二上限值的量化值或小于第二下限值的量化值作为第二异常值。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第一量化值序列的第一上限值和第一下限值,包括:
选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值;
根据与所述第一指定位置的量化值和所述第二指定位置的量化值确定所述第一量化值序列的第一上限值和第一下限值;
所述确定所述第二量化值序列的第二上限值和第二下限值,包括:
选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值;
根据与所述第三指定位置的量化值和所述第四指定位置的量化值确定所述第二量化值序列的第二上限值和第二下限值。
7.根据权利要求6所述的方法,其特征在于,所述选取所述第一量化值序列中的第一指定位置的量化值和第二指定位置的量化值,包括:
确定所述第一量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第一量化值序列的四分之一处的量化值,所述下四分位数为所述第一量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第一指定位置,将所述下四分位数作为所述第二指定位置;
所述选取所述第二量化值序列中的三指定位置的量化值和第四指定位置的量化值,包括:
确定所述第二量化值序列的上四分位数和下四分位数;其中,所述上四分位数为所述第二量化值序列的四分之一处的量化值,所述下四分位数为所述第二量化值序列的四分之三处的量化值;
将所述上四分位数作为所述第三指定位置,将所述下四分位数作为所述第四指定位置。
8.根据权利要求3所述的方法,其特征在于,所述对第一指标集合中的量化值中的第一异常值和第二指标集合中的量化值中的第二异常值进行纠正处理,包括:
采用所述第一上限值替换大于所述第一指标集合第一上限值的异常值;
采用所述第一下限值替换小于所述第一指标集合第一下限值的异常值;
采用所述第二上限值替换大于所述第二指标集合第二上限值的异常值;
采用所述第二下限值替换小于所述第二指标集合第二下限值的异常值。
9.一种宽带流失用户确定装置,其特征在于,所述装置包括:
提取模块,用于从数据库中提取与宽带用户关联的多种指标;其中,所述多种指标表征所述宽带用户在网络中的活跃程度;
预测模块,用于将所述多种指标输入预警模型中,以根据每个指标对应的权重对所述宽带用户进行流失概率预测;其中,所述预警模型是基于正样本和负样本得到,所述正样本包括与活跃用户关联的多种指标,所述负样本包括与不活跃用于关联的多种指标;
确定模块,用于若所述宽带用户的流失概率大于预设值,则确定所述宽带用户为宽带流失用户,其中所述宽带流失用户为在预设时间内离网的宽带用户。
10.一种电子设备,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任何一项所述的方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行权利要求1-8任何一项所述的方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
CN202111613823.8A 2021-12-27 2021-12-27 宽带流失用户确定方法、装置、电子设备和存储介质 Pending CN114389962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111613823.8A CN114389962A (zh) 2021-12-27 2021-12-27 宽带流失用户确定方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111613823.8A CN114389962A (zh) 2021-12-27 2021-12-27 宽带流失用户确定方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114389962A true CN114389962A (zh) 2022-04-22

Family

ID=81198430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111613823.8A Pending CN114389962A (zh) 2021-12-27 2021-12-27 宽带流失用户确定方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114389962A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116886571A (zh) * 2023-09-07 2023-10-13 武汉博易讯信息科技有限公司 针对家庭宽带用户的分析方法、设备及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108039977A (zh) * 2017-12-21 2018-05-15 广州市申迪计算机系统有限公司 一种基于用户上网行为的电信用户流失预测方法及装置
CN109741098A (zh) * 2018-12-27 2019-05-10 中国联合网络通信集团有限公司 宽带离网预测方法、设备及存储介质
CN113657635A (zh) * 2020-05-12 2021-11-16 中国移动通信集团湖南有限公司 一种预测通信用户流失的方法及电子设备
CN113706187A (zh) * 2021-07-13 2021-11-26 杭州电子科技大学 一种基于时空图卷积的电信用户流失行为预测方法及系统
CN113827978A (zh) * 2021-08-17 2021-12-24 杭州电魂网络科技股份有限公司 一种流失用户预测方法、装置及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108039977A (zh) * 2017-12-21 2018-05-15 广州市申迪计算机系统有限公司 一种基于用户上网行为的电信用户流失预测方法及装置
CN109741098A (zh) * 2018-12-27 2019-05-10 中国联合网络通信集团有限公司 宽带离网预测方法、设备及存储介质
CN113657635A (zh) * 2020-05-12 2021-11-16 中国移动通信集团湖南有限公司 一种预测通信用户流失的方法及电子设备
CN113706187A (zh) * 2021-07-13 2021-11-26 杭州电子科技大学 一种基于时空图卷积的电信用户流失行为预测方法及系统
CN113827978A (zh) * 2021-08-17 2021-12-24 杭州电魂网络科技股份有限公司 一种流失用户预测方法、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116886571A (zh) * 2023-09-07 2023-10-13 武汉博易讯信息科技有限公司 针对家庭宽带用户的分析方法、设备及计算机可读介质
CN116886571B (zh) * 2023-09-07 2023-11-21 武汉博易讯信息科技有限公司 针对家庭宽带用户的分析方法、设备及计算机可读介质

Similar Documents

Publication Publication Date Title
US7437446B2 (en) Reporting of abnormal computer resource utilization data
CN102081622B (zh) 评估系统健康度的方法及系统健康度评估装置
Jin et al. Nevermind, the problem is already fixed: proactively detecting and troubleshooting customer dsl problems
CN107608862B (zh) 监控告警方法、监控告警装置及计算机可读存储介质
US8903801B2 (en) Fully automated SQL tuning
RU2716029C1 (ru) Система мониторинга качества и процессов на базе машинного обучения
CN110930052A (zh) 一种变电设备故障率预测方法,系统,设备及可读存储介质
WO2022116922A1 (zh) 磁盘失效预测方法、预测模型训练方法、电子设备
CN109542742A (zh) 基于专家模型的数据库服务器硬件健康评估方法
CN113986595A (zh) 一种异常定位方法及装置
CN116258484A (zh) 设备的预测性运维方案生成方法、装置、终端设备和介质
CN114389962A (zh) 宽带流失用户确定方法、装置、电子设备和存储介质
EP3981077A1 (en) Method and device for facilitating storage of data from an industrial automation control system or power system
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN113673822B (zh) 一种弹性调度方法及系统
KR20200126766A (ko) Ict 인프라의 운용 관리 장치 및 방법
CN115701890B (zh) 调整告警规则的方法及相关设备
CN102547789B (zh) 端到端业务质量预警方法、装置及系统
US10802943B2 (en) Performance management system, management device, and performance management method
CN116185797A (zh) 预测服务器资源饱和度的方法、装置及存储介质
CN115543671A (zh) 数据分析方法、装置、设备、存储介质及程序产品
CN113703974A (zh) 一种预测服务器容量的方法及装置
AT&T Untitled
CN111327442B (zh) 基于控制图的投诉预警阈值获取方法及装置
CN109492913B (zh) 一种配电终端的模块化风险预测方法、装置及可存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination