CN107784511A - 一种用户流失预测方法及装置 - Google Patents
一种用户流失预测方法及装置 Download PDFInfo
- Publication number
- CN107784511A CN107784511A CN201610719607.4A CN201610719607A CN107784511A CN 107784511 A CN107784511 A CN 107784511A CN 201610719607 A CN201610719607 A CN 201610719607A CN 107784511 A CN107784511 A CN 107784511A
- Authority
- CN
- China
- Prior art keywords
- user
- evaluated
- trust
- users
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Abstract
本发明涉及数据挖掘技术领域,公开了一种用户流失预测方法及装置,包括:根据待评估用户的通信消费信息,确定与所述待评估用户进行通信的关联用户;根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户;根据每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,确定所述待评估用户的流失概率。本发明提高了用户流失预测的准确性。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种用户流失预测方法及装置。
背景技术
目前,通信市场经历十余年的市场扩张后,用户规模增长日趋缓慢,市场竞争也亦趋于饱和状态,市场发展呈显出新入网用户增长的同时,转网流失的用户也在不断的增长,净增用户数的规模日趋于较低的水平,这不仅直接影响到通信企业利润增长,同时也对运营支撑系统带来了较大的额外性能负荷。为降低用户营销成本及运营支撑系统负荷压力,通信经营战略由用户规模运营逐渐转向存量用户保有及价值提升。由于每个用户使用通信业务和产品的消费偏好、消费额度、使用规律、及对通信服务的要求都因人而异,而且用户的转网不仅仅是简单的用户流失,用户频繁的注销、开户业务可能会导致系统的负荷过大,严重时造成系统瘫痪。因此,面对用户黏性下降、高离网率的市场环境,只有成功地开展存量用户保有、价值提升,才是通信企业有效实现企业经营战略,降低支撑系统负荷的关键所在,而预测潜在用户流失成为了一个亟待解决的技术难题。
现有对用户流失的分析中,一般是对已流失用户过去一段时间的通话、用户服务投诉或交费等信息进行分析,提炼出流失或有流失趋势用户的行为特征,建立用户流失预测模型,将未流失用户与之匹配,从而对用户的流失进行预测。这只是根据用户自身行为进行分析,忽略了用户受到的外界影响,预测的准确性较低。
发明内容
本发明实施例提供一种用户流失预测方法及装置,提高了用户流失预测的准确性。
本发明实施例提供的用户流失预测的异常监测方法包括:
根据待评估用户的通信消费信息,确定与所述待评估用户进行通信的关联用户;
根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户;
根据每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,确定所述待评估用户的流失概率。
可选的,所述根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户,包括:
针对任意一个关联用户,确定每个时间窗口对应的所述待评估用户对所述关联用户的信任度,其中所述信任度为对应的时间窗口内所述待评估用户与所述关联用户之间的通信消费信息与预定时间段内所述待评估用户的所有通信消费信息的比值,预定时间段由时间窗口组成;
根据每个时间窗口对应的信任度,获得所述关联用户对所述待评估用户的影响度。
可选的,所述关联用户对所述待评估用户的影响度满足以下公式:
其中,为关联用户Bi对待评估用户A的影响度,Δtn为第n个时间窗口,为第n个时间窗口对应的待评估用户A对关联用户Bi的信任度,β为待评估用户与关联用户之间的影响因子。
可选的,所述通信消费信息包括通话消费和短信消费;
针对任意一个时间窗口,所述待评估用户对所述关联用户的信任度满足以下公式:
其中,为待评估用户A对关联用户Bi的信任度,为待评估用户A与关联用户Bi之间的通话消费,为待评估用户A与关联用户Bi之间的短信消费,TA为待评估用户A的所有通话消费,MA为待评估用户A的所有短信消费,α为待评估用户A的通话消费与短信消费的重要程度的比例。
可选的,根据下列方式确定所述信任用户的流失概率,包括:
针对任意一个信任用户,确定与所述信任用户匹配的参考用户组的用户流失概率,所述参考用户组的用户流失概率为所述参考用户组中已流失的用户数与所述参考用户组中所有用户数的比值,所述参考用户组为将所有参考用户进行聚类后形成的参考用户的集合;
根据所述与所述信任用户匹配的参考用户组的用户流失概率,确定所述信任用户的流失概率。
可选的,根据下列方式确定与所述信任用户匹配的参考用户组,包括:
根据所述参考用户的多个属性信息,将所有参考用户划分为多个用户群,所述属性信息为所述流失概率对应的消费信息;
针对任意一个用户群,根据所述用户群中每个参考用户的属性信息,确定所述用户群的质心;
根据每个用户群的质心,确定多个初始中心点;
利用所述多个初始中心点,对所有参考用户进行粗聚类,确定多个粗聚类中心;
利用所述多个粗聚类中心,对所有参考用户进行细聚类,确定多个参考用户组;
根据所述信任用户的多个属性信息,以及每个参考用户组的多个属性信息,将所述信任用户与参考用户组进行相似度匹配,确定与所述信任用户匹配的参考用户组;所述参考用户组的一个属性信息为所述参考用户组内所有参考用户相应属性信息的平均值。
可选的,所述根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户之后,还包括:
根据与所述待评估用户匹配的参考用户组的用户流失概率、每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,计算所述待评估用户的流失概率。
可选的,所述待评估用户的流失概率满足以下公式:
其中,P(A)为待评估用户A的流失概率,为与待评估用户A匹配的参考用户组Cx的用户流失概率,k为待评估用户A有k个信任用户,为第i个信任用户Di对待评估用户A的影响度,为与信任用户Di匹配的参考用户组Cy的用户流失概率,δ为待评估用户A的流失概率的影响因子。
一种用户流失预测装置,包括:
关联用户确定模块,用于根据待评估用户的通信消费信息,确定与所述待评估用户进行通信的关联用户;
信任用户确定模块,用于根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户;
流失概率计算模块,用于根据每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,确定所述待评估用户的流失概率。
可选的,所述信任用户确定模块,用于:
针对任意一个关联用户,确定每个时间窗口对应的所述待评估用户对所述关联用户的信任度,其中所述信任度为对应的时间窗口内所述待评估用户与所述关联用户之间的通信消费信息与预定时间段内所述待评估用户的所有通信消费信息的比值,预定时间段由时间窗口组成;
根据每个时间窗口对应的信任度,获得所述关联用户对所述待评估用户的影响度。
可选的,所述信任用户确定模块具体用于:
根据以下公式确定所述关联用户对所述待评估用户的影响度:
其中,为关联用户Bi对待评估用户A的影响度,Δtn为第n个时间窗口,为第n个时间窗口对应的待评估用户A对关联用户Bi的信任度,β为待评估用户与关联用户之间的影响因子。
可选的,所述通信消费信息包括通话消费和短信消费;
所述信任用户确定模块,具体用于针对任意一个时间窗口,根据以下公式确定所述待评估用户对所述关联用户的信任度:
其中,为待评估用户A对关联用户Bi的信任度,为待评估用户A与关联用户Bi之间的通话消费,为待评估用户A与关联用户Bi之间的短信消费,TA为待评估用户A的所有通话消费,MA为待评估用户A的所有短信消费,α为待评估用户A的通话消费与短信消费的重要程度的比例。
可选的,所述流失概率计算模块,用于:
针对任意一个信任用户,确定与所述信任用户匹配的参考用户组的用户流失概率,所述参考用户组的用户流失概率为所述参考用户组中已流失的用户数与所述参考用户组中所有用户数的比值,所述参考用户组为将所有参考用户进行聚类后形成的参考用户的集合;
根据所述与所述信任用户匹配的参考用户组的用户流失概率,确定所述信任用户的流失概率。
可选的,所述流失概率计算模块,具体用于:
根据所述参考用户的多个属性信息,将所有参考用户划分为多个用户群,所述属性信息为所述流失概率对应的消费信息;
针对任意一个用户群,根据所述用户群中每个参考用户的属性信息,确定所述用户群的质心;
根据每个用户群的质心,确定多个初始中心点;
利用所述多个初始中心点,对所有参考用户进行粗聚类,确定多个粗聚类中心;
利用所述多个粗聚类中心,对所有参考用户进行细聚类,确定多个参考用户组;
根据所述信任用户的多个属性信息,以及每个参考用户组的多个属性信息,将所述信任用户与参考用户组进行相似度匹配,确定与所述信任用户匹配的参考用户组;所述参考用户组的一个属性信息为所述参考用户组内所有参考用户相应属性信息的平均值。
可选的,所述流失概率计算模块,还用于:
根据与所述待评估用户匹配的参考用户组的用户流失概率、每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,计算所述待评估用户的流失概率。
可选的,所述流失概率计算模块,具体用于根据以下公式确定所述待评估用户的流失概率:
其中,P(A)为待评估用户A的流失概率,为与待评估用户A匹配的参考用户组Cx的用户流失概率,k为待评估用户A有k个信任用户,为第i个信任用户Di对待评估用户A的影响度,为与信任用户Di匹配的参考用户组Cy的用户流失概率,δ为待评估用户A的流失概率的影响因子。
本发明实施例中,获取待评估用户的通信消费信息,根据待评估用户的通信情况,找出与该待评估用户的关联用户。然后计算每个关联用户对待评估用户的影响度,根据计算出的影响度从所有关联用户中确定该待评估用户的信任用户。由于待评估用户的流失概率会受到关联用户的影响,尤其待评估用户的信任用户,对待评估用户的影响较大。计算待评估用户的每个信任用户的流失概率,以及每个信任用户对该待评估用户的影响度,并根据每个信任用户对待评估用户的影响度以及每个信任用户的流失概率,确定待评估用户的流失概率。由于待评估用户的信任用户与该待评估用户之间存在通信行为,且由于信任用户对待评估用户的影响度比较高,则信任用户与待评估用户之中,一方做出的决定会影响到另一方的行为轨迹,使得另一方的决定会相应改变。也就是说,可以认为,待评估用户的信任用户流失时,会增大该待评估用户流失的概率。因此,对用户流失评估的过程中,对用户的通信交往圈进行分析,考虑到外部环境对待评估用户的影响,提高了对用户流失预测的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种用户流失预测方法流程图;
图2为本发明实施例中时间窗口划分的示意图;
图3为本发明实施例中关联客户对待评估用户的重要程度随着时间变化的示意图;
图4为本发明实施例中一种用户流失预测装置的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
首先对本发明实施例中的名词进行解释。待评估用户A为未流失客户中进行用户流失预测的对象;关联用户B为与待评估用户之间存在通信联系的用户;信任用户D是从关联用户中选取的对待评估用户影响较大的用户;参考用户为所有用户中随机选取的用户,包括已流失用户和未流失用户,将所有参考用户聚类后形成的集合为参考用户组C。
本发明实施例提供了一种用户流失预测方法,流程如图1所示,方法可以包括如下步骤:
S101、根据待评估用户的通信消费信息,确定与所述待评估用户进行通信的关联用户。
S102、根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户。
S103、根据每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,确定所述待评估用户的流失概率。
本发明实施例中,获取待评估用户的通信消费信息,根据待评估用户的通信情况,找出与该待评估用户的关联用户。然后计算每个关联用户对待评估用户的影响度,根据计算出的影响度从所有关联用户中确定该待评估用户的信任用户。由于待评估用户的流失概率会受到关联用户的影响,尤其待评估用户的信任用户,对待评估用户的影响较大。计算待评估用户的每个信任用户的流失概率,以及每个信任用户对该待评估用户的影响度,并根据每个信任用户对待评估用户的影响度以及每个信任用户的流失概率,确定待评估用户的流失概率。由于待评估用户的信任用户与该待评估用户之间存在通信行为,且由于信任用户对待评估用户的影响度比较高,则信任用户与待评估用户之中,一方做出的决定会影响到另一方的行为轨迹,使得另一方的决定会相应改变。也就是说,可以认为,待评估用户的信任用户流失时,会增大该待评估用户流失的概率。因此,对用户流失评估的过程中,对用户的通信交往圈进行分析,考虑到外部环境对待评估用户的影响,提高了对用户流失预测的准确性。
本发明实施例中进行预测的基础是用户的消费数据,需从数据库中获取所有用户的消费记录。消费记录包括但不限于:
用户的月总消费、语音消费、短信消费、本地市话主叫时长、本地市话被叫时长、本地省内长途主叫时长、本地省内长途被叫时长、省际长途主叫时长、省际长途被叫时长、国际长途主叫时长、国际长途被叫时长、省内漫游、省际漫游、国际漫游、网内短信量、网间短信量、彩信量、上网流量、MOU(每月通话时间,minutes of usage)、DOU(平均每户每月上网流量,Dataflow of usage)、ARPU(每用户平均收入,ARPU-Average Revenue Per User)等等,以上每类消费数据均可以作为预测用户流失概率的属性信息。
由于原始数据可能存在不合理的情况,这些数据可能是由于工作原因,在进行数据转移,数据存储的时候,难免会产生纰漏,不合理的情况主要分为以下2个方面:字段合法性、字段缺失性。一旦原始数据的质量出现问题,结果将会产生较大的误差。因此,在利用消费数据进行流失预测之前,需对数据进行预处理。具体做法可以为删除不合理的数据,之后进行分析统计,剔除某些次要的或不相关的消费数据,只保留与用户流失预测相关的若干属性信息。
本发明实施例中对用户流失的预测参考了待评估用户的通信交往圈的情况,待评估用户的通信交往圈由与待评估用户存在通信联系的关联用户组成。获取待评估用户的通信消费信息,即可确定待评估用户的关联用户。不同的关联用户对该待评估用户的影响程度不同,本发明实施例中需从关联用户中选取出对待评估用户影响较大的用户,作为该待评估用户的信任用户,根据信任用户的流失概率来估算待评估用户的流失概率,准确度较大。
信任用户的确定可以根据每个关联用户对待评价用户的影响度,则步骤S102包括:
针对任意一个关联用户,确定每个时间窗口对应的所述待评估用户对所述关联用户的信任度,其中所述信任度为对应的时间窗口内所述待评估用户与所述关联用户之间的通信消费信息与预定时间段内所述待评估用户的所有通信消费信息的比值,预定时间段由时间窗口组成;
根据每个时间窗口对应的信任度,获得所述关联用户对所述待评估用户的影响度。
本发明实施例将关联用户对待评估用户的影响度量化,并将影响度进行排序,选取影响度最大的部分关联用户作为待评估用户的信任用户。具体来说,获取一段时间之内待评估用户的通信消费信息,通信消费信息包括该待评估用户的通话消费和短信消费。通过通话记录、短信记录映射待评估用户的社会关系,挖掘出社会交往关系的内在影响。
本发明实施例将从当前的时间点到过去的某个时间点之间的预定时间段进行分段,每个分段为一个时间窗口,考察每个时间窗口内待评估用户对关联用户的信任度。由于随着时间从现在往过去推移,产生影响的关联用户与待评估用户之间的通信频率越稀疏,因此,时间窗口距离当前越远,其窗口的长度越长,如图2所示。举例来说,待评估用户A的关联用户集为{B1,B2,···,Bn},待评估用户A的所有的通话消费集为短信消费集为其中待评估用户A和关联用户Bi的通话消费集和短信消费集分别为关联用户集{B1,B2,...,Bn}中的任一关联用户的通话记录和短信记录对于待评估用户A的影响随着时间往过去的推移呈衰减趋势。因此,以当前时刻为起点,对待评估用户A与关联用户Bi之间的通信消费以时间为衡量标准划分窗口长度,设时间窗口集为{Δt1,Δt2,…,Δtn},其中n越大,表明该时间窗口距离当前时刻越远。则满足|Δtλ|=λΔθ,(λ=1,2,...,n),其中,第λ个时间窗口的长度为|Δtλ|,随着λ的增大,窗口长度|Δtλ|越大。在某一窗口中,待评估用户A的所有通话消费和短信消费分别为TA、MA,待评估用户A与关联用户Bi之间的通话消费和短信消费分别为则关联用户Bi对待评估客户A的信任度为:
其中,为待评估用户A对关联用户Bi的信任度,为待评估用户A与关联用户Bi之间的通话消费,为待评估用户A与关联用户Bi之间的短信消费,TA为待评估用户A的所有通话消费,MA为待评估用户A的所有短信消费,α为待评估用户A的通话消费与短信消费的重要程度的比例。
由于关联客户对待评估用户的重要程度随着时间往过去的推移呈衰减趋势,即距离现在时间越长的过去时刻,影响越小,如图3所示。由此推断,在时间窗口集{Δt1,Δt2,…,Δtn}中,下标n越大,则该时间窗口对于待评估用户A的影响因子越小。举例来说,若存在时间窗口Δtp,Δtq,其中p<q,则第p个窗口Δtp对于待评估用户A的影响因子βp大于第q个窗口Δtq对于客户A的影响因子βq。以此为依据构造时间窗口对应的影响因子集,为{β,β2,…,βn},其中β<1。则关联用户Bi对待评估用户A的影响度满足以下公式:
其中,为关联用户Bi对待评估用户A的影响度,Δtn为第n个时间窗口,为第n个时间窗口对应的待评估用户A对关联用户Bi的信任度,β为待评估用户与关联用户之间的影响因子。
之后,根据关联用户Bi对待评估用户A的影响度对关联用户Bi进行排序。从影响度由高到低选取影响度最高的k个关联用户Bi作为待评估用户A的信任用户Di。
本发明实施例中根据信任用户的流失概率估算待评估用户的流失概率。对信任用户的流失概率的确定可以根据信任用户的通信消费情况,将信任用户归入到与其相类似的参考用户组中,以参考用户组的用户流失情况作为信任用户的流失概率。即根据下列方式确定所述信任用户的流失概率,包括:
针对任意一个信任用户,确定与所述信任用户匹配的参考用户组的用户流失概率,所述参考用户组的用户流失概率为所述参考用户组中已流失的用户数与所述参考用户组中所有用户数的比值,所述参考用户组为将所有参考用户进行聚类后形成的参考用户的集合;
根据所述与所述信任用户匹配的参考用户组的用户流失概率,确定所述信任用户的流失概率。
而确定与信任用户匹配的参考用户组的用户流失概率之前,需将所有参考用户进行划分,获取多个参考用户组,然后从中选取出与信任用户匹配的参考用户组。本发明实施例中根据下列方式确定与所述信任用户匹配的参考用户组,包括:
根据所述参考用户的多个属性信息,将所有参考用户划分为多个用户群,所述属性信息为所述流失概率对应的消费信息;
针对任意一个用户群,根据所述用户群中每个参考用户的属性信息,确定所述用户群的质心;
根据每个用户群的质心,确定多个初始中心点;
利用所述多个初始中心点,对所有参考用户进行粗聚类,确定多个粗聚类中心;
利用所述多个粗聚类中心,对所有参考用户进行细聚类,确定多个参考用户组;
根据所述信任用户的多个属性信息,以及每个参考用户组的多个属性信息,将所述信任用户与参考用户组进行相似度匹配,确定与所述信任用户匹配的参考用户组;所述参考用户组的一个属性信息为所述参考用户组内所有参考用户相应属性信息的平均值。
具体来说,从所有用户中随机选取出参考用户,确定参考用户的多个属性信息,属性信息为流失概率对应的消费信息。可根据不同业务的重要性,从所有业务中选取出具有代表性的业务,将选取出的业务消费作为每个参考用户的属性信息。例如,将用户的MOU、DOU、ARPU作为参考用户的属性信息。一般实际操作中,需选取出较多的属性信息,以获得更为准确的分组结果。
然后根据不同的属性信息,将所有参考用户划分为多个用户群。这里,每个属性信息划分的规则不同。以属性信息为MOU、DOU、ARPU举例来说,对于MOU,可将MOU从10分钟到210分钟进行10等分,DOU从50M到5G进行50等分,ARPU从30到300元进行20等分,这样可将所有参考用户划分为10×50×20共10000个用户群。
将每个属性信息作为一个维度,由于每个参考用户在一个属性信息上具有一个确定的值,即每个参考用户在一个维度上具有一个确定的坐标,则可以将一个参考用户看做一个点,每个参考用户可以用多个属性信息的值标识。故根据一个用户群中的参考用户的属性信息,可以求出该用户群的质心。根据所有的用户群的质心,确定出m个初始中心点,初始中心点的确定方法如下。
针对每个用户群,确定每个用户群中的初始中心点。具体为根据用户群中参考用户的个数占所有参考用户数量的比重,确定每个用户群中初始中心点的数量。例如,所有参考用户数量为100个,第1个用户群中参考用户的个数为25,若需确定出20个初始中心点,则第1个用户群中的初始中心点的数量为5个。将该用户群的质心作为该用户群的第1个初始中心点v1,然后从该用户群的所有参考用户中选择与第1个初始中心点距离最远的参考用户作为第2个初始中心点v2。逐一计算该用户群中其余参考用户分别与第1个初始中心点v1之间的距离d1以及与第2个初始中心点v2之间的距离d2,从d1和d2中选择较小的作为该参考用户与初始中心点之间的距离。比较每个参考用户与初始中心点之间的距离,从中选出距离最大的参考用户作为第3个初始中心点v3。然后继续计算该用户群中其余参考用户与第3个初始中心点v3之间的距离d3,从d2和d3中选择较小的作为该参考用户与初始中心点之间的距离,并从中选出与初始中心点之间的距离最大的参考用户作为第4个初始中心点v4。重复以上步骤,直至在该用户群中选出数量足够的初始中心点。最终,所有用户群中的初始中心点的数量之和为m。
之后利用m个初始中心点,对所有参考用户进行粗聚类,确定出m个粗聚类中心。粗聚类方法可以为K-means算法,具体为分别计算参考用户到每个用户群的质心即初始中心点的欧式距离,并将参考用户归到距离最近的初始中心点的类。重新计算已经得到的各个类的质心,计算所有参考用户到重新得到的质心的欧式距离,并重新归类。继续计算新的类的质心,直至满足新的质心与上一次计算的质心相同或距离小于指定阈值。如此粗聚类完成,获得m个粗聚类中心。
粗聚类完成后对所有参考用户进行细聚类。细聚类首先需确定出h个细聚类中心,其中h<m。细聚类中心的确定方法与确定初始中心点的方法类似,不同的是确定细聚类中心时,第一个细聚类中心为所有粗聚类中心的质心,且这里计算参考用户到细聚类中心的距离为计算参考用户到每个粗聚类中心的流行距离。流行距离的计算公式如下:
Ld(A,B)=Le(A,B)3…………公式3
其中,Ld(A,B)为用户A与用户B之间的流行距离,Le(A,B)为用户A与用户B之间的欧式距离。
参考用户到粗聚类中心之间的流行距离,反映了参考用户在属性信息上与粗聚类中心的相似度,流行距离越小,则表明相似度越大。
确定了h个细聚类中心后,比较所有参考用户到每个细聚类中心的流行距离,仍利用K-means算法将所有参考用户进行细聚类。细聚类后,得到h个参考用户组,每个细聚类为一个参考用户组。
当判断一个用户的流失概率时,可以通过一段时间内该用户的消费记录,在数据库系统中找出相似的用户,通过分析相似用户的消费行为特征,类别到该用户。本发明实施例中,通过分析相似参考用户组的消费情况和流失情况,类比到信任用户。具体为参考用户组划分完成后,所有的参考用户被聚为h个参考用户组。将参考用户组中每个参考用户的同一属性信息的值进行加权平均值,计算得出一个参考用户组的该属性的属性信息。例如,某参考用户组中参考用户的MOU分别为89分钟、60分钟、71分钟和80分钟,则该参考用户组的MOU为75分钟。本发明实施例中将信任用户与参考用户组进行相似度匹配,具体的匹配方法可以参考两个向量之间的相似度匹配,根据全局弧形距离进行计算,从所有的参考用户组中选取出与信任用户Dj最相似的参考用户组Ci,则认为信任用户Dj的流失概率与参考用户组Ci的用户流失概率相等。而参考用户组Ci,为参考用户组Ci中已流失的用户数与参考用户组Ci中所有用户数的比值,即参考用户组Ci的用户流失概率P(Ci)满足下列公式:
其中Ni(loss)为参考用户组Ci中已流失用户的数量,Ni为参考用户组Ci中所有用户的数量。
为了增加用户流失概率的准确性,可多次随机选取参考用户,重复上述参考用户组的的划分步骤,进行多次参考用户组划分。将信任用户Dj进行分别匹配,计算出每次匹配后信任用户Dj的流失概率,然后取平均作为信任用户Dj最终的流失概率。
综合每个信任用户对待评估用户A的影响度,以及每个信任用户的流失概率,可确定出待评估用户A的流失概率,在该实施例中,待评估用户A的流失概率满足下列公式:
其中,P(A)为待评估用户A的流失概率,k为待评估用户A有k个信任用户,为第i个信任用户Di对待评估用户A的影响度,为与信任用户Di匹配的参考用户组Cy的用户流失概率。
较佳地,在考虑待评估用户A的流失概率中,可以进一步对待评估用户A的自身通信消费情况进行分析,即将待评估用户A与参考用户组进行相似度匹配,与待评估用户A匹配的参考用户组Cx的用户流失概率作为待评估用户A受自身消费因素影响的流失概率。因此,本发明的另一实施例中,是根据与所述待评估用户匹配的参考用户组的用户流失概率、每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,计算所述待评估用户的流失概率。此时,待评估用户A的流失概率满足以下公式:
其中,P(A)为待评估用户A的流失概率,为与待评估用户A匹配的参考用户组Cx的用户流失概率,k为待评估用户A有k个信任用户,为第i个信任用户Di对待评估用户A的影响度,为与信任用户Di匹配的参考用户组Cy的用户流失概率,δ为待评估用户A的流失概率的影响因子。
上述公式6中,P(A)的值越接近1,本发明实施例中的待评估用户A的流失概率预测的准确性越高。
基于相同的技术构思,本发明实施例还提供一种基于交易数据的异常监测装置,如图4所示,包括:
一种用户流失预测装置,包括:
关联用户确定模块1,用于根据待评估用户的通信消费信息,确定与所述待评估用户进行通信的关联用户;
信任用户确定模块2,用于根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户;
流失概率计算模块3,用于根据每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,确定所述待评估用户的流失概率。
可选的,所述信任用户确定模块2,用于:
针对任意一个关联用户,确定每个时间窗口对应的所述待评估用户对所述关联用户的信任度,其中所述信任度为对应的时间窗口内所述待评估用户与所述关联用户之间的通信消费信息与预定时间段内所述待评估用户的所有通信消费信息的比值,预定时间段由时间窗口组成;
根据每个时间窗口对应的信任度,获得所述关联用户对所述待评估用户的影响度。
可选的,所述信任用户确定模块2具体用于:
根据以下公式确定所述关联用户对所述待评估用户的影响度:
其中,为关联用户Bi对待评估用户A的影响度,Δtn为第n个时间窗口,为第n个时间窗口对应的待评估用户A对关联用户Bi的信任度,β为待评估用户与关联用户之间的影响因子。
可选的,所述通信消费信息包括通话消费和短信消费;
所述信任用户确定模块2,具体用于针对任意一个时间窗口,根据以下公式确定所述待评估用户对所述关联用户的信任度:
其中,为待评估用户A对关联用户Bi的信任度,为待评估用户A与关联用户Bi之间的通话消费,为待评估用户A与关联用户Bi之间的短信消费,TA为待评估用户A的所有通话消费,MA为待评估用户A的所有短信消费,α为待评估用户A的通话消费与短信消费的重要程度的比例。
可选的,所述流失概率计算模块3,用于:
针对任意一个信任用户,确定与所述信任用户匹配的参考用户组的用户流失概率,所述参考用户组的用户流失概率为所述参考用户组中已流失的用户数与所述参考用户组中所有用户数的比值,所述参考用户组为将所有参考用户进行聚类后形成的参考用户的集合;
根据所述与所述信任用户匹配的参考用户组的用户流失概率,确定所述信任用户的流失概率。
可选的,所述流失概率计算模块3,具体用于:
根据所述参考用户的多个属性信息,将所有参考用户划分为多个用户群,所述属性信息为所述流失概率对应的消费信息;
针对任意一个用户群,根据所述用户群中每个参考用户的属性信息,确定所述用户群的质心;
根据每个用户群的质心,确定多个初始中心点;
利用所述多个初始中心点,对所有参考用户进行粗聚类,确定多个粗聚类中心;
利用所述多个粗聚类中心,对所有参考用户进行细聚类,确定多个参考用户组;
根据所述信任用户的多个属性信息,以及每个参考用户组的多个属性信息,将所述信任用户与参考用户组进行相似度匹配,确定与所述信任用户匹配的参考用户组;所述参考用户组的一个属性信息为所述参考用户组内所有参考用户相应属性信息的平均值。
可选的,所述流失概率计算模块3,还用于:
根据与所述待评估用户匹配的参考用户组的用户流失概率、每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,计算所述待评估用户的流失概率。
可选的,所述流失概率计算模块3,具体用于根据以下公式确定所述待评估用户的流失概率:
其中,P(A)为待评估用户A的流失概率,为与待评估用户A匹配的参考用户组Cx的用户流失概率,k为待评估用户A有k个信任用户,为第i个信任用户Di对待评估用户A的影响度,为与信任用户Di匹配的参考用户组Cy的用户流失概率,δ为待评估用户A的流失概率的影响因子。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (16)
1.一种用户流失预测方法,其特征在于,包括:
根据待评估用户的通信消费信息,确定与所述待评估用户进行通信的关联用户;
根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户;
根据每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,确定所述待评估用户的流失概率。
2.如权利要求1所述的方法,其特征在于,所述根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户,包括:
针对任意一个关联用户,确定每个时间窗口对应的所述待评估用户对所述关联用户的信任度,其中所述信任度为对应的时间窗口内所述待评估用户与所述关联用户之间的通信消费信息与预定时间段内所述待评估用户的所有通信消费信息的比值,预定时间段由时间窗口组成;
根据每个时间窗口对应的信任度,获得所述关联用户对所述待评估用户的影响度。
3.如权利要求2所述的方法,其特征在于,所述关联用户对所述待评估用户的影响度满足以下公式:
<mrow>
<msub>
<mi>Inf</mi>
<mrow>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<mi>t</mi>
<mi>o</mi>
<mi>A</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>&beta;</mi>
<mo>&CenterDot;</mo>
<msubsup>
<mi>Tru</mi>
<mn>1</mn>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&Delta;t</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mi>&beta;</mi>
<mn>2</mn>
</msup>
<mo>&CenterDot;</mo>
<msubsup>
<mi>Tru</mi>
<mn>2</mn>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&Delta;t</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<msup>
<mi>&beta;</mi>
<mi>n</mi>
</msup>
<mo>&CenterDot;</mo>
<msubsup>
<mi>Tru</mi>
<mi>n</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&Delta;t</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo><</mo>
<mi>&beta;</mi>
<mo><</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,为关联用户Bi对待评估用户A的影响度,Δtn为第n个时间窗口,为第n个时间窗口对应的待评估用户A对关联用户Bi的信任度,β为待评估用户与关联用户之间的影响因子。
4.如权利要求2所述的方法,其特征在于,所述通信消费信息包括通话消费和短信消费;
针对任意一个时间窗口,所述待评估用户对所述关联用户的信任度满足以下公式:
<mrow>
<msup>
<mi>Tru</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msup>
<mo>=</mo>
<mi>&alpha;</mi>
<mfrac>
<msub>
<mi>T</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<msub>
<mi>T</mi>
<mi>A</mi>
</msub>
</mfrac>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mfrac>
<msub>
<mi>M</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<msub>
<mi>M</mi>
<mi>A</mi>
</msub>
</mfrac>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>&le;</mo>
<mi>&alpha;</mi>
<mo>&le;</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,为待评估用户A对关联用户Bi的信任度,为待评估用户A与关联用户Bi之间的通话消费,为待评估用户A与关联用户Bi之间的短信消费,TA为待评估用户A的所有通话消费,MA为待评估用户A的所有短信消费,α为待评估用户A的通话消费与短信消费的重要程度的比例。
5.如权利要求1所述的方法,其特征在于,根据下列方式确定所述信任用户的流失概率,包括:
针对任意一个信任用户,确定与所述信任用户匹配的参考用户组的用户流失概率,所述参考用户组的用户流失概率为所述参考用户组中已流失的用户数与所述参考用户组中所有用户数的比值,所述参考用户组为将所有参考用户进行聚类后形成的参考用户的集合;
根据所述与所述信任用户匹配的参考用户组的用户流失概率,确定所述信任用户的流失概率。
6.如权利要求5所述的方法,其特征在于,根据下列方式确定与所述信任用户匹配的参考用户组,包括:
根据所述参考用户的多个属性信息,将所有参考用户划分为多个用户群,所述属性信息为所述流失概率对应的消费信息;
针对任意一个用户群,根据所述用户群中每个参考用户的属性信息,确定所述用户群的质心;
根据每个用户群的质心,确定多个初始中心点;
利用所述多个初始中心点,对所有参考用户进行粗聚类,确定多个粗聚类中心;
利用所述多个粗聚类中心,对所有参考用户进行细聚类,确定多个参考用户组;
根据所述信任用户的多个属性信息,以及每个参考用户组的多个属性信息,将所述信任用户与参考用户组进行相似度匹配,确定与所述信任用户匹配的参考用户组;所述参考用户组的一个属性信息为所述参考用户组内所有参考用户相应属性信息的平均值。
7.如权利要求6所述的方法,其特征在于,所述根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户之后,还包括:
根据与所述待评估用户匹配的参考用户组的用户流失概率、每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,计算所述待评估用户的流失概率。
8.如权利要求7所述的方法,其特征在于,所述待评估用户的流失概率满足以下公式:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&delta;</mi>
<mo>&CenterDot;</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>C</mi>
<mi>x</mi>
</msub>
<msub>
<mo>|</mo>
<mrow>
<mi>A</mi>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>x</mi>
</msub>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&delta;</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<mfrac>
<mrow>
<msub>
<mi>Inf</mi>
<mrow>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mi>t</mi>
<mi>o</mi>
<mi>A</mi>
</mrow>
</msub>
</mrow>
<mrow>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<msub>
<mi>Inf</mi>
<mrow>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mi>t</mi>
<mi>o</mi>
<mi>A</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>&CenterDot;</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>C</mi>
<mi>y</mi>
</msub>
<msub>
<mo>|</mo>
<mrow>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>y</mi>
</msub>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>0</mn>
<mo>&le;</mo>
<mi>&delta;</mi>
<mo>&le;</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
其中,P(A)为待评估用户A的流失概率,为与待评估用户A匹配的参考用户组Cx的用户流失概率,k为待评估用户A有k个信任用户,为第i个信任用户Di对待评估用户A的影响度,为与信任用户Di匹配的参考用户组Cy的用户流失概率,δ为待评估用户A的流失概率的影响因子。
9.一种用户流失预测装置,其特征在于,包括:
关联用户确定模块,用于根据待评估用户的通信消费信息,确定与所述待评估用户进行通信的关联用户;
信任用户确定模块,用于根据所述每个关联用户对所述待评估用户的影响度,从所有关联用户中确定所述待评估用户的信任用户;
流失概率计算模块,用于根据每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,确定所述待评估用户的流失概率。
10.如权利要求9所述的装置,其特征在于,所述信任用户确定模块,用于:
针对任意一个关联用户,确定每个时间窗口对应的所述待评估用户对所述关联用户的信任度,其中所述信任度为对应的时间窗口内所述待评估用户与所述关联用户之间的通信消费信息与预定时间段内所述待评估用户的所有通信消费信息的比值,预定时间段由时间窗口组成;
根据每个时间窗口对应的信任度,获得所述关联用户对所述待评估用户的影响度。
11.如权利要求10所述的装置,其特征在于,所述信任用户确定模块具体用于:
根据以下公式确定所述关联用户对所述待评估用户的影响度:
<mrow>
<msub>
<mi>Inf</mi>
<mrow>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<mi>t</mi>
<mi>o</mi>
<mi>A</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>&beta;</mi>
<mo>&CenterDot;</mo>
<msubsup>
<mi>Tru</mi>
<mn>1</mn>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&Delta;t</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msup>
<mi>&beta;</mi>
<mn>2</mn>
</msup>
<mo>&CenterDot;</mo>
<msubsup>
<mi>Tru</mi>
<mn>2</mn>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&Delta;t</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<msup>
<mi>&beta;</mi>
<mi>n</mi>
</msup>
<mo>&CenterDot;</mo>
<msubsup>
<mi>Tru</mi>
<mi>n</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>&Delta;t</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo><</mo>
<mi>&beta;</mi>
<mo><</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,为关联用户Bi对待评估用户A的影响度,Δtn为第n个时间窗口,为第n个时间窗口对应的待评估用户A对关联用户Bi的信任度,β为待评估用户与关联用户之间的影响因子。
12.如权利要求10所述的装置,其特征在于,所述通信消费信息包括通话消费和短信消费;
所述信任用户确定模块,具体用于针对任意一个时间窗口,根据以下公式确定所述待评估用户对所述关联用户的信任度:
<mrow>
<msup>
<mi>Tru</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msup>
<mo>=</mo>
<mi>&alpha;</mi>
<mfrac>
<msub>
<mi>T</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<msub>
<mi>T</mi>
<mi>A</mi>
</msub>
</mfrac>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mfrac>
<msub>
<mi>M</mi>
<mrow>
<msub>
<mi>AB</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<msub>
<mi>M</mi>
<mi>A</mi>
</msub>
</mfrac>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mn>0</mn>
<mo>&le;</mo>
<mi>&alpha;</mi>
<mo>&le;</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,为待评估用户A对关联用户Bi的信任度,为待评估用户A与关联用户Bi之间的通话消费,为待评估用户A与关联用户Bi之间的短信消费,TA为待评估用户A的所有通话消费,MA为待评估用户A的所有短信消费,α为待评估用户A的通话消费与短信消费的重要程度的比例。
13.如权利要求9所述的装置,其特征在于,所述流失概率计算模块,用于:
针对任意一个信任用户,确定与所述信任用户匹配的参考用户组的用户流失概率,所述参考用户组的用户流失概率为所述参考用户组中已流失的用户数与所述参考用户组中所有用户数的比值,所述参考用户组为将所有参考用户进行聚类后形成的参考用户的集合;
根据所述与所述信任用户匹配的参考用户组的用户流失概率,确定所述信任用户的流失概率。
14.如权利要求13所述的装置,其特征在于,所述流失概率计算模块,具体用于:
根据所述参考用户的多个属性信息,将所有参考用户划分为多个用户群,所述属性信息为所述流失概率对应的消费信息;
针对任意一个用户群,根据所述用户群中每个参考用户的属性信息,确定所述用户群的质心;
根据每个用户群的质心,确定多个初始中心点;
利用所述多个初始中心点,对所有参考用户进行粗聚类,确定多个粗聚类中心;
利用所述多个粗聚类中心,对所有参考用户进行细聚类,确定多个参考用户组;
根据所述信任用户的多个属性信息,以及每个参考用户组的多个属性信息,将所述信任用户与参考用户组进行相似度匹配,确定与所述信任用户匹配的参考用户组;所述参考用户组的一个属性信息为所述参考用户组内所有参考用户相应属性信息的平均值。
15.如权利要求14所述的装置,其特征在于,所述流失概率计算模块,还用于:
根据与所述待评估用户匹配的参考用户组的用户流失概率、每个信任用户对所述待评估用户的影响度以及每个信任用户的流失概率,计算所述待评估用户的流失概率。
16.如权利要求15所述的装置,其特征在于,所述流失概率计算模块,具体用于根据以下公式确定所述待评估用户的流失概率:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&delta;</mi>
<mo>&CenterDot;</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>C</mi>
<mi>x</mi>
</msub>
<msub>
<mo>|</mo>
<mrow>
<mi>A</mi>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>x</mi>
</msub>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&delta;</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<mfrac>
<mrow>
<msub>
<mi>Inf</mi>
<mrow>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mi>t</mi>
<mi>o</mi>
<mi>A</mi>
</mrow>
</msub>
</mrow>
<mrow>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<msub>
<mi>Inf</mi>
<mrow>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mi>t</mi>
<mi>o</mi>
<mi>A</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>&CenterDot;</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>C</mi>
<mi>y</mi>
</msub>
<msub>
<mo>|</mo>
<mrow>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>y</mi>
</msub>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>0</mn>
<mo>&le;</mo>
<mi>&delta;</mi>
<mo>&le;</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
其中,P(A)为待评估用户A的流失概率,为与待评估用户A匹配的参考用户组Cx的用户流失概率,k为待评估用户A有k个信任用户,为第i个信任用户Di对待评估用户A的影响度,为与信任用户Di匹配的参考用户组Cy的用户流失概率,δ为待评估用户A的流失概率的影响因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610719607.4A CN107784511A (zh) | 2016-08-24 | 2016-08-24 | 一种用户流失预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610719607.4A CN107784511A (zh) | 2016-08-24 | 2016-08-24 | 一种用户流失预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107784511A true CN107784511A (zh) | 2018-03-09 |
Family
ID=61388737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610719607.4A Pending CN107784511A (zh) | 2016-08-24 | 2016-08-24 | 一种用户流失预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107784511A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109451527A (zh) * | 2018-12-21 | 2019-03-08 | 广东宜通世纪科技股份有限公司 | 一种移动通信用户流失日粒度预测方法及装置 |
CN111599346A (zh) * | 2020-05-19 | 2020-08-28 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
CN111803957A (zh) * | 2020-07-17 | 2020-10-23 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN112132622A (zh) * | 2020-09-25 | 2020-12-25 | 北京达佳互联信息技术有限公司 | 数据预估方法及装置 |
CN114173006A (zh) * | 2020-09-11 | 2022-03-11 | 中国联合网络通信集团有限公司 | 通信用户离网预警方法及服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339153A1 (en) * | 2012-06-14 | 2013-12-19 | General Instrument Corporation | Customization of multimedia |
CN104813353A (zh) * | 2012-10-30 | 2015-07-29 | 阿尔卡特朗讯 | 用于生成用户流失预测的系统和方法 |
CN105045805A (zh) * | 2015-06-03 | 2015-11-11 | 安徽师范大学 | 基于移动通信的信任推荐模型的构建方法及其构建系统 |
CN105809510A (zh) * | 2016-03-04 | 2016-07-27 | 王瑞琴 | 一种基于多元社交信任的协同推荐方法 |
CN105824813A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团江苏有限公司 | 一种挖掘核心用户的方法及装置 |
-
2016
- 2016-08-24 CN CN201610719607.4A patent/CN107784511A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339153A1 (en) * | 2012-06-14 | 2013-12-19 | General Instrument Corporation | Customization of multimedia |
CN104813353A (zh) * | 2012-10-30 | 2015-07-29 | 阿尔卡特朗讯 | 用于生成用户流失预测的系统和方法 |
CN105824813A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团江苏有限公司 | 一种挖掘核心用户的方法及装置 |
CN105045805A (zh) * | 2015-06-03 | 2015-11-11 | 安徽师范大学 | 基于移动通信的信任推荐模型的构建方法及其构建系统 |
CN105809510A (zh) * | 2016-03-04 | 2016-07-27 | 王瑞琴 | 一种基于多元社交信任的协同推荐方法 |
Non-Patent Citations (1)
Title |
---|
蔡丽艳: "《数据挖掘算法及其应用研究》", 28 February 2013, 电子科技大学出版社 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109451527A (zh) * | 2018-12-21 | 2019-03-08 | 广东宜通世纪科技股份有限公司 | 一种移动通信用户流失日粒度预测方法及装置 |
CN109451527B (zh) * | 2018-12-21 | 2019-09-20 | 宜通世纪科技股份有限公司 | 一种移动通信用户流失日粒度预测方法及装置 |
CN111599346A (zh) * | 2020-05-19 | 2020-08-28 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
CN111599346B (zh) * | 2020-05-19 | 2024-02-20 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
CN111803957A (zh) * | 2020-07-17 | 2020-10-23 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN111803957B (zh) * | 2020-07-17 | 2024-02-09 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN114173006A (zh) * | 2020-09-11 | 2022-03-11 | 中国联合网络通信集团有限公司 | 通信用户离网预警方法及服务器 |
CN112132622A (zh) * | 2020-09-25 | 2020-12-25 | 北京达佳互联信息技术有限公司 | 数据预估方法及装置 |
CN112132622B (zh) * | 2020-09-25 | 2021-07-16 | 北京达佳互联信息技术有限公司 | 数据预估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3690768A1 (en) | User behavior prediction method and apparatus, and behavior prediction model training method and apparatus | |
CN110033314B (zh) | 广告数据处理方法及装置 | |
CN107784511A (zh) | 一种用户流失预测方法及装置 | |
CN108364195B (zh) | 用户留存概率预测方法、装置、预测服务器及存储介质 | |
TWI696124B (zh) | 模型整合方法及裝置 | |
US8700640B2 (en) | System or apparatus for finding influential users | |
CN104281882A (zh) | 基于用户特征的预测社交网络信息流行度的方法及系统 | |
CN110417607B (zh) | 一种流量预测方法、装置及设备 | |
US20130124448A1 (en) | Method and system for selecting a target with respect to a behavior in a population of communicating entities | |
CN107016569A (zh) | 一种网络产品的目标用户账号获取方法及装置 | |
CN110991875A (zh) | 一种平台用户质量评估系统 | |
CN106408325A (zh) | 基于用户支付信息的用户消费行为预测分析方法及系统 | |
CN103473036B (zh) | 一种输入法皮肤推送方法及系统 | |
CN111176953B (zh) | 一种异常检测及其模型训练方法、计算机设备和存储介质 | |
CN111352976B (zh) | 一种针对购物节的搜索广告转化率预测方法及装置 | |
CN105608604A (zh) | 一种品牌广告效果优化的连续计算方法 | |
CN103617146B (zh) | 一种基于硬件资源消耗的机器学习方法及装置 | |
WO2020258773A1 (zh) | 确定推送用户群的方法、装置、设备及存储介质 | |
CN107230090B (zh) | 一种净推荐值nps分类方法及装置 | |
CN111340606A (zh) | 一种全流程收入稽核方法和装置 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN111144957A (zh) | 信息投放方法、装置、服务器及存储介质 | |
CN106056137A (zh) | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 | |
CN104992060A (zh) | 用户年龄估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180309 |
|
RJ01 | Rejection of invention patent application after publication |