CN107230090B - 一种净推荐值nps分类方法及装置 - Google Patents

一种净推荐值nps分类方法及装置 Download PDF

Info

Publication number
CN107230090B
CN107230090B CN201610170034.4A CN201610170034A CN107230090B CN 107230090 B CN107230090 B CN 107230090B CN 201610170034 A CN201610170034 A CN 201610170034A CN 107230090 B CN107230090 B CN 107230090B
Authority
CN
China
Prior art keywords
nps
users
classification
user set
reference user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610170034.4A
Other languages
English (en)
Other versions
CN107230090A (zh
Inventor
潘钢
洪弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Shanghai Co Ltd
Original Assignee
China Mobile Group Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Shanghai Co Ltd filed Critical China Mobile Group Shanghai Co Ltd
Priority to CN201610170034.4A priority Critical patent/CN107230090B/zh
Publication of CN107230090A publication Critical patent/CN107230090A/zh
Application granted granted Critical
Publication of CN107230090B publication Critical patent/CN107230090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及通信技术领域,公开了一种NPS分类方法及装置,包括:步骤1、根据参照用户集中的用户的业务数据和参照用户集中的用户的净推荐值NPS分类调研结果,建立NPS分类模型;步骤2、根据NPS分类模型,将参照用户集中的用户进行分类,得到参照用户集中的用户的NPS分类预测结果;步骤3、若参照用户集中的用户的NPS分类预测结果与参照用户集中的用户的NPS分类调研结果之间的差异大于阈值,则选取N个备选用户加入所述参照用户集,返回至步骤1,直至参照用户集中的用户的NPS分类预测结果与参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值。本发明用以解决现有技术中NPS分类结果所依据的样本数有限且耗时较长的问题。

Description

一种净推荐值NPS分类方法及装置
技术领域
本发明涉及业务支撑技术领域,尤其涉及一种净推荐值NPS分类方法及装置。
背景技术
净推荐值(Net Promoter Score,NPS),是一种计量某个客户将会向其他人推荐某个产品或服务可能性的指数,是衡量产品客户忠诚度的关键指标,由美国贝恩咨询公司的佛瑞德·赖克霍德于2003年,针对企业良性收益与真实增长所提出。以NPS为基础进行信息推荐,可以更符合客户实际情况,提高推荐成功率,提升用户体验。
NPS是一种评估监控的结果,可以帮助商户作出商业决策,如通信领域,需向客户推荐业务信息,即可根据客户的NPS分类结果进行推送。具体为,向客户询问,是否愿意向别人推荐XX业务。根据愿意推荐的程度,让客户在0-10分之间来打分,10分表示非常愿意推荐,0分表示非常不愿意推荐。根据客户的打分情况,将客户分为推荐者、中立者和贬损者三类,其中,打分在9-10的是推荐者,打分在7-8为中立者,打分在0-6之间为贬损者。推荐者与贬损者是对业务口碑有影响的用户,这两部分用户在用户总数中所占百分比之差,即为NPS。NPS的逻辑是推荐者会继续购买该业务并且推荐给其他人来增加盈利,而贬损者则能破坏业务的名声,使得业务在负面的口碑中阻碍成长。因此,可根据NPS的分类结果向推荐者和中立者推荐该业务信息。但现有技术中,NPS分类是向客户做问卷调查,耗时耗力,且采用问卷调查的方式样本数较少时延也比较大。
发明内容
本发明实施例提供一种净推荐值NPS分类方法及装置,用以解决现有技术中NPS分类结果所依据的样本数有限且耗时较长的问题。
本发明实施例提供的NPS分类方法包括:
步骤1、根据参照用户集中的用户的业务数据和所述参照用户集中的用户的NPS分类调研结果,建立NPS分类模型;
步骤2、根据所述NPS分类模型,将所述参照用户集中的用户进行分类,得到所述参照用户集中的用户的NPS分类预测结果;
步骤3、若所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异大于阈值,则选取N个备选用户加入所述参照用户集,返回至步骤1,直至所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值,其中,所述N个备选用户的NPS分类调研结果为根据所述NPS分类模型进行分类得到的所述N个备选用户的NPS分类预测结果。
可选的,还包括:
获取全网用户的业务数据,所述全网用户包括所述参照用户集中的用户和备选用户集中的备选用户;
所述选取N个备选用户,包括:
根据所述备选用户集中的备选用户的业务数据和所述NPS分类模型,将所述备选用户集中的备选用户进行分类,得到所述备选用户集中的备选用户的NPS分类预测结果;
针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户。
可选的,所述针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户,包括:
每个NPS分类中用户与类中心的距离利用下列公式计算:
Figure BDA0000948543970000031
其中,dpc为NPS分类中第p个用户与类中心的差距,Xpk为第p个用户业务k的业务数据,Xck为类中心业务k的业务数据,n为所有业务的数量。
可选的,所述获取全网用户的业务数据,包括:
获取全网用户的预设业务的业务数据;
根据非监督特征选择的方法对所有预设业务进行筛选;
根据筛选后的预设业务的业务数据,对筛选后的预设业务进行非监督的线性降维,得到处理后的全网用户的业务数据。
可选的,所述获取全网用户的预设业务的业务数据之后,根据非监督特征选择的方法对所有预设业务进行筛选之前,还包括:
对所述全网用户的预设业务的业务数据进行以下处理中的至少一项:数据类型转换、指标合并、异常值剔除、缺失值填充。
可选的,根据下列公式计算所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异:
Figure BDA0000948543970000032
其中,MSE为所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异,observedt为所述参照用户集中第t个参照用户的NPS分类调研结果,predictedt为所述参照用户集中第t个参照用户的NPS分类预测结果,n为所述参照用户集中参照用户的个数。
可选的,所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值之后,还包括:
按照所述NPS分类模型将待预测用户进行NPS分类,所述NPS分类结果包括推荐者、中立者与贬损者;
向分类结果为推荐者和中立者的待预测用户推荐信息。
一种NPS分类装置,包括:
建模模块,用于根据参照用户集中的用户的业务数据和所述参照用户集中的用户的净推荐值NPS分类调研结果,建立NPS分类模型;
分类模块,用于根据所述NPS分类模型,将所述参照用户集中的用户进行分类,得到所述参照用户集中的用户的NPS分类预测结果;
选取模块,用于若所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异大于阈值,则选取N个备选用户加入所述参照用户集,返回至步骤1,直至所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值,其中,所述N个备选用户的NPS分类调研结果为根据所述NPS分类模型进行分类得到的所述N个备选用户的NPS分类预测结果。
可选的,还包括:
获取模块,用于获取全网用户的业务数据,所述全网用户包括所述参照用户集中的用户和备选用户集中的备选用户;
所述选取模块,还用于:
根据所述备选用户集中的备选用户的业务数据和所述NPS分类模型,将所述备选用户集中的备选用户进行分类,得到所述备选用户集中的备选用户的NPS分类预测结果;
针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户。
可选的,所述选取模块还用于:
利用下列公式计算每个NPS分类中用户与类中心的距离:
Figure BDA0000948543970000041
其中,dpc为NPS分类中第p个用户与类中心的差距,Xpk为第p个用户业务k的业务数据,Xck为类中心业务k的业务数据,n为所有业务的数量。
可选的,所述获取模块,还用于:
获取全网用户的预设业务的业务数据;
根据非监督特征选择的方法对所有预设业务进行筛选;
根据筛选后的预设业务的业务数据,对筛选后的预设业务进行非监督的线性降维,得到处理后的全网用户的业务数据。
可选的,所述获取模块,还用于:
对所述全网用户的预设业务的业务数据进行以下处理中的至少一项:数据类型转换、指标合并、异常值剔除、缺失值填充。
可选的,所述选取模块,还用于:
根据下列公式计算所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异:
Figure BDA0000948543970000051
其中,MSE为所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异,observedt为所述参照用户集中第t个参照用户的NPS分类调研结果,predictedt为所述参照用户集中第t个参照用户的NPS分类预测结果,n为所述参照用户集中参照用户的个数。
可选的,还包括推荐模块,用于:
按照所述NPS分类模型将待预测用户进行NPS分类,所述NPS分类结果包括推荐者、中立者与贬损者;
向分类结果为推荐者和中立者的待预测用户推荐信息。
本发明实施例中,从所有用户中选取出一部分用户作为参照用户集中的用户,对其进行NPS分类调研,并根据用户的业务数据和NPS分类调研结果,建立NPS分类模型,由此,找出了用户的NPS分类结果与用户的业务数据之间的关联。基于建立的NPS分类模型,对参照用户集中的用户再一次分类,将第二次分类得到的结果,即参照用户集中的用户的NPS分类预测结果与用户的NPS分类调研结果进行比较,用于评估NPS分类预测结果的准确性,也就是说,利用NPS分类调研结果对NPS分类预测结果进行校验,若两者的差异大于阈值,说明NPS分类预测结果的准确性较低,即NPS分类模型不够准确,则扩大建立NPS分类模型所依据的用户数量,从所有用户中选取N个备选用户,加入参照用户集中。利用原有的和新增的参照用户集中的用户,重新建立NPS分类模型,即对NPS分类模型进行调整,直至NPS分类预测结果与NPS分类调研结果之间的差异小于阈值,则表明NPS分类模型的准确度达到要求,可以利用该NPS分类模型对需要进行NPS分类的用户进行分。由于扩大了NPS分类模型建立所依据的样本数量,并对NPS分类模型进行了评估校验,因此提高了NPS分类结果的准确性。此外,本发明实施例中,仅需对参照用户集中的最先的一部分用户进行NPS进行问卷调查,后期的备选用户的NPS分类调研结果为根据第一次NPS分类模型进行分类得到的,且对需要进行NPS分类的用户也无需继续进行NPS问卷调查,仅需利用校验后的NPS分类模型进行分类即可得到较为准确的结果。因此,省去了较多数量用户的NPS问卷调查的过程,节省了NPS分类所需的时间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中业务指标体系的示意图;
图2为本发明实施例中一种NPS分类方法的流程图;
图3为本发明实施例中另一种NPS分类方法的流程图;
图4为本发明实施例中一种NPS分类装置的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
以通信行业为例,首先根据用户在其业务生命周期中具有的多种业务指标数据,对用户数据进行指标划分。具体来说,业务指标体系可包括三个层次,如图1所示。其中,第一层是用户业务生命周期的各个阶段,包括建立阶段、发展阶段、挽留阶段和赢回阶段。第二层是业务影响因素,分别对应于业务生命周期,包括了服务感知、资费感知、套餐感知、网络质量、上网感知、终端感知和交往圈等。第三层是具体的业务指标,包括了近一百个指标,如网络覆盖,网络时延。针对不同的业务指标,具有相应的业务数据,这些业务数据从各方面反应了用户对业务的使用情况。现有技术中,仅根据用户的实际调研结果将用户进行NPS分类,并没有探索用户对业务的评价与用户业务数据的内在联系。
为了解决上述问题,本发明实施例提供了一种NPS分类方法,该方法的流程如图2所示,方法可以包括如下步骤:
S101、根据参照用户集中的用户的业务数据和所述参照用户集中的用户的NPS分类调研结果,建立NPS分类模型。
本发明实施例中,可预先获取全网用户的业务数据,全网用户包括参照用户集中的用户,以及备选用户集中的用户。对参照用户集中的用户进行NPS分类调研,NPS分类调研可通过电话、短信、网络等方式,获取用户的NPS打分,将参照用户集中的用户分为推荐者、中立者和贬损者。可选的,由于现有技术中已有部分调研用户,故可将调研用户认定为参照用户集中的用户。然后,根据用户的业务数据以及NPS分类调研结果,建立NPS分类模型。其中,NPS分类模型可为逻辑回归、支持向量机、信息增益法等,本发明实施例中,选择随机森林模型,对于存在不同量纲且数量较小的样本,通过其随机性较高,保证了分类的效果。在步骤S101中,通过根据用户的业务数据和NPS分类调研结果建立NPS分类模型,初步确定了业务数据和NPS分类之间的关联。
S102、根据所述NPS分类模型,将所述参照用户集中的用户进行分类,得到所述参照用户集中的用户的NPS分类预测结果。
本发明实施例中,利用建立的NPS分类模型将参照用户集中的用户进行再次分类,得到的NPS分类预测结果可与步骤S101中的NPS分类调研结果进行对比,用于评估NPS分类模型。
S103、若所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异大于阈值,则选取N个备选用户加入所述参照用户集,返回至S101,直至所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值,其中,所述N个备选用户的NPS分类调研结果为根据所述NPS分类模型进行分类得到的所述N个备选用户的NPS分类预测结果。
本发明实施例中,将参照用户集中的用户的NPS分类预测结果与NPS分类调研结果进行对比,若两者差异较小,则说明NPS分类模型比较准确,继续利用该NPS分类模型对待预测用户进行NPS分类。
即,步骤S103中,所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值之后,还包括:
按照所述NPS分类模型将待预测用户进行NPS分类,所述NPS分类结果包括推荐者、中立者与贬损者;
向分类结果为推荐者和中立者的待预测用户推荐信息。
上述用户的NPS分类预测结果与NPS分类调研结果之间的差异,可通过MSE(均方误差,Mean Square Error)函数进行计算。在MSE小于或等于阈值时,确定NPS分类预测结果与NPS分类调研结果差异较小,NPS分类模型通过评估;若MSE大于阈值,则说明NPS分类预测结果与NPS分类调研结果差异较大,需对NPS分类模型进行调整。具体计算公式如下:
Figure BDA0000948543970000091
其中,MSE为所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异,observedt为所述参照用户集中第t个参照用户的NPS分类调研结果,predictedt为所述参照用户集中第t个参照用户的NPS分类预测结果,n为所述参照用户集中参照用户的个数。
为了简便计算,本发明实施例计算MSE可以按如下方式取值:若对于t用户,NPS分类预测结果与NPS分类调研结果一致,如NPS分类预测结果与NPS分类调研结果都为推荐者,则observedt-predictedt记为0;若NPS分类预测结果与NPS分类调研结果不一致,如NPS分类预测结果为推荐者,而NPS分类调研结果为中立者或贬损者,则observedt-predictedt记为1。
若参照用户集中的用户的NPS分类预测结果与NPS分类调研结果之间的差异较大,即公式1计算得出的MSE大于阈值,则说明NPS分类模型不够准确,需增加NPS分类模型建立所依据的样本。从备选用户集中的备选用户中选择一部分加入参照用户集,包括:
根据所述备选用户集中的备选用户的业务数据和所述NPS分类模型,将所述备选用户集中的备选用户进行分类,得到所述备选用户集中的备选用户的NPS分类预测结果;
针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户。
本发明实施例中,类中心即为每个NPS分类中,同一业务的不同用户的加权平均值。将不同业务数据作为不同的维度,类中心的每个值即为该维度上的中点。例如,有5个用户,每个用户取A、B、C共3个业务数据,则类中心也有3个数据,分别对应3个业务。其中,与A业务对应的数据为这10个用户的A业务数据的加权平均值。如,A业务为每月通话时长,5个用户的每月通话时长是30小时、15小时、9小时、13小时、27小时,若类中心对应于A业务的数据为取用户的业务数据的平均值,则类中心对应于A业务的数据为18.8。需要说明的是,本发明实施例中,类中心是将参照用户集中的进行过NPS分类调研的用户作为依据,计算得到的。
将备选用户集中的被选用户,根据其业务数据以及步骤S101中建立的NPS分类模型进行分类,得到备选用户的NPS分类预测结果。将备选用户进行NPS分类后,计算其与各自分类的类中心的距离,确定与类中心距离最小的N个备选用户,将该N个备选用户添加到参照用户集中,与之前的参照用户集中的用户一同,作为建立NPS分类模型的依据。
上述用户与类中心的距离可根据欧式距离计算公式继续计算。公式将各用户视为空间内的点,于是,dpc代表点p(用户)到点c(类中心)的距离,公式具体如下:
Figure BDA0000948543970000101
其中,dpc为NPS分类中第p个用户与类中心的差距,Xpk为第p个用户业务k的业务数据,Xck为类中心业务k的业务数据,n为所有业务的数量。
此外,为了保障数据的准确性,以及减少建模的不确定性,需对获取的业务数据进行预先处理,包括:
获取全网用户的预设业务的业务数据;
根据非监督特征选择的方法,对所有预设业务进行筛选;
根据筛选后的预设业务的业务数据,对筛选后的预设业务进行非监督的线性降维,得到处理后的全网用户的业务数据。
具体来说,需要通过非监督的特征筛选方式,剔除信息量小的指标,以保障模型的准确性。如业务数据中包括“当月是否通话”、“当月通话次数”、“当月通话时长”的数据,其中,由于“当月通话次数”中已包括“当月是否通话”的内容,则可将“当月是否通话”的业务数据剔除
同时,针对初始业务数据的种类过多,可使用主成分分析,进行非监督的线性降维,形成相对无关的较少类型的业务数据,以降低模型陷入局部最优的可能性。
所述获取全网用户的预设业务的业务数据之后,还包括:
对所述全网用户的预设业务的业务数据进行以下处理中的至少一项:数据类型转换、指标合并、异常值剔除、缺失值填充。
具体流程涉及数据类型检索、指标水平检测、值分布检测、缺失值统计,经过以上一系列数据准备过程,为特征筛选提供输入数据。
进一步,本发明实施例中,为了减少了非活跃用户行为对NPS分类模型稳定性的负向影响,可以对用户进行条件设定,剔除不满足条件的非活跃用户。如剔除通话时间非常短,且当月流量使用很少的用户。
为了更清楚地理解本发明,下面以具体的实施例对上述流程进行详细描述,具体步骤如图3所示,包括:
S301、获取全网用户的业务数据。具体以用户ID作为用户编号,收集两个账务月的全网用户数据,如用户行为信息、用户消费信息、基础信息数据、交往圈数据及DPI(深度数据包解析,Deep Packet Inspection)等数据,包括了已调研用户的业务数据和未调研用户的业务数据。
S302、剔除非活跃用户。剔除条件为:1、入网3个月以内;2、ARPU(每用户平均收入,Average Revenue Per User)<10;3、交往圈人数=0;4、当月流量<10M。最终获得2000多万条记录,共112个字段。
S303、业务数据初步处理,主要包括数据类型转换、指标水平合并、异常值剔除、缺失值填充,其中,分别以-99、中位数对缺失值进行补充。
S304、通过非监督的特征筛选方式,对所有业务进行筛选。具体以数据初步处理后的全网业务数据作为输入,基于互信息度量(公式2)特征重要性并结合“相关度”和“冗余度”的特征评价标准进行特征筛选。具体地,筛选出初始业务中的87个数值型业务的相关数据,
S305、对筛选后的预设业务进行非监督的线性降维。具体地,基于步骤S304中形成的业务数据进行最佳主成分因子数的预测,获得最佳因子数为11,并以此为参数,基于步骤S302的输出进行主成分分析,输出降维后的11类业务数据。
S306、筛选出已调研用户,作为参照用户集中的用户。提取已调研用户的主成分因子的数据,并与电话调研结果结合起来,组成约2000条初始训练集,即相对应于2000个用户。其中,主成分因子是经由主成分分析,而获得的11个相对无关的主成分因子,具体形式上即为11个对应于初始87个指标的系数。调研结果为通过电话坐席得到的用户反馈的NPS分类结果。
S307、根据参照用户集中的用户的业务数据和NPS分类调研结果,建立NPS分类模型。建立随机森林模型,参数设置如下:树的大小为260颗树、每个节点基于5个特征进行抽取、每棵树使其最大限度生长。
S308、将未调研用户,作为备选用户集中的备选用户,根据NPS分类模型,将备选用户进行分类,得到备选用户的NPS分类调研结果。
S309、根据NPS分类模型,将参照用户集中的用户进行分类,得到参照用户集中的用户的NPS分类预测结果。
S310、根据公式1,计算参照用户集中的用户的NPS分类调研结果与NPS分类预测结果之间的差异,若MSE大于阈值0.00001,则执行步骤S311;若MSE小于或等于阈值0.00001,则执行步骤S312。
S311、针对备选用户的每个NPS分类,根据公式2计算每个用户与类中心的距离,确定与NPS分类的类中心距离最小的N个备选用户,将此N个备选用户加入参照用户集。执行步骤S309。
S312、基于建立的NPS分类模型,对待预测用户进行NPS分类。具体地,获取待预测用户的业务数据,将业务数据输入NPS分类模型中,则模型输出的结果即为待预测用户的NPS分类结果。
之后,可根据待预测用户的NPS分类结果,向用户推荐业务信息。例如,向用户推荐业务信息为业务1,获取各个用户的业务数据,利用NPS分类模型,将用户进行NPS分类,分为推荐者、中立者和贬损者三类,向推荐者和中立者中的用户推荐业务1。
此外,还有其它处理方式,如向用户推荐业务信息为业务2,业务2中包括3种具体的业务套餐,即初级套餐,中级套餐和高级套餐。确定业务2对应的用户群,获取用户群中各用户的偏好信息、网络延时等属性信息;基于用户的属性信息,对业务2针对的用户进行聚类处理,将用户再细分成至少一个子用户群;基于NPS分类模型,将各子用户群中的用户进行NPS分类,获取各子用户群中的用户对业务2中不同套餐的NPS,将初级套餐,中级套餐和高级套餐进行排序,选择排序后的第一个套餐的业务信息向相应子用户群中的用户进行推荐。
基于相同的技术构思,本发明实施例还提供一种NPS分类装置,如图4所示,包括:
建模模块1,用于根据参照用户集中的用户的业务数据和所述参照用户集中的用户的净推荐值NPS分类调研结果,建立NPS分类模型;
分类模块2,用于根据所述NPS分类模型,将所述参照用户集中的用户进行分类,得到所述参照用户集中的用户的NPS分类预测结果;
选取模块3,用于若所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异大于阈值,则选取N个备选用户加入所述参照用户集,返回至步骤1,直至所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值,其中,所述N个备选用户的NPS分类调研结果为根据所述NPS分类模型进行分类得到的所述N个备选用户的NPS分类预测结果。
可选的,还包括:
获取模块4,用于获取全网用户的业务数据,所述全网用户包括所述参照用户集中的用户和备选用户集中的备选用户;
选取模块3,还用于:
根据所述备选用户集中的备选用户的业务数据和所述NPS分类模型,将所述备选用户集中的备选用户进行分类,得到所述备选用户集中的备选用户的NPS分类预测结果;
针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户。
可选的,选取模块3还用于:
利用下列公式计算每个NPS分类中用户与类中心的距离:
Figure BDA0000948543970000141
其中,dpc为NPS分类中第p个用户与类中心的差距,Xpk为第p个用户业务k的业务数据,Xck为类中心业务k的业务数据,n为所有业务的数量。
可选的,获取模块4,还用于:
获取全网用户的预设业务的业务数据;
根据非监督特征选择的方法对所有预设业务进行筛选;
根据筛选后的预设业务的业务数据,对筛选后的预设业务进行非监督的线性降维,得到处理后的全网用户的业务数据。
可选的,获取模块4,还用于:
对所述全网用户的预设业务的业务数据进行以下处理中的至少一项:数据类型转换、指标合并、异常值剔除、缺失值填充。
可选的,选取模块3,还用于:
根据下列公式计算所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异:
Figure BDA0000948543970000142
其中,MSE为所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异,observedt为所述参照用户集中第t个参照用户的NPS分类调研结果,predictedt为所述参照用户集中第t个参照用户的NPS分类预测结果,n为所述参照用户集中参照用户的个数。
可选的,还包括推荐模块5,用于:
按照所述NPS分类模型将待预测用户进行NPS分类,所述NPS分类结果包括推荐者、中立者与贬损者;
向分类结果为推荐者和中立者的待预测用户推荐信息。
本发明实施例中,从所有用户中选取出一部分用户作为参照用户集中的用户,对其进行NPS分类调研,并根据用户的业务数据和NPS分类调研结果,建立NPS分类模型,由此,找出了用户的NPS分类结果与用户的业务数据之间的关联。基于建立的NPS分类模型,对参照用户集中的用户再一次分类,将第二次分类得到的结果,即参照用户集中的用户的NPS分类预测结果与用户的NPS分类调研结果进行比较,用于评估NPS分类预测结果的准确性,也就是说,利用NPS分类调研结果对NPS分类预测结果进行校验,若两者的差异大于阈值,说明NPS分类预测结果的准确性较低,即NPS分类模型不够准确,则扩大建立NPS分类模型所依据的用户数量,从所有用户中选取N个备选用户,加入参照用户集中。利用原有的和新增的参照用户集中的用户,重新建立NPS分类模型,即对NPS分类模型进行调整,直至NPS分类预测结果与NPS分类调研结果之间的差异小于阈值,则表明NPS分类模型的准确度达到要求,可以利用该NPS分类模型对需要进行NPS分类的用户进行分。由于扩大了NPS分类模型建立所依据的样本数量,并对NPS分类模型进行了评估校验,因此提高了NPS分类结果的准确性。此外,本发明实施例中,仅需对参照用户集中的最先的一部分用户进行NPS进行问卷调查,后期的备选用户的NPS分类调研结果为根据第一次NPS分类模型进行分类得到的,且对需要进行NPS分类的用户也无需继续进行NPS问卷调查,仅需利用校验后的NPS分类模型进行分类即可得到较为准确的结果。因此,省去了较多数量用户的NPS问卷调查的过程,节省了NPS分类所需的时间。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种净推荐值NPS分类方法,其特征在于,包括:
步骤1、根据参照用户集中的用户的业务数据和所述参照用户集中的用户的NPS分类调研结果,建立NPS分类模型;
步骤2、根据所述NPS分类模型,将所述参照用户集中的用户进行分类,得到所述参照用户集中的用户的NPS分类预测结果;
步骤3、若所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异大于阈值,获取全网用户的业务数据,所述全网用户包括所述参照用户集中的用户和备选用户集中的备选用户,根据所述备选用户集中的备选用户的业务数据和所述NPS分类模型,将所述备选用户集中的备选用户进行分类,得到所述备选用户集中的备选用户的NPS分类预测结果;针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户,并将所述N个备选用户加入所述参照用户集;返回至步骤1,直至所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值,其中,所述N个备选用户的NPS分类调研结果为根据所述NPS分类模型进行分类得到的所述N个备选用户的NPS分类预测结果。
2.如权利要求1所述的方法,其特征在于,所述针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户,包括:
每个NPS分类中用户与类中心的距离利用下列公式计算:
Figure FDA0003202369300000011
其中,dpc为NPS分类中第p个用户与类中心的距离,Xpk为第p个用户业务k的业务数据,Xck为类中心业务k的业务数据,n为所有业务的数量。
3.如权利要求1所述的方法,其特征在于,所述获取全网用户的业务数据,包括:
获取全网用户的预设业务的业务数据;
根据非监督特征选择的方法对所有预设业务进行筛选;
根据筛选后的预设业务的业务数据,对筛选后的预设业务进行非监督的线性降维,得到处理后的全网用户的业务数据。
4.如权利要求3所述的方法,其特征在于,所述获取全网用户的预设业务的业务数据之后,根据非监督特征选择的方法对所有预设业务进行筛选之前,还包括:
对所述全网用户的预设业务的业务数据进行以下处理中的至少一项:数据类型转换、指标合并、异常值剔除、缺失值填充。
5.如权利要求1至4任一项所述的方法,其特征在于,根据下列公式计算所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异:
Figure FDA0003202369300000021
其中,MSE为所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异,observedt为所述参照用户集中第t个参照用户的NPS分类调研结果,predictedt为所述参照用户集中第t个参照用户的NPS分类预测结果,n为所述参照用户集中参照用户的个数。
6.如权利要求1至4任一项所述的方法,其特征在于,所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值之后,还包括:
按照所述NPS分类模型将待预测用户进行NPS分类,所述NPS分类结果包括推荐者、中立者与贬损者;
向分类结果为推荐者和中立者的待预测用户推荐信息。
7.一种净推荐值NPS分类装置,其特征在于,包括:
建模模块,用于根据参照用户集中的用户的业务数据和所述参照用户集中的用户的NPS分类调研结果,建立NPS分类模型;
分类模块,用于根据所述NPS分类模型,将所述参照用户集中的用户进行分类,得到所述参照用户集中的用户的NPS分类预测结果;
获取模块,用于获取全网用户的业务数据,所述全网用户包括所述参照用户集中的用户和备选用户集中的备选用户;
选取模块,用于若所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异大于阈值,则根据所述备选用户集中的备选用户的业务数据和所述NPS分类模型,将所述备选用户集中的备选用户进行分类,得到所述备选用户集中的备选用户的NPS分类预测结果;针对每个NPS分类,确定所述NPS分类中与所述NPS分类的类中心距离最小的N个备选用户,并将所述N个备选用户加入所述参照用户集;返回至步骤1,直至所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异不大于所述阈值,其中,所述N个备选用户的NPS分类调研结果为根据所述NPS分类模型进行分类得到的所述N个备选用户的NPS分类预测结果。
8.如权利要求7所述的装置,其特征在于,所述选取模块还用于:
利用下列公式计算每个NPS分类中用户与类中心的距离:
Figure FDA0003202369300000041
其中,dpc为NPS分类中第p个用户与类中心的距离,Xpk为第p个用户业务k的业务数据,Xck为类中心业务k的业务数据,n为所有业务的数量。
9.如权利要求7所述的装置,其特征在于,所述获取模块,还用于:
获取全网用户的预设业务的业务数据;
根据非监督特征选择的方法对所有预设业务进行筛选;
根据筛选后的预设业务的业务数据,对筛选后的预设业务进行非监督的线性降维,得到处理后的全网用户的业务数据。
10.如权利要求9所述的装置,其特征在于,所述获取模块,还用于:
对所述全网用户的预设业务的业务数据进行以下处理中的至少一项:数据类型转换、指标合并、异常值剔除、缺失值填充。
11.如权利要求7至10任一项所述的装置,其特征在于,所述选取模块,还用于:
根据下列公式计算所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异:
Figure FDA0003202369300000042
其中,MSE为所述参照用户集中的用户的NPS分类预测结果与所述参照用户集中的用户的NPS分类调研结果之间的差异,observedt为所述参照用户集中第t个参照用户的NPS分类调研结果,predictedt为所述参照用户集中第t个参照用户的NPS分类预测结果,n为所述参照用户集中参照用户的个数。
12.如权利要求7至10任一项所述的装置,其特征在于,还包括推荐模块,用于:
按照所述NPS分类模型将待预测用户进行NPS分类,所述NPS分类结果包括推荐者、中立者与贬损者;
向分类结果为推荐者和中立者的待预测用户推荐信息。
CN201610170034.4A 2016-03-23 2016-03-23 一种净推荐值nps分类方法及装置 Active CN107230090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610170034.4A CN107230090B (zh) 2016-03-23 2016-03-23 一种净推荐值nps分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610170034.4A CN107230090B (zh) 2016-03-23 2016-03-23 一种净推荐值nps分类方法及装置

Publications (2)

Publication Number Publication Date
CN107230090A CN107230090A (zh) 2017-10-03
CN107230090B true CN107230090B (zh) 2021-11-16

Family

ID=59931737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610170034.4A Active CN107230090B (zh) 2016-03-23 2016-03-23 一种净推荐值nps分类方法及装置

Country Status (1)

Country Link
CN (1) CN107230090B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074108B (zh) * 2017-11-02 2021-02-09 平安科技(深圳)有限公司 一种净推荐值的显示方法及其终端
CN108776857A (zh) * 2018-04-22 2018-11-09 平安科技(深圳)有限公司 Nps短信调研方法、系统、计算机设备和存储介质
CN111090805B (zh) * 2018-10-23 2023-08-29 北京嘀嘀无限科技发展有限公司 推荐指数归因方法、装置及电子设备
CN109934267B (zh) * 2019-02-19 2023-10-20 创新先进技术有限公司 模型检测方法及装置
CN113517990B (zh) * 2020-04-09 2023-02-17 中国移动通信集团广东有限公司 一种网络净推荐值nps的预测方法及装置
CN114092123A (zh) * 2020-08-03 2022-02-25 上海数康企业管理咨询有限公司 一种满意度智能分析系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075291A (zh) * 2006-05-18 2007-11-21 中国科学院自动化研究所 一种用于人脸识别的高效提升训练方法
CN101256571A (zh) * 2008-03-21 2008-09-03 长安大学 一种多维工程数据分类方法
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103905971A (zh) * 2014-03-26 2014-07-02 华为技术有限公司 一种推荐话务套餐的方法及装置
CN105095912A (zh) * 2015-08-06 2015-11-25 北京奇虎科技有限公司 数据聚类的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634360B2 (en) * 2003-09-23 2009-12-15 Prediction Sciences, LL Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof
CN101882146A (zh) * 2010-05-18 2010-11-10 北京邮电大学 一种基于聚类的移动通信业务用户虚开识别方法
CN105320957B (zh) * 2014-07-10 2022-02-15 腾讯科技(深圳)有限公司 分类器训练方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075291A (zh) * 2006-05-18 2007-11-21 中国科学院自动化研究所 一种用于人脸识别的高效提升训练方法
CN101256571A (zh) * 2008-03-21 2008-09-03 长安大学 一种多维工程数据分类方法
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103905971A (zh) * 2014-03-26 2014-07-02 华为技术有限公司 一种推荐话务套餐的方法及装置
CN105095912A (zh) * 2015-08-06 2015-11-25 北京奇虎科技有限公司 数据聚类的方法及装置

Also Published As

Publication number Publication date
CN107230090A (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN107230090B (zh) 一种净推荐值nps分类方法及装置
US8250008B1 (en) Decision tree refinement
CN109934704A (zh) 信息推荐方法、装置、设备和存储介质
CN106294508B (zh) 一种刷量工具检测方法及装置
CN104933075A (zh) 用户属性预测平台和方法
CN106919579A (zh) 一种信息处理方法及装置、设备
CN107358346B (zh) 针对于通信质量的评价信息处理方法和装置
CN109063736B (zh) 数据分类方法、装置、电子设备及计算机可读存储介质
CN102075366B (zh) 通信网络中数据处理的方法及设备
CN116629937A (zh) 营销策略推荐方法及装置
CN106897282B (zh) 一种用户群的分类方法和设备
CN107274042A (zh) 一种业务参与对象的风险识别方法及装置
CN111428885B (zh) 一种联邦学习中用户的索引方法及联邦学习装置
CN110189092B (zh) 审核组成员评估方法及装置
CN111861679A (zh) 一种基于人工智能的商品推荐方法
Gopal et al. Customer churn time prediction in mobile telecommunication industry using ordinal regression
CN111404835A (zh) 流量控制方法、装置、设备及存储介质
CN113535991A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN107273472A (zh) 一种资源受限约束下的活动推荐方法及系统
CN111368131B (zh) 用户关系识别方法、装置、电子设备及存储介质
CN110188977B (zh) 项目审核成员调度方法以及装置
CN112651790A (zh) 基于快消行业用户触达的ocpx自适应学习方法和系统
CN107832925A (zh) 互联网内容风险评价方法、装置及服务器
CN111353015A (zh) 众包题目推荐方法、装置、设备及存储介质
CN112487295B (zh) 5g套餐推送方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant