CN104217088B - 运营商移动业务资源的优化方法与系统 - Google Patents
运营商移动业务资源的优化方法与系统 Download PDFInfo
- Publication number
- CN104217088B CN104217088B CN201310207885.8A CN201310207885A CN104217088B CN 104217088 B CN104217088 B CN 104217088B CN 201310207885 A CN201310207885 A CN 201310207885A CN 104217088 B CN104217088 B CN 104217088B
- Authority
- CN
- China
- Prior art keywords
- data
- client
- mobile service
- variable
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开了运营商移动业务资源的优化方法与系统。该方法包括:统计运营商客户历史拨打数据,拨打数据为连续变量;通过卡方分析将连续变量转变为离散的特征变量;以客户是否开通移动业务作为2值的分类变量,建立特征变量与分类变量的C4.5决策树模型,其中,在该决策树模型中,计算每一种分割所对应的信息增益率,选择信息增益率最大的分割阈值作为该属性的最佳分割阈值;根据该决策树模型,计算分类变量的取值,以获得客户是否开通移动业务的预测结果;根据预测结果对运营商的移动业务资源进行优化处理操作。通过本发明提供的技术方案,能够高效地从当前客户的拨打行为中,获得客户对移动业务的需求,以实现对运营商移动业务资源的优化部署。
Description
技术领域
本发明涉及通信领域,特别涉及一种运营商移动业务资源的优化方法与系统。
背景技术
近年来,移动通信技术发展迅速。移动业务的运营商根据用户需求部署业务服务器设备,以提供业务服务。
运营商提供的业务是多元化的,运营商针对已有客户的使用需求,通常只有在该客户购买新的移动号码或者签约新的移动业务时,才获知该需求。然而,这种方式对于移动业务的业务资源部署存在滞后性,可能导致无法对移动业务资源的进行更优化的部署,例如,无法满足用户需求,或者资源部署不合理导致系统负载不均衡。
发明内容
根据本发明实施例的一个方面,所要解决的一个技术问题是:提供一种运营商移动业务资源的优化方法与系统,以提供对运营商移动业务资源的优化部署。
本发明实施例提供的一种运营商移动业务资源的优化方法,包括:
统计运营商客户历史拨打数据,所述拨打数据为连续变量;
通过卡方分析将所述连续变量转变为离散的特征变量;
以所述客户是否开通移动业务作为2值的分类变量,建立所述特征变量与所述分类变量的C4.5决策树模型;其中,在所述C4.5决策树模型中,将所述特征变量由小到大进行排列,获得属性取值的属性取值序列k为属性的个数,Tj为属性的取值个数,从Tj-1种划分方式对应的Tj-1个分割点ai=(Aik+A(i+1)k)/2,计算每一种分割所对应的信息增益率Gain_Ratio(Ak),选择其中信息增益率最大的分割阈值作为属性Ak的最佳分割阈值Threshold(Ak);
根据所述C4.5决策树模型,计算所述分类变量的取值,以获得所述客户是否开通移动业务的预测结果;
根据所述预测结果对运营商的移动业务资源进行优化处理操作。
本发明实施例提供的一种运营商移动业务资源的优化系统,包括:
统计单元,用于统计客户历史拨打数据,所述拨打数据为连续变量;
数据处理单元,用于通过卡方分析将所述连续变量转变为离散的特征变量;
决策树建模单元,用于以所述客户是否开通移动业务作为2值的分类变量,建立所述特征变量与所述分类变量的C4.5决策树模型;其中,在所述C4.5决策树模型中,将所述特征变量由小到大进行排列,获得属性取值的属性取值序列k为属性的个数,Tj为属性的取值个数,从Tj-1种划分方式对应的Tj-1个分割点ai=(Aik+A(i+1)k)/2,计算每一种分割所对应的信息增益率Gain_Ratio(Ak),选择其中信息增益率最大的分割阈值作为属性Ak的最佳分割阈值Threshold(Ak);
结果获取单元,用于根据所述C4.5决策树模型,计算所述分类变量的取值,以获得所述客户是否开通移动业务的预测结果;
优化单元,用于根据所述预测结果对运营商的移动业务资源进行优化处理操作。
基于本发明上述实施例提供的运营商移动业务资源的优化方法与系统,基于对C4.5算法中连续属性取值的离散化方法做了改进-局部最佳分割阈值选择法,从而使得决策树的生成效率得到了提高,进一步,利用改进后的算法,利用所统计客户历史拨打数据,高效地从当前客户的拨打行为中,获得客户对移动业务的需求,以实现对运营商移动业务资源的优化部署,满足用户需求。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1示出本发明所提供的运营商移动业务资源的优化方法一种实施例的流程示意图;
图2示出本发明所提供的运营商移动业务资源的优化方法一种实施例的流程示意图;
图3示出本发明所提供的建立客户开通号码数量的线性预测模型一种实施例的流程示意图;
图4示出本发明所提供的建立线性预测模型的数据抽样过程的流程示意图;
图5示出客户的拨打行为示意图;
图6示出线性预测模型的ROC曲线示意图;
图7示出本发明所提供的运营商移动业务资源的优化系统一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
参见图1所示,图1示出本发明所提供的运营商移动业务资源的优化方法一种实施例的流程示意图。该实施例提供的运营商移动业务资源的优化方法,包括:
101,统计客户历史拨打数据,拨打数据为连续变量。具体地,可以抽取部分客户拨打明细数据作为建模的样本,分析拨打数据,从样本数据中统计出每个客户ID所拥有的电信的0个或者多个移动号码,或者内网固话拨打时长、频次,内网移动号码拨打时长、频次,外网固话拨打时长、频次,外网移动号码拨打时长、频次。
参见图5所示,该5图示出客户的拨打行为示意图,例如,包括号码之间的网内呼叫,也包括与外网号码的呼叫。在一定时段的历史数据的基础上,能够分别统计每一个客户ID的对内拨打频次、拨打时长、拨打金额、对外拨打频次、拨打时长、拨打金额、以及拨打的最近时间等数据,并统计客户开通的移动号码数。示例性地,例如,以对内对外的拨打情况作为特征变量,以建立一个分类模型。
102,通过卡方分析将连续变量转变为离散的特征变量。
103,以客户是否开通移动业务作为2值的分类变量(例如,未开通取值为0,开通一个以上取值为1),建立特征变量与分类变量的C4.5决策树模型;其中,在C4.5决策树模型中,将特征变量由小到大进行排列,获得属性取值的属性取值序列k为属性的个数,Tj为属性的取值个数,从Tj-1种划分方式对应的Tj-1个分割点ai=(Aik+A(i+1)k)/2,计算每一种分割所对应的信息增益率Gain_Ratio(Ak),选择其中信息增益率最大的分割阈值作为属性Ak的最佳分割阈值Threshold(Ak)。
C4.5决策树算法是基于信息论的机器学习方法,通过分析训练数据集,在整个数据集上递归地建立一个决策树。在本发明中,103具体过程可以如下所描述的:
以102获得的离散的特征变量作为整个数据集为T,可以根据实际需要对该数据集进行分类,类别集为{A1,A2,…,Ak},每个类别对应一种属性,总共k个分类,对应的数据子集为Ti(1<=i<=k)。令|T|为数据集T的样本数,|Ai|为数据集T中属于类别Ai的样本数。各类别的先验概率为Pi=|Ai|/|T|,对数据集T进行分类所需要的信息熵为:
I(|A1|,|A2|,..,|Ak|)=-∑(Pi*log2Pi) (1)
属性Ak有Tj个不同的取值,构成属性值的取值序列
在该取值序列中共生成Tj-1个分割点,因此,对应有Tj-1种对数据集的划分方式。第i(1≤i≤Tj-1)个分割点的取值为:
ai=(Aik+A(i+1)k)/2 (2)
它将该节点上的数据集被划分为两个数据子集:[A1k,ai],
属性Ak的Tj-1种分割中的每一种情况,都可以作为该属性的两个离散取值,重新构造该属性的离散值,按照上述公式(2)计算每一种分割所对应的信息增益率Gain_Ratio(Ak),选择其中信息增益率最大的分割阈值作为属性Ak的最佳分割阈值,即
Threshold(Ak)=Ak (3)
Gain_Ratio(Ak)=max{Gain_Ratio(ai)} (4)
其中,ak是ai信息增益率最大者。
由于在衡量信息增益时,通常衡量特征能够为分类系统带来多少信息,带来信息越多,该特征越重要。对于一个特征而言,系统拥有该特征与没有该特征的信息量将发生变化。前、后信息量的差值为该特征给系统带来的信息量。
在上述方法连续属性离散化过程中,通过快速选择一个最佳的划分阈值,避免了对所有划分情况进行预测而占用大量时间。
对比于在现有技术中,属性Ak可将数据集T划分为q个子集{T1,T2,…,Tq},Tj(j=1,2,…,q)中的样本在属性Ak上具体具有相同的取值ajk。|Tj|为子集Tj中的样本数,|Cj i|为子集Tj中属于类别Ci的样本数,则由描述属性Ak划分数据集T所得信息熵为:
其中,Pij=|Cj i|/Tj表示数据子集Tj中类为Ci的样本占的比例。E(Ak)越小,表示属性对数据集划分的纯度越高。由式(1)(4)(5)可以得到按属性Ak划分数据集的信息增益:
Gain(Ak)=I(|C1|,|C2|,..,|Ck|)-E(Ak) (7)
属性Ak的信息熵为:
由式(7)和(8)获得信息增益率的计算公式:
Gain_Ratio(Ak)=Gain(Ak)/Split(Ak) (9)
可见,相对于获得公式(9)的过程,即获得属性Ak划分数据集T的信息增益率,在本发明中,选择信息增益率最大的属性值作为最佳分割阈值进行划分,从而只计算边界点处的属性值的信息增益率,无论用于学习的数据集有多少个类别,也不管类别的分布如何,连续型属性的最佳分割点总在边界点处,因此,极大减少了计算复杂度,提高了计算效率。
举例来说,将连续型描述属性按升序排列,选取排序后某一连续型属性的相邻两类点处的6个属性取值ai-2,ai-1,ai,ai+1,ai+2和ai+3(ai-2<ai-1<ai<ai+1<ai+2<ai+3)作为测试属性值。其中:ai是类1中的最大值,ai+1是类2中的最小值。计算相应的信息增益率,选择信息增益率最大的属性值作为最佳分割阈值进行划分。本发明改进后的C4.5算法只需计算边界点处6个属性值的信息增益率,相对于传统C4.5算法遍历所有的属性值的信息增益率,降低了计算复杂度。具体在实现本发明时,可以对通话时长、通话次数、消费金额等连续性变量进行离散化,并对客户进行分类。
104,根据C4.5决策树模型,计算分类变量的取值,以获得客户是否开通移动业务的预测结果。
根据C4.5决策树模型,还包括根据根节点属性不同取值所对应的数据子集,采用与前述103中相同的方法递归地建立树的分枝,选择分枝中信息增益率最大的属性作为子节点,循环直到所有的分枝节点中的样本属于同一类别。
还可以包括对对生成的决策树模型进行剪枝,消除噪声和孤立点等随机因素的影响,得到简化的决策树模型。
提取决策树模型的规则,对新的数据集进行分类预测。
通过对决策树生成效率和预测能力,对本发明中的C4.5算法与传统C4.5算法进行了比较。实验数据由训练数据和测试数据两部分组成。实验采用交叉验证决策树的分类准确率,各组实验数据的数量不同,逐组均匀增加。实验数据(m,n)分别代表训练集和测试集的样本数量(单位:千人),如表1所述。
表1
通过表1可以看出,本发明中改进的C4.5算法与传统C4.5算法的平均分类准确率相近。
然而通过前述分析可知,在决策树生成时间上,改进C4.5算法有很大的改进,减少了很大一部分用时,在一定程度上提高了C4.5算法的生成效率。通过本发明提供的C4.5算法中连续属性取值的离散化方法做了改进-局部最佳分割阈值选择法,使得决策树的生成效率提高20%。
105,根据预测结果对运营商的移动业务资源进行优化处理操作。例如,若根据分析结果,获得大量的客户将会开通移动业务,而现有的移动业务资源提供的服务不能满足该数量客户的开通移动业务后的负载,因此,可能的优化处理操作包括增加移动基站、移动频率资源、移动平台服务器的资源部署,以满足用户需求。
本发明上述实施例提供的方法,适用于大数据量样本的应用,能够高效地从当前客户的拨打行为中,获得客户对移动业务的需求,以实现对运营商移动业务资源的优化部署。
对于本发明中需要的其他C4.5算法操作和函数,可以根据本领域技术人员所公知的方式来实施。
参见图2所示,图2示出本发明所提供的运营商移动业务资源的优化方法一种实施例的流程示意图。该方法还包括以下操作。
201,针对预测结果为开通移动业务的客户,根据客户的拨打数据,建立客户开通号码数量的线性预测模型,其中,拨打数据为线性预测模型的自变量。
以该客户拥有的开通号码数量为因变量,建立该变量与拨打数据的线性预测模型。自变量可以包括对内网固话的拨打时长、对内网移动号码的拨打时长、对外网固话的拨打时长、对外网移动号码的拨打时长,并运用数据标准化方法将其标准化,如下式:
例如,自变量(x1,x2,…)是指的客户的拨打情况,客户开通号码数量为因变量(y)。经过标准化后的自变量与因变量具有如下所示的关系:
y=ax′1+bx′2+cx′3+dx'4 (11)
其中,a、b、c、d为系数。
202,根据线性预测模型,获得客户开通移动号码数量的预测计算结果。
203,根据客户开通移动号码数量的预测计算结果,对运营商的移动业务资源进行优化处理操作。
本发明上述实施例提供的方法中,通过建立客户拨打情况与客户开通移动号码数量的关联,进一步获得客户开通移动号码数量,汇总多客户的情况,获得移动号码业务量的预测,从而更能准确地根据用户需求,对运营商移动业务资源进行优化部署,例如,对于号段资源的分配部署。
参见图3所示,图3示出本发明所提供的建立客户开通号码数量的线性预测模型一种实施例的流程示意图。建立客户开通号码数量的线性预测模型可以包括以下流程:
(1)数据抽样;
(2)带入目标变量和说明性变量进行回归计算。
(3)建模操作;
(4)带入说明性变量系数进行验证,计算获得混淆矩阵和ROC曲线做准备;
(5)进一步计算得出ROC曲线,并最后验证模型性能。
参见图4所示,图4示出本发明所提供的建立客户开通号码数量的线性预测模型的数据抽样过程的流程示意图。201操作建立客户开通号码数量的线性预测模型的数据抽样过程,具体可以通过以下方法实现:
将客户的拨打数据作为训练数据集,根据数据分割策略,将训练数据集分为预测数据子集、验证数据子集和测试数据子集;
利用预测数据子集产生多种预测模型;
验证数据子集从多种预测模型中选择出一个最佳预测模型;
测试数据子集检验最佳预测模型的性能,响应于性能满足预定的要求,以最佳预测模型作为客户开通号码数量的线性预测模型。
以上实施例中,通过各个子集相互校验可以获得模型的准确性。
数据分割策略包括:定值分割或者自动分割中的任意一种;定值分割包括:根据预定的三个数据子集的大小和分割方式;自动分割包括:随机地、顺序地或者周期性地将训练数据集数据分割至三个数据子集,例如,3/5的数据被分割至预测数据子集,1/5被分割至验证数据子集,1/5被分割至测试数据子集。
(2)获得抽样数据后,带入目标变量和说明性变量进行回归计算,参见如表2目标和说明性变量总表所示。
表2
特征变量 | 代码 | 变量属性 |
客户类型 | AA | 说明性变量 |
国内长话卡占国内长话时长月均总比重 | AD | 说明性变量 |
国内长话卡占国内长话时长总比重增长率 | AE | 说明性变量 |
国台卡占国台时长月均比重 | AF | 说明性变量 |
国台卡占国台时长比重增长率 | AG | 说明性变量 |
国台IP占国台时长总月均比重 | AH | 说明性变量 |
(3)建模操作;
最终参与建模的所有说明性变量系数、标准误差、沃德检验、自由度、显著性和指数的具体数值,如表3格统计量总表所示。
表3
(4)带入说明性变量系数进行验证,为得出混淆矩阵和ROC曲线做准备。如表4混淆矩阵评估总表。
表4
(5)计算ROC曲线,并最后验证模型性能。ROC曲线又称受试者工作特征曲线(Receiver Operating Characteristic Curve)。ROC曲线常被用来评价分类预测模型的性能。应用ROC曲线以及非参数估计ROC曲线下面的面积大小作为诊断方法准确性评价的指标。
为克服其他准确性评价指标的局限性,可以应用ROC曲线方法对所建模型,预测能力进行检验,ROC曲线方法对判断的准确性提供了直观的视觉印象。通过对观察ROC曲线下面的面积远大于0.5说明诊断模型具有意义,根据本发明提供的一种实施例,在获得最佳预测模型之后,该方法还包括:
利用受试者工作特征ROC曲线对最佳预测模型进行准确性检测,其中,在坐标轴上,ROC曲线下房覆盖的面积大,准确性越高;
响应于准确性满足预定阈值,以最佳预测模型作为客户开通号码数量的线性预测模型。
参见图6所示,该图示出线性预测模型的ROC曲线示意图。如图6所示,该ROC曲线很好地逼近了左上角性说明该模型性能较好。
在上述各实施例中,拨打数据包括:内网固话拨打时长、频次,内网移动号码拨打时长、频次,外网固话拨打时长、频次,外网移动号码拨打时长、频次。
图7示出本发明所提供的运营商移动业务资源的优化系统一种实施例的结构示意图。该实施例提供的系统,包括:
统计单元701,用于统计客户历史拨打数据,拨打数据为连续变量;
数据处理单元702,用于通过卡方分析将连续变量转变为离散的特征变量;
决策树建模单元703,用于以客户是否开通移动业务作为2值的分类变量,建立特征变量与分类变量的C4.5决策树模型;其中,在C4.5决策树模型中,将特征变量由小到大进行排列,获得属性取值的属性取值序列k为属性的个数,Tj为属性的取值个数,从Tj-1种划分方式对应的Tj-1个分割点ai=(Aik+A(i+1)k)/2,计算每一种分割所对应的信息增益率Gain_Ratio(Ak),选择其中信息增益率最大的分割阈值作为属性Ak的最佳分割阈值Threshold(Ak);
结果获取单元704,用于根据C4.5决策树模型,计算分类变量的取值,以获得客户是否开通移动业务的预测结果;
优化单元705,用于根据预测结果对运营商的移动业务资源进行优化处理操作。
根据本发明系统实施例的一种示例,该系统还包括:
号码数量计算单元706,用于针对预测结果为开通移动业务的客户,根据客户的拨打数据,建立客户开通号码数量的线性预测模型,其中,拨打数据为线性预测模型的自变量,客户开通号码数量为因变量;根据线性预测模型,获得客户开通移动号码数量的预测计算结果;
其中,优化单元705,还用于根据客户开通移动号码数量的预测计算结果,对运营商的移动业务资源进行优化处理操作。
根据本发明系统实施例的一种示例,号码数量计算单元705,具体用于将客户的拨打数据作为训练数据集,根据数据分割策略,将训练数据集分为预测数据子集、验证数据子集和测试数据子集;利用预测数据子集产生多种预测模型;验证数据子集从多种预测模型中选择出一个最佳预测模型;测试数据子集检验最佳预测模型的性能,响应于性能满足预定的要求,以最佳预测模型作为客户开通号码数量的线性预测模型。
根据本发明系统实施例的一种示例,其中,数据分割策略包括:定值分割或者自动分割中的任意一种;定值分割包括:根据预定的三个数据子集的大小和分割方式;自动分割包括:随机地、顺序地或者周期性地将训练数据集数据分割至三个数据子集。
根据本发明系统实施例的一种示例,号码数量计算单元705,还用于利用ROC曲线对最佳预测模型进行准确性检测,其中,在坐标轴上,ROC曲线下房覆盖的面积大,准确性越高;响应于准确性满足预定阈值,以最佳预测模型作为客户开通号码数量的线性预测模型。
根据本发明系统实施例的一种示例,其中,拨打数据包括:内网固话拨打时长、频次,内网移动号码拨打时长、频次,外网固话拨打时长、频次,外网移动号码拨打时长、频次。
至此,已经详细描述了根据本发明的一种运营商移动业务资源的优化方法与系统。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的运营商移动业务资源的优化方法与系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的运营商移动业务资源的优化方法与系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。
Claims (6)
1.一种运营商移动业务资源的优化方法,包括:
统计运营商客户历史拨打数据,所述拨打数据为连续变量;
通过卡方分析将所述连续变量转变为离散的特征变量;
以所述客户是否开通移动业务作为2值的分类变量,建立所述特征变量与所述分类变量的C4.5决策树模型;其中,在所述C4.5决策树模型中,将所述特征变量由小到大进行排列,获得属性取值的属性取值序列k为属性的个数,Tj为属性的取值个数,从Tj-1种划分方式对应的Tj-1个分割点ai=(Aik+A(i+1)k)/2,其中1≤i≤Tj-1,计算每一种分割所对应的信息增益率Gain_Ratio(Ak),选择其中信息增益率最大的分割阈值作为属性Ak的最佳分割阈值Threshold(Ak);
根据所述C4.5决策树模型,计算所述分类变量的取值,以获得所述客户是否开通移动业务的预测结果;
根据所述预测结果对运营商的移动业务资源进行优化处理操作;
针对预测结果为开通移动业务的客户,根据所述客户的拨打数据,建立所述客户开通号码数量的线性预测模型,其中,拨打数据为线性预测模型的自变量,客户开通号码数量为因变量;其中,建立所述客户开通号码数量的线性预测模型的数据抽样过程包括:将客户的拨打数据作为训练数据集,根据数据分割策略,将训练数据集分为预测数据子集、验证数据子集和测试数据子集;利用预测数据子集产生多种预测模型;验证数据子集从所述多种预测模型中选择出一个最佳预测模型;测试数据子集检验所述最佳预测模型的性能,响应于性能满足预定的要求,以所述最佳预测模型作为所述客户开通号码数量的线性预测模型;
根据所述线性预测模型,获得所述客户开通移动号码数量的预测计算结果;
根据所述客户开通移动号码数量的预测计算结果,对运营商的移动业务资源进行优化处理操作;
利用受试者工作特征ROC曲线对所述最佳预测模型进行准确性检测,其中,在坐标轴上,所述ROC曲线下方覆盖的面积越大,准确性越高;
响应于准确性满足预定阈值,以所述最佳预测模型作为所述客户开通号码数量的线性预测模型。
2.根据权利要求1所述的方法,其中,所述数据分割策略,包括:定值分割或者自动分割中的任意一种;
所述定值分割包括:根据预定的三个数据子集的大小和分割方式;
所述自动分割包括:随机地、顺序地或者周期性地将训练数据集数据分割至三个数据子集。
3.根据权利要求1至2任意一项所述的方法,其中,所述拨打数据包括:内网固话拨打时长、频次,内网移动号码拨打时长、频次,外网固话拨打时长、频次,外网移动号码拨打时长、频次。
4.一种运营商移动业务资源的优化系统,包括:
统计单元,用于统计客户历史拨打数据,所述拨打数据为连续变量;
数据处理单元,用于通过卡方分析将所述连续变量转变为离散的特征变量;
决策树建模单元,用于以所述客户是否开通移动业务作为2值的分类变量,建立所述特征变量与所述分类变量的C4.5决策树模型;其中,在所述C4.5决策树模型中,将所述特征变量由小到大进行排列,获得属性取值的属性取值序列k为属性的个数,Tj为属性的取值个数,从Tj-1种划分方式对应的Tj-1个分割点ai=(Aik+A(i+1)k)/2,其中1≤i≤Tj-1,计算每一种分割所对应的信息增益率Gain_Ratio(Ak),选择其中信息增益率最大的分割阈值作为属性Ak的最佳分割阈值Threshold(Ak);
结果获取单元,用于根据所述C4.5决策树模型,计算所述分类变量的取值,以获得所述客户是否开通移动业务的预测结果;
优化单元,用于根据所述预测结果对运营商的移动业务资源进行优化处理操作;
号码数量计算单元,用于针对预测结果为开通移动业务的客户,根据所述客户的拨打数据,建立所述客户开通号码数量的线性预测模型,其中,拨打数据为线性预测模型的自变量,客户开通号码数量为因变量;根据所述线性预测模型,获得所述客户开通移动号码数量的预测计算结果;所述号码数量计算单元,具体用于将客户的拨打数据作为训练数据集,根据数据分割策略,将训练数据集分为预测数据子集、验证数据子集和测试数据子集;利用预测数据子集产生多种预测模型;验证数据子集从所述多种预测模型中选择出一个最佳预测模型;测试数据子集检验所述最佳预测模型的性能,响应于性能满足预定的要求,以所述最佳预测模型作为所述客户开通号码数量的线性预测模型;所述号码数量计算单元,还用于利用ROC曲线对所述最佳预测模型进行准确性检测,其中,在坐标轴上,所述ROC曲线下方覆盖的面积越大,准确性越高;响应于准确性满足预定阈值,以所述最佳预测模型作为所述客户开通号码数量的线性预测模型;
所述优化单元,还用于根据所述客户开通移动号码数量的预测计算结果,对运营商的移动业务资源进行优化处理操作。
5.根据权利要求4所述的系统,其中,所述数据分割策略,包括:定值分割或者自动分割中的任意一种;
所述定值分割包括:根据预定的三个数据子集的大小和分割方式;
所述自动分割包括:随机地、顺序地或者周期性地将训练数据集数据分割至三个数据子集。
6.根据权利要求4至5任意一项所述的系统,其中,所述拨打数据包括:内网固话拨打时长、频次,内网移动号码拨打时长、频次,外网固话拨打时长、频次,外网移动号码拨打时长、频次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310207885.8A CN104217088B (zh) | 2013-05-30 | 2013-05-30 | 运营商移动业务资源的优化方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310207885.8A CN104217088B (zh) | 2013-05-30 | 2013-05-30 | 运营商移动业务资源的优化方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217088A CN104217088A (zh) | 2014-12-17 |
CN104217088B true CN104217088B (zh) | 2018-05-25 |
Family
ID=52098574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310207885.8A Active CN104217088B (zh) | 2013-05-30 | 2013-05-30 | 运营商移动业务资源的优化方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217088B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095798A (zh) * | 2016-05-31 | 2016-11-09 | 北京红马传媒文化发展有限公司 | 一种基于特征数据库的性别特征的识别方法、系统及终端 |
CN107423339A (zh) * | 2017-04-29 | 2017-12-01 | 天津大学 | 基于极端梯度推进和随机森林的热门微博预测方法 |
CN108710979B (zh) * | 2018-03-31 | 2022-02-18 | 西安电子科技大学 | 一种基于决策树的物联网港口船舶调度方法 |
CN111105266B (zh) * | 2019-11-11 | 2023-10-27 | 建信金融科技有限责任公司 | 基于改进决策树的客户分群方法及装置 |
CN112017062B (zh) * | 2020-07-15 | 2024-06-07 | 北京淇瑀信息科技有限公司 | 基于客群细分的资源额度分配方法、装置及电子设备 |
CN113269558B (zh) * | 2021-06-25 | 2024-06-28 | 中国银行股份有限公司 | 分布式系统中交易处理的方法及装置 |
CN114491416B (zh) * | 2022-02-23 | 2024-07-16 | 北京百度网讯科技有限公司 | 特征信息的处理方法、装置、电子设备和存储介质 |
-
2013
- 2013-05-30 CN CN201310207885.8A patent/CN104217088B/zh active Active
Non-Patent Citations (7)
Title |
---|
"C4.5算法在移动通信行业客户流失分析中的应用";邹竞等;《计算技术与自动化》;20090930;第28卷(第3期);第98-101页 * |
"决策树C4.5连续属性分割阈值算法改进及其应用";姚亚夫等;《中南大学学报(自然科学版)》;20111231;第42卷(第12期);第3772-3776页 * |
"基于C4.5决策树的顾客数量预测";沈林;《廊坊师范学院学报(自然科学版)》;20100831;第10卷(第4期);第30-32页 * |
"数据挖掘应用于中国移动数据业务精确化营销";王洁;《通信市场》;20100426(第1期);第57-62页 * |
"数据挖掘技术在移动增值业务中的应用";孔勤;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20091115;第2009年卷(第11期);第J155-30页 * |
"数据挖掘技术在移动通信业中的应用研究";于莉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070515;第2007年卷(第5期);第I138-427页 * |
"移动增值业务精确化营销数据分析挖掘系统的设计与开发";赵悦;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120515;第2012年卷(第5期);第I138-845页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104217088A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217088B (zh) | 运营商移动业务资源的优化方法与系统 | |
Kirui et al. | Predicting customer churn in mobile telephony industry using probabilistic classifiers in data mining | |
Mishra et al. | A novel approach for churn prediction using deep learning | |
CN109558962A (zh) | 预测电信用户流失的装置、方法和存储介质 | |
CN110198310A (zh) | 一种网络行为反作弊方法、装置及存储介质 | |
CN106778876A (zh) | 基于移动用户轨迹相似性的用户分类方法和系统 | |
CN109242135A (zh) | 一种模型运营方法、装置、及业务服务器 | |
CN109688275A (zh) | 骚扰电话识别方法、装置及存储介质 | |
CN108989581A (zh) | 一种用户风险识别方法、装置及系统 | |
CN103250376B (zh) | 用于执行与通信网络的节点有关的预测分析的方法和系统 | |
CN109711746A (zh) | 一种基于复杂网络的信用评估方法和系统 | |
CN109872232A (zh) | 涉及非法所得合法化行为的账户分类方法、装置、计算机设备及存储介质 | |
CN113961712B (zh) | 一种基于知识图谱的诈骗电话分析方法 | |
CN108268477A (zh) | 一种基于话单的用户关系确定方法和装置 | |
CN106385693A (zh) | 针对虚拟号段的电信诈骗判断方法 | |
CN109033513A (zh) | 电力变压器故障诊断方法与电力变压器故障诊断装置 | |
CN107544905A (zh) | 回归测试用例集的优化方法和系统 | |
CN107038449A (zh) | 一种欺诈用户的识别方法及装置 | |
CN109474923A (zh) | 对象识别方法及装置、存储介质 | |
CN107247450A (zh) | 基于贝叶斯网络的断路器故障诊断方法 | |
CN106296315A (zh) | 基于用户用电数据的情境感知系统 | |
Li et al. | Enhancing telco service quality with big data enabled churn analysis: infrastructure, model, and deployment | |
CN112836771A (zh) | 业务服务点的分类方法、装置、电子设备和存储介质 | |
CN107085757B (zh) | 一种确定风险类用户的方法及装置 | |
CN107015993A (zh) | 一种用户类型识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |