CN106056137B

CN106056137B - 一种基于数据挖掘多分类算法的电信集团业务推荐方法

Info

Publication number: CN106056137B
Application number: CN201610353613.2A
Authority: CN
Inventors: 张雷; 王静; 谢俊元
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2019-06-04
Anticipated expiration: 2036-05-25
Also published as: CN106056137A

Abstract

本发明提供一种基于数据挖掘多分类算法的电信集团业务推荐方法，包括如下步骤：构建数据集阶段：1a)采用KNN算法预判用户的候选类子集；1b)基于类标特征属性构建用于训练与预测的标准数据集；模型训练与预测阶段：2a)获取步骤1b)中标准数据集；2b)训练一个朴素贝叶斯二分类；2c)采用分类器预测用户与集团类标的关系；结果合并阶段：3a)获取步骤2c)中二分类预测；3b)基于置信度策略合并二分类结果得到用户最终集团类标；c)结束。本发明的基于候选类子集和类标特征属性的多分类算法准确高效的为用户推荐集团业务，利用了海量业务数据进行精准营销，不仅能够减少用户流失，而且能够提高用户满意度，促进电信业发展。

Description

一种基于数据挖掘多分类算法的电信集团业务推荐方法

技术领域

本发明涉及通信技术领域，具体而言涉及一种基于数据挖掘多分类算法的电信集团业务推荐方法。

背景技术

随着移动互联网的不断发展，各类智能终端的出现，手机应用的发展使得越来越多的社交软件成为人与人的联系工具，人们的生活习惯也随之改变。新兴社交软件对传统社交媒介例如电话和短信同新兴社交媒介产生了强烈的碰撞。

对于传统运营商行业来说，新兴社交软件对其传统电信业务带来了巨大的影响。从电信业务中也可以看出，通话和短信所占的份量已不比从前，收入也出现大幅度的下滑，取而代之成为用户的消费核心的是流量业务。一方面电信行业转变战略，开发多种多样丰富多彩的流量业务作为自身的盈利新模式，另一方面，业界仍然重视自身的传统业务，通话业务和短信业务占据着移动运营商最根本的地位。

对运营商来说，如何能够留住在网优质活跃用户也成为营销过程中的主要问题之一，集团业务是主要并且有效的方式之一。为用户开通集团业务，提供集团内免费通话时长。这样的业务，在基站已经铺设的条件下，对运营商来说几乎是没有成本的。用户在开通集团业务享受集团通话优惠的时候，往往需要签约在网时间，运营商在用户在网的时间内通过其他的营销方式产生全新的盈利点。因此，如何能够通过用户的通话流水数据预测用户归属的集团，向用户精准推荐集团业务，是有着实际意义的。

发明内容

本发明目的在于提供一种基于数据挖掘多分类算法的电信集团业务推荐方法，通过一个二分类器解决多分类问题，预测用户的集团类标，精准营销集团业务套餐。

为达成上述目的，本发明提出一种基于数据挖掘多分类算法的电信集团业务推荐方法，包括下列步骤：

1)构建数据集阶段

1a)基于KNN算法预判用户的候选类子集；

1b)基于类标特征属性构建标准数据集；

2)模型训练与预测阶段

2a)获取步骤1b)中标准数据集；

2b)训练一个朴素贝叶斯二分类；

2c)采用分类器预测用户与集团类标的关系；

3)结果合并阶段

3a)获取步骤2c)中二分类预测；

3b)基于置信度策略合并二分类结果得到用户最终集团类标；

3c)结束。

本发明有益效果：本发明的基于候选类子集和类标特征属性的多分类算法准确高效的为用户推荐集团业务，利用了海量业务数据进行精准营销，不仅能够减少用户流失，而且能够提高用户满意度，促进电信业发展。

附图说明

图1为数据挖掘操作流程图。

图2为本发明基于数据挖掘多分类算法的电信集团业务推荐方法的流程图。

图3为基于KNN的候选类子集预判流程图。

图4为基于类标特征属性构建标准数据流程图

图5为二分类结果合并流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

图1为数据挖掘操作流程图。如图1所示，通过对运营商内部用户通话业务数据进行数据挖掘，将用户集团信息表作为数据源，经数据规范化、格式化等预处理生成文本数据，然后对数据进行建模，对结果进行表达和解释。

本发明的基于KNN算法预判用户的候选类子集具体过程如图2所示。

步骤0为本发明的数据挖掘多分类算法的起始状态；

在数据集构造阶段(步骤1至2)，步骤1采用KNN算法预判用户的候选类子集以减小数据规模；

步骤2是利用类标特征属性构建用于二分类器的标准数据集；

在模型训练与预测阶段(步骤3至4)，步骤3是通过标准训练数据调用weka训练一个二分类器；

步骤4是通过训练好的二分类器预测用户与各类标的关系及其置信度；

在结果合并阶段(步骤5)，步骤5是在步骤4得到的二分类类标及其置信度的基础上，采用投票策略合并多个二分类结果得到用户最终的集团类标；

步骤6是结束步骤。

图3是对图2中步骤1对一个用户x进行候选类子集的详细描述,定义候选类子集大小为INT_SIZE。

步骤7为起始步骤；

步骤8是计算用户x与用户y的通话频次作为KNN算法中的距离d(x，y)；

步骤9是将距离放入distance[x]，该数组存放了用户x与其他用户的通话频次；

步骤10是降序排列该数组，找出INT_SIZE个候选类子集；

步骤11是判断数组distance[x]长度是否小于INT_SIZE，如果是，执行步骤12，如果否执行步骤13；

步骤12是当数组distance[x]长度小于INT_SIZE时，随机挑选

INT_SIZE-len(distace[x])个用户；

步骤13是将distace[x]中前INT_SIZE个用户的集团类标作为用户x的候选类子集，存入candidateGroup[i]；

步骤14为结束步骤。

图4是图2中步骤2构造一条标准数据的详细描述。

步骤15为起始步骤；

步骤16是选择一个合法状态的用户user_id；

步骤17是统计用户主叫次数UserCallCount；

步骤18是统计用户主叫时间UserCallTimeCount；

步骤19是统计用户主叫的用户数量UserCallUserCount；

步骤20是统计用户通话费用UserCallFee；

步骤21是选择一个集团类标GroupId；

步骤22是统计该集团用户数量GroupUserCount；

步骤23是统计统计该用户user_id主叫该集团GroupId的通话次数UserGroupCallCount；

步骤24是统计该用户user_id主叫该集团GroupId的通话时长UserGroupCallTimeCount；

步骤25是判断该用户user_id的集团类标是否为GroupId，如果是，则执行步骤27，反之则执行步骤26；

步骤26是为该用户user_id的与该集团类标GroupId构成的标准数据打上类标0；

步骤27是为该用户user_id的与该集团类标GroupId构成的标准数据打上类标1；

步骤28为结束状态。

图5是对图2中步骤5的对一个用户合并其与多个集团的二分类结果的详细描述，最高置信度max_σ定义为0。

步骤29为开始状态；

步骤30是采用二分类器对用户user_id和集团GroupId的关系类标L及该类标的置信度σ；

步骤31是判断L*σ＞max_σ，如果是，则执行步骤32，反之则执行步骤33；

步骤32是将预测类标赋值为GroupId；

步骤33是判断是否已经遍历该用户候选类子集中的所有集团类标，如果是则执行步骤34，反之则执行步骤30；

步骤34为结束状态。

综上所述，预判用户候选类子集，通过类标特征构建标准数据，训练一个二分类器，预测用户与集团类标的关系，将多个二分类结果合并为最终集团类标是本发明的主要步骤，本发明就是通过一个二分类器解决多分类问题，预测用户的集团类标，精准营销集团业务套餐。

本发明利用移动业务数据，采用基于KNN算法的候选类子集方法预判用户可能属于的集团类标，采用类标特征属性构造标准数据，用一个二分类器解决了预测用户集团类标这个多分类问题，利用数据挖掘多分类算法高效精准地预测了用户的集团类标。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于数据挖掘多分类算法的电信集团业务推荐方法，其特征在于，包括构建数据集阶段、模型训练和预测阶段、结果合并阶段，具体包括如下步骤：

1)构建数据集阶段

1a)基于KNN算法预判用户的候选类子集；

1b)基于类标特征属性构建标准数据集；

2)模型训练与预测阶段

2a)获取步骤1b)中标准数据集；

2b)训练一个朴素贝叶斯二分类；

2c)采用分类器预测用户与集团类标的关系；

3)结果合并阶段

3a)获取步骤2c)中二分类预测；

3b)基于置信度策略合并二分类结果得到用户最终集团类标；

3c)结束；

步骤1a)中所述的基于KNN算法预判用户的候选类子集具体过程如下：

1a-1)选择候选类子集大小INT_SIZE；

1a-2)计算用户x_i与用户x_j通话的频次d(x_i，x_j)作为KNN算法的相似度；

1a-3)降序排列得到与用户x_i最为相似的INT_SIZE个用户；

1a-4)记录相似用户的集团类标为候选类子集；

1a-5)结束；

步骤1b)中所述的基于类标特征属性构建标准数据集具体过程如下：

1b-1)选择用户集团信息表中处于合法状态的用户作为训练与预测用户，每个用户都有一个唯一的user_id；

1b-2)计算该用户通话行为属性，包括：用户主叫次数UserCallCount，用户主叫时间UserCallTimeCount,该用户主叫的用户数量UserCallUserCount，用户通话费用UserCallFee；

1b-3)计算该用户候选类子集中各个集团类标属性，包括：集团用户数量GroupUserCount，集团类标GroupId；

1b-4)计算用户与集团通话行为属性，包括：用户主叫集团通话次数UserGroupCallCount，用户主叫集团通话时长UserGroupCallTimeCount；

1b-5)训练用户与其候选类子集中的每一个集团类标构建一条新的标准数据，属性为上述构建的属性，如果用户属于该集团类标，则类标为+1，反之则为-1；

1b-6)预测用户也与其候选类子集中的每一个集团类标构建一条新的标准数据，属性为上述构建的属性，类标空缺；

1b-7)结束。

2.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法，其特征在于，步骤2b)的具体过程如下：

1)调用weka中朴素贝叶斯二分类器模型；

2)训练数据集训练该模型；

3)结束。

3.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法，其特征在于，步骤2c)的具体过程如下：

1)二分类器预测用户与集团的关系；

2)记录预测类标及置信度σ_ij；

3)结束。