CN106056137A - 一种基于数据挖掘多分类算法的电信集团业务推荐方法 - Google Patents

一种基于数据挖掘多分类算法的电信集团业务推荐方法 Download PDF

Info

Publication number
CN106056137A
CN106056137A CN201610353613.2A CN201610353613A CN106056137A CN 106056137 A CN106056137 A CN 106056137A CN 201610353613 A CN201610353613 A CN 201610353613A CN 106056137 A CN106056137 A CN 106056137A
Authority
CN
China
Prior art keywords
user
group
class
class mark
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610353613.2A
Other languages
English (en)
Other versions
CN106056137B (zh
Inventor
张雷
王静
谢俊元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201610353613.2A priority Critical patent/CN106056137B/zh
Publication of CN106056137A publication Critical patent/CN106056137A/zh
Application granted granted Critical
Publication of CN106056137B publication Critical patent/CN106056137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于数据挖掘多分类算法的电信集团业务推荐方法,包括如下步骤:构建数据集阶段:1a)采用KNN算法预判用户的候选类子集;1b)基于类标特征属性构建用于训练与预测的标准数据集;模型训练与预测阶段:2a)获取步骤1b)中标准数据集;2b)训练一个朴素贝叶斯二分类;2c)采用分类器预测用户与集团类标的关系;结果合并阶段:3a)获取步骤2c)中二分类预测;3b)基于置信度策略合并二分类结果得到用户最终集团类标;c)结束。本发明的基于候选类子集和类标特征属性的多分类算法准确高效的为用户推荐集团业务,利用了海量业务数据进行精准营销,不仅能够减少用户流失,而且能够提高用户满意度,促进电信业发展。

Description

一种基于数据挖掘多分类算法的电信集团业务推荐方法
技术领域
本发明涉及通信技术领域,具体而言涉及一种基于数据挖掘多分类算法的电信集团业务推荐方法。
背景技术
随着移动互联网的不断发展,各类智能终端的出现,手机应用的发展使得越来越多的社交软件成为人与人的联系工具,人们的生活习惯也随之改变。新兴社交软件对传统社交媒介例如电话和短信同新兴社交媒介产生了强烈的碰撞。
对于传统运营商行业来说,新兴社交软件对其传统电信业务带来了巨大的影响。从电信业务中也可以看出,通话和短信所占的份量已不比从前,收入也出现大幅度的下滑,取而代之成为用户的消费核心的是流量业务。一方面电信行业转变战略,开发多种多样丰富多彩的流量业务作为自身的盈利新模式,另一方面,业界仍然重视自身的传统业务,通话业务和短信业务占据着移动运营商最根本的地位。
对运营商来说,如何能够留住在网优质活跃用户也成为营销过程中的主要问题之一,集团业务是主要并且有效的方式之一。为用户开通集团业务,提供集团内免费通话时长。这样的业务,在基站已经铺设的条件下,对运营商来说几乎是没有成本的。用户在开通集团业务享受集团通话优惠的时候,往往需要签约在网时间,运营商在用户在网的时间内通过其他的营销方式产生全新的盈利点。因此,如何能够通过用户的通话流水数据预测用户归属的集团,向用户精准推荐集团业务,是有着实际意义的。
发明内容
本发明目的在于提供一种基于数据挖掘多分类算法的电信集团业务推荐方法,通过一个二分类器解决多分类问题,预测用户的集团类标,精准营销集团业务套餐。
为达成上述目的,本发明提出一种基于数据挖掘多分类算法的电信集团业务推荐方法,包括下列步骤:
1)构建数据集阶段
1a)基于KNN算法预判用户的候选类子集;
1b)基于类标特征属性构建标准数据集;
2)模型训练与预测阶段
2a)获取步骤1b)中标准数据集;
2b)训练一个朴素贝叶斯二分类;
2c)采用分类器预测用户与集团类标的关系;
3)结果合并阶段
3a)获取步骤2c)中二分类预测;
3b)基于置信度策略合并二分类结果得到用户最终集团类标;
3c)结束。
本发明有益效果:本发明的基于候选类子集和类标特征属性的多分类算法准确高效的为用户推荐集团业务,利用了海量业务数据进行精准营销,不仅能够减少用户流失,而且能够提高用户满意度,促进电信业发展。
附图说明
图1为数据挖掘操作流程图。
图2为本发明基于数据挖掘多分类算法的电信集团业务推荐方法的流程图。
图3为基于KNN的候选类子集预判流程图。
图4为基于类标特征属性构建标准数据流程图
图5为二分类结果合并流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
图1为数据挖掘操作流程图。如图1所示,通过对运营商内部用户通话业务数据进行数据挖掘,将用户集团信息表作为数据源,经数据规范化、格式化等预处理生成文本数据,然后对数据进行建模,对结果进行表达和解释。
本发明的基于KNN算法预判用户的候选类子集具体过程如图2所示。
步骤0为本发明的数据挖掘多分类算法的起始状态;
在数据集构造阶段(步骤1至2),步骤1采用KNN算法预判用户的候选类子集以减小数据规模;
步骤2是利用类标特征属性构建用于二分类器的标准数据集;
在模型训练与预测阶段(步骤3至4),步骤3是通过标准训练数据调用weka训练一个二分类器;
步骤4是通过训练好的二分类器预测用户与各类标的关系及其置信度;
在结果合并阶段(步骤5),步骤5是在步骤4得到的二分类类标及其置信度的基础上,采用投票策略合并多个二分类结果得到用户最终的集团类标;
步骤6是结束步骤。
图3是对图2中步骤1对一个用户x进行候选类子集的详细描述,定义候选类子集大小为INT_SIZE。
步骤7为起始步骤;
步骤8是计算用户x与用户y的通话频次作为KNN算法中的距离d(x,y);
步骤9是将距离放入distance[x],该数组存放了用户x与其他用户的通话频次;
步骤10是降序排列该数组,找出INT_SIZE个候选类子集;
步骤11是判断数组distance[x]长度是否小于INT_SIZE,如果是,执行步骤12,如果否执行步骤13;
步骤12是当数组distance[x]长度小于INT_SIZE时,随机挑选
INT_SIZE-len(distace[x])个用户;
步骤13是将distace[x]中前INT_SIZE个用户的集团类标作为用户x的候选类子集,存入candidateGroup[i];
步骤14为结束步骤。
图4是图2中步骤2构造一条标准数据的详细描述。
步骤15为起始步骤;
步骤16是选择一个合法状态的用户user_id;
步骤17是统计用户主叫次数UserCallCount;
步骤18是统计用户主叫时间UserCallTimeCount;
步骤19是统计用户主叫的用户数量UserCallUserCount;
步骤20是统计用户通话费用UserCallFee;
步骤21是选择一个集团类标GroupId;
步骤22是统计该集团用户数量GroupUserCount;
步骤23是统计统计该用户user_id主叫该集团GroupId的通话次数UserGroupCallCount;
步骤24是统计该用户user_id主叫该集团GroupId的通话时长UserGroupCallTimeCount;
步骤25是判断该用户user_id的集团类标是否为GroupId,如果是,则执行步骤27,反之则执行步骤26;
步骤26是为该用户user_id的与该集团类标GroupId构成的标准数据打上类标0;
步骤27是为该用户user_id的与该集团类标GroupId构成的标准数据打上类标1;
步骤28为结束状态。
图5是对图2中步骤5的对一个用户合并其与多个集团的二分类结果的详细描述,最高置信度max_σ定义为0。
步骤29为开始状态;
步骤30是采用二分类器对用户user_id和集团GroupId的关系类标L及该类标的置信度σ;
步骤31是判断L*σ>max_σ,如果是,则执行步骤32,反之则执行步骤33;
步骤32是将预测类标赋值为GroupId;
步骤33是判断是否已经遍历该用户候选类子集中的所有集团类标,如果是则执行步骤34,反之则执行步骤30;
步骤34为结束状态。
综上所述,预判用户候选类子集,通过类标特征构建标准数据,训练一个二分类器,预测用户与集团类标的关系,将多个二分类结果合并为最终集团类标是本发明的主要步骤,本发明就是通过一个二分类器解决多分类问题,预测用户的集团类标,精准营销集团业务套餐。
本发明利用移动业务数据,采用基于KNN算法的候选类子集方法预判用户可能属于的集团类标,采用类标特征属性构造标准数据,用一个二分类器解决了预测用户集团类标这个多分类问题,利用数据挖掘多分类算法高效精准地预测了用户的集团类标。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (6)

1.一种基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,包括构建数据集阶段、模型训练和预测阶段、结果合并阶段,具体包括如下步骤:
1)构建数据集阶段
1a)基于KNN算法预判用户的候选类子集;
1b)基于类标特征属性构建标准数据集;
2)模型训练与预测阶段
2a)获取步骤1b)中标准数据集;
2b)训练一个朴素贝叶斯二分类;
2c)采用分类器预测用户与集团类标的关系;
3)结果合并阶段
3a)获取步骤2c)中二分类预测;
3b)基于置信度策略合并二分类结果得到用户最终集团类标;
3c)结束。
2.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,步骤1a)中所述的基于KNN算法预判用户的候选类子集具体过程如下:
1)选择候选类子集大小INT_SIZE;
2)计算用户xi与用户xj通话的频次d(xi,xj)作为KNN算法的相似度;
3)降序排列得到与用户xi最为相似的INT_SIZE个用户;
4)记录相似用户的集团类标为候选类子集;
5)结束。
3.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,步骤1b)中所述的基于类标特征属性构建标准数据集具体过程如下:
1)选择用户集团信息表中处于合法状态的用户作为训练与预测用户,每个用户都有一个唯一的user_id;
2)计算该用户通话行为属性,包括:用户主叫次数UserCallCount,用户主叫时间UserCallTimeCount,该用户主叫的用户数量UserCallUserCount,用户通话费用UserCallFee;
3)计算该用户候选类子集中各个集团类标属性,包括:集团用户数量GroupUserCount,集团类标GroupId;
4)计算用户与集团通话行为属性,包括:用户主叫集团通话次数UserGroupCallCount,用户主叫集团通话时长UserGroupCallTimeCount;
5)训练用户与其候选类子集中的每一个集团类标构建一条新的标准数据,属性为上述构建的属性,如果用户属于该集团类标,则类标为+1,反之则为-1;
6)预测用户也也与其候选类子集中的每一个集团类标构建一条新的标准数据,属性为上述构建的属性,类标空缺;
7)结束。
4.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,步骤2b)的具体过程如下:
1)调用weka中朴素贝叶斯二分类器模型;
2)训练数据集训练该模型;
3)结束。
5.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,步骤2c)的具体过程如下:
1)二分类器预测用户与集团的关系;
2)记录预测类标及置信度σij
3)结束。
6.根据权利要求5所述的基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,步骤3b)的具体过程如下:
1)根据二分类结果合并策略计算用户与类标分类结果的置信度;
2)取置信度最高的类标属性中的集团类标作为该用户的集团类标;
3)结束。
CN201610353613.2A 2016-05-25 2016-05-25 一种基于数据挖掘多分类算法的电信集团业务推荐方法 Active CN106056137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610353613.2A CN106056137B (zh) 2016-05-25 2016-05-25 一种基于数据挖掘多分类算法的电信集团业务推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610353613.2A CN106056137B (zh) 2016-05-25 2016-05-25 一种基于数据挖掘多分类算法的电信集团业务推荐方法

Publications (2)

Publication Number Publication Date
CN106056137A true CN106056137A (zh) 2016-10-26
CN106056137B CN106056137B (zh) 2019-06-04

Family

ID=57175253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610353613.2A Active CN106056137B (zh) 2016-05-25 2016-05-25 一种基于数据挖掘多分类算法的电信集团业务推荐方法

Country Status (1)

Country Link
CN (1) CN106056137B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169515A (zh) * 2017-05-10 2017-09-15 杭州电子科技大学 一种基于改进朴素贝叶斯的个人收入分类方法
CN107403019A (zh) * 2017-08-15 2017-11-28 重庆邮电大学 一种基于移动数据的车主身份识别方法
CN109858948A (zh) * 2018-12-25 2019-06-07 国网北京市电力公司 电力客户营销策略的确定方法和装置
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621748A (zh) * 2008-06-30 2010-01-06 中兴通讯股份有限公司 跨业务控制点移动虚拟专用网集团业务的实现方法和装置
CN102831219A (zh) * 2012-08-22 2012-12-19 浙江大学 一种应用于社区发现的可覆盖聚类算法
US8498491B1 (en) * 2011-08-10 2013-07-30 Google Inc. Estimating age using multiple classifiers
CN104794195A (zh) * 2015-04-17 2015-07-22 南京大学 一种用于电信潜在换机用户发现的数据挖掘方法
CN105160087A (zh) * 2015-08-26 2015-12-16 中国人民解放军军事医学科学院放射与辐射医学研究所 一种关联规则最优曲线模型的构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621748A (zh) * 2008-06-30 2010-01-06 中兴通讯股份有限公司 跨业务控制点移动虚拟专用网集团业务的实现方法和装置
US8498491B1 (en) * 2011-08-10 2013-07-30 Google Inc. Estimating age using multiple classifiers
CN102831219A (zh) * 2012-08-22 2012-12-19 浙江大学 一种应用于社区发现的可覆盖聚类算法
CN104794195A (zh) * 2015-04-17 2015-07-22 南京大学 一种用于电信潜在换机用户发现的数据挖掘方法
CN105160087A (zh) * 2015-08-26 2015-12-16 中国人民解放军军事医学科学院放射与辐射医学研究所 一种关联规则最优曲线模型的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨婷 滕少华: "改进的贝叶斯分类方法在电信客户流失中的研究与应用", 《广东工业大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169515A (zh) * 2017-05-10 2017-09-15 杭州电子科技大学 一种基于改进朴素贝叶斯的个人收入分类方法
CN107403019A (zh) * 2017-08-15 2017-11-28 重庆邮电大学 一种基于移动数据的车主身份识别方法
CN107403019B (zh) * 2017-08-15 2020-08-18 重庆邮电大学 一种基于移动数据的车主身份识别方法
CN109858948A (zh) * 2018-12-25 2019-06-07 国网北京市电力公司 电力客户营销策略的确定方法和装置
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质

Also Published As

Publication number Publication date
CN106056137B (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN106372072A (zh) 一种基于位置的移动社会网络用户关系的识别方法
CN106056137A (zh) 一种基于数据挖掘多分类算法的电信集团业务推荐方法
CN108763502A (zh) 信息推荐方法和系统
CN103678618A (zh) 一种基于社交网络平台的Web服务推荐方法
CN106778876A (zh) 基于移动用户轨迹相似性的用户分类方法和系统
CN110417607B (zh) 一种流量预测方法、装置及设备
CN101620596A (zh) 一种面向查询的多文档自动摘要方法
CN108322317A (zh) 一种账号识别关联方法及服务器
CN106951471A (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN107784033A (zh) 一种基于会话进行推荐的方法和装置
CN105281925A (zh) 网络业务用户群组划分的方法和装置
CN106991577A (zh) 一种确定目标用户的方法及装置
CN104008182A (zh) 社交网络交流影响力的测定方法及系统
CN103250376A (zh) 用于执行与通信网络的节点有关的预测分析的方法和系统
Postigo-Boix et al. A social model based on customers’ profiles for analyzing the churning process in the mobile market of data plans
CN109472030A (zh) 一种系统回复质量的评价方法及装置
CN107784511A (zh) 一种用户流失预测方法及装置
CN113435627A (zh) 基于工单轨迹信息的电力客户投诉预测方法及装置
CN107133268B (zh) 一种用于Web服务推荐的协同过滤方法
CN107368499A (zh) 一种客户标签建模及推荐方法及装置
CN110210892B (zh) 产品推荐方法、装置和可读存储介质
CN108090787A (zh) 一种基于Apriori算法的话单数据深度挖掘和用户行为预测的方法
CN102750288B (zh) 一种互联网内容推荐方法及装置
CN107222319A (zh) 一种通信操作分析方法及装置
WO2024001102A1 (zh) 一种通信行业家庭圈智能识别的方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant