CN106056137B - 一种基于数据挖掘多分类算法的电信集团业务推荐方法 - Google Patents
一种基于数据挖掘多分类算法的电信集团业务推荐方法 Download PDFInfo
- Publication number
- CN106056137B CN106056137B CN201610353613.2A CN201610353613A CN106056137B CN 106056137 B CN106056137 B CN 106056137B CN 201610353613 A CN201610353613 A CN 201610353613A CN 106056137 B CN106056137 B CN 106056137B
- Authority
- CN
- China
- Prior art keywords
- user
- group
- category
- training
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于数据挖掘多分类算法的电信集团业务推荐方法,包括如下步骤:构建数据集阶段:1a)采用KNN算法预判用户的候选类子集;1b)基于类标特征属性构建用于训练与预测的标准数据集;模型训练与预测阶段:2a)获取步骤1b)中标准数据集;2b)训练一个朴素贝叶斯二分类;2c)采用分类器预测用户与集团类标的关系;结果合并阶段:3a)获取步骤2c)中二分类预测;3b)基于置信度策略合并二分类结果得到用户最终集团类标;c)结束。本发明的基于候选类子集和类标特征属性的多分类算法准确高效的为用户推荐集团业务,利用了海量业务数据进行精准营销,不仅能够减少用户流失,而且能够提高用户满意度,促进电信业发展。
Description
技术领域
本发明涉及通信技术领域,具体而言涉及一种基于数据挖掘多分类算法的电信集团业务推荐方法。
背景技术
随着移动互联网的不断发展,各类智能终端的出现,手机应用的发展使得越来越多的社交软件成为人与人的联系工具,人们的生活习惯也随之改变。新兴社交软件对传统社交媒介例如电话和短信同新兴社交媒介产生了强烈的碰撞。
对于传统运营商行业来说,新兴社交软件对其传统电信业务带来了巨大的影响。从电信业务中也可以看出,通话和短信所占的份量已不比从前,收入也出现大幅度的下滑,取而代之成为用户的消费核心的是流量业务。一方面电信行业转变战略,开发多种多样丰富多彩的流量业务作为自身的盈利新模式,另一方面,业界仍然重视自身的传统业务,通话业务和短信业务占据着移动运营商最根本的地位。
对运营商来说,如何能够留住在网优质活跃用户也成为营销过程中的主要问题之一,集团业务是主要并且有效的方式之一。为用户开通集团业务,提供集团内免费通话时长。这样的业务,在基站已经铺设的条件下,对运营商来说几乎是没有成本的。用户在开通集团业务享受集团通话优惠的时候,往往需要签约在网时间,运营商在用户在网的时间内通过其他的营销方式产生全新的盈利点。因此,如何能够通过用户的通话流水数据预测用户归属的集团,向用户精准推荐集团业务,是有着实际意义的。
发明内容
本发明目的在于提供一种基于数据挖掘多分类算法的电信集团业务推荐方法,通过一个二分类器解决多分类问题,预测用户的集团类标,精准营销集团业务套餐。
为达成上述目的,本发明提出一种基于数据挖掘多分类算法的电信集团业务推荐方法,包括下列步骤:
1)构建数据集阶段
1a)基于KNN算法预判用户的候选类子集;
1b)基于类标特征属性构建标准数据集;
2)模型训练与预测阶段
2a)获取步骤1b)中标准数据集;
2b)训练一个朴素贝叶斯二分类;
2c)采用分类器预测用户与集团类标的关系;
3)结果合并阶段
3a)获取步骤2c)中二分类预测;
3b)基于置信度策略合并二分类结果得到用户最终集团类标;
3c)结束。
本发明有益效果:本发明的基于候选类子集和类标特征属性的多分类算法准确高效的为用户推荐集团业务,利用了海量业务数据进行精准营销,不仅能够减少用户流失,而且能够提高用户满意度,促进电信业发展。
附图说明
图1为数据挖掘操作流程图。
图2为本发明基于数据挖掘多分类算法的电信集团业务推荐方法的流程图。
图3为基于KNN的候选类子集预判流程图。
图4为基于类标特征属性构建标准数据流程图
图5为二分类结果合并流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
图1为数据挖掘操作流程图。如图1所示,通过对运营商内部用户通话业务数据进行数据挖掘,将用户集团信息表作为数据源,经数据规范化、格式化等预处理生成文本数据,然后对数据进行建模,对结果进行表达和解释。
本发明的基于KNN算法预判用户的候选类子集具体过程如图2所示。
步骤0为本发明的数据挖掘多分类算法的起始状态;
在数据集构造阶段(步骤1至2),步骤1采用KNN算法预判用户的候选类子集以减小数据规模;
步骤2是利用类标特征属性构建用于二分类器的标准数据集;
在模型训练与预测阶段(步骤3至4),步骤3是通过标准训练数据调用weka训练一个二分类器;
步骤4是通过训练好的二分类器预测用户与各类标的关系及其置信度;
在结果合并阶段(步骤5),步骤5是在步骤4得到的二分类类标及其置信度的基础上,采用投票策略合并多个二分类结果得到用户最终的集团类标;
步骤6是结束步骤。
图3是对图2中步骤1对一个用户x进行候选类子集的详细描述,定义候选类子集大小为INT_SIZE。
步骤7为起始步骤;
步骤8是计算用户x与用户y的通话频次作为KNN算法中的距离d(x,y);
步骤9是将距离放入distance[x],该数组存放了用户x与其他用户的通话频次;
步骤10是降序排列该数组,找出INT_SIZE个候选类子集;
步骤11是判断数组distance[x]长度是否小于INT_SIZE,如果是,执行步骤12,如果否执行步骤13;
步骤12是当数组distance[x]长度小于INT_SIZE时,随机挑选
INT_SIZE-len(distace[x])个用户;
步骤13是将distace[x]中前INT_SIZE个用户的集团类标作为用户x的候选类子集,存入candidateGroup[i];
步骤14为结束步骤。
图4是图2中步骤2构造一条标准数据的详细描述。
步骤15为起始步骤;
步骤16是选择一个合法状态的用户user_id;
步骤17是统计用户主叫次数UserCallCount;
步骤18是统计用户主叫时间UserCallTimeCount;
步骤19是统计用户主叫的用户数量UserCallUserCount;
步骤20是统计用户通话费用UserCallFee;
步骤21是选择一个集团类标GroupId;
步骤22是统计该集团用户数量GroupUserCount;
步骤23是统计统计该用户user_id主叫该集团GroupId的通话次数UserGroupCallCount;
步骤24是统计该用户user_id主叫该集团GroupId的通话时长UserGroupCallTimeCount;
步骤25是判断该用户user_id的集团类标是否为GroupId,如果是,则执行步骤27,反之则执行步骤26;
步骤26是为该用户user_id的与该集团类标GroupId构成的标准数据打上类标0;
步骤27是为该用户user_id的与该集团类标GroupId构成的标准数据打上类标1;
步骤28为结束状态。
图5是对图2中步骤5的对一个用户合并其与多个集团的二分类结果的详细描述,最高置信度max_σ定义为0。
步骤29为开始状态;
步骤30是采用二分类器对用户user_id和集团GroupId的关系类标L及该类标的置信度σ;
步骤31是判断L*σ>max_σ,如果是,则执行步骤32,反之则执行步骤33;
步骤32是将预测类标赋值为GroupId;
步骤33是判断是否已经遍历该用户候选类子集中的所有集团类标,如果是则执行步骤34,反之则执行步骤30;
步骤34为结束状态。
综上所述,预判用户候选类子集,通过类标特征构建标准数据,训练一个二分类器,预测用户与集团类标的关系,将多个二分类结果合并为最终集团类标是本发明的主要步骤,本发明就是通过一个二分类器解决多分类问题,预测用户的集团类标,精准营销集团业务套餐。
本发明利用移动业务数据,采用基于KNN算法的候选类子集方法预判用户可能属于的集团类标,采用类标特征属性构造标准数据,用一个二分类器解决了预测用户集团类标这个多分类问题,利用数据挖掘多分类算法高效精准地预测了用户的集团类标。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (3)
1.一种基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,包括构建数据集阶段、模型训练和预测阶段、结果合并阶段,具体包括如下步骤:
1)构建数据集阶段
1a)基于KNN算法预判用户的候选类子集;
1b)基于类标特征属性构建标准数据集;
2)模型训练与预测阶段
2a)获取步骤1b)中标准数据集;
2b)训练一个朴素贝叶斯二分类;
2c)采用分类器预测用户与集团类标的关系;
3)结果合并阶段
3a)获取步骤2c)中二分类预测;
3b)基于置信度策略合并二分类结果得到用户最终集团类标;
3c)结束;
步骤1a)中所述的基于KNN算法预判用户的候选类子集具体过程如下:
1a-1)选择候选类子集大小INT_SIZE;
1a-2)计算用户xi与用户xj通话的频次d(xi,xj)作为KNN算法的相似度;
1a-3)降序排列得到与用户xi最为相似的INT_SIZE个用户;
1a-4)记录相似用户的集团类标为候选类子集;
1a-5)结束;
步骤1b)中所述的基于类标特征属性构建标准数据集具体过程如下:
1b-1)选择用户集团信息表中处于合法状态的用户作为训练与预测用户,每个用户都有一个唯一的user_id;
1b-2)计算该用户通话行为属性,包括:用户主叫次数UserCallCount,用户主叫时间UserCallTimeCount,该用户主叫的用户数量UserCallUserCount,用户通话费用UserCallFee;
1b-3)计算该用户候选类子集中各个集团类标属性,包括:集团用户数量GroupUserCount,集团类标GroupId;
1b-4)计算用户与集团通话行为属性,包括:用户主叫集团通话次数UserGroupCallCount,用户主叫集团通话时长UserGroupCallTimeCount;
1b-5)训练用户与其候选类子集中的每一个集团类标构建一条新的标准数据,属性为上述构建的属性,如果用户属于该集团类标,则类标为+1,反之则为-1;
1b-6)预测用户也与其候选类子集中的每一个集团类标构建一条新的标准数据,属性为上述构建的属性,类标空缺;
1b-7)结束。
2.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,步骤2b)的具体过程如下:
1)调用weka中朴素贝叶斯二分类器模型;
2)训练数据集训练该模型;
3)结束。
3.根据权利要求1所述的基于数据挖掘多分类算法的电信集团业务推荐方法,其特征在于,步骤2c)的具体过程如下:
1)二分类器预测用户与集团的关系;
2)记录预测类标及置信度σij;
3)结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610353613.2A CN106056137B (zh) | 2016-05-25 | 2016-05-25 | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610353613.2A CN106056137B (zh) | 2016-05-25 | 2016-05-25 | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106056137A CN106056137A (zh) | 2016-10-26 |
CN106056137B true CN106056137B (zh) | 2019-06-04 |
Family
ID=57175253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610353613.2A Active CN106056137B (zh) | 2016-05-25 | 2016-05-25 | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106056137B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169515B (zh) * | 2017-05-10 | 2020-12-15 | 杭州电子科技大学 | 一种基于改进朴素贝叶斯的个人收入分类方法 |
CN107403019B (zh) * | 2017-08-15 | 2020-08-18 | 重庆邮电大学 | 一种基于移动数据的车主身份识别方法 |
CN109858948A (zh) * | 2018-12-25 | 2019-06-07 | 国网北京市电力公司 | 电力客户营销策略的确定方法和装置 |
CN111914120A (zh) * | 2019-05-08 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 视频分类方法、装置、电子设备以及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101621748A (zh) * | 2008-06-30 | 2010-01-06 | 中兴通讯股份有限公司 | 跨业务控制点移动虚拟专用网集团业务的实现方法和装置 |
CN102831219A (zh) * | 2012-08-22 | 2012-12-19 | 浙江大学 | 一种应用于社区发现的可覆盖聚类算法 |
US8498491B1 (en) * | 2011-08-10 | 2013-07-30 | Google Inc. | Estimating age using multiple classifiers |
CN104794195A (zh) * | 2015-04-17 | 2015-07-22 | 南京大学 | 一种用于电信潜在换机用户发现的数据挖掘方法 |
CN105160087A (zh) * | 2015-08-26 | 2015-12-16 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种关联规则最优曲线模型的构建方法 |
-
2016
- 2016-05-25 CN CN201610353613.2A patent/CN106056137B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101621748A (zh) * | 2008-06-30 | 2010-01-06 | 中兴通讯股份有限公司 | 跨业务控制点移动虚拟专用网集团业务的实现方法和装置 |
US8498491B1 (en) * | 2011-08-10 | 2013-07-30 | Google Inc. | Estimating age using multiple classifiers |
CN102831219A (zh) * | 2012-08-22 | 2012-12-19 | 浙江大学 | 一种应用于社区发现的可覆盖聚类算法 |
CN104794195A (zh) * | 2015-04-17 | 2015-07-22 | 南京大学 | 一种用于电信潜在换机用户发现的数据挖掘方法 |
CN105160087A (zh) * | 2015-08-26 | 2015-12-16 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种关联规则最优曲线模型的构建方法 |
Non-Patent Citations (1)
Title |
---|
改进的贝叶斯分类方法在电信客户流失中的研究与应用;杨婷 滕少华;《广东工业大学学报》;20150831;第32卷(第3期);第67-72页 |
Also Published As
Publication number | Publication date |
---|---|
CN106056137A (zh) | 2016-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112424763B (zh) | 对象推荐方法及装置、存储介质与终端设备 | |
CN106056137B (zh) | 一种基于数据挖掘多分类算法的电信集团业务推荐方法 | |
Bobbio et al. | Analysis of large scale interacting systems by mean field method | |
Ferreira et al. | Data Mining Techniques on the Evaluation of Wireless Churn. | |
CN103701934B (zh) | 一种资源优化调度方法及虚拟机宿主机优化选择方法 | |
CN106228386A (zh) | 一种信息推送方法及装置 | |
CN105281925B (zh) | 网络业务用户群组划分的方法和装置 | |
CN103176982A (zh) | 一种电子图书推荐的方法及系统 | |
CN109558962A (zh) | 预测电信用户流失的装置、方法和存储介质 | |
CN102760128A (zh) | 一种基于智能客服机器人交互的电信领域套餐推荐方法 | |
CN101620692A (zh) | 一种移动通信业务的客户流失分析方法 | |
CN109739961A (zh) | 一种人机语言交互方法及装置 | |
CN109359137B (zh) | 基于特征筛选与半监督学习的用户成长性画像构建方法 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
CN112507224B (zh) | 基于异质网络表示学习的人机物融合系统服务推荐方法 | |
CN110533085A (zh) | 同人识别方法及装置、存储介质、计算机设备 | |
CN107784511A (zh) | 一种用户流失预测方法及装置 | |
CN107239489A (zh) | 基于soar模型的突发事件中网络舆情的预测与仿真方法 | |
CN101778180A (zh) | 一种互动式语音应答系统业务节点动态调整控制方法 | |
CN109474923A (zh) | 对象识别方法及装置、存储介质 | |
CN109978575A (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN108446311A (zh) | 一种基于社交网络的app推荐方法及装置 | |
CN106649743A (zh) | 一种创意分类脑库资源存储与分享方法及系统 | |
Saito et al. | Change point detection for burst analysis from an observed information diffusion sequence of tweets | |
CN108810916A (zh) | Wi-Fi热点推荐方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |