CN112446425A - 一种用于自动获取疑似养卡渠道的方法和装置 - Google Patents
一种用于自动获取疑似养卡渠道的方法和装置 Download PDFInfo
- Publication number
- CN112446425A CN112446425A CN202011316489.5A CN202011316489A CN112446425A CN 112446425 A CN112446425 A CN 112446425A CN 202011316489 A CN202011316489 A CN 202011316489A CN 112446425 A CN112446425 A CN 112446425A
- Authority
- CN
- China
- Prior art keywords
- model
- user
- raising
- card
- suspected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006399 behavior Effects 0.000 claims abstract description 50
- 238000012417 linear regression Methods 0.000 claims abstract description 50
- 238000007637 random forest analysis Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims description 29
- 238000012423 maintenance Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 230000003068 static effect Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 abstract description 15
- 238000003066 decision tree Methods 0.000 abstract description 10
- 230000004927 fusion Effects 0.000 abstract description 10
- 230000010354 integration Effects 0.000 abstract description 9
- 238000013145 classification model Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000007635 classification algorithm Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于自动获取疑似养卡渠道的方法和装置,涉及智能风控领域。该方法包括:收集待识别用户的基础特征;获取输入的待识别用户的基础特征,通过已获得疑似养卡规则的训练后的随机森林模型,结合训练后的线性回归模型进行加权融合,获得待识别用户中的疑似养卡用户清单,根据所述疑似养卡用户清单获取对应的养卡渠道。应用了多个决策树分类器融合的随机森林学习基算法对样本数据提取其潜在的疑似养卡规则,并与线性回归分类模型进行加权融合,增强了集成得泛化能力,并且疑似养卡规则具有多样性,满足了市场部在日常运营过程中对养卡现象的监督和管理,使渠道违规行为得到有效的控制。
Description
技术领域
本发明涉及智能风控领域,尤其涉及一种用于自动获取疑似养卡渠道的方法和装置。
背景技术
近年来,信息通信业发展正在进入新时代,通信用户普及率越来越高,同质化趋势越来越明显,传统电信业务用户发展也遇到了增长瓶颈,竞争日益激烈,低价值用户不断增多。同时,运营商支付给社会渠道的酬金呈增长趋势,KPI导向导致一些渠道存在恶意违规行为,即通过某种技术手段,进行非法养卡,以获取移动公司的代办费或相关酬金。据统计2017年1月浙江移动的疑似养卡渠道的占比达到3.1%,疑似养卡号码的占比3.21%。
渠道代理商的养卡套利行为,主要存在以下几种形式:批量开通号卡,办理短期营销案,通过话费返还或酬金激励等方式获取利益;购买合约机,获取具备合约计划的串号,用猫池等相关设备工具将手机号与串号虚拟绑定,模拟通信行为套取酬金,同时抛售终端,获取终端销售的利益。
现有方案是通过集成学习是通过构建多个学习器来完成学习的任务,即用多个弱分类器构成一个强分类器,而传统的是采用决策树这一个弱学习器,泛化能力较差,而且受数据样本扰动影响较大,无法深度挖掘疑似养卡用户,风控效果差。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种用于自动获取疑似养卡渠道的方法和装置。
本发明解决上述技术问题的技术方案如下:
一种用于自动获取疑似养卡渠道的方法,包括:
S1,收集待识别用户的基础特征;
S2,获取输入的所述待识别用户的基础特征,通过异质集成分类学习模型获得所述待识别用户中的疑似养卡用户清单,根据所述疑似养卡用户清单获取对应的养卡渠道。其中异质集成分类学习模型包括:已获得疑似养卡规则的训练后的随机森林模型和训练后的线性回归模型。
本发明的有益效果是:本发明方案将待识别用户的基础特征作为输入,通过已获得疑似养卡规则的训练后的随机森林模型,结合训练后的线性回归模型进行加权融合,获得所述待识别用户中的疑似养卡用户清单,应用了多个决策树分类器融合的随机森林学习基算法对样本数据提取其潜在的疑似养卡规则,并与线性回归分类模型进行加权融合,增强了集成得泛化能力,并且疑似养卡规则具有多样性,根据模型结果,生成各地市疑似养卡预警,输出疑似养卡渠道清单,以及该渠道对应疑似养卡用户清单,满足了市场部在日常运营过程中对养卡现象的监督和管理,使渠道违规行为得到有效的控制。
基于随机森林与线性回归融合的模型,采用异质集成学习原理,通过将原本复杂多样的特征集,通过特征间的相关性分析,在保证信息丢失不显著的前提下,筛选出主要的特征信息,通过随机森林与线性回归两种分类学习器的融合,即将多个“弱学习器”的以加权投票法进行结合,提高分类算法的泛化能力与多样性能力,解决了由于原始样本数据的浓度低以及泛化能力差,导致由单一的分类系统进行学习时多产生欠拟合和过拟合的现象。
进一步地,所述S2之前还包括:
对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,并在模型中输入最优参数,训练出用户的疑似养卡规则,获得训练后的所述随机森林模型。
采用上述进一步方案的有益效果是:本发明方案通过模型训练时,其输入的样本用户的相关行为特征,融入用户静态信息和状态数据以获取更多的样本数据,提高样本数据的浓度,为后续的线性回归算法提高样本数据的浓度,实现在随机森林模型中训练出用户得疑似养卡规则。
进一步地,所述S2之前还包括:
对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,获得所述有效特征字段的最优决策权重,获得训练后的所述线性回归模型。
采用上述进一步方案的有益效果是:本发明方案通过线性回归模型中的分类算法获得的较高浓度的样本数据后,对其对应的有效特征值进行一个线性拟合,得到每个特征值的权重,从而实现识别出疑似养卡用户。
进一步地,所述S2之前还包括:收集现有疑似养卡用户的基础特征,其中所述基础特征包括:静态特征和用户行为分析特征;
通过所述基础特征间的相关性提取所述现有疑似养卡用户的主要特征,并对所述主要特征进行重新组合,并消除冗余特征和无关特征,获得现有疑似养卡用户的样本数据。
采用上述进一步方案的有益效果是:本发明方案特征提取和特征变换,抽取样本最相关特征,降低数据维数和消除不相关特征和冗余特征,抽取出最明显的特征,有助于随机森林模型训练出最准确的用户疑似养卡规则。
进一步地,还包括:根据收集待识别用户的基础特征的时间不同,将所述随机森林模型结合线性回归模型的模型分为日模型、月模型和次月模型。
采用上述进一步方案的有益效果是:本方案通过收集用户特征的时间不同,采用不同的模型,实现监测不同时间段的用户行为,满足不同时间段的疑似养卡用户行为的识别需求。
本发明解决上述技术问题的另一种技术方案如下:
一种用于自动获取疑似养卡渠道的装置,包括:特征收集模块和养卡行为识别模块;
所述特征收集模块用于收集待识别用户的基础特征;;
所述养卡行为识别模块用于获取输入的所述待识别用户的基础特征,通过异质集成分类学习模型获得所述待识别用户中的疑似养卡用户清单,根据所述疑似养卡用户清单获取对应的养卡渠道。其中异质集成分类学习模型包括:已获得疑似养卡规则的训练后的随机森林模型和训练后的线性回归模型。
本发明的有益效果是:本发明方案将待识别用户的基础特征作为输入,通过已获得疑似养卡规则的训练后的随机森林模型,结合训练后的线性回归模型进行加权融合,获得所述待识别用户中的疑似养卡用户清单,应用了多个决策树分类器融合的随机森林学习基算法对样本数据提取其潜在的疑似养卡规则,并与线性回归分类模型进行加权融合,增强了集成得泛化能力,并且疑似养卡规则具有多样性,根据模型结果,生成各地市疑似养卡预警,输出疑似养卡渠道清单,以及该渠道对应疑似养卡用户清单,满足了市场部在日常运营过程中对养卡现象的监督和管理,使渠道违规行为得到有效的控制。
进一步地,所述养卡行为识别模块还包括:随机森林模型训练模块,用于对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,并在模型中输入最优参数,训练出用户的疑似养卡规则,获得训练后的所述随机森林模型。
采用上述进一步方案的有益效果是:本发明方案通过模型训练时,其输入的样本用户的相关行为特征,融入用户静态信息和状态数据以获取更多的样本数据,提高样本数据的浓度,为后续的线性回归算法提高样本数据的浓度,实现在随机森林模型中训练出用户得疑似养卡规则。
进一步地,所述养卡行为识别模块还包括:线性回归模型训练模块,用于对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,获得所述有效特征字段的最优决策权重,获得训练后的所述线性回归模型。
采用上述进一步方案的有益效果是:本发明方案通过线性回归模型中的分类算法获得的较高浓度的样本数据后,对其对应的有效特征值进行一个线性拟合,得到每个特征值的权重,从而实现识别出疑似养卡用户。
进一步地,所述特征收集模块还用于收集现有疑似养卡用户的基础特征,其中所述基础特征包括:静态特征和用户行为分析特征;
通过所述基础特征间的相关性提取所述现有疑似养卡用户的主要特征,并对所述主要特征进行重新组合,并消除冗余特征和无关特征,获得现有疑似养卡用户的样本数据。
采用上述进一步方案的有益效果是:本发明方案特征提取和特征变换,抽取样本最相关特征,降低数据维数和消除不相关特征和冗余特征,抽取出最明显的特征,有助于随机森林模型训练出最准确的用户疑似养卡规则。
进一步地,还包括:模型分类模块,用于根据收集待识别用户的基础特征的时间不同,将所述随机森林模型结合线性回归模型的模型分为日模型、月模型和次月模型。
采用上述进一步方案的有益效果是:本方案通过收集用户特征的时间不同,采用不同的模型,实现监测不同时间段的用户行为,满足不同时间段的疑似养卡用户行为的识别需求。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明的实施例提供的一种用于自动获取疑似养卡渠道的方法的流程示意图;
图2为本发明的其他实施例提供的一种用于自动获取疑似养卡渠道的装置结构示意图;
图3为本发明的其他实施例提供的日模型部署流程示意图;
图4为本发明的其他实施例提供的月模型部署流程示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例提供的一种用于自动获取疑似养卡渠道的方法,该包括:S1,收集待识别用户的基础特征;
在某实施例中,收集待识别用户的基础特征,其中基础特征可以包括:用户静态特征和用户行为分析特征,同时结合行为的统计学特征等,刻画用户本质的属性集合,为每一个用户生成特有的画像。即根据业务需求将能体现业务特性的特征进行重新组合去重。其中用户静态特征和用户行为分析特征可以包括:
用户基础信息特征:入网时间、用户号码、标识、在网状态等;
用户入网渠道特征:渠道标识、渠道名称、渠道类型、月均放号量、月放号量均方差、当日放号量等;
用户通信信息特征:通话天数占比、总通话次数、主、被叫次数、短信发送、接收次数、上网流量、流量使用占比、流量费用占比等;
用户状态信息特征:ARPU、预存金额、缴费金额、缴费金额是否5的倍数、免费流量、业务办理量、注册证件号、相同证件号注册次数等;
用户上网信息特征:上网高频URL、高频URL点击总时长、高频URL点击总次数、URL点击时长方差分布、URL点击次数方差分布等;
用户imei使用特征:高频IMEI、高频imei相同的用户数、当月IMEI个数、imei个数方差分布、同imei的用户数、IMEI使用情况、激活IMEI、同激活IMEI用户数等;
用户基站信息特征:高频基站、同高频基站同渠道的用户数、高频通话基站、高频通话基站使用时长、当月通话基站个数、当月基站使用个数、当月基站个数方差分布、基站使用情况、相同基站使用情况的用户数等;
用户交往圈信息特征:服务电话次数、服务电话次数占比、主被叫交往圈人数、人均主被叫次数、呼转交往圈人数、人均呼转次数、最大同对端用户数、高频对端号是否为服务号、交往圈通话用户次数方差分布、集团群组内通话匹配度等;
用户同渠道信息特征:同高频对端同渠道用户数、同ARPU对端同渠道用户数、同高频IMEI同渠道的用户数、同激活IMEI同渠道的用户数、同通话次数同渠道的用户数、同通话天数同渠道的用户数等。
S2,获取输入的待识别用户的基础特征,通过异质集成分类学习模型获得所述待识别用户中的疑似养卡用户清单,根据所述疑似养卡用户清单获取对应的养卡渠道。其中异质集成分类学习模型包括:已获得疑似养卡规则的训练后的随机森林模型和训练后的线性回归模型。其中线性回归模型可以进行加权融合的方式也可以通过其他方式,具体可以根据实际需求选择融合方式。
在某实施例中,应用了多个决策树分类器融合的随机森林模型,其中,决策树分类算法是一个有监督的学习算法,故而有效样本数据的获取是该算法的前提。从数据层面上养卡行为是一个疑似的特征,需要通过地市进行调查反馈获取有效的、多样化形式的少量养卡样本数据。并且,模型训练时,其输入的样本用户的相关行为特征,融入用户静态信息和状态数据以获取更多的样本数据,提高样本数据的浓度,为后续的线性回归算法提高样本数据的浓度。
在某实施例中,线性回归算法也是一个有监督的学习算法,通过分类算法获得的较高浓度的样本数据后,对其对应的有效特征值进行一个线性拟合,得到每个特征值的权重,识别出疑似养卡用户。
本发明方案将待识别用户的基础特征作为输入,通过已获得疑似养卡规则的训练后的随机森林模型,结合训练后的线性回归模型进行加权融合,获得待识别用户中的疑似养卡用户清单,应用了多个决策树分类器融合的随机森林学习基算法对样本数据提取其潜在的疑似养卡规则,并与线性回归分类模型进行加权融合,增强了集成得泛化能力,并且疑似养卡规则具有多样性,根据模型结果,生成各地市疑似养卡预警,输出疑似养卡渠道清单,以及该渠道对应疑似养卡用户清单,满足了市场部在日常运营过程中对养卡现象的监督和管理,使渠道违规行为得到有效的控制。
基于随机森林与线性回归融合的模型,采用异质集成学习原理,通过将原本复杂多样的特征集,通过特征间的相关性分析,在保证信息丢失不显著的前提下,筛选出主要的特征信息,通过随机森林与线性回归两种分类学习器的融合,即将多个“弱学习器”的以加权投票法进行结合,提高分类算法的泛化能力与多样性能力,解决了由于原始样本数据的浓度低以及泛化能力差,导致由单一的分类系统进行学习时多产生欠拟合和过拟合的现象。
优选地,在上述任意实施例中,S2之前还包括:
对现有疑似养卡用户的样本数据进行预处理;
对预处理后的样本数据进行模型训练,以获得模型的最优参数;其中如何判断是最优参数,可以根据输入的样本数据,与样本数据实际对应的疑似养卡清单进行比对,计算结果中模型输出结果的正确率最高则该次计算的参数作为最优参数。
根据样本数据的有效特征字段,进行循环迭代,并在模型中输入最优参数,训练出用户的疑似养卡规则,获得训练后的随机森林模型。
在某实施例中,训练随机森林模型可以包括:样本数据的数据预处理:对用户的特征数据进行获取,并根据特征间的相关性,删除具有强相关性的特征字段,其中删除具有强相关性的特征字段,例如,有4个相同或相似的特征字段,删除其中3个,保留1个;
根据样本的所有行为特征数据,进行模型训练,以获取模型的最优参数;,即获得根据所有样本数据的有效特征字段,其中,获取最优参数可以包括:例如:总通话时长的参数,可以分为多档时间,找到最优分区\最优维度\最优路径,在该分区规则中能够出来最明显通话时长特征参数,在分区档次中选取出最明显特征,并对特征进行分类,从而获得该最明显特征的路径\方法;
将最优的模型参数,作用于全量的用户即待识别的用户,输出用户对于随机森林模型每一棵决策树的决策状态,如养卡或非养卡。
通过随机森林模型,训练出用户得疑似养卡规则,根据规则的准确率设定决策树的最大深度、叶子结点的最小样本个数和属性个数K等阈值。
本发明方案通过模型训练时,其输入的样本用户的相关行为特征,融入用户静态信息和状态数据以获取更多的样本数据,提高样本数据的浓度,为后续的线性回归算法提高样本数据的浓度,实现在随机森林模型中训练出用户得疑似养卡规则。
优选地,在上述任意实施例中,S2之前还包括:
对现有疑似养卡用户的样本数据进行预处理;
对预处理后的样本数据进行模型训练,以获得模型的最优参数;其中如何判断是最优参数,可以根据输入的样本数据,与样本数据实际对应的疑似养卡清单进行比对,计算结果中模型输出结果的正确率最高则该次计算的参数作为最优参数。
根据样本数据的有效特征字段,进行循环迭代,获得有效特征字段的最优决策权重,获得训练后的线性回归模型。
在某实施例中,训练线性回归模型可以包括:同随机森林模型的数据预处理步骤;
根据样本的所有行为特征数据,进行模型训练,以获取模型的最优参数。
根据所有样本数据的有效特征字段,通过循环迭代,寻找最优的模型输入参数,即属性特征的权重向量;
将最优的模型参数,作用于全量的用户,输出用户对于线性回归模型的决策状态,如养卡或非养卡;
将用户基于所有决策子树的决策状态与线性回归的决策状态使用加权投票法选取。即不断测试迭代,设定最优的决策权重,取投票率最高的决策状态为用户最终的状态;
本发明方案通过线性回归模型中的分类算法获得的较高浓度的样本数据后,对其对应的有效特征值进行一个线性拟合,得到每个特征值的权重,从而实现识别出疑似养卡用户。
优选地,在上述任意实施例中,S2之前还包括:收集现有疑似养卡用户的基础特征,其中基础特征包括:静态特征和用户行为分析特征;
通过基础特征间的相关性提取现有疑似养卡用户的主要特征,并对主要特征进行重新组合,并消除冗余特征和无关特征,获得现有疑似养卡用户的样本数据。
在某实施例中,特征抽取与特征变换可以包括:将相同或相似特征抽取出最明显的特征,并将其他相同或相似特征都用这个最明显的特征进行替换;在某些实施例中,由于原始特征可能维数很高,其中,可能维度可以为多个分析方向的数据维度;或包含大量的冗余特征和无关特征,会使后续算法的计算复杂度变得很高,通过进一步进行特征提取和特征变换,抽取样本最相关特征,降低数据维数和消除不相关特征和冗余特征,精简如下:
总通话时长(分):用户在观察月的总通话时长;是将前面与时长相关的特征提取出来加权等操作,来获得总通话时长;
虚拟网通话时长:用户在观察月的虚拟网总通话时长;
通话天数占比:用户在观察月通话的天数占当月总天数的百分比;
短信发送条数:用户在观察月发送短信的总条数;
上网流量(M):用户在观察月的总上网流量;
预缴金额:用户剩余的预缴金额;
缴费金额是否为5的倍数:用户在观察月缴费的金额是否为5的倍数;
高频基站相同的用户数:用户在观察月中使用最多的基站相同的用户个数;
基站清单相同的用户数:用户在观察月中使用过的基站相同的用户个数;
流量使用占比:用户在观察月使用的流量占本月免费流量的占比;
高频imei相同的用户数:用户在观察月使用最多的IMEI相同的用户个数;
当月IMEI个数:用户在观察月使用的IMEI个数;
imei个数方差分布:用户在观察月使用的IMEI基于次数的方差分布情况;
激活IMEI使用人数:用户号码的激活IMEI相同的用户个数;
语音信箱留言次数:用户在观察月使用语音信箱留言的次数;
呼转次数:用户在观察月使用呼叫转移的次数;
交往圈通话用户次数方差分布:用户在观察月基于交往圈用户通话次数的方差分布;
最大同对端用户数:用户在观察月通话最多的对端号码相同的用户数;
同渠道同arpu用户数:用户在观察月具有相同入网渠道相同ARPU值的用户数;
同渠道同高频imei用户数:用户在观察月具有相同入网渠道相同高频imei的用户数;
同渠道同高频对端用户数:用户在观察月具有相同对端号码通话的用户数;
同渠道同通话次数用户数:用户在观察月具有相同通话次数的用户数;
本发明方案特征提取和特征变换,抽取样本最相关特征,降低数据维数和消除不相关特征和冗余特征,抽取出最明显的特征,有助于随机森林模型训练出最准确的用户疑似养卡规则。
优选地,在上述任意实施例中,还包括:根据收集待识别用户的基础特征的时间不同,将随机森林模型结合线性回归模型的模型分为日模型、月模型和次月模型。
在某实施例中,随机森林模型+线性回归模型的模型识别输出疑似养卡用户清单以及疑似养卡渠道清单。根据拍照对象以及拍照时间的不同,可以将模型分为日模型、月模型、次月模型。
日模型可以是:当月入网用户在当月日累计观察其行为特征,通过日模型分类器学习的规则筛选,获取对应的疑似养卡清单。其中日模型的部署流程图如图3所示,根据某月入网用户,获得入网用户对应数据源,如当月累计基础信息详单、当月累计入网渠道详单和当月累计交往圈详单等,将数据源进行清洗,获得数据源对应的数据清单,如:基础信息详单、入网渠道详单和交往圈详单等,对数据清单进行汇总,在日模型中通过日累计模型规则进行识别计算,获得养卡用户清单和养卡渠道清单等。
月模型可以是:当月入网用户在当月观察其行为特征,通过月模型分类器学习的规则筛选,获取对应的疑似养卡清单。其中月模型的部署流程图如图4所示,根据某月及上月入网用户,获得入网用户对应数据源,如当月累计基础信息详单、当月累计入网渠道详单和当月累计交往圈详单等,将数据源进行清洗,获得数据源对应的数据清单,如:基础信息详单、入网渠道详单和交往圈详单等,对数据清单进行汇总,在月模型中通过月模型规则和次月模型规则进行识别计算,获得月养卡用户清单和月养卡渠道清单,次月养卡用户清单和次月养卡渠道清单等。
次月模型可以是:当月入网用户在次月观察其行为特征,通过月模型分类器学习的规则筛选,获取对应的疑似养卡清单。
本方案通过收集用户特征的时间不同,采用不同的模型,实现监测不同时间段的用户行为,满足不同时间段的疑似养卡用户行为的识别需求。
在某一些实施例中,还可以包括上线测试,将模型计算出的疑似养卡清单与现有其他路径获取到的疑似养卡清单进行月累计的对比评估,本发明的模型的清单与集团疑似养卡清单具有高度重合,并相对与集团清单也有一定的延展,从而发现更多高度疑似养卡的用户;
模型的疑似养卡清单逐月下发地市,根据地市反馈疑似养卡情况,对优化模型进行评估。
在某一实施例中,如图所示,一种用于自动获取疑似养卡渠道的装置,该装置包括:特征收集模块11和养卡行为识别模块12;
特征收集模块11用于收集待识别用户的基础特征;;
养卡行为识别模块12用于获取输入的待识别用户的基础特征,通过异质集成分类学习模型获得所述待识别用户中的疑似养卡用户清单,根据所述疑似养卡用户清单获取对应的养卡渠道。其中异质集成分类学习模型包括:已获得疑似养卡规则的训练后的随机森林模型和训练后的线性回归模型。
本发明方案将待识别用户的基础特征作为输入,通过已获得疑似养卡规则的训练后的随机森林模型,结合训练后的线性回归模型进行加权融合,获得待识别用户中的疑似养卡用户清单,应用了多个决策树分类器融合的随机森林学习基算法对样本数据提取其潜在的疑似养卡规则,并与线性回归分类模型进行加权融合,增强了集成得泛化能力,并且疑似养卡规则具有多样性,根据模型结果,生成各地市疑似养卡预警,输出疑似养卡渠道清单,以及该渠道对应疑似养卡用户清单,满足了市场部在日常运营过程中对养卡现象的监督和管理,使渠道违规行为得到有效的控制。
优选地,在上述任意实施例中,养卡行为识别模块12还包括:随机森林模型训练模块,用于对现有疑似养卡用户的样本数据进行预处理;
对预处理后的样本数据进行模型训练,以获得模型的最优参数;
根据样本数据的有效特征字段,进行循环迭代,并在模型中输入最优参数,训练出用户的疑似养卡规则,获得训练后的随机森林模型。
本发明方案通过模型训练时,其输入的样本用户的相关行为特征,融入用户静态信息和状态数据以获取更多的样本数据,提高样本数据的浓度,为后续的线性回归算法提高样本数据的浓度,实现在随机森林模型中训练出用户得疑似养卡规则。
优选地,在上述任意实施例中,养卡行为识别模块12还包括:线性回归模型训练模块,用于对现有疑似养卡用户的样本数据进行预处理;
对预处理后的样本数据进行模型训练,以获得模型的最优参数;
根据样本数据的有效特征字段,进行循环迭代,获得有效特征字段的最优决策权重,获得训练后的线性回归模型。
本发明方案通过线性回归模型中的分类算法获得的较高浓度的样本数据后,对其对应的有效特征值进行一个线性拟合,得到每个特征值的权重,从而实现识别出疑似养卡用户。
优选地,在上述任意实施例中,特征收集模块11还用于收集现有疑似养卡用户的基础特征,其中基础特征包括:静态特征和用户行为分析特征;
通过基础特征间的相关性提取现有疑似养卡用户的主要特征,并对主要特征进行重新组合,并消除冗余特征和无关特征,获得现有疑似养卡用户的样本数据。
本发明方案特征提取和特征变换,抽取样本最相关特征,降低数据维数和消除不相关特征和冗余特征,抽取出最明显的特征,有助于随机森林模型训练出最准确的用户疑似养卡规则。
优选地,在上述任意实施例中,还包括:模型分类模块,用于根据收集待识别用户的基础特征的时间不同,将随机森林模型结合线性回归模型的模型分为日模型、月模型和次月模型。
本方案通过收集用户特征的时间不同,采用不同的模型,实现监测不同时间段的用户行为,满足不同时间段的疑似养卡用户行为的识别需求。
可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。
需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用于自动获取疑似养卡渠道的方法,其特征在于,包括:
S1,收集待识别用户的基础特征;
S2,获取输入的所述待识别用户的基础特征,通过异质集成分类学习模型获得所述待识别用户中的疑似养卡用户清单,根据所述疑似养卡用户清单获取对应的养卡渠道,其中异质集成分类学习模型包括:已获得疑似养卡规则的训练后的随机森林模型和训练后的线性回归模型。
2.根据权利要求1所述的一种用于自动获取疑似养卡渠道的方法,其特征在于,所述S2之前还包括:
对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,并在模型中输入最优参数,训练出用户的疑似养卡规则,获得训练后的所述随机森林模型。
3.根据权利要求1或2所述的一种用于自动获取疑似养卡渠道的方法,其特征在于,所述S2之前还包括:
对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,获得所述有效特征字段的最优决策权重,获得训练后的所述线性回归模型。
4.根据权利要求1或2所述的一种用于自动获取疑似养卡渠道的方法,其特征在于,所述S2之前还包括:收集现有疑似养卡用户的基础特征,其中所述基础特征包括:静态特征和用户行为分析特征;
通过所述基础特征间的相关性提取所述现有疑似养卡用户的主要特征,并对所述主要特征进行重新组合,并消除冗余特征和无关特征,获得现有疑似养卡用户的样本数据。
5.根据权利要求4所述的一种用于自动获取疑似养卡渠道的方法,其特征在于,还包括:根据收集待识别用户的基础特征的时间不同,将所述随机森林模型结合线性回归模型的模型分为日模型、月模型和次月模型。
6.一种用于自动获取疑似养卡渠道的装置,其特征在于,包括:特征收集模块和养卡行为识别模块;
所述特征收集模块用于收集待识别用户的基础特征;;
所述养卡行为识别模块用于获取输入的所述待识别用户的基础特征,通过异质集成分类学习模型获得所述待识别用户中的疑似养卡用户清单,根据所述疑似养卡用户清单获取对应的养卡渠道,其中异质集成分类学习模型包括:已获得疑似养卡规则的训练后的随机森林模型和训练后的线性回归模型。
7.根据权利要求6所述的一种用于自动获取疑似养卡渠道的装置,其特征在于,所述养卡行为识别模块还包括:随机森林模型训练模块,用于对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,并在模型中输入最优参数,训练出用户的疑似养卡规则,获得训练后的所述随机森林模型。
8.根据权利要求6或7所述的一种用于自动获取疑似养卡渠道的装置,其特征在于,所述养卡行为识别模块还包括:线性回归模型训练模块,用于对现有疑似养卡用户的样本数据进行预处理;
对预处理后的所述样本数据进行模型训练,以获得模型的最优参数;
根据所述样本数据的有效特征字段,进行循环迭代,获得所述有效特征字段的最优决策权重,获得训练后的所述线性回归模型。
9.根据权利要求6或7所述的一种用于自动获取疑似养卡渠道的装置,其特征在于,所述特征收集模块还用于收集现有疑似养卡用户的基础特征,其中所述基础特征包括:静态特征和用户行为分析特征;
通过所述基础特征间的相关性提取所述现有疑似养卡用户的主要特征,并对所述主要特征进行重新组合,并消除冗余特征和无关特征,获得现有疑似养卡用户的样本数据。
10.根据权利要求9所述的一种用于自动获取疑似养卡渠道的装置,其特征在于,还包括:模型分类模块,用于根据收集待识别用户的基础特征的时间不同,将所述随机森林模型结合线性回归模型的模型分为日模型、月模型和次月模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011316489.5A CN112446425A (zh) | 2020-11-20 | 2020-11-20 | 一种用于自动获取疑似养卡渠道的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011316489.5A CN112446425A (zh) | 2020-11-20 | 2020-11-20 | 一种用于自动获取疑似养卡渠道的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112446425A true CN112446425A (zh) | 2021-03-05 |
Family
ID=74738301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011316489.5A Pending CN112446425A (zh) | 2020-11-20 | 2020-11-20 | 一种用于自动获取疑似养卡渠道的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446425A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114268939A (zh) * | 2021-11-12 | 2022-04-01 | 重庆市通信产业服务有限公司中冉信息分公司 | 一种移动通信中异常用户识别的方法及智能设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018040944A1 (zh) * | 2016-08-31 | 2018-03-08 | 阿里巴巴集团控股有限公司 | 恶意地址/恶意订单的识别系统、方法及装置 |
CN108038701A (zh) * | 2018-03-20 | 2018-05-15 | 杭州恩牛网络技术有限公司 | 一种集成学习反欺诈测试方法及系统 |
CN108696626A (zh) * | 2017-04-12 | 2018-10-23 | 中国移动通信集团福建有限公司 | 非法信息的处理方法和装置 |
CN109325640A (zh) * | 2018-12-07 | 2019-02-12 | 中山大学 | 用户价值预测方法、装置、存储介质及设备 |
CN109378072A (zh) * | 2018-10-13 | 2019-02-22 | 中山大学 | 一种基于集成学习融合模型的异常空腹血糖值预警方法 |
CN109522304A (zh) * | 2018-11-23 | 2019-03-26 | 中国联合网络通信集团有限公司 | 异常对象识别方法及装置、存储介质 |
CN109934289A (zh) * | 2019-03-12 | 2019-06-25 | 中国联合网络通信集团有限公司 | 养卡识别方法及系统 |
US20190281172A1 (en) * | 2018-03-12 | 2019-09-12 | Ricoh Company, Ltd. | Maintenance system, maintenance server, and maintenance method |
US20190303728A1 (en) * | 2018-03-27 | 2019-10-03 | Alibaba Group Holding Limited | Risky transaction identification method and apparatus |
CN110689257A (zh) * | 2019-09-24 | 2020-01-14 | 北京市天元网络技术股份有限公司 | 基于运营商大数据的快消品行业督查方法以及装置 |
CN111144430A (zh) * | 2018-11-05 | 2020-05-12 | 中国移动通信集团广东有限公司 | 基于遗传算法的养卡号码识别方法及装置 |
-
2020
- 2020-11-20 CN CN202011316489.5A patent/CN112446425A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018040944A1 (zh) * | 2016-08-31 | 2018-03-08 | 阿里巴巴集团控股有限公司 | 恶意地址/恶意订单的识别系统、方法及装置 |
CN108696626A (zh) * | 2017-04-12 | 2018-10-23 | 中国移动通信集团福建有限公司 | 非法信息的处理方法和装置 |
US20190281172A1 (en) * | 2018-03-12 | 2019-09-12 | Ricoh Company, Ltd. | Maintenance system, maintenance server, and maintenance method |
CN108038701A (zh) * | 2018-03-20 | 2018-05-15 | 杭州恩牛网络技术有限公司 | 一种集成学习反欺诈测试方法及系统 |
US20190303728A1 (en) * | 2018-03-27 | 2019-10-03 | Alibaba Group Holding Limited | Risky transaction identification method and apparatus |
CN109378072A (zh) * | 2018-10-13 | 2019-02-22 | 中山大学 | 一种基于集成学习融合模型的异常空腹血糖值预警方法 |
CN111144430A (zh) * | 2018-11-05 | 2020-05-12 | 中国移动通信集团广东有限公司 | 基于遗传算法的养卡号码识别方法及装置 |
CN109522304A (zh) * | 2018-11-23 | 2019-03-26 | 中国联合网络通信集团有限公司 | 异常对象识别方法及装置、存储介质 |
CN109325640A (zh) * | 2018-12-07 | 2019-02-12 | 中山大学 | 用户价值预测方法、装置、存储介质及设备 |
CN109934289A (zh) * | 2019-03-12 | 2019-06-25 | 中国联合网络通信集团有限公司 | 养卡识别方法及系统 |
CN110689257A (zh) * | 2019-09-24 | 2020-01-14 | 北京市天元网络技术股份有限公司 | 基于运营商大数据的快消品行业督查方法以及装置 |
Non-Patent Citations (3)
Title |
---|
吕智超: "于Hadoop平台的电信养卡研究与分析", 《中国优秀硕士学位论文全文数据库:经济与管理科学辑》, no. 2017, 15 February 2017 (2017-02-15), pages 1 - 4 * |
王荣政等: "基于集成学习融合模型的血糖预测", 《医学信息学杂志》, vol. 40, no. 1, pages 59 - 62 * |
章华: "基于电信数据的用户信用评价模型的研究", 《中国优秀硕士学位论文全文数据库:信息科技辑》, no. 2018, pages 138 - 294 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114268939A (zh) * | 2021-11-12 | 2022-04-01 | 重庆市通信产业服务有限公司中冉信息分公司 | 一种移动通信中异常用户识别的方法及智能设备 |
CN114268939B (zh) * | 2021-11-12 | 2024-03-08 | 重庆市中冉数字科技有限公司 | 一种移动通信中异常用户识别的方法及智能设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Umayaparvathi et al. | A survey on customer churn prediction in telecom industry: Datasets, methods and metrics | |
CN107248082B (zh) | 养卡识别方法及装置 | |
CN110198310A (zh) | 一种网络行为反作弊方法、装置及存储介质 | |
Umayaparvathi et al. | Applications of data mining techniques in telecom churn prediction | |
CN107153971A (zh) | 用于识别app推广中设备作弊的方法及装置 | |
CN110097066A (zh) | 一种用户分类方法、装置及电子设备 | |
CN108009844A (zh) | 确定广告作弊行为的方法、装置及云服务器 | |
CN105007171A (zh) | 基于通信领域大数据的用户数据分析系统及方法 | |
CN102629904A (zh) | 一种网络水军的探测与判定方法 | |
CN109670104A (zh) | 基于机器学习的信息推送方法、设备、装置及存储介质 | |
CN103150696A (zh) | 选择目标增值业务潜在客户的方法及装置 | |
CN109544197A (zh) | 一种用户流失预测方法和装置 | |
CN103218431A (zh) | 一种能识别网页信息自动采集的系统与方法 | |
CN110781308A (zh) | 一种基于大数据构建知识图谱的反欺诈系统 | |
CN109063456A (zh) | 图像型验证码的安全性检测方法及系统 | |
Irarrázaval et al. | Telecom traffic pumping analytics via explainable data science | |
CN108776857A (zh) | Nps短信调研方法、系统、计算机设备和存储介质 | |
CN104731937A (zh) | 用户行为数据的处理方法及装置 | |
Desai et al. | Data mining techniques for Fraud Detection | |
CN108520045A (zh) | 数据的服务响应方法及装置 | |
Saleh et al. | Customer retention and churn prediction in the telecommunication industry: a case study on a Danish university | |
Song et al. | Blockchain data analysis from the perspective of complex networks: Overview | |
Tanuwijaya et al. | Mobile customer behaviour predictive analysis for targeting Netflix potential customer | |
CN112446425A (zh) | 一种用于自动获取疑似养卡渠道的方法和装置 | |
CN112651790B (zh) | 基于快消行业用户触达的ocpx自适应学习方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |