CN114492552A - 宽带用户真实性判断模型的训练方法、装置及设备 - Google Patents
宽带用户真实性判断模型的训练方法、装置及设备 Download PDFInfo
- Publication number
- CN114492552A CN114492552A CN202011262323.XA CN202011262323A CN114492552A CN 114492552 A CN114492552 A CN 114492552A CN 202011262323 A CN202011262323 A CN 202011262323A CN 114492552 A CN114492552 A CN 114492552A
- Authority
- CN
- China
- Prior art keywords
- data
- broadband
- training
- user
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Abstract
本发明实施例提供了一种宽带用户真实性判断模型的训练方法、装置及设备,该方法包括:获取多个用户的历史宽带业务数据;采用预设算法处理历史宽带业务数据,以生成多个训练样本数据;对于每个训练样本数据,分别执行以下操作:将训练样本数据输入XGBoost模型,以训练XGBoost模型;在不满足预设训练停止条件的情况下,应用网格搜索GridsearchCV调整XGBoost模型的参数;返回将训练样本数据输入XGBoost模型,直至满足预设训练停止条件,得到宽带用户真实性判断模型;本发明实施例能够解决现有技术中宽带用户真实性识别效果较差的问题。
Description
技术领域
本发明属于宽带业务分析领域,尤其涉及一种宽带用户真实性判断模型的训练方法、装置及设备。
背景技术
智慧家庭作为电信运营商争夺的又一新兴市场,其主要入口为家庭宽带业务,家庭宽带市场业务集中、客户群稳定、市场空间大,是各家运营商重点抢夺的目标。为了抢占市场份额、占据家庭宽带市场的主导地位,各大运营商间竞争日益激烈,宽带用户的拉新以及存量用户的保有都发挥着关键作用。
在宽带业务迅速发展的趋势下,在正常用户中夹杂着很多存在套利动机的异常用户,这对业务发展健康度、营销资源使用率以及公司收入等均造成不良影响,因此精准识别家庭宽带用户中行为异常的虚假用户显得尤为重要。
但是现有技术中宽带用户真实性识别效果较差。
发明内容
本发明实施例提供一种在宽带用户真实性判断模型的训练方法、装置及设备,能够解决现有技术中宽带用户真实性识别效果较差的问题。
第一方面,本发明实施例提供一种宽带用户真实性判断模型的训练方法,该方法包括:
获取多个用户的历史宽带业务数据;
采用预设算法处理历史宽带业务数据,以生成多个训练样本数据;
其中,训练样本数据包括宽带业务特征数据及其对应的用户标签数据,用户标签数据指示出宽带业务特征数据对应的用户是否为真实用户;
对于每个训练样本数据,分别执行以下操作:
将训练样本数据输入XGBoost模型,以训练XGBoost模型,XGBoost模型的逻辑回归参数为binary:logitraw;
在不满足预设训练停止条件的情况下,应用网格搜索GridsearchCV调整XGBoost模型的参数;
返回将训练样本数据输入XGBoost模型,直至满足预设训练停止条件,得到宽带用户真实性判断模型。
进一步地,在一种实施例中,将训练样本数据输入XGBoost模型,以训练XGBoost模型,包括:
针对经训练样本数据输入后的XGBoost模型的每个回归树叶子节点,分别执行以下操作:
分别计算叶子节点中每个训练样本为分割点时的分数增益;
在分数增益和原始分数增益中取大值作为目标分数增益;
选取最大的目标分数增益对应的训练样本分裂叶子节点;
返回分别计算叶子节点中每个训练样本为分割点时的分数增益,直至目标分数增益小于第一预设阈值,得到一个弱学习器。
进一步地,在一种实施例中,预设训练停止条件,包括:
XGBoost模型的残差小于第二预设阈值;或者,
XGBoost模型回归树的数量等于第三预设阈值。
进一步地,在一种实施例中,当历史宽带业务数据中存在异常数据时,方法还包括:
在历史宽带业务数据中存在缺失值的情况下:
当缺失值占其所在字段超过预设比例时,删除缺失值;
当缺失值占其所在字段不超过预设比例,且缺失值为离散型变量时,应用缺失值所在字段的众数作为缺失值的补充;
当缺失值占其所在字段不超过预设比例,且缺失值为连续型变量时,应用缺失值所在字段的均值作为缺失值的补充;
在历史宽带业务数据中存在异常值的情况下:
应用四分位数离群检测异常值,得到检测结果,删除检测结果在预设四分差值区间之外的异常值。
进一步地,在一种实施例中,XGBoost模型的目标函数为:
其中,q代表当前回归树的叶子节点,T为叶子节点的个数,每个叶子节点j上的训练样本下标的集合为Ij,Ij={i|q(xi)=j},wj表示叶子节点的分数,t为XGBoost模型的当前迭代次数,λ和γ为正则化系数,分别为XGBoost模型的损失函数的一阶导数和二阶导数,为损失函数,x为训练样本中的特征数据,y为训练样本中的标签数据。
第二方面,本发明实施例提供一种利用宽带用户真实性判断模型判断宽带用户真实性的方法,该宽带用户真实性判断模型通过本申请实施例提供的宽带用户真实性判断模型的训练方法而训练,该方法包括:
获取目标用户的目标宽带业务数据;
依次采用one-hot编码和归一化处理目标宽带业务数据,以生成目标宽带业务特征数据;
将目标宽带业务特征数据输入宽带用户真实性判断模型,输出目标用户标签数据,目标用户标签数据指示出目标用户是否为真实用户。
第三方面,本发明实施例提供一种宽带用户真实性判断模型的训练装置,该装置包括:
第一获取模块,用于获取多个用户的历史宽带业务数据;
第一生成模块,用于采用预设算法处理历史宽带业务数据,以生成多个训练样本数据;
其中,训练样本数据包括宽带业务特征数据及其对应的用户标签数据,用户标签数据指示出宽带业务特征数据对应的用户是否为真实用户;
对于每个训练样本数据,分别执行以下操作:
训练模块,用于将训练样本数据输入XGBoost模型,以训练XGBoost模型,XGBoost模型的逻辑回归参数为binary:logitraw;
调参模块,用于在不满足预设训练停止条件的情况下,应用网格搜索GridsearchCV调整XGBoost模型的参数;
训练模块,还用于返回将训练样本数据输入XGBoost模型,直至满足预设训练停止条件,得到宽带用户真实性判断模型。
进一步地,在一种实施例中,训练模块,具体用于:
针对经训练样本数据输入后的XGBoost模型的每个回归树叶子节点,分别执行以下操作:
分别计算叶子节点中每个训练样本为分割点时的分数增益;
在分数增益和原始分数增益中取大值作为目标分数增益;
选取最大的目标分数增益对应的训练样本分裂叶子节点;
返回分别计算叶子节点中每个训练样本为分割点时的分数增益,直至目标分数增益小于第一预设阈值,得到一个弱学习器。
进一步地,在一种实施例中,预设训练停止条件,包括:
XGBoost模型的残差小于第二预设阈值;或者,
XGBoost模型回归树的数量等于第三预设阈值。
第四方面,本申请实施例提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现本申请实施例提供的方法。
第五方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传递的实现程序,程序被处理器执行时实现本申请实施例提供的方法。
本发明实施例的宽带用户真实性判断模型的训练方法、装置及设备,将XGBoost模型原有参数中的objective:binary:logistic替换成binary:logitraw,使其直接生成目标函数的分数。考虑逻辑回归映射效果待定的情况下,在sigmoid函数基础上新增参数a,实现目标函数分数转换成概率值。并通过引入GridSearchCV网格搜索方法优化XGBoost模型的参数,同时改良目标函数,实现模型精度提升效果,最终得到宽带用户真实性判断模型。基于该宽带用户真实性判断模型进行宽带用户真实性的识别,识别精度较高,解决了现有技术中宽带用户真实性识别效果较差的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种宽带用户真实性判断模型的训练方法的流程示意图;
图2是本发明实施例提供的一种宽带用户真实性判断模型的训练装置的结构示意图;
图3是本发明实施例提供的一种利用宽带用户真实性判断模型判断宽带用户真实性的装置的结构示意图;
图4是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前各省运营商在家庭宽带用户真实性稽核方面,主要依据传统经验与业务规则限制筛选目标用户,主要方法有如下两类:
第一种方法,先沉默用户圈定,再进行一线抽样核查。以宽带使用活性为分析切口,基于业务经验人为设定宽带用户使用次数、时长、流量等阈值,再从目标用户群中抽样进行现场核查验证。采用该方法识别虚假用户过于简单,人为主观因素较大,目标用户范围较大,无法有效落实核查工作,目标用户命中率较低。
第二种方法,多类异常特征交叉筛选,区别于方法一的仅参考宽带使用活性这一维度,方法二加入业务受理、线下装维等批量集中的行为分析,来进一步缩小宽带异常虚假用户的范围,但是同样是基于业务经验直接指定规则,存在用户筛选偏差的问题,目标用户识别效果较差。
上述两种方法有着如下弊端:
首先,传统经验判断宽带用户真实性效果差。根据业务经验,人为制定规则筛选目标用户仅仅适用于简单的业务模型,宽带虚假用户除了使用活性低,还存在其他多类场景情况下的异常特征,因此存在筛选规则片面,目标用户范围过大的问题。即使增加多类异常特征进行交叉筛选目标用户,也存在规则主观、用户筛选偏差大的问题。
其次,宽带用户真实性稽查难度大、目标范围广、效率较低。由于规则判定的谨慎性和局限性,基于经验规则筛选后的目标用户群规模较大,现场稽核人力投入无法匹配需求,最终导致稽查工作无法有效落实,影响稽核效果。
为了解决现有技术问题,本发明实施例提供了一种宽带用户真实性判断模型的训练方法、装置及设备。本发明实施例基于宽带用户数据进行数据挖掘,采用XGBoost算法进行宽带虚假用户识别模型的搭建,使用已核查验证的虚假用户样本对模型训练、调参、优化,最终实现对存量宽带用户中虚假用户的预测识别,在一定程度上解决了人为设定规则导致目标用户圈定偏差较大的问题。具体的,将XGBoost模型原有参数中的objective:binary:logistic替换成binary:logitraw,使其直接生成目标函数的分数。考虑逻辑回归映射效果待定的情况下,在sigmoid函数基础上新增参数a,实现目标函数分数转换成概率值。并通过引入GridSearchCV网格搜索方法优化XGBoost模型的参数,同时改良目标函数,实现模型精度提升效果,最终得到宽带用户真实性判断模型。基于该宽带用户真实性判断模型进行宽带用户真实性的识别,识别精度较高。降低了人工稽核成本,提升了稽核效率,达到了降本增效的目的。下面首先对本发明实施例所提供的宽带用户真实性判断模型的训练方法进行介绍。
图1示出了本发明一个实施例提供的宽带用户真实性判断模型的训练方法的流程示意图。如图1所示,该方法可以包括以下步骤:
S100,获取多个用户的历史宽带业务数据。
历史宽带业务数据基于原始数据所得,原始数据可以从运营商网络直接获取,原始数据包括以下六类、多个分析字段:
宽带业务数据分析字段涵盖业务受理、线下装维、用户使用、消费结算以及销户离网全生命周期行为数据;
业务受理数据含受理渠道、资费名称、订购时间等字段;
线下装维数据含工单施工人员信息、安装小区信息、装机时长等字段;
用户使用数据含使用流量、使用时长、首末次使用时间等字段;
消费结算数据含账单消费、酬金名称、酬金金额等字段;
销户离网数据含销户时间、销户类型字段。
分析上述各分析字段能够得到历史宽带业务数据,包括:用户的入网时长、用户的离网时长、预设时间段用户使用的流量、以及用户的订单处理时长。
根据入网时间、销户时间分别计算入网时长与离网时长,根据本月使用流量、上月使用流量、上上月使用流量计算近三月使用流量,根据订单处理开始时间与订单结束时间计算订单处理时长,可按日/月统计渠道家庭宽带业务办理量。
S102,采用预设算法处理历史宽带业务数据,以生成多个训练样本数据。
预设算法包括:分箱算法、one-hot编码、归一化处理、以及分类汇总处理。
其中,训练样本数据包括宽带业务特征数据及其对应的用户标签数据,用户标签数据指示出宽带业务特征数据对应的用户是否为真实用户。
历史宽带业务数据包括以下至少一种:用户的入网时长、用户的离网时长、预设时间段用户使用的流量、以及用户的订单处理时长。
根据入网时间、销户时间分别计算入网时长与离网时长,根据本月使用流量、上月使用流量、上上月使用流量计算近三月使用流量,根据订单处理开始时间与订单结束时间计算订单处理时长,按日/月统计渠道家庭宽带业务办理量,对原始数据特征进行加工处理。采用分箱、one-hot、归一化、分类汇总等处理方式对原始数据特征进行组合处理,合计生成259个特征。
对于每个训练样本数据,分别执行以下操作:
S104,将训练样本数据输入XGBoost模型,以训练XGBoost模型,XGBoost模型的逻辑回归参数为binary:logitraw。
基于XGBoost模型通过二阶泰勒展开得到目标函数的近似,相比于GBDT模型优化只涉及一阶导,具备优化速度更快的特点,XGBoost的目标函数加入了正则项,避免过拟合,提升模型的泛化能力,除此之外XGBoost在样本选择、并行计算、缺失值处理等方面,也有一定的改进,这些改进共同使得XGBoost模型在计算效率及预测结果上表现出明显优势,故本申请选择XGBoost模型作为框架模型。
下面对本申请实施例提供的XGBoost模型进行介绍:
XGBoost是一个以树模型为弱分类器(如回归树)的集成模型,所有弱分类器的结果相加即为预测值。表达式如下:
其中:F={f(x)=wq(x)}(q:Rm→T,w∈RT)
wq(x)为树结构q的分数,F对应所有K棵回归树的集合,f(x)为其中一棵回归树。
R表示实数,m表示数据中有m个特征,T表示叶子节点的个数。
模型的目标是使得预测值尽量接近真实值,因此构建目标函数,使其产生最优解。对于给定样本I={(x1,y1),(x2,y2),...(xn,yn)},其中X代表用户特征,Y代表用户标签,XGBoost算法的目标函数表达式L为:
对当前迭代次数t,目标函数为:
利用泰勒二阶展开做目标函数的近似:
其中,每棵树共有T个叶子节点,每个叶节点j上样本下标的集合为Ij,Ij={i|q(xi)=j},wj表示第j个叶子节点的分数。
则目标函数公式可简化为:
因此,当进行每一次迭代时,希望可以最大程度的减小目标函数,即进行左(L)、右(R)子树分裂时,使分裂后的增益最大化。
S106,在不满足预设训练停止条件的情况下,应用网格搜索GridsearchCV调整XGBoost模型的参数。
本申请实施例XGBoost模型的参数选择如下:
设置XGBoost分类算法参数,分类器为gbtree。在参数选择上采用GridsearchCV(网格搜索)对XGBoost算法中的max_depth(树的最大深度)、eta(学习速率)、subsample(随机采样比例)、参数a(映射函数系数)4个参数进行训练。
S108,返回将训练样本数据输入XGBoost模型,直至满足预设训练停止条件,得到宽带用户真实性判断模型。
在一种实施例中,S104可以包括:
针对经训练样本数据输入后的XGBoost模型的每个回归树叶子节点,分别执行以下操作:
分别计算叶子节点中每个训练样本为分割点时的分数增益。
在分数增益和原始分数增益中取大值作为目标分数增益。
选取最大的目标分数增益对应的训练样本分裂叶子节点。
返回分别计算叶子节点中每个训练样本为分割点时的分数增益,直至目标分数增益小于第一预设阈值,得到一个弱学习器。
对于当前节点j,该节点下有n个样本,样本下标的集合为Ij,有:
基于当前节点尝试分裂节点,默认分数score可以设为0。
对特征序号M=1,2...m进行遍历:
尝试更新最大的分数增益,若分裂后的分数增益大于默认分数增益score,则更新score值:
遍历所有特征,基于产生最大score对应的特征和特征值进行子树分裂。
重复进行多次分裂,当Gain值小于0,即引入的分裂带来的分数增益小于第一预设阈值的时候,停止分裂,获得一个弱学习器。
在一种实施例中,预设训练停止条件,包括:
XGBoost模型的残差小于第二预设阈值。或者,
XGBoost模型回归树的数量等于第三预设阈值。
在一种实施例中,当历史宽带业务数据中存在异常数据时,该方法还包括:
在历史宽带业务数据中存在缺失值的情况下:
当缺失值占其所在字段超过预设比例时,删除缺失值。
当缺失值占其所在字段不超过预设比例,且缺失值为离散型变量时,应用缺失值所在字段的众数作为缺失值的补充。
当缺失值占其所在字段不超过预设比例,且缺失值为连续型变量时,应用缺失值所在字段的均值作为缺失值的补充。
在历史宽带业务数据中存在异常值的情况下:
应用四分位数离群检测异常值,得到检测结果,删除检测结果在预设四分差值区间之外的异常值。
该实施例中,主要对数据缺失值、重复值、异常值进行处理:
(1)缺失值处理:
对于缺失值占比大于70%数据字段进行删除处理,离散型变量缺失值填补为当前变量众数,连续型变量缺失值填补为当前变量均值。
(2)重复值处理:
重复记录进行删除处理,保障数据唯一性。
(3)异常值处理:
利用四分位数离群检测异常值,对小于QL-1.5IQR或大于QU+1.5IQR的值的异常值进行删除处理。
在一种实施例中,XGBoost模型的目标函数可以为:
其中,q代表当前回归树的叶子节点,T为叶子节点的个数,每个叶子节点j上的训练样本下标的集合为Ij,Ij={i|q(xi)=j},wj表示叶子节点的分数,t为XGBoost模型的当前迭代次数,λ和γ为正则化系数,分别为XGBoost模型的损失函数的一阶导数和二阶导数,为损失函数,x为训练样本中的特征数据,y为训练样本中的标签数据。
本发明实施例基于宽带用户数据进行数据挖掘,采用XGBoost算法进行宽带虚假用户识别模型的搭建,使用已核查验证的虚假用户样本对模型训练、调参、优化,最终实现对存量宽带用户中虚假用户的预测识别,在一定程度上解决了人为设定规则导致目标用户圈定偏差较大的问题。具体的,将XGBoost模型原有参数中的objective:binary:logistic替换成binary:logitraw,使其直接生成目标函数的分数。考虑逻辑回归映射效果待定的情况下,在sigmoid函数基础上新增参数a,实现目标函数分数转换成概率值。并通过引入GridSearchCV网格搜索方法优化XGBoost模型的参数,同时改良目标函数,实现模型精度提升效果,最终得到宽带用户真实性判断模型。基于该宽带用户真实性判断模型进行宽带用户真实性的识别,识别精度较高。降低了人工稽核成本,提升了稽核效率,达到了降本增效的目的。
第二方面,本发明实施例提供一种利用宽带用户真实性判断模型判断宽带用户真实性的方法,该宽带用户真实性判断模型通过本申请实施例提供的宽带用户真实性判断模型的训练方法而训练,该方法包括:
获取目标用户的目标宽带业务数据。
依次采用one-hot编码和归一化处理目标宽带业务数据,以生成目标宽带业务特征数据。
将目标宽带业务特征数据输入宽带用户真实性判断模型,输出目标用户标签数据,目标用户标签数据指示出目标用户是否为真实用户。
本发明实施例还提供了一种利用宽带用户真实性判断模型判断宽带用户真实性的方法的实例。其中宽带用户真实性判断模型基于7000个用户的历史宽带业务数据作为训练集,3000个用户的历史宽带业务数据作为测试集而训练得到。
宽带用户真实性判断模型的参数选择如下:max_depth的待选值拟定为[5、10],eta的待选值拟定为[0.01、0.001],subsample的待选值拟定为[0.7、0.6],参数a的待选值为[1、1.5、2],共循环遍历2*2*2*3=24次。激活函数设为为其中a为实数
当max_depth=5,eta=0.01,subsample=0.6,a=1.5的时候模型训练效果最优,利用测试集对模型效果进行评测,3000个测试样本预测出正常用户2468个,虚假用户532个,虚假用户占比为17.7%,相关数据如下:
优化前原始sigmoid函数的模型模型输出数据如下:
通过对比分析:本申请实施例提供的宽带用户真实性判断模型效果明显较优化前使用原始sigmoid函数的模型效果优秀。
本申请实施例还提供了一种实际效果检测结果:
将10万存量家庭宽带用户利用模型检测用户真实性数据如下:
为验证模型效果,抽样5%虚假用户数据进行线下核实,发现模型虚假用户命中率达95%。
图1描述了宽带用户真实性判断模型的训练方法,下面结合附图2-4描述本发明实施例提供的装置。
图2示出了本发明一个实施例提供的宽带用户真实性判断模型的训练装置的结构示意图,图2所示装置中各模块具有实现图1中各个步骤的功能,并能达到其相应技术效果。如图2所示,该装置可以包括:
第一获取模块200,用于获取多个用户的历史宽带业务数据。
历史宽带业务数据基于原始数据所得,原始数据可以从运营商网络直接获取,原始数据包括以下六类、多个分析字段:
宽带业务数据分析字段涵盖业务受理、线下装维、用户使用、消费结算以及销户离网全生命周期行为数据;
业务受理数据含受理渠道、资费名称、订购时间等字段;
线下装维数据含工单施工人员信息、安装小区信息、装机时长等字段;
用户使用数据含使用流量、使用时长、首末次使用时间等字段;
消费结算数据含账单消费、酬金名称、酬金金额等字段;
销户离网数据含销户时间、销户类型字段。
分析上述各分析字段能够得到历史宽带业务数据,包括:用户的入网时长、用户的离网时长、预设时间段用户使用的流量、以及用户的订单处理时长。
根据入网时间、销户时间分别计算入网时长与离网时长,根据本月使用流量、上月使用流量、上上月使用流量计算近三月使用流量,根据订单处理开始时间与订单结束时间计算订单处理时长,可按日/月统计渠道家庭宽带业务办理量。
第一生成模块202,用于采用预设算法处理历史宽带业务数据,以生成多个训练样本数据。
预设算法包括:分箱算法、one-hot编码、归一化处理、以及分类汇总处理。
其中,训练样本数据包括宽带业务特征数据及其对应的用户标签数据,用户标签数据指示出宽带业务特征数据对应的用户是否为真实用户。
历史宽带业务数据包括以下至少一种:用户的入网时长、用户的离网时长、预设时间段用户使用的流量、以及用户的订单处理时长。
根据入网时间、销户时间分别计算入网时长与离网时长,根据本月使用流量、上月使用流量、上上月使用流量计算近三月使用流量,根据订单处理开始时间与订单结束时间计算订单处理时长,按日/月统计渠道家庭宽带业务办理量,对原始数据特征进行加工处理。采用分箱、one-hot、归一化、分类汇总等处理方式对原始数据特征进行组合处理,合计生成259个特征。
对于每个训练样本数据,分别执行以下操作:
训练模块204,用于将训练样本数据输入XGBoost模型,以训练XGBoost模型,XGBoost模型的逻辑回归参数为binary:logitraw。
基于XGBoost模型通过二阶泰勒展开得到目标函数的近似,相比于GBDT模型优化只涉及一阶导,具备优化速度更快的特点,XGBoost的目标函数加入了正则项,避免过拟合,提升模型的泛化能力,除此之外XGBoost在样本选择、并行计算、缺失值处理等方面,也有一定的改进,这些改进共同使得XGBoost模型在计算效率及预测结果上表现出明显优势,故本申请选择XGBoost模型作为框架模型。
下面对本申请实施例提供的XGBoost模型进行介绍:
XGBoost是一个以树模型为弱分类器(如回归树)的集成模型,所有弱分类器的结果相加即为预测值。表达式如下:
其中:F={f(x)=wq(x)}(q:Rm→T,w∈RT)
wq(x)为树结构q的分数,F对应所有K棵回归树的集合,f(x)为其中一棵回归树。
R表示实数,m表示数据中有m个特征,T表示叶子节点的个数。
模型的目标是使得预测值尽量接近真实值,因此构建目标函数,使其产生最优解。对于给定样本I={(x1,y1),(x2,y2),...(xn,yn)},其中X代表用户特征,Y代表用户标签,XGBoost算法的目标函数表达式L为:
对当前迭代次数t,目标函数为:
利用泰勒二阶展开做目标函数的近似:
其中,每棵树共有T个叶子节点,每个叶节点j上样本下标的集合为Ij,Ij={i|q(xi)=j},wj表示第j个叶子节点的分数。
则目标函数公式可简化为:
因此,当进行每一次迭代时,希望可以最大程度的减小目标函数,即进行左(L)、右(R)子树分裂时,使分裂后的增益最大化。
调参模块206,用于在不满足预设训练停止条件的情况下,应用网格搜索GridsearchCV调整XGBoost模型的参数。
本申请实施例XGBoost模型的参数选择如下:
设置XGBoost分类算法参数,分类器为gbtree。在参数选择上采用GridsearchCV(网格搜索)对XGBoost算法中的max_depth(树的最大深度)、eta(学习速率)、subsample(随机采样比例)、参数a(映射函数系数)4个参数进行训练。
训练模块204,还用于返回将训练样本数据输入XGBoost模型,直至满足预设训练停止条件,得到宽带用户真实性判断模型。
在一种实施例中,训练模块204可以具体用于:
针对经训练样本数据输入后的XGBoost模型的每个回归树叶子节点,分别执行以下操作:
分别计算叶子节点中每个训练样本为分割点时的分数增益。
在分数增益和原始分数增益中取大值作为目标分数增益。
选取最大的目标分数增益对应的训练样本分裂叶子节点。
返回分别计算叶子节点中每个训练样本为分割点时的分数增益,直至目标分数增益小于第一预设阈值,得到一个弱学习器。
对于当前节点j,该节点下有n个样本,样本下标的集合为Ij,有:
基于当前节点尝试分裂节点,默认分数score可以设为0。
对特征序号M=1,2...m进行遍历:
尝试更新最大的分数增益,若分裂后的分数增益大于默认分数增益score,则更新score值:
遍历所有特征,基于产生最大score对应的特征和特征值进行子树分裂。
重复进行多次分裂,当Gain值小于0,即引入的分裂带来的分数增益小于第一预设阈值的时候,停止分裂,获得一个弱学习器。
在一种实施例中,预设训练停止条件,包括:
XGBoost模型的残差小于第二预设阈值。或者,
XGBoost模型回归树的数量等于第三预设阈值。
在一种实施例中,该装置还包括修正模块208,当历史宽带业务数据中存在异常数据时,用于:
在历史宽带业务数据中存在缺失值的情况下:
当缺失值占其所在字段超过预设比例时,删除缺失值。
当缺失值占其所在字段不超过预设比例,且缺失值为离散型变量时,应用缺失值所在字段的众数作为缺失值的补充。
当缺失值占其所在字段不超过预设比例,且缺失值为连续型变量时,应用缺失值所在字段的均值作为缺失值的补充。
在历史宽带业务数据中存在异常值的情况下:
应用四分位数离群检测异常值,得到检测结果,删除检测结果在预设四分差值区间之外的异常值。
该实施例中,修正模块208主要对数据缺失值、重复值、异常值进行处理:
(1)缺失值处理:
对于缺失值占比大于70%数据字段进行删除处理,离散型变量缺失值填补为当前变量众数,连续型变量缺失值填补为当前变量均值。
(2)重复值处理
重复记录进行删除处理,保障数据唯一性。
(3)异常值处理
利用四分位数离群检测异常值,对小于QL-1.5IQR或大于QU+1.5IQR的值的异常值进行删除处理。
在一种实施例中,XGBoost模型的目标函数可以为:
其中,q代表当前回归树的叶子节点,T为叶子节点的个数,每个叶子节点j上的训练样本下标的集合为Ij,Ij={i|q(xi)=j},wj表示叶子节点的分数,t为XGBoost模型的当前迭代次数,λ和γ为正则化系数,分别为XGBoost模型的损失函数的一阶导数和二阶导数,为损失函数,x为训练样本中的特征数据,y为训练样本中的标签数据。
本发明实施例基于宽带用户数据进行数据挖掘,采用XGBoost算法进行宽带虚假用户识别模型的搭建,使用已核查验证的虚假用户样本对模型训练、调参、优化,最终实现对存量宽带用户中虚假用户的预测识别,在一定程度上解决了人为设定规则导致目标用户圈定偏差较大的问题。具体的,将XGBoost模型原有参数中的objective:binary:logistic替换成binary:logitraw,使其直接生成目标函数的分数。考虑逻辑回归映射效果待定的情况下,在sigmoid函数基础上新增参数a,实现目标函数分数转换成概率值。并通过引入GridSearchCV网格搜索方法优化XGBoost模型的参数,同时改良目标函数,实现模型精度提升效果,最终得到宽带用户真实性判断模型。基于该宽带用户真实性判断模型进行宽带用户真实性的识别,识别精度较高。降低了人工稽核成本,提升了稽核效率,达到了降本增效的目的。
图3示出了本发明一个实施例提供的利用宽带用户真实性判断模型判断宽带用户真实性的装置的结构示意图,图3所示装置中各模块具有实现图1中各个步骤的功能,并能达到其相应技术效果。如图3所示,该装置可以包括:
第二获取模块300,用于获取目标用户的目标宽带业务数据。
第二生成模块302,依次采用one-hot编码和归一化处理目标宽带业务数据,以生成目标宽带业务特征数据。
输出模块304,用于将目标宽带业务特征数据输入宽带用户真实性判断模型,输出目标用户标签数据,目标用户标签数据指示出目标用户是否为真实用户。
图4示出了本发明一个实施例提供的计算机设备的结构示意图。如图4所示,该设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器402可以包括可移除或不可移除(或固定)的介质,或者存储器402是非易失性固态存储器。存储器402可在综合网关容灾设备的内部或外部。
在一个实例中,存储器402可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现图1所示实施例中的方法,并达到图1所示实例执行其方法达到的相应技术效果,为简洁描述在此不再赘述。
在一个示例中,该计算机设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该计算机设备可以执行本发明实施例中的方法,从而实现该方法的相应技术效果。
另外,结合上述实施例中的方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (12)
1.一种宽带用户真实性判断模型的训练方法,其特征在于,包括:
获取多个用户的历史宽带业务数据;
采用预设算法处理所述历史宽带业务数据,以生成多个训练样本数据;
其中,所述训练样本数据包括宽带业务特征数据及其对应的用户标签数据,所述用户标签数据指示出所述宽带业务特征数据对应的用户是否为真实用户;
对于每个所述训练样本数据,分别执行以下操作:
将所述训练样本数据输入XGBoost模型,以训练所述XGBoost模型,所述XGBoost模型的逻辑回归参数为binary:logitraw;
在不满足预设训练停止条件的情况下,应用网格搜索GridsearchCV调整所述XGBoost模型的参数;
返回将所述训练样本数据输入XGBoost模型,直至满足预设训练停止条件,得到宽带用户真实性判断模型。
2.如权利要求1所述的宽带用户真实性判断模型的训练方法,其特征在于,所述将所述训练样本数据输入XGBoost模型,以训练所述XGBoost模型,包括:
针对经所述训练样本数据输入后的所述XGBoost模型的每个回归树叶子节点,分别执行以下操作:
分别计算所述叶子节点中每个所述训练样本为分割点时的分数增益;
在所述分数增益和原始分数增益中取大值作为目标分数增益;
选取最大的所述目标分数增益对应的所述训练样本分裂所述叶子节点;
返回分别计算所述叶子节点中每个所述训练样本为分割点时的分数增益,直至所述目标分数增益小于第一预设阈值,得到一个弱学习器。
3.如权利要求2所述的宽带用户真实性判断模型的训练方法,所述预设训练停止条件,包括:
所述XGBoost模型的残差小于第二预设阈值;或者,
所述XGBoost模型回归树的数量等于第三预设阈值。
4.如权利要求1所述的宽带用户真实性判断模型的训练方法,其特征在于,当所述历史宽带业务数据中存在异常数据时,所述方法还包括:
在所述历史宽带业务数据中存在缺失值的情况下:
当所述缺失值占其所在字段超过预设比例时,删除所述缺失值;
当所述缺失值占其所在字段不超过预设比例,且所述缺失值为离散型变量时,应用所述缺失值所在字段的众数作为所述缺失值的补充;
当所述缺失值占其所在字段不超过预设比例,且所述缺失值为连续型变量时,应用所述缺失值所在字段的均值作为所述缺失值的补充;
在所述历史宽带业务数据中存在异常值的情况下:
应用四分位数离群检测所述异常值,得到检测结果,删除所述检测结果在预设四分差值区间之外的所述异常值。
7.一种利用宽带用户真实性判断模型判断宽带用户真实性的方法,所述宽带用户真实性判断模型通过权利要求1所述的方法而训练,所述方法包括:
获取目标用户的目标宽带业务数据;
依次采用one-hot编码和归一化处理所述目标宽带业务数据,以生成目标宽带业务特征数据;
将所述目标宽带业务特征数据输入所述宽带用户真实性判断模型,输出目标用户标签数据,所述目标用户标签数据指示出所述目标用户是否为真实用户。
8.一种宽带用户真实性判断模型的训练装置,其特征在于,包括:
第一获取模块,用于获取多个用户的历史宽带业务数据;
第一生成模块,用于采用预设算法处理所述历史宽带业务数据,以生成多个训练样本数据;
其中,所述训练样本数据包括宽带业务特征数据及其对应的用户标签数据,所述用户标签数据指示出所述宽带业务特征数据对应的用户是否为真实用户;
对于每个所述训练样本数据,分别执行以下操作:
训练模块,用于将所述训练样本数据输入XGBoost模型,以训练所述XGBoost模型,所述XGBoost模型的逻辑回归参数为binary:logitraw;
调参模块,用于在不满足预设训练停止条件的情况下,应用网格搜索GridsearchCV调整所述XGBoost模型的参数;
所述训练模块,还用于返回将所述训练样本数据输入XGBoost模型,直至满足预设训练停止条件,得到宽带用户真实性判断模型。
9.如权利要求8所述的宽带用户真实性判断模型的训练装置,其特征在于,所述训练模块,具体用于:
针对经所述训练样本数据输入后的所述XGBoost模型的每个回归树叶子节点,分别执行以下操作:
分别计算所述叶子节点中每个所述训练样本为分割点时的分数增益;
在所述分数增益和原始分数增益中取大值作为目标分数增益;
选取最大的所述目标分数增益对应的所述训练样本分裂所述叶子节点;
返回分别计算所述叶子节点中每个所述训练样本为分割点时的分数增益,直至所述目标分数增益小于第一预设阈值,得到一个弱学习器。
10.如权利要求9所述的宽带用户真实性判断模型的训练装置,所述预设训练停止条件,包括:
所述XGBoost模型的残差小于第二预设阈值;或者,
所述XGBoost模型回归树的数量等于第三预设阈值。
11.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011262323.XA CN114492552A (zh) | 2020-11-12 | 2020-11-12 | 宽带用户真实性判断模型的训练方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011262323.XA CN114492552A (zh) | 2020-11-12 | 2020-11-12 | 宽带用户真实性判断模型的训练方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114492552A true CN114492552A (zh) | 2022-05-13 |
Family
ID=81489876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011262323.XA Pending CN114492552A (zh) | 2020-11-12 | 2020-11-12 | 宽带用户真实性判断模型的训练方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492552A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996318A (zh) * | 2022-07-12 | 2022-09-02 | 成都唐源电气股份有限公司 | 一种检测数据异常值处理方式的自动判别方法及系统 |
-
2020
- 2020-11-12 CN CN202011262323.XA patent/CN114492552A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996318A (zh) * | 2022-07-12 | 2022-09-02 | 成都唐源电气股份有限公司 | 一种检测数据异常值处理方式的自动判别方法及系统 |
CN114996318B (zh) * | 2022-07-12 | 2022-11-04 | 成都唐源电气股份有限公司 | 一种检测数据异常值处理方式的自动判别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN111291816A (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN112348519A (zh) | 一种欺诈用户识别方法、装置和电子设备 | |
CN110689368B (zh) | 一种移动应用内广告点击率预测系统设计方法 | |
CN114221790A (zh) | 一种基于图注意力网络的bgp异常检测方法及系统 | |
CN108154311A (zh) | 基于随机森林和决策树的优质客户识别方法及装置 | |
CN114078050A (zh) | 贷款逾期预测方法、装置、电子设备及计算机可读介质 | |
CN108596664B (zh) | 一种电子车票的单边交易费用确定方法、系统及装置 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN114841789B (zh) | 基于区块链的审计审价故障数据在线编辑方法及系统 | |
CN111582315B (zh) | 样本数据处理方法、装置及电子设备 | |
CN114492552A (zh) | 宽带用户真实性判断模型的训练方法、装置及设备 | |
CN110009012A (zh) | 一种风险样本识别方法、装置及电子设备 | |
CN112860672A (zh) | 标签权重的确定方法和装置 | |
CN115114329A (zh) | 数据流异常检测的方法、装置、电子设备和存储介质 | |
CN113052422A (zh) | 风控模型训练方法和用户信用评估方法 | |
CN110880117A (zh) | 虚假业务识别方法、装置、设备和存储介质 | |
CN115883424A (zh) | 一种高速骨干网间流量数据预测方法及系统 | |
CN116048912A (zh) | 一种基于弱监督学习的云服务器配置异常识别方法 | |
CN114548307A (zh) | 分类模型训练方法和装置、分类方法和装置 | |
CN114897607A (zh) | 产品资源的数据处理方法及装置、电子设备、存储介质 | |
CN112529303A (zh) | 基于模糊决策的风险预测方法、装置、设备和存储介质 | |
CN109308565A (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN112712160B (zh) | 一种基于ahp技术的群体行为预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |