CN110728289B - 一种家庭宽带用户的挖掘方法及设备 - Google Patents

一种家庭宽带用户的挖掘方法及设备 Download PDF

Info

Publication number
CN110728289B
CN110728289B CN201810778137.8A CN201810778137A CN110728289B CN 110728289 B CN110728289 B CN 110728289B CN 201810778137 A CN201810778137 A CN 201810778137A CN 110728289 B CN110728289 B CN 110728289B
Authority
CN
China
Prior art keywords
sample
user behavior
classification model
classification
hyperplane
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810778137.8A
Other languages
English (en)
Other versions
CN110728289A (zh
Inventor
李腾
林舒卿
尹峰
余凤丽
崔曙光
余韦
梁恩磊
舒敏根
黄岩
陶涛
徐海勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Shenzhen Research Institute of Big Data SRIBD
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Shenzhen Research Institute of Big Data SRIBD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd, Shenzhen Research Institute of Big Data SRIBD filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810778137.8A priority Critical patent/CN110728289B/zh
Publication of CN110728289A publication Critical patent/CN110728289A/zh
Application granted granted Critical
Publication of CN110728289B publication Critical patent/CN110728289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种家庭宽带用户的挖掘方法及设备,用于提高识别潜在家庭宽带用户的准确度。该宽带用户的分类方法包括:对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,所述用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;根据权重系数对所述初始分类模型进行修正,其中,所述权重系数用于指示分类模型对样本错误分类的权重系数;通过修正后的分类模型对待分类的用户行为数据进行分析,获得所述至少两个宽带用户的分类结果。

Description

一种家庭宽带用户的挖掘方法及设备
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种家庭宽带用户的挖掘方法及设备。
背景技术
运营商为了推广家庭宽带业务,事先识别潜在家庭宽带用户。对潜在家庭宽带用户的识别实际上是对用户进行一个分类,也就是将潜在办理家庭宽带用户和和非潜在办理家庭宽带用户进行分类。
目前家庭宽带市场刚起步,已办理家庭宽带的用户相对较少,而使用宽带的用户较多。将已办理家庭宽带的用户的数据作为正样本,将使用宽带的用户的数据作为负样本。目前通过分类器对用户进行分类时,划分用户的超平面的边界就会靠近样本量少的分类,对分类结果产生负面影响,分类器的性能较低,从而导致识别潜在家庭宽带用户的准确度较低。
可见,目前识别潜在家庭宽带用户的准确度较低。
发明内容
本发明实施例提供一种家庭宽带用户的挖掘方法及设备,用于提高识别潜在家庭宽带用户的准确度。
第一方面,提供了一种宽带用户的分类方法,该分类方法包括:
对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,所述用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
根据权重系数对所述初始分类模型进行修正,其中,所述权重系数用于指示分类模型对样本错误分类的权重系数;
通过修正后的分类模型对待分类的用户行为数据进行分析,获得所述至少两个宽带用户的分类结果。
本发明实施例提供的分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
可选的,对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,包括:
对所述用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,所述正样本用于指示已办理家庭宽带的用户的用户行为数据,所述负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,所述正样本和所述负样本的时间窗相同;
对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,其中,所述用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据所述预设的分类算法对所述用户行为样本数据集进行训练,获得所述初始分类模型。
可选的,对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,包括:
将所述正样本和所述负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对所述M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成所述用户行为样本数据集。
上述两种可选的方式描述了在训练样本数据集时如何尽量克服样本数据的不平衡带来的负面影响。本发明实施例通过SMOTE算法对少数类样本进行分析并根据少数类样本进行合成再添加到样本数据集中,从而尽量克服样本数据的不平衡带来的负面影响。
可选的,针对用户行为样本数据集
Figure BDA0001731895250000031
其中,
Figure BDA0001731895250000032
为用户行为样本数据,yi∈{+1,-1}是第i份样本的类别标识,根据权重系数对所述初始分类模型进行修正,包括:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+
根据确定的C-和C+,及下面公式对所述初始分类模型进行修正:
Figure BDA0001731895250000033
其中,
Figure BDA0001731895250000034
Figure BDA0001731895250000035
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
这种可选的方式描述了如何进一步克服样本数据的不平衡带来的负面影响。本发明实施例对不同类样本的分类错误给予不同的惩罚系数,即权重系数。根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。
可选的,在根据权重系数对所述初始分类模型进行修正之后,还包括:
随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;
根据所述随机梯度下降算法对所述子集构成的所述分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;
求解迭代后的分类模型获得所述超平面参数,并根据确定的超平面参数对所述修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求。
上述可选的方式描述了在获得的超平面分类模型对宽带用户的分类结果与预设的分类结果不一致,也可以理解为获得的超平面分类模型对宽带用户的分类结果不正确,则可以重新计算分类模型的超平面参数,也就是分类模型对应的目标函数的最优解。根据确定的超平面参数对分类模型继续进行训练,直到通过训练后的分类模型获得的至少两个宽带用户的分类结果与预设的分类结果一致,那么此时得到的分类模型就较为准确,从而根据获得的分类模型对至少两个宽带用户进行分类的准确度也较高。
可选的,还包括:
若通过所述训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新所述超平面参数的值;
通过更新后的所述超平面参数的值对所述训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
这种可选的方式描述了如果确定训练后验证指标达到预设要求的分类模型对待分类的用户行为数据进行分析,获得的分类结果与标准的分类结果之差大于预设阈值,也就是分类结果不准确,则可以更新超平面参数的值,从而根据更新后的超平面参数的值对分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
可选的,若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,则所述方法还包括:
通过核函数将所述用户行为样本数据集对应的样本空间映射至特征空间,其中,所述样本空间对应超曲面模型,所述特征空间对应超平面模型;
通过下式确定修正后的分类模型的超平面参数:
Figure BDA0001731895250000041
其中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
Figure BDA0001731895250000042
当P≤-1时,αt+1[j]=αt[j]+1;当P≥1时,则αt+1[j]=αt[j]。
这种可选的方式描述了在若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,也就是数据集不能用线性模型将正负样本正确区分开的情况下,本发明实施例可以引入核函数建立分类模型对应的非线性模型,使得在输入空间中的超曲面模型可以对应到所变换的特征空间的超平面模型,从而可以实现将正负样本区分开。
可选的,所述方法还包括:
通过下式更新所述超平面参数的值:
Figure BDA0001731895250000051
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
这种可选的方式描述了本发明实施例还可以离线计算分类模型的较优的超平面参数,并保存较优的超平面参数,从而优化分类模型。
第二方面,提供了一种宽带用户的分类设备,该分类设备包括:
训练单元,用于对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,所述用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
修正单元,用于根据权重系数对所述初始分类模型进行修正,其中,所述权重系数用于指示分类模型对样本错误分类的权重系数;
分析单元,用于通过修正后的分类模型对待分类的用户行为数据进行分析,获得所述至少两个宽带用户的分类结果。
可选的,所述训练单元具体用于:
对所述用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,所述正样本用于指示已办理家庭宽带的用户的用户行为数据,所述负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,所述正样本和所述负样本的时间窗相同;
对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,其中,所述用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据所述预设的分类算法对所述用户行为样本数据集进行训练,获得所述初始分类模型。
可选的,所述训练单元具体用于:
将所述正样本和所述负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对所述M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成所述用户行为样本数据集。
可选的,针对用户行为样本数据集
Figure BDA0001731895250000061
其中,
Figure BDA0001731895250000062
为用户行为样本数据,yi∈{+1,-1}是第i份样本的类别标识,所述修正单元具体用于:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+
根据确定的C-和C+,及下面公式对所述初始分类模型进行修正:
Figure BDA0001731895250000063
其中,
Figure BDA0001731895250000064
Figure BDA0001731895250000065
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
可选的,还包括确定单元,用于:
在根据权重系数对所述初始分类模型进行修正之后,随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;
根据所述随机梯度下降算法对所述子集构成的所述分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;
求解迭代后的分类模型获得所述超平面参数,并根据确定的超平面参数对所述修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求。
可选的,还包括更新单元,用于:
若通过所述训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新所述超平面参数的值;
通过更新后的所述超平面参数的值对所述训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
可选的,若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,则所述设备还包括映射单元;
所述映射单元,用于通过核函数将所述用户行为样本数据集对应的样本空间映射至特征空间,其中,所述样本空间对应超曲面模型,所述特征空间对应超平面模型;
所述修正单元用于:通过下式确定修正后的分类模型的超平面参数:
Figure BDA0001731895250000071
其中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
Figure BDA0001731895250000072
当P≤-1时,αt+1[j]=αt[j]+1;当P≥1时,则αt+1[j]=αt[j]。
可选的,所述更新单元具体用于:
通过下式更新所述超平面参数的值:
Figure BDA0001731895250000073
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
本发明实施例提供的宽带用户的分类设备的技术效果可以参见上述第一方面的各个实现方式的技术效果,此处不再赘述。
第三方面,提供一种宽带用户的分类设备,该分类设备包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面任一项所述的方法。
本发明实施例提供的宽带用户的分类设备的技术效果可以参见上述第一方面的各个实现方式的技术效果,此处不再赘述。
第四方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本发明实施例提供的分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
附图说明
图1是本发明实施例提供的宽带用户的分类方法的流程示意图;
图2为本发明实施例提供的宽带用户的分类设备的一种结构示意图;
图3为本发明实施例提供的宽带用户的分类设备的一种结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
目前通过分类器对宽带用户进行分类时,划分用户的超平面的边界就会靠近样本量少的分类,对分类结果产生负面影响,分类器的性能较低,从而导致识别潜在家庭宽带用户的准确度较低。
鉴于此,本发明实施例提供了一种宽带用户的分类方法,该分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
下面结合说明书附图介绍本发明实施例提供的技术方案。
请参见图1,本发明实施例提供了一种宽带用户的分类方法,该分类方法可以由具有计算能力的电子设备执行,具体的流程描述如下。
S101,对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,用户行为数据用于表征用户进行通信业务的行为特征,例如用户进行上网的行为特征。
本发明实施例旨在对家庭宽带用户进行识别,解决家庭宽带用户的分类问题,从而挖掘出潜在家庭宽带用户。而使用家庭宽带的用户上网的行为特征与没有使用家庭宽带的用户上网的行为特征存在差异,从而根据存在的差异从宽带用户中将使用家庭宽带的用户的识别出来,进而从宽带用户中挖掘出潜在家庭宽带用户。
可能的实施方式中,本发明实施例可以采集多个宽带用户在预设时间段内上网的用户行为数据,形成用户行为样本数据集。例如,本发明实施例可以采集6月份新增宽带用户的在5月份上网的用户行为数据,及在5月份使用宽带的用户的用户行为数据,形成用户行为样本数据集。具体地,本发明实施例获得了用户行为样本数据集之后,可以对用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,划分为正样本和负样本,其中,正样本用于指示已办理家庭宽带的用户的用户行为数据,负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,正样本和负样本的时间窗相同。对应地,6月份新增宽带用户的在5月份上网的用户行为数据就是正样本,在5月份使用宽带的用户的用户行为数据就是负样本。当然本发明实施例也可以根据宽带用户所处地区地理环境、经济发展水平、民族文化等因素的综合考虑对用户行为数据进行划分以提高算法效率。例如,如果宽带用户处于青海地区,那么本发明实施例可以根据青海地区的地区地理环境确定划分依据是牧区与非牧区,对此,本发明实施例不作限制。
本发明实施例对用户行为样本数据集进行训练,获得基于超平面的初始分类模型。本发明实施例可以通过初始分类模型对宽带用户进行分类,从而根据分类结果确定潜在的家庭宽带用户。由于目前家庭宽带市场刚起步,已办理家庭宽带的用户相对较少,而使用宽带的用户较多。将已办理家庭宽带的用户的数据作为正样本,将使用宽带的用户的数据作为负样本。那么用户行为数据集中的正样本和负样本的数量相差较大,也就是不平衡,这样训练得到的于超平面的初始分类模型分类的准确度就较低,就会导致划分用户边界就会靠近样本量少的正样本的一侧偏移,分类器的性能受到数据的非平衡特点影响而下降。
鉴于此,本发明实施例将正样本和负样本分别随机拆分成M份,选取M-1份正样本和M-1份负样本作为训练数据集,并选取1份正样本和1份负样本作为测试数据集,M为自然数。本发明实施例通过合成少数类过采样技术(Synthetic Minority OversamplingTechnique,SMOTE)算法对M-1份正样本插入新样本并合成新的正样本,其中合成样本数根据原始数据的具体正负样本比例而定。再将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成用户行为样本数据集,也就是最终的训练数据集。本发明实施例通过SMOTE算法对采集的用户行为样本数据集进行分析并根据少数类样本进行合成添加至训练数据集,也就是插入新的正样本,使得正样本的数量和负样本的数量之间的差值位于预设范围内,尽量正样本和负样本平衡,即尽量克服由于数据的不平衡导致训练得到的分类模型的性能较低,分类准确度较低的问题。
本发明实施例获得最终的用户行为样本数据集可以根据预设的分类算法对用户行为样本数据集进行训练,获得基于超平面的初始分类模型。再通过测试数据集对初始分类模型进行检测,如果检测确定初始分类模型的分类结果不正确,或者正确率较低,那么可以求解初始分类模型对应的目标函数,从而获得初始分类模型的较优超平面参数,从而根据确定的超平面参数继续训练初始分类模型,以尽量获得分类结果较为正确的分类模型。
具体地,本发明实施例可以根据随机梯度下降算法对子集构成的初始分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数,再求解迭代后的初始分类模型获得超平面参数,并根据确定的超平面参数对初始分类模型进行训练。
例如,对于一个给定的训练数据集
Figure BDA0001731895250000111
其中,xi为输入,具体而言xi∈Rn是n维特征输入向量,yi∈{+1,-1}是第i份样本的类别标识。首先,设置参数迭代次数T,并将向量w初始化为0,即令w1=0。每次迭代求梯度时,随机从训练集中选择k份样本组成子集At参与计算,其中,
Figure BDA0001731895250000112
分类模型的目标函数如下:
Figure BDA0001731895250000113
其次,通过对目标函数f(w:At)求次梯度,则有:
Figure BDA0001731895250000114
设定下降步长为
Figure BDA0001731895250000115
根据公式
Figure BDA0001731895250000119
对向量w进行迭代更新。
本发明实施例可以从训练数据集S随机选取包含k份样本的数据集At,其包含子集
Figure BDA0001731895250000116
和子集
Figure BDA0001731895250000117
Figure BDA0001731895250000118
输入参数λ,设置的迭代次数T,批量样本数k,初始化向量w1=0,设置梯度下降的步长为:
Figure BDA0001731895250000121
根据公式(4)向量w进行迭代更新,直到满足T次迭代次数。
Figure BDA0001731895250000124
对此时求解迭代后的分类模型获得超平面参数,可以认为是较优的超平面参数,并根据确定的超平面参数对初始分类模型进行训练,就可以获得分类结果较为准确的分类模型,通过该分类模型也可以对宽带用户进行分类,从而挖掘出潜在的家庭宽带用户。
本发明实施例通过随机梯度下降算法确定初始分类模型的超平面参数只需要随机选择部分样本数据,每次迭代不是找到一个全局最优的下降方向,而是随机挑选批量训练样本计算目标函数的梯度,然后在相反的方向下降相应的步长。而不需要把所有样本都带入计算,这样即使迭代次数较多,本发明实施例的计算量还是降低了,以减少训练分类模型的时长,提高效率。
可能地实施方式中,本发明实施例获得最终的用户行为样本数据集可以根据预设的分类算法对用户行为样本数据集进行训练,获得基于超平面的初始分类模型。再通过测试数据集对初始分类模型进行检测,如果检测确定初始分类模型的分类结果不正确,或者正确率较低,那么本发明实施例可以对初始分类模型进行修正,以尽量获得分类结果较为正确的分类模型。
具体地,在步骤S102,本发明实施例根据权重系数对初始分类模型进行修正,其中,权重系数可以用于指示分类模型对样本错误分类的权重系数,包括对负样本分类错误的权重系数和对正样本分类错误的权重系数。具体地,针对用户行为样本数据集
Figure BDA0001731895250000122
其中,
Figure BDA0001731895250000123
为用户行为样本数据,yi∈{+1,-1}是第i份样本的类别标识,本发明实施例确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,且C-<C+,以进一步降低用户行为样本数据集中的数据的非平衡性。对于所有训练样本,修正后的分类模型的表达式如下:
Figure BDA0001731895250000131
其中,公式(5)中,
Figure BDA0001731895250000132
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
本发明实施例对不同类样本的分类错误给予不同的惩罚系数,即权重系数。给定一个负样本数量远大于正样本数量的训练数据集,则样本数量多的负样本分类错误的惩罚系数为C-,样本数量少的正样本分类错误的惩罚系数为C+,为了降低非平衡数据的影响,令C-<C+,以得到性能较高,准确度较高的分类模型。
本发明实施训练初始分类模型可以由其他电子设备执行,也就是线下训练,从而尽量减轻分类设备的计算负担。
本发明实施例通过修正后的分类模型对采集的用户行为数据进行分析,获得至少两个宽带用户的分类结果,从而从分类结果中挖掘出潜在家庭宽带用户。另外,本发明实施例还可以基于随机梯度下降算法确定修正后的分类模型的超平面参数,直到通过训练后的分类模型验证指标达到预设要求。
具体地,本发明实施例可以随机从用户行为样本数据集中选取k份样本组成子集,k为正整数,根据随机梯度下降算法对子集构成的分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数,再求解迭代后的分类模型获得超平面参数,并根据确定的超平面参数对修正后的分类模型进行训练。求解修正后的分类模型的超平面参数的方式与求解初始分类模型的超平面参数的方式相同,这里不再赘述。
另外,如果基于超平面的分类模型是线性模型,且获得的至少两个宽带用户的分类结果与预设的分类结果不一致,也就是至少两个宽带用户对应的数据集不能用分类模型将正负样本正确区分开,则本发明实施例可以通过核函数将用户行为样本数据集对应的样本空间映射至特征空间,其中,样本空间对应超曲面模型,特征空间对应超平面模型,即引入核函数建立非线性模型。
核函数的本质是将原空间的数据映射到具有更高维度的特征空间,在这个新的空间中用线性分类学习方法从训练数据中学习分类器。把核函数应用到Tse-MEM模型的方法就是通过非线性映射函数将输入空间Rn对应到另外一个维度更高的特征空间,使得在输入空间Rn中的超曲面模型可以对应到所变换的特征空间的超平面模型。
具体地,给定一个非线性映射函数φ(x),对于所有(x,x')∈Rn,核函数的表达式为:K(x,x')∈<φ(x),φ(x')>。在训练分类模型过程中,为了降低计算复杂度,不会显式地定义映射函数φ(x),而是直接应用核函数K(x,x')。分类模型引入核函数后,那么向量wt+1可以为公式(6):
Figure BDA0001731895250000141
其中,
Figure BDA0001731895250000142
每项vt的初始权重为
Figure BDA0001731895250000143
代入上式可得公式(7):
Figure BDA0001731895250000144
当w1=0,则有公式(8):
Figure BDA0001731895250000145
引入非线性映射函数φ(x)后,分类模型根据公式(8)更新向量wt+1,从而获得分类模型。
Figure BDA0001731895250000146
本发明实施例同样要对获得的分类模型进行求解,以得到分类结果较为准确的分类模型。
具体地,本发明实施例可以通过公式(10)确定分类模型的超平面参数。
Figure BDA0001731895250000151
在公式(10)中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,P的值不同,对应地αt+1[j]也有所不同,如下存在三种情况:
第一种情况:当-1<P<1时
Figure BDA0001731895250000152
第二种情况:当P≤-1时
αt+1[j]=αt[j]+1 (12)
第三种情况:当P≥1时
αt+1[j]=αt[j] (13)
具体地,本发明实施例从训练数据集S随机选取包含k份样本的数据集At,包含子集
Figure BDA0001731895250000153
和子集
Figure BDA0001731895250000154
Figure BDA0001731895250000155
输入参数λ,设置的迭代次数T,批量样本数k,初始化向量α1=0,设置梯度下降的步长为
Figure BDA0001731895250000156
根据公式(10)对向量αt+1[j]进行迭代更新,直到满足T次迭代次数,得到分类模型的超平面参数向量αT+1
针对修正后的分类模型,同样修正后的分类模型如果是线性模型,且获得的至少两个宽带用户的分类结果与预设的分类结果不一致,也就是至少两个宽带用户对应的数据集不能用分类模型将正负样本正确区分开,则本发明实施例可以通过核函数将用户行为样本数据集对应的样本空间映射至特征空间,其中,样本空间对应超曲面模型,特征空间对应超平面模型,即引入核函数建立非线性模型。修正后的分类模型对应非线性模型具体参见前述引入核函数映射的方法,这里不再赘述。
修正后的分类模型引入核函数映射后,获得的分类模型可以用公式(14)表示:
Figure BDA0001731895250000161
公式(14)中,Qi满足以下公式(15)
Figure BDA0001731895250000162
公式(15)中,j∈Ai;指示函数I1j满足公式(16)
I1j=I[-1<yi<wt,φ(xi)><1] (16)
指示函数I2j则满足公式(17)
I2j=I[yi<wt,φ(xi)><-1] (17)
具体地,更新wt+1,本发明实施例可以从训练数据集S随机选取包含k份样本的数据集At,其包含子集
Figure BDA0001731895250000163
和子集
Figure BDA0001731895250000164
Figure BDA0001731895250000165
Figure BDA0001731895250000166
输入参数λ,设置的迭代次数T,批量样本数k,权重系数C-和C+,初始化向量α1=0,设置梯度下降的步长为
Figure BDA0001731895250000167
根据公式(10)对向量αt+1[j]进行迭代更新,直到满足T次迭代次数,得到分类模型的超平面参数向量αT+1
Figure BDA0001731895250000168
在公式(18)中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,P的值不同,对应地αt+1[j]也有所不同,如下存在五种情况:
第一种情况:当-1<P<1,且yj=-1时
Figure BDA0001731895250000169
第二种情况:当-1<P<1,且yj=+1时
Figure BDA00017318952500001610
第三种情况:当P≤-1,且yj=-1时
αt+1[j]=αt[j]+C- (21)
第四种情况:当P≤-1,且yj=+1时
αt+1[j]=αt[j]+C+ (22)
第五种情况:当P≥1时
αt+1[j]=αt[j] (23)
可能的实施方式中,本发明实施例还可以离线计算分类模型的较优的超平面参数,并保存较优的超平面参数,以便将超平面参数对应的分类规则固化成结构化查询语言(Structured Query Language,SQL)脚本,从而优化分类模型。
具体地,针对样本数据集
Figure BDA0001731895250000171
训练后得出的分类模型:
Figure BDA0001731895250000172
找出训练集S中所有样本点与分类模型建立的超曲面之间的最远距离max dist,设置阈值threshold=1+(maxdist-1)/3,初始化向量β1=0。预测在线数据xi'到分类模型超曲面的距离y′i,对于满足条件|y′i|>threshold的样本点x′i不参与分类模型的超平面参数的更新。对于满足条件|y′i|≤threshold的样本点x′i,将样本点x′i加入数据集S结合实时反馈y′i,观察数值P=y′i*y′i:当-1<P<1且y′i=-1时,则有
Figure BDA0001731895250000173
当P≤-1且y′i=-1时,则有βl[l]=C-;-1<P<1且y′i=+1时,则有
Figure BDA0001731895250000174
当P≤-1且y′i=+1时,则有βl[l]=C+;当P≥1时,则有βl[l]=0。
根据公式(25)更新分类模型的超平面参数:
Figure BDA0001731895250000175
其中,l是累计满足条件的样本点x′i的总个数,更新直至线上停止实时数据反馈。
在步骤S103中,本发明实施例通过修正后的分类模型对待分类的用户行为数据进行分析,获得至少两个宽带用户的分类结果。如果获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,也就是分类结果的准确度较低,则本发明实施例还可以更新超平面参数的值,通过更新后的超平面参数的值对训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
综上所述,本发明实施例提供的分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
本发明实施例通过随机梯度下降算法确定初始分类模型的超平面参数只需要随机选择部分样本数据,每次迭代不是找到一个全局最优的下降方向,而是随机挑选批量训练样本计算目标函数的梯度,然后在相反的方向下降相应的步长。而不需要把所有样本都带入计算,这样即使迭代次数较多,本发明实施例的计算量还是降低了,以减少训练分类模型的时长,提高效率。
本发明实施训练初始分类模型可以由其他电子设备执行,也就是线下训练,从而尽量减轻分类设备的计算负担。而更新分类模型可以通过分类设备线上更新分类模型的超平面参数,从而获得较优的分类模型,使得分类结果更为准确。
下面结合说明书附图介绍本发明实施例提供的设备。
请参见图2,本发明实施例提供了一种宽带用户的分类设备,该分类设备可以是具有计算能力的电子设备,包括训练单元201、修正单元202和分析单元203。其中,训练单元201用于支持电子设备执行图1中的步骤S101。修正单元202用于支持电子设备执行图1中的步骤S102。分析单元203用于支持电子设备执行图1中的步骤S103。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
可选的,训练单元201具体用于:
对用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,正样本用于指示已办理家庭宽带的用户的用户行为数据,负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,正样本和负样本的时间窗相同;
对正样本和负样本作预处理并汇总,获得用户行为样本数据集,其中,用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据预设的分类算法对用户行为样本数据集进行训练,获得初始分类模型。
可选的,训练单元201具体用于:
将正样本和负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成用户行为样本数据集。
可选的,针对用户行为样本数据集
Figure BDA0001731895250000191
其中,
Figure BDA0001731895250000192
为用户行为样本数据,yi∈{+1,-1}是第i份样本的类别标识,修正单元202具体用于:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+
根据确定的C-和C+,及下面公式对初始分类模型进行修正:
Figure BDA0001731895250000193
其中,
Figure BDA0001731895250000194
Figure BDA0001731895250000195
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
可选的,还包括确定单元,用于:
在根据权重系数对初始分类模型进行修正之后,随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;
根据随机梯度下降算法对子集构成的分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;
求解迭代后的分类模型获得超平面参数,并根据确定的超平面参数对修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求。
可选的,还包括更新单元,用于:
若通过训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新超平面参数的值;
通过更新后的超平面参数的值对训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
可选的,若基于超平面的分类模型是线性模型,且获得的至少两个宽带用户的分类结果与预设的分类结果不一致,则设备还包括映射单元;
映射单元,用于通过核函数将用户行为样本数据集对应的样本空间映射至特征空间,其中,样本空间对应超曲面模型,特征空间对应超平面模型;
修正单元202用于:通过下式确定修正后的分类模型的超平面参数:
Figure BDA0001731895250000201
其中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
Figure BDA0001731895250000202
当P≤-1时,αt+1[j]=αt[j]+1;当P≥1时,则αt+1[j]=αt[j]。
可选的,更新单元具体用于:
通过下式更新所述超平面参数的值:
Figure BDA0001731895250000203
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
在使用集成单元的情况下,请参见图3,基于同一发明构思,本发明一实施例提供一种宽带用户的分类设备,该分类设备可以是具有计算能力的电子设备,该分类设备可以包括:至少一个处理器301,处理器301用于执行存储器中存储的计算机程序时实现本发明实施例提供的宽带用户的分类方法的步骤。
可选的,处理器301具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路。
可选的,该分类设备还包括与至少一个处理器连接的存储器302,存储器302可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:RandomAccess Memory,简称:RAM)和磁盘存储器。存储器302用于存储处理器301运行时所需的数据,即存储有可被至少一个处理器301执行的指令,至少一个处理器301通过执行存储器302存储的指令,执行如图1所示的方法。其中,存储器302的数量为一个或多个。其中,存储器302在图3中一并示出,但需要知道的是存储器302不是必选的功能模块,因此在图3中以虚线示出。
其中,训练单元201、修正单元202和分析单元203所对应的实体设备均可以是前述的处理器301。该分类检索设备可以用于执行图1所示的实施例所提供的方法。因此关于该设备中各功能模块所能够实现的功能,可参考图1所示的实施例中的相应描述,不多赘述。
本发明实施例还提供一种计算机存储介质,其中,计算机存储介质存储有计算机指令,当计算机指令在计算机上运行时,使得计算机执行如图1所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种宽带用户的分类方法,其特征在于,包括:
对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,所述用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
根据权重系数对所述初始分类模型进行修正,其中,所述权重系数用于指示分类模型对样本错误分类的权重系数;
随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;
根据随机梯度下降算法对所述子集构成的所述分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;
求解迭代后的分类模型获得所述超平面参数,并根据确定的超平面参数对所述修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求;
通过训练后的分类模型对待分类的用户行为数据进行分析,获得所述至少两个宽带用户的分类结果。
2.如权利要求1所述的方法,其特征在于,对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,包括:
对所述用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,所述正样本用于指示已办理家庭宽带的用户的用户行为数据,所述负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,所述正样本和所述负样本的时间窗相同;
对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,其中,所述用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据所述预设的分类算法对所述用户行为样本数据集进行训练,获得所述初始分类模型。
3.如权利要求2所述的方法,其特征在于,对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,包括:
将所述正样本和所述负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对所述M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成所述用户行为样本数据集。
4.如权利要求2或3所述的方法,其特征在于,针对用户行为样本数据集
Figure FDA0003525691990000021
其中,
Figure FDA0003525691990000022
为用户行为样本数据,yi∈{+1,-1}是第i份样本的类别标识,根据权重系数对所述初始分类模型进行修正,包括:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+
根据确定的C-和C+,及下面公式对所述初始分类模型进行修正:
Figure FDA0003525691990000023
其中,
Figure FDA0003525691990000024
Figure FDA0003525691990000025
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
5.如权利要求1所述的方法,其特征在于,还包括:
若通过所述训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新所述超平面参数的值;
通过更新后的所述超平面参数的值对所述训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
6.如权利要求1所述的方法,其特征在于,若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,则所述方法还包括:
通过核函数将所述用户行为样本数据集对应的样本空间映射至特征空间,其中,所述样本空间对应超曲面模型,所述特征空间对应超平面模型;
通过下式确定修正后的分类模型的超平面参数:
Figure FDA0003525691990000031
其中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
Figure FDA0003525691990000032
当P≤-1时,αt+1[j]=αt[j]+1;当P≥1时,则αt+1[j]=αt[j]。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
通过下式更新所述超平面参数的值:
Figure FDA0003525691990000033
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
8.一种宽带用户的分类设备,其特征在于,包括:
训练单元,用于对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,所述用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
修正单元,用于根据权重系数对所述初始分类模型进行修正,其中,所述权重系数用于指示分类模型对样本错误分类的权重系数;
确定单元,用于随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;根据随机梯度下降算法对所述子集构成的所述分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;求解迭代后的分类模型获得所述超平面参数,并根据确定的超平面参数对所述修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求;
分析单元,用于通过训练后的分类模型对待分类的用户行为数据进行分析,获得所述至少两个宽带用户的分类结果。
9.如权利要求8所述的设备,其特征在于,所述训练单元具体用于:
对所述用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,所述正样本用于指示已办理家庭宽带的用户的用户行为数据,所述负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,所述正样本和所述负样本的时间窗相同;
对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,其中,所述用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据所述预设的分类算法对所述用户行为样本数据集进行训练,获得所述初始分类模型。
10.如权利要求9所述的设备,其特征在于,所述训练单元具体用于:
将所述正样本和所述负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对所述M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成所述用户行为样本数据集。
11.如权利要求9或10所述的设备,其特征在于,针对用户行为样本数据集
Figure FDA0003525691990000041
其中,
Figure FDA0003525691990000042
为用户行为样本数据,yi∈{+1,-1}是第i份样本的类别标识,所述修正单元具体用于:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+
根据确定的C-和C+,及下面公式对所述初始分类模型进行修正:
Figure FDA0003525691990000051
其中,
Figure FDA0003525691990000052
Figure FDA0003525691990000053
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
12.如权利要求8所述的设备,其特征在于,还包括更新单元,用于:
若通过所述训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新所述超平面参数的值;
通过更新后的所述超平面参数的值对所述训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
13.如权利要求12所述的设备,其特征在于,若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,则所述设备还包括映射单元;
所述映射单元,用于通过核函数将所述用户行为样本数据集对应的样本空间映射至特征空间,其中,所述样本空间对应超曲面模型,所述特征空间对应超平面模型;
所述修正单元用于:通过下式确定修正后的分类模型的超平面参数:
Figure FDA0003525691990000054
其中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
Figure FDA0003525691990000055
当P≤-1时,αt+1[j]=αt[j]+1;当P≥1时,则αt+1[j]=αt[j]。
14.如权利要求13所述的设备,其特征在于,所述更新单元具体用于:
通过下式更新所述超平面参数的值:
Figure FDA0003525691990000056
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
15.一种宽带用户的分类设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-7任一项所述的方法。
16.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN201810778137.8A 2018-07-16 2018-07-16 一种家庭宽带用户的挖掘方法及设备 Active CN110728289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810778137.8A CN110728289B (zh) 2018-07-16 2018-07-16 一种家庭宽带用户的挖掘方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810778137.8A CN110728289B (zh) 2018-07-16 2018-07-16 一种家庭宽带用户的挖掘方法及设备

Publications (2)

Publication Number Publication Date
CN110728289A CN110728289A (zh) 2020-01-24
CN110728289B true CN110728289B (zh) 2022-06-03

Family

ID=69216875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810778137.8A Active CN110728289B (zh) 2018-07-16 2018-07-16 一种家庭宽带用户的挖掘方法及设备

Country Status (1)

Country Link
CN (1) CN110728289B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法
CN104331502A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 针对快递员周边人群营销中快递员数据的识别方法
CN104751200A (zh) * 2015-04-10 2015-07-01 中国电力科学研究院 一种svm网络业务分类的方法
CN105184486A (zh) * 2015-09-08 2015-12-23 国网智能电网研究院 一种基于有向无环图支持向量机的电网业务分类方法
CN106202424A (zh) * 2016-07-12 2016-12-07 中国科学院自动化研究所 一种在线分类方法及系统
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN107657267A (zh) * 2017-08-11 2018-02-02 百度在线网络技术(北京)有限公司 产品潜在用户挖掘方法及装置
CN107831438A (zh) * 2017-10-25 2018-03-23 上海交通大学 一种电机故障的预测方法及预测系统
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法
CN104331502A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 针对快递员周边人群营销中快递员数据的识别方法
CN104751200A (zh) * 2015-04-10 2015-07-01 中国电力科学研究院 一种svm网络业务分类的方法
CN105184486A (zh) * 2015-09-08 2015-12-23 国网智能电网研究院 一种基于有向无环图支持向量机的电网业务分类方法
CN106202424A (zh) * 2016-07-12 2016-12-07 中国科学院自动化研究所 一种在线分类方法及系统
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN107657267A (zh) * 2017-08-11 2018-02-02 百度在线网络技术(北京)有限公司 产品潜在用户挖掘方法及装置
CN107831438A (zh) * 2017-10-25 2018-03-23 上海交通大学 一种电机故障的预测方法及预测系统
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
不平衡数据集中分类超平面参数优化方法;严晓明;《计算机系统应用》;20180715(第07期);全文 *
两层聚类的类别不平衡数据挖掘算法;胡小生等;《计算机科学》;20131115(第11期);全文 *
基于样本权重的不平衡数据欠抽样方法;熊冰妍等;《计算机研究与发展》;20161115(第11期);全文 *
运营商异网宽带用户识别模型设计与构建;张力元等;《电信工程技术与标准化》;20160815(第08期);全文 *
面向不平衡数据集分类模型的优化研究;温雪岩等;《计算机工程》;20180415(第04期);全文 *

Also Published As

Publication number Publication date
CN110728289A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
Fearnhead et al. Constructing summary statistics for approximate Bayesian computation: semi-automatic approximate Bayesian computation
WO2022206320A1 (zh) 预测模型训练、数据预测方法、装置和存储介质
Bayzid et al. Weighted statistical binning: enabling statistically consistent genome-scale phylogenetic analyses
TW202004559A (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
CN110838020B (zh) 基于向量迁移的推荐方法、装置、计算机设备及存储介质
CN110544155A (zh) 用户信用评分的获取方法、获取装置、服务器及存储介质
CN110135681B (zh) 风险用户识别方法、装置、可读存储介质及终端设备
CN108269122B (zh) 广告的相似度处理方法和装置
GB2524645A (en) Methods and systems for analyzing financial dataset
CN113377964A (zh) 知识图谱链接预测方法、装置、设备及存储介质
CN107480621B (zh) 一种基于人脸图像的年龄识别方法
CN114974421A (zh) 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN110472659A (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN110728289B (zh) 一种家庭宽带用户的挖掘方法及设备
Nagashima Towards evolutionary theorem proving for Isabelle/HOL
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
Hazelton et al. Bandwidth selection for kernel log-density estimation
CN112035605A (zh) 题目推荐方法、装置、设备及存储介质
CN114255381A (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN114491699A (zh) 基于拓展区间数的三维cad软件易用性量化方法及装置
CN114004315A (zh) 一种基于小样本进行增量学习的方法及装置
CN113658173A (zh) 基于知识蒸馏的检测模型的压缩方法、系统和计算设备
CN114116456A (zh) 测试用例生成方法、系统及计算机可读存储介质
CN109801675B (zh) 一种确定蛋白质脂质功能的方法、装置和设备
CN112766403A (zh) 一种基于信息增益权重的增量聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200324

Address after: Room 1006, building 16, yard 16, Yingcai North Third Street, future science city, Changping District, Beijing 102209

Applicant after: China Mobile Information Technology Co., Ltd

Applicant after: CHINA MOBILE COMMUNICATIONS GROUP Co.,Ltd.

Applicant after: SHENZHEN RESEARCH INSTITUTE OF BIG DATA

Address before: 518048, 10 floor, Guo Tong Building, 9023 Binhe Road, Futian District, Shenzhen, Guangdong.

Applicant before: CHINA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: CHINA MOBILE COMMUNICATIONS GROUP Co.,Ltd.

Applicant before: SHENZHEN RESEARCH INSTITUTE OF BIG DATA

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant