发明内容
本发明实施例提供一种家庭宽带用户的挖掘方法及设备,用于提高识别潜在家庭宽带用户的准确度。
第一方面,提供了一种宽带用户的分类方法,该分类方法包括:
对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,所述用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
根据权重系数对所述初始分类模型进行修正,其中,所述权重系数用于指示分类模型对样本错误分类的权重系数;
通过修正后的分类模型对待分类的用户行为数据进行分析,获得所述至少两个宽带用户的分类结果。
本发明实施例提供的分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
可选的,对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,包括:
对所述用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,所述正样本用于指示已办理家庭宽带的用户的用户行为数据,所述负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,所述正样本和所述负样本的时间窗相同;
对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,其中,所述用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据所述预设的分类算法对所述用户行为样本数据集进行训练,获得所述初始分类模型。
可选的,对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,包括:
将所述正样本和所述负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对所述M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成所述用户行为样本数据集。
上述两种可选的方式描述了在训练样本数据集时如何尽量克服样本数据的不平衡带来的负面影响。本发明实施例通过SMOTE算法对少数类样本进行分析并根据少数类样本进行合成再添加到样本数据集中,从而尽量克服样本数据的不平衡带来的负面影响。
可选的,针对用户行为样本数据集
其中,
为用户行为样本数据,y
i∈{+1,-1}是第i份样本的类别标识,根据权重系数对所述初始分类模型进行修正,包括:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+;
根据确定的C-和C+,及下面公式对所述初始分类模型进行修正:
其中,
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
这种可选的方式描述了如何进一步克服样本数据的不平衡带来的负面影响。本发明实施例对不同类样本的分类错误给予不同的惩罚系数,即权重系数。根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。
可选的,在根据权重系数对所述初始分类模型进行修正之后,还包括:
随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;
根据所述随机梯度下降算法对所述子集构成的所述分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;
求解迭代后的分类模型获得所述超平面参数,并根据确定的超平面参数对所述修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求。
上述可选的方式描述了在获得的超平面分类模型对宽带用户的分类结果与预设的分类结果不一致,也可以理解为获得的超平面分类模型对宽带用户的分类结果不正确,则可以重新计算分类模型的超平面参数,也就是分类模型对应的目标函数的最优解。根据确定的超平面参数对分类模型继续进行训练,直到通过训练后的分类模型获得的至少两个宽带用户的分类结果与预设的分类结果一致,那么此时得到的分类模型就较为准确,从而根据获得的分类模型对至少两个宽带用户进行分类的准确度也较高。
可选的,还包括:
若通过所述训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新所述超平面参数的值;
通过更新后的所述超平面参数的值对所述训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
这种可选的方式描述了如果确定训练后验证指标达到预设要求的分类模型对待分类的用户行为数据进行分析,获得的分类结果与标准的分类结果之差大于预设阈值,也就是分类结果不准确,则可以更新超平面参数的值,从而根据更新后的超平面参数的值对分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
可选的,若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,则所述方法还包括:
通过核函数将所述用户行为样本数据集对应的样本空间映射至特征空间,其中,所述样本空间对应超曲面模型,所述特征空间对应超平面模型;
通过下式确定修正后的分类模型的超平面参数:
其中,y
i∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
当P≤-1时,α
t+1[j]=α
t[j]+1;当P≥1时,则α
t+1[j]=α
t[j]。
这种可选的方式描述了在若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,也就是数据集不能用线性模型将正负样本正确区分开的情况下,本发明实施例可以引入核函数建立分类模型对应的非线性模型,使得在输入空间中的超曲面模型可以对应到所变换的特征空间的超平面模型,从而可以实现将正负样本区分开。
可选的,所述方法还包括:
通过下式更新所述超平面参数的值:
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
这种可选的方式描述了本发明实施例还可以离线计算分类模型的较优的超平面参数,并保存较优的超平面参数,从而优化分类模型。
第二方面,提供了一种宽带用户的分类设备,该分类设备包括:
训练单元,用于对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,所述用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,所述用户行为数据用于表征用户进行通信业务的行为特征;
修正单元,用于根据权重系数对所述初始分类模型进行修正,其中,所述权重系数用于指示分类模型对样本错误分类的权重系数;
分析单元,用于通过修正后的分类模型对待分类的用户行为数据进行分析,获得所述至少两个宽带用户的分类结果。
可选的,所述训练单元具体用于:
对所述用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,所述正样本用于指示已办理家庭宽带的用户的用户行为数据,所述负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,所述正样本和所述负样本的时间窗相同;
对所述正样本和所述负样本作预处理并汇总,获得所述用户行为样本数据集,其中,所述用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据所述预设的分类算法对所述用户行为样本数据集进行训练,获得所述初始分类模型。
可选的,所述训练单元具体用于:
将所述正样本和所述负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对所述M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成所述用户行为样本数据集。
可选的,针对用户行为样本数据集
其中,
为用户行为样本数据,y
i∈{+1,-1}是第i份样本的类别标识,所述修正单元具体用于:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+;
根据确定的C-和C+,及下面公式对所述初始分类模型进行修正:
其中,
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
可选的,还包括确定单元,用于:
在根据权重系数对所述初始分类模型进行修正之后,随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;
根据所述随机梯度下降算法对所述子集构成的所述分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;
求解迭代后的分类模型获得所述超平面参数,并根据确定的超平面参数对所述修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求。
可选的,还包括更新单元,用于:
若通过所述训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新所述超平面参数的值;
通过更新后的所述超平面参数的值对所述训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
可选的,若基于超平面的分类模型是线性模型,且获得的所述至少两个宽带用户的分类结果与预设的分类结果不一致,则所述设备还包括映射单元;
所述映射单元,用于通过核函数将所述用户行为样本数据集对应的样本空间映射至特征空间,其中,所述样本空间对应超曲面模型,所述特征空间对应超平面模型;
所述修正单元用于:通过下式确定修正后的分类模型的超平面参数:
其中,y
i∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
当P≤-1时,α
t+1[j]=α
t[j]+1;当P≥1时,则α
t+1[j]=α
t[j]。
可选的,所述更新单元具体用于:
通过下式更新所述超平面参数的值:
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
本发明实施例提供的宽带用户的分类设备的技术效果可以参见上述第一方面的各个实现方式的技术效果,此处不再赘述。
第三方面,提供一种宽带用户的分类设备,该分类设备包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面任一项所述的方法。
本发明实施例提供的宽带用户的分类设备的技术效果可以参见上述第一方面的各个实现方式的技术效果,此处不再赘述。
第四方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本发明实施例提供的分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
目前通过分类器对宽带用户进行分类时,划分用户的超平面的边界就会靠近样本量少的分类,对分类结果产生负面影响,分类器的性能较低,从而导致识别潜在家庭宽带用户的准确度较低。
鉴于此,本发明实施例提供了一种宽带用户的分类方法,该分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
下面结合说明书附图介绍本发明实施例提供的技术方案。
请参见图1,本发明实施例提供了一种宽带用户的分类方法,该分类方法可以由具有计算能力的电子设备执行,具体的流程描述如下。
S101,对采集的用户行为样本数据集进行训练,获得基于超平面的初始分类模型,其中,用户行为样本数据集包括至少两个宽带用户在预设时间段内上网的用户行为数据,用户行为数据用于表征用户进行通信业务的行为特征,例如用户进行上网的行为特征。
本发明实施例旨在对家庭宽带用户进行识别,解决家庭宽带用户的分类问题,从而挖掘出潜在家庭宽带用户。而使用家庭宽带的用户上网的行为特征与没有使用家庭宽带的用户上网的行为特征存在差异,从而根据存在的差异从宽带用户中将使用家庭宽带的用户的识别出来,进而从宽带用户中挖掘出潜在家庭宽带用户。
可能的实施方式中,本发明实施例可以采集多个宽带用户在预设时间段内上网的用户行为数据,形成用户行为样本数据集。例如,本发明实施例可以采集6月份新增宽带用户的在5月份上网的用户行为数据,及在5月份使用宽带的用户的用户行为数据,形成用户行为样本数据集。具体地,本发明实施例获得了用户行为样本数据集之后,可以对用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,划分为正样本和负样本,其中,正样本用于指示已办理家庭宽带的用户的用户行为数据,负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,正样本和负样本的时间窗相同。对应地,6月份新增宽带用户的在5月份上网的用户行为数据就是正样本,在5月份使用宽带的用户的用户行为数据就是负样本。当然本发明实施例也可以根据宽带用户所处地区地理环境、经济发展水平、民族文化等因素的综合考虑对用户行为数据进行划分以提高算法效率。例如,如果宽带用户处于青海地区,那么本发明实施例可以根据青海地区的地区地理环境确定划分依据是牧区与非牧区,对此,本发明实施例不作限制。
本发明实施例对用户行为样本数据集进行训练,获得基于超平面的初始分类模型。本发明实施例可以通过初始分类模型对宽带用户进行分类,从而根据分类结果确定潜在的家庭宽带用户。由于目前家庭宽带市场刚起步,已办理家庭宽带的用户相对较少,而使用宽带的用户较多。将已办理家庭宽带的用户的数据作为正样本,将使用宽带的用户的数据作为负样本。那么用户行为数据集中的正样本和负样本的数量相差较大,也就是不平衡,这样训练得到的于超平面的初始分类模型分类的准确度就较低,就会导致划分用户边界就会靠近样本量少的正样本的一侧偏移,分类器的性能受到数据的非平衡特点影响而下降。
鉴于此,本发明实施例将正样本和负样本分别随机拆分成M份,选取M-1份正样本和M-1份负样本作为训练数据集,并选取1份正样本和1份负样本作为测试数据集,M为自然数。本发明实施例通过合成少数类过采样技术(Synthetic Minority OversamplingTechnique,SMOTE)算法对M-1份正样本插入新样本并合成新的正样本,其中合成样本数根据原始数据的具体正负样本比例而定。再将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成用户行为样本数据集,也就是最终的训练数据集。本发明实施例通过SMOTE算法对采集的用户行为样本数据集进行分析并根据少数类样本进行合成添加至训练数据集,也就是插入新的正样本,使得正样本的数量和负样本的数量之间的差值位于预设范围内,尽量正样本和负样本平衡,即尽量克服由于数据的不平衡导致训练得到的分类模型的性能较低,分类准确度较低的问题。
本发明实施例获得最终的用户行为样本数据集可以根据预设的分类算法对用户行为样本数据集进行训练,获得基于超平面的初始分类模型。再通过测试数据集对初始分类模型进行检测,如果检测确定初始分类模型的分类结果不正确,或者正确率较低,那么可以求解初始分类模型对应的目标函数,从而获得初始分类模型的较优超平面参数,从而根据确定的超平面参数继续训练初始分类模型,以尽量获得分类结果较为正确的分类模型。
具体地,本发明实施例可以根据随机梯度下降算法对子集构成的初始分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数,再求解迭代后的初始分类模型获得超平面参数,并根据确定的超平面参数对初始分类模型进行训练。
例如,对于一个给定的训练数据集
其中,x
i为输入,具体而言x
i∈R
n是n维特征输入向量,y
i∈{+1,-1}是第i份样本的类别标识。首先,设置参数迭代次数T,并将向量w初始化为0,即令w
1=0。每次迭代求梯度时,随机从训练集中选择k份样本组成子集A
t参与计算,其中,
分类模型的目标函数如下:
其次,通过对目标函数f(w:At)求次梯度,则有:
本发明实施例可以从训练数据集S随机选取包含k份样本的数据集A
t,其包含子集
和子集
输入参数λ,设置的迭代次数T,批量样本数k,初始化向量w
1=0,设置梯度下降的步长为:
根据公式(4)向量w进行迭代更新,直到满足T次迭代次数。
对此时求解迭代后的分类模型获得超平面参数,可以认为是较优的超平面参数,并根据确定的超平面参数对初始分类模型进行训练,就可以获得分类结果较为准确的分类模型,通过该分类模型也可以对宽带用户进行分类,从而挖掘出潜在的家庭宽带用户。
本发明实施例通过随机梯度下降算法确定初始分类模型的超平面参数只需要随机选择部分样本数据,每次迭代不是找到一个全局最优的下降方向,而是随机挑选批量训练样本计算目标函数的梯度,然后在相反的方向下降相应的步长。而不需要把所有样本都带入计算,这样即使迭代次数较多,本发明实施例的计算量还是降低了,以减少训练分类模型的时长,提高效率。
可能地实施方式中,本发明实施例获得最终的用户行为样本数据集可以根据预设的分类算法对用户行为样本数据集进行训练,获得基于超平面的初始分类模型。再通过测试数据集对初始分类模型进行检测,如果检测确定初始分类模型的分类结果不正确,或者正确率较低,那么本发明实施例可以对初始分类模型进行修正,以尽量获得分类结果较为正确的分类模型。
具体地,在步骤S102,本发明实施例根据权重系数对初始分类模型进行修正,其中,权重系数可以用于指示分类模型对样本错误分类的权重系数,包括对负样本分类错误的权重系数和对正样本分类错误的权重系数。具体地,针对用户行为样本数据集
其中,
为用户行为样本数据,y
i∈{+1,-1}是第i份样本的类别标识,本发明实施例确定负样本分类错误的权重系数C
-及正样本分类错误的权重系数C
+,且C
-<C
+,以进一步降低用户行为样本数据集中的数据的非平衡性。对于所有训练样本,修正后的分类模型的表达式如下:
其中,公式(5)中,
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
本发明实施例对不同类样本的分类错误给予不同的惩罚系数,即权重系数。给定一个负样本数量远大于正样本数量的训练数据集,则样本数量多的负样本分类错误的惩罚系数为C-,样本数量少的正样本分类错误的惩罚系数为C+,为了降低非平衡数据的影响,令C-<C+,以得到性能较高,准确度较高的分类模型。
本发明实施训练初始分类模型可以由其他电子设备执行,也就是线下训练,从而尽量减轻分类设备的计算负担。
本发明实施例通过修正后的分类模型对采集的用户行为数据进行分析,获得至少两个宽带用户的分类结果,从而从分类结果中挖掘出潜在家庭宽带用户。另外,本发明实施例还可以基于随机梯度下降算法确定修正后的分类模型的超平面参数,直到通过训练后的分类模型验证指标达到预设要求。
具体地,本发明实施例可以随机从用户行为样本数据集中选取k份样本组成子集,k为正整数,根据随机梯度下降算法对子集构成的分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数,再求解迭代后的分类模型获得超平面参数,并根据确定的超平面参数对修正后的分类模型进行训练。求解修正后的分类模型的超平面参数的方式与求解初始分类模型的超平面参数的方式相同,这里不再赘述。
另外,如果基于超平面的分类模型是线性模型,且获得的至少两个宽带用户的分类结果与预设的分类结果不一致,也就是至少两个宽带用户对应的数据集不能用分类模型将正负样本正确区分开,则本发明实施例可以通过核函数将用户行为样本数据集对应的样本空间映射至特征空间,其中,样本空间对应超曲面模型,特征空间对应超平面模型,即引入核函数建立非线性模型。
核函数的本质是将原空间的数据映射到具有更高维度的特征空间,在这个新的空间中用线性分类学习方法从训练数据中学习分类器。把核函数应用到Tse-MEM模型的方法就是通过非线性映射函数将输入空间Rn对应到另外一个维度更高的特征空间,使得在输入空间Rn中的超曲面模型可以对应到所变换的特征空间的超平面模型。
具体地,给定一个非线性映射函数φ(x),对于所有(x,x')∈Rn,核函数的表达式为:K(x,x')∈<φ(x),φ(x')>。在训练分类模型过程中,为了降低计算复杂度,不会显式地定义映射函数φ(x),而是直接应用核函数K(x,x')。分类模型引入核函数后,那么向量wt+1可以为公式(6):
其中,
每项v
t的初始权重为
代入上式可得公式(7):
当w1=0,则有公式(8):
引入非线性映射函数φ(x)后,分类模型根据公式(8)更新向量wt+1,从而获得分类模型。
本发明实施例同样要对获得的分类模型进行求解,以得到分类结果较为准确的分类模型。
具体地,本发明实施例可以通过公式(10)确定分类模型的超平面参数。
在公式(10)中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,P的值不同,对应地αt+1[j]也有所不同,如下存在三种情况:
第一种情况:当-1<P<1时
第二种情况:当P≤-1时
αt+1[j]=αt[j]+1 (12)
第三种情况:当P≥1时
αt+1[j]=αt[j] (13)
具体地,本发明实施例从训练数据集S随机选取包含k份样本的数据集A
t,包含子集
和子集
输入参数λ,设置的迭代次数T,批量样本数k,初始化向量α
1=0,设置梯度下降的步长为
根据公式(10)对向量α
t+1[j]进行迭代更新,直到满足T次迭代次数,得到分类模型的超平面参数向量α
T+1。
针对修正后的分类模型,同样修正后的分类模型如果是线性模型,且获得的至少两个宽带用户的分类结果与预设的分类结果不一致,也就是至少两个宽带用户对应的数据集不能用分类模型将正负样本正确区分开,则本发明实施例可以通过核函数将用户行为样本数据集对应的样本空间映射至特征空间,其中,样本空间对应超曲面模型,特征空间对应超平面模型,即引入核函数建立非线性模型。修正后的分类模型对应非线性模型具体参见前述引入核函数映射的方法,这里不再赘述。
修正后的分类模型引入核函数映射后,获得的分类模型可以用公式(14)表示:
公式(14)中,Qi满足以下公式(15)
公式(15)中,j∈Ai;指示函数I1j满足公式(16)
I1j=I[-1<yi<wt,φ(xi)><1] (16)
指示函数I2j则满足公式(17)
I2j=I[yi<wt,φ(xi)><-1] (17)
具体地,更新w
t+1,本发明实施例可以从训练数据集S随机选取包含k份样本的数据集A
t,其包含子集
和子集
输入参数λ,设置的迭代次数T,批量样本数k,权重系数C
-和C
+,初始化向量α
1=0,设置梯度下降的步长为
根据公式(10)对向量α
t+1[j]进行迭代更新,直到满足T次迭代次数,得到分类模型的超平面参数向量α
T+1。
在公式(18)中,yi∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,P的值不同,对应地αt+1[j]也有所不同,如下存在五种情况:
第一种情况:当-1<P<1,且yj=-1时
第二种情况:当-1<P<1,且yj=+1时
第三种情况:当P≤-1,且yj=-1时
αt+1[j]=αt[j]+C- (21)
第四种情况:当P≤-1,且yj=+1时
αt+1[j]=αt[j]+C+ (22)
第五种情况:当P≥1时
αt+1[j]=αt[j] (23)
可能的实施方式中,本发明实施例还可以离线计算分类模型的较优的超平面参数,并保存较优的超平面参数,以便将超平面参数对应的分类规则固化成结构化查询语言(Structured Query Language,SQL)脚本,从而优化分类模型。
找出训练集S中所有样本点与分类模型建立的超曲面之间的最远距离max dist,设置阈值threshold=1+(maxdist-1)/3,初始化向量β
1=0。预测在线数据x
i'到分类模型超曲面的距离y′
i,对于满足条件|y′
i|>threshold的样本点x′
i不参与分类模型的超平面参数的更新。对于满足条件|y′
i|≤threshold的样本点x′
i,将样本点x′
i加入数据集S结合实时反馈y′
i,观察数值P=y′
i*y′
i:当-1<P<1且y′
i=-1时,则有
当P≤-1且y′
i=-1时,则有β
l[l]=C
-;-1<P<1且y′
i=+1时,则有
当P≤-1且y′
i=+1时,则有β
l[l]=C
+;当P≥1时,则有β
l[l]=0。
根据公式(25)更新分类模型的超平面参数:
其中,l是累计满足条件的样本点x′i的总个数,更新直至线上停止实时数据反馈。
在步骤S103中,本发明实施例通过修正后的分类模型对待分类的用户行为数据进行分析,获得至少两个宽带用户的分类结果。如果获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,也就是分类结果的准确度较低,则本发明实施例还可以更新超平面参数的值,通过更新后的超平面参数的值对训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
综上所述,本发明实施例提供的分类方法对不同类样本的分类错误给予不同的惩罚系数,也就是权重系数,根据权重系数对基于超平面的分类模型进行修正,就降低了样本数据的非平衡性。通过修正后的分类模型对用户进行分类时,划分用户的超平面的边界就不会靠近样本量少的分类,提高了分类器的性能,从而提高识别潜在家庭宽带用户的准确度。
本发明实施例通过随机梯度下降算法确定初始分类模型的超平面参数只需要随机选择部分样本数据,每次迭代不是找到一个全局最优的下降方向,而是随机挑选批量训练样本计算目标函数的梯度,然后在相反的方向下降相应的步长。而不需要把所有样本都带入计算,这样即使迭代次数较多,本发明实施例的计算量还是降低了,以减少训练分类模型的时长,提高效率。
本发明实施训练初始分类模型可以由其他电子设备执行,也就是线下训练,从而尽量减轻分类设备的计算负担。而更新分类模型可以通过分类设备线上更新分类模型的超平面参数,从而获得较优的分类模型,使得分类结果更为准确。
下面结合说明书附图介绍本发明实施例提供的设备。
请参见图2,本发明实施例提供了一种宽带用户的分类设备,该分类设备可以是具有计算能力的电子设备,包括训练单元201、修正单元202和分析单元203。其中,训练单元201用于支持电子设备执行图1中的步骤S101。修正单元202用于支持电子设备执行图1中的步骤S102。分析单元203用于支持电子设备执行图1中的步骤S103。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
可选的,训练单元201具体用于:
对用户行为样本数据集中的多个宽带用户上网的用户行为数据进行划分,获得正样本和负样本,其中,正样本用于指示已办理家庭宽带的用户的用户行为数据,负样本用于指示新办理家庭宽带的用户在上一周期的用户行为数据,正样本和负样本的时间窗相同;
对正样本和负样本作预处理并汇总,获得用户行为样本数据集,其中,用户行为样本数据集中的正样本的数量和负样本的数量之间的差值位于预设范围内;
根据预设的分类算法对用户行为样本数据集进行训练,获得初始分类模型。
可选的,训练单元201具体用于:
将正样本和负样本分别随机拆分成M份,M为自然数;
选取M-1份正样本和M-1份负样本作为训练数据集;
通过合成少数类过采样技术SMOTE算法对M-1份正样本插入新样本并合成新的正样本;
将SMOTE后的正样本与M-1份负样本汇总并打乱顺序,生成用户行为样本数据集。
可选的,针对用户行为样本数据集
其中,
为用户行为样本数据,y
i∈{+1,-1}是第i份样本的类别标识,修正单元202具体用于:
确定负样本分类错误的权重系数C-及正样本分类错误的权重系数C+,C-<C+;
根据确定的C-和C+,及下面公式对初始分类模型进行修正:
其中,
<w,x>为向量w和向量x的内积,w表示超平面的法向量。
可选的,还包括确定单元,用于:
在根据权重系数对初始分类模型进行修正之后,随机从用户行为样本数据集中选取k份样本组成子集,k为正整数;
根据随机梯度下降算法对子集构成的分类模型的目标函数求次梯度,并按照预设步长对超平面的法向量进行迭代更新,直到满足预设的迭代次数;
求解迭代后的分类模型获得超平面参数,并根据确定的超平面参数对修正后的分类模型进行训练,直到通过训练后的分类模型验证指标达到预设要求。
可选的,还包括更新单元,用于:
若通过训练后的分类模型对待分类的用户行为数据进行分析,获得的至少两个宽带用户的分类结果与标准的分类结果之差大于预设阈值,则更新超平面参数的值;
通过更新后的超平面参数的值对训练后的分类模型进行更新,直到更新后的分类模型验证指标达到预设要求。
可选的,若基于超平面的分类模型是线性模型,且获得的至少两个宽带用户的分类结果与预设的分类结果不一致,则设备还包括映射单元;
映射单元,用于通过核函数将用户行为样本数据集对应的样本空间映射至特征空间,其中,样本空间对应超曲面模型,特征空间对应超平面模型;
修正单元202用于:通过下式确定修正后的分类模型的超平面参数:
其中,y
i∈{+1,-1}是第i份样本的类别标识,t为迭代次数,j=i+1,当-1<P<1时,
当P≤-1时,α
t+1[j]=α
t[j]+1;当P≥1时,则α
t+1[j]=α
t[j]。
可选的,更新单元具体用于:
通过下式更新所述超平面参数的值:
其中,l是累计满足条件的样本点x′i的总个数,更新至线上停止实时数据反馈,yi∈{+1,-1}是第i份样本的类别标识,T为迭代次数,k为批量样本数,λ为训练次数,j=i+1,αT+1[j]为上一次超平面参数,βi[j]为权重系数。
在使用集成单元的情况下,请参见图3,基于同一发明构思,本发明一实施例提供一种宽带用户的分类设备,该分类设备可以是具有计算能力的电子设备,该分类设备可以包括:至少一个处理器301,处理器301用于执行存储器中存储的计算机程序时实现本发明实施例提供的宽带用户的分类方法的步骤。
可选的,处理器301具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路。
可选的,该分类设备还包括与至少一个处理器连接的存储器302,存储器302可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:RandomAccess Memory,简称:RAM)和磁盘存储器。存储器302用于存储处理器301运行时所需的数据,即存储有可被至少一个处理器301执行的指令,至少一个处理器301通过执行存储器302存储的指令,执行如图1所示的方法。其中,存储器302的数量为一个或多个。其中,存储器302在图3中一并示出,但需要知道的是存储器302不是必选的功能模块,因此在图3中以虚线示出。
其中,训练单元201、修正单元202和分析单元203所对应的实体设备均可以是前述的处理器301。该分类检索设备可以用于执行图1所示的实施例所提供的方法。因此关于该设备中各功能模块所能够实现的功能,可参考图1所示的实施例中的相应描述,不多赘述。
本发明实施例还提供一种计算机存储介质,其中,计算机存储介质存储有计算机指令,当计算机指令在计算机上运行时,使得计算机执行如图1所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。