CN106228187A

CN106228187A - 基于多种用户细节数据的个体识别算法模型及处理技术

Info

Publication number: CN106228187A
Application number: CN201610578048.XA
Authority: CN
Inventors: 刘新华; 李卫群; 周发辉; 李琨; 张佳杰; 邓璐; 杨迪; 邱勰; 王友; 刘陆; 刘慧明; 陈佳运; 黄纪萍
Original assignee: Guizhou Li Chuang Technology Development Co Ltd
Current assignee: Guizhou Li Chuang Technology Development Co Ltd
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2016-12-14

Abstract

本发明公开了一种基于多种用户细节数据的个体识别算法模型及处理技术，其特征在于：该方法采用用户活动特征DNA来完成人口个体识别，然后采用聚类算法完成人口聚类，最后采用决策树CS.O完成聚类边界挖掘，本发明通过人口个体识别、人口聚类及聚类边界挖掘过程，实现对一人多机、一机多卡甚至多机多运营商现象时在统计中完成对用户个体识别，本发明设计方案简单，操作性好，实用性强。

Description

基于多种用户细节数据的个体识别算法模型及处理技术

技术领域

本发明涉及移动通信技术，尤其是一种基于多种用户细节数据的个体识别算法模型及处理技术。

背景技术

由于移动通信规模的不断扩大以及技术的不断发展，系统设备和终端的价格在逐步下降，同时，移动运营商在面对日益激烈的市场竞争压力时，将不断降低移动通信资费并不断推出新的促销方式，以推动移动用户数量的增长,因此一人多机、一机多卡甚至多机多运营商现象日益增多,在此统计中需要对用户进行个体识别来实现，然现有技术中该技术仍未到成熟阶段。

发明内容

本发明所要解决的技术问题是：提供一种基于多种用户细节数据的个体识别算法模型及处理技术，实现在一人多机、一机多卡甚至多机多运营商时实现对用户进行个体识别，以克服现有技术的不足。

本发明是这样实现的：

基于多种用户细节数据的个体识别算法模型及处理技术，该方法采用用户活动特征DNA来完成人口个体识别，然后采用聚类算法完成人口聚类，最后采用决策树CS.O完成聚类边界挖掘。

前述的基于多种用户细节数据的个体识别算法模型及处理技术，中，所述人口个体识别建模步骤为：

一、对比Imei；对比Imei是否重合，如重合为多卡用户，如不重合进行下一步判断；

二、构建用户活动的特征DNA(特征DNA是指根据用户移动轨迹形成的特征序列集合，可理解为用户各个维度的特征值的排列)，活动特征的DNA包括通话位置、活动轨迹和活动规律，采用主成分分析算法提取用户活动特征DNA；

三、通过DNA对比，如果重合度高则为多机用户，否则为单卡单机用户；特征DNA的值最终以特征向量的形式存放，以对比特征向量的方法进行DNA比对，根据经验值设定阈值，当向量重合度高于阈值时，判定为同一用户。

四、合并用户；对多卡多级用户进行合并。

前述的基于多种用户细节数据的个体识别算法模型及处理技术，中，人口聚类的具体算法为：首先根据用户特征识别用户的人口属性，具体为通过构建时间维度和空间维度上的用户驻留和行为特征，再用K-means或Two-step聚类算法对人群进行聚类，用决策树CS.O完成聚类边界挖掘，时间维度上取分时段统计每个用户发生在对应场景区域的信令条数、停留时长、驻留天数和驻留月数，空间维度上取用户位置信息所在区域。

前述的基于多种用户细节数据的个体识别算法模型及处理技术，中，人口属性识别建模过程为：

一、数据准备；首先根据需求进行分析，准备提取字段，进行数据提出和数据核查，再对数据进行预处理(预处理主要是对原始数据进行压缩，清理，以及一些必要的排序处理；

二、建模准备；对业务经验筛选、特征建模筛选和相关分析筛选的建模属性进行分析；

三、根据步骤二中的建模属性分析建立基于K-means或Two-step聚类算法对人群进行聚类模型，同时建立基于决策树分类模型(是基于现有的决策树C5.0分类算法)；

四、评估和优化；分组测试模型效果，分别根据准确率、查全率、提升度对模型进行优化，模型优化包括属性分析方案优化、抽样比例优化和属性选择优化。

前述的基于多种用户细节数据的个体识别算法模型及处理技术，中，步骤三中的建模步骤为：

一、构建建模字段；构建建模字段，该字段包括信令条数、通话条数、停留时间、驻留天数和驻留月数；

二、聚类算法；基于K-means或Two-step聚类算法对人群进行聚类；

三、决策树算法；基于决策树算法得到分类贵州，并对人群标示标签；

四、统计人口；根据人群识别标签统计区域内常驻人口数量和工作人口总量。

由于采用了上述技术方案，与现有技术相比，本发明通过人口个体识别、人口聚类及聚类边界挖掘过程，实现对一人多机、一机多卡甚至多机多运营商现象时在统计中完成对用户个体识别，本发明设计方案简单，操作性好，实用性强。

具体实施方式

本发明的实施例：一种基于多种用户细节数据的个体识别算法模型及处理技术，其特征在于：该方法采用用户活动特征DNA来完成人口个体识别，然后采用聚类算法完成人口聚类，最后采用决策树CS.O完成聚类边界挖掘。

其中该人口个体识别建模步骤为：

二、构建用户活动的特征DNA，活动特征的DNA包括通话位置、活动轨迹和活动规律，采用主成分分析算法提取用户活动特征DNA；

三、通过DNA对比，如果重合度高则为多机用户，否则为单卡单机用户；

四、合并用户；对多卡多级用户进行合并。

而人口聚类的具体算法为：首先根据用户特征识别用户的人口属性，具体为通过构建时间维度和空间维度上的用户驻留和行为特征，再用K-means或Two-step聚类算法对人群进行聚类，用决策树CS.O完成聚类边界挖掘，时间维度上取分时段统计每个用户发生在对应场景区域的信令条数、停留时长、驻留天数和驻留月数，空间维度上取用户位置信息所在区域，该人口属性识别建模过程为：

一、数据准备；首先根据需求进行分析，准备提取字段，进行数据提出和数据核查，再对数据进行预处理；

三、根据步骤二中的建模属性分析建立基于K-means或Two-step聚类算法对人群进行聚类模型，同时建立基于决策树分类模型；

步骤三中的建模步骤为：

聚类边界挖掘：根据聚类结果进一步对聚类边界进行挖掘，得出人口属性的判断规则。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施，并不能以此为限制本发明的保护范围，凡根据本发明精神实质所作的等同变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.基于多种用户细节数据的个体识别算法模型及处理技术，其特征在于：该方法采用用户活动特征DNA来完成人口个体识别，然后采用聚类算法完成人口聚类，最后采用决策树CS.O完成聚类边界挖掘。

2.根据权利要求1所述的基于多种用户细节数据的个体识别算法模型及处理技术，其特征在于：所述人口个体识别建模步骤为：

四、合并用户；对多卡多级用户进行合并。

3.根据权利要求1所述的基于多种用户细节数据的个体识别算法模型及处理技术，其特征在于：人口聚类的具体算法为：首先根据用户特征识别用户的人口属性，具体为通过构建时间维度和空间维度上的用户驻留和行为特征，再用K-means或Two-step聚类算法对人群进行聚类，用决策树CS.O完成聚类边界挖掘，时间维度上取分时段统计每个用户发生在对应场景区域的信令条数、停留时长、驻留天数和驻留月数，空间维度上取用户位置信息所在区域。

4.根据权利要求3所述的基于多种用户细节数据的个体识别算法模型及处理技术，其特征在于：人口属性识别建模过程为：

5.根据权利要求4所述的基于多种用户细节数据的个体识别算法模型及处理技术，其特征在于：步骤三中的建模步骤为：