CN106228187A - 基于多种用户细节数据的个体识别算法模型及处理技术 - Google Patents
基于多种用户细节数据的个体识别算法模型及处理技术 Download PDFInfo
- Publication number
- CN106228187A CN106228187A CN201610578048.XA CN201610578048A CN106228187A CN 106228187 A CN106228187 A CN 106228187A CN 201610578048 A CN201610578048 A CN 201610578048A CN 106228187 A CN106228187 A CN 106228187A
- Authority
- CN
- China
- Prior art keywords
- user
- population
- modeling
- treatment technology
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
Abstract
本发明公开了一种基于多种用户细节数据的个体识别算法模型及处理技术,其特征在于:该方法采用用户活动特征DNA来完成人口个体识别,然后采用聚类算法完成人口聚类,最后采用决策树CS.O完成聚类边界挖掘,本发明通过人口个体识别、人口聚类及聚类边界挖掘过程,实现对一人多机、一机多卡甚至多机多运营商现象时在统计中完成对用户个体识别,本发明设计方案简单,操作性好,实用性强。
Description
技术领域
本发明涉及移动通信技术,尤其是一种基于多种用户细节数据的个体识别算法模型及处理技术。
背景技术
由于移动通信规模的不断扩大以及技术的不断发展,系统设备和终端的价格在逐步下降,同时,移动运营商在面对日益激烈的市场竞争压力时,将不断降低移动通信资费并不断推出新的促销方式,以推动移动用户数量的增长,因此一人多机、一机多卡甚至多机多运营商现象日益增多,在此统计中需要对用户进行个体识别来实现,然现有技术中该技术仍未到成熟阶段。
发明内容
本发明所要解决的技术问题是:提供一种基于多种用户细节数据的个体识别算法模型及处理技术,实现在一人多机、一机多卡甚至多机多运营商时实现对用户进行个体识别,以克服现有技术的不足。
本发明是这样实现的:
基于多种用户细节数据的个体识别算法模型及处理技术,该方法采用用户活动特征DNA来完成人口个体识别,然后采用聚类算法完成人口聚类,最后采用决策树CS.O完成聚类边界挖掘。
前述的基于多种用户细节数据的个体识别算法模型及处理技术,中,所述人口个体识别建模步骤为:
一、对比Imei;对比Imei是否重合,如重合为多卡用户,如不重合进行下一步判断;
二、构建用户活动的特征DNA(特征DNA是指根据用户移动轨迹形成的特征序列集合,可理解为用户各个维度的特征值的排列),活动特征的DNA包括通话位置、活动轨迹和活动规律,采用主成分分析算法提取用户活动特征DNA;
三、通过DNA对比,如果重合度高则为多机用户,否则为单卡单机用户;特征DNA的值最终以特征向量的形式存放,以对比特征向量的方法进行DNA比对,根据经验值设定阈值,当向量重合度高于阈值时,判定为同一用户。
四、合并用户;对多卡多级用户进行合并。
前述的基于多种用户细节数据的个体识别算法模型及处理技术,中,人口聚类的具体算法为:首先根据用户特征识别用户的人口属性,具体为通过构建时间维度和空间维度上的用户驻留和行为特征,再用K-means或Two-step聚类算法对人群进行聚类,用决策树CS.O完成聚类边界挖掘,时间维度上取分时段统计每个用户发生在对应场景区域的信令条数、停留时长、驻留天数和驻留月数,空间维度上取用户位置信息所在区域。
前述的基于多种用户细节数据的个体识别算法模型及处理技术,中,人口属性识别建模过程为:
一、数据准备;首先根据需求进行分析,准备提取字段,进行数据提出和数据核查,再对数据进行预处理(预处理主要是对原始数据进行压缩,清理,以及一些必要的排序处理;
二、建模准备;对业务经验筛选、特征建模筛选和相关分析筛选的建模属性进行分析;
三、根据步骤二中的建模属性分析建立基于K-means或Two-step聚类算法对人群进行聚类模型,同时建立基于决策树分类模型(是基于现有的决策树C5.0分类算法);
四、评估和优化;分组测试模型效果,分别根据准确率、查全率、提升度对模型进行优化,模型优化包括属性分析方案优化、抽样比例优化和属性选择优化。
前述的基于多种用户细节数据的个体识别算法模型及处理技术,中,步骤三中的建模步骤为:
一、构建建模字段;构建建模字段,该字段包括信令条数、通话条数、停留时间、驻留天数和驻留月数;
二、聚类算法;基于K-means或Two-step聚类算法对人群进行聚类;
三、决策树算法;基于决策树算法得到分类贵州,并对人群标示标签;
四、统计人口;根据人群识别标签统计区域内常驻人口数量和工作人口总量。
由于采用了上述技术方案,与现有技术相比,本发明通过人口个体识别、人口聚类及聚类边界挖掘过程,实现对一人多机、一机多卡甚至多机多运营商现象时在统计中完成对用户个体识别,本发明设计方案简单,操作性好,实用性强。
具体实施方式
本发明的实施例:一种基于多种用户细节数据的个体识别算法模型及处理技术,其特征在于:该方法采用用户活动特征DNA来完成人口个体识别,然后采用聚类算法完成人口聚类,最后采用决策树CS.O完成聚类边界挖掘。
其中该人口个体识别建模步骤为:
一、对比Imei;对比Imei是否重合,如重合为多卡用户,如不重合进行下一步判断;
二、构建用户活动的特征DNA,活动特征的DNA包括通话位置、活动轨迹和活动规律,采用主成分分析算法提取用户活动特征DNA;
三、通过DNA对比,如果重合度高则为多机用户,否则为单卡单机用户;
四、合并用户;对多卡多级用户进行合并。
而人口聚类的具体算法为:首先根据用户特征识别用户的人口属性,具体为通过构建时间维度和空间维度上的用户驻留和行为特征,再用K-means或Two-step聚类算法对人群进行聚类,用决策树CS.O完成聚类边界挖掘,时间维度上取分时段统计每个用户发生在对应场景区域的信令条数、停留时长、驻留天数和驻留月数,空间维度上取用户位置信息所在区域,该人口属性识别建模过程为:
一、数据准备;首先根据需求进行分析,准备提取字段,进行数据提出和数据核查,再对数据进行预处理;
二、建模准备;对业务经验筛选、特征建模筛选和相关分析筛选的建模属性进行分析;
三、根据步骤二中的建模属性分析建立基于K-means或Two-step聚类算法对人群进行聚类模型,同时建立基于决策树分类模型;
四、评估和优化;分组测试模型效果,分别根据准确率、查全率、提升度对模型进行优化,模型优化包括属性分析方案优化、抽样比例优化和属性选择优化。
步骤三中的建模步骤为:
一、构建建模字段;构建建模字段,该字段包括信令条数、通话条数、停留时间、驻留天数和驻留月数;
二、聚类算法;基于K-means或Two-step聚类算法对人群进行聚类;
三、决策树算法;基于决策树算法得到分类贵州,并对人群标示标签;
四、统计人口;根据人群识别标签统计区域内常驻人口数量和工作人口总量。
聚类边界挖掘:根据聚类结果进一步对聚类边界进行挖掘,得出人口属性的判断规则。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施,并不能以此为限制本发明的保护范围,凡根据本发明精神实质所作的等同变化或修饰,都应涵盖在本发明的保护范围内。
Claims (5)
1.基于多种用户细节数据的个体识别算法模型及处理技术,其特征在于:该方法采用用户活动特征DNA来完成人口个体识别,然后采用聚类算法完成人口聚类,最后采用决策树CS.O完成聚类边界挖掘。
2.根据权利要求1所述的基于多种用户细节数据的个体识别算法模型及处理技术,其特征在于:所述人口个体识别建模步骤为:
一、对比Imei;对比Imei是否重合,如重合为多卡用户,如不重合进行下一步判断;
二、构建用户活动的特征DNA,活动特征的DNA包括通话位置、活动轨迹和活动规律,采用主成分分析算法提取用户活动特征DNA;
三、通过DNA对比,如果重合度高则为多机用户,否则为单卡单机用户;
四、合并用户;对多卡多级用户进行合并。
3.根据权利要求1所述的基于多种用户细节数据的个体识别算法模型及处理技术,其特征在于:人口聚类的具体算法为:首先根据用户特征识别用户的人口属性,具体为通过构建时间维度和空间维度上的用户驻留和行为特征,再用K-means或Two-step聚类算法对人群进行聚类,用决策树CS.O完成聚类边界挖掘,时间维度上取分时段统计每个用户发生在对应场景区域的信令条数、停留时长、驻留天数和驻留月数,空间维度上取用户位置信息所在区域。
4.根据权利要求3所述的基于多种用户细节数据的个体识别算法模型及处理技术,其特征在于:人口属性识别建模过程为:
一、数据准备;首先根据需求进行分析,准备提取字段,进行数据提出和数据核查,再对数据进行预处理;
二、建模准备;对业务经验筛选、特征建模筛选和相关分析筛选的建模属性进行分析;
三、根据步骤二中的建模属性分析建立基于K-means或Two-step聚类算法对人群进行聚类模型,同时建立基于决策树分类模型;
四、评估和优化;分组测试模型效果,分别根据准确率、查全率、提升度对模型进行优化,模型优化包括属性分析方案优化、抽样比例优化和属性选择优化。
5.根据权利要求4所述的基于多种用户细节数据的个体识别算法模型及处理技术,其特征在于:步骤三中的建模步骤为:
一、构建建模字段;构建建模字段,该字段包括信令条数、通话条数、停留时间、驻留天数和驻留月数;
二、聚类算法;基于K-means或Two-step聚类算法对人群进行聚类;
三、决策树算法;基于决策树算法得到分类贵州,并对人群标示标签;
四、统计人口;根据人群识别标签统计区域内常驻人口数量和工作人口总量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610578048.XA CN106228187A (zh) | 2016-07-21 | 2016-07-21 | 基于多种用户细节数据的个体识别算法模型及处理技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610578048.XA CN106228187A (zh) | 2016-07-21 | 2016-07-21 | 基于多种用户细节数据的个体识别算法模型及处理技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106228187A true CN106228187A (zh) | 2016-12-14 |
Family
ID=57532185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610578048.XA Pending CN106228187A (zh) | 2016-07-21 | 2016-07-21 | 基于多种用户细节数据的个体识别算法模型及处理技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106228187A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392259A (zh) * | 2017-08-16 | 2017-11-24 | 北京京东尚科信息技术有限公司 | 构建不均衡样本分类模型的方法和装置 |
CN109951838A (zh) * | 2017-12-20 | 2019-06-28 | 中国移动通信集团福建有限公司 | 识别双卡槽双卡用户的方法、装置、设备及介质 |
CN110839218A (zh) * | 2019-11-28 | 2020-02-25 | 安徽慧视金瞳科技有限公司 | 一种基于手机信令数据的城市人口数量估算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440278A (zh) * | 2013-08-12 | 2013-12-11 | 曙光信息产业股份有限公司 | 一种数据挖掘系统和方法 |
CN103841550A (zh) * | 2012-11-21 | 2014-06-04 | 中国移动通信集团吉林有限公司 | 一种识别一人多卡用户的方法及装置 |
CN104902438A (zh) * | 2015-05-04 | 2015-09-09 | 林茜茜 | 一种基于移动通信终端分析客流特征信息的统计方法及其系统 |
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
CN105721629A (zh) * | 2016-03-24 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 用户标识匹配方法和装置 |
-
2016
- 2016-07-21 CN CN201610578048.XA patent/CN106228187A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103841550A (zh) * | 2012-11-21 | 2014-06-04 | 中国移动通信集团吉林有限公司 | 一种识别一人多卡用户的方法及装置 |
CN103440278A (zh) * | 2013-08-12 | 2013-12-11 | 曙光信息产业股份有限公司 | 一种数据挖掘系统和方法 |
CN104902438A (zh) * | 2015-05-04 | 2015-09-09 | 林茜茜 | 一种基于移动通信终端分析客流特征信息的统计方法及其系统 |
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
CN105721629A (zh) * | 2016-03-24 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 用户标识匹配方法和装置 |
Non-Patent Citations (1)
Title |
---|
孔扬鑫等: "基于手机轨迹数据的人口流动分析", 《计算机应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392259A (zh) * | 2017-08-16 | 2017-11-24 | 北京京东尚科信息技术有限公司 | 构建不均衡样本分类模型的方法和装置 |
CN107392259B (zh) * | 2017-08-16 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 构建不均衡样本分类模型的方法和装置 |
CN109951838A (zh) * | 2017-12-20 | 2019-06-28 | 中国移动通信集团福建有限公司 | 识别双卡槽双卡用户的方法、装置、设备及介质 |
CN109951838B (zh) * | 2017-12-20 | 2022-02-11 | 中国移动通信集团福建有限公司 | 识别双卡槽双卡用户的方法、装置、设备及介质 |
CN110839218A (zh) * | 2019-11-28 | 2020-02-25 | 安徽慧视金瞳科技有限公司 | 一种基于手机信令数据的城市人口数量估算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263673A (zh) | 面部表情识别方法、装置、计算机设备及存储介质 | |
CN107609708A (zh) | 一种基于手机游戏商店的用户流失预测方法及系统 | |
CN105574510A (zh) | 一种步态识别方法及装置 | |
CN108388876A (zh) | 一种图像识别方法、装置以及相关设备 | |
CN100357960C (zh) | 一种基于网格的并行、分布式识别人脸的方法 | |
CN108681970A (zh) | 基于大数据的理财产品推送方法、系统及计算机存储介质 | |
CN110110593A (zh) | 基于自学习的人脸考勤方法、装置、设备及存储介质 | |
CN104036360B (zh) | 一种基于磁卡考勤行为的用户数据处理系统及处理方法 | |
CN107679613A (zh) | 一种人员信息的统计方法、装置、终端设备和存储介质 | |
CN104933445B (zh) | 一种基于分布式K-means的海量图像分类方法 | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN106228187A (zh) | 基于多种用户细节数据的个体识别算法模型及处理技术 | |
CN102298709A (zh) | 复杂环境下多特征融合的节能型智能识别数字标牌 | |
CN110442761A (zh) | 一种用户画像构建方法、电子设备及存储介质 | |
CN111339990A (zh) | 一种基于人脸特征动态更新的人脸识别系统和方法 | |
CN107657239A (zh) | 掌纹图像性别分类方法及装置、计算机装置及可读存储介质 | |
CN110008961A (zh) | 文字实时识别方法、装置、计算机设备及存储介质 | |
CN109587350A (zh) | 一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法 | |
CN110059191A (zh) | 一种文本情感分类方法及装置 | |
CN109344998A (zh) | 一种基于医疗美容场景的客户违约概率预测方法 | |
CN109598186A (zh) | 一种基于多任务深度学习的行人属性识别方法 | |
CN104156729B (zh) | 一种教室人数统计方法 | |
CN106202480A (zh) | 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法 | |
CN108564012A (zh) | 一种基于人体特征分布的行人解析方法 | |
CN106855851A (zh) | 知识抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161214 |
|
RJ01 | Rejection of invention patent application after publication |