CN108268877A - 一种识别目标终端的方法和装置 - Google Patents
一种识别目标终端的方法和装置 Download PDFInfo
- Publication number
- CN108268877A CN108268877A CN201611257786.0A CN201611257786A CN108268877A CN 108268877 A CN108268877 A CN 108268877A CN 201611257786 A CN201611257786 A CN 201611257786A CN 108268877 A CN108268877 A CN 108268877A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- data
- clustering
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 172
- 238000004891 communication Methods 0.000 claims abstract description 55
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 230000002159 abnormal effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000013524 data verification Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种识别目标终端的方法,包括:从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对第二数据进行数据校验和/或数据转换后得到分析数据集;获取分析数据集,根据用户的通信特征从分析数据集中提取用户的特征向量;用户的特征向量用于表征用户具有的通信特征;根据用户的特征向量将所有用户分为第一用户和第二用户,根据第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据第二用户的特征向量和第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;根据第二聚类结果识别出目标终端。本发明还公开了一种识别目标终端的装置。
Description
技术领域
本发明涉及业务支撑技术,尤其涉及一种识别目标终端的方法和装置。
背景技术
在移动互联网时代,第二条曲线是拉动收入的关键,而终端则是第二条曲线的重要载体。现阶段移动公司整体终端销售主要依靠社会渠道进行销售,如何对社会渠道销售终端进行有效监控和管理,并提高移动公司酬金对用户发展质量的效率是当前移动公司面临的主要问题之一,目前采用的方法是对用户与销售终端通信行为进行聚类分析,挖掘出疑似违规销售终端,防控移动公司终端销售的市场秩序被扰乱和酬金流失的风险。
现有技术中基于用户的通信行为、消费特征、办理业务和位置信息等内容运用K-means相似度聚类算法进行聚类,该算法是指根据用户的通信特征等内容计算用户与用户之间的相似性,相似性聚类算法的理论基础是信息过滤和信息检索,不需要业务人员对聚类对象的评价等进行主观判定,只需要通过对对象的内容进行特征提取,可以达到对对象的特征表示。聚类算法提取用户的特征属性,从而判定用户与用户的相似程度。
K-means相似性聚类算法包括两种:启发式相似性聚类方法和模型构建方法。启发式相似性聚类方法是根据业务人员的经验来选择相关的计算方式,再由计算结果和实际的结果进行比对验证,根据对照结果修改计算公式以达到最终聚类结果。模型构造方法是根据历史数据集训练出一个对应的数据模型,计算用户之间的特征向量,进而发现疑似问题数据。
现有的K-means相似度聚类算法方案存在以上的缺点:
1、新入网用户和新指标维度加入影响聚类准确性问题。由于新入网用户表现出的通信特征信息很少,新加入的统计维度也会对用户特征信息产生影响,这样会产生冷启动的现象。K-means相似度聚类算法不具有足够的多样性,使得聚类结果会很快地收敛于一个小范围的集合,从而丧失对更多用户通信特征信息内容关联的判断,无法有效的对新加入用户做出全面而准确的聚类,而新加入的统计维度也会对用户聚类产生准确性的影响。
2、数据稀疏问题。由于用户的通信行为、消费特征、办理业务和位置信息等转换成用户特征向量与用户对应关系时,极少用户能涵盖到大部分维度的特征向量,很大一部分用户只表现出对某些维度的特征向量,大量新用户的入网使得用户特征矩阵数据稀疏问题更加明显,同时用户之间选择的差异性也造成很大的数据稀疏。对于数据稀疏问题,利用K-means相似度聚类算法基于二元关系的方法不能达到全面而准确的识别疑似违规终端的效果。
发明内容
有鉴于此,本发明实施例期望提供一种识别目标终端的方法和装置,解决冷启动、数据稀疏和运算性能的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种识别目标终端的方法,所述方法包括:
从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;
获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;
根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;
根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;
根据所述第二聚类结果识别出目标终端。
上述方案中,所述根据所述第一用户的数据获得对应所有第一用户的聚类结果,包括:
根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。
上述方案中,所述根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,包括:
根据所述第一聚类结果确定所述第一用户聚类的特征向量;
确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。
上述方案中,所述根据所述第二聚类结果识别出目标终端,包括:
根据所述第二聚类结果确定用于识别所述目标终端的预测向量;
根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。
上述方案中,所述用户的通信特征分为若干个主题;
所述根据所述第二聚类结果确定用于识别所述目标终端的预测向量,包括:
根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;
根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;
根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。
本发明实施例提供了一种识别目标终端的装置,所述装置,包括:第一处理模块、第二处理模块、第三处理模块和第四处理模块;其中,
所述第一处理模块,用于从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;
所述第二处理模块,用于获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;
所述第三处理模块,用于根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;
所述第四处理模块,用于根据所述第二聚类结果识别出目标终端。
上述方案中,所述第三处理模块,具体用于根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。
上述方案中,所述第三处理模块,还用于:根据所述第一聚类结果确定所述第一用户聚类的特征向量;
确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。
上述方案中,所述第四处理模块,具体用于:根据所述第二聚类结果确定用于识别所述目标终端的预测向量;
根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。
上述方案中,所述用户的通信特征分为若干个主题;
所述第四处理模块,还用于根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;
根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;
根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。
与现有技术相比,本发明提供的一种识别目标终端的方法和装置,从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;根据所述第二聚类结果识别出目标终端。通过本发明实施例提供的方法和装置,对用户的通信特征进行分析处理,发现数据中潜在的关系和规则,并对用户潜在信息进行准确预测,解决冷启动和数据稀疏问题;通过采用GTUC算法对用户历史通信、消费等数据进行处理,构建用户通信特征向量,提取核心用户并运用图摘要聚类方法对其进行聚类,保证了聚类的多样性,在数据稀疏和冷启动下也能够准确的对目标终端,即疑似违规销售终端进行识别。
附图说明
图1为本发明实施例提供的一种识别目标终端的方法的流程示意图;
图2为本发明实施例提供的一种基于用户与用户通信特征的聚类方法的流程示意图;
图3为本发明实施例提供的一种识别目标终端的装置的结构示意图;
图4为识别算法的准确率对比效果图;
图5为识别算法的召回率对比效果图;
图6为识别算法的统计量对比效果图;
图7为识别算法的平均绝对误差对比效果图;
图8为识别算法的识别覆盖率对比效果图。
具体实施方式
本发明实施例中,从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;根据所述第二聚类结果识别出目标终端。
下面结合实施例对本发明再作进一步详细的说明。
图1为本发明实施例提供的一种识别目标终端的方法的流程示意图,如图1所示,所述方法包括:
步骤101、从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;
具体地,所述根据预设策略对数据进行预处理,包括:
根据确定的通信特征选择相应的数据,从而获得相关通信特征的数据;
选择需要进行数据清洗的子集,插入适当的默认值或通过K-means方法来估计缺失值;剔除拥有非公众客户及公免客户等杂质数据。
这里,通过计算用户的通信特征之间的相关性,确定重要的通信特征,根据确定的通信特征进行数据筛选,选择相应的数据;
运用相关系数(Person product-moment correlation coefficient)公式确定通信特征之间的相似性,如下式(1)所示,根据相关系数的绝对值进行评估;
其中,R表示通信特征;i,j表示通信特征的标识;Ii,j表示用户集合;Ri、Rj表示平均值;
所述对第二数据进行数据校验和/或数据转换后得到所述分析数据集,包括:
抽取基础表数据进行汇总、合并基础表中的多个字段和根据逻辑关系衍生出各种新的变量,对中间表的数据进行联合生成最终的分析数据集;
对数据表现形式进行变换,消除量纲不同可能引起的数据差异。
步骤102、获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量,所述用户的特征向量用于表征用户具有的通信特征;
具体地,所述分析数据集,包括用户、所述用户对应的通信特征及其数据;
所述通信特征,包括:通信位置、消费内容、通信内容等;
步骤103、根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;
具体来说,所述用户的通信特征可以分类为M类个主题;所述分析数据集可以分别表示为用户集U={U1,U2,....,UN}和主题集T={T1,T2,...,TM}。
具体地,所述根据所述用户的特征向量将所有用户分为第一用户和第二用户,包括:
根据所述分析数据集确定符合以下条件的用户为第一用户,不符合以下条件的用户为第二用户:
用户的特征向量中的维度值大于阈值的元素所占比例大于密度阈值λ。
所述维度值大于阈值可以是维度值大于0。
具体地,所述根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果,包括:
根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得对应所有第一用户的聚类结果,作为第一聚类结果;
这里,所述第一聚类结果包含若干个第一用户聚类;所述第一用户聚类,包括若干个第一用户和第一用户的特征向量;
根据特征向量将用户分为第一用户和第二用户后,通过对第一用户进行图摘要聚类,提高在稀疏数据集上聚类效果;利用图摘要聚类方法计算得到聚类结果的模糊性,保证新加入用户等冷启动情况下识别的目标终端,即疑似违规销售终端的全面性和准确性。
具体地,所述根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;包括:
根据所述第一聚类结果确定所述第一用户聚类的特征向量;
确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。
这里,可以将第二用户加入到相似度最大的第一用户聚类中。
步骤104、根据所述第二聚类结果识别出目标终端;
具体地,所述根据所述聚类结果识别出目标终端,包括:
根据所述第二聚类结果确定用于识别所述目标终端的预测向量;
根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。
所述根据所述聚类结果确定用于识别所述目标终端的预测向量,包括:
根据第二聚类结果确定每个用户聚类在主题集上的特征向量;
根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;
根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。这里,K可以为原有特征向量中非零值维数的一半。
需要说明的是,使用预测值填充所有聚类的特征向量中的零值的分量,将每个聚类中填充的预测值定义为预测向量,按照预测值从大到小排序,得到Top-k个特征向量作为最终的预测向量,所述k值为原有特征向量中非零值维数的一半;所述预测向量用于识别聚类是否为疑似违规销售终端聚类。
图2为本发明实施例提供的基于用户与用户通信特征的聚类方法(GTUC,Graph-Theme and User Cluster)的流程示意图,如图2所示,所述方法,包括:
步骤201、根据用户的历史通信数据、消费数据等,提取每个用户的特征向量,根据用户的特征向量将所有用户划分为第一用户和第二用户;
具体来说,对于分析数据集中的N位用户,每位用户的通信特征可以分类为M类个主题;所述分析数据集可以分别表示为用户集U={U1,U2,....,UN}和主题集T={T1,T2,...,TM}。
所述主题集表示将用户按照价值、行为等功能进行分类获得包含相应的通信特征的集合;例如,可以分为消费、通信和位置等不同主题集。
对于任意用户ui都有对应的特征向量vi={ai1,ai2,...,aiM},所有用户和其对应的特征向量可以形成N×M的用户特征矩阵,如果用户ui对主题Tj产生过信息则aij>0,用户ui对主题Tj未产生过信息则aij=0。
这里,所述第一用户集可以定义为:U′={ui|ui∈U,des(ui)>λ};其中,des(ui)表示兴趣密度值,特征向量vi中维度值大于阈值的元素所占比例,对于des(ui)大于密度阈值(可以取10%)的用户确定为核心用户,即所述第一用户。
具体来说,特征度表示用户对主题集的关联程度,可以通过对数据进行Z变换(z-transformation),将特征度进行标准化,以消除量纲差异。这里,可以根据下式(2)和(3)将其转化为特征向量:
Stayij=1/t{c1,c2,c3,...,cm} (2)
其中,Stayij表示用户ui的第j天的特征向量,t表示该天内产生过的通信特征的数据;ci表示一类主题的数量;vi表示用户i的特征向量,N表示用户i的产生通信天数。这里,每个用户的特征向量中的维度值在[0,1]之间。
步骤202、根据各个第一用户的特征向量构造出第一用户特征矩阵,根据所述第一用户特征矩阵获得对应所有第一用户的聚类结果;
具体来说,根据用户特征矩阵可以形成用户的特征图G,所述用户图G用有向图G(V,E)表示;其中,V表示节点,由用户U和主题T组成,V=U∪T,E表示用户与主题之间关系形成的边集合,表示为E={e(ui,Tj)|ui∈U,Tj∈T,aij>0};
具体的,所述根据第一用户的特征向量构造出第一用户特征矩阵,根据所述第一用户特征矩阵获得对应所有第一用户的聚类结果,包括:
根据所述第一用户特征向量形成第一用户特征矩阵m′,基于第一用户特征矩阵m′构成第一用户特征图G′m,所述第一用户特征图用于表征第一用户与其通信特征的对应关系图;
根据所述第一用户特征图G′m运用图摘要聚类方法进行聚类,可以获得第一聚类结果;
所述第一聚类结果中包括若干个第一用户聚类;一个用户对应且仅对应一个第一用户聚类。
针对图摘要聚类方法进行聚类说明如下:
将用户和通信特征抽象成为一个大型复杂图,即第一用户特征图G′m,采用图摘要聚类方法(k-SNAP,Summarization by Grouping Nodes on Attributes and PairwiseRelationships)综合所有的原始节点数据,可以通过调整聚类程度和迭代次数,得到对图不同粒度的分析结果。
表1、表2为图摘要聚类方法的具体过程,如下表所示:
表1
表2
表1中,通过所述第一用户特征矩阵m′形成用户与通信特征的所述特征图Gm′(V,E),通过聚类方法将第一用户集U′形成的第一用户聚类Ci;其中,对于i≠j,有
表1中,所述模糊度(ambiguity)表示用户聚类Ci对主题Tj模糊度Ambij;按式(4)根据所述支持度计算模糊度:
其中,pi,j表示支持度(participate),所述模糊度表示第一用户聚类内用户对主题特征的差异,随着聚类个数的增加,模糊度将越来越小,识别疑似违规终端的准确性将会得到提高,但是当聚类数量过多,反而会降低识别效果。
对于每一个主题Tj,定义用户聚类Ci的参与集为:
按下式(5)可以表示用户聚类Ci对主题Tj的支持程度:
按下式(6)可以计算用户聚类Ci对整个主题集T的模糊度:
按下式(7)可以计算第一用户集U′的全部聚类集合Clus对主题集T的模糊度Amb:
对全部聚类集合Clus对主题集合T的模糊度取对数是因为保证其随着聚类的递增,呈现明显的变化。
按下式(8)定义用户聚类Ci对主题Tj的特征度为:
确定用户聚类Ci对主题集T的特征向量为cvi=(caij,cai2,cai3,...,caij);其中,非零维度都表示用户聚类Ci对某一主题的强烈关联关系。
根据不同用户聚类对主题集的特征向量来衡量聚类之间的差异性,通过余弦距离表示为:
所有用户的聚类集合Clus对主题集T的差异性为:
所述差异性表示聚类的特征差异度量,当差异性越大时,聚类内部的用户关联主题就越相似,多样性识别的效果将会越差。
步骤203、根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;具体包括:
根据所述第一聚类结果确定所述第一用户聚类的特征向量;
确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。
这里,可以按下式(11)确定两个特征向量的相似程度参数:
其中,cvi为第一用户聚类的特征向量,vj为用户uj的特征向量,v为其平均向量;
这里,对于第二用户uj与第一用户聚类的特征向量进行修正的余弦相似度计算,得到其与所有第一用户特征向量的相似度sim(cvi,vj),将第二用户加入到sim(cvi,vj)取最大值时所述第二用户uj对应的第一用户聚类Ck中,通过此方法将所有的第二用户加入到第一用户聚类中,最终得到所有用户的聚类结果Gclus。
步骤204、根据所有用户的聚类结果识别目标终端;
具体地,所述根据所有用户的聚类结果识别目标终端,包括:
根据所述第二聚类结果确定用于识别所述目标终端的预测向量;
根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。
这里,识别参数越大,表示特征向量之间越相似,可以确定为目标终端,即疑似违规终端。
所述根据所述第二聚类结果确定用于识别所述目标终端的预测向量,包括:
根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;
根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;
根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。
具体来说,根据所有用户的聚类结果Gclus,按下式(12)计算其中每个用户聚类GCi在主题集T上的特征向量:
gcvi=(gcai1,gcai2,gcai3,...,gcaiM) (12)
按下式(13)通过得到的各个用户聚类GCi的特征向量,计算出主题Ti与主题Tj之间的差异度为:
按下式(14)对任何整体用户聚类GCi中的维度为零值的分量进行识别:
其中,gcaij为零值的分量,为gcai中个维度值的平均值。将所有聚类的特征向量中的零值分量使用预测值进行填充,将每个聚类中填充的预测值定义为预测向量,按照预测值从大到小排序,得到Top-k个特征向量作为识别所述目标终端的预测向量;k值可以为原有特征向量中非零值维数的一半。
图3为本发明实施例提供的一种识别目标终端的装置的结构示意图,如图3所示,所述装置,包括:第一处理模块、第二处理模块、第三处理模块和第四处理模块;其中,
所述第一处理模块,用于从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;
所述第二处理模块,用于获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;
所述第三处理模块,用于根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;
具体地,根据所述分析数据集确定符合以下条件的用户为第一用户,不符合以下条件的用户为第二用户:
用户的特征向量中的维度值大于阈值的元素所占比例大于密度阈值λ。
具体地,所述第三处理模块,具体用于根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。
具体地,所述第三处理模块,还用于:根据所述第一聚类结果确定所述第一用户聚类的特征向量;
确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。
所述第四处理模块,用于根据所述第二聚类结果识别出目标终端。
具体地,所述第四处理模块,具体用于:根据所述第二聚类结果确定用于识别所述目标终端的预测向量;
根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。
具体地,所述用户的通信特征分为若干个主题;
所述第四处理模块,还用于根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;
根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;
根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。所述K值可以为原有特征向量中非零值维数的一半。
本发明实施例中还提供了对比运用GTUC方法与运用k-means聚类算法的效率差异的方法,具体来说,可以从准确率Precision、召回率Recall、平均绝对误差MAE和识别覆盖率Coverage几方面分别进行对比;以下详细介绍各自的计算方法。
所述准确率Precision表示通过对训练集的训练得到疑似违规集RS,并与测试集进行比较得出识别命中的违规终端集Target;准确率Precision的计算方法如下式(15)所示:
所述召回率Recall表示通过对训练集的训练得到疑似违规集与测试集进行比较得到识别命中违规集Target,测试集中已被确定的用户违规终端集Test,召回率Recall的计算方法如下式(16)所示:
所述准确率和所述召回率虽然没有必然的联系,但是在大数据集下,准确率和召回率存在相互制约关系,采用统计量(Fmeasure)对所述准确率和所述召回率进行调和,可以更好的比较识别目标终端质量,其值越高表示识别质量越高,Fmeasure的计算方法如下式(17)所示:
识别目标终端的平均绝对误差MAE也可以作为识别算法质量的衡量标准;
具体来说,首先,确定用户识别的平均绝对误差MAUE,如下式(18)所示:
其中,RS(ui)表示识别算法为用户ui相关的主题集,Test(ui)表示用户ui在测试集中相关的主题集,gcaij表示识别算法计算出主题j相关值,caij表示测试集中用户对主题j的特征度。
然后,根据每位用户识别的平均绝对误差MAUE,计算所有用户的平均绝对误差MAE,其值越低表示识别的质量越高,如下式(19)所示:
所述识别覆盖率Coverage是用于评价识别疑似违规终端的多样性的重要性能指标,通过计算识别用户的覆盖范围来评价识别违规终端的全面性,Coverage值越大表示识别覆盖能力越好,计算如下式(20)所示:
如表3所示,在不同稀疏度情况下,GTUC算法与k-means聚类算法的识别违规终端数量的比较,显示出GTUC在不同情况下,最大识别数量都有较大优势。
表3产生识别数量对比
由表3可以显示k-mean聚类方法在数据稀疏的情况下识别疑似违规终端数量较少,而GTUC方法对数据稀疏情况下识别能力并没有受到影响。
图4为识别算法的准确率对比效果图;如图4所示,当数据比较稀疏时(密度低于25%),k-means算法的识别准确性很低,当密度不断提高时(高于25%),识别准确性不断提高;而GTUC算法对于数据稀疏并不敏感,当数据较为稀疏时,推荐准确性维持在较高水平,当密度不断提高时,推荐准确性也逐步提高。
图5为识别算法的召回率对比效果图;如图5所示,GTUC算法在不同数据稀疏情况下,召回率值都很高;而K-MEANS算法在数据稀疏时,由于识别数量较少使得召回率很低。
图6和图7分别为识别算法的统计量对比效果图和识别算法的平均绝对误差对比效果图;如图6、7所示,可以从更加综合的角度对识别质量进行比较,得出GTUC算法识别质量和识别综合性能都有较高的价值。
通过人为的手段将用户-特征主题矩阵中的某几类主题的特征值设置为0,来模拟冷启动现象,用识别覆盖率将衡量算法识别的全面性。
图8为识别算法的识别覆盖率对比效果图;如图8所示,GTUC算法比K-MEANS算法对于在识别覆盖率上效果要优很多,K-MEANS算法将收敛于某一范围。
从以上对基于GTUC图摘要聚类算法性能分析中,可以看出基于GTUC图摘要聚类算法,提高了对比较普遍存在的冷启动和数据稀疏问题的优化,但使得对识别疑似违规销售终端的准确性和全面性有了极大的提高。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种识别目标终端的方法,其特征在于,所述方法包括:
从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;
获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;
根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;
根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;
根据所述第二聚类结果识别出目标终端。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一用户的数据获得对应所有第一用户的聚类结果,包括:
根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,包括:
根据所述第一聚类结果确定所述第一用户聚类的特征向量;
确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二聚类结果识别出目标终端,包括:
根据所述第二聚类结果确定用于识别所述目标终端的预测向量;
根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。
5.根据权利要求4所述的方法,其特征在于,所述用户的通信特征分为若干个主题;
所述根据所述第二聚类结果确定用于识别所述目标终端的预测向量,包括:
根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;
根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;
根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。
6.一种识别目标终端的装置,其特征在于,所述装置,包括:第一处理模块、第二处理模块、第三处理模块和第四处理模块;其中,
所述第一处理模块,用于从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;
所述第二处理模块,用于获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;
所述第三处理模块,用于根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;
所述第四处理模块,用于根据所述第二聚类结果识别出目标终端。
7.根据权利要求6所述的装置,其特征在于,所述第三处理模块,具体用于根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。
8.根据权利要求7所述的装置,其特征在于,所述第三处理模块,还用于:根据所述第一聚类结果确定所述第一用户聚类的特征向量;
确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。
9.根据权利要求6所述的装置,其特征在于,所述第四处理模块,具体用于:根据所述第二聚类结果确定用于识别所述目标终端的预测向量;
根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。
10.根据权利要求9所述的装置,其特征在于,所述用户的通信特征分为若干个主题;
所述第四处理模块,还用于根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;
根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;
根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611257786.0A CN108268877A (zh) | 2016-12-30 | 2016-12-30 | 一种识别目标终端的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611257786.0A CN108268877A (zh) | 2016-12-30 | 2016-12-30 | 一种识别目标终端的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108268877A true CN108268877A (zh) | 2018-07-10 |
Family
ID=62754785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611257786.0A Pending CN108268877A (zh) | 2016-12-30 | 2016-12-30 | 一种识别目标终端的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268877A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493086A (zh) * | 2018-10-26 | 2019-03-19 | 中国银联股份有限公司 | 一种确定违规商户的方法及装置 |
CN109885651A (zh) * | 2019-01-16 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种问题推送方法和装置 |
CN111160977A (zh) * | 2019-12-31 | 2020-05-15 | 中国移动通信集团黑龙江有限公司 | 用户关系兴趣特征图的获取方法、装置、设备及介质 |
CN116595389A (zh) * | 2023-04-25 | 2023-08-15 | 中国工商银行股份有限公司 | 识别异常客户端的方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101883133A (zh) * | 2010-04-26 | 2010-11-10 | 李爽 | 一种基于信令分析的精准影响力营销系统及其方法 |
CN102591872A (zh) * | 2011-01-06 | 2012-07-18 | 中国移动通信集团四川有限公司 | 一种客户特征库生成方法和装置 |
CN105491444A (zh) * | 2015-11-25 | 2016-04-13 | 珠海多玩信息技术有限公司 | 一种数据识别处理方法以及装置 |
-
2016
- 2016-12-30 CN CN201611257786.0A patent/CN108268877A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101883133A (zh) * | 2010-04-26 | 2010-11-10 | 李爽 | 一种基于信令分析的精准影响力营销系统及其方法 |
CN102591872A (zh) * | 2011-01-06 | 2012-07-18 | 中国移动通信集团四川有限公司 | 一种客户特征库生成方法和装置 |
CN105491444A (zh) * | 2015-11-25 | 2016-04-13 | 珠海多玩信息技术有限公司 | 一种数据识别处理方法以及装置 |
Non-Patent Citations (3)
Title |
---|
张承江: "《医学数据仓库与数据挖掘》", 31 October 2008, 中国中医药出版社 * |
曾瑞: "移动定位社交服务中相似用户发现方法的研究", 《万方数据知识服务平台》 * |
谭学清 等: "《商务智能》", 31 October 2006, 武汉大学出版社 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493086A (zh) * | 2018-10-26 | 2019-03-19 | 中国银联股份有限公司 | 一种确定违规商户的方法及装置 |
CN109493086B (zh) * | 2018-10-26 | 2021-12-28 | 中国银联股份有限公司 | 一种确定违规商户的方法及装置 |
CN109885651A (zh) * | 2019-01-16 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种问题推送方法和装置 |
CN109885651B (zh) * | 2019-01-16 | 2024-06-04 | 平安科技(深圳)有限公司 | 一种问题推送方法和装置 |
CN111160977A (zh) * | 2019-12-31 | 2020-05-15 | 中国移动通信集团黑龙江有限公司 | 用户关系兴趣特征图的获取方法、装置、设备及介质 |
CN116595389A (zh) * | 2023-04-25 | 2023-08-15 | 中国工商银行股份有限公司 | 识别异常客户端的方法、装置、计算机设备和存储介质 |
CN116595389B (zh) * | 2023-04-25 | 2024-01-09 | 中国工商银行股份有限公司 | 识别异常客户端的方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201909112A (zh) | 圖像特徵獲取 | |
CN105138653B (zh) | 一种基于典型度和难度的题目推荐方法及其推荐装置 | |
CN109460793A (zh) | 一种节点分类的方法、模型训练的方法及装置 | |
CN111797321A (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
US10986400B2 (en) | Compact video representation for video event retrieval and recognition | |
CN109471982B (zh) | 一种基于用户和服务聚类QoS感知的Web服务推荐方法 | |
CN108268877A (zh) | 一种识别目标终端的方法和装置 | |
CN104538035B (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN110046251A (zh) | 社区内容风险评估方法及装置 | |
CN109995611B (zh) | 流量分类模型建立及流量分类方法、装置、设备和服务器 | |
CN109903191B (zh) | 基于机器学习的旅行推荐方法、装置、存储介质及终端 | |
CN116662817B (zh) | 物联网设备的资产识别方法及系统 | |
CN112817563B (zh) | 目标属性配置信息确定方法、计算机设备和存储介质 | |
CN111861667A (zh) | 车辆推荐方法及装置、电子设备、存储介质 | |
CN109597944B (zh) | 一种基于深度信念网络的单分类微博谣言检测模型 | |
CN108171570A (zh) | 一种数据筛选方法、装置及终端 | |
CN112966778B (zh) | 针对不平衡样本数据的数据处理方法及装置 | |
CN117392714A (zh) | 基于半监督学习的人脸美丽预测方法、设备及介质 | |
CN112115994A (zh) | 图像识别模型的训练方法、装置、服务器及存储介质 | |
CN109194622B (zh) | 一种基于特征效率的加密流量分析特征选择方法 | |
CN112463974A (zh) | 知识图谱建立的方法和装置 | |
CN116955788A (zh) | 一种内容处理的方法、装置、设备、存储介质及程序产品 | |
CN112541010A (zh) | 一种基于逻辑回归的用户性别预测方法 | |
CN111835541B (zh) | 一种流量识别模型老化检测方法、装置、设备及系统 | |
CN112804650B (zh) | 一种信道状态信息数据降维方法及智能室内定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180710 |