CN104268572A - 面向后台多源数据的特征提取和特征选择方法 - Google Patents

面向后台多源数据的特征提取和特征选择方法 Download PDF

Info

Publication number
CN104268572A
CN104268572A CN201410491742.9A CN201410491742A CN104268572A CN 104268572 A CN104268572 A CN 104268572A CN 201410491742 A CN201410491742 A CN 201410491742A CN 104268572 A CN104268572 A CN 104268572A
Authority
CN
China
Prior art keywords
feature
group
surf time
user
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410491742.9A
Other languages
English (en)
Other versions
CN104268572B (zh
Inventor
范剑锋
杨琬琪
高阳
史颖欢
孙良君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongbo Information Technology Research Institute Co Ltd
Nanjing University
Original Assignee
Zhongbo Information Technology Research Institute Co Ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongbo Information Technology Research Institute Co Ltd, Nanjing University filed Critical Zhongbo Information Technology Research Institute Co Ltd
Priority to CN201410491742.9A priority Critical patent/CN104268572B/zh
Publication of CN104268572A publication Critical patent/CN104268572A/zh
Application granted granted Critical
Publication of CN104268572B publication Critical patent/CN104268572B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择。本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。

Description

面向后台多源数据的特征提取和特征选择方法
技术领域
本发明涉及一种针对离网用户分析的面向后台多源数据的特征提取和特征选择方法。
背景技术
对于每户每日上网时间序列,目前没有很好的方法来表征用户上网时间的变化趋势特征。Lasso方法是一种稀疏特征选择的方法,当Lasso直接应用于具有组结构的模型中时,其倾向于选择出单个特征,破坏了特征的组结构。对于LR分类器来说,特征的微小变化也会对最终的预测结果造成很大的影响。
Group Lasso方法引入对罚函数的扩展,对组特征的选择进行研究。Filter方法是一种和学习机无关的特征选择方法,通过某种度量选出特征子集。一种常用的度量是Pearson相关系数,在该方法中,选取相关系数最大的n个特征作为特征子集。
发明内容
本发明所要解决的技术问题在于,针对离网用户分析的问题,面向后台的多源数据,提供一种可行性高的特征提取和特征选择方法。
为解决上述技术问题,本发明提供一种面向后台多源数据的特征提取和特征选择方法,包括如下步骤:
(1)在多个月份的后台数据上划分训练集和测试集;
(2)训练集上针对不同的源数据提取相应分组特征;
(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;
步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间趋势特征提取方法。
步骤(3)中的Group Lasso方法的λ值,使用5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9这七组值并且使用Logistic Regression方法进行交叉验证。
所述的基于多尺度直方图统计的上网时间趋势特征提取方法,包括如下步骤:
(1)该时间序列并非传统意义上典型的时间序列,简单的距离度量和信号处理的方法并不适用。对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信息图;
(2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间“显著”增加、“显著”减少、“不显著”增加、“不显著”减少以及上网时间不变的分组;
(3)对这些分组进行统计,得出直方图特征;
(4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征。
所述的特征组选择方法,包括如下步骤:
(1)使用Group Lasso方法,对λ值进行调整,分别取(5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9)7组值,在训练集上分别对离网和停机用户标签进行学习;
Group Lasso方法可以形式化为式子(1):
β ^ λ = arg min β ( | | Y - Xβ | | 2 2 + λ Σ g = 1 G | | β I g | | 2 ) - - - ( 1 )
其中表示特征选择向量,X是m×n的数据矩阵,是数据的标签数组,Ig是g组的特征下标,g=1,...,G(是组的个数),λ≥0是正则参数;
(3)针对不同的λ值所对应的x,如果某个组所对应的x都为0,则不选择该组,如有有不为0的,则选择该组;
(3)在训练集上,根据针对不同的λ值选出的用户组,用LR的学习方法,该结果和C45决策树结果类似,采用了十折交叉验证,选出相应的组特征。
本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。
附图说明
图1是本发明的离网用户分析框架图。
图2是本发明的训练集和测试集划分示意图。
图3是本发明的用户上网时间序列示意图。
图4是本发明的上网时间差值的分类示意图。
图5是本发明的上网时间变化趋势直方图的示意图。
具体实施方式
如图1所示,对于后台多源数据,针对不同的源数据采用特定的特征提取方法,对于提取的多源数据特征,采用Group Lasso方法进行组特征选择,进一步在选择出的组特征上建立机器学习模型预测离网用户。
如图2所示,为针对2013年5月到2014年2月的数据进行训练集和测试集的划分。
如图3所示,为50个用户在5月份每日上网时间折线图。用户上下线的数据量很大,包含的信息很多。
如图4、图5所示,本发明所提出的基于多尺度直方图统计的上网时间趋势特征抽取方法,包括如下步骤:
(1)该时间序列并非传统意义上典型的时间序列,简单的距离度量和信号处理的方法并不适用。对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信息图;
(2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间“显著”增加、“显著”减少、“不显著”增加、“不显著”减少以及上网时间不变的分组;
(3)对这些分组进行统计,得出直方图特征;
(4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征。
本发明的组特征的选择的方法包括如下内容:
后台多源数据项的说明见表1,针对这些多源的后台数据,提取的相应特征组编号见表2,可以发现这些特征具有组结构。即对于同一组特征,它们在语义上更加相似并且在数值上相关,在训练过程中,同一组的特征表征能力也相似。
表1 多源数据项概念定义
表2 特征组的描述
Group Lasso方法可以形式化为式子(1):
β ^ λ = arg min β ( | | Y - Xβ | | 2 2 + λ Σ g = 1 G | | β I g | | 2 ) - - - ( 1 )
其中表示特征选择向量,X是m×n的数据矩阵,是数据的标签数组,Ig是g组的特征下标,g=1,...,G(是组的个数),λ≥0是正则参数。
(1)使用Group Lasso方法,对λ值进行调整,分别取(5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9)7组值,在训练集上分别对离网和停机用户标签进行学习。
对停机用户λ取值为5*10-5的各组的x进行观察,如表3,可以发现组内参数值的差异很小,说明同组特征的表征能力是相似的。表中加粗了参数中的部分绝对值相似的值。每组参数可能存在超过一组的相似参数值,以第0组为例,其中部分参数集中在0.0020左右,而另一部分集中在0.0005左右。对于停机用户,在不同的参数中得到的实验结果见表4、5。由于采用的Group Lasso方法对组内特征没有稀疏约束,所以每个组内的x多数不为0。可以发现,其中λ值越大,稀疏约束的权值越大,得到的x越稀疏。
(2)针对不同的λ值所对应的x,如果某个组所对应的x都为0,则不选择该组,如有有不为0的,则选择该组。
(3)在训练集上,根据针对不同的λ值选出的用户组,用LR的学习方法,该结果和C45决策树结果类似,采用了十折交叉验证,选出相应的组特征。
表3 各组x值
表4 结果对比1
表5 结果对比2
对于基于多尺度直方图统计的上网时间趋势特征抽取方法,该高层特征表征了用户上网时间的变化趋势,与用户离网情况的相关系数的均值是0.312,而用户原始的每天的上网时间和用户离网情况的相关系数的均值为2.62*10-3,而用户每日上网时间差值和用户离网情况的相关系数为1.03*10-2,可见直方图特征具有与用户离网情况更大的相关性。而对于一些传统的时间序列特征提取方法,我们在特征空间中用KNN的方法进行对比,K值取为3,对时间序列的欧氏距离的度量,预测准确率为0.0450,小波变换方法为0.0447,而本发明的直方图方法为0.1026,可见在直方图特征空间中,对于离网情况,样本用户可以获得更好的可分性。综上,本发明的基于多尺度直方图统计的上网时间趋势特征抽取方法是正确和有效的。
对于特征选择,对比基于皮尔森相关系数的Filter方法,该方法采用0.1为阈值,在离网和停机问题上分别筛选了69和74维特征。对于离网用户分析,由于样本具有不平衡性:离网用户只占1/40,所以将非离网用户随机分成n组,使其数量和离网用户数量相当,然后和离网用户合并求得相关系数,最终对相关系数进行加权平均。在C45算法离网用户预测中,Group Lasso方法预测的Precision值比其他方法高40个百分点,在停机用户预测中,平均高出10个百分点。LR方法在Group Lasso上的预测性能也普遍比其他特征要好,见表4。
将Lasso方法和Group Lasso方法的结果进行对比,对于Lasso方法的不同参数值,选取最好的参数结果。Group Lasso特征上的结果比Lasso单独提取的特征的预测性能平均高出10个百分点。
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。

Claims (3)

1.一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:
(1)在多个月份的后台数据上划分训练集和测试集;
(2)训练集上针对不同的源数据提取相应分组特征;
(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;
其中,步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间趋势特征提取方法;步骤(3)中的Group Lasso方法的λ值,使用5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9这七组值并且使用LogisticRegression方法进行交叉验证。
2.如权利要求1所述的方法,其特征在于:所述的基于多尺度直方图统计的上网时间趋势特征提取方法,包括如下步骤:
(1)对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信息图;
(2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间“显著”增加、“显著”减少、“不显著”增加、“不显著”减少以及上网时间不变的分组;
(3)对这些分组进行统计,得出直方图特征;
(4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征。
3.如权利要求1所述的方法,其特征在于:所述的特征组选择的方法,包括如下步骤:
(1)使用Group Lasso方法,对λ值进行调整,分别取5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9七组值,在训练集上分别对离网和停机用户标签进行学习;
Group Lasso方法可以形式化为式子(1):
β ^ λ = arg min β ( | | Y - Xβ | | 2 2 + λ Σ g = 1 G | | β I g | | 2 ) - - - ( 1 )
其中表示特征选择向量,X是m×n的数据矩阵,是数据的标签数组,Ig是g组的特征下标,g=1,...,G(是组的个数),λ≥0是正则参数;
(2)针对不同的λ值所对应的x,如果某个组所对应的x都为0,则不选择该组,如有有不为0的,则选择该组;
(3)在训练集上,根据针对不同的λ值选出的用户组,用Logistic Regression的学习方法,该结果和C45决策树结果类似,采用了十折交叉验证,选出相应的组特征。
CN201410491742.9A 2014-09-23 2014-09-23 面向后台多源数据的特征提取和特征选择方法 Expired - Fee Related CN104268572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410491742.9A CN104268572B (zh) 2014-09-23 2014-09-23 面向后台多源数据的特征提取和特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410491742.9A CN104268572B (zh) 2014-09-23 2014-09-23 面向后台多源数据的特征提取和特征选择方法

Publications (2)

Publication Number Publication Date
CN104268572A true CN104268572A (zh) 2015-01-07
CN104268572B CN104268572B (zh) 2017-10-27

Family

ID=52160092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410491742.9A Expired - Fee Related CN104268572B (zh) 2014-09-23 2014-09-23 面向后台多源数据的特征提取和特征选择方法

Country Status (1)

Country Link
CN (1) CN104268572B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740388A (zh) * 2016-01-27 2016-07-06 上海晶赞科技发展有限公司 一种基于分布漂移数据集的特征选择方法
CN107169137A (zh) * 2017-06-09 2017-09-15 华东师范大学 一种基于Group Lasso的半监督哈希图像搜索装置
CN109408498A (zh) * 2018-10-09 2019-03-01 厦门理工学院 基于特征矩阵决策树的时间序列特征识别与分解方法
CN110020599A (zh) * 2019-02-28 2019-07-16 浙江工业大学 一种稀疏强化型低秩约束的人脸图像聚类方法
CN110059749A (zh) * 2019-04-19 2019-07-26 成都四方伟业软件股份有限公司 重要特征的筛选方法、装置及电子设备
CN112711615A (zh) * 2019-10-24 2021-04-27 富士通株式会社 信息处理装置、信息处理方法和计算机可读存储介质
CN116385591A (zh) * 2023-06-06 2023-07-04 杭州芯翼科技有限公司 变化趋势图的显示方法、装置和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120250963A1 (en) * 2009-11-25 2012-10-04 International Business Machines Corporation Predicting States of Subjects
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120250963A1 (en) * 2009-11-25 2012-10-04 International Business Machines Corporation Predicting States of Subjects
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴喜之: "《数据驱动的复杂动态系统建模》", 31 December 2013 *
王雷: "客户流失预警模型及其在电信企业的应用", 《电信科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740388A (zh) * 2016-01-27 2016-07-06 上海晶赞科技发展有限公司 一种基于分布漂移数据集的特征选择方法
CN105740388B (zh) * 2016-01-27 2019-03-05 上海晶赞科技发展有限公司 一种基于分布漂移数据集的特征选择方法
CN107169137A (zh) * 2017-06-09 2017-09-15 华东师范大学 一种基于Group Lasso的半监督哈希图像搜索装置
CN107169137B (zh) * 2017-06-09 2019-10-08 华东师范大学 一种基于Group Lasso的半监督哈希图像搜索装置
CN109408498A (zh) * 2018-10-09 2019-03-01 厦门理工学院 基于特征矩阵决策树的时间序列特征识别与分解方法
CN110020599A (zh) * 2019-02-28 2019-07-16 浙江工业大学 一种稀疏强化型低秩约束的人脸图像聚类方法
CN110059749A (zh) * 2019-04-19 2019-07-26 成都四方伟业软件股份有限公司 重要特征的筛选方法、装置及电子设备
CN110059749B (zh) * 2019-04-19 2020-05-19 成都四方伟业软件股份有限公司 重要特征的筛选方法、装置及电子设备
CN112711615A (zh) * 2019-10-24 2021-04-27 富士通株式会社 信息处理装置、信息处理方法和计算机可读存储介质
CN116385591A (zh) * 2023-06-06 2023-07-04 杭州芯翼科技有限公司 变化趋势图的显示方法、装置和设备
CN116385591B (zh) * 2023-06-06 2023-08-15 杭州芯翼科技有限公司 变化趋势图的显示方法、装置和设备

Also Published As

Publication number Publication date
CN104268572B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN104268572A (zh) 面向后台多源数据的特征提取和特征选择方法
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN109376786A (zh) 一种图像分类方法、装置、终端设备及可读存储介质
Mankad et al. Structural and functional discovery in dynamic networks with non-negative matrix factorization
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN107944035B (zh) 一种融合视觉特征和用户评分的图像推荐方法
CN104994424B (zh) 一种构建音视频标准数据集的方法和装置
CN102346829A (zh) 基于集成分类的病毒检测方法
CN102193936A (zh) 一种数据分类的方法及装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN106874355A (zh) 同时融入社交关系和用户相似度的协同过滤方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN106127506A (zh) 一种基于主动学习解决商品冷启动问题的推荐方法
CN107748898A (zh) 文件分类方法、装置、计算设备及计算机存储介质
CN111523055A (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及系统
CN108959453A (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN104809229B (zh) 一种文本特征词提取方法及系统
CN109271513A (zh) 一种文本分类方法、计算机可读储存介质及系统
KR100842216B1 (ko) 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
Liu et al. Multi-label feature selection method combining unbiased Hilbert-Schmidt independence criterion with controlled genetic algorithm
Zhang et al. Plant leaf classification using plant leaves based on rough set

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171027

Termination date: 20190923

CF01 Termination of patent right due to non-payment of annual fee