CN104599159A - 一种基于支持向量机原理的用户行为识别方法 - Google Patents
一种基于支持向量机原理的用户行为识别方法 Download PDFInfo
- Publication number
- CN104599159A CN104599159A CN201510063343.7A CN201510063343A CN104599159A CN 104599159 A CN104599159 A CN 104599159A CN 201510063343 A CN201510063343 A CN 201510063343A CN 104599159 A CN104599159 A CN 104599159A
- Authority
- CN
- China
- Prior art keywords
- support vector
- data
- vector machine
- user
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于支持向量机原理的用户行为识别方法,所述方法首先分析电商用户行为数据的特点,基于支持向量机分类原理,利用用户在浏览产品页面时所留下的非平衡性历史行为数据进行训练,通过训练出的分类超平面对未来用户短期内购买产品所属品牌进行识别。本发明有效地利用用户在浏览商品网页时所产生的点击、收藏和加入购物车三类行为,来识别用户是否购买该产品或该品牌,在未来大数据时代背景下具有良好的应用前景。
Description
技术领域
本发明涉及数据挖掘领域,具体涉及一种基于支持向量机原理的用户行为识别方法,是一种针对电商购物网站用户,用于分析其购物行为模式的一项模式识别技术。
背景技术
伴随着互联网技术的高速发展,电子商务领域迅速崛起,越来越多的人开始参与网络购物,甚至对于许多群体而言,网络购物已经成为不可替代的重要消费方式。据艾瑞咨询统计数据显示,2013年中国电子商务市场交易规模100720.4亿元(其中网络购物交易规模18409.5亿元),同比增长22.6%。而伴随着参与人数和交易规模的上涨,海量的用户行为数据被储存下来。越来越多的人已经意识到,在这个海量的信息空间中蕴藏着巨大的价值,许多学者、业内人士和科研机构都已经参与到这场轰轰烈烈的寻宝运动中来,探索一切可能的挖掘数据中所蕴含价值的方法。
发明内容
本发明要解决的技术问题是:本发明首先分析用户行为数据的特点,基于支持向量机分类原理,利用用户在浏览产品页面时所留下的历史行为数据进行训练,通过训练出的分类超平面对未来用户短期内购买产品所属品牌进行识别。
本发明所采用的技术方案为:
一种基于支持向量机原理的用户行为识别方法,所述方法首先分析电商用户行为数据的特点,基于支持向量机分类原理,利用用户在浏览产品页面时所留下的非平衡性历史行为数据进行训练,通过训练出的分类超平面对未来用户短期内购买产品所属品牌进行识别。
所述方法针对电商用户行为数据的特点从原始数据中提取特征,使其能够适用于支持向量机的分类模型,再通过调整惩罚参数相对值的方式进行参数寻优,并在测试数据集中进行分析验证。
所述识别方法实现方式如下:
1)、对于已经收集到的原始数据,要首先对其所具备的特点进行分析,数据所具备的结构特征、体积以及噪声的含量等信息,会影响甚至决定着应采用怎样的方法去处理分析这些数据;
2)、针对已获取数据的特点,基于支持向量机原理,提取特征,建立适合于该数据的,并且能够达到预期功能的支持向量机分析模型;
3)、编写程序,导入数据,完成模型的计算,得到分析结果,并对结果予以展示。
所述识别方法的具体操作步骤如下:
1)获取原始数据,并储存在数据库中;
2)总览原始数据,分析总结原始数据的特点;
3)提出可行的基于支持向量机原理的分析模型;
4)选取特征并建立评价指标;
5)利用相关专业软件,同时编写核心程序,完成模型的计算;
6)展示识别结果。
本发明的有益效果为:本发明有效地利用用户在浏览商品网页时所产生的点击、收藏和加入购物车三类行为,来识别用户是否购买该产品或该品牌,在未来大数据时代背景下具有良好的应用前景。
附图说明
图1为原始数据字段表;
图2为特征数据字段表;
图3为数据集混淆矩阵;
图4为分析结果数据表;
图5为分类超平面变化趋势示意图;
图6为本发明功能实现流程图。
具体实施方式
下面参照附图所示,通过具体实施方式对本发明进一步说明:
如图6所示,所述方法实施步骤如下:
(1)、使用常用的SQL数据库软件储存网站中的用户行为日志,编写SQL语句组织并提取数据,构成数据的原始形式。
(2)、原始数据的特点如下:
a)体积庞大
据估算,淘宝网单日访问量可突破一亿次,经营状态较好的网店单日访问量可达数百万次,用户每次点击浏览网站中的商品页面,或对该商品进行其它操作或标记时,其行为都会被记录下来储存在数据库中。可见,当今的用户行为数据体积庞大,一方面表现在海量的存量,另一方面也表现为高速的增量。
b)特征维度低
人们在浏览商品时,能够对商品进行的操作其实是有限的,最常用的无非是点击、购买、收藏和加入购物车四种形式,人们对商品品类的偏好信息,往往就是蕴藏在这四种看似简单行为的循环往复之中。
c)稀疏性和非平衡性
在用户行为数据矩阵中存在大量零元素,这样的稀疏数据大大阻碍了像协同过滤这样的基于相似性度量的推荐方法的效果。另一方面,用户所产生的大量行为之中,购买行为只占非常小的一部分,这就导致了购买与非购买的两类产品之间具有极强的非平衡性。
(3)、构建基于支持向量机原理的模型
支持向量机(简称SVM)是由Vapnik等人在1992到1995年期间提出的,该方法是建立在统计学习理论中结构风险最小化原则和最优化问题基础上的,具有坚实的理论基础、较强的泛化能力等优点,被广泛应用于模式识别、数据挖掘、人工智能、机器学习等领域。
考虑在n+1维输入空间上的l个样本点组成的集合:
T={(x1,y1),……,(xi,yi)} (1)
其中x是输入向量,xi∈Rn,yi∈{-1,1}是xi的类标。求解如下优化问题:
s.t. yi(w·Φ(xi)+b)≥1-ζi,i=1,…,l
ζi≥0,i=1,…,l (2)
其对偶问题为
αi≥0,i=1,…,l (3)
构造的决策函数
以上形式称为C-SVM,αi *和b*是对偶问题的最优解。这里K为核函数,用于将样本投影到高维空间;ζ为松弛变量,用来表示模型对误差的容忍程度;C为惩罚参数,它可以认为是对候选集信心大小的表示。
对于非平衡数据,分类超平面会偏向少类一侧,这时可以给予少类更高的惩罚参数,使得分类超平面向另一侧移动,从而抵消数据的非平衡性带来的影响,提高决策能力。设正类和负类的惩罚参数分别用C+和C-表示。此时求解C-SVM所对应的优化问题变为:
s.t. yi(w·Φ(xi)+b)≥1-ζi,i=1,…,l
ζi≥0,i=1,…,l (5)
其中
令p=C+/C-表示正类与负类惩罚参数的相对值,本发明将通过调整参数p的值寻找最优决策函数。
(4)、提取特征并建立评价指标
a)提取特征
本发明所分析的是基于用户与商品品牌之间的行为,可以使用来自“阿里巴巴大数据竞赛第一赛季”的比赛用数据作为实验数据,截取了四个月内884位用户对于9531种品牌的操作,总共182880条记录。给出的用户和品牌都是通过数据抽样提取,并以加密过的数字ID表示,每条记录均给出了精确到天并隐藏年份的时点。原始数据中字段的具体信息如图1所示:
将前三个月共131720条数据作为训练集,将第四个月共81160条数据作为测试集,分别对训练集和测试集提取特征,提取特征后的数据字段如图2所示:
提取特征后,训练集中共有42085条特征记录,测试集中共有18545条特征记录,测试集中发生购买行为的组合数量总共为1408条。
b)评价指标
本发明的数据是典型的不平衡数据,对于不平衡数据分类精确度的评价方法有多种,这里采用的是F-measure方法。结合本发明研究的实际问题,这里只关心发生购买行为的组合的情况,即只对少类的样本进行评价。下面简单介绍F-measure方法。
以不平衡数据集作为待分类样本,二分类方法有四种可能结果,用数据集混淆矩阵表示,如图3所示。
F-measure方法的定义如下:
其中Recall为召回率,Precision为准确率。注意,这里对传统的F-measure值的计算公式进行了改进,将原来求Recall和Precision的乘积的形式改为求两者的调和平均数,这样使得F-measure的值更能够体现Recall和Precision的绝对数值。
召回率表示是否将潜在购买用户全部识别出来,准确率表示识别结果中识别正确的比例。容易发现,只有在召回率和准确率的值同时较高的情况下,F-measure的值才会比较高;否则,如果一个较低,F-measure的值就会较低。F-measure的取值区间为[0,1],该值越大表明模型的分类效果越好。
(5)、本发明使用Matlab作为数据导入接口,利用C++实现用于计算SVM模型的SMO算法核心程序,对模型结果进行计算。
(6)、识别结果展示。为了方便起见,本发明不妨令非购买类(多类)的惩罚参数C-=1,仅通过调整C+来控制p的值,核函数默认为多项式核。分析结果数据如图4所示。
图4中F-measure值达到最大的一行已被标明,对应的p值为1.6。此时识别正确的样本数量为679条,被识别为购买类(少类)的样本数量为2017条,即:
TP=679
TP+FN=1408 (10)
TP+FP=2017
由(7)、(8)、(9)得
则
图5描述了分类超平面的变化过程。随着p值的增大,分类超平面从A位置向B位置移动,抵消了由数据的非平衡性所导致的超平面位置向少类一侧偏的问题。当p=1.6时,超平面位于图中最优分类超平面的位置。
分析结果说明,最优模型总共识别了2017条组合会发生购买行为,其中有679条被正确识别,准确率为33.6639%;在1408条真实发生购买行为的组合中,有679条被成功识别,召回率为48.2244%。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (3)
1.一种基于支持向量机原理的用户行为识别方法,其特征在于:所述方法首先分析电商用户行为数据的特点,基于支持向量机分类原理,利用用户在浏览产品页面时所留下的非平衡性历史行为数据进行训练,通过训练出的分类超平面对未来用户短期内购买产品所属品牌进行识别。
2.根据权利要求1所述的一种基于支持向量机原理的用户行为识别方法,其特征在于,所述识别方法实现方式如下:
1)、对于已经收集到的原始数据,要首先对其所具备的特点进行分析;
2)、针对已获取数据的特点,基于支持向量机原理,提取特征,建立适合于该数据的,并且能够达到预期功能的支持向量机分析模型;
3)、编写程序,导入数据,完成模型的计算,得到分析结果,并对结果予以展示。
3.根据权利要求1或2所述的一种基于支持向量机原理的用户行为识别方法,其特征在于,所述识别方法的具体操作步骤如下:
1)获取原始数据,并储存在数据库中;
2)总览原始数据,分析总结原始数据的特点;
3)提出可行的基于支持向量机原理的分析模型;
4)选取特征并建立评价指标;
5)利用相关专业软件,同时编写核心程序,完成模型的计算;
6)展示识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063343.7A CN104599159A (zh) | 2015-02-06 | 2015-02-06 | 一种基于支持向量机原理的用户行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063343.7A CN104599159A (zh) | 2015-02-06 | 2015-02-06 | 一种基于支持向量机原理的用户行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104599159A true CN104599159A (zh) | 2015-05-06 |
Family
ID=53124913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510063343.7A Pending CN104599159A (zh) | 2015-02-06 | 2015-02-06 | 一种基于支持向量机原理的用户行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104599159A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127341A (zh) * | 2016-06-24 | 2016-11-16 | 北京市地铁运营有限公司地铁运营技术研发中心 | 一种城市轨道交通新建线路能耗测算模型 |
CN106650760A (zh) * | 2015-10-28 | 2017-05-10 | 华为技术有限公司 | 基于流量分析识别用户行为对象的方法和装置 |
WO2017107571A1 (zh) * | 2015-12-24 | 2017-06-29 | 北京大学 | 一种基于用户管理应用行为的应用质量判别方法及系统 |
CN107292513A (zh) * | 2017-06-21 | 2017-10-24 | 国网辽宁省电力有限公司 | 一种基于svm分类算法实现电力客户管理的方法 |
CN107633422A (zh) * | 2017-08-24 | 2018-01-26 | 武汉科技大学 | 一种基于用户行为的市场预测方法及装置 |
CN107705185A (zh) * | 2017-10-13 | 2018-02-16 | 山东浪潮通软信息科技有限公司 | 一种商品推荐方法及装置 |
CN109191436A (zh) * | 2018-08-15 | 2019-01-11 | 复旦大学 | 基于视觉显著性谱残差方法的低剂量ct肺结节检测算法 |
CN112819495A (zh) * | 2019-11-18 | 2021-05-18 | 南京财经大学 | 一种基于随机多项式核的用户购物意图预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033194A1 (en) * | 2001-09-05 | 2003-02-13 | Pavilion Technologies, Inc. | System and method for on-line training of a non-linear model for use in electronic commerce |
CN101556553A (zh) * | 2009-03-27 | 2009-10-14 | 中国科学院软件研究所 | 基于需求变更的缺陷预测方法和系统 |
CN103886486A (zh) * | 2014-03-21 | 2014-06-25 | 吉首大学 | 一种基于支持向量机svm的电子商务推荐方法 |
CN104331816A (zh) * | 2014-10-28 | 2015-02-04 | 常州大学 | 基于知识学习和隐私保护的大数据用户购买意愿预测方法 |
-
2015
- 2015-02-06 CN CN201510063343.7A patent/CN104599159A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033194A1 (en) * | 2001-09-05 | 2003-02-13 | Pavilion Technologies, Inc. | System and method for on-line training of a non-linear model for use in electronic commerce |
CN101556553A (zh) * | 2009-03-27 | 2009-10-14 | 中国科学院软件研究所 | 基于需求变更的缺陷预测方法和系统 |
CN103886486A (zh) * | 2014-03-21 | 2014-06-25 | 吉首大学 | 一种基于支持向量机svm的电子商务推荐方法 |
CN104331816A (zh) * | 2014-10-28 | 2015-02-04 | 常州大学 | 基于知识学习和隐私保护的大数据用户购买意愿预测方法 |
Non-Patent Citations (1)
Title |
---|
熊海涛 著: "《复杂数据分析方法及其应用研究》", 31 May 2013 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650760A (zh) * | 2015-10-28 | 2017-05-10 | 华为技术有限公司 | 基于流量分析识别用户行为对象的方法和装置 |
US10769254B2 (en) | 2015-10-28 | 2020-09-08 | Huawei Technologies Co., Ltd. | Method and apparatus for identifying user behavior object based on traffic analysis |
WO2017107571A1 (zh) * | 2015-12-24 | 2017-06-29 | 北京大学 | 一种基于用户管理应用行为的应用质量判别方法及系统 |
CN106127341A (zh) * | 2016-06-24 | 2016-11-16 | 北京市地铁运营有限公司地铁运营技术研发中心 | 一种城市轨道交通新建线路能耗测算模型 |
CN107292513A (zh) * | 2017-06-21 | 2017-10-24 | 国网辽宁省电力有限公司 | 一种基于svm分类算法实现电力客户管理的方法 |
CN107633422A (zh) * | 2017-08-24 | 2018-01-26 | 武汉科技大学 | 一种基于用户行为的市场预测方法及装置 |
CN107705185A (zh) * | 2017-10-13 | 2018-02-16 | 山东浪潮通软信息科技有限公司 | 一种商品推荐方法及装置 |
CN109191436A (zh) * | 2018-08-15 | 2019-01-11 | 复旦大学 | 基于视觉显著性谱残差方法的低剂量ct肺结节检测算法 |
CN112819495A (zh) * | 2019-11-18 | 2021-05-18 | 南京财经大学 | 一种基于随机多项式核的用户购物意图预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104599159A (zh) | 一种基于支持向量机原理的用户行为识别方法 | |
Parmar et al. | A review on random forest: An ensemble classifier | |
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
Zhu et al. | Online purchase decisions for tourism e-commerce | |
Xu et al. | Improving user recommendation by extracting social topics and interest topics of users in uni-directional social networks | |
Sridhar et al. | Multi-head self-attention transformer for dogecoin price prediction | |
CN107357793A (zh) | 信息推荐方法和装置 | |
Zineb et al. | An intelligent approach for data analysis and decision making in big data: a case study on e-commerce industry | |
CN106157156A (zh) | 一种基于用户社区的协作推荐系统 | |
Vamosi et al. | A deep recurrent neural network approach to learn sequence similarities for user-identification | |
Satapathy et al. | An automated car price prediction system using effective machine learning techniques | |
Yi et al. | Analysis of stock market public opinion based on web crawler and deep learning technologies including 1DCNN and LSTM | |
Rao et al. | Hm-smf: An efficient strategy optimization using a hybrid machine learning model for stock market prediction | |
CN110209944A (zh) | 一种股票分析师推荐方法、装置、计算机设备和存储介质 | |
Jiang et al. | Durable product review mining for customer segmentation | |
CN114238758B (zh) | 一种基于多源跨界数据融合的用户画像预测方法 | |
Yang et al. | RF-LighGBM: A probabilistic ensemble way to predict customer repurchase behaviour in community e-commerce | |
Huang et al. | Clustering analysis on e-commerce transaction based on k-means clustering | |
Chen | Research of Data Mining Based on Neural Network | |
Bhandari et al. | Enhanced Apriori Algorithm model in course suggestion system | |
Amirah et al. | Hybrid Machine Learning Methods with Malay Lexicon for Public Polarity Opinion on Water Related Issue | |
Peng et al. | Credit scoring model in imbalanced data based on cnn-atcn | |
Zhang et al. | Research on patent recommendation method based on graph neural network | |
Liu et al. | A Graph Neural Network Recommendation Method Integrating Multi Head Attention Mechanism and Improved Gated Recurrent Unit Algorithm | |
Li | The feature classification method of mobile e-commerce big data under the webcast mode |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150506 |
|
RJ01 | Rejection of invention patent application after publication |