CN106250917A - 一种基于加速近端梯度pca的时序评分异常值检测方法 - Google Patents
一种基于加速近端梯度pca的时序评分异常值检测方法 Download PDFInfo
- Publication number
- CN106250917A CN106250917A CN201610588965.6A CN201610588965A CN106250917A CN 106250917 A CN106250917 A CN 106250917A CN 201610588965 A CN201610588965 A CN 201610588965A CN 106250917 A CN106250917 A CN 106250917A
- Authority
- CN
- China
- Prior art keywords
- matrix
- scoring
- represent
- score data
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
Abstract
本发明公开了一种基于加速近端梯度PCA的时序评分异常值检测方法,包括步骤一:获取评分数据,所述评分数据包括评分分值和评分时间;根据评分时间排序后将评分数据分割成多个时间间隔相等的段,统计每个段内各评分数据的个数占该段内评分总数的比值,得到评分分布的矩阵;步骤二:利用加速近端梯度PCA算法对所述评分分布矩阵进行降秩,将所述矩阵分解成低秩矩阵和稀疏矩阵;所述低秩矩阵用于表示所述评分数据中的基本行为,所述稀疏矩阵用于表示所述评分数据的异常评分值。
Description
技术领域
本发明属于数据挖掘领域,主要涉及一种基于加速近端梯度PCA的时序评分异常值检测方法。
背景技术
随着经济和科技的快速发展,网购已经深入人们生活的点点滴滴。2015年我国人均网购金额已经超过9000元,由此产生了大量针对产品或者服务的评分数据。一方面这些评分可以给消费者提供参考,帮助他们在购物的时候做出选择;另一方面,这些评分数据也影响着商家的生产经营策略,他们可以根据评分数据,及时发现产品的缺陷,从而达到盈利的目标。但是,这些评分数据会受到异常值的影响,比如说,商家故意营造产品的高质量假象。因此,检测出这些异常评分、还原用户评分的基本表现具有十分重要的意义。
用户对于产品的评分数据并不是完全静态的,它会随着时间变化,而针对这些评分数据的时空分析可以为相关人员研究产品质量的发展提供深层次的了解。
用户的常规评分行为称为基本行为,这些基本行为描述了产品或者服务随时间而变化的总体质量。相反,异常现象就是脱离了基本行为的评分,例如,产品的质量发生变化。
主成分分析是用于高维数据分析的主要方法之一,在科学和工程领域有广泛的应用。主成分分析是一种降维的统计方法,借助一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统。
发明内容
本发明提出了一种基于加速近端梯度PCA的时序评分异常值检测方法,该方法包括以下具体步骤:
步骤一:获取评分数据,所述评分数据包括评分分值和评分时间;根据评分时间排序后将评分数据分割成多个时间间隔相等的段,统计每个段内各评分数据的个数占该段内评分总数的比值,得到评分分布矩阵;
步骤二:利用加速近端梯度PCA算法对所述评分分布矩阵进行降秩,具体采用了加速近端梯度算法,将所述矩阵分解成低秩矩阵和稀疏矩阵;所述低秩矩阵用于表示所述评分数据中的基本行为,所述稀疏矩阵用于表示所述评分数据的异常评分值。
本发明提出的所述基于加速近端梯度PCA的时序评分异常值检测方法中,利用加速近端梯度PCA对所述矩阵进行降秩,包括如下步骤:
1、步骤i:初始化零矩阵(Ak,Ak-1,Ek,Ek-1),所述零矩阵(Ak,Ak-1,Ek,Ek-1)与所述低秩矩阵及所述稀疏矩阵同大,初始化迭代操作的步长(tk,tk-1)、优化函数的折中因子(λ)、和所述评分分布矩阵的二范数(μk);
步骤ii:分别计算矩阵分别以如下公式表示:
上式中,表示矩阵Ak邻近的矩阵,表示矩阵Ek邻近的矩阵,表示求解矩阵Ak的最优化问题中的变量,表示求解矩阵Ek的最优化问题中的变量;
步骤iii:对矩阵进行奇异值分解,得到其中U表示左奇异值,Σ表示奇异值矩阵,V表示右奇异值;
步骤iv:计算Ak+1,Ek+1,分别以如下公式表示:
其中Sε(x)表示对对角矩阵x做阈值化的函数,Sε(x)=max(xii-ε,0);
步骤v:更新tk+1,即得到本次迭代的步长
步骤vi:计算如下迭代循环条件
其中||·||F表示求矩阵的Forbenius范数,分别表示低秩矩阵和稀疏矩阵本次迭代后与上次迭代结果的距离;如果不满足迭代条件,结束循环,进入步骤viii。否则进入步骤vii;
步骤vii:对循环初始值重新赋值,tk-1=tk,tk=tk+1;Ak-1=Ak,Ek-1=Ek;Ak=Ak+1,Ek=Ek+1,然后进行步骤ii:
步骤viii:得到低秩矩阵和稀疏矩阵,所述低秩矩阵Ak+1表示用户基本行为的评分分布,所述稀疏矩阵Ek+1表示检测到的用户的异常行为。
本发明的有益效果在于:本发明利用加速近端梯度鲁棒主成分分析的方法来检测动态评分数据中的异常值。该方法可以有效的减少程序运行的时间,并且提高异常值检测的准确率。通过该方法检测出来的用户基本行为,可以客观的衡量产品的质量;而检测出的异常行为则可以及时的发现产品的某些变化带来的实际效果。
附图说明
图1为基于加速近端梯度PCA的时序评分异常值检测方法的流程图。
图2为加速近端梯度PCA算法的流程图。
图3为实施例中某产品评分分布示意图。
图4为实施例中用加速近端梯度PCA方法处理剔除掉异常数据的某产品评分分布示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本实施例中,收集亚马逊网站上某产品3年内的所有评分,将所有的评分数据按时间排序,把该时间序列分成100个间隔相等的时间段,这里时间段数量的取值方法是通过统计所有的评分数,然后除以50,保证平均每个时间段里有50个评分数。每个时间段的长度为(tmmax-tmmin)/100,tmmax是最晚的评论时间,tmmin是最早的评论时间。统计每段时间内各个评分值占该时间段内评分总数的比例,将所有的比值构成一个5×100的矩阵D。
然后利用加速近端梯度PCA算法,将所述矩阵分解成低秩矩阵和稀疏矩阵;所述低秩矩阵用于表示所述评分数据中的基本行为,所述稀疏矩阵用于表示所述评分数据的异常评分值。具体步骤如下:
i.矩阵D表示原始评分分布矩阵,矩阵A表示低秩矩阵,矩阵E表示稀疏矩阵,为了进行对矩阵A和D的迭代更新计算,引入零矩阵Ak,Ak-1,Ek,Ek-1,它们表示的意义与对应的矩阵A和D一致,具体的是代表了迭代过程中前两次迭代后得出的结果,对它们进行初始化,使得上述矩阵是与矩阵D等大小的零矩阵。用t来控制每一步迭代的步长,因为每次迭代操作的步长均不一样,引入tk,tk-1,表示迭代过程中前两次的步长,并且初始化为0。令λ=0.12为优化函数的折中因子,μk=||D||2为拉格朗日函数的乘子,μk即为所述评分分布矩阵D的二范数。令矩阵Ak,Ak-1,Ek,Ek-1为5×100的零矩阵,tk,tk-1=0,λ=0.12。计算μk=||D||2,即求矩阵D的二范数。
ii.按以下公式分别计算矩阵
iii.对矩阵进行奇异值分解,得到
iv.按以下公式计算Ak+1,Ek+1;
其中Sε(x)是对对角矩阵x做阈值化的函数,具体为
Sε(x)=max(xii-ε,0);
v.更新tk+1,
vi.计算如下迭代循环条件
其中||·||F表示求矩阵的Forbenius范数。如果stop的值小于10^-7则迭代完成,结束循环,进入步骤viii。否则进入下一步。
vii.对循环初始值重新赋值,具体方法如下
tk-1=tk,tk=tk+1
Ak-1=Ak,Ek-1=Ek
Ak=Ak+1,Ek=Ek+1,然后进入步骤ii。
viii.循环结束时,矩阵Ak+1表示用户基本行为的评分分布,矩阵Ek+1表示检测到的用户的异常行为。
根据以上步骤,本实施例以图形显示相关结果,图3显示的是该产品的原评分分布图,图4是用加速近端梯度PCA方法处理剔除掉异常数据的某产品评分分布示意图。从这两张图中可以看出,本发明所提出的方法可以准确的找出异常评分,恢复产品真实的评分数据。
为了将本发明所提出来的加速近端梯度PCA的方法与传统的主成分分析方法做比较,针对某一产品的评分数据,在该数据的100组评分中,任意选取5组数据,向其中随机地添加评分,即异常评分。分别用两种方法对此数据进行处理,得到各自的评分恢复数据,将该数据与原始未添加异常值的数据进行比较,计算误差。传统的主成分分析方法的准确率为78%,加速近端梯度PCA方法的准确率为84%。
本发明所采用的加速近端梯度PCA方法,该方法可以处理满足稀疏要求下的任何分布的异常值,而传统的主成分分析方法只能处理满足高斯分布的异常值。因此,在处理一般的评分数据时,加速近端梯度PCA方法所恢复的正常评分数据更加接近原始的不受异常评分影响的评分分布,即有更高的准确率。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (2)
1.一种基于加速近端梯度PCA的时序评分异常值检测方法,其特征在于,该方法包括以下具体步骤:
步骤一:获取评分数据,所述评分数据包括评分分值和评分时间;根据评分时间排序后将评分数据分割成多个时间间隔相等的段,统计每个段内各评分数据的个数占该段内评分总数的比值,得到评分分布矩阵;
步骤二:利用加速近端梯度PCA算法对所述评分分布矩阵进行降秩,具体采用了加速近端梯度算法,将所述矩阵分解成低秩矩阵和稀疏矩阵;所述低秩矩阵用于表示所述评分数据中的基本行为,所述稀疏矩阵用于表示所述评分数据的异常评分值。
2.如权利要求1所述的时序评分异常值检测方法,其特征在于,利用加速近端梯度PCA对所述矩阵进行降秩,包括如下步骤:
步骤i:初始化零矩阵(Ak,Ak-1,Ek,Ek-1),所述零矩阵(Ak,Ak-1,Ek,Ek-1)与所述低秩矩阵及所述稀疏矩阵同大,初始化迭代操作的步长(tk,tk-1)、优化函数的折中因子(λ)、和所述评分分布矩阵的二范数(μk);
步骤ii:分别计算矩阵分别以如下公式表示:
上式中,表示矩阵Ak邻近的矩阵,表示矩阵Ek邻近的矩阵,表示求解矩阵Ak的最优化问题中的变量,表示求解矩阵Ek的最优化问题中的变量;
步骤iii:对矩阵进行奇异值分解,得到其中U表示左奇异值,∑表示奇异值矩阵,V表示右奇异值;
步骤iv:计算Ak+1,Ek+1,分别以如下公式表示:
其中Sε(x)表示对对角矩阵x做阈值化的函数,Sε(x)=max(xii-ε,0);
步骤v:更新tk+1,即得到本次迭代的步长
步骤vi:计算如下迭代循环条件
其中||·||F表示求矩阵的Forbenius范数,分别表示所述低秩矩阵和所述稀疏矩阵本次迭代后与上次迭代结果的距离;如果不满足迭代条件,结束循环,进入步骤viii。否则进入步骤vii;
步骤vii:对循环初始值重新赋值,tk-1=tk,tk=tk+1;Ak-1=Ak,Ek-1=Ek;Ak=Ak+1,Ek=Ek+1,然后进行步骤ii:
步骤viii:得到低秩矩阵和稀疏矩阵,所述低秩矩阵Ak+1表示用户基本行为的评分分布,所述稀疏矩阵Ek+1表示检测到的用户的异常行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610588965.6A CN106250917A (zh) | 2016-07-25 | 2016-07-25 | 一种基于加速近端梯度pca的时序评分异常值检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610588965.6A CN106250917A (zh) | 2016-07-25 | 2016-07-25 | 一种基于加速近端梯度pca的时序评分异常值检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106250917A true CN106250917A (zh) | 2016-12-21 |
Family
ID=57603571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610588965.6A Pending CN106250917A (zh) | 2016-07-25 | 2016-07-25 | 一种基于加速近端梯度pca的时序评分异常值检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250917A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992449A (zh) * | 2017-12-05 | 2018-05-04 | 北京工业大学 | 一种基于低秩表示的地铁异常流量检测方法 |
CN108399620A (zh) * | 2018-03-19 | 2018-08-14 | 嘉兴学院 | 一种基于低秩稀疏矩阵分解的图像质量评价方法 |
CN112368697A (zh) * | 2018-06-07 | 2021-02-12 | 谷歌有限责任公司 | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 |
-
2016
- 2016-07-25 CN CN201610588965.6A patent/CN106250917A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992449A (zh) * | 2017-12-05 | 2018-05-04 | 北京工业大学 | 一种基于低秩表示的地铁异常流量检测方法 |
CN107992449B (zh) * | 2017-12-05 | 2021-04-30 | 北京工业大学 | 一种基于低秩表示的地铁异常流量检测方法 |
CN108399620A (zh) * | 2018-03-19 | 2018-08-14 | 嘉兴学院 | 一种基于低秩稀疏矩阵分解的图像质量评价方法 |
CN108399620B (zh) * | 2018-03-19 | 2022-04-19 | 嘉兴学院 | 一种基于低秩稀疏矩阵分解的图像质量评价方法 |
CN112368697A (zh) * | 2018-06-07 | 2021-02-12 | 谷歌有限责任公司 | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 |
CN112368697B (zh) * | 2018-06-07 | 2024-09-06 | 谷歌有限责任公司 | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199832B (zh) | 基于信息熵的金融网络异常交易社区发现方法 | |
CN103729383B (zh) | 商品信息的推送方法和装置 | |
CN105913296A (zh) | 一种基于图的个性化推荐方法 | |
CN107491813A (zh) | 一种基于多目标优化的长尾群组推荐方法 | |
CN104881798A (zh) | 基于商品图像特征的个性化搜索装置及方法 | |
CN103902545B (zh) | 一种类目路径识别方法及系统 | |
CN106250917A (zh) | 一种基于加速近端梯度pca的时序评分异常值检测方法 | |
CN107784380A (zh) | 一种巡检最短路径的优化方法及优化系统 | |
CN105787488B (zh) | 由全局向局部传递的图像特征提取方法及装置 | |
CN105389486B (zh) | 一种基于鼠标行为的认证方法 | |
CN106484777A (zh) | 一种多媒体数据处理方法以及装置 | |
CN106446189A (zh) | 一种资讯推荐方法及系统 | |
CN107070867A (zh) | 基于多层局部敏感哈希表的网络流量异常快速检测方法 | |
CN106649456A (zh) | 基于多智能体进化的聚类和离群点检测方法 | |
CN102034116B (zh) | 基于互补特征和类描述的商品图像分类方法 | |
CN103605718A (zh) | 一种基于hadoop的改进的物品推荐方法 | |
CN106936778A (zh) | 网站流量异常的检测方法和装置 | |
CN105913235A (zh) | 一种客户转账关系分析方法及系统 | |
CN104408472A (zh) | 基于Wishart和SVM的极化SAR图像分类方法 | |
CN106131022A (zh) | 一种网络协同攻击风暴源检测方法及装置 | |
CN103366009A (zh) | 一种基于自适应聚类的图书推荐方法 | |
CN106600044A (zh) | 一种车辆销售量预测模型确定的方法及装置 | |
CN106257507A (zh) | 用户行为的风险评估方法及装置 | |
CN106844426A (zh) | 基于随机游走人员亲密度的计算系统及方法 | |
CN105550892A (zh) | 一种线上会员性别识别方法、系统及信息推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161221 |
|
WD01 | Invention patent application deemed withdrawn after publication |