CN109948677B - 一种基于混合特征值的托攻击检测方法 - Google Patents

一种基于混合特征值的托攻击检测方法 Download PDF

Info

Publication number
CN109948677B
CN109948677B CN201910169114.1A CN201910169114A CN109948677B CN 109948677 B CN109948677 B CN 109948677B CN 201910169114 A CN201910169114 A CN 201910169114A CN 109948677 B CN109948677 B CN 109948677B
Authority
CN
China
Prior art keywords
item
user
items
attack
popular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910169114.1A
Other languages
English (en)
Other versions
CN109948677A (zh
Inventor
雷梦宁
王新美
方腾源
何永泰
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN201910169114.1A priority Critical patent/CN109948677B/zh
Publication of CN109948677A publication Critical patent/CN109948677A/zh
Application granted granted Critical
Publication of CN109948677B publication Critical patent/CN109948677B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于混合特征值的托攻击检测方法,该方法针对传统的基于评分值差异提取的特征在检测托攻击时误判率过高的问题,采用了Degsim,MeanVar,WDA,CHIP,CHIN五个特征值,与现有技术对比,考虑了项目与流行项目、项目与新颖项目之间的关联程度。通过分析真实用户和攻击用户评分项目选择方式的不同,准确检测出攻击用户。通过应用到具体实施例中发现,该方法准确率高于PCA检测算法。

Description

一种基于混合特征值的托攻击检测方法
【技术领域】
本发明属于信息安全领域,具体涉及一种基于混合特征值的托攻击检测方法。
【背景技术】
协同过滤推荐系统可以通过分析用户的各种习惯和操作来判断并帮助用户快速的找到其所需要的信息,它的出现使“信息爆炸”现象得到一定的缓解。
托攻击是指托攻击者利用协同过滤具有开放性的特点,通过注入虚假用户评价的方式来提高或降低商品的推荐率,分别被称为推攻击与核攻击。
为了最大程度的解决这个问题,研究者们提出了多种托攻击检测方法,其中大多都是针对真实用户和虚假用户的评分的差异性来进行检测,并取得了一定的成果,但是随着攻击手段更加高明,如何准确的检测出攻击用户变成现在的热点问题之一。
【发明内容】
本发明的目的在于克服上述现有技术的缺点,通过分析真实用户和攻击用户评分项目选择方式的不同,提出了一种基于混合特征值的托攻击检测方法,该方法通过采用Degsim,MeanVar,WDA,CHIP,CHIN五个特征值,准确检测出攻击用户。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于混合特征值的托攻击检测方法,包括以下步骤:
步骤1,选取真实用户数据集和攻击用户数据集,混合后得到混合矩阵数据集;
步骤2,针对混合矩阵数据集中的每个用户的近邻平均用户相似度、均值方差,加权评分一致度,流行项目的卡方估计值和新颖项目的卡方估计值五个特征值进行特征提取,得到五个特征向量;
步骤3,将所有用户的近邻平均用户相似度、均值方差和加权评分一致度三个特征向量共同组成一个矩阵,通过K-means聚类算法将该矩阵分为两类,为第一真实用户集合和第一攻击用户集合;
步骤4,将流行项目的卡方估计值的特征向量和第一阈值比较,将新颖项目的卡方估计值的特征向量和第二阈值比较,将这两个特征向量均大于各自阈值的用户设定为真实用户,将这两个特征向量均小于各自阈值的用户标记为攻击用户,得到第二真实用户集合和第二攻击用户集合;
步骤5,将步骤3和步骤4得到的第一攻击用户集合和第二攻击用户集合进行交集运算,得到最终攻击用户集合,剩余的用户为真实用户集合。
本发明的进一步改进在于:
优选的,步骤1中,攻击用户数据集和真实用户数据集的混合模型为流行攻击模型。
优选的,步骤2具体包括以下步骤:
步骤2.1,将混合矩阵数据集输入至Matlab程序中,其中用户用U={u1,u2,u3...}来表示,项目用I={i1,i2,i3....}表示,U为混合矩阵数据集的行,I为混合矩阵数据集的列;
步骤2.2,提取每个用户的近邻平均用户相似度、均值方差,加权评分一致度,流行项目的卡方估计值和新颖项目的卡方估计值五个特征值;
(1)DegSim表示近邻平均用户相似度,,第u个用户的DegSim计算公式如下式(5):
Figure BDA0001987335500000021
其中,
Figure BDA0001987335500000022
是皮尔逊相似度,u,v表示数据集DATE中两个不同的用户,r表示用户u对项目的评分,k指要选取最近的用户数目;
(2)MeanVar表示均值方差,第u个用户的MeanVar的计算公式如下式(6):
Figure BDA0001987335500000023
其中,PU,F是用户U的所有评分项目中把最高的评分减去之后剩下的集合项目,|Pu,F|是指该集合中所有项目的总数,ruj为用户u对填充项目j的评分值,
Figure BDA0001987335500000031
为用户u对项目的平均评分;
(3)WDA表示加权评分一致度,第u个用户的加权评分一致度的计算公式如下式(7)所示:
Figure BDA0001987335500000032
其中,Nu表示用户u评价过的项目个数,NRi表示项目i被评价过的次数,ri表示项目i的评分均值,ru,i表示用户u对项目i的评分;
(4)CHIP表示流行项目的卡方估计值,其计算公式如下式(8)所示:
Figure BDA0001987335500000033
其中,I表示数据集中所有的项目,A表示既属于有评分项目集合又属于流行项目集合的个数,B表示属于有评分的项目集合但是不属于流行项目集合的个数,C表示不属于有评分项目的集合却属于流行项目的集合个数,D表示既不属于有评分项目的集合也不属于流行项目的集合个数;
(6)CHIN表示新颖项目的卡方估计值,其计算公式如下式(9)所示:
Figure BDA0001987335500000034
其中,I表示数据集中所有的项目,A1表示既属于有评分项目集合又属于新颖项目的集合个数,B1表示属于有评分的项目集合但是不属于新颖项目的集合个数,C1表示不属于有评分项目的集合但属于新颖项目的集合个数,D1表示既不属于有评分项目的集合也不属于新颖项目的集合个数。
优选的,步骤2中的流行项目的卡方估计值计算前需计算每个项目的流行度,按照项目流行度降序排序,把所有项目分为流行项目集合和非流行项目集合。
优选的,第i项目的流行度的计算公式如下式(2)所示:
Figure BDA0001987335500000043
其中Di表示混合矩阵A中所有真实用户的合集,ru,i表示用户u对项目i的评分;若ru,i=φ,则Ψ(ru,i)=0,若ru,i=φ,则Ψ(ru,i)=0,其中,φ代表空集。
优选的,步骤2中的新颖项目的卡方估计值计算前需计算每个项目的新颖度,按照项目新颖度降序排序,把所有项目分为新颖项目集合和非新颖项目集合。
优选的,每个项目的新颖度的计算公式如下式(3)所示:
第i个项目新颖度INovi的计算公式如下:
Figure BDA0001987335500000041
其中,|Dg|表示现在集合中的所有用户数目,ru,i表示用户u对项目i的评分,φ代表空集;
式中,Novu,i表示第u个用户对其任意一个项目的新颖程度,计算公式如下:
Figure BDA0001987335500000042
其中,Nu表示用户u的项目评分数,w(i,j)表示项目i和项目j的余弦相似度。
优选的,步骤3中K-means聚类算法将矩阵分为两类具体包括以下步骤:
步骤3.1首先在样本中随机选择K个质心点;
步骤3.2分别计算剩余的数据到前面所选的K个质心点之间的欧式距离,然后得到距离最短的样本数据,就将此类样本数据与该质心点归为一类,共得到K类数据;
步骤3.3重新对每一类中的数据进行计算,找到新的中心点,然后根据前面计算剩余样本与新的中心点的距离,将距离短的放为一类;
步骤3.4重复步骤3.2和3.3,直到质心点的位置不再改变,样本聚类完成。
优选的,步骤3.4样本聚类后聚类质量的衡量指标由函数J表示,d维数据X={xj|xj∈Rd,i=1,2,3,...,N}聚集成基准点分别为c1,c2,c3,…,ck的k个类簇W1,W2,W3,…,Wk,其中
Figure BDA0001987335500000051
|Wi|为类簇Wi中样本点的个数,函数J计算公式如下式(10)所示:
Figure BDA0001987335500000052
其中,dij(xj,ci)表示样本点xj与基准点ci的欧氏距离。
与现有技术相比,本发明具有以下有益效果:
本发明公开了一种基于混合特征值的托攻击检测方法,该方法针对传统的基于评分值差异提取的特征在检测托攻击时误判率过高的问题,采用了Degsim,MeanVar,WDA,CHIP,CHIN五个特征值,与现有技术对比,考虑了项目与流行项目、项目与新颖项目之间的关联程度。通过分析真实用户和攻击用户评分项目选择方式的不同,准确检测出攻击用户。通过应用到具体实施例中发现,该方法准确率高于PCA检测算法。
【附图说明】
图1是本发明的方法流程图;
图2是Degsim,MeanVar,WDA三个特征值绘制的三维图;
图3是本发明方法与PCA检测方法准确率对比;
其中,(a)图为填充规模3%,(b)图为填充规模5%,(c)图为填充规模8%,(d)图为填充规模10%;
图4是本发明方法与PCA检测方法召回率对比;
其中,(a)图为填充规模3%,(b)图为填充规模5%,(c)图为填充规模8%,(d)图为填充规模10%;
【具体实施方式】
下面结合具体步骤和附图对本发明做进一步详细描述:
攻击过程中,攻击用户向协同过滤推荐系统中注入攻击模型,攻击模型是为了使攻击用户与正常用户更相似而产生的,攻击模型M通常由下式表示的四元组形式来描述:
M=<α,β,φ,γ> (1)
其中,α为选择项目集合的评分函数;β为填充项目集合的评分函数;φ为未评分项目集合的评分函数;γ为该函数一般为空为目标项目集合的评分函数。
常见的攻击模式有随机攻击,均值攻击,流行攻击等;
攻击模型的分类如表1所示,但在此发明中我们只采用标准攻击模型中的流行攻击来进行实验。
表1攻击模型分类
Figure BDA0001987335500000061
参见图1,整个攻击过程具体包括以下步骤:
步骤1:构造混合矩阵A,在此采用学术界公认的MovieLens数据集作为原始数据集,规模为100K,因为原始数据集为真实用户评分的数据集,而混合矩阵则是通过一定的攻击方法往真实用户数据集中添加了虚假用户数据集,虚假用户即为攻击用户,用于对真实数据进行流行攻击,添加虚假用户后的矩阵为混合矩阵A,进而得到混合矩阵数据集DATE,即为攻击后的数据集。
步骤2:针对混合矩阵数据集DATE,分别用近邻平均用户相似度(Degsim)、均值方差(MeanVar),加权评分一致度(WDA),流行项目的卡方估计值(CHIP),新颖项目的卡方估计值(CHIN)五个特征值对混合矩阵DATE进行特征提取算法得到相应的特征向量;具体包括以下步骤:
步骤2.1:将数据集DATE输入至Matlab程序中,其中用户(矩阵DATE的行)用U={u1,u2,u3…}表示,项目(矩阵DATE的列)用I={i1,i2,i3....}表示;
步骤2.2:计算每个项目的流行度和新颖度,然后按照项目流行度降序排序,把所有项目分为流行项目集合和非流行项目集合,同理,按照项目新颖度降序,把所有项目分为新颖项目集合和非新颖项目集合;该步主要用于步骤3中计算流行项目的卡方估计值(CHIP)和新颖项目的卡方估计值(CHIN),第i个项目流行度IPOPi的计算公式如下所示:
Figure BDA0001987335500000073
其中Di表示混合矩阵A中所有真实用户的合集,ru,i表示用户u对项目i的评分。若ru,i=φ,则Ψ(ru,i)=0,若ru,i=φ,则Ψ(ru,i)=0,其中,φ代表空集。
第i个项目新颖度INovi的计算公式如下:
Figure BDA0001987335500000071
其中,|Dg|表示集合中的所有用户数目。
式中,Novu,i表示第u个用户对其任意一个项目的新颖程度,计算公式如下:
Figure BDA0001987335500000072
其中,Nu表示用户u的项目评分数,w(i,j)表示项目i和项目j的余弦相似度,其它的含义同上。
步骤2.3:对混合矩阵数据集DATE分别用DegSim,MeanVar,WDA,CHIP,CHIN五个特征值进行特征提取算法,将提取出来的数据依此存放入特征矩阵V中。
(1)DegSim表示近邻平均用户相似度,第u个用户的DegSim计算公式如下:
Figure BDA0001987335500000081
其中,
Figure BDA0001987335500000082
是皮尔逊相似度,u,v表示数据集DATE种两个不同的用户,r表示用户u对项目的评分,k指要选取最近的用户数目。
(2)MeanVar表示均值方差,第u个用户的MeanVar的计算公式如下所示:
Figure BDA0001987335500000083
其中,Pu,F是用户U的所有评分项目中把最高的评分减去之后剩下的集合项目,|Pu,F|是指该集合中所有项目的总数,ru,j为用户u对填充项目j的评分值,
Figure BDA0001987335500000084
为用户u对项目的平均评分。
(3)WDA表示加权评分一致度:是通过相应项目评分数目的逆向权重来衡量用来对项目的评分背离该项目评分均值的程度,第u个用户的加权评分一致度的WDAu的计算公式如下:
Figure BDA0001987335500000085
其中,Nu表示用户u评价过的项目个数,NRi表示项目i被评价过的次数,ri表示项目i的评分均值,ru,i表示用户u对项目i的评分。
(4)CHIP表示流行项目的卡方估计值:表示为一个项目与整个流行项目之间的相关程度。其主要公式如下:
Figure BDA0001987335500000086
其中,I表示数据集中所有的项目,A表示既属于有评分项目集合又属于流行项目集合的个数,B表示属于有评分的项目集合但是不属于流行项目集合(非流行项目集合)的个数,C表示虽然不属于有评分项目的集合却属于流行项目的集合个数,D表示既不属于有评分项目的集合也不属于流行项目(非流行项目集合)的集合个数。此处的流行项目集合和非流行项目集合通过上述的步骤2.2得到。
(6)CHIN表示新颖项目的卡方估计值:表示为一个项目与选定的新颖项目之间的相关程度。其主要公式如下:
Figure BDA0001987335500000091
其中,I表示数据集中所有的项目,A1表示既属于有评分项目集合又属于新颖项目的集合个数,B1表示属于有评分的项目集合但是不属于新颖项目的集合(非新颖项目集合)个数,C1表示不属于有评分项目的集合但属于新颖项目的集合个数,D1表示既不属于有评分项目的集合也不属于新颖项目的集合(非新颖项目集合)个数,此处的新颖项目集合和非新颖项目集合通过上述的步骤2.2得到。
步骤3:通过K-means聚类算法将所有用户的DegSim,MeanVar,WDA三个特征值得到的特征向量(即特征矩阵V中的前三列)聚成两类,这两类分别为第一真实用户集合和第二攻击用户集合。
K-means主要用于将所给的样本中的数据聚成K个类(K的值是根据需要随机选取得),本发明中,选择K为2;该算法的具体步骤如下:
步骤3.1首先在样本中随机选择K个质心点;
步骤3.2分别计算剩余的数据到前面所选的K个质心点之间的欧式距离,然后得到距离最短的样本数据,就将此类样本数据与该质心点归为一类,共得到K类数据;
步骤3.3重新对每一类中的数据进行计算,找到新的中心点,然后根据前面计算剩余样本与新的中心点的距离,将距离短的放为一类;
步骤3.4一直重复上述过程,直到质心点的位置不再改变,样本聚类完成。
聚类质量的衡量指标由函数J表示,其定义如下:
d维数据X={xj|xj∈Rd,i=1,2,3,...,N}聚集成基准点分别为c1,c2,c3,…,ck的k个类簇W1,W2,W3,…,Wk,,其中Rd表示d维数据,其中
Figure BDA0001987335500000101
|wi|为类簇wi中样本点的个数。则函数J的计算方式如下:
Figure BDA0001987335500000102
其中,dij(xj,ci)表示样本点xj与基准点ci的欧氏距离。
通过上述步骤,使得被攻击后的数据分为真实用户集合和攻击用户集合。
步骤4:对CHIP,CHIN两个特征值提取得到的两个特征向量(即特征矩阵V的后两列)分别进行阈值判断操作;分别将大于阈值的标记为真实用户,将小于阈值的标记为攻击用户;其中阈值的选择需要通过多次实验来确定,得到第二真实用户集合和第二攻击用户集合;
步骤5:将步骤4中两次阈值判断操作得到的两个攻击用户集合取交集得到一个攻击用户集合,剩余的用户则为真实用户集合。
实施例:
在实验中,采用Movielens数据集,它是指943个观众对1682部电影的随机评价,采取5分制,即最高分记5分,最低分记1分,未评分的记为0。
选取的攻击规模分别为3%,5%,8%,10%,12%,填充规模分别为3%,5%,8%,10%,选择的攻击目的为推攻击,选择的攻击模型为流行攻击;
根据检测结果计算准确率(Precision)和召回率(Recall),并与PCA检测方法进行对比;其计算公式如下:
Figure BDA0001987335500000103
Figure BDA0001987335500000104
其中,TP表示被正确识别的攻击用户的数目,FP表示被误判的真实用户的数目,FN表示未被识别出来的攻击用户的数目;
定义本发明的检测算法为T-Kmeans,通过计算本发明中的检测方法的准确率和召回率与PCA检测方法进行对比,得到的实验结果见图2、图3、图4,
从图2的三维图可以看出是为了证明Degsim,MeanVar,WDA三个特征值能够区分攻击用户和正常用户。
从图3中可以看到在填充规模为3%、5%、8%、10%的情况下,随着攻击规模的增大,PCA和T-kmeans检测算法准确率都在持续增加,且T-kmeans检测算法准确率一直比PCA检测算法准确率高,这说明攻击规模越大,检测得到的准确率就越高,还说明文中提出的T-kmeans算法在准确率方面比PCA检测算法要高。
从图4中可以看到在填充规模为3%、5%、8%、10%的情况下,随着攻击规模的增大,T-kmeans检测算法的召回率一直比PCA检测算法的召回率高,这说明T-kmeans算法在召回率方面比PCA检测算法要高。
这可能是因为加入了流行度和新颖度两个特征指标,通过计算项目与流行项目之间的关联程度和计算项目与新颖项目之间的关联程度能够有效区分一部分攻击用户和正常用户,这样与前三个特征值得到的攻击用户进行求交集操作,就能过滤掉一部分误判的真实用户,得到更加准确的检测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于混合特征值的托攻击检测方法,其特征在于,包括以下步骤:
步骤1,选取真实用户数据集和攻击用户数据集,混合后得到混合矩阵数据集;
步骤2,针对混合矩阵数据集中的每个用户的近邻平均用户相似度、均值方差,加权评分一致度,流行项目的卡方估计值和新颖项目的卡方估计值五个特征值进行特征提取,得到五个特征向量;
步骤3,将所有用户的近邻平均用户相似度、均值方差和加权评分一致度三个特征向量共同组成一个矩阵,通过K-means聚类算法将该矩阵分为两类,为第一真实用户集合和第一攻击用户集合;
步骤4,将流行项目的卡方估计值的特征向量和第一阈值比较,将新颖项目的卡方估计值的特征向量和第二阈值比较,将这两个特征向量均大于各自阈值的用户设定为真实用户,将这两个特征向量均小于各自阈值的用户标记为攻击用户,得到第二真实用户集合和第二攻击用户集合;
步骤5,将步骤3和步骤4得到的第一攻击用户集合和第二攻击用户集合进行交集运算,得到最终攻击用户集合,剩余的用户为真实用户集合。
2.根据权利要求1所述的一种基于混合特征值的托攻击检测方法,其特征在于,步骤1中,攻击用户数据集和真实用户数据集的混合模型为流行攻击模型。
3.根据权利要求1所述的一种基于混合特征值的托攻击检测方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1,将混合矩阵数据集输入至Matlab程序中,其中用户用U={u1,u2,u3...}来表示,项目用I={i1,i2,i3....}表示,U为混合矩阵数据集的行,I为混合矩阵数据集的列;
步骤2.2,提取每个用户的近邻平均用户相似度、均值方差,加权评分一致度,流行项目的卡方估计值和新颖项目的卡方估计值五个特征值;
(1)DegSim表示近邻平均用户相似度,,第u个用户的DegSim计算公式如下式(5):
Figure FDA0001987335490000021
其中,
Figure FDA0001987335490000022
是皮尔逊相似度,u,v表示数据集DATE中两个不同的用户,r表示用户u对项目的评分,k指要选取最近的用户数目;
(2)MeanVar表示均值方差,第u个用户的MeanVar的计算公式如下式(6):
Figure FDA0001987335490000023
其中,PU,F是用户U的所有评分项目中把最高的评分减去之后剩下的集合项目,|Pu,F|是指该集合中所有项目的总数,ru,j为用户u对填充项目j的评分值,
Figure FDA0001987335490000024
为用户u对项目的平均评分;
(3)WDA表示加权评分一致度,第u个用户的加权评分一致度的计算公式如下式(7)所示:
Figure FDA0001987335490000025
其中,Nu表示用户u评价过的项目个数,NRi表示项目i被评价过的次数,ri表示项目i的评分均值,ru,i表示用户u对项目i的评分;
(4)CHIP表示流行项目的卡方估计值,其计算公式如下式(8)所示:
Figure FDA0001987335490000026
其中,I表示数据集中所有的项目,A表示既属于有评分项目集合又属于流行项目集合的个数,B表示属于有评分的项目集合但是不属于流行项目集合的个数,C表示不属于有评分项目的集合却属于流行项目的集合个数,D表示既不属于有评分项目的集合也不属于流行项目的集合个数;
(6)CHIN表示新颖项目的卡方估计值,其计算公式如下式(9)所示:
Figure FDA0001987335490000031
其中,I表示数据集中所有的项目,A1表示既属于有评分项目集合又属于新颖项目的集合个数,B1表示属于有评分的项目集合但是不属于新颖项目的集合个数,C1表示不属于有评分项目的集合但属于新颖项目的集合个数,D1表示既不属于有评分项目的集合也不属于新颖项目的集合个数。
4.根据权利要求3所述的一种基于混合特征值的托攻击检测方法,其特征在于,步骤2中的流行项目的卡方估计值计算前需计算每个项目的流行度,按照项目流行度降序排序,把所有项目分为流行项目集合和非流行项目集合。
5.根据权利要求4所述的一种基于混合特征值的托攻击检测方法,其特征在于,第i项目的流行度的计算公式如下式(2)所示:
Figure FDA0001987335490000032
其中Di表示混合矩阵A中所有真实用户的合集,ru,i表示用户u对项目i的评分;若ru,i=φ,则Ψ(ru,i)=0,若ru,i=φ,则Ψ(ru,i)=0,其中,φ代表空集。
6.根据权利要求3所述的一种基于混合特征值的托攻击检测方法,其特征在于,步骤2中的新颖项目的卡方估计值计算前需计算每个项目的新颖度,按照项目新颖度降序排序,把所有项目分为新颖项目集合和非新颖项目集合。
7.根据权利要求3所述的一种基于混合特征值的托攻击检测方法,其特征在于,每个项目的新颖度的计算公式如下式(3)所示:
第i个项目新颖度INovi的计算公式如下:
Figure FDA0001987335490000033
其中,|Dg|表示现在集合中的所有用户数目,ru,i表示用户u对项目i的评分,φ代表空集;
式中,Novu,i表示第u个用户对其任意一个项目的新颖程度,计算公式如下:
Figure FDA0001987335490000041
其中,Nu表示用户u的项目评分数,w(i,j)表示项目i和项目j的余弦相似度。
8.根据权利要求3所述的一种基于混合特征值的托攻击检测方法,其特征在于,步骤3中K-means聚类算法将矩阵分为两类具体包括以下步骤:
步骤3.1首先在样本中随机选择K个质心点;
步骤3.2分别计算剩余的数据到前面所选的K个质心点之间的欧式距离,然后得到距离最短的样本数据,就将此类样本数据与该质心点归为一类,共得到K类数据;
步骤3.3重新对每一类中的数据进行计算,找到新的中心点,然后根据前面计算剩余样本与新的中心点的距离,将距离短的放为一类;
步骤3.4重复步骤3.2和3.3,直到质心点的位置不再改变,样本聚类完成。
9.根据权利要求8所述的一种基于混合特征值的托攻击检测方法,其特征在于,步骤3.4样本聚类后聚类质量的衡量指标由函数J表示,d维数据X={xj|xj∈Rd,i=1,2,3,...,N}聚集成基准点分别为c1,c2,c3,…,ck的k个类簇W1,W2,W3,…,Wk,其中
Figure FDA0001987335490000042
|Wi|为类簇Wi中样本点的个数,函数J计算公式如下式(10)所示:
Figure FDA0001987335490000043
其中,dij(xj,ci)表示样本点xj与基准点ci的欧氏距离。
CN201910169114.1A 2019-03-06 2019-03-06 一种基于混合特征值的托攻击检测方法 Expired - Fee Related CN109948677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910169114.1A CN109948677B (zh) 2019-03-06 2019-03-06 一种基于混合特征值的托攻击检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910169114.1A CN109948677B (zh) 2019-03-06 2019-03-06 一种基于混合特征值的托攻击检测方法

Publications (2)

Publication Number Publication Date
CN109948677A CN109948677A (zh) 2019-06-28
CN109948677B true CN109948677B (zh) 2022-12-02

Family

ID=67009279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910169114.1A Expired - Fee Related CN109948677B (zh) 2019-03-06 2019-03-06 一种基于混合特征值的托攻击检测方法

Country Status (1)

Country Link
CN (1) CN109948677B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046283A (zh) * 2019-12-04 2020-04-21 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及存储介质
CN111967909A (zh) * 2020-08-17 2020-11-20 国网山西省电力公司营销服务中心 一种基于卷积神经网络的托攻击检测方法
CN113722607B (zh) * 2021-06-25 2023-12-08 河海大学 一种基于改进聚类的托攻击检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809393A (zh) * 2015-05-11 2015-07-29 重庆大学 一种基于流行度分类特征的托攻击检测算法
WO2016191959A1 (zh) * 2015-05-29 2016-12-08 深圳市汇游智慧旅游网络有限公司 一种时变的协同过滤推荐方法
CN106874427A (zh) * 2017-01-23 2017-06-20 华南理工大学 基于项目关联的托攻击检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809393A (zh) * 2015-05-11 2015-07-29 重庆大学 一种基于流行度分类特征的托攻击检测算法
WO2016191959A1 (zh) * 2015-05-29 2016-12-08 深圳市汇游智慧旅游网络有限公司 一种时变的协同过滤推荐方法
CN106874427A (zh) * 2017-01-23 2017-06-20 华南理工大学 基于项目关联的托攻击检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于特征指标推荐系统托攻击半监督检测;卫星君等;《计算机应用研究》;20170614(第07期);全文 *
基于项目流行度和新颖度分类特征的托攻击检测算法;于洪涛等;《工程科学与技术》;20170120(第01期);全文 *

Also Published As

Publication number Publication date
CN109948677A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109948677B (zh) 一种基于混合特征值的托攻击检测方法
CN109887015B (zh) 一种基于局部曲面特征直方图的点云自动配准方法
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
Erisoglu et al. A new algorithm for initial cluster centers in k-means algorithm
Zheng et al. Person re-identification meets image search
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
Sharma et al. Hierarchical maximum likelihood clustering approach
CN111343171B (zh) 一种基于支持向量机的混合特征选择的入侵检测方法
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN102346851B (zh) 基于njw谱聚类标记的图像分割方法
Braga-Neto Fads and fallacies in the name of small-sample microarray classification-a highlight of misunderstanding and erroneous usage in the applications of genomic signal processing
Xu et al. Similar handwritten Chinese characters recognition by critical region selection based on average symmetric uncertainty
CN107194413A (zh) 一种基于多特征融合的判别型级联外观模型的目标匹配方法
CN103345621B (zh) 一种基于稀疏浓度指数的人脸分类方法
CN110516533A (zh) 一种基于深度度量的行人再辨识方法
CN106570537A (zh) 一种基于混淆矩阵的随机森林模型选择方法
Wang et al. An improved k-means algorithm based on kurtosis test
Pugazhenthi et al. Selection of optimal number of clusters and centroids for k-means and fuzzy c-means clustering: A review
CN107563393A (zh) 一种甲骨文图片局部纹理特征的提取及匹配方法及系统
CN110765364A (zh) 基于局部优化降维和聚类的协同过滤方法
CN111428064B (zh) 小面积指纹图像快速索引方法、装置、设备及存储介质
CN101739545A (zh) 一种人脸检测方法
CN106326927B (zh) 一种鞋印新类别检测方法
CN110472088B (zh) 一种基于草图的图像检索方法
CN106127236B (zh) 基于狄利克雷mrf混合模型的极化sar图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221202

CF01 Termination of patent right due to non-payment of annual fee