CN109948677B

CN109948677B - 一种基于混合特征值的托攻击检测方法

Info

Publication number: CN109948677B
Application number: CN201910169114.1A
Authority: CN
Inventors: 雷梦宁; 王新美; 方腾源; 何永泰; 张宇
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2022-12-02
Anticipated expiration: 2039-03-06
Also published as: CN109948677A

Abstract

本发明公开了一种基于混合特征值的托攻击检测方法，该方法针对传统的基于评分值差异提取的特征在检测托攻击时误判率过高的问题，采用了Degsim，MeanVar，WDA，CHIP，CHIN五个特征值，与现有技术对比，考虑了项目与流行项目、项目与新颖项目之间的关联程度。通过分析真实用户和攻击用户评分项目选择方式的不同，准确检测出攻击用户。通过应用到具体实施例中发现，该方法准确率高于PCA检测算法。

Description

一种基于混合特征值的托攻击检测方法

【技术领域】

本发明属于信息安全领域，具体涉及一种基于混合特征值的托攻击检测方法。

【背景技术】

协同过滤推荐系统可以通过分析用户的各种习惯和操作来判断并帮助用户快速的找到其所需要的信息，它的出现使“信息爆炸”现象得到一定的缓解。

托攻击是指托攻击者利用协同过滤具有开放性的特点，通过注入虚假用户评价的方式来提高或降低商品的推荐率，分别被称为推攻击与核攻击。

为了最大程度的解决这个问题，研究者们提出了多种托攻击检测方法，其中大多都是针对真实用户和虚假用户的评分的差异性来进行检测，并取得了一定的成果，但是随着攻击手段更加高明，如何准确的检测出攻击用户变成现在的热点问题之一。

【发明内容】

本发明的目的在于克服上述现有技术的缺点，通过分析真实用户和攻击用户评分项目选择方式的不同，提出了一种基于混合特征值的托攻击检测方法，该方法通过采用Degsim，MeanVar，WDA，CHIP，CHIN五个特征值，准确检测出攻击用户。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于混合特征值的托攻击检测方法，包括以下步骤：

步骤1，选取真实用户数据集和攻击用户数据集，混合后得到混合矩阵数据集；

步骤2，针对混合矩阵数据集中的每个用户的近邻平均用户相似度、均值方差，加权评分一致度，流行项目的卡方估计值和新颖项目的卡方估计值五个特征值进行特征提取，得到五个特征向量；

步骤3，将所有用户的近邻平均用户相似度、均值方差和加权评分一致度三个特征向量共同组成一个矩阵，通过K-means聚类算法将该矩阵分为两类，为第一真实用户集合和第一攻击用户集合；

步骤4，将流行项目的卡方估计值的特征向量和第一阈值比较，将新颖项目的卡方估计值的特征向量和第二阈值比较，将这两个特征向量均大于各自阈值的用户设定为真实用户，将这两个特征向量均小于各自阈值的用户标记为攻击用户，得到第二真实用户集合和第二攻击用户集合；

步骤5，将步骤3和步骤4得到的第一攻击用户集合和第二攻击用户集合进行交集运算，得到最终攻击用户集合，剩余的用户为真实用户集合。

本发明的进一步改进在于：

优选的，步骤1中，攻击用户数据集和真实用户数据集的混合模型为流行攻击模型。

优选的，步骤2具体包括以下步骤：

步骤2.1，将混合矩阵数据集输入至Matlab程序中，其中用户用U＝{u₁,u₂,u₃...}来表示，项目用I＝{i₁，i₂，i₃....}表示，U为混合矩阵数据集的行，I为混合矩阵数据集的列；

步骤2.2，提取每个用户的近邻平均用户相似度、均值方差，加权评分一致度，流行项目的卡方估计值和新颖项目的卡方估计值五个特征值；

(1)DegSim表示近邻平均用户相似度，，第u个用户的DegSim计算公式如下式(5)：

其中，

是皮尔逊相似度，u，v表示数据集DATE中两个不同的用户，r表示用户u对项目的评分，k指要选取最近的用户数目；

(2)MeanVar表示均值方差，第u个用户的MeanVar的计算公式如下式(6)：

其中，P_U,F是用户U的所有评分项目中把最高的评分减去之后剩下的集合项目，|P_u,F|是指该集合中所有项目的总数，r_u，_j为用户u对填充项目j的评分值，

为用户u对项目的平均评分；

(3)WDA表示加权评分一致度，第u个用户的加权评分一致度的计算公式如下式(7)所示：

其中，N_u表示用户u评价过的项目个数，NR_i表示项目i被评价过的次数，r_i表示项目i的评分均值，r_u,i表示用户u对项目i的评分；

(4)CHIP表示流行项目的卡方估计值，其计算公式如下式(8)所示：

其中，I表示数据集中所有的项目，A表示既属于有评分项目集合又属于流行项目集合的个数，B表示属于有评分的项目集合但是不属于流行项目集合的个数，C表示不属于有评分项目的集合却属于流行项目的集合个数，D表示既不属于有评分项目的集合也不属于流行项目的集合个数；

(6)CHIN表示新颖项目的卡方估计值，其计算公式如下式(9)所示：

其中，I表示数据集中所有的项目，A₁表示既属于有评分项目集合又属于新颖项目的集合个数，B₁表示属于有评分的项目集合但是不属于新颖项目的集合个数，C₁表示不属于有评分项目的集合但属于新颖项目的集合个数，D₁表示既不属于有评分项目的集合也不属于新颖项目的集合个数。

优选的，步骤2中的流行项目的卡方估计值计算前需计算每个项目的流行度，按照项目流行度降序排序，把所有项目分为流行项目集合和非流行项目集合。

优选的，第i项目的流行度的计算公式如下式(2)所示：

其中D_i表示混合矩阵A中所有真实用户的合集，r_u，i表示用户u对项目i的评分；若r_u，i＝φ，则Ψ(r_u，i)＝0，若r_u，i＝φ，则Ψ(r_u，i)＝0，其中，φ代表空集。

优选的，步骤2中的新颖项目的卡方估计值计算前需计算每个项目的新颖度，按照项目新颖度降序排序，把所有项目分为新颖项目集合和非新颖项目集合。

优选的，每个项目的新颖度的计算公式如下式(3)所示：

第i个项目新颖度INov_i的计算公式如下：

其中，|D_g|表示现在集合中的所有用户数目，r_u，i表示用户u对项目i的评分，φ代表空集；

式中，Nov_u，i表示第u个用户对其任意一个项目的新颖程度，计算公式如下：

其中，N_u表示用户u的项目评分数，w(i，j)表示项目i和项目j的余弦相似度。

优选的，步骤3中K-means聚类算法将矩阵分为两类具体包括以下步骤：

步骤3.1首先在样本中随机选择K个质心点；

步骤3.2分别计算剩余的数据到前面所选的K个质心点之间的欧式距离，然后得到距离最短的样本数据，就将此类样本数据与该质心点归为一类，共得到K类数据；

步骤3.3重新对每一类中的数据进行计算，找到新的中心点，然后根据前面计算剩余样本与新的中心点的距离，将距离短的放为一类；

步骤3.4重复步骤3.2和3.3，直到质心点的位置不再改变，样本聚类完成。

优选的，步骤3.4样本聚类后聚类质量的衡量指标由函数J表示，d维数据X＝{x_j|x_j∈R^d,i＝1,2,3,...,N}聚集成基准点分别为c₁，c₂，c₃，…，c_k的k个类簇W₁，W₂，W₃，…，W_k，其中

|W_i|为类簇W_i中样本点的个数，函数J计算公式如下式(10)所示：

其中，d_ij(x_j,c_i)表示样本点x_j与基准点c_i的欧氏距离。

与现有技术相比，本发明具有以下有益效果：

【附图说明】

图1是本发明的方法流程图；

图2是Degsim，MeanVar，WDA三个特征值绘制的三维图；

图3是本发明方法与PCA检测方法准确率对比；

其中，(a)图为填充规模3％，(b)图为填充规模5％，(c)图为填充规模8％，(d)图为填充规模10％；

图4是本发明方法与PCA检测方法召回率对比；

【具体实施方式】

下面结合具体步骤和附图对本发明做进一步详细描述：

攻击过程中，攻击用户向协同过滤推荐系统中注入攻击模型，攻击模型是为了使攻击用户与正常用户更相似而产生的，攻击模型M通常由下式表示的四元组形式来描述：

M＝<α,β,φ,γ> (1)

其中，α为选择项目集合的评分函数；β为填充项目集合的评分函数；φ为未评分项目集合的评分函数；γ为该函数一般为空为目标项目集合的评分函数。

常见的攻击模式有随机攻击，均值攻击，流行攻击等；

攻击模型的分类如表1所示，但在此发明中我们只采用标准攻击模型中的流行攻击来进行实验。

表1攻击模型分类

参见图1，整个攻击过程具体包括以下步骤：

步骤1：构造混合矩阵A，在此采用学术界公认的MovieLens数据集作为原始数据集，规模为100K，因为原始数据集为真实用户评分的数据集，而混合矩阵则是通过一定的攻击方法往真实用户数据集中添加了虚假用户数据集，虚假用户即为攻击用户，用于对真实数据进行流行攻击，添加虚假用户后的矩阵为混合矩阵A，进而得到混合矩阵数据集DATE，即为攻击后的数据集。

步骤2：针对混合矩阵数据集DATE，分别用近邻平均用户相似度(Degsim)、均值方差(MeanVar)，加权评分一致度(WDA)，流行项目的卡方估计值(CHIP)，新颖项目的卡方估计值(CHIN)五个特征值对混合矩阵DATE进行特征提取算法得到相应的特征向量；具体包括以下步骤：

步骤2.1：将数据集DATE输入至Matlab程序中，其中用户(矩阵DATE的行)用U＝{u₁，u₂，u₃…}表示，项目(矩阵DATE的列)用I＝{i₁，i₂，i₃....}表示；

步骤2.2：计算每个项目的流行度和新颖度，然后按照项目流行度降序排序，把所有项目分为流行项目集合和非流行项目集合，同理，按照项目新颖度降序，把所有项目分为新颖项目集合和非新颖项目集合；该步主要用于步骤3中计算流行项目的卡方估计值(CHIP)和新颖项目的卡方估计值(CHIN)，第i个项目流行度IPOP_i的计算公式如下所示：

其中Di表示混合矩阵A中所有真实用户的合集，r_u，i表示用户u对项目i的评分。若r_u，i＝φ，则Ψ(r_u，i)＝0，若r_u，i＝φ，则Ψ(r_u，i)＝0，其中，φ代表空集。

第i个项目新颖度INov_i的计算公式如下：

其中，|D_g|表示集合中的所有用户数目。

其中，N_u表示用户u的项目评分数，w(i，j)表示项目i和项目j的余弦相似度，其它的含义同上。

步骤2.3：对混合矩阵数据集DATE分别用DegSim，MeanVar，WDA，CHIP，CHIN五个特征值进行特征提取算法，将提取出来的数据依此存放入特征矩阵V中。

(1)DegSim表示近邻平均用户相似度，第u个用户的DegSim计算公式如下：

其中，

是皮尔逊相似度，u，v表示数据集DATE种两个不同的用户，r表示用户u对项目的评分，k指要选取最近的用户数目。

(2)MeanVar表示均值方差，第u个用户的MeanVar的计算公式如下所示：

其中，P_u，F是用户U的所有评分项目中把最高的评分减去之后剩下的集合项目，|P_u，F|是指该集合中所有项目的总数，r_u，j为用户u对填充项目j的评分值，

为用户u对项目的平均评分。

(3)WDA表示加权评分一致度：是通过相应项目评分数目的逆向权重来衡量用来对项目的评分背离该项目评分均值的程度，第u个用户的加权评分一致度的WDA_u的计算公式如下：

其中，N_u表示用户u评价过的项目个数，NR_i表示项目i被评价过的次数，r_i表示项目i的评分均值，r_u，i表示用户u对项目i的评分。

(4)CHIP表示流行项目的卡方估计值：表示为一个项目与整个流行项目之间的相关程度。其主要公式如下：

其中，I表示数据集中所有的项目，A表示既属于有评分项目集合又属于流行项目集合的个数，B表示属于有评分的项目集合但是不属于流行项目集合(非流行项目集合)的个数，C表示虽然不属于有评分项目的集合却属于流行项目的集合个数，D表示既不属于有评分项目的集合也不属于流行项目(非流行项目集合)的集合个数。此处的流行项目集合和非流行项目集合通过上述的步骤2.2得到。

(6)CHIN表示新颖项目的卡方估计值：表示为一个项目与选定的新颖项目之间的相关程度。其主要公式如下：

其中，I表示数据集中所有的项目，A₁表示既属于有评分项目集合又属于新颖项目的集合个数，B₁表示属于有评分的项目集合但是不属于新颖项目的集合(非新颖项目集合)个数，C₁表示不属于有评分项目的集合但属于新颖项目的集合个数，D₁表示既不属于有评分项目的集合也不属于新颖项目的集合(非新颖项目集合)个数，此处的新颖项目集合和非新颖项目集合通过上述的步骤2.2得到。

步骤3：通过K-means聚类算法将所有用户的DegSim，MeanVar，WDA三个特征值得到的特征向量(即特征矩阵V中的前三列)聚成两类，这两类分别为第一真实用户集合和第二攻击用户集合。

K-means主要用于将所给的样本中的数据聚成K个类(K的值是根据需要随机选取得)，本发明中，选择K为2；该算法的具体步骤如下：

步骤3.1首先在样本中随机选择K个质心点；

步骤3.4一直重复上述过程，直到质心点的位置不再改变，样本聚类完成。

聚类质量的衡量指标由函数J表示，其定义如下：

d维数据X＝{x_j|x_j∈R^d,i＝1,2,3,...,N}聚集成基准点分别为c₁，c₂，c₃，…，c_k的k个类簇W₁，W₂，W₃，…，W_k，，其中R^d表示d维数据，其中

|w_i|为类簇w_i中样本点的个数。则函数J的计算方式如下：

其中，d_ij(x_j,c_i)表示样本点x_j与基准点c_i的欧氏距离。

通过上述步骤，使得被攻击后的数据分为真实用户集合和攻击用户集合。

步骤4：对CHIP，CHIN两个特征值提取得到的两个特征向量(即特征矩阵V的后两列)分别进行阈值判断操作；分别将大于阈值的标记为真实用户，将小于阈值的标记为攻击用户；其中阈值的选择需要通过多次实验来确定，得到第二真实用户集合和第二攻击用户集合；

步骤5：将步骤4中两次阈值判断操作得到的两个攻击用户集合取交集得到一个攻击用户集合，剩余的用户则为真实用户集合。

实施例：

在实验中，采用Movielens数据集，它是指943个观众对1682部电影的随机评价，采取5分制，即最高分记5分，最低分记1分，未评分的记为0。

选取的攻击规模分别为3％，5％，8％，10％，12％，填充规模分别为3％，5％，8％，10％，选择的攻击目的为推攻击，选择的攻击模型为流行攻击；

根据检测结果计算准确率(Precision)和召回率(Recall)，并与PCA检测方法进行对比；其计算公式如下：

其中，TP表示被正确识别的攻击用户的数目，FP表示被误判的真实用户的数目，FN表示未被识别出来的攻击用户的数目；

定义本发明的检测算法为T-Kmeans，通过计算本发明中的检测方法的准确率和召回率与PCA检测方法进行对比，得到的实验结果见图2、图3、图4，

从图2的三维图可以看出是为了证明Degsim，MeanVar，WDA三个特征值能够区分攻击用户和正常用户。

从图3中可以看到在填充规模为3％、5％、8％、10％的情况下，随着攻击规模的增大，PCA和T-kmeans检测算法准确率都在持续增加，且T-kmeans检测算法准确率一直比PCA检测算法准确率高，这说明攻击规模越大，检测得到的准确率就越高，还说明文中提出的T-kmeans算法在准确率方面比PCA检测算法要高。

从图4中可以看到在填充规模为3％、5％、8％、10％的情况下，随着攻击规模的增大，T-kmeans检测算法的召回率一直比PCA检测算法的召回率高，这说明T-kmeans算法在召回率方面比PCA检测算法要高。

这可能是因为加入了流行度和新颖度两个特征指标，通过计算项目与流行项目之间的关联程度和计算项目与新颖项目之间的关联程度能够有效区分一部分攻击用户和正常用户，这样与前三个特征值得到的攻击用户进行求交集操作，就能过滤掉一部分误判的真实用户，得到更加准确的检测结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合特征值的托攻击检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于混合特征值的托攻击检测方法，其特征在于，步骤1中，攻击用户数据集和真实用户数据集的混合模型为流行攻击模型。

3.根据权利要求1所述的一种基于混合特征值的托攻击检测方法，其特征在于，步骤2具体包括以下步骤：

其中，

其中，P_U,F是用户U的所有评分项目中把最高的评分减去之后剩下的集合项目，|P_u,F|是指该集合中所有项目的总数，r_u，j为用户u对填充项目j的评分值，

为用户u对项目的平均评分；

4.根据权利要求3所述的一种基于混合特征值的托攻击检测方法，其特征在于，步骤2中的流行项目的卡方估计值计算前需计算每个项目的流行度，按照项目流行度降序排序，把所有项目分为流行项目集合和非流行项目集合。

5.根据权利要求4所述的一种基于混合特征值的托攻击检测方法，其特征在于，第i项目的流行度的计算公式如下式(2)所示：

其中D_i表示混合矩阵A中所有真实用户的合集，r_u，i表示用户u对项目i的评分；若r_u,i＝φ，则Ψ(r_u,i)＝0，若r_u，i＝φ，则Ψ(r_u，i)＝0，其中，φ代表空集。

6.根据权利要求3所述的一种基于混合特征值的托攻击检测方法，其特征在于，步骤2中的新颖项目的卡方估计值计算前需计算每个项目的新颖度，按照项目新颖度降序排序，把所有项目分为新颖项目集合和非新颖项目集合。

7.根据权利要求3所述的一种基于混合特征值的托攻击检测方法，其特征在于，每个项目的新颖度的计算公式如下式(3)所示：

第i个项目新颖度INov_i的计算公式如下：

其中，|D_g|表示现在集合中的所有用户数目，r_u,i表示用户u对项目i的评分，φ代表空集；

式中，Nov_u,i表示第u个用户对其任意一个项目的新颖程度，计算公式如下：

其中，N_u表示用户u的项目评分数，w(i,j)表示项目i和项目j的余弦相似度。

8.根据权利要求3所述的一种基于混合特征值的托攻击检测方法，其特征在于，步骤3中K-means聚类算法将矩阵分为两类具体包括以下步骤：

步骤3.1首先在样本中随机选择K个质心点；

9.根据权利要求8所述的一种基于混合特征值的托攻击检测方法，其特征在于，步骤3.4样本聚类后聚类质量的衡量指标由函数J表示，d维数据X＝{x_j|x_j∈R^d,i＝1,2,3,...,N}聚集成基准点分别为c₁，c₂，c₃，…，c_k的k个类簇W₁，W₂，W₃，…，W_k，其中

其中，d_ij(x_j,c_i)表示样本点x_j与基准点c_i的欧氏距离。