CN103678709A

CN103678709A - 一种基于时序数据的推荐系统攻击检测算法

Info

Publication number: CN103678709A
Application number: CN201310746814.5A
Authority: CN
Inventors: 王亮; 吴书; 王保兴
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2014-03-26
Anticipated expiration: 2033-12-30
Also published as: CN103678709B

Abstract

本发明公开了一种基于时序数据的推荐系统攻击检测方法，包括：利用用户-项目偏好程度数据集和频繁项集挖掘技术，得到用户组和项目组；为每对用户组和项目组计算组偏好程度值比例特征；将项目组中各项目的所有偏好程度按操作时间形成时序的偏好程度数据；为每对的用户组和项目组计算组偏好程度时间间隔特征；为用户组计算组平均熵特征；为每一用户组，选择其对应最大的组偏好程度值比例特征和最大的组偏好程度时间间隔特征，并依次利用上述三种特征对用户组进行排序，得到三个有序的用户组序列；综合所述三个有序的用户组序列，得到一个整体有序的用户组序列，从而得到最可能的攻击用户组；通过组偏好程度值比例特征得到最有可能的目标项目组。

Description

一种基于时序数据的推荐系统攻击检测算法

技术领域

本发明涉及机器学习和模式识别领域，特别是机器学习中基于协同过滤的推荐系统攻击检测问题。

背景技术

近年来，随着网络的飞速发展，人们每天都会面临大量的信息。面对成千上万的信息，人们疲于从中发现自己感兴趣的有价值的信息，推荐系统的出现可以使人们从海量的信息中解脱出来。推荐系统是一种信息过滤技术，它能够从大量的信息中筛选出用户感兴趣的有价值的内容并提供给用户，从而使用户从纷杂繁多的信息中解脱出来。常用的推荐系统技术有基于内容的推荐系统、基于协同过滤的推荐系统和混合推荐系统，其中最流行的是基于协同过滤的推荐系统，本发明中的算法和框架也是面向协同过滤技术的推荐系统。

基于协同过滤的推荐系统收集并汇聚用户偏好信息，依托用户和项目的相似性度量对用户可能的偏好项目进行个性化预测。基于协同过滤的技术又可以分为最近邻协同过滤和基于模型的协同过滤。最近邻协同过滤利用最相似的若干个用户或项目的偏好来计算目标用户对目标项目的偏好程度，然后再向目标用户推荐其最感兴趣的项目；基于模型的协同过滤不直接操作已有偏好信息而得到预测值，而是使用已有偏好信息去训练模型再基于模型对项目进行偏好程度预测。虽然基于协同过滤的推荐系统能够比较准确的向用户推荐其可能感兴趣的项目，但是它比较容易受到用户概貌注入攻击的影响。因为协同过滤算法是利用用户和项目的相似性度量来发现用户可能感兴趣的项目，所以通过人为的制造大量与很多用户相似的虚假用户概貌信息并将其注入推荐系统，就能够对基于协同过滤的推荐系统产生严重的影响。由于需要大量与正常用户概貌相似的虚假用户概貌信息以及希望在较短的时间内影响目标项目，很多攻击用户往往会一起行动从而形成攻击用户组，又因为组攻击需要一定的成本，所以一组攻击用户常会去攻击多个目标项目，这些被攻击的目标项目就组成了目标项目组。现有的工作大多集中检测单个的攻击用户，鲜有工作能够检测攻击用户组和目标项目组。

在真实的应用场景中，一组攻击用户一起攻击一组目标项目这样的组攻击行为是普遍存在的，例如电子商务中的专业差评集团和电影推荐网站上的专业水军公司等等。虽然这类组攻击行为在实际中是广泛存在的，但是却很少有工作研究如何检测组攻击行为，即同时检测攻击用户组和被该组攻击用户攻击的目标项目组。基于时序数据的推荐攻击检测算法通过深入分析组攻击行为的特点，提炼出三个组攻击检测特征，这三个特征分别是从偏好程度值、偏好程度时间和偏好程度分布的角度来描述组攻击行为的。我们实验也证明了基于时序数据的推荐系统攻击检测算法不仅能够检测最可能的攻击用户组，而且还可以检测被该组攻击用户攻击的目标项目组。

发明内容

已有的研究工作大多集中在利用用户-项目偏好程度数据的一些统计特征来检测单个攻击用户，它们没有考虑偏好程度数据的时序特性，且不能用来检测组攻击行为。本发明提出了一种基于时序数据的推荐攻击检测算法。该检测算法通过深入研究组攻击行为的特点，然后从偏好程度值的角度、偏好程度时间间隔的角度和偏好程度分布的角度分别提取了“组偏好程度值比例”、“组偏好程度时间间隔特征”和“组平均熵”特征，使用这三个组攻击检测特征能够很好的检测攻击用户组和对应的目标项目组。

本发明提出的一种基于时序数据的推荐系统攻击检测算法，包括步骤：

步骤S1：利用用户-项目偏好程度数据集和频繁项集挖掘技术，得到候选的多个用户组和候选的多个项目组；

步骤S2：为每对用户组和项目组计算描述组攻击行为在偏好程度值上特性的组偏好程度值比例特征；

步骤S3：将项目组中各项目的所有偏好程度按操作时间的先后顺序进行组织，形成时序的偏好程度数据；

步骤S4：为每对的用户组和项目组计算组偏好程度时间间隔特征，捕获组攻击行为的时间间隔特性；

步骤S5：为用户组计算组平均熵特征，从一组用户偏好程度分布的角度来检测组攻击行为；

步骤S6：为每一用户组，选择其对应最大的组偏好程度值比例特征和最大的组偏好程度时间间隔特征，并依次利用上述三种特征对用户组进行排序，得到三个有序的用户组序列；

步骤S7：利用排序聚集技术综合所述三个有序的用户组序列，得到一个整体有序的用户组序列，从而得到最可能的攻击用户组；

步骤S8：通过组偏好程度值比例特征得到与所述最可能的攻击用户组对应的最有可能被攻击的目标项目组。本发明提出的基于时序数据的推荐系统攻击检测算法通过深入研究组攻击行为的特点，提出三个组攻击检测特征，这三个特征分别是从偏好程度值的角度、时间间隔的角度和偏好程度分布的角度来检测组攻击行为，从而使得该检测算法不仅能够检测最可能的攻击用户组，同时还能检测被该组攻击用户攻击的目标项目组，在真实的场景中有着重要的应用价值。上述方法不仅能够检测攻击用户组还能同时检测目标项目组，在组攻击数据集上有很好的检测效果。

附图说明

图1是本发明中基于时序数据的推荐系统攻击检测方法流程图；

图2是利用本发明提出的攻击检测方法进行实验1的性能比较图；

图3是利用本发明提出的攻击检测方法进行实验2的性能比较图。

具体实施方式

下面详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例旨在便于对本发明的理解，而对其不起任何限定作用。

图1示出了本发明提出的基于时序数据的推荐系统攻击检测方法流程图。如图1所示，该方法包括如下步骤：

步骤S1利用用户-项目偏好程度数据集和频繁项集挖掘技术，得到候选的用户组和候选的项目组；

步骤S2基于第一步中得到的用户组和项目组，为每对用户组和项目组计算“组偏好程度值比例”特征，用来描述组攻击行为偏好程度值上的特性；

步骤S3将项目组中各项目的所有偏好程度按操作时间的先后顺序进行组织，形成按时间有序的偏好程度数据；

步骤S4为用户组和项目组对计算“组偏好程度时间间隔”特征，捕获组攻击行为的时间间隔特性；

步骤S5为用户组计算“组平均熵”特征，从一组用户偏好程度分布的角度来检测组攻击行为；

步骤S6对于各用户组，选择其对应最大的“组偏好程度值比例”特征和最大的“组偏好程度时间间隔”特征；依次利用上述三种特征，将用户组进行排序，从而得到三个有序的用户组序列；

步骤S7利用排序聚集技术综合这三个有序的用户组序列，得到一个整体有序的用户组序列，从而可以得到最可能的攻击用户组；

步骤S8通过“组偏好程度值比例”特征得到一个与用户组序列相对应的项目组序列，从而得到被攻击用户组攻击的目标项目组。

下面详细介绍上述几个步骤。

给定用户集U和项目集I，所有用户和所有项目构成集合D＝U×I，所有用户的偏好程度r_ui构成了用户-项目偏好程度数据集，记为R。

R={r_ui|(u，i)∈D} (1)

在具体介绍各步骤之前，先介绍后面会使用的相关符号所表示的涵义。G_U表示用户组集合，G_I表示项目组集合，G_um表示第m个用户组，G_in表示第n个项目组，|G_um|表示第m个用户组中的用户个数，|G_in|表示第n个项目组中项目的个数。

设置检测算法中的参数θ₁和θ₂，θ₁和θ₂是用于获取候选的用户组和项目组的两个参数。

在本发明方法中，我们使用频繁项集挖掘技术来分别得到候选的用户组和项目组，而频繁项集挖掘技术需要人为设定最小支持度，故本发明方法中设置的θ₁和θ₂参数用于频繁项集挖掘技术。

步骤S1中，利用用户-项目偏好程度数据集R来构造两个事务数据T₁、T₂，其中T₁是各用户所评过分的项目的集合，T₂是评过各项目的用户的集合。对U中的每一个用户u(u∈U)，将其评过分的所有项目构成一个事务t_1u，所有用户的事务的集合就构成了T₁；对I中的每一个项目i(i∈I)，将对其评过分的所有用户构成一个事务t_2i，所有项目的事务的集合就成了T₂。

T₁={t_1u|u∈U} (2)

T₂={t_2i|i∈I} (3)

在得到T₁后，我们将频繁项集挖掘算法的最小支持度阈值参数设置为θ₁，并将T₁和θ₁提供给频繁项集挖掘技术。如果一个由若干项目构成的集合，在事务数据T₁中出现的次数大于最小支持度阈值θ₁，那么频繁项集挖掘技术就判定该集合为一个频繁的模式，我们将此频繁模式中包含的所有项目作为一个候选的项目组。频繁项集挖掘技术通过使用Apriori算法来产生所有的候选项集(Apriori算法通过使用一种逐层搜索的迭代方法来产生所有的候选项集，即先找出k项集，然后利用k项集找出k+1项集)，然后判断这些候选项集的支持度是否大于最小支持度阈值θ₁，从而判断其是否是一个频繁的项集，进而决定我们是否将其作为一个候选的项目组。于是，我们通过利用频繁项集挖掘技术可以得到候选的项目组集合G_I。类似的，将θ₂作为频繁项集挖掘的最小支持度阈值，对T₂使用频繁项集挖掘技术，就可以得到候选的用户组集合G_U。

步骤S2中，对每对用户组

和项目组

计算“组偏好程度值比例”特征的值GVR_mn。

{GVR}_{mn} = \frac{{(\underset{i &Element; G_{um}}{Σ} \underset{j &Element; G_{in}}{Σ} I_{ij})}^{2}}{\underset{i &Element; G_{um}}{Σ} \underset{j &Element; G_{in}}{Σ} r_{ij} * | G_{um} | * | G_{in} |} - - - (4)

I_{ij} = \{\begin{matrix} 1, & r_{ij} &NotEqual; 0 \\ 0, & r_{ij} = 0 \end{matrix} - - - (5)

其中I_ij函数是用于统计用户偏好的项目个数，r_ij是用户i对项目j的偏好程度值。

步骤S3中，将所有用户对项目i(i∈I)设定的偏好程度值，按照用户对项目i设定偏好程度值的时间先后顺序进行组织，从而形成按时间有序的用户-项目偏好程度数据R′。R′中包含的内容与R中包含的内容是相同的，只不过R′中每一列的用户偏好程度值都是按时间有序的。

步骤S4中，因为在用户-项目偏好程度数据R′中，每一列中的用户偏好程度值都是按时间先后顺序进行排列的，从而对任一给定的项目，我们很容易得到用户对其最近和最早的操作时间T_pe和T_ps，为每个用户组G_um和项目组G_in对计算“组偏好程度时间间隔”特征的值GRTI_mn。

{GRTI}_{mn} = \frac{| G_{in} |}{\underset{p &Element; G_{in}}{Σ} \frac{T_{pe} - T_{ps}}{\underset{q &Element; G_{um}}{Σ} I {qp} - 1}} - - - (6)

I {qp} = \{\begin{matrix} 1, & r_{qp} &NotEqual; 0 \\ 0, & r_{qp} = 0 \end{matrix} - - - (7)

其中T_pe和T_ps分别是用户组G_um中对项目p的最近和最早操作时间，r_qp是用户q对项目p的偏好程度。

步骤S5中，为用户组G_um计算“组平均熵”特征的值GAE_m。

GAE = \frac{\underset{q &Element; G_{um}}{Σ} \underset{k &Element; C}{Σ} \frac{s_{k}}{n} \log \frac{s_{k}}{n}}{| G_{um} |} - - - (8)

其中s_k表示偏好程度值为k的偏好的项目个数，n表示用户q所有操作过的项目个数，C={1，2，3，4，5}是系统中不同偏好程度值的集合。

步骤S6中，对于用户组G_um，分别为“组偏好程度值比例”特征、“组偏好程度时间间隔”特征和“组平均熵”特征取最大值。

G_umGVR=max{GVR_mn|m∈G_U，n∈G_I} (9)

G_umGRTI=max{GRTI_mn|m∈G_U，n∈G_I} (10)

G_umGAE=GAE_m (11)

对于每一特征，每一用户组都会对应一个最大值，而又有|G_um|个用户组，故对于每一个特征按照每一用户组对应的特征值大小对用户组进行排序，从而得到三种特征的三个有序用户组序列S_GVR、S_GRTI和S_GAE。

步骤S7中，利用排序聚集技术综合S_GVR、S_GRTI和S_GAE这三个有序的用户组序列，即按照一定的规则(例如：Borda命题。对于给定的三个有序的用户组序列，Borda命题为每一个用户组计算一个分值，然后依据各用户组的分值大小来进行排序，从而得到一个整体有序的用户组序列。)来综合每一对元素在各有序序列中的先后顺序，从而得到一个全局有序的用户组序列S_Global。

步骤S8中，对S_Global中每一个用户组G_um，将“组偏好程度值比例”特征的最大值所关联的项目组G_in定义为与G_um关联的目标项目组，于是S_Global中排在最前的就是最可能的攻击用户组，与该用户组相关联的目标项目组即为最可能的目标项目组。

下面通过在一个从网络竞赛收集的数据集(CANT)上执行本发明产生的攻击检测方法，方法的输入是包含正常偏好程度和异常偏好程度的偏好程度矩阵，算法的输出是最可能的攻击用户组和对应的目标项目组。通过利用Precision指标、Recall指标和F—measure指标，可以验证本发明方法的有效性。Precision指标是用来度量检测出来的结果中正确结果所占的比例，Precision值越大，表示检测算法的效果越好；Recall指标是用来度量正确检测的结果在总的正确结果中所占的比例，Recall值越大，表明检测算法的效果越好；F—measure指标是Precision和Recall指标的综合，用于反映整体效果，F—measure也是值越大表示效果越好。

CANT数据集是由正常的偏好程度数据和攻击的偏好程度数据组合而成，正常的偏好程度数据是从特定网站收集而得，包含300个用户对300个项目的偏好程度数据，攻击的偏好程度数据是由竞赛的参赛者提供，每个参赛者有20个攻击账户，这些参赛者扮演攻击用户的角色去攻击目标项目。由于这些参赛者都被要求攻击项目1，所以为了模拟一组攻击用户攻击一组目标项目的场景，我们需要利用参赛者的真实的攻击数据来构造符合这种场景的数据集。在本发明中，我们构造了两种不同类型的数据集并分别记为CANTDataset1和CANTDataset2，其中CANTDataset1数据集中攻击用户组大小为15，目标项目组大小为5；CANTDataset2数据集中攻击用户组大小为20，目标项目组大小为7。在本发明中，我们分别为每一种类型的数据集构造10个数据集，然后在这些类型的数据集上执行本发明产生的检测算法，并与经典的攻击检测方法进行比较。

表1是本发明方法在两种类型的CANT数据集上检测攻击用户组的性能。由该表可以看到，本发明方法能够取得非常高的Recall(等于1)，这表明本发明方法能够有效的检测攻击用户组。从该表还可以看出，本发明方法还有很高的Precision值，而且在CANTDataset2上的Precision要CANTDataset1上的Precision要高，这表明本发明方法在检测攻击用户组时只有较低的误检率而且倾向于检测较大的攻击用户组。同时，本发明方法在两种类型的CANT数据集上都有较高的F—measure值，这说明本发明方法的整体性能很好。

表2是本发明方法在两种类型的CANT数据集上检测目标项目组的性能。从表2可以发现，本发明方法在检测目标项目组时也能取得很高的Recall，这表明本发明方法能够正确的检测出目标项目组。由表2中较低的Precision值可知，本发明方法在检测目标项目组时会有一定的误检率，Precision值较低的另外一个原因是目标项目中的项目个数较少，此时如果有少量的误检项目，就会导致Precision值较低，这一点体现在CANTDataset2上的Precision要比CANTDataset1上的Precision要大，这表明本发明方法倾向于检测较大的目标项目组。较高的F—measure值表明本发明方法在检测目标项目组时有较好的表现。

表3是本发明方法与经典的攻击检测方法在检测单个的攻击用户方面的性能比较。由表3可知，本发明方法在检测单个攻击用户时也能取得不错的结果，而且随属于攻击用户组的攻击用户个数的增加，本发明方法检测的越准确。从表3中可以看出经典的攻击检测方法在两种类型的CANT数据集上的性能都很差，这主要是由于该数据集太过稀疏导致经典的攻击检测方法不能如此的工作，这表明本发明方法不仅在检测单个攻击用户方面有一定的效果，而且还能较好的处理稀疏数据问题。

	CANTDataset1	CANTDataset2
			Precision	0.9452	0.9679
Recall	1.0	1.0
			F—measure	0.9713	0.9833

表1：检测攻击用户组

	CANTDataset1	CANTDataset2
			Precision	0.7143	0.7778
Recall	1	1
			F—measure	0.8333	0.8750

表2：检测目标项目组

	OurMethod	Chirita
			CANTDataset1	0.5008	0.0427
CANTDataset2	0.9750	0.0400

表3：检测单个攻击用户

图2示出了本发明中协同过滤推荐算法在实验1(CantDataset1)上的性能比较图。由图2可以看出，MAE和RMSE指标在未移除攻击用户前要比移除攻击用户后高，这表明我们的检测算法能够很好的将那些影响推荐结果的用户给检测出来。

图3示出了本发明中协同过滤推荐算法在实验2(CantDataset2)上的性能比较图。由图3可以看出，推荐算法在未移除攻击用户前的CantDataset2数据集上的MAE和RMSE指标要比移除攻击用户后的指标高，这说明通过利用本发明的检测算法检测出攻击用户并将其移除后，会提升推荐系统的准确率。

以上实施例表名，本发明方法不仅能够很好的检测出攻击用户组，而且还能同时检测出目标项目组，另外本发明方法还能较好的处理稀疏数据，而稀疏数据在实际中是广泛存在的，所以说明本发明方法具有重要的研究意义和广泛的应用价值。

Claims

1.一种基于时序数据的推荐系统攻击检测算法，包括步骤：

步骤S8：通过组偏好程度值比例特征得到与所述最可能的攻击用户组对应的最有可能被攻击的目标项目组。

2.根据权利要求1所述的方法，其特征在于：利用用户-项目偏好程度数据集和频繁项集挖掘技术得到候选的用户组和项目组，从而使攻击用户组和目标项目组包含于其中。

3.根据权利要求1所述的方法，其特征在于：步骤S2中每对用户组和项目组的组偏好程度值比例如下计算：

{GVR}_{mn} = \frac{{(\underset{i &Element; G_{um}}{Σ} \underset{j &Element; G_{in}}{Σ} I_{ij})}^{2}}{\underset{i &Element; G_{um}}{Σ} \underset{j &Element; G_{in}}{Σ} r_{ij} * | G_{um} | * | G_{in} |}

I_{ij} = \{\begin{matrix} 1, & r_{ij} &NotEqual; 0 \\ 0, & r_{ij} = 0 \end{matrix}

其中，

为用户组集合G_U中的第m个用户组，

为项目组集合G_I中的第n个项目组，GVR_mn为组偏好程度值比例，|G_um|表示第m个用户组中的用户个数，|G_in|表示第n个项目组中项目的个数，r_ij是用户组i对项目组j的偏好程度值。

4.根据权利要求1所述的方法，其特征在于：步骤S4中每对用户组和项目组的组偏好程度时间间隔特征值如下计算：

{GRTI}_{mn} = \frac{| G_{in} |}{\underset{p &Element; G_{in}}{Σ} \frac{T_{pe} - T_{ps}}{\underset{q &Element; G_{um}}{Σ} I {qp} - 1}}

I {qp} = \{\begin{matrix} 1, & r_{qp} &NotEqual; 0 \\ 0, & r_{qp} = 0 \end{matrix}

其中，GRTI_mn为组偏好程度时间间隔特征值，

为用户组集合G_U中的第m个用户组，

为项目组集合G_I中的第n个项目组，T_pe和T_ps分别是用户组G_um中用户对项目p的最近和最早操作时间，|G_in|表示第n个项目组中项目的个数，r_qp是用户组G_um中用户q对项目p的偏好程度。

5.根据权利要求1所述的方法，其特征在于：步骤S5中用户组G_um的组平均熵特征值如下计算：

GAE = \frac{\underset{q &Element; G_{um}}{Σ} \underset{k &Element; C}{Σ} \frac{s_{k}}{n} \log \frac{s_{k}}{n}}{| G_{um} |}

其中，GAE为组平均熵特征值，

为用户组集合G_U中的第m个用户组，s_k表示偏好程度值为k的偏好的项目个数，n表示用户q所有操作过的项目个数，C＝{1，2，3，4，5}是系统中不同偏好程度值的集合。

6.根据权利要求1所述的方法，其特征在于：步骤S6具体为：

对于每一用户组，分别取其对应的组偏好程度值比例特征值和组偏好程度时间间隔特征值的最大值，然后获得上述两种最大值序列对应的用户组序列。

7.根据权利要求1所述的方法，其特征在于：步骤S7中排在所述整体有序的用户组序列最前面的用户组为最有可能的攻击用户组。

8.如权利要求1所述的方法，其特征在于：步骤S8中每一用户组的组偏好程度值比例特征的最大值对应的项目组为该用户组的目标项目组。