CN108932669A

CN108932669A - 一种基于监督式层次分析法的异常账户检测方法

Info

Publication number: CN108932669A
Application number: CN201810675122.9A
Authority: CN
Inventors: 王秀娟; 唐昊阳; 陶元睿
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-12-04

Abstract

本发明公开一种基于监督式层次分析法的异常账户检测方法，包括：步骤1、对所采集的用户数据进行特征提取，并将提取的特征按照预定的规则构建成用户画像，同时为每个特征提出其异常评判分数的计算方法；步骤2、通过机器学习对特征进行排序，利用监督式层次分析法(SAHP，Supervised Analytic Hierarchy Process)，得出每个特征的权值，结合特征的异常评判分数，即可得到该用户每条消息所反映出的异常情况；步骤3、根据不同需求，选取不同水平的分数，作为评判账号是否被劫持的异常得分阈值，进而得出异常检测结果。

Description

一种基于监督式层次分析法的异常账户检测方法

技术领域

本发明属于信息安全技术领域，尤其涉及一种基于监督式层次分析法的异常账户检测方法。

背景技术

1.社交网络当中账户异常往往以以下两种形式表现：社交机器人账户传播恶意信息，正常用户账号被劫持产生恶意行为。攻击者选择社交机器人这种方式，通常做法是制造一批由程序控制的机器人账号，模拟正常用户的操作，大批量地关注其他正常用户、消息挂载热点话题标签，或发送大量虚假广告、色情违法信息，以吸引其他用户的点击，进行恶意信息的传播。这种方式可以在短时间内大量制造虚假账号，并广泛传播恶意信息，一批账号被运营商禁封后可再次制造类似的账号进行信息传播。但同时，社交机器人账号异常特征明显，极易遭到系统的过滤或禁封，有经验的用户可以很好地识别出这些账号【1】。而劫持正常用户账号这种方式则相反，通过钓鱼邮件、网站挂马等手段，非法获取用户的账号密码等信息，并劫持账号。对账号进行劫持的开销，往往要比制造社交机器人多出许多。然而劫持账号之后，由于正常账号本身拥有稳固、真实的社交关系，劫持者利用该账户发出的消息更易欺骗他人，从而造成更大损失。

2.为解决社交网络当中恶意攻击越来越多的问题，卡内基梅隆大学、加州大学等从较早时期已开始研究。早期研究主要集中于如下几个方面，如利用脚本程序等方式，自动创建大量虚假账号实施恶意行为；社交网络中少数节点控制多个虚假身份进行女巫攻击；利用恶意账号、水军等进行大批量自动传播恶意信息【2】【3】【4】等。研究多针对社交平台用户的不同特点进行，如账户的关注者数量【4】，基于内容相似性的检验【5】，发文时间行为习惯【6】【7】，拓扑结构的网络特征(点度中心性【8】、聚类系数【9】、对等结构【10】等)。早期研究者们试图找到少数几个有利于分类检测的关键特征，然而检测结果不够理想。鉴于此种情况，更多的研究者将特征的选取集中于某一个方面，并且基于这些特征提出一些新的检测方法。在MARTINZ.R.J等人的研究当中【11】，对推特当中热门话题不相关的内容，提取文本特征，并利用5种典型的分类器进行检测，得出较好的检测结果。HU等人在研究当中采用推特当中的内容情感分析，利用结合矩阵分解的优化模型进行垃圾账户识别【12】。2015年，SIGKDD中的文献针对Tagged.com中的用户，提取用户在时序上的相关关系，利用混合马尔科夫模型来识别异常【13】。SURENDRA S等人的工作【14】集中于推文中hashtag的研究，选用k-NN过滤明显的垃圾信息，再使用最大期望算法识别余下的异常。

3.社交网络账号被劫持异常检测部分，主要集中于研究用户行为、用户习惯等特征。M Egele等人提出了一种对于用户的社交网络账号画像进行有效建模的方法COMPA，并利用SMO(Sequential Minimal Optimization)对画像所采用的特征进行特征选择排序，计算各特征权值，得出特征异常分数。

4.当前此类异常检测方法，不足之处在于只有少数几种特征，用户模型简历往往不够丰富；对各特征的异常定义方法也不够准确，检测结果或因此不够令人满意。本发明拟针对上述问题提出解决方案：

4.1对于在线社交网络账号，提出更加全面的用户画像特征，从而构建更加准确的用户画像。

4.2利用信息增益比与层次分析法为所提出的每个特征进行特征权值的确定，从而对提出的每个特征所占权重，进行更加准确的判断。

4.3基于以上两点，本发明以期提高对在线社交网络被劫持账号的异常检测结果。

发明内容

本发明需要且能够解决的技术问题是，对于社交账号被劫持的异常检测，结果还有进一步的可提升空间。

本发明拟对先前研究当中用户特征种类不够丰富的情况进行优化，增加新的用户画像建模特征。并提出监督式层次分析法，优化评判准确度，以达到提升检测结果的目的。

为实现上述目的目的，本发明采用如下的技术方案：

一种基于监督式层次分析法的异常账户检测方法，包括以下步骤：

步骤1、对所采集的用户数据进行特征提取，并将提取的特征按照预定的规则构建成用户画像，同时为每个特征提出其异常评判分数的计算方法；

步骤2、通过机器学习对特征进行排序，利用监督式层次分析法(SAHP，SupervisedAnalytic Hierarchy Process)，得出每个特征的权值，结合特征的异常评判分数，即可得到该用户每条消息所反映出的异常情况；

步骤3、根据不同需求，选取不同水平的分数，作为评判账号是否被劫持的异常得分阈值，进而得出异常检测结果。

作为优选，对用户每条消息进行异常得分计算，判断该用户是否出现被劫持异常，对于用户的单条信息，按照以下方式进行异常得分s计算：

其中，j为特征类别总数，s_vi为第i个特征的异常得分，w_i为第i个特征的权值。

作为优选，特征包含必备特征和可选特征，必备特征指每条消息当中一定包含的数据，即Time、Source；可选特征则表示不一定在每条信息中都包含的数据，即Link、Mention、Topic、Keyword、Stopwords。

作为优选，其中，每个特征记为一个集合M＝{<f₁,n₁>，<f₂,n₂>，<f₃,n₃>，…，<f_i,n_i>}。在这个集合当中，会有一个或多个元组(tuple)<f_i,n_i>。其中f_i表示该集合中出现的特征元素，n_i表示对应元素出现的次数，

每个特征均可计算异常得分s_v，用于用户异常评判；

必备特征Time,Source异常分数的计算，反应了用户对于常用设备的选择或者稳定特征的表现；特征集合当中，如果新出现的元素，在画像部分出现的次数超过了该特征次数期望，则认为该用户在日常行为当中经常表现出该特征，反之，则使用下列方法对异常得分进行计算：

当一条新消息进入异常评判时，按照画像部分同样的方法对这条消息进行特征提取，提取完成后，对相同类型的特征在画像部分进行查找，若该特征从未在画像部分出现过，则返回1作为该特征的异常得分，

若出现过该特征元素，则将其在画像部分出现的次数m与画像部分该类特征数的均值E(M)进行比较，E(M)计算方式如下：

其中，i代表画像部分该类特征出现过的元素种类总个数，n_j为该特征元素在画像部分出现的次数。若m不小于E(M)，则返回0分作为异常得分。反之则返回作为异常得分；

对于可选特征Link、Mention、Topic，对用户画像部分进行整体分析，若新进推文出现画像部分出现过的特征元素，则认定系正常；若出现了未出现过的特征元素，则以画像部分未出现过该类特征的概率作为异常得分，计算方式如下：

若新消息的该特征在画像部分出现过，则返回0作为该特征的异常得分，

若该特征元素未出现过，则返回作为异常得分，其中，n_null为该类特征未出现的次数，K为画像部分的推文总数。

对于可选特征Stopwords、Keywords，以该类特征元素的种类，作为异常评判标准；若新进推文中，所出现的新特征元素可以在画像部分被查找到，则认定系正常，反之，则认为有一定程度上的异常，异常程度以新元素出现的概率进行评判，计算方式如下：

若该特征元素从未出现过，则返回作为异常得分，其中n为该类特征总类别数。

作为优选，各特征SAHP权值计算过程包括：

步骤3.1、建立层次结构模型，分为三个层次：目标层(检测账户是否被劫持)、准则层(上述7种特征)、方案层(特征所占权重)；

步骤2、构造成对比较矩阵：采用矩阵的形式，将两两元素之间比较的相对权重，用数值进行表现；在大小为n×n的成对比较矩阵A＝(a_ij)_n×n当中，每个元素a_ij代表了元素i对于元素j的相对重要性；

选用信息增益比对各特征进行评估，并以此作为层次分析法成对比较矩阵的构建依据，计算方式如下：

其中，S为样本集合，A为属性节点，Gain(S，A)为增益度量，SplitInformation(S，A)为分裂信息度量，这里不对公式进行详细展开描述。

步骤3、依据所得到所有特征的信息增益率R＝(r₁，r₂，r₃，...，r_n)，将特征按此排名得出元素相对权重，构建成对比较矩阵A，进行层次分析法的后两步计算权向量与组合权向量，并进行一致性检验，得到各个特征的权值集合W＝(w₁，w₂，w₃，...，w_n)。

本发明所能达到的效果：

本发明当中，对用户被劫持异常检测，使用多种特征，完善用户画像模型。并提出监督式层次分析法，利用机器学习为层次分析法提供定量支持，提升权值计算准确性。基于上述两部分，进而提升对被劫持账号的异常检测效果。

附图说明

图1为本发明研究整体系统框架；

图2为层次分析法当中层次结构模型。

具体实施方式

本发明当中所提出的检测框架如图1所示。首先对所采集的用户数据进行特征提取，并将提取的特征按照一定的规则构建成用户画像，同时为每个特征提出其异常评判分数的计算方法。通过机器学习对特征进行排序，利用监督式层次分析法(SAHP，SupervisedAnalytic Hierarchy Process)，得出每个特征的权值，结合特征的异常评判分数，即可得到该用户每条消息所反映出的异常情况。最后根据不同需求，选取不同水平的分数，作为评判账号是否被劫持的异常得分阈值，进而得出异常检测结果。下面对本发明中两个部分进行说明。

第一部分，本发明提出了一系列新的对社交用户进行画像的方法。社交网络当中用户信息可以通过社交平台所发出的消息进行收集。本文将用户信息的收集聚焦于用户消息流中。通过对社交平台用户信息进行分析，本研究当中从两个方面对用户进行考虑。如表1所示，第一类是用户于社交平台当中所表现的文本特征。基于此类特征，可以了解到用户的文字表达习惯、话题参与、社交圈相关等情况，这类特征统称为用户文本特征。第二类中，我们对用户的行为特征进行刻画。用户作为社交平台中的成员，必然会产生关于社交的相关操作，例如选用的操作执行终端，每日的活跃时间。

第二部分，本发明提出一种新的对特征权值进行计算的方法——监督式层次分析法。

层次分析法(AHP，Analytic Hierarchy Process)是一种定性和定量相结合的、系统化、层次化的分析方法。将决策问题划分为不同的层次结构，构建特征成对比较矩阵，采用特征根的方法计算特征向量，归一化后即为各特征权值。

层次分析法中，最关键步骤在于层次结构模型建立。这一步在特征数量较少的情况下，直接进行评价往往简洁有效。本研究中，特征数量相对较多，特征重要度不易于评判，故提出监督式层次分析法。为了给予层次分析法在建立层次结构模型上的有力支持，拟选用特征选择算法对所获取的特征进行排名计算，以此为依据再使用层次分析法对权值进行计算。这样一来便解决了层次分析法中定量数据少、定性成分多的缺点。

结合上述两部分，即可得到每条消息当中各特征的异常得分，对各特征进行加权求和即可得到消息的单条异常得分。

本发明检测方法包括以下部分：

总检测方式

本发明对用户每条消息进行异常得分计算，判断该用户是否出现被劫持异常。对于用户的单条信息，按照以下方式进行异常得分s计算：

下面分别介绍每个特征的异常得分与权值的计算方式。

各特征异常分数计算

必备特征指每条消息当中一定包含的数据，Time、Source等属此类。可选特征则表示不一定在每条信息中都包含的数据，Link、Mention、Topic、Keyword、Stopwords属于可选特征。

又将上述个特征分为文本与行为两类特征，如下表所示：

表1用户特征

Time(小时)：一个正常用户每天活动应是有规律、且变化不大。用户在长期稳定的生活方式当中，固定下了某些时间段去做某事的习惯，则其在社交平台上操作行为变化不大。这一特征在一定程度上反映用户异常情况。消息流当中以每天每小时为单位，对消息的发送进行统计。

Source(终端来源)：用户发送消息必然会使用某一终端进行操作，而终端反映了用户对终端设备的一种使用习惯。这种特征往往不会在短期内发生多次变化，并且少数变化不会认为用户出现了特别大的异常。对用户发送消息所使用的终端进行收集，如当前所使用最为广泛的三种推特发送平台：IOS、Android、PC端官网。

Mention(提及他人情况)：社交网络往往提供了直接与其他用户交互的机制，在大多数平台当中，使用提及(@)这一方法可以直接将发送者与被提及者相联系。长此以往，用户便建立了一个社交网络的交互历史。该特征反映了用户社交活动圈。由此提取用户所发送的消息流当中，直接@他人的情况。

Topic(话题)：社交网络当中为了让相似内容更易聚集，产生热点话题，集中具有相似关注的用户，设置了话题#(hashtag)这一机制。用户往往会关注某些感兴趣话题，并且对这些话题进行讨论。这样便建立用户兴趣爱好画像，观察用户兴趣变化会体现是否发生异常。这里提取用户所发送的消息流中，话题标签使用情况。

Link(链接)：推特当中为用户每条常规消息设置140个字符的长度限制，用户可以通过短链接形式进行内容拓展。这里我们不对短链接的内容进行解析，不去判断其所指向的网站是为恶意链接，只对链接出现的情况进行收集。该特征反映了用户对URL使用情况，对用户文本书写习惯进行评判。提取用户所发送的消息流当中，链接引用情况。

Stopwords(停止词)：用户作为社会成员进行社交活动时，语言交流占了相当一部分比重，人们使用停止词进行语言上的转折、承接等，从一定程度上反应了用户语言表达习惯，且这种表达习惯难以改变，可作为是否异常的评判标准。这里提取用户发送消息流当中，停止词使用情况。

Keyword(关键词)：用户所发送的消息流中，关键词出现的次数及频率。除用户参与的话题外，推文当中所使用的词汇表达等，会表现出用户对某一事件、话题的看法、参与度等情况。而用户在推文中常用的关键词在某一时间段内，变化幅度不会过大。可以提取用户消息中关键词，以此对用户的异常进行评判。

其中，每个特征记为一个集合M＝{<f₁,n₁>，<f₂,n₂>，<f₃,n₃>，…，<f_i,n_i>}。在这个集合当中，会有一个或多个元组(tuple)<f_i,n_i>。其中f_i表示该集合中出现的特征元素，n_i表示对应元素出现的次数。例如，在画像部分的150条数据当中，有130条使用了苹果手机发送，20条使用的是安卓手机。则在Source这个特征集合M当中，就存在两个元组，分别为<IOS,130>与<Android,20>，即M＝{<IOS,130>，<Android,20>}。

每个特征均可计算异常得分s_v，用于用户异常评判。用户表现越异常，则异常得分越高。

必备特征Time,Source等异常分数的计算，反应了用户对于常用设备的选择或者稳定特征的表现，此类特征不会在短期内出现特别大的异常。特征集合当中，如果新出现的元素，在画像部分出现的次数超过了该特征次数期望，则认为该用户在日常行为当中经常表现出该特征。反之，则使用下列方法对异常得分进行计算：

当一条新消息进入异常评判时，按照画像部分同样的方法对这条消息进行特征提取。

提取完成后，对相同类型的特征在画像部分进行查找。若该特征从未在画像部分出现过，则返回1作为该特征的异常得分。

若出现过该特征元素，则将其在画像部分出现的次数m与画像部分该类特征数的均值E(M)进行比较。E(M)计算方式如下：

其中，i代表画像部分该类特征出现过的元素种类总个数，n_j为该特征元素在画像部分出现的次数。若m不小于E(M)，则返回0分作为异常得分。反之则返回作为异常得分。

例如，某用户在画像部分的Time特征为<2,130>与<3,20>，则有新消息在3点发出，又该特征的出现次数m<E(M)，该特征的Time异常得分为

对于可选特征Link、Mention、Topic，通过对原始数据分析发现，该类特征不一定会在推文当中出现。故对用户画像部分进行整体分析。若新进推文出现画像部分出现过的特征元素，则认定系正常；若出现了未出现过的特征元素，则以画像部分未出现过该类特征的概率作为异常得分。计算方式如下：

若新消息的该特征在画像部分出现过，则返回0作为该特征的异常得分。

若该特征元素未出现过，则返回作为异常得分，其中n_null为该类特征未出现的次数，K为画像部分的推文总数。

例如，新消息中出现了一个新的话题特征#AAA，画像部分从未出现过话题的信息数量为50，则该特征的异常得分为

对于可选特征Stopwords、Keywords，次数与种类的出现情况变化很大，且往往会出现新的特征元素，故以该类特征元素的种类，作为异常评判标准。若新进推文中，所出现的新特征元素可以在画像部分被查找到，则认定系正常。反之，则认为有一定程度上的异常。异常程度以新元素出现的概率进行评判。计算方式如下：

例如，新消息中出现了一个新的关键词food，画像部分总关键词种类数为100，则该特征元素的异常得分为

各特征SAHP权值计算

层次分析法AHP主要分为如下几个步骤：

建立层次结构模型

构造成对比较矩阵

层次单排序及一致性检验

层次总排序及一致性检验

这里我们只对立层次结构模型与构造成对比较矩阵进行具体说明，方法如下：

建立层次结构模型：如图2所示，将整个方案分为三个层次：目标层(检测账户是否被劫持)、准则层(上述7种特征)、方案层(特征所占权重)。

构造成对比较矩阵：采用矩阵的形式，将两两元素之间比较的相对权重，用数值进行表现。在大小为n×n的成对比较矩阵A＝(a_ij)_n×n当中，每个元素a_ij代表了元素i对于元素j的相对重要性。该值越大，说明元素i对元素j越重要，反之亦然。

最为关键的是如何进行矩阵元素a_ij的取值，取值合适与否，直接影响后续检测结果。

传统的层次分析法当中，这一步常选用专家评估的方式进行打分，而这种方式的不足之处在于主观性过强。为解决这一问题，选用信息增益比对各特征进行评估，并以此作为层次分析法成对比较矩阵的构建依据。计算方式如下：

依据所得到所有特征的信息增益率R＝(r₁，r₂，r₃，...，r_n)，将特征按此排名得出元素相对权重，构建成对比较矩阵A，进行层次分析法的后两步计算权向量与组合权向量，并进行一致性检验，得到各个特征的权值集合W＝(w₁，w₂，w₃，...，w_n)。

本文当中选用怀卡托大学所开发的Weka数据挖掘工具，使用GainRatioAttributeEval评估器对特征进行选择排序，计算各特征的信息增益率。

根据计算出的结果，进行比较矩阵A的构建，并得出各特征权值：

表3监督式层次分析法比较矩阵

Source

Keywords

Topic

Time

Link

Stopwords

Mention

Source

a₁₁

a₁₂

a₁₃

a₁₄

a₁₅

a₁₆

a₁₇

Keywords

a₂₁

a₂₂

a₂₃

a₂₄

a₂₅

a₂₆

a₂₇

Topic

a₃₁

a₃₂

a₃₃

a₃₄

a₃₅

a₃₆

a₃₇

Time

a₄₁

a₄₂

a₄₃

a₄₄

a₄₅

a₄₆

a₄₇

Link

a₅₁

a₅₂

a₅₃

a₅₄

a₅₅

a₅₆

a₅₇

Stopwords

a₆₁

a₆₂

a₆₃

a₆₄

a₆₅

a₆₆

a₆₇

Mention

a₇₁

a₇₂

a₇₃

a₇₄

a₇₅

a₇₆

a₇₇

表4特征权值

被劫持账户异常检测

本发明当中在检测部分分别选用几个不同的数值作为异常得分的检测阈值。

异常检测的阈值调整，会对检测效果产生较大影响。且阈值过低的情况下，算法会在检测早期便将过多的账户判定为异常，导致某些评判数据与实际情况偏差较大。

本研究当中期望在保证一定检测效果的情况下，选用不同的检测阈值分数，以满足不同需求的检测。因此这里按照总得分的区间，在得分的70％，77％，84％，89％，92％，95％处进行取值，作为异常评判得分阈值δ。

当用户消息流中出现某条信息的异常分数不小于阈值δ，即s≥δ，则认定该用户遭到劫持，否则为正常。

【1】Yu HF,Shi CW.D Sybil:Optimal Sybil-Resistance for RecommendationSystems[R].US:PROCEEDINGS OF THE 2009 30TH IEEE SYMPOSIUM ON SECURITY ANDPRIVACY,2009.

【2】F.Benvenuto,G.Magno,T.Rodrigues.Detecting Spammers on Twitter[R].Conference on Email and Anti-Spam,2010.

【3】G.Stringhini,C.Kruegel,G.Vigna.Detecting Spammers on SocialNetworks[R].Annual Computer Security Applications Conference,2010.

【4】K.Lee,J.Caverlee,S.Webb.Uncovering social spammers:socialhoneypots+machine learning[R].International ACM SIGIR Conference on Researchand Development in Information Retrieval,2010.

【5】Z.Chu,S.Gianvecchio,H.Wang,S.Jajodia.Detecting automation oftwitter accounts:Are you a human,bot,or cyborg？[J].Dependable and SecureComputing,2012,(6):811-824

【6】A.A.Amleshwaram,N.Reddy,S.Yadav,G.Gu,C.Yang.Cats:Characterizingautomation of twitter spammers[R].Communication Systems and Networks(COMSNETS),2013 Fifth International Conference on,2013.

【7】C.M.Zhang,V.Paxson.Detecting and analyzing automated activity ontwitter[J].Passive and Active Measurement,2011,(6579):102-111

【8】D.DeBarr,H.Wechsler.Using social network analysis for spamdetection[R].Proceedings of the Third International Conference on SocialComputing,Behavioral Modeling,and Prediction,2010.

【9】P.Boykin,V.Roychowdhury.Leveraging social networks to fight spam[J].Computer,2005,(4):61-68

【10】M.Fire,G.Katz,Y.Elovici.Strangers intrusion detection-detectingspammers and fake profiles in social networks based on topology anomalies[J].Human,2012,(11):83-84

【11】MARTINEZ.R,J.ARAUJO,L.Detecting malicious tweets in trendingtopics using a statistical analysis of language[J].Expert Systems withApplications,2013,(8):2992-3000

【12】HU X,TANG J L GAO,HJ.Social spammer detection with sentimentinformation[R].The ICDM,2014.180-189

【13】SHOBEIR F,JAMES F,MADHUSHDANA S.Collective spammer detection inevolving multi-relation social networks[C].The KDD,2015.1769-1778

【14】SURENDRA S,AIXIN S.HSpam14:a collection of 14 million tweets forhashtag-oriented spam research[C].The SIGIR,2015.9-13

【15】Manuel Egele,Gianluca Stringhini,Christopher Kruegel,etal.Towards Detecting Compromised Accounts on Social Networks[J].2013,12(2):447-460.

Claims

1.一种基于监督式层次分析法的异常账户检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于监督式层次分析法的异常账户检测方法，其特征在于，对用户每条消息进行异常得分计算，判断该用户是否出现被劫持异常，对于用户的单条信息，按照以下方式进行异常得分s计算：

3.如权利要求2所述的基于监督式层次分析法的异常账户检测方法，其特征在于，特征包含必备特征和可选特征，必备特征指每条消息当中一定包含的数据，即Time、Source；可选特征则表示不一定在每条信息中都包含的数据，即Link、Mention、Topic、Keyword、Stopwords。

每个特征均可计算异常得分s_v，用于用户异常评判；

4.如权利要求1所述的基于监督式层次分析法的异常账户检测方法，其特征在于，各特征SAHP权值计算过程包括：