CN110995643A

CN110995643A - 一种基于邮件数据分析的异常用户识别方法

Info

Publication number: CN110995643A
Application number: CN201910960664.5A
Authority: CN
Inventors: 成清; 刘忠; 黄金才; 程光权; 冯旸赫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-04-10
Anticipated expiration: 2039-10-10
Also published as: CN110995643B

Abstract

本发明公开了一种基于邮件数据分析的异常用户识别方法，获取邮件通联网络中邮箱地址、邮件收发地址和收发时间；建立邮件通联网络模型，节点表示邮箱，连线表示通联关系；进行节点特征提取；对节点行为进行建模；对节点行为进行异常检测，识别异常用户。本发明方法提取时序网络中节点的局部结构特征和以其为中心的ego网络拓扑结构特征作为节点的综合特征；然后构建基于隐变量的节点演化模型，采用基于熵的集成方法集成了三种不同的异常检测方法进行多维时间序列的异常点实时发现，使得本发明方法更具鲁棒性和集成开放性。

Description

一种基于邮件数据分析的异常用户识别方法

技术领域

本发明属于数据处理中的异常识别领域，具体涉及一种基于邮件数据分析的异常用户识别方法。

背景技术

如今社会网络高速发展，Facebook、Twitter和QQ等众多在线社交网络的规模不断扩大。在一些内部网络中，邮件仍然是一种非常重要的信息和文档交换的方式，对这些邮件网络的实时监测，能否发现其中很多的异常事件或异常用户，有助于监管者掌握更多更深的情况。邮件之间的通联，很多时候连监管者都不一定知道具体的通信内容，因为这些内容往往可能是被加密或者涉及隐私的，监管者只能获得通联行为的数据，即什么时候谁和谁发生了通信行为这类信息。对这类信息的分析和研究，就是对整个邮件网络行为的研究，这些网络的一个显着特征是网络的结构随时间而变化。网络的动态性是理解网络行为的关键，因此对节点(即用户)的行为进行建模和实时检测节点行为的异常具有重要的意义。

现有技术对邮件通联网络用户行为的异常检测目前大部分方法都是基于图的方法。大部分研究都是探测整个邮件网络在演化过程中是否出现异常，或者出现显著的改变，如邮件网络中的突发事件检测方法，基于子图同构的网络演化异常检测。这些方法关注的是整个网络而不是网络中单个节点的异常行为。有一部分研究认为离群点为异常点，并采用基于社区发现的方法进行异常点的检测，但是基于静态网络的。有研究将基于社区的方法引入到动态网络中的异常点检测，在动态网络认为某节点与所在社区其它点的行为有较大偏差时为异常点。然而，一方面，网络中节点的行为在演化过程中它的行为并不是一直异常，而是在某些时刻表现出异常，例如，在内部安全网络中的用户，可能绝大部分表现正常，而只在某个时刻对内部网络进行攻击，上述基于社区演化的节点异常检测无法确定节点在哪个时刻异常，而且很难进行实时的异常检测，因为节点行为的异常判断是基于网络演化的整个过程。另一方面，这些方法的重点是发现高度聚集在一起的时间节点上的社区结构，然而揭示网络中节点的行为模式，并建模这些模式随时间的变化，才是对异常用户识别的关键。另外，现实中用户的异常行为可能有存在不同类型，现有技术的单一的异常检测方法无法检测出不同类型的异常。

发明内容

有鉴于此，本发明的目的在于提出一种基于邮件数据分析的异常用户识别方法，通过对邮件通联网络数据的分析，实时监测多种类型的用户异常行为。

基于上述目的，本发明提供的一种基于邮件数据分析的异常用户识别方法，包括以下步骤：

步骤1，获取邮件通联系统中邮箱地址、邮件收发地址和收发时间；

步骤2，建立邮件通联网络模型，节点表示邮箱，连线表示通联关系；

步骤3，进行节点特征提取；

步骤4，对节点行为进行建模；

步骤5，对节点行为进行异常检测，识别异常用户；

在步骤3中，在网络模型中进行节点特征提取，是指提取节点的局部结构特征和以其为中心的ego网络的结构特征作为节点的综合特征，并将提取的节点的综合特征进行归一化；

所述节点的局部结构特征包括节点的出度，入度，出连接的权重和，入连接的权重和，邻居数目，通节点双向连接的节点的数目，出连接的平均权重，入连接的平均权重，所有出连接的权重的最大值和所有入连接的权重的最大值；所述ego网络的结构特征是基于所述节点为中心的ego网络，包括节点ego 网络中的节点数目，ego网络完全包含双向边的数目，ego网络完全包含的边的数目，从ego网络中出边唯一的数目，从ego网络中出边的数目，ego网络的进边唯一的数目，进入ego网络的边的总数目；

所述的节点综合特征进行归一化采用对数装箱的方法对特征进行归一化处理。

具体地，步骤4中，对节点行为进行建模采用隐变量模型建立节点演化模型，其中每个隐变量对应于节点的角色，建立节点行为矩阵表示节点在每个角色中的系数，通过演化模型把节点的行为变化转换成了多维时间序列。

具体地，假设一个网络中有n个节点，提取出的属性特征为f维，整个网络节点的特征矩阵记为V，它是一个n×f的矩阵，假设动态网络中有m个时间片即V＝{V_t:t＝1,2,…,m}，而且每个V_t中节点数目都为n，其中在某个时间片中有的节点可能是“激活”状态，而在有的时间片中可能是“静默”状态，把“静默”的节点的特征都设为0，考虑到每一个时间片上有V_t≈G_tF，其中G_t∈R^n×r表示每个节点在每个角色中的系数，称为行为矩阵，F∈R^r×f表示特征在每个角色中的贡献度，称为角色矩阵。

具体地，所述的G_t和F采用非负矩阵分解方法求解，目标函数为

std.G_t≥0,F≥0

分解好坏的标准便是两者之间的差异，采用欧几里得代价函数，即

其中，

表示距离度量函数；

采用迭代法求解其非负矩阵G_t和F，迭代式为：

其中，G_tik表示t时刻第i个节点第k个角色的系数，F_kj表示第j个特征在第k个角色中的贡献。

优选地，对节点特征的提取和动态演化建模，得到的节点行为序列 G_t＝{G₁,…,G_m}，G_t是关于节点的多维度时间序列，将节点异常行为的探测转换成为多时间序列的实时异常检测问题。

优选地，所述的节点行为进行异常检测方法称为EEAD方法，是基于三种检测方法的集成，第一种方法是局部离群因子方法，第二种方法是基于马氏距离的异常检测方法，第三种方法是基于拐点的异常检测方法。

具体地，所述的EEAD方法包括以下步骤：

首先，将各异常值进行正则化，即把异常值转换到[0,∞)范围内，同时保证其排序不变；

其次，基于信息熵对归一化的异常值进行集成，m种异常检测方法对某节点t时刻的行为的异常检测值记为r₁,r₂,…,r_m；

最后，各异常值信息熵为E_i＝-p_iln(p_i),其中

则最后的异常值为

具体地，采用高斯分布来将异常值转换为概率以增强正常值与异常值得对比，即通过统计概率方法拉大正常值与异常值在[0 1]中的相对差，采用累积分布函数将异常值转换成概率：

其中，μ_r为异常值r的平均值，σ_r为标准差，erf()函数为高斯误差函数。同样归一化值可以通过累积分布函数得到，累积分布函数为

因此

Norm_i＝max{0,2cdf(i)-1}

Norm_i表示归一化后的异常值，满足[0 1]范围，且值越大异常程度越高。

本发明方法首先提取时序网络中节点的局部结构特征和以其为中心的ego 网络拓扑结构特征作为节点的综合特征；然后构建基于隐变量的节点演化模型，实质上是一种角色发现模型，即节点的行为定义为在不同角色中的贡献，通过非负矩阵分解和最小描述长度准则能够实现角色数量的自动确定，因此整个节点演化模型是一种非参数模型，可以将节点在网络中的行为变化转换为多维时间序列；那么节点行为的异常检测问题转变成了多维时间序列中的异常点发现问题。针对各种异常检测方法的解释和量刚不一样，采用基于熵的集成方法集成了三种不同的异常检测方法进行多维时间序列的异常点实时发现。本发明方法能够克服原有相同方法在不同数据中表现各异的这个缺陷，本发明方法更具鲁棒性，且实际上本发明提供了一种框架，可以集成更多的异常检测方法，为本技术问题的解决提供更好的方案。

附图说明

图1为本发明实施例的整体流程示意图；

图2为本发明实施例中节点8的ego网络示意图；

图3为本发明实施例中节点行为可视化展示示意图；

图4为本发明实施例中某公司邮件网络示意图；

图5为某公司150个员工之间邮件通信量的变化图；

图6为本发明实施例中某公司网络的角色特征矩阵图；

图7为本发明实施例中节点1的行为演化图；

图8为本发明实施例中节点2的行为演化图；

图9为各种异常检测方法检测到的节点1的具体行为结果示意图；

图10为各种异常检测方法检测到的节点2的具体行为结果示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

在本实施例中，通过建立节邮箱用户行为建模和邮箱用户行为实时异常检测之间的桥梁，提出了一种非监督的实时的用户异常行为集成检测方法。这个方法从邮箱角色出发，基于隐变量方法建立节点的动态演化模型。将用户行为的演化转换成了多维时间，因此，对用户的异常行为的检测问题转变成为多维时序的异常检测问题。

如图1所示，本实施例的一种基于邮件数据分析的异常用户识别方法，包括以下步骤：

步骤3，进行节点特征提取；

步骤4，对节点行为进行建模；

步骤5，对节点行为进行异常检测，识别异常用户。

在步骤3中，对网络模型中的节点进行特征提取，是指提取节点的局部结构特征和以其为中心的ego网络的结构特征作为节点的综合特征，并将提取的节点特征进行归一化。

具体地，节点特征包括邻居特征和ego网络特征，所述的邻居特征包括节点的出度，入度，出连接的权重和，入连接的权重和，邻居数目(包括连接出的邻居和连接入的邻居)，通节点双向连接的节点的数目，出连接的平均权重，入连接的平均权重，所有出连接的权重的最大值和所有入连接的权重的最大值。所述的ego网络特征是基于节点为中心的ego网络的，包括节点ego网络中的节点数目，ego网络完全包含双向边的数目，ego网络完全包含的边的数目，从ego网络中出边唯一的数目(指从ego网络中一个节点出去的所有边算一个计数)，从ego网络中出边的数目，ego网络的进边唯一的数目(指从ego 网络外一个节点进入ego网络的所有边算一个计数)，进入ego网络的边的总数目。本实施例只考虑邻居节点构成的ego网络为一层ego网络，记为egonet-1，而称某节点的第二跳邻居构成的网络为egonet-2，如图2是节点8的ego网络示意，因此，ego网络特征可以扩展到n层，本实施例采用两层ego网络的特征,而采用两层ego网络，则ego网络特征就形成了14个特征。

由于特征的度量不统一，采用对数装箱的方法对特征进行归一化处理，把每个特征都映射称为简单的整数。设装箱的大小为p，对于特征f_i，首先根据特征f_i采用升序排序，使p|V|个拥有相对较小的f_i的节点为0，如果有多个节点的f_i与第p|V|个节点的f_i相同，则都设置为0，然后，剩下的节点(记为|V’|) 继续使p|V’|个拥有较小fi的节点设为1，依次下去，直到所有节点的fi都归一化为整数。

在步骤4，对节点行为进行建模采用隐变量模型(Latent Factor Model)探测节点的行为模式，假设一个网络中有n个节点，提取出的属性特征为f维，则整个网络节点的特征矩阵记为V，它是一个n×f的矩阵，假设动态网络中有m 个时间片即V＝{V_t:t＝1,2,…,m}，而且每个V_t中节点数目都为n，其中在某个时间片中有的节点可能是“激活”状态(与其它节点存在交互行为)，而在有的时间片中可能是“静默”状态(即与其它节点没有交互行为)，把“静默”的节点的特征都设为0，考虑到每一个时间片上有V_t≈G_tF，其中G_t∈R^n×r表示每个节点在每个角色中的系数，称为行为矩阵，F∈R^r×f表示特征在每个角色中的贡献度，称为角色矩阵。

由此，需要对V_t进行矩阵分解来求出G_t和F，为保证行为矩阵和角色矩阵的元素为正。因此，采用非负矩阵分解方法对矩阵V_t分解。

建立目标函数

std.G_t≥0,F≥0

其中由于G_tF是V_t对的近似估计，所以评分分解好坏的标准便是两者之间的差异，采用欧几里得代价函数，即

采用迭代法求解其非负矩阵G_t和F，如下所示。

在网络演化的各个时间片中，F应当是不变的，因此先综合各个时间片的网络作为一个整体网络，记为G＝G₁∪G₂∪…∪G_m，然后提取其节点特征，得到节点特征矩阵V_t，利用非负矩阵分解方法方法得到F，最后，再在各个时间片网络中求解得到G_t。另外，在非负矩阵分解中需要确定角色的数量，即r的值，采用最小描述长度来进行r的选择。

根据对节点特征的提取和动态演化建模，得到的节点行为序列 G_t＝{G₁,…,G_m}，实际G_t是关于节点的多维度时间序列。那么对节点异常行为的探测转换成为多时间序列的实时异常检测问题。

本实施例的目标是对节点行为进行非监督的实时异常检测，由此采用三种方法作为集成的基础方法。

(1)局部离群因子(Local Outlier Factor,LOF)方法。假设基线长度为l(definessliding time windows of length l)，如果检测t时刻的异常值，则t-l,t-l+1,…,t时间片的节点行为作为数据点集合D，D中的某个数据i的k临近距离定义为k-dist(i) 满足：

a)至少有k个数据点j∈Xj∈D,使得d(i,j)≤k-dist(i),d(i,j)表示数据点i和数据点j之间的距。

b)最多有k-1个数据点j∈D,使得d(i,j)＜k-dist(i)，则数据点i相对于数据点 j的可达距离为reachdist_k(i,j)＝max{k-dist(j),d(i,j)}，因此，i的局部可达密度为

其中K(i)是数据集D中与i的距离不超过k-dist(i)的所有点的结合。则i的局部离群因子为

采用LOF方法计算t时刻点的LOF值作为异常判断。如果t时刻数据不是局部离群点，则其LOF值接近于1，即t是局部离群点的程度较小，相反，如果LOF值越高，则t是局部离群点的程度越大。

(2)基于马氏距离的异常检测方法(anomaly detection method based onmahalanobis distance，记为MD-based anomaly detection)

先计算数据集D的总体重心，节点的均值坐标，记为

则数据集 D中任意一个节点(x_i1,…,x_im)到重心的马氏距离为

其中Σ为D的协方差矩阵，因此可以根据节点到重心的马氏距离来判断节点的异常程度，To score the time points,如果di>u+3σ，则为异常，异常值记为 di-(u+3σ)，其中u为总体距离的平均值，σ为总体距离的标准差。值得注意的是马氏距离的求解必须要求样本数量大于节点特征维度，因此，如果节点特征维度大于样本数量，则采用主成分分析法对节点特征进行降维使其维度小于样本数量。

(3)基于拐点的异常检测方法。Anomaly detection based on relative entroy(记为entroy-based anomaly detection)

考虑检测窗口为l的，多维时间序列t-l,t-l+1,…,t作为数据点集合D。相邻时刻间的距离集记为d,dt＝||Dt-Dt-1||.如果相邻时刻距离越大则说明异常程度越高，d的熵值定义为：

其中p(d_i)＝d_i/∑d_i，i时刻的熵值为-p(d_i)log(p(d_i))/H，该算法将检测阈值计算为熵平均值加上或减去三个标准偏差。如果t时刻的熵超过了阈值则为异常,异常值记为di-(u+3σ)，其中 u为熵平均值，σ为标准方差。

本实施例提出的是基于信息熵的集成异常检测方法(entropy-based ensembleanomaly detection，记为EEAD)。

其主要思想是使各种异常值模型提供的离群值得分进行归一化，将任意“离群因子”转换为[0,1]范围内的值，可解释为描述数据对象成为异常值的概率的值，然后基于信息熵对各异常值进行集成。

首先将各异常值进行正则化，即把异常值转换到[0,∞)范围内，同时需要保证其排序不变。也就是所，任何两个目标o₁,o₂的异常值为s₁和s₂，正则化后的值为r₁和r₂，如果s₁≤s₂,则r₁≤r₂。

正则化后的异常值满足[0,∞)，且异常值越大则异常程度越高。归一化则是将正则化得值归一到[0 1]之间。本实施例采用高斯分布来将异常值转换为概率以增强正常值与异常值得对比，即通过统计概率方法拉大正常值与异常值在 [0 1]中的相对差别。在中心极限定理中，随机变量序列部分和分布渐近于正态分布，并指出大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件，假设异常值为一组分布的值，则采用累积分布函数将异常值转换成概率：

因此

Norm_i＝max{0,2cdf(i)-1}

因此，归一化后的异常值满足[0 1]范围，且值越大异常程度越高。

最后基于信息熵对归一化的异常值进行集成，m种异常检测方法对某节点 t时刻的行为的异常检测值记为r₁,r₂,…,r_m。则各异常值信息熵为E_i＝-p_iln(p_i),其中

则，最后的异常值为

节点的行为变化是多维时间序列，每个时间片的节点行为是一个r(角色数量) 空间中的节点，采用主成分分析方法把r维中的点投影到二维空间中，可以实现节点在每个时间片中相对于其它时间片的位置，同时采用不同的色度可以表示不同的时间，并用有向边连接各时间片的节点，可以清楚的显示节点行为的变化轨迹。如图3是一个节点行为在二维空间中的变化轨迹。值得注意的是，节点在不同时间片中的行为可能一样，比如都处于“静默”状态，投影到二维则其位置可能一样，为避免位置重叠而不可见，采用随机偏移的方法，即如果后面时间片的节点同前面时间片节点位置重叠则横纵坐标的随机偏移一个值δ，如果又与其它节点重叠，则继续偏移δ直到没有重合节点位置，如图3中，浅色框中为重叠节点进行的偏移。通过节点行为的可视化实现，不仅能够展现节点行为的变化轨迹，而且能够清晰的判断节点的异常行为，如深色框中时间片的节点行为同前面节点行为有较大差异则可判断为异常行为，同时通过异常检测出的节点异常行为也能展现在二维视图上。

本实施例采用某公司数据集来说明对节点异常行为的检测，2002年的1 月2日，某公司宣布申请破产保护。之后，联邦能源规划委员会开始了对某公司的财务调查，其中一项是通过调查公司员工的邮件进行的，并于2003年10 月14日将邮件系统公布在网上以视公正。本实施例用到的某公司Email数据集。数据中收集了151名员工，其中1名员工在整个过程中没有发过也没有接收任何邮件，因此网络中真正活跃的节点为150个节点。从2000年1月到2002 年3的邮件通信，如图4是根据邮件通信构建的无向网络，节点大小表示节点度的大小，边的粗细表示邮件来往的数量。

为考察节点行为，将邮件来往以一个月为时间片进行聚合形成时序网络，则从2000年1月到2002年3月形成27个时间片。图5是每个月(时间片) 邮件量的趋势图，可以看到在2001年6月到2001年12月邮件量开始剧增，因为这半年是某公司应对财务危机的半年。

下面采用本发明方法对150个员工的中的个别节点的行为是否异常进行分析，因为并没有实际的标准定义某公司邮件网络中节点行为的异常，因此我结合。可视化分析节点的行为是否异常，节点的行为是否异常主要是基于窗口内的行为是否有较大变化，设窗口为6个月，即从2000年7月开始进行异常检测，选取2个节点进行分析，分别是节点1和节点2。先通过可视化方法展现节点行为轨迹，观察节点行为特征；然后通过本实施例提出的方法探测异常行为并和直接采用节点特征进行异常检测的结果进行对比，我们还通过人工标注节点1和节点2的异常行为，主要根据节点每个时间片邮件来往人的数量和邮件数量来标注异常行为，并通过对比分析探测的节点行为是否异常(本实施例方法中，异常值大于0.8则认为是异常)。异常检测方法实际上一个二分类问题，即把数据分为异常类和正常类，所有我们采用经典的精确度，准确率，召回率和F1分值来评估算法的有效性，

首先把所有时间片的网络综合成整体网络，然后提取两个节点的24个局部拓扑属性和ego网络属性(包括两层ego网络的特征)，然后通过隐变量模型，计算机角色特征矩阵F。因此可以得到模型的最优解，即r＝14个角色。如图6是角色特征矩阵，横表示角色，纵表示特征，特征的含义见表1。

表1特征标识的解释

特征标识	特征解释
		F1	节点出度
F2	节点入度
		F3	节点出边的权重
F4	节点入边的权重
		F5	邻居数目
F6	和节点双向连接的节点数
		F7	节点出边的平均权重
F8	节点入边的平均权重
		F9	出边的最大权重
F10	入边的最大权重
		F11	ego-1网络中完全包含的边的数目
F12	ego-2网络中完全包含的边的数目
		F13	ego-1网络完全包含双向边的数目
F14	ego-2网络完全包含双向边的数目
		F15	ego-1网络中的节点数目
F16	ego-2网络中的节点数目
		F17	进入ego-1网络的边的总数目
F18	进入ego-2网络的边的总数目
		F19	ego-1网络的进边唯一的数目
F20	ego-2网络的进边唯一的数目
		F21	ego-1网络中出边的数目
F22	ego-2网络中出边的数目
		F23	ego-1网络中出边唯一的数目
F24	ego-2网络中出边唯一的数目

通过角色特征矩阵，可以发现角色即模型特征模式，如角色R1中只有特征F8权重最大，F8权重为平均入边权重，因此角色R1表征的是节点接收邮件的行为。不过并不是所有角色都表示特定意义的行为模式，它只作为隐变量存在。

同样对每个时间片都提取两个节点的24特征，求节点在各个时间片上的节点行为G_t,因为F中确定14个角色，以此Gt为14维时间序列，每一维对相应角色的贡献。

采用异常检测模型对节点的行为进行异常判断，如图7和图8分别是节点 1和节点2的行为演化图，其中深色圈表示探测到的异常行为。可以看出两个节点的行为演化特征完全不一样，节点1在开始半年处于“静默”，在某公司遇到财务危机的前(也就是2000年7月到2001年2月)行为和之前发生巨大变化，而在某公司处理财务危机的时间段(也就是2001年6月开始)节点行为确同“静默”状态差不多，也就是说节点1并未参与某公司处理财务危机。而节点2的行为演化轨迹揭示了他经历了三个阶段，开始半年状态比较稳定，之后 (即2000年7月到2001年6月)是比较乱的状态，而在某公司面对财务危机的半年(即2001年6月到2001年12月)节点行为又处于稳定，如图8中的黑色虚线圈，但是和开始的行为状态完全不一样，可以看出节点2参与了某公司处理财务危机。因此根据节点行为可以看出两个节点的行为在某公司处理财务危机的半年行为都比较杂乱，而在处理财务危机时的行为都相对稳定，通过节点状态的不一样，节点1回到开始“静默”的状态，而节点2处于参与某公司处理财务的状态。

通过本实施例提出的基于隐变量模型的集成异常检测方法能够检测出节点的异常行为，如通过本实施例方法发现的异常节点行为在图7和8中采用深色圆圈表示。通过EEAD方法和直接采用特征进行一场检测的集成方法，LOF 方法，基于马氏距离的方法进行对比(都是采用窗口k＝6)，如表1，图9是对节点1的行为异常检测结果，图10是对节点2的行为异常检测结果，其中正常采用0表示，异常采用1表示，各种异常检测方法检测到的节点1的具体行为异常。

表2各种异常检测方法对节点1行为异常检测结果对比

异常检测方法	精确度	准确率	召回率	F1
					EEAD方法	0.75	0.85	0.75	0.75
直接采用特征	0.63	0.78	0.63	0.63
					LOF	0.67	0.78	0.5	0.58
基于马氏距离异常检测	NaN	0.7	0	NaN
					基于拐点异常检测	0.8	0.81	0.5	0.62

表3各种异常检测方法对节点2行为异常检测结果对比

异常检测方法	精确度	准确率	召回率	F1
					EEAD方法	0.75	0.81	0.82	0.78
直接采用特征	0.64	0.70	0.64	0.64
					LOF	0.8	0.81	0.73	0.76
基于马氏距离异常检测	NaN	0.59	0	NaN
					基于拐点异常检测	0.8	0.7	0.36	0.5

通过对精确度，准确率，召回率和F1值的对比，综合来看EEAD方法要优于其方法。对于节点1的行为检测，可见EEAD方法和直接采用特征的集成方法和LOF方法都能够探测出大部分节点行为异常，但是都没有探测出t＝6时刻的异常，是因为两种方法都是以6为窗口宽度，因此没有对t<＝6的时间片异常进行探测；另外，所有方法都没有探测出t＝15时刻的异常，而t＝21时刻的异常只有EEAD方法和基于拐点的方法探测出来了，虽然t＝21时刻的行为同t＝20 时刻行为变化不大，但是就局部行为来看，t＝21时刻和t＝20时刻的拐点效应相对比较大，因此EEAD方法和基于拐点的方法都能探测出其为异常行为。另外，在单个异常检测方法来看，基于拐点的异常检测方法要优于基于马氏距离的异常检测方法和LOF方法，可见节点1的行为中多存在具有拐点效应的异常行为。在节点2的异常行为检测中，EEAD方法和LOF方法的异常检测效果差不多，只有在精确度和召回率上两者有明显差别，EEAD方法把更多的正常行为误认为是异常行为了，另外，所有方法都无法检测出t＝18时刻的异常。在单个异常检测方法效果上，LOF方法要要优于基于拐点的异常检测方法和基于马氏距离的异常检测方法。

总之，通过对某公司数据的实验，EEAD方法要优于直接采用节点特征的异常检测集成方法，可见采用隐变量模型相比直接采用节点特征能够更加有效的表征节点行为。而单个异常检测方法上，在节点1的异常检测中基于拐点的异常检测方法最优，而在节点2的异常检测中LOF方法最优，可见，在节点1和节点2中异常的类型不一样，导致相同的方法效果不同，而采用的集成方法 EEAD在节点1和节点2的异常行为检测中表现都比较好，因此说明采用异常检测的集成方法能够有效的实现对不同类型的异常检测，避免在不了解异常类型的时候，采用了效果不好的方法。

上述实施例为本发明方法基于邮件数据分析的异常用户识别的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于邮件数据分析的异常用户识别方法，其特征在于，包括以下步骤：

步骤3，进行节点特征提取；

步骤4，对节点行为进行建模；

步骤5，对节点行为进行异常检测，识别异常用户；

在步骤3中，对网络模型中的节点进行特征提取，是指提取节点的局部结构特征和以其为中心的ego网络的结构特征作为节点的综合特征，并将提取的节点特征进行归一化；

节点特征包括邻居特征和ego网络特征，所述的邻居特征包括节点的出度，入度，出连接的权重和，入连接的权重和，邻居数目，通节点双向连接的节点的数目，出连接的平均权重，入连接的平均权重，所有出连接的权重的最大值和所有入连接的权重的最大值；所述的ego网络特征是基于节点为中心的ego网络的，包括节点ego网络中的节点数目，ego网络完全包含双向边的数目，ego网络完全包含的边的数目，从ego网络中出边唯一的数目，从ego网络中出边的数目，ego网络的进边唯一的数目，进入ego网络的边的总数目；

所述的节点特征进行归一化采用对数装箱的方法对特征进行归一化处理。

2.如权利要求1所述的异常用户识别方法，其特征在于，对节点行为进行建模采用隐变量模型探测节点的行为模式，假设一个网络中有n个节点，提取出的属性特征为f维，则整个网络节点的特征矩阵记为V，它是一个n×f的矩阵，假设动态网络中有m个时间片即V＝{V_t:t＝1,2,…,m}，而且每个V_t中节点数目都为n，其中在某个时间片中有的节点可能是“激活”状态，而在有的时间片中可能是“静默”状态，把“静默”的节点的特征都设为0，考虑到每一个时间片上有V_t≈G_tF，其中G_t∈R^n×r表示每个节点在每个角色中的系数，称为行为矩阵，F∈R^r×f表示特征在每个角色中的贡献度，称为角色矩阵。

3.如权利要求2所述的异常用户识别方法，其特征在于，所述的G_t和F采用非负矩阵分解方法求解，目标函数为