CN110147366B

CN110147366B - 从自我中心角度出发的异常通信行为可视化分析方法

Info

Publication number: CN110147366B
Application number: CN201910366840.2A
Authority: CN
Inventors: 蒲剑苏; 韩梅; 魏骊睿; 张雨薇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2023-10-03
Anticipated expiration: 2039-05-05
Also published as: CN110147366A

Abstract

本发明公开了一种从自我中心角度出发的异常通信行为可视化分析方法，属于可视化分析领域，解决现有技术中从整体角度出发对异常通信行为进行分析，无法挖掘出异常通信信息。本发明包括数据分析：对原始通信数据进行预处理，预处理后提取用户通信特征进行分析，得到重要特征，再基于重要特征和客观分类方法对用户进行分类，得到用户群体的规律分布；网络建模：从用户群体的规律分布中选取一个用户作为中心用户，定义中心用户的中心网络特征，并构建中心用户的自我中心网络；可视化分析：根据数据分析和网络建模的处理结果，对提取的信息进行可视化布局，从宏观到介观，再到微观进行可视化分析。用于异常通信行为的可视化分析。

Description

从自我中心角度出发的异常通信行为可视化分析方法

技术领域

一种从自我中心角度出发的异常通信行为可视化分析方法，属于可视化分析领域，用于异常通信行为的可视化分析。

背景技术

随着大数据时代的到来，传统数据处理、分析与展示技术受到了新的挑战，如何帮助数据分析者对大规模数据进行高效地分析与展示成为大数据时代的挑战之一。支持交互的数据可视化分析技术在数据分析、展示和探索中扮演着越来越重要的角色。区别于传统关注网络整体特性的研究角度，自我中心更关注从个人出发的研究，以便更好的关注每个用户的个性化差异。

现有的通信数据研究主要从整体角度，通过对通信数据进行建模、构建有向图对网络的结构、特征和权重等做了详尽的研究。少部分从自我中心角度，通过观察个人在通信行为中的策略揭示了人类通信行为的时间约束，通信容量以及固有的行为模式。从整体角度出发的研究虽然能对整体网络有个较好的把握，但缺乏对每个用户个性化差异的研究。在通行数据中，包含着大量的个人行为轨迹和社交行为模式数据，从整体角度出发进行研究则无法挖掘出这些重要的信息。而且现有技术中的少部分从自我中心角度出发的研究虽然针对个人进行了研究，但缺乏对异常用户及用户异常行为的检测。

发明内容

针对上述研究的问题，本发明的目的在于提供一种从自我中心角度出发的异常通信行为可视化分析方法，解决现有技术中从整体角度出发对异常通信行为进行分析，无法挖掘出异常通信信息。

为了达到上述目的，本发明采用如下技术方案：

一种从自我中心角度出发的异常通信行为可视化分析方法，包含以下步骤：

步骤1、数据分析：对原始通信数据进行预处理，预处理后提取用户通信特征进行分析，得到重要特征，再基于重要特征和客观分类方法对用户进行分类，得到用户群体的规律分布；

步骤2、网络建模：从用户群体的规律分布中选取一个用户作为中心用户，定义中心用户的中心网络特征，并构建中心用户的自我中心网络；

步骤3、可视化分析：根据数据分析和网络建模的处理结果，对提取的信息进行可视化布局，从宏观到介观，再到微观进行可视化分析。

进一步，所述步骤1具体包括以下步骤：

步骤1.1、对存储在HDFS内的原始数据进行清洗；

步骤1.2、使用Apache Spark平台提取清洗后的原始数据中的用户通信特征，用户通信特征包括联系人数、被叫频次、被叫时长、主叫频次和主叫时长；

步骤1.3：基于用户通信特征，对各用户的社交网络人数的分布进行统计分布，得到重要特征，即每个用户的联系人数；

步骤1.4、基于重要特征和客观分类方法对用户进行分类，得到用户群体的规律分布。

进一步，所述步骤1.4中的客观分类方法为用户密度算法或无监督的聚类算法。

进一步，步骤2具体包括以下步骤：

步骤2.1、从用户群体的规律分布中选取一个用户作为中心用户；

步骤2.2、定义中心用户的中心网络特征，中心网络特征包括某段时间内的两部分特征，第一部分特征包括单向内网主叫、单向内网被叫、双向内网主叫、双向外网被叫、单向外网主叫、单向外网被叫、双向外网主叫、双向外网被叫8个特征，第二部分特征包括中心用户的每个联系人的编号、中心用户与其联系人的主叫频次、主叫时长、被叫频次、被叫时长，以及每个联系人联系强度和弧半径，弧半径指中心用户i与其联系人j的总共通话时长d_i的倒数，即

步骤2.3、基于中心用户的中心网络特征所处的通信网络，计算中心用户与其联系人之间的权重；

步骤2.4、根据中心用户与其联系人之间的权重，构建自我中心网络，即构建简化的有向图网络。

进一步，步骤2.4基于星空图构建自我中心网络，自我中心网络包括雷达图和中心用户与其联系人的关系展示图，其中，雷达图展示中心用户的第一部分特征，中心用户与联系人的关系展示图展示第二部分特征；

中心用户与其联系人的关系展示图中，距离雷达图中心越近的环，则联系强度越高，越远联系强度越低；其中，联系强度公式为：

其中，θ_ij表示中心用户i与联系人j的通信平衡，即吸引力平衡程度，如果为1表明中心用户i与联系人j的吸引力和被吸引力呈平衡的状态，大于1，表明中心用户i与联系人j的吸引力和被吸引力处于不平衡状态，表示中心用户i与联系人j的主叫频次与被叫频次中较大的值，/>表示中心用户i与联系人j的主叫频次与被叫频次中较小的值，k_ij表示中心用户i与联系人j的通话总频次；t_ij表示中心用户i与联系人j的联系强度，其值越小，表示中心用户与联系人的联系强度就越大，反之，则两者之间的联系强度越小。

进一步，步骤3具体包括以下步骤：

实现宏观可视化的具体步骤为：

对全网社交网络人数进行统计，并绘制交互式河流图展示分布信息，得到宏观视图；

实现介观可视化的具体步骤为：

从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次，并基于用户密度算法和对全网社交网络人数进行统计的结果对全网社交网络进行分类，并且绘制基于平行坐标的介观分类视图；

从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次，并基于无监督的聚类算法、中心用户在全网社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类，并且绘制基于平行坐标的介观分类视图；

中心用户在全网社交网络中的吸引力平衡的具体步骤为：

在用户通信特征的基础上定义吸引力平衡，即表示中心用户在全网社交网络中是否具有吸引力或者被吸引，具体计算公式为：

式中，η_i表示第i个中心用户的在全网社交网络中的吸引力平衡，表示入度，即某段时间内的被叫频次；/>表示出度，即某段时间内的主叫频次；

实现微观可视化的具体步骤为：

根据有向图网络中、中心用户的联系人之间的结构关系和通信时序数据，分别绘制中心用户的自我中心网络视图，即联系人关系图和通信时序图，其中，联系人之间的结构关系是指中心用户的联系人之间存在相互通信的联系对；通信时序数据是指某段时间内，中心用户与联系人之间的通信数据。

本发明同现有技术相比，其有益效果表现在：

一、本发明从自我中心角度出发不但可以挖掘个人行为轨迹和社交行为模式数据，而且可以关注到每个用户的个性化差异，可对异常用户及用户的异常行为进行检测；

二、本发明通过三级视图对通信数据进行可视化分析，即提供了所有用户和他们联系人数量分布的情况；分类视图可以更容易地从用户群体中了解用户的特征分布；自我中心视图可以深入分析用户通信行为的细节特征；

三、本发明通过模型的各个指标，能够很好的量化一个用户的各个属性，得到更客观的评价；

四、本发明从自我中心网络的角度，更加深入分析一个用户的行为模式及特征，能够进行异常检测，为用户提供个性化服务。

五、本发明泛用性强，可以运用到其他支持自我中心网络模型的情形，并能够很好的地分析大规模数据集。

附图说明

图1是本发明的流程示意图；

图2是本发明中绘制的所有用户的联系人数的分布情况示意图；

图3是本发明中基于每个用户的联系人数、用户与每个联系人的联系频次和用户密度算法对用户群体进行分类的示意图；

图4是本发明中基于无监督的聚类算法、中心用户在全网社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类的视图；

图5是本发明中为计算权重前和计算权重后的个人中心网络图，其中，图5(a)为计算权重前的个人中心网络图，图5(b)为计算权重后简化的个人中心网络图；

图6是本发明中基于星空图，构建自我中心网络；

图7是本发明中实施例的联系人关系图；

图8是本发明中实施例的通信时序数据图；

图9是本发明中实施例的宏观、介观和微观示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

具体包括以下步骤：

步骤1.1、对存储在HDFS内的原始数据进行清洗；

步骤1.4、基于重要特征和客观分类方法对用户进行分类，得到用户群体的规律分布，其中，客观分类方法为用户密度算法或无监督的聚类算法。

具体包括以下步骤：

步骤2.4、根据中心用户与其联系人之间的权重，构建自我中心网络，即构建简化的有向图网络。即基于星空图构建自我中心网络，自我中心网络包括雷达图和中心用户与其联系人的关系展示图，其中，雷达图展示中心用户的第一部分特征，中心用户与联系人的关系展示图展示第二部分特征；

具体包括以下步骤：

实现宏观可视化的具体步骤为：

实现介观可视化的具体步骤为：

从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次，并基于无监督的聚类算法、中心用户在全同社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类，并且绘制基于平行坐标的介观分类视图；

中心用户在全网社交网络中的吸引力平衡的具体步骤为：

实现微观可视化的具体步骤为：

实施例

对存储在HDFS内的2014年1月的75万用户，进行清洗，即清洗掉无用数据；

使用Apache Spark平台提取清洗后的原始数据中的用户通信特征，用户通信特征包括联系人数、被叫频次、被叫时长、主叫频次和主叫时长；

基于用户通信特征，对各用户的社交网络人数的分布进行统计分布，得到重要特征，即每个用户的联系人数；

基于重要特征和客观分类方法对用户进行分类，得到用户群体的规律分布。其中，客观分类方法为用户密度算法或无监督的聚类算法。

从用户群体的规律分布中选取一个用户作为中心用户；

定义中心用户的中心网络特征，中心网络特征包括两部分特征第一部分特征包括单向内网主叫、单向内网被叫、双向内网主叫、双向外网被叫、单向外网主叫、单向外网被叫、双向外网主叫、双向外网被叫8个特征，第二部分特征包括中心用户的每个联系人的编号、中心用户与其联系人的主叫频次、主叫时长、被叫频次、被叫时长，以及每个联系人联系强度和弧半径，弧半径指中心用户i与其联系人j的总共通话时长d_i的倒数，即

基于中心用户的中心网络特征所处的通信网络，计算中心用户与其联系人之间的权重；

如图5所示，为计算权重前和计算权重后的个人中心网络图，其中，图5(a)为计算权重前的个人中心网络图，图5(b)为计算权重后简化的个人中心网络图。根据中心用户与其联系人之间的权重，构建自我中心网络，即简化的有向图网络。即如图6所示，基于星空图，构建自我中心网络，自我中心网络包括雷达图和中心用户与其联系人的关系展示图，其中，雷达图展示中心用户的第一部分特征，中心用户与联系人的关系展示图展示第二部分特征，图6中，左边的图为雷达图，是对右边图中心的一个详细说明，用户在2014年1月中突出的统计特征，右边图中，有背景的环带圆弧表示在此圈上内网用户所占据的比例，在背景带上的圆点代表内网联系人，在无背景带上的圆点代表外网联系人。圆点有两种颜色，不同的颜色代表主叫和被叫，而圆点所在的带背景的环带圆弧的内层弧表示其通话频次，外层弧表示通话时长，图6中通话时长越长，则弧半径r越大，通话时长越少，则弧半径r越小，这样，可以检验通话频次和通话时长是否是正相关的关系，还能检验用户的异常行为；

其中，θ_ij表示中心用户i与联系人j的通信平衡，即吸引力平衡程度，如果为1表明中心用户i与联系人j的吸引力和被吸引力呈平衡的状态，大于1，表明中心用户i与联系人j的吸引力和被吸引力处于不平衡状态，表示中心用户i与联系人j的主叫频次与被叫频次中较大的值，/>表示中心用户i与联系人j的主叫频次与被叫频次中较小的值，ki_j表示中心用户i与联系人j的通话总频次；t_ij表示中心用户i与联系人j的联系强度，其值越小，表示中心用户与联系人的联系强度就越大，反之，则两者之间的联系强度越小。

可视化分析：根据数据分析和网络建模的处理结果，对提取的信息进行可视化布局，从宏观到介观，再到微观进行可视化分析。

具体包括以下步骤：

实现宏观可视化的具体步骤为：

如图2所示，为绘制的所有用户的联系人数的分布情况，图中，横坐标是联系人数，纵坐标是用户人数，从图中可知，在联系人数为1时，用户数量达到顶峰，高达近5万人.联系人数超过200的用户数量为4000多人。

实现介观可视化的具体步骤为：

如图3所示为基于每个用户的联系人数、用户与每个联系人的联系频次和用户密度算法对用户群体进行分类的示意图，图中，以用户的联系人数和通话频次(即联系频次)作横纵坐标，设置矩阵，计算坐标上用户数量；设计棋盘图，以颜色透明度区分坐标上用户数量，不同的颜色用于区分不同的类别。G1是联系人数和通话频次都在10以内的用户，可以看出部分坐标颜色非常深；G2是联系人数少，但是通话频次多的用户群体，相对来说，用户数目不是特别多，也没有许多深色块；G3是联系人数和通话频次呈一定比例的用户群体，在下方有许多的深色块，这个群体用户数量也相对较多；G4是用户密度相对稀疏的群体，用户在联系人和通话频次上相对都比较活跃；G5是联系人数和通话频次比例大约在1比1左右，用户分布很稀疏，许多用户也比较突出，其中，图中的n表示人数坐落在这个坐标上用户数量。

图3从布局上能清晰观察出用户的分布，能够快速定位异常用户的分布。

如图4所示，从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次，并基于无监督的聚类算法、中心用户在全网社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类，并且绘制基于平行坐标的介观分类视图；

中心用户在全网社交网络中的吸引力平衡的具体步骤为：

式中，η_i表示第i个中心用户的在全网社交网络中的吸引力平衡，表示入度，即某段时间内的被叫频次；/>表示出度，即某段时间内的主叫频次；本案数据没有标签，所以想要分类客观性只能采用无监督的聚类算法进行分类。以图2的统计结果，将联系人数为1的用户划分为G0；结合统计结果，放大邓巴数字范围，将联系人数超过200的用户划分为G6，将联系人数在2到200的用户采用k-means聚类将用户分为5类。这样分类的优点是保证分类的客观性，而且结合本次研究数据的情况，对全网用户的特点有了详细的了解。

实现微观可视化的具体步骤为：

如图7所示为联系人关系图，统计当月选中的中心用户的联系人存在相互联系的连接，绘制关系视图。该选中的中心用户的联系人有400对相互联系，其中有两个联系人与其他联系人联系比较多，已在图中标注。

如图8所示通信时序数据图，根据中心用户的时序数据，绘制中心用户在时间上的通信时序图。该中心用户只和一个外网用户联系，每间隔15分钟通话一次，昼夜不息，每次通话时间是1到2秒，由此我们判定该用户为机器用户，也是不忠诚用户。

综上所述，得到图9所示的宏观、介观和微观示意图。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种从自我中心角度出发的异常通信行为可视化分析方法，其特征在于，包含以下步骤：

步骤3、可视化分析：根据数据分析和网络建模的处理结果，对提取的信息进行可视化布局，从宏观到介观，再到微观进行可视化分析；

所述步骤1具体包括以下步骤：

步骤1.1、对存储在HDFS内的原始数据进行清洗；

步骤1.4、基于重要特征和客观分类方法对用户进行分类，得到用户群体的规律分布；

所述步骤1.4中的客观分类方法为用户密度算法或无监督的聚类算法；

步骤2具体包括以下步骤：

步骤2.4、根据中心用户与其联系人之间的权重，构建自我中心网络，即构建简化的有向图网络；

步骤2.4基于星空图构建自我中心网络，自我中心网络包括雷达图和中心用户与其联系人的关系展示图，其中，雷达图展示中心用户的第一部分特征，中心用户与联系人的关系展示图展示第二部分特征；

其中，θ_ij表示中心用户i与联系人j的通信平衡，即吸引力平衡程度，如果为1表明中心用户i与联系人j的吸引力和被吸引力呈平衡的状态，大于1，表明中心用户i与联系人j的吸引力和被吸引力处于不平衡状态，表示中心用户i与联系人j的主叫频次与被叫频次中较大的值，/>表示中心用户i与联系人j的主叫频次与被叫频次中较小的值，k_ij表示中心用户i与联系人j的通话总频次；t_ij表示中心用户i与联系人j的联系强度，其值越小，表示中心用户与联系人的联系强度就越大，反之，则两者之间的联系强度越小；

步骤3具体包括以下步骤：

实现宏观可视化的具体步骤为：

实现介观可视化的具体步骤为：

中心用户在全网社交网络中的吸引力平衡的具体步骤为：

实现微观可视化的具体步骤为：