CN110147366B - 从自我中心角度出发的异常通信行为可视化分析方法 - Google Patents

从自我中心角度出发的异常通信行为可视化分析方法 Download PDF

Info

Publication number
CN110147366B
CN110147366B CN201910366840.2A CN201910366840A CN110147366B CN 110147366 B CN110147366 B CN 110147366B CN 201910366840 A CN201910366840 A CN 201910366840A CN 110147366 B CN110147366 B CN 110147366B
Authority
CN
China
Prior art keywords
user
network
contact
central
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910366840.2A
Other languages
English (en)
Other versions
CN110147366A (zh
Inventor
蒲剑苏
韩梅
魏骊睿
张雨薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910366840.2A priority Critical patent/CN110147366B/zh
Publication of CN110147366A publication Critical patent/CN110147366A/zh
Application granted granted Critical
Publication of CN110147366B publication Critical patent/CN110147366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种从自我中心角度出发的异常通信行为可视化分析方法,属于可视化分析领域,解决现有技术中从整体角度出发对异常通信行为进行分析,无法挖掘出异常通信信息。本发明包括数据分析:对原始通信数据进行预处理,预处理后提取用户通信特征进行分析,得到重要特征,再基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布;网络建模:从用户群体的规律分布中选取一个用户作为中心用户,定义中心用户的中心网络特征,并构建中心用户的自我中心网络;可视化分析:根据数据分析和网络建模的处理结果,对提取的信息进行可视化布局,从宏观到介观,再到微观进行可视化分析。用于异常通信行为的可视化分析。

Description

从自我中心角度出发的异常通信行为可视化分析方法
技术领域
一种从自我中心角度出发的异常通信行为可视化分析方法,属于可视化分析领域,用于异常通信行为的可视化分析。
背景技术
随着大数据时代的到来,传统数据处理、分析与展示技术受到了新的挑战,如何帮助数据分析者对大规模数据进行高效地分析与展示成为大数据时代的挑战之一。支持交互的数据可视化分析技术在数据分析、展示和探索中扮演着越来越重要的角色。区别于传统关注网络整体特性的研究角度,自我中心更关注从个人出发的研究,以便更好的关注每个用户的个性化差异。
现有的通信数据研究主要从整体角度,通过对通信数据进行建模、构建有向图对网络的结构、特征和权重等做了详尽的研究。少部分从自我中心角度,通过观察个人在通信行为中的策略揭示了人类通信行为的时间约束,通信容量以及固有的行为模式。从整体角度出发的研究虽然能对整体网络有个较好的把握,但缺乏对每个用户个性化差异的研究。在通行数据中,包含着大量的个人行为轨迹和社交行为模式数据,从整体角度出发进行研究则无法挖掘出这些重要的信息。而且现有技术中的少部分从自我中心角度出发的研究虽然针对个人进行了研究,但缺乏对异常用户及用户异常行为的检测。
发明内容
针对上述研究的问题,本发明的目的在于提供一种从自我中心角度出发的异常通信行为可视化分析方法,解决现有技术中从整体角度出发对异常通信行为进行分析,无法挖掘出异常通信信息。
为了达到上述目的,本发明采用如下技术方案:
一种从自我中心角度出发的异常通信行为可视化分析方法,包含以下步骤:
步骤1、数据分析:对原始通信数据进行预处理,预处理后提取用户通信特征进行分析,得到重要特征,再基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布;
步骤2、网络建模:从用户群体的规律分布中选取一个用户作为中心用户,定义中心用户的中心网络特征,并构建中心用户的自我中心网络;
步骤3、可视化分析:根据数据分析和网络建模的处理结果,对提取的信息进行可视化布局,从宏观到介观,再到微观进行可视化分析。
进一步,所述步骤1具体包括以下步骤:
步骤1.1、对存储在HDFS内的原始数据进行清洗;
步骤1.2、使用Apache Spark平台提取清洗后的原始数据中的用户通信特征,用户通信特征包括联系人数、被叫频次、被叫时长、主叫频次和主叫时长;
步骤1.3:基于用户通信特征,对各用户的社交网络人数的分布进行统计分布,得到重要特征,即每个用户的联系人数;
步骤1.4、基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布。
进一步,所述步骤1.4中的客观分类方法为用户密度算法或无监督的聚类算法。
进一步,步骤2具体包括以下步骤:
步骤2.1、从用户群体的规律分布中选取一个用户作为中心用户;
步骤2.2、定义中心用户的中心网络特征,中心网络特征包括某段时间内的两部分特征,第一部分特征包括单向内网主叫、单向内网被叫、双向内网主叫、双向外网被叫、单向外网主叫、单向外网被叫、双向外网主叫、双向外网被叫8个特征,第二部分特征包括中心用户的每个联系人的编号、中心用户与其联系人的主叫频次、主叫时长、被叫频次、被叫时长,以及每个联系人联系强度和弧半径,弧半径指中心用户i与其联系人j的总共通话时长di的倒数,即
步骤2.3、基于中心用户的中心网络特征所处的通信网络,计算中心用户与其联系人之间的权重;
步骤2.4、根据中心用户与其联系人之间的权重,构建自我中心网络,即构建简化的有向图网络。
进一步,步骤2.4基于星空图构建自我中心网络,自我中心网络包括雷达图和中心用户与其联系人的关系展示图,其中,雷达图展示中心用户的第一部分特征,中心用户与联系人的关系展示图展示第二部分特征;
中心用户与其联系人的关系展示图中,距离雷达图中心越近的环,则联系强度越高,越远联系强度越低;其中,联系强度公式为:
其中,θij表示中心用户i与联系人j的通信平衡,即吸引力平衡程度,如果为1表明中心用户i与联系人j的吸引力和被吸引力呈平衡的状态,大于1,表明中心用户i与联系人j的吸引力和被吸引力处于不平衡状态,表示中心用户i与联系人j的主叫频次与被叫频次中较大的值,/>表示中心用户i与联系人j的主叫频次与被叫频次中较小的值,kij表示中心用户i与联系人j的通话总频次;tij表示中心用户i与联系人j的联系强度,其值越小,表示中心用户与联系人的联系强度就越大,反之,则两者之间的联系强度越小。
进一步,步骤3具体包括以下步骤:
实现宏观可视化的具体步骤为:
对全网社交网络人数进行统计,并绘制交互式河流图展示分布信息,得到宏观视图;
实现介观可视化的具体步骤为:
从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于用户密度算法和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于无监督的聚类算法、中心用户在全网社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
中心用户在全网社交网络中的吸引力平衡的具体步骤为:
在用户通信特征的基础上定义吸引力平衡,即表示中心用户在全网社交网络中是否具有吸引力或者被吸引,具体计算公式为:
式中,ηi表示第i个中心用户的在全网社交网络中的吸引力平衡,表示入度,即某段时间内的被叫频次;/>表示出度,即某段时间内的主叫频次;
实现微观可视化的具体步骤为:
根据有向图网络中、中心用户的联系人之间的结构关系和通信时序数据,分别绘制中心用户的自我中心网络视图,即联系人关系图和通信时序图,其中,联系人之间的结构关系是指中心用户的联系人之间存在相互通信的联系对;通信时序数据是指某段时间内,中心用户与联系人之间的通信数据。
本发明同现有技术相比,其有益效果表现在:
一、本发明从自我中心角度出发不但可以挖掘个人行为轨迹和社交行为模式数据,而且可以关注到每个用户的个性化差异,可对异常用户及用户的异常行为进行检测;
二、本发明通过三级视图对通信数据进行可视化分析,即提供了所有用户和他们联系人数量分布的情况;分类视图可以更容易地从用户群体中了解用户的特征分布;自我中心视图可以深入分析用户通信行为的细节特征;
三、本发明通过模型的各个指标,能够很好的量化一个用户的各个属性,得到更客观的评价;
四、本发明从自我中心网络的角度,更加深入分析一个用户的行为模式及特征,能够进行异常检测,为用户提供个性化服务。
五、本发明泛用性强,可以运用到其他支持自我中心网络模型的情形,并能够很好的地分析大规模数据集。
附图说明
图1是本发明的流程示意图;
图2是本发明中绘制的所有用户的联系人数的分布情况示意图;
图3是本发明中基于每个用户的联系人数、用户与每个联系人的联系频次和用户密度算法对用户群体进行分类的示意图;
图4是本发明中基于无监督的聚类算法、中心用户在全网社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类的视图;
图5是本发明中为计算权重前和计算权重后的个人中心网络图,其中,图5(a)为计算权重前的个人中心网络图,图5(b)为计算权重后简化的个人中心网络图;
图6是本发明中基于星空图,构建自我中心网络;
图7是本发明中实施例的联系人关系图;
图8是本发明中实施例的通信时序数据图;
图9是本发明中实施例的宏观、介观和微观示意图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
一种从自我中心角度出发的异常通信行为可视化分析方法,包含以下步骤:
步骤1、数据分析:对原始通信数据进行预处理,预处理后提取用户通信特征进行分析,得到重要特征,再基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布;
具体包括以下步骤:
步骤1.1、对存储在HDFS内的原始数据进行清洗;
步骤1.2、使用Apache Spark平台提取清洗后的原始数据中的用户通信特征,用户通信特征包括联系人数、被叫频次、被叫时长、主叫频次和主叫时长;
步骤1.3:基于用户通信特征,对各用户的社交网络人数的分布进行统计分布,得到重要特征,即每个用户的联系人数;
步骤1.4、基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布,其中,客观分类方法为用户密度算法或无监督的聚类算法。
步骤2、网络建模:从用户群体的规律分布中选取一个用户作为中心用户,定义中心用户的中心网络特征,并构建中心用户的自我中心网络;
具体包括以下步骤:
步骤2.1、从用户群体的规律分布中选取一个用户作为中心用户;
步骤2.2、定义中心用户的中心网络特征,中心网络特征包括某段时间内的两部分特征,第一部分特征包括单向内网主叫、单向内网被叫、双向内网主叫、双向外网被叫、单向外网主叫、单向外网被叫、双向外网主叫、双向外网被叫8个特征,第二部分特征包括中心用户的每个联系人的编号、中心用户与其联系人的主叫频次、主叫时长、被叫频次、被叫时长,以及每个联系人联系强度和弧半径,弧半径指中心用户i与其联系人j的总共通话时长di的倒数,即
步骤2.3、基于中心用户的中心网络特征所处的通信网络,计算中心用户与其联系人之间的权重;
步骤2.4、根据中心用户与其联系人之间的权重,构建自我中心网络,即构建简化的有向图网络。即基于星空图构建自我中心网络,自我中心网络包括雷达图和中心用户与其联系人的关系展示图,其中,雷达图展示中心用户的第一部分特征,中心用户与联系人的关系展示图展示第二部分特征;
中心用户与其联系人的关系展示图中,距离雷达图中心越近的环,则联系强度越高,越远联系强度越低;其中,联系强度公式为:
其中,θij表示中心用户i与联系人j的通信平衡,即吸引力平衡程度,如果为1表明中心用户i与联系人j的吸引力和被吸引力呈平衡的状态,大于1,表明中心用户i与联系人j的吸引力和被吸引力处于不平衡状态,表示中心用户i与联系人j的主叫频次与被叫频次中较大的值,/>表示中心用户i与联系人j的主叫频次与被叫频次中较小的值,kij表示中心用户i与联系人j的通话总频次;tij表示中心用户i与联系人j的联系强度,其值越小,表示中心用户与联系人的联系强度就越大,反之,则两者之间的联系强度越小。
步骤3、可视化分析:根据数据分析和网络建模的处理结果,对提取的信息进行可视化布局,从宏观到介观,再到微观进行可视化分析。
具体包括以下步骤:
实现宏观可视化的具体步骤为:
对全网社交网络人数进行统计,并绘制交互式河流图展示分布信息,得到宏观视图;
实现介观可视化的具体步骤为:
从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于用户密度算法和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于无监督的聚类算法、中心用户在全同社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
中心用户在全网社交网络中的吸引力平衡的具体步骤为:
在用户通信特征的基础上定义吸引力平衡,即表示中心用户在全网社交网络中是否具有吸引力或者被吸引,具体计算公式为:
式中,ηi表示第i个中心用户的在全网社交网络中的吸引力平衡,表示入度,即某段时间内的被叫频次;/>表示出度,即某段时间内的主叫频次;
实现微观可视化的具体步骤为:
根据有向图网络中、中心用户的联系人之间的结构关系和通信时序数据,分别绘制中心用户的自我中心网络视图,即联系人关系图和通信时序图,其中,联系人之间的结构关系是指中心用户的联系人之间存在相互通信的联系对;通信时序数据是指某段时间内,中心用户与联系人之间的通信数据。
实施例
对存储在HDFS内的2014年1月的75万用户,进行清洗,即清洗掉无用数据;
使用Apache Spark平台提取清洗后的原始数据中的用户通信特征,用户通信特征包括联系人数、被叫频次、被叫时长、主叫频次和主叫时长;
基于用户通信特征,对各用户的社交网络人数的分布进行统计分布,得到重要特征,即每个用户的联系人数;
基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布。其中,客观分类方法为用户密度算法或无监督的聚类算法。
从用户群体的规律分布中选取一个用户作为中心用户;
定义中心用户的中心网络特征,中心网络特征包括两部分特征第一部分特征包括单向内网主叫、单向内网被叫、双向内网主叫、双向外网被叫、单向外网主叫、单向外网被叫、双向外网主叫、双向外网被叫8个特征,第二部分特征包括中心用户的每个联系人的编号、中心用户与其联系人的主叫频次、主叫时长、被叫频次、被叫时长,以及每个联系人联系强度和弧半径,弧半径指中心用户i与其联系人j的总共通话时长di的倒数,即
基于中心用户的中心网络特征所处的通信网络,计算中心用户与其联系人之间的权重;
如图5所示,为计算权重前和计算权重后的个人中心网络图,其中,图5(a)为计算权重前的个人中心网络图,图5(b)为计算权重后简化的个人中心网络图。根据中心用户与其联系人之间的权重,构建自我中心网络,即简化的有向图网络。即如图6所示,基于星空图,构建自我中心网络,自我中心网络包括雷达图和中心用户与其联系人的关系展示图,其中,雷达图展示中心用户的第一部分特征,中心用户与联系人的关系展示图展示第二部分特征,图6中,左边的图为雷达图,是对右边图中心的一个详细说明,用户在2014年1月中突出的统计特征,右边图中,有背景的环带圆弧表示在此圈上内网用户所占据的比例,在背景带上的圆点代表内网联系人,在无背景带上的圆点代表外网联系人。圆点有两种颜色,不同的颜色代表主叫和被叫,而圆点所在的带背景的环带圆弧的内层弧表示其通话频次,外层弧表示通话时长,图6中通话时长越长,则弧半径r越大,通话时长越少,则弧半径r越小,这样,可以检验通话频次和通话时长是否是正相关的关系,还能检验用户的异常行为;
中心用户与其联系人的关系展示图中,距离雷达图中心越近的环,则联系强度越高,越远联系强度越低;其中,联系强度公式为:
其中,θij表示中心用户i与联系人j的通信平衡,即吸引力平衡程度,如果为1表明中心用户i与联系人j的吸引力和被吸引力呈平衡的状态,大于1,表明中心用户i与联系人j的吸引力和被吸引力处于不平衡状态,表示中心用户i与联系人j的主叫频次与被叫频次中较大的值,/>表示中心用户i与联系人j的主叫频次与被叫频次中较小的值,kij表示中心用户i与联系人j的通话总频次;tij表示中心用户i与联系人j的联系强度,其值越小,表示中心用户与联系人的联系强度就越大,反之,则两者之间的联系强度越小。
可视化分析:根据数据分析和网络建模的处理结果,对提取的信息进行可视化布局,从宏观到介观,再到微观进行可视化分析。
具体包括以下步骤:
可视化分析:根据数据分析和网络建模的处理结果,对提取的信息进行可视化布局,从宏观到介观,再到微观进行可视化分析。
实现宏观可视化的具体步骤为:
对全网社交网络人数进行统计,并绘制交互式河流图展示分布信息,得到宏观视图;
如图2所示,为绘制的所有用户的联系人数的分布情况,图中,横坐标是联系人数,纵坐标是用户人数,从图中可知,在联系人数为1时,用户数量达到顶峰,高达近5万人.联系人数超过200的用户数量为4000多人。
实现介观可视化的具体步骤为:
从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于用户密度算法和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
如图3所示为基于每个用户的联系人数、用户与每个联系人的联系频次和用户密度算法对用户群体进行分类的示意图,图中,以用户的联系人数和通话频次(即联系频次)作横纵坐标,设置矩阵,计算坐标上用户数量;设计棋盘图,以颜色透明度区分坐标上用户数量,不同的颜色用于区分不同的类别。G1是联系人数和通话频次都在10以内的用户,可以看出部分坐标颜色非常深;G2是联系人数少,但是通话频次多的用户群体,相对来说,用户数目不是特别多,也没有许多深色块;G3是联系人数和通话频次呈一定比例的用户群体,在下方有许多的深色块,这个群体用户数量也相对较多;G4是用户密度相对稀疏的群体,用户在联系人和通话频次上相对都比较活跃;G5是联系人数和通话频次比例大约在1比1左右,用户分布很稀疏,许多用户也比较突出,其中,图中的n表示人数坐落在这个坐标上用户数量。
图3从布局上能清晰观察出用户的分布,能够快速定位异常用户的分布。
如图4所示,从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于无监督的聚类算法、中心用户在全网社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
中心用户在全网社交网络中的吸引力平衡的具体步骤为:
在用户通信特征的基础上定义吸引力平衡,即表示中心用户在全网社交网络中是否具有吸引力或者被吸引,具体计算公式为:
式中,ηi表示第i个中心用户的在全网社交网络中的吸引力平衡,表示入度,即某段时间内的被叫频次;/>表示出度,即某段时间内的主叫频次;本案数据没有标签,所以想要分类客观性只能采用无监督的聚类算法进行分类。以图2的统计结果,将联系人数为1的用户划分为G0;结合统计结果,放大邓巴数字范围,将联系人数超过200的用户划分为G6,将联系人数在2到200的用户采用k-means聚类将用户分为5类。这样分类的优点是保证分类的客观性,而且结合本次研究数据的情况,对全网用户的特点有了详细的了解。
实现微观可视化的具体步骤为:
根据有向图网络中、中心用户的联系人之间的结构关系和通信时序数据,分别绘制中心用户的自我中心网络视图,即联系人关系图和通信时序图,其中,联系人之间的结构关系是指中心用户的联系人之间存在相互通信的联系对;通信时序数据是指某段时间内,中心用户与联系人之间的通信数据。
如图7所示为联系人关系图,统计当月选中的中心用户的联系人存在相互联系的连接,绘制关系视图。该选中的中心用户的联系人有400对相互联系,其中有两个联系人与其他联系人联系比较多,已在图中标注。
如图8所示通信时序数据图,根据中心用户的时序数据,绘制中心用户在时间上的通信时序图。该中心用户只和一个外网用户联系,每间隔15分钟通话一次,昼夜不息,每次通话时间是1到2秒,由此我们判定该用户为机器用户,也是不忠诚用户。
综上所述,得到图9所示的宏观、介观和微观示意图。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (1)

1.一种从自我中心角度出发的异常通信行为可视化分析方法,其特征在于,包含以下步骤:
步骤1、数据分析:对原始通信数据进行预处理,预处理后提取用户通信特征进行分析,得到重要特征,再基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布;
步骤2、网络建模:从用户群体的规律分布中选取一个用户作为中心用户,定义中心用户的中心网络特征,并构建中心用户的自我中心网络;
步骤3、可视化分析:根据数据分析和网络建模的处理结果,对提取的信息进行可视化布局,从宏观到介观,再到微观进行可视化分析;
所述步骤1具体包括以下步骤:
步骤1.1、对存储在HDFS内的原始数据进行清洗;
步骤1.2、使用Apache Spark平台提取清洗后的原始数据中的用户通信特征,用户通信特征包括联系人数、被叫频次、被叫时长、主叫频次和主叫时长;
步骤1.3:基于用户通信特征,对各用户的社交网络人数的分布进行统计分布,得到重要特征,即每个用户的联系人数;
步骤1.4、基于重要特征和客观分类方法对用户进行分类,得到用户群体的规律分布;
所述步骤1.4中的客观分类方法为用户密度算法或无监督的聚类算法;
步骤2具体包括以下步骤:
步骤2.1、从用户群体的规律分布中选取一个用户作为中心用户;
步骤2.2、定义中心用户的中心网络特征,中心网络特征包括某段时间内的两部分特征,第一部分特征包括单向内网主叫、单向内网被叫、双向内网主叫、双向外网被叫、单向外网主叫、单向外网被叫、双向外网主叫、双向外网被叫8个特征,第二部分特征包括中心用户的每个联系人的编号、中心用户与其联系人的主叫频次、主叫时长、被叫频次、被叫时长,以及每个联系人联系强度和弧半径,弧半径指中心用户i与其联系人j的总共通话时长di的倒数,即
步骤2.3、基于中心用户的中心网络特征所处的通信网络,计算中心用户与其联系人之间的权重;
步骤2.4、根据中心用户与其联系人之间的权重,构建自我中心网络,即构建简化的有向图网络;
步骤2.4基于星空图构建自我中心网络,自我中心网络包括雷达图和中心用户与其联系人的关系展示图,其中,雷达图展示中心用户的第一部分特征,中心用户与联系人的关系展示图展示第二部分特征;
中心用户与其联系人的关系展示图中,距离雷达图中心越近的环,则联系强度越高,越远联系强度越低;其中,联系强度公式为:
其中,θij表示中心用户i与联系人j的通信平衡,即吸引力平衡程度,如果为1表明中心用户i与联系人j的吸引力和被吸引力呈平衡的状态,大于1,表明中心用户i与联系人j的吸引力和被吸引力处于不平衡状态,表示中心用户i与联系人j的主叫频次与被叫频次中较大的值,/>表示中心用户i与联系人j的主叫频次与被叫频次中较小的值,kij表示中心用户i与联系人j的通话总频次;tij表示中心用户i与联系人j的联系强度,其值越小,表示中心用户与联系人的联系强度就越大,反之,则两者之间的联系强度越小;
步骤3具体包括以下步骤:
实现宏观可视化的具体步骤为:
对全网社交网络人数进行统计,并绘制交互式河流图展示分布信息,得到宏观视图;
实现介观可视化的具体步骤为:
从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于用户密度算法和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
从用户群体的规律分布中得到每个用户的联系人数和用户与每个联系人的联系频次,并基于无监督的聚类算法、中心用户在全网社交网络中的吸引力平衡和对全网社交网络人数进行统计的结果对全网社交网络进行分类,并且绘制基于平行坐标的介观分类视图;
中心用户在全网社交网络中的吸引力平衡的具体步骤为:
在用户通信特征的基础上定义吸引力平衡,即表示中心用户在全网社交网络中是否具有吸引力或者被吸引,具体计算公式为:
式中,ηi表示第i个中心用户的在全网社交网络中的吸引力平衡,表示入度,即某段时间内的被叫频次;/>表示出度,即某段时间内的主叫频次;
实现微观可视化的具体步骤为:
根据有向图网络中、中心用户的联系人之间的结构关系和通信时序数据,分别绘制中心用户的自我中心网络视图,即联系人关系图和通信时序图,其中,联系人之间的结构关系是指中心用户的联系人之间存在相互通信的联系对;通信时序数据是指某段时间内,中心用户与联系人之间的通信数据。
CN201910366840.2A 2019-05-05 2019-05-05 从自我中心角度出发的异常通信行为可视化分析方法 Active CN110147366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910366840.2A CN110147366B (zh) 2019-05-05 2019-05-05 从自我中心角度出发的异常通信行为可视化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910366840.2A CN110147366B (zh) 2019-05-05 2019-05-05 从自我中心角度出发的异常通信行为可视化分析方法

Publications (2)

Publication Number Publication Date
CN110147366A CN110147366A (zh) 2019-08-20
CN110147366B true CN110147366B (zh) 2023-10-03

Family

ID=67594081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910366840.2A Active CN110147366B (zh) 2019-05-05 2019-05-05 从自我中心角度出发的异常通信行为可视化分析方法

Country Status (1)

Country Link
CN (1) CN110147366B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404438B1 (en) * 1999-12-21 2002-06-11 Electronic Arts, Inc. Behavioral learning for a visual representation in a communication environment
CN1503940A (zh) * 2001-03-16 2004-06-09 ����÷�ع�˾ 通过计算机网络共享、管理和传送信息
CN103902566A (zh) * 2012-12-26 2014-07-02 中国科学院心理研究所 一种基于微博用户行为的人格预测方法
CN104268378A (zh) * 2014-09-12 2015-01-07 北京邮电大学 一种基于移动用户大数据的异常行为可视化监控方法
CN104935570A (zh) * 2015-04-22 2015-09-23 电子科技大学 基于网络流连接图的网络流连接行为特征分析方法
EP3048023A1 (en) * 2015-01-23 2016-07-27 Honda Research Institute Europe GmbH Method for assisting a driver in driving an ego vehicle and corresponding driver assistance system
CN106254142A (zh) * 2016-09-05 2016-12-21 电子科技大学成都研究院 一种基于移动通信运营数据的城市群体行为监测系统
CN107733900A (zh) * 2017-10-23 2018-02-23 中国人民解放军信息工程大学 一种通信网用户异常呼叫行为检测预警方法
CN108985309A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 一种数据处理方法以及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160198223A1 (en) * 2012-12-26 2016-07-07 Livingrid Ltd. A method and system for providing and managing a social platform that visualizes virtual crowd

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404438B1 (en) * 1999-12-21 2002-06-11 Electronic Arts, Inc. Behavioral learning for a visual representation in a communication environment
EP1264278A1 (en) * 1999-12-21 2002-12-11 Electronic Arts, Inc. Behavioral learning for a visual representation in a communication environment
CN1503940A (zh) * 2001-03-16 2004-06-09 ����÷�ع�˾ 通过计算机网络共享、管理和传送信息
CN103902566A (zh) * 2012-12-26 2014-07-02 中国科学院心理研究所 一种基于微博用户行为的人格预测方法
CN104268378A (zh) * 2014-09-12 2015-01-07 北京邮电大学 一种基于移动用户大数据的异常行为可视化监控方法
EP3048023A1 (en) * 2015-01-23 2016-07-27 Honda Research Institute Europe GmbH Method for assisting a driver in driving an ego vehicle and corresponding driver assistance system
CN104935570A (zh) * 2015-04-22 2015-09-23 电子科技大学 基于网络流连接图的网络流连接行为特征分析方法
CN106254142A (zh) * 2016-09-05 2016-12-21 电子科技大学成都研究院 一种基于移动通信运营数据的城市群体行为监测系统
CN108985309A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 一种数据处理方法以及装置
CN107733900A (zh) * 2017-10-23 2018-02-23 中国人民解放军信息工程大学 一种通信网用户异常呼叫行为检测预警方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Social Network Analysis of Mobile Streaming Networks";Shazia Tabassum et al.;《2016 17th IEEE International Conference on Mobile Data Management》;20160825;全文 *
"TargetVue: Visual Analysis of Anomalous User Behaviors in Online Communication Systems";Nan Cao et al.;《IEEE Transactions on Visualization and Computer Graphics》;20150811;全文 *
"自我中心网络的结构建模与研究";王庆;《博士电子期刊出版》;20180215;第二章第2.2.2节、第四章第4.1、4.2节 *

Also Published As

Publication number Publication date
CN110147366A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110198310A (zh) 一种网络行为反作弊方法、装置及存储介质
Mohrehkesh et al. Demographic prediction of mobile user from phone usage
CN108924333A (zh) 诈骗电话识别方法、装置和系统
CN107633084A (zh) 基于自媒体的舆情管控系统及其方法
CN104156447B (zh) 一种智能社交平台广告预警及处理方法
CN108093405A (zh) 一种诈骗电话号码分析方法和设备
CN102591854A (zh) 针对文本特征的广告过滤系统及其过滤方法
CN110072017A (zh) 基于特征选择与集成学习的异常电话识别方法及系统
CN109474756B (zh) 一种基于协同网络表示学习的电信异常检测方法
CN110147430A (zh) 基于随机森林算法的骚扰电话识别方法及系统
CN109819126A (zh) 一种异常号码识别方法及装置
CN107402997B (zh) 网络舆情态势的安全评估方法、终端及计算机存储介质
CN114266455A (zh) 一种基于知识图谱的可视化企业风险评估方法
CN110598129A (zh) 基于两级信息熵的跨社交网络用户身份识别方法
Wang et al. Impact of human mobility on social networks
CN113919440A (zh) 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN111191096B (zh) 全网爱国舆情事件识别及流行度跟踪方法
Min et al. K-means algorithm: fraud detection based on signaling data
CN108764671A (zh) 一种基于自建语料库的创造能力评测方法和装置
CN110147366B (zh) 从自我中心角度出发的异常通信行为可视化分析方法
CN110232159B (zh) 一种基于大数据的舆情智能分析方法
Van Wyk et al. Searching for signal and borrowing wi-fi: Understanding disaster-related adaptations to telecommunications disruptions through social media
CN106056137A (zh) 一种基于数据挖掘多分类算法的电信集团业务推荐方法
CN108846476A (zh) 一种基于卷积神经网络的智能终端安全等级分类方法
Souza et al. An evolutionary methodology for handling data scarcity and noise in monitoring real events from social media data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant