CN113395172B - 一种基于通信网的重要用户发现及行为预测方法 - Google Patents

一种基于通信网的重要用户发现及行为预测方法 Download PDF

Info

Publication number
CN113395172B
CN113395172B CN202110541915.3A CN202110541915A CN113395172B CN 113395172 B CN113395172 B CN 113395172B CN 202110541915 A CN202110541915 A CN 202110541915A CN 113395172 B CN113395172 B CN 113395172B
Authority
CN
China
Prior art keywords
communication
user
community
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110541915.3A
Other languages
English (en)
Other versions
CN113395172A (zh
Inventor
李艳斌
李淳
刘峤
李银强
代婷婷
周乐
宋明慧
曾义夫
孙建强
曾维智
蓝天
吴祖峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
CETC 54 Research Institute
Original Assignee
University of Electronic Science and Technology of China
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, CETC 54 Research Institute filed Critical University of Electronic Science and Technology of China
Priority to CN202110541915.3A priority Critical patent/CN113395172B/zh
Publication of CN113395172A publication Critical patent/CN113395172A/zh
Application granted granted Critical
Publication of CN113395172B publication Critical patent/CN113395172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于通信网的重要用户发现及行为预测方法,属于网络用户行为分析技术领域。本发明根据用户通信记录构建通信网络,先利用基于平衡树的Fast‑Newman算法进行社区划分,再利用PageRank算法综合社区划分结果挖掘重要用户。本发明还针对基于用户通信记录所构建的每个用户的历史通信用户序列,利用NARM模型实现重要用户的未来通信对象预测,同时利用数据统计方法挖掘通信规律以实现重要用户与未来通信对象通信时间的预测。本发明所述方法具有重要用户发现、重要用户的未来通信对象及通信时间预测能力,可为通信网络行为趋势预判提供一种技术方案。

Description

一种基于通信网的重要用户发现及行为预测方法
技术领域
本发明涉及网络用户行为分析技术领域,具体地说,涉及一种基于通信网 的重要用户发现及行为预测方法。
背景技术
随着互联网的发展和移动智能设备的普及,人与人的沟通方式发生了从线 下到线上的转变,形成了一种公民网上发表言论自由、网络信息传播范围广、 传播速度快等特点的新局面。如果没有足够的监控和治理能力的条件下,很容 易形成有组织地操控舆论大面积传播。针对该情况,学术界利用用户通信记录, 研究了通信网络的重要节点发现、通信时间预测、下一刻通信对象预测等行为 预测任务,为舆情治理的有效治理和预防提供了方法。当前学术研究中,首先, 目前的网络用户行为分析技术领域中,都只涉及了重要用户未来通信对象预测, 或者通信时间预测,并未对两个方面进行融合;其次,对于Fast-Newman算法 在实际编程应用中对于每一次合并时寻找最大的模块度之差ΔQ时,都是采用遍 历整个网络的所有的边的方法,这样会造成了大量时间花费。
发明内容
本发明的内容是提供一种基于通信网的重要用户发现及行为预测方法,其 能够克服现有技术的某种或某些缺陷。
根据本发明的一种基于通信网的重要用户发现及行为预测方法,其包括以 下步骤:
步骤1、根据用户通信记录,构建出用户的通信网络,利用基于社区划分的 关键节点查找方法,查找网络中的重要节点,挖掘出重要用户;
步骤2、依据用户通信记录,提取出用户通信时间的特征,构建折线图,挖 掘出全局通信时间的规律;
步骤3、依据用户通信记录,构建用户的历史通信对象序列,对于挖掘出的 重要用户,利用NARM模型,预测出用户下一刻通信对象;
步骤4、基于以上3步的输出结果,筛选出未来时间中重要用户的通信时间 和通信对象的预测结果,从而得出重要用户及行为趋势的预测结果。
作为优选,步骤1中是根据某个时间段内的用户通信记录,构建通信网络, 利用关键点查找算法,挖掘重要用户,实施具体过程如下:
步骤1-1:根据某个时间段内用户通信记录下的主叫用户和被叫用户信息, 提取出该时间段内的所有用户集合及用户集合个数;
步骤1-2:在步骤1-1的基础上,以用户集合中的每个用户作为用户通信网 络中的节点,并根据用户通信记录中的主叫号码、被叫号码、主叫、被叫信息, 建立通信网络中的节点间通信的边,其中用户通信网络为无向图G(V,E);在 G(V,E)中允许两个节点间存在多条边;
步骤1-3:依据用户通信网络的拓扑结构,利用Fast-Newman算法对网络进 行社区划分,首先初始化每个节点为一个社区,网络一共N个节点则共有N个 社区;模块度Q=0,初始化euv
如果节点u和v之间有连边:
Figure BDA0003072133340000021
其中m为无向图总的边数,其中 tot为节点u和v之间的边的数量;
如果节点u和v之间没有连边:euv=0;
并且au满足:
au=ku/2m;其中ku表示与节点u相连的边的数量;
把网络中的每一条无向边,拆分成两条有向边,euv表示节点u与节点v相 连的边的数量占整个网络的比例,au表示与节点u相连的边占整个网络的比例;
步骤1-4:对于有边联系的两个节点u和v比作两个社区,将两个节点合并 为一个新的节点即形成一个新的社区,并根据下式计算合并后模块度的增量:
ΔQ=euv+evu-2auav=2(euv-auav);
根据Fast-Newman算法的原理,需要找到模块度Q最大时对应的网络节点 合并情况,因此采用贪心原理,每次选择产生最大ΔQ的两个节点进行合并,并 且记录下每次合并的节点;对于每两个有边联系的两个节点新建一条边,并将 边权设置为2(euv-auav),并且将这些边按照边权的大小插入平衡树中;
步骤1-5:开始合并两个节点,根据平衡树的性质容易得到最大的边权的边, 将边权最大的边的两个端点的节点u和v进行合并同时将边从平衡树中进行删 除,并记录下合并记录,合并后的新的聚合节点为z,那么新节点的属性如下:
ezz=euu+evv+euv+evu
ezx=eux+evx
az=au+av
其中x为除z,u,v之外的并且与u和v相连的节点,把网络中的每一条 无向边,拆分成两条有向边,则ezz表示合成的节点z中的边数占原始整个无向 图中的比例;
根据步骤1-4计算模块度的增量,将合并前的与u和v相连的边并且在平衡 树中的边进行删除,然后根据新合并的节点z的属性重新设置新的边及计算新 的边权,再插入到平衡树中;
步骤1-6:重复步骤1-5的操作N-1次,这时就只剩下一个合并后的新节 点,然后根据最大的Q值所对应的节点合并步骤,将整个图的n个点当作n个 单独的联通块,使用并查集模拟这个过程,把最终每一个联通块看成一个社区, 即可得到最大的Q值对应的社区划分;
步骤1-7:根据社区划分的结果图G(V,E)被划分为G1,G2,...,Gk,其中k为 社区数量,子图Gi(Vi,Ei)表示一个社区,其中Vi表示社区内的节点,Ei表示社区 的内部关系并且Ei两个端点都在子图Gi内,并且
Figure BDA0003072133340000031
Vj∈V,i≠j,
Figure BDA0003072133340000032
V1∪V2∪...∪Vk=V;将Gi聚合成一个超级节点si,构建超级节点的邻接矩阵S, S的元素Sij表示社区i和j之间的连边的权重之和,由于无向图G为非带权图, 所以邻接矩阵的连边的权重便是两个社区的连边总数:
Figure BDA0003072133340000033
Sij=Tij
Tij为社区i和社区j的连边总数,当i=j时为同一个社区,此时Tij为社区内 部边的数量的两倍;
步骤1-8:求取各节点在各自社区内的PageRank值,利用PageRank算法对 每个子图的每一个节点计算其PageRank值:
Figure BDA0003072133340000041
其中,y表示与x在同一社区的节点,如果y和x直接相连,则σ(x,y)值为 1,否则为0,ky表示y节点在子图Gi内的出度,PR’(x)为x在上一时间段所在社 区的PageRank值,初始为零;对于不同社区,采用多路计算的方式,分摊到多 个线程进行计算;
步骤1-9:定义一个衡量社区内部连结关系和外部连结关系的数值,社区i 的连结系数;定义
Figure BDA0003072133340000042
为社区的内部度即与外界相连的边,
Figure BDA0003072133340000043
为社区的外部度 即社区内部的边,则根据S矩阵可得:
Figure BDA0003072133340000044
定义社区i的连结系数为Ii,采用如下公式进行计算:
Figure BDA0003072133340000045
接下来对社区连结系数进行归一化处理,使用softmax函数进行归一化;
Figure BDA0003072133340000046
其中
Figure BDA0003072133340000047
是社区x被选择的概率,k为社区数量;
步骤1-10:计算每个节点重要程度;将每一个节点利用综合公式计算Rank 值在进行排序,对于节点x的Rank值计算如下:
Figure BDA0003072133340000048
其中Gx为x所在的社区,|Gx|为x所在社区的大小;通过计算,将所有的节 点的Rank值进行排序,可以得到整个网络的节点的重要性排序,选取Rank值 最大的节点或者前几个节点,就可以挖掘出网络中的一个或多个重要用户。
作为优选,步骤2中根据某个时间段内的用户通信记录,计算出用户通信 时间所属不同时间维度下的通信量特征,进行特征提取,挖掘出该时间段内的 通信时间规律,预测出重要用户下一刻的通信时间;具体过程包括如下步骤:
步骤2-1:根据某个时间段内的用户通信记录,提取出相关信息,包括用户、 通信时间;
步骤2-2:在步骤2-1基础上,按照不同时间维度,提取出每次通信所属某 小时、所属周几、所属某日,所属某月下的通信量;
步骤2-3:通过采用折线图方式,分别以某小时、周几、某日、某月作为横 坐标,以对应时间维度下的通信量为纵坐标,形成四个时间-通信量折线图。
步骤2-4:在步骤2-3形成的折线图的基础上,挖掘出全局下的通信时间规 律,预测出用户下一刻的通信时间。
作为优选,步骤3的构建用户历史通信用户序列,利用NARM模型,预测 用户下一刻的通信对象,实施具体过程为:
步骤3-1:根据某时间段内的用户通信记录,并结合步骤1-1的用户集合, 把用户通信记录中主叫、被叫信息融合为通信信息,例如用户1-在某时间下通 信-用户2。
步骤3-2:在步骤3-1的基础上,针对每一个用户,提取与其相关的每一个 通信信息,形成一个通信记录序列,第i个通信记录为(xi,ti),其中xi为通信对 象,ti为通信时间,将所有的通信记录按照时间排序,形成一个按照时间排序的 用户历史通信序列,一共有n个用户,因此一共有n个这样的序列。
步骤3-3:在步骤3-2的基础上,对于每一个用户,从用户的历史通信序列 按照通信时间顺序提取出通信对象构成一个用户历史通信用户序列X= [x1,x2,x3,…,xcnt]其中cnt为序列的总长度,xi为用户按照时间顺序第i个通信对 象。
步骤3-4:使用NARM模型,将X输入到NARM中,得到输出Y:
X=[x1,x2,x3,…,xcnt]
Y=NARM(X)
输出Y=[y1,y2,y3,…,yn],其中yi表示通信节点i与预测目标节点未来时刻 会通信的可能性。对于每一个用户,都能得到一个输出Y来预测其与其他节点 在未来时刻的通信可能性。
本发明与现有技术相比,具有的有益效果是:本发明先利用了基于平衡树 优化的Fast-Newman算法对网络进行社区划分,在利用PageRank算法综合社区 划分的结果挖掘出网络中重要用户,其中在社区划分中,使用平衡树这一数据 结构进行优化,避免了Fast-Newman算法在每一次寻找最大的模块度之差ΔQ 时都要遍历整个网络的所有的边而造成的大量时间花费,让这一步的时间复杂 度从O(m)降低到了O(logm)。本发明还同时融合了基于用户通信记录的重要用 户发现、用户通信时间预测和用户通信对象的预测,实现了对通信网的重要用 户发现及其行为预测。
附图说明
图1为实施例1中基于通信网的重要用户发现及行为预测方法的流程图;
图2为实施例1中用户的小时-通信次数关联图。
图3为实施例1中用户的天数-通信次数关联图。
图4为实施例1中用户的周-通信次数关联图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应 当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,以通信网的用户行为分析为例,本发明提出的基于通信网的 重要用户发现及行为预测方法,包括如下步骤:
步骤1:根据用户通信记录,构建出用户的通信网络,利用基于社区划分的 关键节点查找方法,查找网络中的重要节点,挖掘出重要用户。
步骤1-1:根据如表1(2019年5月-2020年1月部分)所示的用户通信记 录信息,提取出用户的集合及用户集合的个数,用户A代表通信用户,用户B 代表用户的通信对象,主叫值为1,则大表用户A-主叫-用户B,否则用户A- 被叫-用户B。
表1为某时间段内的用户通信记录
用户A 主叫 被叫 用户B 通信时长(秒) 通信时间
用户1 1 0 用户2 100s 2019.12.0112:41:23
用户1 0 1 用户2 20s 2019.12.0210:40:03
用户3 0 1 用户4 10s 2019.12.0316:01:21
步骤1-2:在步骤1-1的基础上,以用户集合中的每个用户作为用户通信网 络中的节点,并根据用户通信记录中的主叫号码、被叫号码、主叫、被叫信息, 建立通信网络中的节点间通信的边,其中用户通信网络为无向图G(V,E);在 G(V,E)中允许两个节点间存在多条边;
步骤1-3:依据用户通信网络的拓扑结构,利用Fast-Newman算法对网络进 行社区划分,首先初始化每个节点为一个社区,网络一共N个节点则共有N个 社区;模块度Q=0,初始化euv
如果节点u和v之间有连边:
Figure BDA0003072133340000071
其中m为无向图总的边数,其中 tot为节点u和v之间的边的数量;
如果节点u和v之间没有连边:euv=0;
并且au满足:
au=ku/2m;其中ku表示与节点u相连的边的数量;
把网络中的每一条无向边,拆分成两条有向边,euv表示节点u与节点v相 连的边的数量占整个网络的比例,au表示与节点u相连的边占整个网络的比例;
步骤1-4:对于有边联系的两个节点u和v比作两个社区,将两个节点合并 为一个新的节点即形成一个新的社区,并根据下式计算合并后模块度的增量:
ΔQ=euv+evu-2auav=2(euv-auav);
根据Fast-Newman算法的原理,需要找到模块度Q最大时对应的网络节点 合并情况,因此采用贪心原理,每次选择产生最大ΔQ的两个节点进行合并,并 且记录下每次合并的节点;对于每两个有边联系的两个节点新建一条边,并将 边权设置为2(euv-auav),并且将这些边按照边权的大小插入平衡树中;
步骤1-5:开始合并两个节点,根据平衡树的性质容易得到最大的边权的边, 将边权最大的边的两个端点的节点u和v进行合并同时将边从平衡树中进行删 除,并记录下合并记录,合并后的新的聚合节点为z,那么新节点的属性如下:
ezz=euu+evv+euv+evu
ezx=eux+evx
az=au+av
其中x为除z,u,v之外的并且与u和v相连的节点,把网络中的每一条 无向边,拆分成两条有向边,则ezz表示合成的节点z中的边数占原始整个无向 图中的比例;
根据步骤1-4计算模块度的增量,将合并前的与u和v相连的边并且在平衡 树中的边进行删除,然后根据新合并的节点z的属性重新设置新的边及计算新 的边权,再插入到平衡树中;
步骤1-6:重复步骤1-5的操作N-1次,这时就只剩下一个合并后的新节 点,然后根据最大的Q值所对应的节点合并步骤,将整个图的n个点当作n个 单独的联通块,使用并查集模拟这个过程,把最终每一个联通块看成一个社区, 即可得到最大的Q值对应的社区划分;
步骤1-7:根据社区划分的结果图G(V,E)被划分为G1,G2,...,Gk,其中k为 社区数量,子图Gi(Vi,Ei)表示一个社区,其中Vi表示社区内的节点,Ei表示社区 的内部关系并且Ei两个端点都在子图Gi内,并且
Figure BDA0003072133340000081
Vj∈V,i≠j,
Figure BDA0003072133340000082
V1∪V2∪...∪Vk=V;将Gi聚合成一个超级节点si,构建超级节点的邻接矩阵S, S的元素Sij表示社区i和j之间的连边的权重之和,由于无向图G为非带权图, 所以邻接矩阵的连边的权重便是两个社区的连边总数:
Figure BDA0003072133340000091
Sij=Tij
Tij为社区i和社区j的连边总数,当i=j时为同一个社区,此时Tij为社区内 部边的数量的两倍;
步骤1-8:求取各节点在各自社区内的PageRank值,利用PageRank算法对 每个子图的每一个节点计算其PageRank值:
Figure BDA0003072133340000092
其中,y表示与x在同一社区的节点,如果y和x直接相连,则σ(x,y)值为 1,否则为0,ky表示y节点在子图Gi内的出度,PR’(x)为x在上一时间段所在社 区的PageRank值,初始为零;对于不同社区,采用多路计算的方式,分摊到多 个线程进行计算;
步骤1-9:定义一个衡量社区内部连结关系和外部连结关系的数值,社区i 的连结系数;定义
Figure BDA0003072133340000093
为社区的内部度即与外界相连的边,
Figure BDA0003072133340000094
为社区的外部度 即社区内部的边,则根据S矩阵可得:
Figure BDA0003072133340000095
定义社区i的连结系数为Ii,采用如下公式进行计算:
Figure BDA0003072133340000096
接下来对社区连结系数进行归一化处理,使用softmax函数进行归一化;
Figure BDA0003072133340000097
其中
Figure BDA0003072133340000098
是社区x被选择的概率,k为社区数量;
步骤1-10:计算每个节点重要程度;将每一个节点利用综合公式计算Rank 值在进行排序,对于节点x的Rank值计算如下:
Figure BDA0003072133340000101
其中Gx为x所在的社区,|Gx|为x所在社区的大小;通过计算,将所有的节 点的Rank值进行排序,可以得到整个网络的节点的重要性排序,选取Rank值 最大的节点或者前几个节点,就可以挖掘出网络中的一个或多个重要用户。
步骤2:根据如表1(2019年5月-2020年1月部分)所示的用户通信记录 信息,提取出通信时间信息,统计出小时-通信量、天-通信量、周-通信量,并 利用折线图可视化以发现在每月2号、每周星期一及每天9-11点、16-18点的时 间段中通信较为频繁的规律,如图2、图3和图4所示,如[“1点”:1363, “2点”:1258,“3点”:1033…,“24点”:1772]、[“1号”:4238,“2 号”:5560,“3号”:5142,“4号”:5019,“5号”:3890....,“31号”: 2642]、[“周一”:21300,“周二”:20412,…“周日”:11530]。其中用户 A代表通信用户,用户B代表用户的通信对象,主叫值为1,则大表用户A-主 叫-用户B,否则用户A-被叫-用户B。
步骤3:依据用户通信记录,构建用户的历史通信对象序列,利用NARM 模型,预测出用户下一刻通信对象。
步骤3-1:根据某时间段内的用户通信记录,并结合步骤1-1的用户集合, 把用户通信记录中主叫、被叫信息融合为通信信息,例如用户1-在某时间下通 信-用户2。
步骤3-2:在步骤3-1的基础上,针对每一个用户,提取与其相关的每一个 通信信息,形成一个通信记录序列,第i个通信记录为(xi,ti),其中xi为通信对 象,ti为通信时间,将所有的通信记录按照时间排序,形成一个按照时间排序的 用户历史通信序列,一共有n个用户,因此一共有n个这样的序列。
步骤3-3:在步骤3-2的基础上,对于每一个用户,从用户的历史通信序列 按照通信时间顺序提取出通信对象构成一个用户历史通信用户序列X= [x1,x2,x3,…,xcnt]其中cnt为序列的总长度,xi为用户按照时间顺序第i个通信对 象。
步骤3-4:使用NARM模型,将X输入到NARM中,得到输出Y:
X=[x1,x2,x3,…,xcnt]
Y=NARM(X)
输出Y=[y1,y2,y3,…,yn],其中yi表示通信节点i与预测目标节点未来时刻 会通信的可能性。对于每一个用户,都能得到一个输出Y来预测其与其他节点 在未来时刻的通信可能性。
步骤4:根据步骤1的输出的重要用户,在步骤2和步骤3中筛选出重要用 户的预测结果,从而得出重要用户的行为趋势的预测结果。
本实施例对通信网络用户行为进行处理,结合了Fast-Newman和PageRank 算法,实现了重要通信用户发现,预测其未来的通信行为趋势,实现用户通信 记录、重要用户、预测通信时间、预测对象的串联,为网络舆情的治理提供了 重点观察对象,同时还提供了其下一步可能的行动信息,为舆情的预防赢得了 时间上的先机,进而本发明为网络用户行为分析与治理领域提供了一种新思路。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附 图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以, 如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不 经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的 保护范围。

Claims (3)

1.一种基于通信网的重要用户发现及行为预测方法,其特征在于:包括以下步骤:
步骤1、依据用户通信记录,构建出用户的通信网络,利用基于社区划分的关键节点查找方法,查找网络中的重要节点,挖掘出重要用户;
步骤2、依据用户通信记录,提取出用户通信时间的特征,构建折线图,挖掘出全局通信时间的规律;
步骤3、依据用户通信记录,构建用户的历史通信对象序列,对于挖掘出的重要用户,利用NARM模型,预测出用户下一刻通信对象;
步骤4、基于以上3步的输出结果,筛选出未来时间中重要用户的通信时间和通信对象的预测结果,从而得出重要用户及行为趋势的预测结果;
步骤1中使用基于平衡树的Fast-Newman算法对网络进行社区划分,然后再对每个社区,单独利用PageRank算法进行关键点查找,最后综合社区划分和PageRank算法得出每个节点的重要性,具体过程包括如下步骤:
步骤1-1:根据某个时间段内用户通信记录下的主叫用户和被叫用户信息,提取出该时间段内的所有用户集合及用户集合个数;
步骤1-2:在步骤1-1的基础上,以用户集合中的每个用户作为用户通信网络中的节点,并根据用户通信记录中的主叫号码、被叫号码、主叫、被叫信息,建立通信网络中的节点间通信的边,其中用户通信网络为无向图G(V,E);在G(V,E)中允许两个节点间存在多条边;
步骤1-3:依据用户通信网络的拓扑结构,利用Fast-Newman算法对网络进行社区划分,首先初始化每个节点为一个社区,网络一共N个节点则共有N个社区;模块度Q=0,初始化euv
如果节点u和v之间有连边:
Figure FDA0003875287900000011
其中m为无向图总的边数,其中tot为节点u和v之间的边的数量;
如果节点u和v之间没有连边:euv=0;
并且au满足:
au=ku/2m;其中ku表示与节点u相连的边的数量;
把网络中的每一条无向边,拆分成两条有向边,euv表示节点u与节点v相连的边的数量占整个网络的比例,au表示与节点u相连的边占整个网络的比例;
步骤1-4:对于有边联系的两个节点u和v比作两个社区,将两个节点合并为一个新的节点即形成一个新的社区,并根据下式计算合并后模块度的增量:
ΔQ=euv+evu-2auav=2(euv-auav);
根据Fast-Newman算法的原理,需要找到模块度Q最大时对应的网络节点合并情况,因此采用贪心原理,每次选择产生最大ΔQ的两个节点进行合并,并且记录下每次合并的节点;对于每两个有边联系的两个节点新建一条边,并将边权设置为2(euv-auav),并且将这些边按照边权的大小插入平衡树中;
步骤1-5:开始合并两个节点,根据平衡树的性质容易得到最大的边权的边,将边权最大的边的两个端点的节点u和v进行合并同时将边从平衡树中进行删除,并记录下合并记录,合并后的新的聚合节点为z,那么新节点的属性如下:
ezz=euu+evv+euv+evu
ezx=eux+evx
az=au+av
其中x为除z,u,v之外的并且与u和v相连的节点,把网络中的每一条无向边,拆分成两条有向边,则ezz表示合成的节点z中的边数占原始整个无向图中的比例;
根据步骤1-4计算模块度的增量,将合并前的与u和v相连的边并且在平衡树中的边进行删除,然后根据新合并的节点z的属性重新设置新的边及计算新的边权,再插入到平衡树中;
步骤1-6:重复步骤1-5的操作N-1次,这时就只剩下一个合并后的新节点,然后根据最大的Q值所对应的节点合并步骤,将整个图的n个点当作n个单独的联通块,使用并查集模拟这个过程,把最终每一个联通块看成一个社区,即可得到最大的Q值对应的社区划分;
步骤1-7:根据社区划分的结果图G(V,E)被划分为G1,G2,...,Gk,其中k为社区数量,子图Gi(Vi,Ei)表示一个社区,其中Vi表示社区内的节点,Ei表示社区的内部关系并且Ei两个端点都在子图Gi内,并且
Figure FDA0003875287900000031
V1∪V2∪...∪Vk=V;将Gi聚合成一个超级节点si,构建超级节点的邻接矩阵S,S的元素Sij表示社区i和j之间的连边的权重之和,由于无向图G为非带权图,所以邻接矩阵的连边的权重便是两个社区的连边总数:
Figure FDA0003875287900000032
Sij=Tij
Tij为社区i和社区j的连边总数,当i=j时为同一个社区,此时Tij为社区内部边的数量的两倍;
步骤1-8:求取各节点在各自社区内的PageRank值,利用PageRank算法对每个子图的每一个节点计算其PageRank值:
Figure FDA0003875287900000033
其中,y表示与x在同一社区的节点,如果y和x直接相连,则σ(x,y)值为1,否则为0,ky表示y节点在子图Gi内的出度,PR’(x)为x在上一时间段所在社区的PageRank值,初始为零;对于不同社区,采用多路计算的方式,分摊到多个线程进行计算;
步骤1-9:定义一个衡量社区内部连结关系和外部连结关系的数值,社区i的连结系数;定义
Figure FDA0003875287900000034
为社区的内部度即与外界相连的边,
Figure FDA0003875287900000035
为社区的外部度即社区内部的边,则根据S矩阵可得:
Figure FDA0003875287900000036
定义社区i的连结系数为Ii,采用如下公式进行计算:
Figure FDA0003875287900000041
接下来对社区连结系数进行归一化处理,使用softmax函数进行归一化;
Figure FDA0003875287900000042
其中
Figure FDA0003875287900000043
是社区x被选择的概率,k为社区数量;
步骤1-10:计算每个节点重要程度;将每一个节点利用综合公式计算Rank值在进行排序,对于节点x的Rank值计算如下:
Figure FDA0003875287900000044
其中Gx为x所在的社区,|Gx|为x所在社区的大小;通过计算,将所有的节点的Rank值进行排序,可以得到整个网络的节点的重要性排序,选取Rank值最大的节点或者前几个节点,就可以挖掘出网络中的一个或多个重要用户。
2.根据权利要求1所述的基于通信网的重要用户发现及行为预测方法,其特征在于:步骤2中根据某个时间段内的用户通信记录,计算出用户通信时间所属不同时间维度下的通信量特征,进行特征提取,挖掘出该时间段内的通信时间规律,预测出重要用户下一刻的通信时间;具体过程包括如下步骤:
步骤2-1:根据某个时间段内的用户通信记录,提取出相关信息,包括用户、通信时间;
步骤2-2:在步骤2-1基础上,按照不同时间维度,提取出每次通信所属某小时、所属周几、所属某日,所属某月下的通信量;
步骤2-3:通过采用折线图方式,分别以某小时、周几、某日、某月作为横坐标,以对应时间维度下的通信量为纵坐标,形成四个时间-通信量折线图;
步骤2-4:在步骤2-3形成的折线图的基础上,挖掘出全局下的通信时间规律,预测出用户下一刻的通信时间。
3.根据权利要求1所述的基于通信网的重要用户发现及行为预测方法,其特征在于:步骤3中对某时间段内的用户通信记录,构建用户历史通信用户序列,利用NARM模型,预测用户下一刻的通信对象,实施具体过程为:
步骤3-1:根据某时间段内的用户通信记录,并结合步骤1-1的用户集合,把用户通信记录中主叫、被叫信息融合为通信信息;
步骤3-2:在步骤3-1的基础上,针对每一个用户,提取与其相关的每一个通信信息,形成一个通信记录序列,第i个通信记录为(xi,ti),其中xi为通信对象,ti为通信时间,将所有的通信记录按照时间排序,形成一个按照时间排序的用户历史通信序列,一共有n个用户,因此一共有n个这样的序列;
步骤3-3:在步骤3-2的基础上,对于每一个用户,从用户的历史通信序列按照通信时间顺序提取出通信对象构成一个用户历史通信用户序列X=[x1,x2,x3,…,xcnt]其中cnt为序列的总长度,xi为用户按照时间顺序第i个通信对象;
步骤3-4:使用NARM模型,将X输入到NARM中,得到输出Y:
X=[x1,x2,x3,...,xcnt]
Y=NARM(X)
输出Y=[y1,y2,y3,…,yn],其中yi表示通信节点i与预测目标节点未来时刻会通信的可能性;对于每一个用户,都能得到一个输出Y来预测其与其他节点在未来时刻的通信可能性。
CN202110541915.3A 2021-05-18 2021-05-18 一种基于通信网的重要用户发现及行为预测方法 Active CN113395172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110541915.3A CN113395172B (zh) 2021-05-18 2021-05-18 一种基于通信网的重要用户发现及行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110541915.3A CN113395172B (zh) 2021-05-18 2021-05-18 一种基于通信网的重要用户发现及行为预测方法

Publications (2)

Publication Number Publication Date
CN113395172A CN113395172A (zh) 2021-09-14
CN113395172B true CN113395172B (zh) 2022-11-11

Family

ID=77617996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110541915.3A Active CN113395172B (zh) 2021-05-18 2021-05-18 一种基于通信网的重要用户发现及行为预测方法

Country Status (1)

Country Link
CN (1) CN113395172B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810113A (zh) * 2012-06-06 2012-12-05 北京航空航天大学 一种针对复杂网络的混合型聚类方法
CN111797281A (zh) * 2019-04-03 2020-10-20 北京信息科技大学 基于中心节点的二层相异性社区发现算法研究

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169871B (zh) * 2017-04-20 2020-08-28 西安电子科技大学 一种基于关系组合优化和种子扩张的多关系社区发现方法
CN107784598A (zh) * 2017-11-21 2018-03-09 山西大学 一种网络社区发现方法
CN110232480B (zh) * 2019-03-01 2021-05-11 电子科技大学 利用变分的正则化流实现的项目推荐方法及模型训练方法
CN111026919A (zh) * 2019-11-14 2020-04-17 西北师范大学 一种基于双视图的自适应两级加权目标社区发现及检测方法
CN110990718B (zh) * 2019-11-27 2024-03-01 国网能源研究院有限公司 一种公司形象提升系统的社会网络模型构建模块
CN112446556B (zh) * 2021-01-27 2021-04-30 电子科技大学 基于表示学习和行为特征的通信网用户呼叫对象预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810113A (zh) * 2012-06-06 2012-12-05 北京航空航天大学 一种针对复杂网络的混合型聚类方法
CN111797281A (zh) * 2019-04-03 2020-10-20 北京信息科技大学 基于中心节点的二层相异性社区发现算法研究

Also Published As

Publication number Publication date
CN113395172A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
Ahmed et al. Graph sample and hold: A framework for big-graph analytics
CN110263280B (zh) 一种基于多视图的动态链路预测深度模型及应用
CN111787000B (zh) 网络安全评估方法及电子设备
CN107784598A (zh) 一种网络社区发现方法
CN110138595A (zh) 动态加权网络的时间链路预测方法、装置、设备及介质
CN112364908A (zh) 一种面向决策树的纵向联邦学习方法
CN112910710B (zh) 网络流量时空预测方法、装置、计算机设备和存储介质
CN111191040A (zh) 城市运行知识图谱构建方法、装置和计算机设备
CN113762595B (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
CN114928548B (zh) 一种社交网络信息传播规模预测方法及装置
CN112417303A (zh) 一种从动态属性图中检测多异常子图演化算法
CN112819659A (zh) 旅游景点开发与评价方法
CN111125294A (zh) 一种空间关系的知识图谱数据模型表示方法及系统
CN110807508B (zh) 计及复杂气象影响的母线峰值负荷预测方法
CN115641718A (zh) 一种基于卡口流量相似性和语义关联的短时交通流预测方法
Mahyar et al. CS-ComDet: A compressive sensing approach for inter-community detection in social networks
CN112883133B (zh) 基于时序数据和功能演变数据的流量预测方法
Xu et al. Quantifying predictability of sequential recommendation via logical constraints
CN113395172B (zh) 一种基于通信网的重要用户发现及行为预测方法
CN116703132B (zh) 共享车辆动态调度的管理方法、装置及计算机设备
CN110633402B (zh) 一种带有差分隐私机制的三维时空信息传播预测方法
CN105095613A (zh) 一种基于序列数据进行预测的方法及装置
Gialampoukidis et al. Community detection in complex networks based on DBSCAN* and a Martingale process
CN112183820A (zh) 基于线性规划的有向网络链路预测方法
CN116822628A (zh) 一种基于优化知识图谱的犯罪团伙挖掘分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant