CN113395172B

CN113395172B - 一种基于通信网的重要用户发现及行为预测方法

Info

Publication number: CN113395172B
Application number: CN202110541915.3A
Authority: CN
Inventors: 李艳斌; 李淳; 刘峤; 李银强; 代婷婷; 周乐; 宋明慧; 曾义夫; 孙建强; 曾维智; 蓝天; 吴祖峰
Original assignee: University of Electronic Science and Technology of China; CETC 54 Research Institute
Current assignee: University of Electronic Science and Technology of China; CETC 54 Research Institute
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-11-11
Anticipated expiration: 2041-05-18
Also published as: CN113395172A

Abstract

本发明公开了一种基于通信网的重要用户发现及行为预测方法，属于网络用户行为分析技术领域。本发明根据用户通信记录构建通信网络，先利用基于平衡树的Fast‑Newman算法进行社区划分，再利用PageRank算法综合社区划分结果挖掘重要用户。本发明还针对基于用户通信记录所构建的每个用户的历史通信用户序列，利用NARM模型实现重要用户的未来通信对象预测，同时利用数据统计方法挖掘通信规律以实现重要用户与未来通信对象通信时间的预测。本发明所述方法具有重要用户发现、重要用户的未来通信对象及通信时间预测能力，可为通信网络行为趋势预判提供一种技术方案。

Description

一种基于通信网的重要用户发现及行为预测方法

技术领域

本发明涉及网络用户行为分析技术领域，具体地说，涉及一种基于通信网的重要用户发现及行为预测方法。

背景技术

随着互联网的发展和移动智能设备的普及，人与人的沟通方式发生了从线下到线上的转变，形成了一种公民网上发表言论自由、网络信息传播范围广、传播速度快等特点的新局面。如果没有足够的监控和治理能力的条件下，很容易形成有组织地操控舆论大面积传播。针对该情况，学术界利用用户通信记录，研究了通信网络的重要节点发现、通信时间预测、下一刻通信对象预测等行为预测任务，为舆情治理的有效治理和预防提供了方法。当前学术研究中，首先，目前的网络用户行为分析技术领域中，都只涉及了重要用户未来通信对象预测，或者通信时间预测，并未对两个方面进行融合；其次，对于Fast-Newman算法在实际编程应用中对于每一次合并时寻找最大的模块度之差ΔQ时，都是采用遍历整个网络的所有的边的方法，这样会造成了大量时间花费。

发明内容

本发明的内容是提供一种基于通信网的重要用户发现及行为预测方法，其能够克服现有技术的某种或某些缺陷。

根据本发明的一种基于通信网的重要用户发现及行为预测方法，其包括以下步骤：

步骤1、根据用户通信记录，构建出用户的通信网络，利用基于社区划分的关键节点查找方法，查找网络中的重要节点，挖掘出重要用户；

步骤2、依据用户通信记录，提取出用户通信时间的特征，构建折线图，挖掘出全局通信时间的规律；

步骤3、依据用户通信记录，构建用户的历史通信对象序列，对于挖掘出的重要用户，利用NARM模型，预测出用户下一刻通信对象；

步骤4、基于以上3步的输出结果，筛选出未来时间中重要用户的通信时间和通信对象的预测结果，从而得出重要用户及行为趋势的预测结果。

作为优选，步骤1中是根据某个时间段内的用户通信记录，构建通信网络，利用关键点查找算法，挖掘重要用户，实施具体过程如下：

步骤1-1：根据某个时间段内用户通信记录下的主叫用户和被叫用户信息，提取出该时间段内的所有用户集合及用户集合个数；

步骤1-2：在步骤1-1的基础上，以用户集合中的每个用户作为用户通信网络中的节点，并根据用户通信记录中的主叫号码、被叫号码、主叫、被叫信息，建立通信网络中的节点间通信的边，其中用户通信网络为无向图G(V，E)；在 G(V，E)中允许两个节点间存在多条边；

步骤1-3：依据用户通信网络的拓扑结构，利用Fast-Newman算法对网络进行社区划分，首先初始化每个节点为一个社区，网络一共N个节点则共有N个社区；模块度Q＝0，初始化e_uv：

如果节点u和v之间有连边：

其中m为无向图总的边数，其中 tot为节点u和v之间的边的数量；

如果节点u和v之间没有连边：e_uv＝0；

并且a_u满足：

a_u＝k_u/2m；其中k_u表示与节点u相连的边的数量；

把网络中的每一条无向边，拆分成两条有向边，e_uv表示节点u与节点v相连的边的数量占整个网络的比例，a_u表示与节点u相连的边占整个网络的比例；

步骤1-4：对于有边联系的两个节点u和v比作两个社区，将两个节点合并为一个新的节点即形成一个新的社区，并根据下式计算合并后模块度的增量：

ΔQ＝e_uv+e_vu-2a_ua_v＝2(e_uv-a_ua_v)；

根据Fast-Newman算法的原理，需要找到模块度Q最大时对应的网络节点合并情况，因此采用贪心原理，每次选择产生最大ΔQ的两个节点进行合并，并且记录下每次合并的节点；对于每两个有边联系的两个节点新建一条边，并将边权设置为2(e_uv-a_ua_v)，并且将这些边按照边权的大小插入平衡树中；

步骤1-5：开始合并两个节点，根据平衡树的性质容易得到最大的边权的边，将边权最大的边的两个端点的节点u和v进行合并同时将边从平衡树中进行删除，并记录下合并记录，合并后的新的聚合节点为z，那么新节点的属性如下：

e_zz＝e_uu+e_vv+e_uv+e_vu；

e_zx＝e_ux+e_vx；

a_z＝a_u+a_v；

其中x为除z，u，v之外的并且与u和v相连的节点，把网络中的每一条无向边，拆分成两条有向边，则e_zz表示合成的节点z中的边数占原始整个无向图中的比例；

根据步骤1-4计算模块度的增量，将合并前的与u和v相连的边并且在平衡树中的边进行删除，然后根据新合并的节点z的属性重新设置新的边及计算新的边权，再插入到平衡树中；

步骤1-6：重复步骤1-5的操作N-1次，这时就只剩下一个合并后的新节点，然后根据最大的Q值所对应的节点合并步骤，将整个图的n个点当作n个单独的联通块，使用并查集模拟这个过程，把最终每一个联通块看成一个社区，即可得到最大的Q值对应的社区划分；

步骤1-7：根据社区划分的结果图G(V，E)被划分为G₁,G₂,...,G_k，其中k为社区数量，子图G_i(V_i,E_i)表示一个社区，其中V_i表示社区内的节点，E_i表示社区的内部关系并且E_i两个端点都在子图G_i内，并且

V_j∈V,i≠j,

V₁∪V₂∪...∪V_k＝V；将G_i聚合成一个超级节点s_i，构建超级节点的邻接矩阵S， S的元素S_ij表示社区i和j之间的连边的权重之和，由于无向图G为非带权图，所以邻接矩阵的连边的权重便是两个社区的连边总数：

S_ij＝T_ij；

T_ij为社区i和社区j的连边总数，当i＝j时为同一个社区，此时T_ij为社区内部边的数量的两倍；

步骤1-8：求取各节点在各自社区内的PageRank值，利用PageRank算法对每个子图的每一个节点计算其PageRank值：

其中，y表示与x在同一社区的节点，如果y和x直接相连，则σ(x,y)值为 1,否则为0，k_y表示y节点在子图G_i内的出度，PR’(x)为x在上一时间段所在社区的PageRank值，初始为零；对于不同社区，采用多路计算的方式，分摊到多个线程进行计算；

步骤1-9：定义一个衡量社区内部连结关系和外部连结关系的数值，社区i 的连结系数；定义

为社区的内部度即与外界相连的边，

为社区的外部度即社区内部的边，则根据S矩阵可得：

定义社区i的连结系数为I_i，采用如下公式进行计算：

接下来对社区连结系数进行归一化处理，使用softmax函数进行归一化；

其中

是社区x被选择的概率，k为社区数量；

步骤1-10：计算每个节点重要程度；将每一个节点利用综合公式计算Rank 值在进行排序，对于节点x的Rank值计算如下：

其中G_x为x所在的社区，|G_x|为x所在社区的大小；通过计算，将所有的节点的Rank值进行排序，可以得到整个网络的节点的重要性排序，选取Rank值最大的节点或者前几个节点，就可以挖掘出网络中的一个或多个重要用户。

作为优选，步骤2中根据某个时间段内的用户通信记录，计算出用户通信时间所属不同时间维度下的通信量特征，进行特征提取，挖掘出该时间段内的通信时间规律，预测出重要用户下一刻的通信时间；具体过程包括如下步骤：

步骤2-1：根据某个时间段内的用户通信记录，提取出相关信息，包括用户、通信时间；

步骤2-2：在步骤2-1基础上，按照不同时间维度，提取出每次通信所属某小时、所属周几、所属某日，所属某月下的通信量；

步骤2-3：通过采用折线图方式，分别以某小时、周几、某日、某月作为横坐标，以对应时间维度下的通信量为纵坐标，形成四个时间-通信量折线图。

步骤2-4：在步骤2-3形成的折线图的基础上，挖掘出全局下的通信时间规律，预测出用户下一刻的通信时间。

作为优选，步骤3的构建用户历史通信用户序列，利用NARM模型，预测用户下一刻的通信对象，实施具体过程为：

步骤3-1：根据某时间段内的用户通信记录，并结合步骤1-1的用户集合，把用户通信记录中主叫、被叫信息融合为通信信息，例如用户1-在某时间下通信-用户2。

步骤3-2：在步骤3-1的基础上，针对每一个用户，提取与其相关的每一个通信信息，形成一个通信记录序列，第i个通信记录为(x_i,t_i)，其中x_i为通信对象，t_i为通信时间，将所有的通信记录按照时间排序，形成一个按照时间排序的用户历史通信序列，一共有n个用户，因此一共有n个这样的序列。

步骤3-3：在步骤3-2的基础上，对于每一个用户，从用户的历史通信序列按照通信时间顺序提取出通信对象构成一个用户历史通信用户序列X＝ [x₁,x₂,x₃,…,x_cnt]其中cnt为序列的总长度，x_i为用户按照时间顺序第i个通信对象。

步骤3-4：使用NARM模型，将X输入到NARM中，得到输出Y：

X＝[x₁,x₂,x₃,…，x_cnt]

Y＝NARM(X)

输出Y＝[y₁,y₂,y₃,…,y_n]，其中y_i表示通信节点i与预测目标节点未来时刻会通信的可能性。对于每一个用户，都能得到一个输出Y来预测其与其他节点在未来时刻的通信可能性。

本发明与现有技术相比，具有的有益效果是：本发明先利用了基于平衡树优化的Fast-Newman算法对网络进行社区划分，在利用PageRank算法综合社区划分的结果挖掘出网络中重要用户，其中在社区划分中，使用平衡树这一数据结构进行优化，避免了Fast-Newman算法在每一次寻找最大的模块度之差ΔQ 时都要遍历整个网络的所有的边而造成的大量时间花费，让这一步的时间复杂度从O(m)降低到了O(logm)。本发明还同时融合了基于用户通信记录的重要用户发现、用户通信时间预测和用户通信对象的预测，实现了对通信网的重要用户发现及其行为预测。

附图说明

图1为实施例1中基于通信网的重要用户发现及行为预测方法的流程图；

图2为实施例1中用户的小时-通信次数关联图。

图3为实施例1中用户的天数-通信次数关联图。

图4为实施例1中用户的周-通信次数关联图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图1所示，以通信网的用户行为分析为例，本发明提出的基于通信网的重要用户发现及行为预测方法，包括如下步骤：

步骤1：根据用户通信记录，构建出用户的通信网络，利用基于社区划分的关键节点查找方法，查找网络中的重要节点，挖掘出重要用户。

步骤1-1：根据如表1(2019年5月-2020年1月部分)所示的用户通信记录信息，提取出用户的集合及用户集合的个数，用户A代表通信用户，用户B 代表用户的通信对象，主叫值为1，则大表用户A-主叫-用户B，否则用户A- 被叫-用户B。

表1为某时间段内的用户通信记录

用户A	主叫	被叫	用户B	通信时长(秒)	通信时间
						用户1	1	0	用户2	100s	2019.12.0112:41:23
用户1	0	1	用户2	20s	2019.12.0210:40:03
						用户3	0	1	用户4	10s	2019.12.0316:01:21

如果节点u和v之间有连边：

如果节点u和v之间没有连边：e_uv＝0；

并且a_u满足：

a_u＝k_u/2m；其中k_u表示与节点u相连的边的数量；

ΔQ＝e_uv+e_vu-2a_ua_v＝2(e_uv-a_ua_v)；

e_zz＝e_uu+e_vv+e_uv+e_vu；

e_zx＝e_ux+e_vx；

a_z＝a_u+a_v；

V_j∈V,i≠j,

S_ij＝T_ij；

为社区的内部度即与外界相连的边，

为社区的外部度即社区内部的边，则根据S矩阵可得：

定义社区i的连结系数为I_i，采用如下公式进行计算：

其中

是社区x被选择的概率，k为社区数量；

步骤2：根据如表1(2019年5月-2020年1月部分)所示的用户通信记录信息，提取出通信时间信息，统计出小时-通信量、天-通信量、周-通信量，并利用折线图可视化以发现在每月2号、每周星期一及每天9-11点、16-18点的时间段中通信较为频繁的规律，如图2、图3和图4所示，如[“1点”：1363， “2点”：1258，“3点”：1033…，“24点”：1772]、[“1号”：4238，“2 号”：5560，“3号”：5142，“4号”：5019，“5号”：3890....，“31号”： 2642]、[“周一”：21300，“周二”：20412，…“周日”：11530]。其中用户 A代表通信用户，用户B代表用户的通信对象，主叫值为1，则大表用户A-主叫-用户B，否则用户A-被叫-用户B。

步骤3：依据用户通信记录，构建用户的历史通信对象序列，利用NARM 模型，预测出用户下一刻通信对象。

步骤3-4：使用NARM模型，将X输入到NARM中，得到输出Y：

X＝[x₁,x₂,x₃,…,x_cnt]

Y＝NARM(X)

步骤4：根据步骤1的输出的重要用户，在步骤2和步骤3中筛选出重要用户的预测结果，从而得出重要用户的行为趋势的预测结果。

本实施例对通信网络用户行为进行处理，结合了Fast-Newman和PageRank 算法，实现了重要通信用户发现，预测其未来的通信行为趋势，实现用户通信记录、重要用户、预测通信时间、预测对象的串联，为网络舆情的治理提供了重点观察对象，同时还提供了其下一步可能的行动信息，为舆情的预防赢得了时间上的先机，进而本发明为网络用户行为分析与治理领域提供了一种新思路。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于通信网的重要用户发现及行为预测方法，其特征在于：包括以下步骤：

步骤1、依据用户通信记录，构建出用户的通信网络，利用基于社区划分的关键节点查找方法，查找网络中的重要节点，挖掘出重要用户；

步骤4、基于以上3步的输出结果，筛选出未来时间中重要用户的通信时间和通信对象的预测结果，从而得出重要用户及行为趋势的预测结果；

步骤1中使用基于平衡树的Fast-Newman算法对网络进行社区划分，然后再对每个社区，单独利用PageRank算法进行关键点查找，最后综合社区划分和PageRank算法得出每个节点的重要性，具体过程包括如下步骤：

步骤1-2：在步骤1-1的基础上，以用户集合中的每个用户作为用户通信网络中的节点，并根据用户通信记录中的主叫号码、被叫号码、主叫、被叫信息，建立通信网络中的节点间通信的边，其中用户通信网络为无向图G(V，E)；在G(V，E)中允许两个节点间存在多条边；

如果节点u和v之间有连边：

其中m为无向图总的边数，其中tot为节点u和v之间的边的数量；

如果节点u和v之间没有连边：e_uv＝0；

并且a_u满足：

a_u＝k_u/2m；其中k_u表示与节点u相连的边的数量；

ΔQ＝e_uv+e_vu-2a_ua_v＝2(e_uv-a_ua_v)；

e_zz＝e_uu+e_vv+e_uv+e_vu；

e_zx＝e_ux+e_vx；

a_z＝a_u+a_v；

V₁∪V₂∪...∪V_k＝V；将G_i聚合成一个超级节点s_i，构建超级节点的邻接矩阵S，S的元素S_ij表示社区i和j之间的连边的权重之和，由于无向图G为非带权图，所以邻接矩阵的连边的权重便是两个社区的连边总数：

S_ij＝T_ij；

其中，y表示与x在同一社区的节点，如果y和x直接相连，则σ(x,y)值为1,否则为0，k_y表示y节点在子图G_i内的出度，PR’(x)为x在上一时间段所在社区的PageRank值，初始为零；对于不同社区，采用多路计算的方式，分摊到多个线程进行计算；

步骤1-9：定义一个衡量社区内部连结关系和外部连结关系的数值，社区i的连结系数；定义

为社区的内部度即与外界相连的边，

为社区的外部度即社区内部的边，则根据S矩阵可得：

定义社区i的连结系数为I_i，采用如下公式进行计算：

其中

是社区x被选择的概率，k为社区数量；

步骤1-10：计算每个节点重要程度；将每一个节点利用综合公式计算Rank值在进行排序，对于节点x的Rank值计算如下：

2.根据权利要求1所述的基于通信网的重要用户发现及行为预测方法，其特征在于：步骤2中根据某个时间段内的用户通信记录，计算出用户通信时间所属不同时间维度下的通信量特征，进行特征提取，挖掘出该时间段内的通信时间规律，预测出重要用户下一刻的通信时间；具体过程包括如下步骤：

步骤2-3：通过采用折线图方式，分别以某小时、周几、某日、某月作为横坐标，以对应时间维度下的通信量为纵坐标，形成四个时间-通信量折线图；

3.根据权利要求1所述的基于通信网的重要用户发现及行为预测方法，其特征在于：步骤3中对某时间段内的用户通信记录，构建用户历史通信用户序列，利用NARM模型，预测用户下一刻的通信对象，实施具体过程为：

步骤3-1：根据某时间段内的用户通信记录，并结合步骤1-1的用户集合，把用户通信记录中主叫、被叫信息融合为通信信息；

步骤3-2：在步骤3-1的基础上，针对每一个用户，提取与其相关的每一个通信信息，形成一个通信记录序列，第i个通信记录为(x_i,t_i)，其中x_i为通信对象，t_i为通信时间，将所有的通信记录按照时间排序，形成一个按照时间排序的用户历史通信序列，一共有n个用户，因此一共有n个这样的序列；

步骤3-3：在步骤3-2的基础上，对于每一个用户，从用户的历史通信序列按照通信时间顺序提取出通信对象构成一个用户历史通信用户序列X＝[x₁,x₂,x₃,…,x_cnt]其中cnt为序列的总长度，x_i为用户按照时间顺序第i个通信对象；

步骤3-4：使用NARM模型，将X输入到NARM中，得到输出Y：

X＝[x₁，x₂，x₃，...，x_cnt]

Y＝NARM(X)

输出Y＝[y₁,y₂,y₃,…,y_n]，其中y_i表示通信节点i与预测目标节点未来时刻会通信的可能性；对于每一个用户，都能得到一个输出Y来预测其与其他节点在未来时刻的通信可能性。