CN112906831A

CN112906831A - 一种结合网络结构与属性特征的通信网用户分类方法

Info

Publication number: CN112906831A
Application number: CN202110427384.5A
Authority: CN
Inventors: 刘峤; 李艳斌; 李淳; 蓝天; 吴祖峰; 陈昌美; 周乐; 代婷婷; 宋明慧; 曾义夫; 孙建强; 曾维智; 张志鹏
Original assignee: University of Electronic Science and Technology of China; CETC 54 Research Institute
Current assignee: University of Electronic Science and Technology of China; CETC 54 Research Institute
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-06-04
Anticipated expiration: 2041-04-21
Also published as: CN112906831B

Abstract

本发明涉及通信网用户信息分析技术，公开了一种结合网络结构与属性特征的通信网用户分类方法，将用户通信记录中的用户抽象成节点，根据用户间通信关系构建网络；根据用户属性集合以及用户间的关联情况，计算属性对网络结构与用户个体语义特征的贡献度，从而生成属性权重；设计基于属性权重的随机采样方法，获得包含网络结构与语义信息的采样序列；构建用户分类模型提取采样序列中的结构特征与语义特征从而完成用户分类。本发明有效结合网络结构与用户属性特征进行通信网用户分类，从而达到根据用户角色而非不同子网间的关联紧密度来进行用户类别划分的效果。

Description

一种结合网络结构与属性特征的通信网用户分类方法

技术领域

本发明涉及通信网用户信息分析技术，特别涉及结合网络结构与属性特征的通信网用户分类技术。

背景技术

随着信息化社会的发展，人们通过手机、电脑，以短信、电话、传真、即时通信软件等进行通信。用户与同户之间因通信形成通信关系，再由这些通信关系构成的复杂网络称为通信网。不同运营商可根据通信网络对用户进行分类，从而在同类用户之间进行精准的业务推广。具体通信网用户分类是指根据已知的通信记录构建网络，并将网络划分为已知用户类别的网络和未知类别的网络，通过已知网络训练模型用户分类模型，并以此预测未知网络中用户类别。其实际应用包括：根据整体通信网络中用户节点所属类别的分析可以有效分析信息化时代的社会结构组成，如分析不同党派系分布、不同类别职业分布；此外，根据局部通信网络中用户节点所属类别的分析，如根据公司成员间形成的通信网络，分析团体中的人员分工、组织结构，如公司领导者、管理人员、技术人员等。

通过上述分类所得用户角色不仅反映了用户本身的特点，还反映了用户之间的关联与相似性特征，现有用户角色分类方法包括：

一、基于复杂网络理论对通信网络中的用户进行社团划分，如谱方法、层次法、基于模块度的方法，该类方法主要关注网络拓扑结构，划分的结果能够很好的反映网络的拓扑结构，整体呈现出社团内关联紧密、社团间关联稀疏的特点，但在实际中，拥有相同角色的用户具有相似的结构或内容属性，却不一定彼此紧密相连。如果仅用网络拓扑结构对用户进行分类会无法将角色相同或相似，但还没有建立通信关系的用户划分到不同类别中；

二、基于用户的属性信息对用户进行分类，该类方法在进行分类没有区分不同的属性对用户分类的不同影响。对于通信网中的用户分类而言，不同的用户属性对用户分类的影响是截然不同的，如用户的年龄阶段、所处城市、工作地点、身高以及体重均为用户属性；用户的身高、体重无对该用户的通信关系没有直接联系；用户在不同年龄阶段跟其他人的通信情况有一些相关性；用户所处城市、工作地点与该用户的通信关系紧密相关。

发明内容

本发明所要解决的技术问题是，提供一种既考虑网络的拓扑结构也考虑不同用户属性的通信网用户分类方法。

本发明为解决上述技术问题所采用的技术方案是，提供一种结合网络结构与属性特征的通信网用户分类方法，包括以下步骤：

步骤1：将通信网中的用户作为通信节点，构建通信节点集合、所有通信节点之间联系的集合以及属性集合；通信节点集合中的元素为通信节点ID，所有通信节点之间联系的集合中的元素为有边的通信节点对，属性集合中的元素为属性ID；

根据所有通信节点之间联系的集合生成网络邻接矩阵A；网络邻接矩阵A的行和列均对应各通信节点ID，网络邻接矩阵A中元素为对应两个通信节点间是否有边的关系值；

根据通信节点集合、属性集合和已知的每个通信节点的各属性值生成属性矩阵F；属性矩阵F的行与列分别对应各通信节点ID和各属性ID，属性矩阵F中元素为对应通信节点在对应属性上的属性值；属性值不为0表示对应通信节点有对应属性；

步骤2：计算属性对节点结构特征的贡献度矩阵TC与属性对节点的语义特征的贡献度矩阵SC；再对TC和SC按预设权重相加后得到属性权重矩阵W；

TC的行与列分别对应通信节点ID和属性ID，TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时，与对应通信节点有边的通信节点的个数；

SC的行与列分别对应通信节点ID和属性ID，SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度；

步骤3：利用属性矩阵F对属性权重矩阵W进行调整得到采样概率矩阵

；对网络邻接矩阵A进行归一化处理得到

；按照根据

和

确定的采样概率以各通信节点ID为采样序列的起点，在通信节点集合和属性集合选择与采样序列中的上一跳元素有关系的通信节点ID或属性ID作为采样元素放入采样序列，采样完成后得到以各通信节点ID为起点的采样序列；

步骤4：将以通信节点ID为起点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。

进一步的，用户分类模型包括结构语义特征编码网络TSFE与全连接层，TSFE包括双向长短期记忆、自注意力机制、残差网络，堆叠前馈神经网络与不同信息聚合器。TSFE可以有效捕获输入序列的采样元素间的语义相似性，有效结合属性与网络拓扑结构学习通信网络中各通信节点的特征表达。

本发明的有益效果是，有效结合网络结构与用户属性特征进行通信网用户分类，从而达到根据用户角色而非不同子网间的关联紧密度来进行用户类别划分的效果；过程简单易实现，对不同网络数据具有良好的泛化性，在网络结构稀疏或属性稀疏的情况下同样适用。

具体实施方式

实施例的实现过程如下：

步骤1：将通信网中的用户作为通信节点，已知各通信节点的属性以及通信节点之间的通信关系，构建通信关联网络G；G={V,E,F }；

其中，V为通信节点集合{v ₁,…,v _|V|}，|V|表示通信网中通信节点的数量，v _i（i=1,…,|V|）表示集合V中第i个通信节点的ID；

E为所有通信节点之间联系的集合，通信节点之间联系即为通信网中通信节点间的边；集合E由有边的通信节点对构成<v _i,v _j>，（i≠j, j=1,…,|V|, i=1,…,|V|）；网络邻接矩阵A根据集合E生成，A∈R^|V|×|V|；网络邻接矩阵A的行与列均对应表示|V|个通信节点ID，矩阵A中元素为两个通信节点间的关系值，为0表示对应两个通信节点间没有边，为1表示对应两个通信节点间有边；R为实数域；

F为所有通信节点的属性集合{f ₁,…,f _|F|}；|F|表示通信节点的属性种类的数量，f _a（a=1,…,|F|）表示集合F中第a个属性的ID；根据集合E和各通信节点的属性生成属性矩阵F，F∈R^|V|×|F|；属性矩阵 F的行与列分别对应|V|个通信节点和|F|个属性，F中元素为对应通信节点在对应属性上的属性值。属性值可根据经验进行预设。

步骤2：计算属性对节点结构特征的贡献度矩阵TC（topological contribution）与属性对节点的语义特征的贡献度矩阵SC（semantical contribution）；再对TC和SC按预设权重相加后得到属性权重矩阵W；

TC的行与列分别对应|V|个通信节点和|F|个属性，TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时，与对应通信节点有边的通信节点的个数；

SC的行与列分别对应|V|个通信节点和|F|个属性，SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度，实施例使用矩阵F中的属性值作为总贡献度。即SC中元素为矩阵F中对应位置的元素与TC中对应位置的元素的差值。

步骤3：利用属性矩阵 F对属性权重矩阵W进行调整得到采样概率矩阵

；对网络邻接矩阵A进行归一化处理得到

；按照根据

和

确定的采样概率以各通信节点ID为采样序列的起点，在集合V和集合F选择与采样序列中的上一跳元素有关系的通信节点ID或属性ID作为采样元素放入采样序列。每个通信节点的采样序列中，与上一跳元素有关系的可以是，在网络邻接矩阵A中与上一跳通信节点ID的关系值不为0的通信节点ID，或者在属性矩阵 F中上一跳通信节点ID对应属性值不为0的属性ID，或者在属性矩阵 F中对应上一跳属性ID的属性值不为0的通信节点ID。采用根据

确定的采样概率来选择与采样序列中的上一跳通信节点ID有关系的通信节点ID，采用根据

确定的采样概率来选择与采样序列中的上一跳通信节点ID有关系的属性ID以及与采样序列中的上一跳属性ID有关系的通信节点ID。

对第i个通信节点进行采样的具体方法为：以采样偏差加权后的

中涉及第i个通信节点的元素值作为采样概率来选择与采样序列中的上一跳通信节点ID有关系的通信节点ID中的一个作为采样元素；以采样偏差加权后的

中涉及第i个通信节点的元素值作为采样概率来选择与采样序列中的上一跳通信节点ID有关系的属性ID中的一个作为采样元素，或者选择与采样序列中的上一跳属性ID有关系的通信节点ID中的一个作为采样元素。

最终得到以通信节点v _i为起点的采样序列S_vi，S _vi={x ₁,…, x _j,…,x _len×NUM }，其中，x ₁=v _i，x _j为采样序列S_vi中第j个元素值，除了从x ₁开始每len个元素x _{1+len×(num-1)}=v _i外，x _j可以为通信节点ID或属性ID，j=2,…,len×NUM，NUM 表示对单个节点进行的采样次数，num为对单个节点进行的第num次采样，len表示每次采样的长度。

步骤4：构造由双向长短期记忆、自注意力机制、残差网络，堆叠前馈神经网络与不同信息聚合器形成的结构语义特征编码网络（topological and semantical featureencoding，TSFE）。利用TSFE与全连接层形成用户分类模型。将作为训练数据的按照步骤1-3的方法得到的各通信节点的采样序列及标记好的用户类别标签输入至用户分类模型完成对模型的训练。

步骤5：将作为测试数据的按照步骤1-3的方法得到的待分类通信节点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。

一种可能的实现方式，步骤1中通信节点之间的通信关系是根据通信记录得到的。

每条通信记录中包含终端号码、终端类型、终端国家ISO编码、对端号码、对端类型、对端国家ISO编码、通信类型、通话时间等信息。

终端类型与对端类型包括：移动手机、固定电话、台式电脑、笔记本电脑等。

终端国家ISO编码与对端国家ISO编码包括：CN、AU、……、US、JN等。

通信类型包括：通话、短信、传真等。

终端号码与对端号码对应通信网中的用户，即通信节点。

所有通信节点的属性集合F包括各种属性子集合，比如，根据终端类型与对端类型生成属性子集合F ₁，F ₁={通信节点类型为移动手机，通信节点类型为固定电话，通信节点类型为台式电脑，通信节点类型为笔记本电脑}；根据终端国家ISO编码与对端国家ISO编码生成属性子集合F ₂，F ₂= {通信节点ISO编码为CN，……，通信节点ISO编码为JN}；根据通信记录中的通信类型生成属性子集合F ₃，F ₃= {通信类型为通话，通信类型为短信，通信类型为传真}；根据通信时间生成属性子集合F ₄，有F ₄={通信时间为每月1号，通信时间为每月2号，……，通信时间为每月31号，通信时间为每周周一，通信时间为每周周二，……，通信时间为每周周日，通信时间为每天0时-1时，通信时间为每天1时-2时，……，通信时间为每天11时-12时}。将子集合求并集，得到每个通信节点的属性集合F，有F= F ₁UF ₂U F ₃ U F ₄。

属性矩阵 F中每个属性的取值的方法为：终端号码的属性从通信记录中的终端类型、终端国家ISO编码、通信类型、通话时间等信息中抽取；对端号码的属性从通信记录中的对端类型、对端国家ISO编码、通信类型、通话时间等信息中抽取；考虑到通信过程中，终端对端类型、终端对端国家ISO编码的不变性，属性集合F中，F ₁与F ₂中的属性值取值范围为{0,1}；考虑到通信过程中，通信类型与通信时间会变化，因此分别统计通信节点为终端号码与对端号码时的属性值，两者相加得到最终属性值，因此，出现在F ₃与F ₄中的属性值取值范围为[0,|E|]，其中|E|为通信网络中的边数量，即通信记录总条数。

一种可能的实现方式，步骤2的数据表达可以采用以下形式：

获取通信网络中有直接关联的节点，然后从属性矩阵F中抽取对应这两个节点的属性向量，通过属性向量相乘判断这两个节点之间的共有属性有哪些，进而获得不同属性对网络结构的贡献度矩阵TC∈R^|V|×|F|中的各元素值 TC[i, a]，矩阵TC中各元素初始值为0，TC[i, a]具体计算：

其中，TC[i, a]（v _i∈V，f _a∈F）表示F中第a个属性f _a对第i个通信节点v _i的网络拓扑的贡献度，cnt _a(v _i,v _j)用于统计属性矩阵F中节点v _i与v _j之间含有共同属性a且节点v _i与v _j之间有边的情况；A[i, j] ≠0表示矩阵A 中通信节点v _i与通信节点v _j对应元素不为0，则通信节点v _i与通信节点v _j间有边，F[i,a]与F[i,a] ≠0表示属性矩阵F中通信节点v _i与v _j有共同属性f _a；

属性语义贡献度矩阵SC∈R^|V|×|F|为总贡献度减去结构贡献度，总贡献度max_TC为通信节点的在F中的属性值，SC的各元素值SC[i,a]计算方式如下：

SC[i,a] = max_TC–TC[i,a] + 1

SC[i,a]（v _i∈V，f _a∈F）表示属性f _a对通信节点v _i的网络拓扑的贡献度，总贡献度减去结构贡献度之后加1是为了避免max_TC–TC[i,a]为0的情况。

属性权重矩阵W∈R^|V|×|F|：

W=βTC + (1-β) SC

其中β为超参数，根据实际网络中结构贡献度与语义贡献度的分布情况设置。

一种可能的实现方式，步骤3中利用属性矩阵F对属性权重矩阵W进行调整得到采样概率矩阵

的具体方式是：

节点从属性采样时经过不同属性的采样概率矩阵为

：

其中，F∈R^|V|×|F|表示节点的属性矩阵，W表示属性权重矩阵，

表示哈达玛积（按位相乘），Norm表示归一化。

根据归一化之后的网络邻接矩阵

和

确定的采样概率P(x _i, x _j)的具体方式是：

先确定采样偏差α∈（0.0,1.0），如α=1.0，采样方法为仅从节点进行随机游走的朴素采样，此时所获采样序列仅包含网络拓扑结构信息，当α=0.0，只根据节点间是否有共同属性进行采样，采样序列只包含节点间属性语义交互信息；本发明需要获取既包含网络拓扑结构也包含节点间属性语义交互信息的采样序列，优选α的取值范围为0.4-0.6；

对A和F进行采样时使用的采样概率P(x _i, x _j)为：

其中，P(x _i, x _j)表示选择与采样序列中的上一跳采样元素x _i有关系的一个通信节点ID或属性ID作为当前的采样元素x _j的概率；

x _i, x _j∈V表示上一跳采样元素与的当前的采样元素均为通信节点ID的情况，otherwise则表示上一跳采样元素与的当前的采样元素有一个是属性ID的情况。采样序列S_vi，S _vi={x ₁,…, x _j-1, x _j, x _j+1,…, x _len×NUM }，其中x ₁，x _1+len，…，x _{1+len×(num-1)}均表示通信节点v _i，若x _j是属性ID，则x _j-1与x _j+1代表通信节点ID，表示通信节点x _j-1与通信节点x _j+1有相同属性x _j，若x _j与x _j-1均为通信节点ID，则表明通信节点x _j与通信节点x _j-1之间有边。

一种可能的实现方式，步骤4中结构语义特征编码网络TSFE，包括结构学习模块以及对经结构学习模块得到的特征进行聚合的聚合器Aggregator1，语义学习模块以及对经结构学习模块得到的特征进行聚合的聚合器Aggregator2，其中TSFE各模块的具体实现如下：

步骤4.1：将采样序列S_vi作为TSFE的输入input到结构学习模块；

步骤4.2：构造基于长短期记忆网络与拓扑信息聚合的结构学习模块，以提取输入序列中的网络结构信息；

步骤4.2.1：S_vi通过一个全连接层FullConnection将采样元素x _j投影到低维向量中展开计算，如下所示：

其中，W_p∈R^|F|×k，b_p∈R^k分别表示利用全连接层进行投影的权重矩阵与偏置向量，k表示低维向量空间维度，F_j∈R^|V|×|F|表示属性矩阵F的第j行，O_j∈R^|F|×|F|表示属性独热矩阵的第j行（属性独热矩阵的对角线位置元素为1，其余为0），V表示节点集合，F表示属性集合。此处重用符号x_j∈R^k表示序列中第j个采样元素x _j（可能是通信节点ID，也可能是属性ID）对应的向量表达，用S_vi=[x₁,…, x_j,…, x_len×NUM]表示序列向量表达；

步骤4.2.2：将上述序列向量表达输入至步长为len×NUM的双向长短期记忆网络 Bi-LSTM中，得到序列向量表达的正向输出为

、反向输出

；

步骤4.3基于平均池化的聚合器（Mean Pooling Aggregator，MPA），Aggregator1 将关于单个通信节点v _i的正向输出序列向量表达与反向输出序列向量聚合成一条序列表达

，具体如下：

MeanPooling表示平均池化操作；对于序列

中的每个元素

，其具体计算过程如下：

步骤4.4：将结构信息聚合后的序列表达

输入至由自注意力机制Self-Attention与前馈神经网络堆叠形成的语义学习模块中，得到序列的语义表达输出

，具体步骤如下：

步骤4.4.1：构造基于组注意力机制的用户个体语义信息提取模块，为防止语义特征提取过程中的梯度爆炸和信息问题，在上述基于自注意力机制模块训练过程中引入残差网络，如下：

其中，SelfAttention表示自注意力，softmax表示softmax函数，Norm表示归一化，如常见的LayerNorm，dropout是一种防止模型过拟合的算法，H∈R^d×k表示语义学习模块的中间输出，即自注意力的输出，前馈神经网络的输入，d、k表示隐藏层维度，

表示隐藏维度的开方。

步骤4.4.2：使用前馈神经网络对序列中的每个位置进行按位计算，提取序列中不同元素间的语义交互信息，为防止语义特征提取过程中的梯度爆炸和信息问题，在上述基于前馈神经网络的语义交互特征提取模块训练过程中引入残差网络，如下：

其中，Norm表示归一化，如常见的LayerNorm，dropout是一种防止模型过拟合的方法，FeedForward表示前馈神经网络，W_f1∈R^df×k，W_f2∈R^k×df表示前馈神经网络层的权重矩阵， b_f1∈R^df，b_f2∈R^k表示前馈神经网络层的偏置向量，df表示隐藏层的维度，

表示语义特征学习模块的输出，有：

步骤4.5：由于目标是起始节点，因此，将除第一个节点外的其他用户节点信息输入到由最大池化与信息拼接组成的聚合器Aggregator2中进行二次信息聚合，从而得到目标用户节点包含结构信息与语义信息的特征向量表达v_i输出output至全连接层：

其中，Concat表示向量拼接，Aggregator表示聚合器。

一种可能的实现方式，步骤5中用户分类具体步骤如下：

步骤5.1：采样序列S_vi输入到由TSFE构成的通信网用户分类模型中，得到目标通信节点的结构语义向量表达v_i。

步骤5.2：将最终向量表达v_i输入到由全连接层组成的浅层映射模型中，映射到已知的有限用户类别中，得到该用户节点属于不同用户类别的概率预测结果，选取概率最大的用户类别作为模型预测类别输出。

在使用反向传播算法对用户类模型的训练过程中，采用交叉熵损失函数L如下：

其中，

表示模型的预测结果，

指模型预测目标节点的第i个用户类别是正例的概率，y _i∈y，y表示实际用户类别的独热向量，y _i表示独热向量y中第i个元素。

Claims

1.一种结合网络结构与属性特征的通信网用户分类方法，其特征在于，包括以下步骤：

；对网络邻接矩阵A进行归一化处理得到

；按照根据

和

确定的采样概率以各通信节点ID为采样序列的起点，在通信节点集合和属性集合选择与采样序列中的上一跳元素有关系的通信节点ID 或属性ID作为采样元素放入采样序列，采样完成后得到以各通信节点ID为起点的采样序列；

2.如权利要求1所述方法，其特征在于，步骤3中所述与上一跳元素有关系的通信节点ID或属性ID包括：在网络邻接矩阵A中与上一跳通信节点ID的有边的通信节点ID；在属性矩阵 F中上一跳通信节点ID对应属性值不为0的属性ID；在属性矩阵 F中对应上一跳属性ID的属性值不为0的通信节点ID。

3.如权利要求1所述方法，其特征在于，步骤2中采用属性矩阵F中对应通信节点ID和属性ID的属性值作为总贡献度。

4.如权利要求1所述方法，其特征在于，步骤2中采样概率矩阵

，

表示哈达玛积（按位相乘），Norm表示归一化。

5.如权利要求1或4所述方法，其特征在于，步骤2中采样概率：

其中，P(x _i, x _j)表示选择与采样序列中的上一跳采样元素x _i有关系的一个通信节点ID或属性ID作为当前的采样元素x _j的概率；α表示采样偏差，α取值范围为（0.0,1.0）；V表示通信节点集合，x _i, x _j∈V表示上一跳采样元素与的当前的采样元素均为通信节点ID的情况；otherwise则表示上一跳采样元素与的当前的采样元素有一个是属性ID的情况。

6.如权利要求1所述方法，其特征在于，所述用户分类模型包括结构语义特征编码网络TSFE与全连接层；

TSFE包括结构学习模块、聚合器Aggregator1、语义学习模块与聚合器Aggregator2；

结构学习模块用于接收以通信节点ID为起点的采样序列并提取出正向输出的序列向量表达以及反向输出的序列向量表达；

聚合器Aggregator1用于将正向输出的序列向量表达以及反向输出的序列向量表达合成一条序列表达输出至语义学习模块；

语义学习模块用于提取接收的序列表达中不同元素间的语义交互信息得到序列的语义表达；

聚合器Aggregator2；将序列的语义表达中第一个元素与最大池化后的除第一个元素外的其他元素进行信息拼接得到结构信息与语义信息的特征向量表达；

全连接层用于将结构信息与语义信息的特征向量表达映射到各用户类别中，得到该通信节点属于不同用户类别的概率预测结果。