CN112906831A - 一种结合网络结构与属性特征的通信网用户分类方法 - Google Patents
一种结合网络结构与属性特征的通信网用户分类方法 Download PDFInfo
- Publication number
- CN112906831A CN112906831A CN202110427384.5A CN202110427384A CN112906831A CN 112906831 A CN112906831 A CN 112906831A CN 202110427384 A CN202110427384 A CN 202110427384A CN 112906831 A CN112906831 A CN 112906831A
- Authority
- CN
- China
- Prior art keywords
- attribute
- communication
- communication node
- matrix
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006854 communication Effects 0.000 title claims abstract description 221
- 238000004891 communication Methods 0.000 title claims abstract description 220
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000005070 sampling Methods 0.000 claims abstract description 73
- 238000013145 classification model Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 69
- 239000013598 vector Substances 0.000 claims description 23
- 230000003993 interaction Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 9
- 206010048669 Terminal state Diseases 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000003442 weekly effect Effects 0.000 description 3
- 101100129590 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mcp5 gene Proteins 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- MKXZASYAUGDDCJ-NJAFHUGGSA-N dextromethorphan Chemical compound C([C@@H]12)CCC[C@]11CCN(C)[C@H]2CC2=CC=C(OC)C=C21 MKXZASYAUGDDCJ-NJAFHUGGSA-N 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 239000011737 fluorine Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及通信网用户信息分析技术,公开了一种结合网络结构与属性特征的通信网用户分类方法,将用户通信记录中的用户抽象成节点,根据用户间通信关系构建网络;根据用户属性集合以及用户间的关联情况,计算属性对网络结构与用户个体语义特征的贡献度,从而生成属性权重;设计基于属性权重的随机采样方法,获得包含网络结构与语义信息的采样序列;构建用户分类模型提取采样序列中的结构特征与语义特征从而完成用户分类。本发明有效结合网络结构与用户属性特征进行通信网用户分类,从而达到根据用户角色而非不同子网间的关联紧密度来进行用户类别划分的效果。
Description
技术领域
本发明涉及通信网用户信息分析技术,特别涉及结合网络结构与属性特征的通信网用户分类技术。
背景技术
随着信息化社会的发展,人们通过手机、电脑,以短信、电话、传真、即时通信软件等进行通信。用户与同户之间因通信形成通信关系,再由这些通信关系构成的复杂网络称为通信网。不同运营商可根据通信网络对用户进行分类,从而在同类用户之间进行精准的业务推广。具体通信网用户分类是指根据已知的通信记录构建网络,并将网络划分为已知用户类别的网络和未知类别的网络,通过已知网络训练模型用户分类模型,并以此预测未知网络中用户类别。其实际应用包括:根据整体通信网络中用户节点所属类别的分析可以有效分析信息化时代的社会结构组成,如分析不同党派系分布、不同类别职业分布;此外,根据局部通信网络中用户节点所属类别的分析,如根据公司成员间形成的通信网络,分析团体中的人员分工、组织结构,如公司领导者、管理人员、技术人员等。
通过上述分类所得用户角色不仅反映了用户本身的特点,还反映了用户之间的关联与相似性特征,现有用户角色分类方法包括:
一、基于复杂网络理论对通信网络中的用户进行社团划分,如谱方法、层次法、基于模块度的方法,该类方法主要关注网络拓扑结构,划分的结果能够很好的反映网络的拓扑结构,整体呈现出社团内关联紧密、社团间关联稀疏的特点,但在实际中,拥有相同角色的用户具有相似的结构或内容属性,却不一定彼此紧密相连。如果仅用网络拓扑结构对用户进行分类会无法将角色相同或相似,但还没有建立通信关系的用户划分到不同类别中;
二、基于用户的属性信息对用户进行分类,该类方法在进行分类没有区分不同的属性对用户分类的不同影响。对于通信网中的用户分类而言,不同的用户属性对用户分类的影响是截然不同的,如用户的年龄阶段、所处城市、工作地点、身高以及体重均为用户属性;用户的身高、体重无对该用户的通信关系没有直接联系;用户在不同年龄阶段跟其他人的通信情况有一些相关性;用户所处城市、工作地点与该用户的通信关系紧密相关。
发明内容
本发明所要解决的技术问题是,提供一种既考虑网络的拓扑结构也考虑不同用户属性的通信网用户分类方法。
本发明为解决上述技术问题所采用的技术方案是,提供一种结合网络结构与属性特征的通信网用户分类方法,包括以下步骤:
步骤1:将通信网中的用户作为通信节点,构建通信节点集合、所有通信节点之间联系的集合以及属性集合;通信节点集合中的元素为通信节点ID,所有通信节点之间联系的集合中的元素为有边的通信节点对,属性集合中的元素为属性ID;
根据所有通信节点之间联系的集合生成网络邻接矩阵A;网络邻接矩阵A的行和列均对应各通信节点ID,网络邻接矩阵A中元素为对应两个通信节点间是否有边的关系值;
根据通信节点集合、属性集合和已知的每个通信节点的各属性值生成属性矩阵F;属性矩阵F的行与列分别对应各通信节点ID和各属性ID,属性矩阵F中元素为对应通信节点在对应属性上的属性值;属性值不为0表示对应通信节点有对应属性;
步骤2:计算属性对节点结构特征的贡献度矩阵TC与属性对节点的语义特征的贡献度矩阵SC;再对TC和SC按预设权重相加后得到属性权重矩阵W;
TC的行与列分别对应通信节点ID和属性ID,TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时,与对应通信节点有边的通信节点的个数;
SC的行与列分别对应通信节点ID和属性ID,SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度;
步骤3:利用属性矩阵F对属性权重矩阵W进行调整得到采样概率矩阵;对网络邻
接矩阵A进行归一化处理得到;按照根据和确定的采样概率以各通信节点ID为采样
序列的起点,在通信节点集合和属性集合选择与采样序列中的上一跳元素有关系的通信节
点ID或属性ID作为采样元素放入采样序列,采样完成后得到以各通信节点ID为起点的采样
序列;
步骤4:将以通信节点ID为起点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。
进一步的,用户分类模型包括结构语义特征编码网络TSFE与全连接层,TSFE包括双向长短期记忆、自注意力机制、残差网络,堆叠前馈神经网络与不同信息聚合器。TSFE可以有效捕获输入序列的采样元素间的语义相似性, 有效结合属性与网络拓扑结构学习通信网络中各通信节点的特征表达。
本发明的有益效果是,有效结合网络结构与用户属性特征进行通信网用户分类,从而达到根据用户角色而非不同子网间的关联紧密度来进行用户类别划分的效果;过程简单易实现,对不同网络数据具有良好的泛化性,在网络结构稀疏或属性稀疏的情况下同样适用。
具体实施方式
实施例的实现过程如下:
步骤1:将通信网中的用户作为通信节点,已知各通信节点的属性以及通信节点之间的通信关系,构建通信关联网络G;G={V,E,F };
其中,V为通信节点集合{v 1,…,v |V|},|V|表示通信网中通信节点的数量,v i (i=1,…,|V|)表示集合V中第i个通信节点的ID;
E为所有通信节点之间联系的集合,通信节点之间联系即为通信网中通信节点间的边;集合E由有边的通信节点对构成<v i ,v j >,(i≠j, j=1,…,|V|, i=1,…,|V|);网络邻接矩阵A根据集合E生成,A∈R|V|×|V|;网络邻接矩阵A的行与列均对应表示|V|个通信节点ID,矩阵A中元素为两个通信节点间的关系值,为0表示对应两个通信节点间没有边,为1表示对应两个通信节点间有边;R为实数域;
F为所有通信节点的属性集合{f 1,…,f |F|};|F|表示通信节点的属性种类的数量,f a (a=1,…,|F|)表示集合F中第a个属性的ID;根据集合E和各通信节点的属性生成属性矩阵F,F∈R|V|×|F|;属性矩阵 F的行与列分别对应|V|个通信节点和|F|个属性,F中元素为对应通信节点在对应属性上的属性值。属性值可根据经验进行预设。
步骤2:计算属性对节点结构特征的贡献度矩阵TC(topological contribution)与属性对节点的语义特征的贡献度矩阵SC(semantical contribution);再对TC和SC按预设权重相加后得到属性权重矩阵W;
TC的行与列分别对应|V|个通信节点和|F|个属性,TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时,与对应通信节点有边的通信节点的个数;
SC的行与列分别对应|V|个通信节点和|F|个属性,SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度,实施例使用矩阵F中的属性值作为总贡献度。即SC中元素为矩阵F中对应位置的元素与TC中对应位置的元素的差值。
步骤3:利用属性矩阵 F对属性权重矩阵W进行调整得到采样概率矩阵;对网络
邻接矩阵A进行归一化处理得到;按照根据和确定的采样概率以各通信节点ID为采
样序列的起点,在集合V和集合F选择与采样序列中的上一跳元素有关系的通信节点ID或属
性ID作为采样元素放入采样序列。每个通信节点的采样序列中,与上一跳元素有关系的可
以是,在网络邻接矩阵A中与上一跳通信节点ID的关系值不为0的通信节点ID,或者在属性
矩阵 F中上一跳通信节点ID对应属性值不为0的属性ID,或者在属性矩阵 F中对应上一跳
属性ID的属性值不为0的通信节点ID。采用根据确定的采样概率来选择与采样序列中的
上一跳通信节点ID有关系的通信节点ID,采用根据确定的采样概率来选择与采样序列中
的上一跳通信节点ID有关系的属性ID以及与采样序列中的上一跳属性ID有关系的通信节
点ID。
对第i个通信节点进行采样的具体方法为:以采样偏差加权后的中涉及第i个通
信节点的元素值作为采样概率来选择与采样序列中的上一跳通信节点ID有关系的通信节
点ID中的一个作为采样元素;以采样偏差加权后的中涉及第i个通信节点的元素值作为
采样概率来选择与采样序列中的上一跳通信节点ID有关系的属性ID中的一个作为采样元
素,或者选择与采样序列中的上一跳属性ID有关系的通信节点ID中的一个作为采样元素。
最终得到以通信节点v i 为起点的采样序列S vi ,S vi ={x 1,…, x j ,…,x len×NUM },其中,x 1=v i ,x j 为采样序列S vi 中第j个元素值,除了从x 1开始每len个元素x 1+len×(num-1)=v i 外,x j 可以为通信节点ID或属性ID,j=2,…,len×NUM,NUM 表示对单个节点进行的采样次数,num为对单个节点进行的第num次采样,len表示每次采样的长度。
步骤4:构造由双向长短期记忆、自注意力机制、残差网络,堆叠前馈神经网络与不同信息聚合器形成的结构语义特征编码网络(topological and semantical featureencoding,TSFE)。利用TSFE与全连接层形成用户分类模型。将作为训练数据的按照步骤1-3的方法得到的各通信节点的采样序列及标记好的用户类别标签输入至用户分类模型完成对模型的训练。
步骤5:将作为测试数据的按照步骤1-3的方法得到的待分类通信节点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。
一种可能的实现方式,步骤1中通信节点之间的通信关系是根据通信记录得到的。
每条通信记录中包含终端号码、终端类型、终端国家ISO编码、对端号码、对端类型、对端国家ISO编码、通信类型、通话时间等信息。
终端类型与对端类型包括:移动手机、固定电话、台式电脑、笔记本电脑等。
终端国家ISO编码与对端国家ISO编码包括:CN、AU、……、US、JN等。
通信类型包括:通话、短信、传真等。
终端号码与对端号码对应通信网中的用户,即通信节点。
所有通信节点的属性集合F包括各种属性子集合,比如,根据终端类型与对端类型生成属性子集合F 1,F 1={通信节点类型为移动手机,通信节点类型为固定电话,通信节点类型为台式电脑,通信节点类型为笔记本电脑};根据终端国家ISO编码与对端国家ISO编码生成属性子集合F 2,F 2= {通信节点ISO编码为CN,……,通信节点ISO编码为JN};根据通信记录中的通信类型生成属性子集合F 3,F 3= {通信类型为通话,通信类型为短信,通信类型为传真};根据通信时间生成属性子集合F 4,有F 4={通信时间为每月1号,通信时间为每月2号,……,通信时间为每月31号,通信时间为每周周一,通信时间为每周周二,……,通信时间为每周周日,通信时间为每天0时-1时,通信时间为每天1时-2时,……,通信时间为每天11时-12时}。将子集合求并集,得到每个通信节点的属性集合F,有F= F 1UF 2U F 3 U F 4。
属性矩阵 F中每个属性的取值的方法为:终端号码的属性从通信记录中的终端类型、终端国家ISO编码、通信类型、通话时间等信息中抽取;对端号码的属性从通信记录中的对端类型、对端国家ISO编码、通信类型、通话时间等信息中抽取;考虑到通信过程中,终端对端类型、终端对端国家ISO编码的不变性,属性集合F中,F 1与F 2中的属性值取值范围为{0,1};考虑到通信过程中,通信类型与通信时间会变化,因此分别统计通信节点为终端号码与对端号码时的属性值,两者相加得到最终属性值,因此,出现在F 3与F 4中的属性值取值范围为[0,|E|],其中|E|为通信网络中的边数量,即通信记录总条数。
一种可能的实现方式,步骤2的数据表达可以采用以下形式:
获取通信网络中有直接关联的节点,然后从属性矩阵F中抽取对应这两个节点的属性向量,通过属性向量相乘判断这两个节点之间的共有属性有哪些,进而获得不同属性对网络结构的贡献度矩阵TC∈R|V|×|F|中的各元素值 TC[i, a],矩阵TC中各元素初始值为0,TC[i, a]具体计算:
其中,TC[i, a](v i ∈V,f a∈F)表示F中第a个属性f a对第i个通信节点v i 的网络拓扑的贡献度,cnt a(v i ,v j )用于统计属性矩阵F中节点v i 与v j 之间含有共同属性a且节点v i 与v j 之间有边的情况;A[i, j] ≠0表示矩阵A 中通信节点v i 与通信节点v j 对应元素不为0,则通信节点v i 与通信节点v j 间有边,F[i,a]与F[i,a] ≠0表示属性矩阵F中通信节点v i 与v j 有共同属性f a;
属性语义贡献度矩阵SC∈R|V|×|F|为总贡献度减去结构贡献度,总贡献度maxTC为通信节点的在F中的属性值,SC的各元素值SC[i,a]计算方式如下:
SC[i,a] = maxTC–TC[i,a] + 1
SC[i,a](v i ∈V,f a∈F)表示属性f a对通信节点v i 的网络拓扑的贡献度,总贡献度减去结构贡献度之后加1是为了避免maxTC–TC[i,a]为0的情况。
属性权重矩阵W∈R|V|×|F|:
W=βTC + (1-β) SC
其中β为超参数,根据实际网络中结构贡献度与语义贡献度的分布情况设置。
先确定采样偏差α∈(0.0,1.0),如α=1.0,采样方法为仅从节点进行随机游走的朴素采样,此时所获采样序列仅包含网络拓扑结构信息,当α=0.0,只根据节点间是否有共同属性进行采样,采样序列只包含节点间属性语义交互信息;本发明需要获取既包含网络拓扑结构也包含节点间属性语义交互信息的采样序列,优选α的取值范围为0.4-0.6;
对A和F进行采样时使用的采样概率P(x i , x j )为:
其中,P(x i , x j )表示选择与采样序列中的上一跳采样元素x i 有关系的一个通信节点ID或属性ID作为当前的采样元素x j 的概率;
x i , x j ∈V表示上一跳采样元素与的当前的采样元素均为通信节点ID的情况,otherwise则表示上一跳采样元素与的当前的采样元素有一个是属性ID的情况。采样序列S vi ,S vi ={x 1,…, x j-1 , x j , x j+1 ,…, x len×NUM },其中x 1,x 1+len ,…,x 1+len×(num-1)均表示通信节点v i ,若x j 是属性ID,则x j-1与x j+1代表通信节点ID,表示通信节点x j-1与通信节点x j+1有相同属性x j ,若x j 与x j-1均为通信节点ID,则表明通信节点x j 与通信节点x j-1之间有边。
一种可能的实现方式,步骤4中结构语义特征编码网络TSFE,包括结构学习模块以及对经结构学习模块得到的特征进行聚合的聚合器Aggregator1,语义学习模块以及对经结构学习模块得到的特征进行聚合的聚合器Aggregator2,其中TSFE各模块的具体实现如下:
步骤4.1:将采样序列S vi 作为TSFE的输入input到结构学习模块;
步骤4.2:构造基于长短期记忆网络与拓扑信息聚合的结构学习模块,以提取输入序列中的网络结构信息;
步骤4.2.1:S vi 通过一个全连接层FullConnection将采样元素x j 投影到低维向量中展开计算,如下所示:
其中,W p ∈R|F|×k ,b p ∈R k 分别表示利用全连接层进行投影的权重矩阵与偏置向量,k表示低维向量空间维度,F j ∈R|V|×|F|表示属性矩阵F的第j行,O j ∈R|F|×|F|表示属性独热矩阵的第j行(属性独热矩阵的对角线位置元素为1,其余为0),V表示节点集合,F表示属性集合。此处重用符号x j ∈R k 表示序列中第j个采样元素x j (可能是通信节点ID,也可能是属性ID)对应的向量表达,用S vi =[x1,…, x j ,…, x len×NUM ]表示序列向量表达;
步骤4.3基于平均池化的聚合器(Mean Pooling Aggregator,MPA),Aggregator1
将关于单个通信节点v i 的正向输出序列向量表达与反向输出序列向量聚合成一条序列表
达,具体如下:
步骤4.4.1:构造基于组注意力机制的用户个体语义信息提取模块,为防止语义特征提取过程中的梯度爆炸和信息问题,在上述基于自注意力机制模块训练过程中引入残差网络,如下:
其中,SelfAttention表示自注意力,softmax表示softmax函数,Norm表示归一化,
如常见的LayerNorm,dropout是一种防止模型过拟合的算法,H∈R d×k 表示语义学习模块的
中间输出,即自注意力的输出,前馈神经网络的输入,d、k表示隐藏层维度,表示隐藏维
度的开方。
步骤4.4.2:使用前馈神经网络对序列中的每个位置进行按位计算,提取序列中不同元素间的语义交互信息,为防止语义特征提取过程中的梯度爆炸和信息问题,在上述基于前馈神经网络的语义交互特征提取模块训练过程中引入残差网络,如下:
其中,Norm表示归一化,如常见的LayerNorm,dropout是一种防止模型过拟合的方
法,FeedForward表示前馈神经网络,W f1∈R df×k ,W f2∈R k×df 表示前馈神经网络层的权重矩
阵, b f1∈R df ,b f2∈R k 表示前馈神经网络层的偏置向量,df表示隐藏层的维度,表示语义
特征学习模块的输出,有:
步骤4.5:由于目标是起始节点,因此,将除第一个节点外的其他用户节点信息输入到由最大池化与信息拼接组成的聚合器Aggregator2中进行二次信息聚合,从而得到目标用户节点包含结构信息与语义信息的特征向量表达v i 输出output至全连接层:
其中,Concat表示向量拼接,Aggregator表示聚合器。
一种可能的实现方式,步骤5中用户分类具体步骤如下:
步骤5.1:采样序列S vi 输入到由TSFE构成的通信网用户分类模型中,得到目标通信节点的结构语义向量表达v i 。
步骤5.2:将最终向量表达v i 输入到由全连接层组成的浅层映射模型中,映射到已知的有限用户类别中,得到该用户节点属于不同用户类别的概率预测结果,选取概率最大的用户类别作为模型预测类别输出。
在使用反向传播算法对用户类模型的训练过程中,采用交叉熵损失函数L如下:
Claims (6)
1.一种结合网络结构与属性特征的通信网用户分类方法,其特征在于,包括以下步骤:
步骤1:将通信网中的用户作为通信节点,构建通信节点集合、所有通信节点之间联系的集合以及属性集合;通信节点集合中的元素为通信节点ID,所有通信节点之间联系的集合中的元素为有边的通信节点对,属性集合中的元素为属性ID;
根据所有通信节点之间联系的集合生成网络邻接矩阵A;网络邻接矩阵A的行和列均对应各通信节点ID,网络邻接矩阵A中元素为对应两个通信节点间是否有边的关系值;
根据通信节点集合、属性集合和已知的每个通信节点的各属性值生成属性矩阵F;属性矩阵F的行与列分别对应各通信节点ID和各属性ID,属性矩阵F中元素为对应通信节点在对应属性上的属性值;属性值不为0表示对应通信节点有对应属性;
步骤2:计算属性对节点结构特征的贡献度矩阵TC与属性对节点的语义特征的贡献度矩阵SC;再对TC和SC按预设权重相加后得到属性权重矩阵W;
TC的行与列分别对应通信节点ID和属性ID,TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时,与对应通信节点有边的通信节点的个数;
SC的行与列分别对应通信节点ID和属性ID,SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度;
步骤3:利用属性矩阵F对属性权重矩阵W进行调整得到采样概率矩阵;对网络邻接矩
阵A进行归一化处理得到;按照根据和确定的采样概率以各通信节点ID为采样序列
的起点,在通信节点集合和属性集合选择与采样序列中的上一跳元素有关系的通信节点ID
或属性ID作为采样元素放入采样序列,采样完成后得到以各通信节点ID为起点的采样序
列;
步骤4:将以通信节点ID为起点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。
2.如权利要求1所述方法,其特征在于,步骤3中所述与上一跳元素有关系的通信节点ID或属性ID包括:在网络邻接矩阵A中与上一跳通信节点ID的有边的通信节点ID;在属性矩阵 F中上一跳通信节点ID对应属性值不为0的属性ID;在属性矩阵 F中对应上一跳属性ID的属性值不为0的通信节点ID。
3.如权利要求1所述方法,其特征在于,步骤2中采用属性矩阵F中对应通信节点ID和属性ID的属性值作为总贡献度。
6.如权利要求1所述方法,其特征在于,所述用户分类模型包括结构语义特征编码网络TSFE与全连接层;
TSFE包括结构学习模块、聚合器Aggregator1、语义学习模块与聚合器Aggregator2;
结构学习模块用于接收以通信节点ID为起点的采样序列并提取出正向输出的序列向量表达以及反向输出的序列向量表达;
聚合器Aggregator1用于将正向输出的序列向量表达以及反向输出的序列向量表达合成一条序列表达输出至语义学习模块;
语义学习模块用于提取接收的序列表达中不同元素间的语义交互信息得到序列的语义表达;
聚合器Aggregator2;将序列的语义表达中第一个元素与最大池化后的除第一个元素外的其他元素进行信息拼接得到结构信息与语义信息的特征向量表达;
全连接层用于将结构信息与语义信息的特征向量表达映射到各用户类别中,得到该通信节点属于不同用户类别的概率预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427384.5A CN112906831B (zh) | 2021-04-21 | 2021-04-21 | 一种结合网络结构与属性特征的通信网用户分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427384.5A CN112906831B (zh) | 2021-04-21 | 2021-04-21 | 一种结合网络结构与属性特征的通信网用户分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906831A true CN112906831A (zh) | 2021-06-04 |
CN112906831B CN112906831B (zh) | 2023-06-06 |
Family
ID=76110538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110427384.5A Active CN112906831B (zh) | 2021-04-21 | 2021-04-21 | 一种结合网络结构与属性特征的通信网用户分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906831B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841296A (zh) * | 2022-07-04 | 2022-08-02 | 北京六方云信息技术有限公司 | 设备聚类方法、终端设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492200A (zh) * | 2018-02-07 | 2018-09-04 | 中国科学院信息工程研究所 | 一种基于卷积神经网络的用户属性推断方法和装置 |
US20190378050A1 (en) * | 2018-06-12 | 2019-12-12 | Bank Of America Corporation | Machine learning system to identify and optimize features based on historical data, known patterns, or emerging patterns |
CN110622180A (zh) * | 2016-12-22 | 2019-12-27 | 奥恩全球运营有限公司,新加坡分公司 | 用于历史电子通信交换的数据挖掘以标识交易结果的关系、模式和相关性的系统和方法 |
CN111695046A (zh) * | 2020-04-23 | 2020-09-22 | 清华大学 | 基于时空移动数据表征学习的用户画像推断方法及装置 |
CN112256870A (zh) * | 2020-10-15 | 2021-01-22 | 大连理工大学 | 基于自适应随机游走的属性网络表示学习方法 |
-
2021
- 2021-04-21 CN CN202110427384.5A patent/CN112906831B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110622180A (zh) * | 2016-12-22 | 2019-12-27 | 奥恩全球运营有限公司,新加坡分公司 | 用于历史电子通信交换的数据挖掘以标识交易结果的关系、模式和相关性的系统和方法 |
CN108492200A (zh) * | 2018-02-07 | 2018-09-04 | 中国科学院信息工程研究所 | 一种基于卷积神经网络的用户属性推断方法和装置 |
US20190378050A1 (en) * | 2018-06-12 | 2019-12-12 | Bank Of America Corporation | Machine learning system to identify and optimize features based on historical data, known patterns, or emerging patterns |
CN111695046A (zh) * | 2020-04-23 | 2020-09-22 | 清华大学 | 基于时空移动数据表征学习的用户画像推断方法及装置 |
CN112256870A (zh) * | 2020-10-15 | 2021-01-22 | 大连理工大学 | 基于自适应随机游走的属性网络表示学习方法 |
Non-Patent Citations (8)
Title |
---|
CHEN CAI等: "A simple yet effective baseline for non-attributed graph classification", 《ARXIV:1811.03508V2》 * |
CHEN CAI等: "A simple yet effective baseline for non-attributed graph classification", 《ARXIV:1811.03508V2》, 3 May 2019 (2019-05-03), pages 1 - 13 * |
JINGSUN等: "Analysis of connection behaviour of communication network flow based on semantic understanding", 《MICROPROCESSORS AND MICROSYSTEMS》 * |
JINGSUN等: "Analysis of connection behaviour of communication network flow based on semantic understanding", 《MICROPROCESSORS AND MICROSYSTEMS》, vol. 80, 2 December 2020 (2020-12-02), pages 1 - 6, XP086452514, DOI: 10.1016/j.micpro.2020.103578 * |
周乐等: "基于节点-属性二部图的网络表示学习模型", 《计算机应用》 * |
周乐等: "基于节点-属性二部图的网络表示学习模型", 《计算机应用》, vol. 42, no. 08, 18 September 2021 (2021-09-18), pages 2311 - 2318 * |
林建枫: "基于社交网络的嵌入学习技术及推荐算法研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》 * |
林建枫: "基于社交网络的嵌入学习技术及推荐算法研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》, 15 September 2019 (2019-09-15), pages 138 - 1383 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841296A (zh) * | 2022-07-04 | 2022-08-02 | 北京六方云信息技术有限公司 | 设备聚类方法、终端设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112906831B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492026B (zh) | 一种基于改进的主动学习技术的电信欺诈分类检测方法 | |
CN107767262B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN110727864B (zh) | 一种基于手机App安装列表的用户画像方法 | |
CN110796313A (zh) | 一种基于带权图卷积和项目吸引力模型的会话推荐方法 | |
CN115062732A (zh) | 基于大数据用户标签信息的资源共享合作推荐方法及系统 | |
CN112464058A (zh) | 一种基于XGBoost算法的电信互联网诈骗识别方法 | |
Hu et al. | BTG: A Bridge to Graph machine learning in telecommunications fraud detection | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN115994226A (zh) | 基于联邦学习的聚类模型训练系统及方法 | |
CN112258250A (zh) | 基于网络热点的目标用户识别方法、装置和计算机设备 | |
CN112906831A (zh) | 一种结合网络结构与属性特征的通信网用户分类方法 | |
CN111062422B (zh) | 一种套路贷体系化识别方法及装置 | |
CN113779245A (zh) | 一种评论情感原因三元组抽取方法 | |
CN111402028A (zh) | 一种信息处理方法、装置及设备 | |
CN110704612B (zh) | 一种社交群体发现方法、装置和存储介质 | |
CN116910341A (zh) | 标签预测方法、装置及电子设备 | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
CN114390550A (zh) | 一种网络类型识别的方法、相关装置、设备及存储介质 | |
Hikmaturokhman et al. | Deep Learning Algorithm Models for Spam Identification on Cellular Short Message Service. | |
CN112800048B (zh) | 一种基于图表示学习的通信网用户通信记录补全方法 | |
Apostu | Using machine learning algorithms to detect frauds in telephone networks | |
Shen et al. | Learning Personalized Representations using Graph Convolutional Network | |
Phithakkitnukoon et al. | Inferring social groups using call logs | |
Hao et al. | Telecom Big Data based Precision Marketing Algorithms for Financial Industry | |
Amosa et al. | A Comparative Analysis of The Performance of Homogenous Ensembles on Customer Churn Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |