CN112906831A - 一种结合网络结构与属性特征的通信网用户分类方法 - Google Patents

一种结合网络结构与属性特征的通信网用户分类方法 Download PDF

Info

Publication number
CN112906831A
CN112906831A CN202110427384.5A CN202110427384A CN112906831A CN 112906831 A CN112906831 A CN 112906831A CN 202110427384 A CN202110427384 A CN 202110427384A CN 112906831 A CN112906831 A CN 112906831A
Authority
CN
China
Prior art keywords
attribute
communication
communication node
matrix
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110427384.5A
Other languages
English (en)
Other versions
CN112906831B (zh
Inventor
刘峤
李艳斌
李淳
蓝天
吴祖峰
陈昌美
周乐
代婷婷
宋明慧
曾义夫
孙建强
曾维智
张志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
CETC 54 Research Institute
Original Assignee
University of Electronic Science and Technology of China
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, CETC 54 Research Institute filed Critical University of Electronic Science and Technology of China
Priority to CN202110427384.5A priority Critical patent/CN112906831B/zh
Publication of CN112906831A publication Critical patent/CN112906831A/zh
Application granted granted Critical
Publication of CN112906831B publication Critical patent/CN112906831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及通信网用户信息分析技术,公开了一种结合网络结构与属性特征的通信网用户分类方法,将用户通信记录中的用户抽象成节点,根据用户间通信关系构建网络;根据用户属性集合以及用户间的关联情况,计算属性对网络结构与用户个体语义特征的贡献度,从而生成属性权重;设计基于属性权重的随机采样方法,获得包含网络结构与语义信息的采样序列;构建用户分类模型提取采样序列中的结构特征与语义特征从而完成用户分类。本发明有效结合网络结构与用户属性特征进行通信网用户分类,从而达到根据用户角色而非不同子网间的关联紧密度来进行用户类别划分的效果。

Description

一种结合网络结构与属性特征的通信网用户分类方法
技术领域
本发明涉及通信网用户信息分析技术,特别涉及结合网络结构与属性特征的通信网用户分类技术。
背景技术
随着信息化社会的发展,人们通过手机、电脑,以短信、电话、传真、即时通信软件等进行通信。用户与同户之间因通信形成通信关系,再由这些通信关系构成的复杂网络称为通信网。不同运营商可根据通信网络对用户进行分类,从而在同类用户之间进行精准的业务推广。具体通信网用户分类是指根据已知的通信记录构建网络,并将网络划分为已知用户类别的网络和未知类别的网络,通过已知网络训练模型用户分类模型,并以此预测未知网络中用户类别。其实际应用包括:根据整体通信网络中用户节点所属类别的分析可以有效分析信息化时代的社会结构组成,如分析不同党派系分布、不同类别职业分布;此外,根据局部通信网络中用户节点所属类别的分析,如根据公司成员间形成的通信网络,分析团体中的人员分工、组织结构,如公司领导者、管理人员、技术人员等。
通过上述分类所得用户角色不仅反映了用户本身的特点,还反映了用户之间的关联与相似性特征,现有用户角色分类方法包括:
一、基于复杂网络理论对通信网络中的用户进行社团划分,如谱方法、层次法、基于模块度的方法,该类方法主要关注网络拓扑结构,划分的结果能够很好的反映网络的拓扑结构,整体呈现出社团内关联紧密、社团间关联稀疏的特点,但在实际中,拥有相同角色的用户具有相似的结构或内容属性,却不一定彼此紧密相连。如果仅用网络拓扑结构对用户进行分类会无法将角色相同或相似,但还没有建立通信关系的用户划分到不同类别中;
二、基于用户的属性信息对用户进行分类,该类方法在进行分类没有区分不同的属性对用户分类的不同影响。对于通信网中的用户分类而言,不同的用户属性对用户分类的影响是截然不同的,如用户的年龄阶段、所处城市、工作地点、身高以及体重均为用户属性;用户的身高、体重无对该用户的通信关系没有直接联系;用户在不同年龄阶段跟其他人的通信情况有一些相关性;用户所处城市、工作地点与该用户的通信关系紧密相关。
发明内容
本发明所要解决的技术问题是,提供一种既考虑网络的拓扑结构也考虑不同用户属性的通信网用户分类方法。
本发明为解决上述技术问题所采用的技术方案是,提供一种结合网络结构与属性特征的通信网用户分类方法,包括以下步骤:
步骤1:将通信网中的用户作为通信节点,构建通信节点集合、所有通信节点之间联系的集合以及属性集合;通信节点集合中的元素为通信节点ID,所有通信节点之间联系的集合中的元素为有边的通信节点对,属性集合中的元素为属性ID;
根据所有通信节点之间联系的集合生成网络邻接矩阵A;网络邻接矩阵A的行和列均对应各通信节点ID,网络邻接矩阵A中元素为对应两个通信节点间是否有边的关系值;
根据通信节点集合、属性集合和已知的每个通信节点的各属性值生成属性矩阵F;属性矩阵F的行与列分别对应各通信节点ID和各属性ID,属性矩阵F中元素为对应通信节点在对应属性上的属性值;属性值不为0表示对应通信节点有对应属性;
步骤2:计算属性对节点结构特征的贡献度矩阵TC与属性对节点的语义特征的贡献度矩阵SC;再对TC和SC按预设权重相加后得到属性权重矩阵W;
TC的行与列分别对应通信节点ID和属性ID,TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时,与对应通信节点有边的通信节点的个数;
SC的行与列分别对应通信节点ID和属性ID,SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度;
步骤3:利用属性矩阵F对属性权重矩阵W进行调整得到采样概率矩阵
Figure 29151DEST_PATH_IMAGE001
;对网络邻 接矩阵A进行归一化处理得到
Figure 14425DEST_PATH_IMAGE002
;按照根据
Figure 261867DEST_PATH_IMAGE002
Figure 332591DEST_PATH_IMAGE001
确定的采样概率以各通信节点ID为采样 序列的起点,在通信节点集合和属性集合选择与采样序列中的上一跳元素有关系的通信节 点ID或属性ID作为采样元素放入采样序列,采样完成后得到以各通信节点ID为起点的采样 序列;
步骤4:将以通信节点ID为起点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。
进一步的,用户分类模型包括结构语义特征编码网络TSFE与全连接层,TSFE包括双向长短期记忆、自注意力机制、残差网络,堆叠前馈神经网络与不同信息聚合器。TSFE可以有效捕获输入序列的采样元素间的语义相似性, 有效结合属性与网络拓扑结构学习通信网络中各通信节点的特征表达。
本发明的有益效果是,有效结合网络结构与用户属性特征进行通信网用户分类,从而达到根据用户角色而非不同子网间的关联紧密度来进行用户类别划分的效果;过程简单易实现,对不同网络数据具有良好的泛化性,在网络结构稀疏或属性稀疏的情况下同样适用。
具体实施方式
实施例的实现过程如下:
步骤1:将通信网中的用户作为通信节点,已知各通信节点的属性以及通信节点之间的通信关系,构建通信关联网络G;G={V,E,F };
其中,V为通信节点集合{v 1,…,v |V|},|V|表示通信网中通信节点的数量,v i i=1,…,|V|)表示集合V中第i个通信节点的ID;
E为所有通信节点之间联系的集合,通信节点之间联系即为通信网中通信节点间的边;集合E由有边的通信节点对构成<v i ,v j >,(ij, j=1,…,|V|, i=1,…,|V|);网络邻接矩阵A根据集合E生成,A∈R|V|×|V|;网络邻接矩阵A的行与列均对应表示|V|个通信节点ID,矩阵A中元素为两个通信节点间的关系值,为0表示对应两个通信节点间没有边,为1表示对应两个通信节点间有边;R为实数域;
F为所有通信节点的属性集合{f 1,…,f |F|};|F|表示通信节点的属性种类的数量,f a a=1,…,|F|)表示集合F中第a个属性的ID;根据集合E和各通信节点的属性生成属性矩阵F,F∈R|V|×|F|;属性矩阵 F的行与列分别对应|V|个通信节点和|F|个属性,F中元素为对应通信节点在对应属性上的属性值。属性值可根据经验进行预设。
步骤2:计算属性对节点结构特征的贡献度矩阵TC(topological contribution)与属性对节点的语义特征的贡献度矩阵SC(semantical contribution);再对TC和SC按预设权重相加后得到属性权重矩阵W;
TC的行与列分别对应|V|个通信节点和|F|个属性,TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时,与对应通信节点有边的通信节点的个数;
SC的行与列分别对应|V|个通信节点和|F|个属性,SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度,实施例使用矩阵F中的属性值作为总贡献度。即SC中元素为矩阵F中对应位置的元素与TC中对应位置的元素的差值。
步骤3:利用属性矩阵 F对属性权重矩阵W进行调整得到采样概率矩阵
Figure 822216DEST_PATH_IMAGE001
;对网络 邻接矩阵A进行归一化处理得到
Figure 599679DEST_PATH_IMAGE002
;按照根据
Figure 18022DEST_PATH_IMAGE002
Figure 248146DEST_PATH_IMAGE001
确定的采样概率以各通信节点ID为采 样序列的起点,在集合V和集合F选择与采样序列中的上一跳元素有关系的通信节点ID或属 性ID作为采样元素放入采样序列。每个通信节点的采样序列中,与上一跳元素有关系的可 以是,在网络邻接矩阵A中与上一跳通信节点ID的关系值不为0的通信节点ID,或者在属性 矩阵 F中上一跳通信节点ID对应属性值不为0的属性ID,或者在属性矩阵 F中对应上一跳 属性ID的属性值不为0的通信节点ID。采用根据
Figure 544392DEST_PATH_IMAGE002
确定的采样概率来选择与采样序列中的 上一跳通信节点ID有关系的通信节点ID,采用根据
Figure 176361DEST_PATH_IMAGE001
确定的采样概率来选择与采样序列中 的上一跳通信节点ID有关系的属性ID以及与采样序列中的上一跳属性ID有关系的通信节 点ID。
对第i个通信节点进行采样的具体方法为:以采样偏差加权后的
Figure 765606DEST_PATH_IMAGE003
中涉及第i个通 信节点的元素值作为采样概率来选择与采样序列中的上一跳通信节点ID有关系的通信节 点ID中的一个作为采样元素;以采样偏差加权后的
Figure 748605DEST_PATH_IMAGE001
中涉及第i个通信节点的元素值作为 采样概率来选择与采样序列中的上一跳通信节点ID有关系的属性ID中的一个作为采样元 素,或者选择与采样序列中的上一跳属性ID有关系的通信节点ID中的一个作为采样元素。
最终得到以通信节点v i 为起点的采样序列S vi S vi ={x 1,…, x j ,…,x len×NUM },其中,x 1=v i x j 为采样序列S vi 中第j个元素值,除了从x 1开始每len个元素x 1+len×(num-1)=v i 外,x j 可以为通信节点ID或属性ID,j=2,…,len×NUMNUM 表示对单个节点进行的采样次数,num为对单个节点进行的第num次采样,len表示每次采样的长度。
步骤4:构造由双向长短期记忆、自注意力机制、残差网络,堆叠前馈神经网络与不同信息聚合器形成的结构语义特征编码网络(topological and semantical featureencoding,TSFE)。利用TSFE与全连接层形成用户分类模型。将作为训练数据的按照步骤1-3的方法得到的各通信节点的采样序列及标记好的用户类别标签输入至用户分类模型完成对模型的训练。
步骤5:将作为测试数据的按照步骤1-3的方法得到的待分类通信节点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。
一种可能的实现方式,步骤1中通信节点之间的通信关系是根据通信记录得到的。
每条通信记录中包含终端号码、终端类型、终端国家ISO编码、对端号码、对端类型、对端国家ISO编码、通信类型、通话时间等信息。
终端类型与对端类型包括:移动手机、固定电话、台式电脑、笔记本电脑等。
终端国家ISO编码与对端国家ISO编码包括:CN、AU、……、US、JN等。
通信类型包括:通话、短信、传真等。
终端号码与对端号码对应通信网中的用户,即通信节点。
所有通信节点的属性集合F包括各种属性子集合,比如,根据终端类型与对端类型生成属性子集合F 1F 1={通信节点类型为移动手机,通信节点类型为固定电话,通信节点类型为台式电脑,通信节点类型为笔记本电脑};根据终端国家ISO编码与对端国家ISO编码生成属性子集合F 2F 2= {通信节点ISO编码为CN,……,通信节点ISO编码为JN};根据通信记录中的通信类型生成属性子集合F 3F 3= {通信类型为通话,通信类型为短信,通信类型为传真};根据通信时间生成属性子集合F 4,有F 4={通信时间为每月1号,通信时间为每月2号,……,通信时间为每月31号,通信时间为每周周一,通信时间为每周周二,……,通信时间为每周周日,通信时间为每天0时-1时,通信时间为每天1时-2时,……,通信时间为每天11时-12时}。将子集合求并集,得到每个通信节点的属性集合F,有F= F 1UF 2U F 3 U F 4
属性矩阵 F中每个属性的取值的方法为:终端号码的属性从通信记录中的终端类型、终端国家ISO编码、通信类型、通话时间等信息中抽取;对端号码的属性从通信记录中的对端类型、对端国家ISO编码、通信类型、通话时间等信息中抽取;考虑到通信过程中,终端对端类型、终端对端国家ISO编码的不变性,属性集合F中,F 1F 2中的属性值取值范围为{0,1};考虑到通信过程中,通信类型与通信时间会变化,因此分别统计通信节点为终端号码与对端号码时的属性值,两者相加得到最终属性值,因此,出现在F 3F 4中的属性值取值范围为[0,|E|],其中|E|为通信网络中的边数量,即通信记录总条数。
一种可能的实现方式,步骤2的数据表达可以采用以下形式:
获取通信网络中有直接关联的节点,然后从属性矩阵F中抽取对应这两个节点的属性向量,通过属性向量相乘判断这两个节点之间的共有属性有哪些,进而获得不同属性对网络结构的贡献度矩阵TC∈R|V|×|F|中的各元素值 TC[i, a],矩阵TC中各元素初始值为0,TC[i, a]具体计算:
Figure 580033DEST_PATH_IMAGE004
Figure 66509DEST_PATH_IMAGE005
其中,TC[i, a](v i Vf aF)表示F中第a个属性f a对第i个通信节点v i 的网络拓扑的贡献度,cnt a(v i ,v j )用于统计属性矩阵F中节点v i v j 之间含有共同属性a且节点v i v j 之间有边的情况;A[i, j] ≠0表示矩阵A 中通信节点v i 与通信节点v j 对应元素不为0,则通信节点v i 与通信节点v j 间有边,F[i,a]与F[i,a] ≠0表示属性矩阵F中通信节点v i v j 有共同属性f a
属性语义贡献度矩阵SC∈R|V|×|F|为总贡献度减去结构贡献度,总贡献度maxTC为通信节点的在F中的属性值,SC的各元素值SC[i,a]计算方式如下:
SC[i,a] = maxTC–TC[i,a] + 1
SC[i,a](v i Vf aF)表示属性f a对通信节点v i 的网络拓扑的贡献度,总贡献度减去结构贡献度之后加1是为了避免maxTC–TC[i,a]为0的情况。
属性权重矩阵W∈R|V|×|F|
W=βTC + (1-β) SC
其中β为超参数,根据实际网络中结构贡献度与语义贡献度的分布情况设置。
一种可能的实现方式,步骤3中利用属性矩阵F对属性权重矩阵W进行调整得到采 样概率矩阵
Figure 154550DEST_PATH_IMAGE001
的具体方式是:
节点从属性采样时经过不同属性的采样概率矩阵为
Figure 985365DEST_PATH_IMAGE006
Figure 121949DEST_PATH_IMAGE007
其中,F∈R|V|×|F|表示节点的属性矩阵,W表示属性权重矩阵,
Figure 77311DEST_PATH_IMAGE008
表示哈达玛积(按 位相乘),Norm表示归一化。
根据归一化之后的网络邻接矩阵
Figure 273937DEST_PATH_IMAGE002
Figure 28267DEST_PATH_IMAGE001
确定的采样概率P(x i , x j )的具体方式是:
先确定采样偏差α∈(0.0,1.0),如α=1.0,采样方法为仅从节点进行随机游走的朴素采样,此时所获采样序列仅包含网络拓扑结构信息,当α=0.0,只根据节点间是否有共同属性进行采样,采样序列只包含节点间属性语义交互信息;本发明需要获取既包含网络拓扑结构也包含节点间属性语义交互信息的采样序列,优选α的取值范围为0.4-0.6;
对A和F进行采样时使用的采样概率P(x i , x j )为:
Figure 702962DEST_PATH_IMAGE009
其中,P(x i , x j )表示选择与采样序列中的上一跳采样元素x i 有关系的一个通信节点ID或属性ID作为当前的采样元素x j 的概率;
x i , x j V表示上一跳采样元素与的当前的采样元素均为通信节点ID的情况,otherwise则表示上一跳采样元素与的当前的采样元素有一个是属性ID的情况。采样序列S vi S vi ={x 1,…, x j-1 , x j , x j+1 ,…, x len×NUM },其中x 1x 1+len ,…,x 1+len×(num-1)均表示通信节点v i ,若x j 是属性ID,则x j-1x j+1代表通信节点ID,表示通信节点x j-1与通信节点x j+1有相同属性x j ,若x j x j-1均为通信节点ID,则表明通信节点x j 与通信节点x j-1之间有边。
一种可能的实现方式,步骤4中结构语义特征编码网络TSFE,包括结构学习模块以及对经结构学习模块得到的特征进行聚合的聚合器Aggregator1,语义学习模块以及对经结构学习模块得到的特征进行聚合的聚合器Aggregator2,其中TSFE各模块的具体实现如下:
步骤4.1:将采样序列S vi 作为TSFE的输入input到结构学习模块;
步骤4.2:构造基于长短期记忆网络与拓扑信息聚合的结构学习模块,以提取输入序列中的网络结构信息;
步骤4.2.1:S vi 通过一个全连接层FullConnection将采样元素x j 投影到低维向量中展开计算,如下所示:
Figure 540861DEST_PATH_IMAGE010
其中,W p ∈R|Fk ,b p ∈R k 分别表示利用全连接层进行投影的权重矩阵与偏置向量,k表示低维向量空间维度,F j ∈R|V|×|F|表示属性矩阵F的第j行,O j ∈R|F|×|F|表示属性独热矩阵的第j行(属性独热矩阵的对角线位置元素为1,其余为0),V表示节点集合,F表示属性集合。此处重用符号x j ∈R k 表示序列中第j个采样元素x j (可能是通信节点ID,也可能是属性ID)对应的向量表达,用S vi =[x1,…, x j ,…, x len×NUM ]表示序列向量表达;
步骤4.2.2:将上述序列向量表达输入至步长为len×NUM的双向长短期记忆网络 Bi-LSTM中,得到序列向量表达的正向输出为
Figure 970705DEST_PATH_IMAGE011
、反向输出
Figure 510533DEST_PATH_IMAGE012
步骤4.3基于平均池化的聚合器(Mean Pooling Aggregator,MPA),Aggregator1 将关于单个通信节点v i 的正向输出序列向量表达与反向输出序列向量聚合成一条序列表 达
Figure 51236DEST_PATH_IMAGE013
,具体如下:
Figure 819341DEST_PATH_IMAGE014
Figure 154507DEST_PATH_IMAGE015
MeanPooling表示平均池化操作;对于序列
Figure 821112DEST_PATH_IMAGE016
中的每个元素
Figure 899926DEST_PATH_IMAGE017
,其具体计算过程如 下:
Figure 650101DEST_PATH_IMAGE018
步骤4.4:将结构信息聚合后的序列表达
Figure 156169DEST_PATH_IMAGE019
输入至由自注意力 机制Self-Attention与前馈神经网络堆叠形成的语义学习模块中,得到序列的语义表达输 出
Figure 808605DEST_PATH_IMAGE020
,具体步骤如下:
步骤4.4.1:构造基于组注意力机制的用户个体语义信息提取模块,为防止语义特征提取过程中的梯度爆炸和信息问题,在上述基于自注意力机制模块训练过程中引入残差网络,如下:
Figure 628793DEST_PATH_IMAGE021
Figure 981277DEST_PATH_IMAGE022
其中,SelfAttention表示自注意力,softmax表示softmax函数,Norm表示归一化, 如常见的LayerNormdropout是一种防止模型过拟合的算法,H∈R d×k 表示语义学习模块的 中间输出,即自注意力的输出,前馈神经网络的输入,d、k表示隐藏层维度,
Figure 861508DEST_PATH_IMAGE023
表示隐藏维 度的开方。
步骤4.4.2:使用前馈神经网络对序列中的每个位置进行按位计算,提取序列中不同元素间的语义交互信息,为防止语义特征提取过程中的梯度爆炸和信息问题,在上述基于前馈神经网络的语义交互特征提取模块训练过程中引入残差网络,如下:
Figure 501042DEST_PATH_IMAGE024
Figure 547758DEST_PATH_IMAGE025
其中,Norm表示归一化,如常见的LayerNormdropout是一种防止模型过拟合的方 法,FeedForward表示前馈神经网络,W f1∈R df×k ,W f2∈R k×df 表示前馈神经网络层的权重矩 阵, b f1∈R df ,b f2∈R k 表示前馈神经网络层的偏置向量,df表示隐藏层的维度,
Figure 958011DEST_PATH_IMAGE026
表示语义 特征学习模块的输出,有:
Figure 743564DEST_PATH_IMAGE027
步骤4.5:由于目标是起始节点,因此,将除第一个节点外的其他用户节点信息输入到由最大池化与信息拼接组成的聚合器Aggregator2中进行二次信息聚合,从而得到目标用户节点包含结构信息与语义信息的特征向量表达v i 输出output至全连接层:
Figure 232576DEST_PATH_IMAGE028
其中,Concat表示向量拼接,Aggregator表示聚合器。
一种可能的实现方式,步骤5中用户分类具体步骤如下:
步骤5.1:采样序列S vi 输入到由TSFE构成的通信网用户分类模型中,得到目标通信节点的结构语义向量表达v i
步骤5.2:将最终向量表达v i 输入到由全连接层组成的浅层映射模型中,映射到已知的有限用户类别中,得到该用户节点属于不同用户类别的概率预测结果,选取概率最大的用户类别作为模型预测类别输出。
在使用反向传播算法对用户类模型的训练过程中,采用交叉熵损失函数L如下:
Figure 394567DEST_PATH_IMAGE029
其中,
Figure 721644DEST_PATH_IMAGE030
表示模型的预测结果,
Figure 442213DEST_PATH_IMAGE031
指模型预测目标节点的第i个用户类别是正例的 概率,y i ∈y,y表示实际用户类别的独热向量,y i 表示独热向量y中第i个元素。

Claims (6)

1.一种结合网络结构与属性特征的通信网用户分类方法,其特征在于,包括以下步骤:
步骤1:将通信网中的用户作为通信节点,构建通信节点集合、所有通信节点之间联系的集合以及属性集合;通信节点集合中的元素为通信节点ID,所有通信节点之间联系的集合中的元素为有边的通信节点对,属性集合中的元素为属性ID;
根据所有通信节点之间联系的集合生成网络邻接矩阵A;网络邻接矩阵A的行和列均对应各通信节点ID,网络邻接矩阵A中元素为对应两个通信节点间是否有边的关系值;
根据通信节点集合、属性集合和已知的每个通信节点的各属性值生成属性矩阵F;属性矩阵F的行与列分别对应各通信节点ID和各属性ID,属性矩阵F中元素为对应通信节点在对应属性上的属性值;属性值不为0表示对应通信节点有对应属性;
步骤2:计算属性对节点结构特征的贡献度矩阵TC与属性对节点的语义特征的贡献度矩阵SC;再对TC和SC按预设权重相加后得到属性权重矩阵W;
TC的行与列分别对应通信节点ID和属性ID,TC中元素为对应通信节点和与其有边的通信节点将对应属性作为共同属性时,与对应通信节点有边的通信节点的个数;
SC的行与列分别对应通信节点ID和属性ID,SC中元素为对应通信节点在对应属性上的总贡献度减去属性对节点结构特征的贡献度;
步骤3:利用属性矩阵F对属性权重矩阵W进行调整得到采样概率矩阵
Figure 998538DEST_PATH_IMAGE001
;对网络邻接矩 阵A进行归一化处理得到
Figure 760958DEST_PATH_IMAGE002
;按照根据
Figure 880224DEST_PATH_IMAGE002
Figure 335476DEST_PATH_IMAGE001
确定的采样概率以各通信节点ID为采样序列 的起点,在通信节点集合和属性集合选择与采样序列中的上一跳元素有关系的通信节点ID 或属性ID作为采样元素放入采样序列,采样完成后得到以各通信节点ID为起点的采样序 列;
步骤4:将以通信节点ID为起点的采样序列输入至训练好的用户分类模型中得到该通信节点对应的用户分类结果。
2.如权利要求1所述方法,其特征在于,步骤3中所述与上一跳元素有关系的通信节点ID或属性ID包括:在网络邻接矩阵A中与上一跳通信节点ID的有边的通信节点ID;在属性矩阵 F中上一跳通信节点ID对应属性值不为0的属性ID;在属性矩阵 F中对应上一跳属性ID的属性值不为0的通信节点ID。
3.如权利要求1所述方法,其特征在于,步骤2中采用属性矩阵F中对应通信节点ID和属性ID的属性值作为总贡献度。
4.如权利要求1所述方法,其特征在于,步骤2中采样概率矩阵
Figure 172982DEST_PATH_IMAGE003
Figure 676775DEST_PATH_IMAGE004
表 示哈达玛积(按位相乘),Norm表示归一化。
5.如权利要求1或4所述方法,其特征在于,步骤2中采样概率:
Figure 712865DEST_PATH_IMAGE005
其中,P(x i , x j )表示选择与采样序列中的上一跳采样元素x i 有关系的一个通信节点ID或属性ID作为当前的采样元素x j 的概率;α表示采样偏差,α取值范围为(0.0,1.0);V表示通信节点集合,x i , x j V表示上一跳采样元素与的当前的采样元素均为通信节点ID的情况;otherwise则表示上一跳采样元素与的当前的采样元素有一个是属性ID的情况。
6.如权利要求1所述方法,其特征在于,所述用户分类模型包括结构语义特征编码网络TSFE与全连接层;
TSFE包括结构学习模块、聚合器Aggregator1、语义学习模块与聚合器Aggregator2;
结构学习模块用于接收以通信节点ID为起点的采样序列并提取出正向输出的序列向量表达以及反向输出的序列向量表达;
聚合器Aggregator1用于将正向输出的序列向量表达以及反向输出的序列向量表达合成一条序列表达输出至语义学习模块;
语义学习模块用于提取接收的序列表达中不同元素间的语义交互信息得到序列的语义表达;
聚合器Aggregator2;将序列的语义表达中第一个元素与最大池化后的除第一个元素外的其他元素进行信息拼接得到结构信息与语义信息的特征向量表达;
全连接层用于将结构信息与语义信息的特征向量表达映射到各用户类别中,得到该通信节点属于不同用户类别的概率预测结果。
CN202110427384.5A 2021-04-21 2021-04-21 一种结合网络结构与属性特征的通信网用户分类方法 Active CN112906831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427384.5A CN112906831B (zh) 2021-04-21 2021-04-21 一种结合网络结构与属性特征的通信网用户分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427384.5A CN112906831B (zh) 2021-04-21 2021-04-21 一种结合网络结构与属性特征的通信网用户分类方法

Publications (2)

Publication Number Publication Date
CN112906831A true CN112906831A (zh) 2021-06-04
CN112906831B CN112906831B (zh) 2023-06-06

Family

ID=76110538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427384.5A Active CN112906831B (zh) 2021-04-21 2021-04-21 一种结合网络结构与属性特征的通信网用户分类方法

Country Status (1)

Country Link
CN (1) CN112906831B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841296A (zh) * 2022-07-04 2022-08-02 北京六方云信息技术有限公司 设备聚类方法、终端设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492200A (zh) * 2018-02-07 2018-09-04 中国科学院信息工程研究所 一种基于卷积神经网络的用户属性推断方法和装置
US20190378050A1 (en) * 2018-06-12 2019-12-12 Bank Of America Corporation Machine learning system to identify and optimize features based on historical data, known patterns, or emerging patterns
CN110622180A (zh) * 2016-12-22 2019-12-27 奥恩全球运营有限公司,新加坡分公司 用于历史电子通信交换的数据挖掘以标识交易结果的关系、模式和相关性的系统和方法
CN111695046A (zh) * 2020-04-23 2020-09-22 清华大学 基于时空移动数据表征学习的用户画像推断方法及装置
CN112256870A (zh) * 2020-10-15 2021-01-22 大连理工大学 基于自适应随机游走的属性网络表示学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110622180A (zh) * 2016-12-22 2019-12-27 奥恩全球运营有限公司,新加坡分公司 用于历史电子通信交换的数据挖掘以标识交易结果的关系、模式和相关性的系统和方法
CN108492200A (zh) * 2018-02-07 2018-09-04 中国科学院信息工程研究所 一种基于卷积神经网络的用户属性推断方法和装置
US20190378050A1 (en) * 2018-06-12 2019-12-12 Bank Of America Corporation Machine learning system to identify and optimize features based on historical data, known patterns, or emerging patterns
CN111695046A (zh) * 2020-04-23 2020-09-22 清华大学 基于时空移动数据表征学习的用户画像推断方法及装置
CN112256870A (zh) * 2020-10-15 2021-01-22 大连理工大学 基于自适应随机游走的属性网络表示学习方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CHEN CAI等: "A simple yet effective baseline for non-attributed graph classification", 《ARXIV:1811.03508V2》 *
CHEN CAI等: "A simple yet effective baseline for non-attributed graph classification", 《ARXIV:1811.03508V2》, 3 May 2019 (2019-05-03), pages 1 - 13 *
JINGSUN等: "Analysis of connection behaviour of communication network flow based on semantic understanding", 《MICROPROCESSORS AND MICROSYSTEMS》 *
JINGSUN等: "Analysis of connection behaviour of communication network flow based on semantic understanding", 《MICROPROCESSORS AND MICROSYSTEMS》, vol. 80, 2 December 2020 (2020-12-02), pages 1 - 6, XP086452514, DOI: 10.1016/j.micpro.2020.103578 *
周乐等: "基于节点-属性二部图的网络表示学习模型", 《计算机应用》 *
周乐等: "基于节点-属性二部图的网络表示学习模型", 《计算机应用》, vol. 42, no. 08, 18 September 2021 (2021-09-18), pages 2311 - 2318 *
林建枫: "基于社交网络的嵌入学习技术及推荐算法研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》 *
林建枫: "基于社交网络的嵌入学习技术及推荐算法研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》, 15 September 2019 (2019-09-15), pages 138 - 1383 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841296A (zh) * 2022-07-04 2022-08-02 北京六方云信息技术有限公司 设备聚类方法、终端设备以及存储介质

Also Published As

Publication number Publication date
CN112906831B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN107767262B (zh) 信息处理方法、装置和计算机可读存储介质
CN110727864B (zh) 一种基于手机App安装列表的用户画像方法
CN110796313A (zh) 一种基于带权图卷积和项目吸引力模型的会话推荐方法
CN115062732A (zh) 基于大数据用户标签信息的资源共享合作推荐方法及系统
CN112464058A (zh) 一种基于XGBoost算法的电信互联网诈骗识别方法
Hu et al. BTG: A Bridge to Graph machine learning in telecommunications fraud detection
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN115994226A (zh) 基于联邦学习的聚类模型训练系统及方法
CN112258250A (zh) 基于网络热点的目标用户识别方法、装置和计算机设备
CN112906831A (zh) 一种结合网络结构与属性特征的通信网用户分类方法
CN111062422B (zh) 一种套路贷体系化识别方法及装置
CN113779245A (zh) 一种评论情感原因三元组抽取方法
CN111402028A (zh) 一种信息处理方法、装置及设备
CN110704612B (zh) 一种社交群体发现方法、装置和存储介质
CN116910341A (zh) 标签预测方法、装置及电子设备
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN114390550A (zh) 一种网络类型识别的方法、相关装置、设备及存储介质
Hikmaturokhman et al. Deep Learning Algorithm Models for Spam Identification on Cellular Short Message Service.
CN112800048B (zh) 一种基于图表示学习的通信网用户通信记录补全方法
Apostu Using machine learning algorithms to detect frauds in telephone networks
Shen et al. Learning Personalized Representations using Graph Convolutional Network
Phithakkitnukoon et al. Inferring social groups using call logs
Hao et al. Telecom Big Data based Precision Marketing Algorithms for Financial Industry
Amosa et al. A Comparative Analysis of The Performance of Homogenous Ensembles on Customer Churn Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant