CN112507185B - 用户肖像的确定方法和装置 - Google Patents
用户肖像的确定方法和装置 Download PDFInfo
- Publication number
- CN112507185B CN112507185B CN202011136026.0A CN202011136026A CN112507185B CN 112507185 B CN112507185 B CN 112507185B CN 202011136026 A CN202011136026 A CN 202011136026A CN 112507185 B CN112507185 B CN 112507185B
- Authority
- CN
- China
- Prior art keywords
- user
- graph
- nodes
- keyword
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本申请实施例提供了一种用户肖像的确定方法和装置,其中,该方法包括:获取用户社交媒介上的用户数据;根据用户数据,构建预设的异构图;其中,预设的异构图中至少包括用户节点和关键词节点;调用预设的处理模型,根据预设的异构图确定出用户肖像;其中,预设的处理模型至少包括改进的图卷积网络和多质心图形池。基于上述方法,通过先构建出至少包括用户节点和关键词节点的预设的异构图,再调用相应的包含有改进的图卷积网络和多质心图形池的预设的处理模型对上述预设的异构图进行处理,从而可以对社交媒介上的用户、与用户相关的文本,以及用户的社群等特征等进行挖掘,精细、准确地确定出用户的受教育程度、职业等肖像属性。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种用户肖像的确定方法和装置。
背景技术
现有的用户肖像的确定方法大多是利用时间方向的分类器对用户的历史数据进行分析处理,再根据处理结果对用户进行分类。具体实施时,往往存在所确定的用户肖像不精确、误差大的技术问题。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种用户肖像的确定方法和装置,以解决现有方法中存在的确定用户肖像不精确、误差大的技术问题,达到能够精细、准确地确定出例如用户的受教育程度、职业等肖像属性的技术效果。
本申请实施例提供了一种用户肖像的确定方法,包括:
获取用户社交媒介上的关联数据,作为用户数据;
根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点;
调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池。
在一个实施例中,所述用户数据包括:用户在社交媒介上使用的用户信息、用户在社交媒介上与其他用户之间的交互关系、用户在社交媒介上发布或评论的内容文本。
在一个实施例中,根据所述用户数据,构建预设的异构图,包括:根据所述用户数据,构建用户图、关键词图和二分图,作为所述预设的异构图;其中,所述用户图包括用户节点以及用户节点之间的连接边,所述关键词图包括关键词节点以及关键词节点之间的连接边,所述二分图包括用户节点与关键词节点之间的连接边。
在一个实施例中,所述用户节点之间的连接边的权重根据相连接的两个用户节点所对应的用户之间的交互关系确定,其中,所述交互关系包括以下至少之一:关注、转发、评论、好友。
在一个实施例中,所述关键词节点之间的连接边的权重根据相连接的两个关键词节点所对应的关键词出现在同一内容文本中的次数确定。
在一个实施例中,所述用户节点与关键词节点之间的连接边的权重根据用户节点所对应的用户在内容文本中使用所述关键词节点所对应的关键词的次数确定。
在一个实施例中,所述改进的图卷积网络包括以下算式:
其中,X(l+1)为第l+1层的用户节点的表征,Y(l+1)为第l+1层的关键词节点的表征,X(l)为第l层的用户节点的表征,Y(l)为第l层的关键词节点的表征,σ(·)表示激活函数,λ1为第一超参数,λ2为第二超参数,为A、B、C、D的规范化,A为两个用户节点之间的连接边的权重矩阵,B为两个关键词节点之间的连接边的权重矩阵,C为关键词节点到用户节点之间的连接边的权重矩阵,D为用户节点到关键词节点之间的连接边的权重矩阵,W(l)为可更新参数。
在一个实施例中,所述多质心图形池用于对预设的异构图进行聚类操作,以提取社群特征;其中,所述社群特征用于参与用户肖像的确定。
在一个实施例中,所述多质心图形池包括以下算式:
其中,下标k表示所对应节点所在的集群编号,下标0表示对应节点为非池层中的选定节点,[·||·]表示concat操作。
本申请实施例还提供了一种用户肖像的确定装置,包括:
获取模块,用于获取用户社交媒介上的关联数据,作为用户数据;
构建模块,用于根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点;
确定模块,用于调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池。
在本申请实施例中,通过先构建至少包括用户节点和关键词节点的预设的异构图,再调用相应的包含有改进的图卷积网络和多质心图形池的预设的处理模型对上述预设的异构图进行处理,从而可以对社交媒介上的用户、与用户相关的文本,以及用户的社群等特征等进行挖掘和利用,以精细、准确地确定出用户的受教育程度、职业等肖像属性,解决现有方法中存在的确定用户肖像不精确、误差大的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的用户肖像的确定方法的处理流程图;
图2是根据本申请实施例提供的用户肖像的确定方法的一个实施例示意图;
图3是根据本申请实施例提供的用户肖像的确定方法的一个实施例示意图;
图4是根据本申请实施例提供的用户肖像的确定方法的一个实施例示意图;
图5是根据本申请实施例提供的用户肖像的确定装置的组成结构图;
图6是根据本申请实施例提供的服务器的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
考虑到现有的用户肖像的确定方法大多是利用时间方向的分类器对用户的历史数据进行分析处理,再根据处理结果对用户进行分类,得到分类结果。
申请人通过创造性的思考注意到现有方法往往缺乏对用户,用户关系和文本内容的深入的挖掘及利用,忽略了在社交媒介上用户之间的社群特征,从而导致存在确定用户肖像不精确、误差大的技术问题。
针对产生上述技术问题的根本原因,本申请考虑可以充分地利用所获取的用户在社交媒介上的用户数据,构建同时包括用户节点和关键词节点的预设的异构图;再通过包含有针对上述异构图的改进的图卷积网络和多质心图形池的预设的处理模型,对上述预设的异构图进行处理,以提取得到相近、全面的用户特征、文本内容特征,以及基于用户之间关系的社群特征,进而可以根据上述特征,精细、准确地确定出用户的受教育程度、职业等肖像属性,解决现有方法中存在的确定用户肖像不精确、误差大的技术问题。
基于上述思考思路,本申请实施例提供了一种用户肖像的确定方法。具体请参阅图1所示。本申请实施例提供的用户肖像的确定方法,具体实施时,可以包括以下步骤。
S101:获取用户社交媒介上的关联数据,作为用户数据。
S102:根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点。
S103:调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池。
在一个实施例中,上述社交媒介具体可以理解为一种用户用于与其他人进行交互的网络应用媒介。例如,微信、微博、QQ或者facebook等。用户可以通过上述社交媒介进行向其他用户发送文本信息,或者对外发布文本内容,或者评论、转发其他用户所发布的文本内容等操作。
当然,上述所列举的社交媒介只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,上述社交媒介还可以包括除上述所列举的网络应用媒介外,还可以包括其他类型的网络应用媒介。对此,本说明书不作限定。
在一个实施例中,所述用户数据具体可以包括:用户在社交媒介上使用的用户信息、用户在社交媒介上与其他用户之间的交互关系、用户在社交媒介上发布或评论的内容文本。
具体的,上述户在社交媒介上使用的用户信息可以包括用户在社交媒介上使用的昵称、用户名、账户号,以及用户在该社交媒介中所填写的相关信息。例如,用户填写的个性签名、籍贯信息、兴趣爱好等等。
上述用户在社交媒介上与其他用户之间的交互关系可以包括对其他用户加关注、添加其他用户为好友、转发其他用户发布的内容文本、评论其他用户发布的内容文本等等。当然,上述所列举的交互关系只是一种示意性说明。具体实施,根据具体社交媒介和应用场景,上述交互关系还可以包括其他类型的交互关系。例如,关注其他用户、向其他用户发送文本信息等等。对此,本说明书不作限定。
上述用户在社交媒介上发布或评论的内容文本可以包括:用户在社交媒介上对外发布的帖子、文章,用户在社交媒介针对其他用户所发布的内容文本进行评论的语句等等。对此,本说明书不作限定。
在一个实施例中,具体实施时,可以通过服务器采集用户在社交媒介上使用的用户信息、与其他用户之间的交互关系、发布或评论的内容文本等数据,作为与用户对应的社交媒介上的关联数据。进而可以将上述关联数据,确定为用户数据。
在一个实施例中,考虑到社交媒介上用户、用户与其他用户之间的关系,以及与用户相关的内容文本都会反映出用户的肖像属性特征,因此,为了能够更加全面、精细地确定用户肖像,可以根据上述用户数据,构建一种能够至少包含有用户节点(对应用户)、关键词节点(对应内容)等多种类型节点的预设的异构图,进而可以基于上述预设的异构图来刻画用户肖像。
在一个实施例中,上述根据所述用户数据,构建预设的异构图,具体实施实施,可以包括以下内容:根据所述用户数据,构建用户图(可以记为user graph)、关键词图(可以记为keyword graph)和二分图(可以记为bipartite graph),作为所述预设的异构图;其中,所述用户图包括用户节点以及用户节点之间的连接边,所述关键词图包括关键词节点以及关键词节点之间的连接边,所述二分图包括用户节点与关键词节点之间的连接边。
在一个实施例中,上述预设的异构图具体可以包括三种类型的子图,即:用户图(user graph)、关键词图(keyword graph)和二分图(bipartite graph)。
在一个实施例中,基于上述方式构建的预设的异构图中除了至少包含有用户节点和关键词节点这两种类型的节点外,还包含有用户节点之间的连接边、关键词节点之间的连接边和用户节点与关键词节点之间的连接边这三种类型的边。
在一个实施例中,在上述用户图中,每个用于节点与一个用户对应。具体的,例如,如果一个用户关注了另一个用户,则它们所对应的用户节点之间就会有一条连接边。
在一个实施例中,上述用户图具体可以是一种对称无向图,而不是构造有向图。这样得到的用户图具有更好的性能。
在一个实施例中,所述用户节点之间的连接边的权重具体实施时,可以根据相连接的两个用户节点所对应的用户之间的交互关系确定,其中,所述交互关系包括以下至少之一:关注、转发、评论、好友。具体的,例如,如果两个用户互相关注,则边的权重设为2。
在一个实施例中,所述关键词节点之间的连接边的权重具体可以根据相连接的两个关键词节点所对应的关键词出现在同一内容文本中的次数确定。
在一个实施例中,具体的,可以上述关键词图引入了一种新的节点,即关键词节点。其中,关键词节点对应一个关键词。具体实施时,可以从用户的历史文本内容中提取出来相应的关键词。
具体实施时,可以使用中文分词框架jieba对例如历史微博等文本内容进行分词操作,并找出最常出现的前10000个单词。进而可以将这些单词设置为对应的关键词节点。在关键词图中,边的权重被可以定义为这两个关键词在一条tweet(一种文本内容)中同时出现的次数。
在一个实施例中,所述用户节点与关键词节点之间的连接边的权重具体实施时,可以根据用户节点所对应的用户在内容文本中使用所述关键词节点所对应的关键词的次数确定。
在一个实施例中,上述预设的处理模型具体可以是预先训练、确定好的用于根据预设的异构图来预测用户的例如受教育程度、职业等肖像属性的模型。具体可以参阅图2所述。
在一个实施例中,上述预设的处理模型至少包括针对预设的异构图的改进的图卷积网络(例如,异构的图卷积网络,Heterogeneous Graph Convolution Networks,HGCN)和多质心图形池(例如,异构的多质心图形池,Heterogeneous Multi-Centroid GraphPooling)。通过上述改进的图卷积网络可以对预设的异构图进行嵌入等处理,以提取相应的特征;通过上述多质心图形池可以进行聚类处理,以进一步提取出社群特征,进而上述预设的处理模型可以根据上述特征确定出用户属于各种肖像属性的概率值,进而可以根据上述概率值预测出该用户的受教育程度、职业等肖像属性,以刻画出该用户肖像(或者称建立针对该用户的用户模型)。
在一个实施例中,所述改进的图卷积网络具体可以包括以下算式:
其中,X(l+1)为第l+1层的用户节点的表征(或称用户节点的表示),Y(l+1)为第l+1层的关键词节点的表征(或称关键词节点的表示),X(l)为第l层的用户节点的表征,Y(l)为第l层的关键词节点的表征,σ(·)表示激活函数,λ1为第一超参数,λ2为第二超参数,为A、B、C、D的规范化,A为两个用户节点之间的连接边的权重矩阵,B为两个关键词节点之间的连接边的权重矩阵,C为关键词节点到用户节点之间的连接边的权重矩阵,D为用户节点到关键词节点之间的连接边的权重矩阵,W(l)为系数矩阵。
在一个实施例中,为了构建上述算式,具体实施时,可以先将图卷积网络确定为研究图结构数据集中消息传递和特征聚合的有效方式。进而,可以确定出图卷积网络的分层传播规律满足以下函数式:
为了能够更新节点的表征,即矩阵H,在神经网络中,可以使用H(l)和激活函数σ(·),将上述函数式转化为以下形式:
在一个实施例中,进一步可以将上述函数与预设的异构图相结合,得到一种针对预设的异构图的图卷积网络来聚合同时发生在用户图和关键词图中的特征。
具体的,可以先基于一种已有的模型,只考虑用户层和内容层信息,个性化的PageRank层(PageRank layer)可以表示为:
其中,A,B是任意两个用户或关键字之间的边的权重矩阵,C,D分别是从关键字到用户和用户到关键字的边的权重矩阵,是A、B、C和D的规范化。和是个性化矩阵,包含有来自目标节点的消息,这些消息也被规范化。X(l)、Y(l)是第l层的节点表征。α1,α2,β1,β2,γ1,γ2为加权超参数。
由于用户和关键词之间的连接边在预设的异构图中是对称的,所以C等于D的转置。
为了使用户节点和关键词节点的表征可以携带相同的信息,可以在所有层中设置有W1=W2。为便于计算,可以转换为以下形式:
这样,可以通过一个增强的矩阵规一化,在非均匀图上操作GCN。
又由于Wl是一种可更新的参数,因此可以对上述算式进行转换,得到在本实施例中所使用的改进的图卷积网络所基于的算式,即:
其中,λ1和λ2是超参数,具体可以用于控制来自用户图和关键字图的信息权重。
在一个实施例中,所述多质心图形池具体可以用于对预设的异构图进行聚类操作,以提取社群特征;其中,所述社群特征用于参与用户肖像的确定。
在一个实施例中,考虑到,在大多数图结构网络中,用户会自发地形成几个集群(或称社群)。同时,人们在社交媒介中使用的词汇来自不同的话题,但来自同一个集群的用户和单词可能比来自不同集群的用户和单词共享更多的信息。例如,在同一个群体中,人们倾向于使用同一个词,同时,在社交网络中共享同一主题(或者称话题)的人也更容易相互认识。
因此,为了在功能聚合过程中捕捉到这些社群特征,提出了引入多质心图形池在异构图上进行聚类操作。
在一个实施例中,所述多质心图形池具体可以包括以下算式:
其中,下标k表示所对应节点所在的集群编号,下标0表示对应节点为非池层中的选定节点,[·||·]表示concat操作。
在一个实施例中,具体构建多质心图形池时,可以参阅图3所示,基于gPool和gUnpool操作的多质心图形池机制,并将其扩展到异构图上。最终输出分类结果。
在一个实施例中,池具体可以是一种子抽样方法,使模型集中于所需要的东西。图形池通常包括:gPool层和gUnpool层。
在gPool层,可以从原始图中选择一个子图,并希望所选的节点能够尽可能多地代表原始节点。因此,需要一个选择向量p来表示图,并计算图中所有节点的投影,即:其中,xi是节点的表征。p为模型训练过程中随机初始化。
在gPool操作之后,有一个GCN层应用于所选子图。进而可以将得到子图中每个节点使用新的表征。gUnpool操作将这些新的表征释放回原始图形。
在gUnpool层中,可以将所选节点的新的表征与以前的节点的表示矩阵相连接。在这种操作之后,表示向量的长度会发生变化,因此必须对那些未选择的节点进行适度的表征,一种简单而合理的方法可以是用零填充它们。
基于已有的图U-net由几个gPool层和gUnpool层组成。在原始实验环境下,子图中选定的重要节点得到了放大表示。在实验中,申请人发现未选择的节点往往具有相同的标签,换句话说,gPool和gUnpool的重要性抽样在标签方面是不平衡的。因此,从这个角度出发,希望使用这种方法对节点进行聚类。
由于选择的节点是不平衡的,为了使得每个子图可以表示数据集。因此,需要几个不同的子图。假设有m子图,每个子图都分配一个中心向量pi,i=1,2……m。其中,pi是随机初始化的。对于第n个子图,可以计算:其中,pn是第n个池中心的中心向量,而xi是第i个节点υi的节点表示。
由于gUnpool的操作方式与g-U-net类似。在同一层生成的所有表示都分配在同一个位置。例如,可以参阅图4所示,有两个子图要提取,即m=2。可以设k1=4,k2=3。在第一个子图中,选择并提取右侧的四个节点。在第二个子图中,提取中间的三个节点。
在gPool操作后,子图中提取的节点通过GCN层表示。它们的输入可以是GCN输出在原始图上的节点的表示,并输出一个长度相同的向量。在gUnpool步骤中,新的输出表示形式被附加到原始向量的后面,使得表示的长度是之前的两倍。唯一未选定节点的表示将用零填充。
在一个实施例中,还可以预设的处理模型中的多质心图形池进行优化。具体的,由于任务是一个只在用户节点上标注的半监督的节点分类问题,因此可以在用户层和关键词层上分别考虑池和GCN。
在gPool操作中,可以分别从用户层和关键词层中提取节点。当从用户层中提取节点时,关键词层中的所有节点都是保留。之后提取这些节点,子图上的GCN更新提取的用户节点和所有关键词节点。在gUnpool操作期间,只有用户节点被连接回。
此外,还提取了关键词节点。在该子图中,关键词节点的表示被更新并附加到原始的表示向量。
在多质心图形池层中,节点表示在各自的提取中更新。也就是说,当对用户图进行池操作时,只更新用户节点的表示,关键词节点的表示只是为了传递消息。当在关键词图上使用池操作时,用户节点用于消息传递和参数更新,这是因为基本真实性是在用户层别上标记的。
此外,由于真实性只在用户向量上标注,因此还可以相应地引入减少GCN层参数数量的技巧。例如,在提取用户节点的子图中,关键词节点的表示不需要在最后一层更新。在提取关键词节点的子图中,只需更新具有真实标签的节点即可完成反向传播。
综上,在多质心图形池层中,上述用于更新的算式可以表示为以下形式:
其中,k表示节点属于第k个集群,X0,Y0对应于未在池层中选择的节点,[·||·]是concat(例如,合并数组)操作。节点表示的更新过程可以参阅图4所示。
在一个实施例中,上述预设的处理模型还可以包括用于分类预测的框架(例如,Attribute Prediction)用于确定出用户具体的肖像属性。
在一个实施例中,上述框架具体可以以三个子图的相邻矩阵作为输入,输出用户节点的分类标签。在每一层中,都包括一个基于多质心图形池的pooling操作和Unpooling操作。其中,池化子图可以用GCN表示。
在对所有这些子图都进行Unpooling操作后,存在一个输出节点表示的最终GCN层。进而可以使用多任务分类器,通过logistic回归和交叉熵损失(cross-entropy loss)来完成职业和/或受教育程度的分类,以确定出用户肖像。具体的,可以按照以下算式进行分类。
式中,sj,tj分别是职业和受教育程度的分类器的输出。
此外,在损失函数中还可以加入了一个关于簇的损失函数,使得同一簇中的节点表示保持在附近。其中,损失函数具体可以定义为:
式中,wi,Ei分别是受教育程度和职业标签的真实值,p(wk)、p(ek)是相应标签的预测概率,xi是节点的表示,n是集群中的节点数,p是相应的池中心向量。
在一个实施例中,上述确定出用户肖像,具体实施时,可以包括以下内容:确定出用户的受教育程度,和/或,用户的职业等肖像属性。当然,需要说明的是,上述所列举的肖像属性只是一种示意性说明。具体实施时,根据具体情况和处理需求,还可以引入其他合适的肖像属性,例如,用户的收入、用户的兴趣等等。对此,本说明书不作限定。
在一个实施例中,上述受教育程度具体可以包括以下至少之一:中专、大专、本科、硕士、博士等。上述职业具体可以包括以下至少之一:咨询、艺术、管理、科学和文化等。
在一个实施例中,在确定出用户肖像后,所述方法具体实施时,还可以包括以下内容:根据用户的肖像属性,为用户推送匹配的业务服务。例如,可以根据用户的受教育程度,和用户的职业向用户推送用户可能感兴趣的商品广告,从而可以提高商品的成单率。
在本申请实施例中,相较于现有方法,通过先构建至少包括用户节点和关键词节点的预设的异构图,再调用相应的包含有改进的图卷积网络和多质心图形池的预设的处理模型对上述预设的异构图进行处理,从而可以对社交媒介上的用户、与用户相关的文本,以及用户的社群等特征等进行挖掘,精细、准确地确定出用户的受教育程度、职业等肖像属性,解决现有方法中存在的确定用户肖像不精确、误差大的技术问题。
在一个具体的场景示例中,可以按照以下方式对本申请实施例提供的用户肖像的确定方法进行测试。
在本场景示例中,可以使用两种类型的数据集,一种是从新浪微博中提取的异构图,以及其他几种异构数据集(例如,DBLP和IMDB数据集等)。并将该模型(即预设的处理模型)与一些现有模型进行比较。为了与其他节点分类方法进行比较,可以对常用的异构图(包括DBLP和IMDB数据集)进行了实验。
在本场景示例中,可以在新浪微博上搜索了超过10万名用户,包括他们的用户信息、历史微博和关注关系。该数据集于2018年10月被抓取,而这些用户的推文最早在2009年就开始了。经过一些预处理,删除了一些信息不完整或tweet太少的人。最后,所使用的数据集中有35830个用户。
根据用户自己提交的信息,将其分为不同的标签。主要从教育水平和职业两个方面进行研究类别。用于教育程度分类,可以使用用户最终教育大学的平均录取分数。请注意,在预处理步骤中,所有仍在数据集中的用户都已访问了他们的本科学校信息。可以手工将录取分数分成五类,形成五个不同的教育水平。对于职业分类,可以使用了用户引用的公司和工作岗位信息。具体可以使用预先训练过的中文词向量工具箱生成用户职业表征的向量表示。然后使用k-均值聚类将用户分为五个不同的标签。通过对集群中心的观察,将这五个集群命名为咨询、艺术、管理、科学和文化,并根据用户在这些集群中的职业划分。
具体实施时,对于异构图节点分类,可以使用一个2层多质心图形池框架,其中第一层用户节点包含6个汇聚中心,比例分别为[0.4,0.25,0.15,0.1,0.05,0.05]。在这一步中,可以将第一层比例的调整范围设置为0.05,池中心数量从3*3到8*8不等。验证结果:第二层每个包含8个池层,同一个集群中的每个二级集群的大小相同。两层关键字节点分别包含4个和5个汇聚中心,每个集群大小相同。初始GCN的输入输出维数为32,因此最终输出维数为32×3=96。在第一个多质心图形池层中,在池的开始和结束使用一个两层GCN框架,而在其他层中,每层池只有一层GCN。在模型中使用ReLU作为激活函数,在GCN的最后一层使用Sigmoid。还使用Adam的优化器对模型进行训练,学习率为0.01,递减系数为0.9,每104次迭代,丢弃率(dropout rate)设为0.1。
对于DBLP和IMDB数据集,使用了一个2层多质心图形池框架,其中池形心的结构从3*3到7*7不等。在验证集上的实验表明,3*5和5*5的结构性能最好。所有这些集群都具有相同数量的节点。初始GCN的输入和输出维在DBLP中为16,在IMDB中为32。学习率分别为0.01和0.05。其他超参数与异构图相同。
具体实施时,一些技巧可以减少GCN层中的参数数量。在提取用户节点的子图中,关键字节点的表示不需要在最后一层更新。在提取关键字节点的子图中,只需更新具有真实标签的节点即可完成反向传播。
在模型比较中,使用了一个输入和输出维为32的两层GCN模型。在职业分类中,采用相同的方法,将用户节点的初始权重设置为其对应的节点表示向量。在HGCN+g-U-net模型中。
通过上述测试比较,可以确定该模型在IMDB、DBLP和Weibo上取得了较好的性能数据集在微博数据集上的表现使GCN和HAN等现有的模型分别提高了3.6%和4.5%。HGCN与GCN、HGCN+多池与GCN+多池的比较结果表明了异构GCN的有效性。
不同池方法的结果因数据集而异。在微博数据集中,多中心合用表现明显更好。这说明群体活动在社交网络中的作用更强,而在某些引文网络中,重要性抽样的作用更大。
此外,还基于该模型做了一个实验来确定异构图中这三个部分在节点中的工作有多重要分类。输入的是用户图、关键字图和二分图。采用多池框架删除了HGCN中相同设置的微博数据集中的部分图形。实验结果表明,用户图在用户属性分类中的作用最大,贡献上关键词图最小。
由于在数据集中只有用户节点被标记,单独的关键字图对节点分类没有帮助。结果表明,用户图对用户建模有着较大的影响。与单纯的用户图相比,删除模型的用户图在职业分类方面表现稍差,但在教育分类方面表现得特别差。这可能说明用户关系在微博中包含了更多的职业信息。
通过上述场景示例中的测试和比较,验证了基于本申请实施例提供的用户肖像的确定方法,在利用异构多质心图形池来进行用户建模的过程中,可以利用异构图卷积网络构造并学习由用户和关键词组成的异构图。此外,该模型还集成了多质心图形池机制,自动学习用户组和内容主题等更广泛的社区特征,以更好地进行用户建模。实验结果包括用户属性预测和聚类质量验证了该方法的有效性,验证基于本申请实施例提供的方法确实可以精细、准确地确定出用户的受教育程度、职业等肖像属性,解决现有方法中存在的确定用户肖像不精确、误差大的技术问题。
基于同一发明构思,本申请实施例中还提供了一种用户肖像的确定装置,如下面的实施例所述。由于用户肖像的确定装置解决问题的原理与用户肖像的确定方法相似,因此用户肖像的确定装置的实施可以参见用户肖像的确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。请参阅图5,是本申请实施例提供的用户肖像的确定装置的一种组成结构图,该装置具体可以包括:获取模块501、构建模块502、确定模块503,下面对该结构进行具体说明。
获取模块501,具体可以用于获取用户社交媒介上的关联数据,作为用户数据。
构建模块502,具体可以用于根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点。
确定模块503,具体可以用于调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,在本说明书中,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
此外,在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
从以上的描述中,可以看出,本申请实施例提供的用户肖像的确定装置,可以对社交媒介上的用户、与用户相关的文本,以及用户的社群等特征等进行挖掘,以精细、准确地确定出用户的受教育程度、职业等肖像属性,解决了现有方法中存在的确定用户肖像不精确、误差大的技术问题。
本申请实施例还提供了一种服务器,具体可以参阅图6所示,所述服务器具体可以包括网络通信端口601、处理器602、存储器603。
其中,所述网络通信端口601,具体可以用于获取用户社交媒介上的关联数据,作为用户数据。
所述处理器602,具体可以用于根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点;调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池。
所述存储器603,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口601可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器602可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器603可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该疾病诊断设备具体实现的功能和效果,可以与其它方法、装置的实施例对照解释,在此不再赘述。
本申请实施例还提供了一种用户肖像的确定方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取用户社交媒介上的关联数据,作为用户数据;根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点;调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
尽管本申请内容中提到不同的具体实施例,但是,本申请并不局限于必须是行业标准或实施例所描述的情况等,某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例,仍然可以属于本申请的可选实施方案范围之内。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的实施方式包括这些变形和变化而不脱离本申请。
Claims (7)
1.一种用户肖像的确定方法,其特征在于,包括:
获取用户社交媒介上的关联数据,作为用户数据;
根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点;
调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池;
其中,所述改进的图卷积网络包括以下算式:
其中,X(l+1)为第l+1层的用户节点的表征,Y(l+1)为第l+1层的关键词节点的表征,X(l)为第l层的用户节点的表征,Y(l)为第l层的关键词节点的表征,σ(·)表示激活函数,λ1为第一超参数,λ2为第二超参数,为A、B、C、D的规范化,A为两个用户节点之间的连接边的权重矩阵,B为两个关键词节点之间的连接边的权重矩阵,C为关键词节点到用户节点之间的连接边的权重矩阵,D为用户节点到关键词节点之间的连接边的权重矩阵,W(l)为系数矩阵;
所述多质心图形池用于对预设的异构图进行聚类操作,以提取社群特征;其中,所述社群特征用于参与用户肖像的确定;
所述多质心图形池包括以下算式:
其中,下标k表示所对应节点所在的集群编号,下标0表示所对应节点为非池层中的选定节点,[·||·]表示concat操作。
2.根据权利要求1所述的方法,其特征在于,所述用户数据包括:用户在社交媒介上使用的用户信息、用户在社交媒介上与其他用户之间的交互关系、用户在社交媒介上发布或评论的内容文本。
3.根据权利要求2所述的方法,其特征在于,根据所述用户数据,构建预设的异构图,包括:
根据所述用户数据,构建用户图、关键词图和二分图,作为所述预设的异构图;其中,所述用户图包括用户节点以及用户节点之间的连接边,所述关键词图包括关键词节点以及关键词节点之间的连接边,所述二分图包括用户节点与关键词节点之间的连接边。
4.根据权利要求3所述的方法,其特征在于,所述用户节点之间的连接边的权重根据相连接的两个用户节点所对应的用户之间的交互关系确定;其中,所述交互关系包括以下至少之一:关注、转发、评论、好友。
5.根据权利要求3所述的方法,其特征在于,所述关键词节点之间的连接边的权重根据相连接的两个关键词节点所对应的关键词出现在同一内容文本中的次数确定。
6.根据权利要求3所述的方法,其特征在于,所述用户节点与关键词节点之间的连接边的权重根据用户节点所对应的用户在内容文本中使用所述关键词节点所对应的关键词的次数确定。
7.一种用户肖像的确定装置,其特征在于,包括:
获取模块,用于获取用户社交媒介上的关联数据,作为用户数据;
构建模块,用于根据所述用户数据,构建预设的异构图;其中,所述预设的异构图中至少包括用户节点和关键词节点;
确定模块,用于调用预设的处理模型,根据所述预设的异构图确定出用户肖像;其中,所述预设的处理模型至少包括针对所述预设的异构图的改进的图卷积网络和多质心图形池;
所述改进的图卷积网络包括以下算式:
其中,X(l+1)为第l+1层的用户节点的表征,Y(l+1)为第l+1层的关键词节点的表征,X(l)为第l层的用户节点的表征,Y(l)为第l层的关键词节点的表征,σ(·)表示激活函数,λ1为第一超参数,λ2为第二超参数,为A、B、C、D的规范化,A为两个用户节点之间的连接边的权重矩阵,B为两个关键词节点之间的连接边的权重矩阵,C为关键词节点到用户节点之间的连接边的权重矩阵,D为用户节点到关键词节点之间的连接边的权重矩阵,W(l)为系数矩阵;
所述多质心图形池用于对预设的异构图进行聚类操作,以提取社群特征;其中,所述社群特征用于参与用户肖像的确定;
所述多质心图形池包括以下算式:
其中,下标k表示所对应节点所在的集群编号,下标0表示所对应节点为非池层中的选定节点,[·||·]表示concat操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011136026.0A CN112507185B (zh) | 2020-10-22 | 2020-10-22 | 用户肖像的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011136026.0A CN112507185B (zh) | 2020-10-22 | 2020-10-22 | 用户肖像的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507185A CN112507185A (zh) | 2021-03-16 |
CN112507185B true CN112507185B (zh) | 2022-08-19 |
Family
ID=74954908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011136026.0A Active CN112507185B (zh) | 2020-10-22 | 2020-10-22 | 用户肖像的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507185B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326884B (zh) * | 2021-06-11 | 2023-06-16 | 之江实验室 | 大规模异构图节点表示的高效学习方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829089A (zh) * | 2018-12-12 | 2019-05-31 | 中国科学院计算技术研究所 | 基于关联图谱的社交网络用户异常检测方法和系统 |
CN110569437A (zh) * | 2019-09-05 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 点击概率预测、页面内容推荐方法和装置 |
CN111291173A (zh) * | 2020-01-17 | 2020-06-16 | 北京工业大学 | 一种基于混合神经网络的高校学生画像技术的应用方法 |
WO2020207196A1 (zh) * | 2019-04-10 | 2020-10-15 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置、存储介质和计算机设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378731B (zh) * | 2016-04-29 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 获取用户画像的方法、装置、服务器及存储介质 |
CN111444394B (zh) * | 2019-01-16 | 2023-05-23 | 阿里巴巴集团控股有限公司 | 获取实体间关系表达的方法、系统和设备、广告召回系统 |
CN110781406B (zh) * | 2019-10-14 | 2021-07-06 | 西安交通大学 | 一种基于变分自动编码器的社交网络用户多属性推断方法 |
CN111666313B (zh) * | 2020-05-25 | 2023-02-07 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
CN111667374B (zh) * | 2020-06-10 | 2023-07-18 | 创新奇智(上海)科技有限公司 | 一种构建用户画像的方法、装置、存储介质和电子设备 |
CN111708922A (zh) * | 2020-06-19 | 2020-09-25 | 北京百度网讯科技有限公司 | 用于表示异构图节点的模型生成方法及装置 |
-
2020
- 2020-10-22 CN CN202011136026.0A patent/CN112507185B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829089A (zh) * | 2018-12-12 | 2019-05-31 | 中国科学院计算技术研究所 | 基于关联图谱的社交网络用户异常检测方法和系统 |
WO2020207196A1 (zh) * | 2019-04-10 | 2020-10-15 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置、存储介质和计算机设备 |
CN110569437A (zh) * | 2019-09-05 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 点击概率预测、页面内容推荐方法和装置 |
CN111291173A (zh) * | 2020-01-17 | 2020-06-16 | 北京工业大学 | 一种基于混合神经网络的高校学生画像技术的应用方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112507185A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110366734B (zh) | 优化神经网络架构 | |
WO2019099805A1 (en) | Machine-leaning models based on non-local neural networks | |
CN111615706A (zh) | 基于子流形稀疏卷积神经网络分析空间稀疏数据 | |
Serrano et al. | A novel agent-based rumor spreading model in twitter | |
CN111523831B (zh) | 风险团伙的识别方法、装置、存储介质和计算机设备 | |
CN109241412A (zh) | 一种基于网络表示学习的推荐方法、系统及电子设备 | |
Wang et al. | A machine learning analysis of Twitter sentiment to the Sandy Hook shootings | |
Seebacher | Predictive intelligence for data-driven managers | |
CN115577316A (zh) | 一种基于多模态数据融合的用户人格预测方法与应用 | |
CN105869058B (zh) | 一种多层潜变量模型用户画像提取的方法 | |
Sunarya et al. | Comparison of accuracy between convolutional neural networks and Naïve Bayes Classifiers in sentiment analysis on Twitter | |
KR20230155336A (ko) | 본인 및 상대방의 선호 조건에 기반하여 매칭을 주선하는 ai 기반의 만남 매칭 서비스 제공 방법 및 장치 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN115130542A (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN113409157B (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN112507185B (zh) | 用户肖像的确定方法和装置 | |
Khan et al. | Possible effects of emoticon and emoji on sentiment analysis web services of work organisations | |
JP6468653B2 (ja) | 予測モデル構築装置 | |
Lenin et al. | Learning from Imbalanced Educational Data Using Ensemble Machine Learning Algorithms. | |
JP6839001B2 (ja) | モデル学習装置、情報判定装置およびそれらのプログラム | |
CN115587192A (zh) | 关系信息抽取方法、设备及计算机可读存储介质 | |
CN114861004A (zh) | 一种社交事件检测方法、装置及系统 | |
Amrizal | Big data analysis using hadoop framework and machine learning as decision support system (DSS)(case study: knowledge of Islam mindset) | |
Raamakirtinan et al. | Identifying influential users in Facebook-A sentiment based approach | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |