CN114741515B - 基于图生成的社交网络用户属性预测方法及系统 - Google Patents
基于图生成的社交网络用户属性预测方法及系统 Download PDFInfo
- Publication number
- CN114741515B CN114741515B CN202210439507.1A CN202210439507A CN114741515B CN 114741515 B CN114741515 B CN 114741515B CN 202210439507 A CN202210439507 A CN 202210439507A CN 114741515 B CN114741515 B CN 114741515B
- Authority
- CN
- China
- Prior art keywords
- user
- social network
- graph
- attribute
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 115
- 238000010586 diagram Methods 0.000 claims abstract description 57
- 238000012360 testing method Methods 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 40
- 230000003993 interaction Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims 1
- 244000309464 bull Species 0.000 description 3
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Animal Husbandry (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Agronomy & Crop Science (AREA)
- Evolutionary Biology (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于图生成的社交网络用户属性预测方法及系统,包括:采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;划分用户文本特征图和用户社交关系图,获得测试集和训练集;基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图为训练目标,得到最优化的社交网络图生成模型;基于最优化的社交网络图生成模型,对用户进行属性预测,得到社交网络用户属性标签。本发明实现对社交网络用户的属性预测,提高预测准确率。
Description
技术领域
本发明属于网络信息及深度学习领域,涉及一种基于图生成的社交网络用户属性预测方法及系统。
背景技术
在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”、“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地对这些数据加以利用,用这些数据进行分析和评估是企业基于更大数据量背景下的问题点。随着大数据技术的深入研究与应用,企业的专注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而对用户的精准属性识别有助于推荐系统等下游任务的推进。
依据社交网络同质性,具有相同属性的用户往往具有相近的社交关系,依据这一性质,利用图嵌入等技术作为额外信息可以进一步的提高用户属性预测的性能。伴随着图神经网络的发展,图卷积网络,图注意力网络的出现,为解决社交网络属性预测提供了新的思路。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于图生成的社交网络用户属性预测方法及系统,从用户文本特征相似度与用户社交网络关系图两个角度出发,通过深度学习方法实现对社交网络用户属性的精准预测。
为达到上述目的,本发明采用以下技术方案予以实现:
基于图生成的社交网络用户属性预测方法,包括:
采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
本发明的进一步改进在于:
社交网络用户之间互动关系包括点赞、关注、评论动态和转发;
采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户的文本特征图,具体为:
步骤1:利用正则表达式提取社交网络用户短文本中的话题文本,得到集合Ti={ti,1,ti,2...ti,i_Num},其中Ti表示用户i的短文本话题集合,ti,j表示用户i发布的第j个话题;
步骤2:搭建BERT模型,将预训练参数作为模型参数,代入话题文本集合∪iTi,取倒数第一层的神经网络输出,得到文本嵌入编码Embed={emb1,emb2...embT_Num},其中ei为话题ti的嵌入表达形式;
步骤3:利用K-Means算法对文本嵌入编码进行特征聚类得到N_cluster类话题集合其中为聚类结果第i簇的话题集合;统计每个用户发布的短文本中的所有话题在不同簇的频数,得到用户话题特征向量Fi={fi,1,fi, 2...ti,N_cluster},其中fi,j为用户i所发布的话题被分为第j个簇的个数;
步骤4:根据用户话题特征向量,利用余弦相似度计算各个用户的之间的文本特征相似度矩阵,对用户的文本特征相似度矩阵进行归一化计算,根据归一化的用户相似度矩阵,通过随机采样的方式生成以用户为节点的文本特征图。
步骤1中的短文本中的话题文本特指社交媒体平台上搜索词条用的关键词,其特征为书写形式是以#符号作为开头,后序链接一段词组,以空格作为结尾,利用正则表达式将#后链接的词组进行提取;
步骤2中预训练参数由谷歌官方公布,利用预训练的BERT模型,实现从文本数据嵌入到数字向量的映射,得到文本数据的数学表达形式;
步骤3中,根据所提取的话题个数的千分之一,设置为K-Means聚类簇的个数N_cluster,统计每个用户所发表的所有话题在不同簇中出现的频数,构造与聚类簇数相同维数的用户话题特征向量;
步骤4中生成以用户为节点的文本特征图,具体为:
根据用户话题特征向量,通过余弦相似度计算得到用来衡量用户话题分布相似情况的用户文本特征相似度,随后利用线性函数归一化的方法,如公式(1)所示:
将余弦相似度计算得到的用户文本特征相似度矩阵映射到[0,1]线性区间当中,得到归一化的用户相似度矩阵;依据每个用户文本特征的相似度的值作为概率值,随机生成用户的边,并设置边的权值为1,得到用户的文本特征图。
基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图,具体为:判断两个用户属性是否相同;若相同,将两个用户之间添加一条权值为1的边;若不同,则两个用户之间没有边关系,依照构造规则训练数据用户属性图;
用户属性图为社交网络用户构成用户树形图的节点,用户之间的边关系定义为两个用户之间属性标签的相似程度;对于训练数据,默认属性相同的用户节点两两之间存在着权值为1的边。
基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型,具体为:基于变分自动编码器框架,编码器部分由两个双层的图卷积网络构成,解码器部分由前馈神经网络构成,输出维数为训练数据用户个数,搭建社交网络图生成模型;
编码器的两个图卷积网络分别接收训练集中的用户的文本特征图和用户社交关系图,在编码器部分嵌入得到基于高斯正态分布的隐向量,隐向量在解码器部分经过前馈神经网络输出与训练数据用户节点边的权值的预测值。
基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型,具体为:
以训练集中的文本特征图和用户的社交关系图作为社交网络图生成模型的输入,用户属性图作为真值,将模型输出与真值的二进制交叉熵和变分自动编码器的隐向量的相对熵作为社交网络图生成模型的优化目标,对社交网络图生成模型进行训练;
利用早停的训练机制,在社交网络图生成模型每轮训练结束之后代入测试集进行测试,若测试集的二进制交叉熵和相对熵不再降低,对社交网络图生成模型的参数进行保存,结束训练。
社交网络图生成模型的优化目标由型输出与真值的二进制交叉熵和变分自动编码器的隐向量的KL散度构成;二进制交叉熵的计算如公式(2)所示:
其中,模型的预测值为训练数据的真值为Y,yi与为向量的第i个分量;
变分自动编码器的隐向量的KL散度如公式(3)所示:
其中,Z为服从均值为μ方差为σ2的正态分布抽样结果,μi与为Z第i个分量的均值和方差;
所述优化目标总的优化函数如公式(4)所示:
基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签;具体为:
将待预测属性用户的社交关系图与文本特征图代入至社交网络图生成模型;得到待预测属性用户与训练用户节点的边关系矩阵EInput_user={e1,e2,…,eN},ei为模型推断得到的待预测属性用户与训练用户i的边关系权值;基于边关系矩阵的取值范围大小,获取社交网络用户属性图;基于社交网络用户属性图和训练用户经过独热编码的属性标签Label={l1,l2,…,lN},利用投票加权,得到社交网络中用户的属性标签。
在实际预测推断待预测属性用户的属性过程中,代入用户的文本特征图和用户社交关系图,生成输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},其取值在[0,1]区间,如果用户的属性标签与训练用户的相同的可能性越大,则取值越趋近于1,反之越趋近于0;由此生成社交网络用户属性图;
基于社交网络用户属性图,即输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},已知训练用户的属性标签,记为Label={l1,l2,…,lN},其中每个用户的属性标签用独热编码表示,则用户的属性标签如公式(5)所示:
基于图生成的社交网络用户属性预测系统,包括:
处理模块,所述处理模块用于采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
生成模块,所述生成模块用于采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
构建模块,所述构建模块基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
划分模块,所述划分模块用于将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
模型生成模块,所述模型生成模块基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
最优化模块,所述最优化模块基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
预测模块,所述预测模块基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
与现有技术相比,本发明具有以下有益效果:
本发明基于用户文本特征图与用户社交关系图,对社交网络图生成模型进行训练和测试,得到最优化的社交网络图生成模型。本发明通过用户文本的相似度,独特地构造了用户特征图,能够提高后续文本特征和社交图特征融合的亲和度,同时利用用户文本作为辅助信息,能够提高图生成模型的表现力;本发明有效地实现了对社交网络下用户的属性预测,用户属性预测准确率高,能够应用于各种社交网络平台,有很高的实用价值。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明的基于图生成的社交网络用户属性预测方法的一种流程图;
图2是本发明的基于图生成的社交网络用户属性预测方法的另一种流程图;
图3是本发明针对话题提取及文本嵌入的示例图;
图4是本发明的话题聚类的示例图;
图5是本发明的用户话题特征向量生成示例图;
图6是本发明的构成用户特征图的示例图;
图7是本发明的构造用户属性图的示例图;
图8是本发明的社交用户属性图生成模型的示例图;
图9是本发明的用户属性预测模块的示例图;
图10是本发明的基于图生成的社交网络用户属性预测系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
如图1所示,本发明基于图生成的社交网络用户属性预测方法,在功能上,该方法有赖于四个功能模块,分别为用户特征图构建模块、训练数据的用户属性图构建模块、社交网络属性图生成模块和社交网络用户属性预测模块。
参见图2,本发明公开了一种基于图生成的社交网络用户属性预测方法,包括:
S101,采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图。
步骤1.1:如图3所示,利用正则表达式提取社交网络用户短文本中的话题文本,得到集合Ti={ti,1,ti,2...ti,i_Num},其中Ti表示用户i的短文本话题集合,ti,j表示用户i发布的第j个话题;
短文本中的话题文本特指社交媒体平台上搜索词条用的关键词,其特征为书写形式是以#符号作为开头,后序链接一段词组,以空格作为结尾,利用正则表达式将#后链接的词组进行提取。
在图3中,利用正则表达式’#.*?\s’将#后链接的词组进行提取,提取到用户id为364555060的话题数据['Bulls','JustSayin','Bears','Synergy','Bears','Bears','sex',...]。
步骤1.2:搭建BERT模型,将预训练参数作为模型参数,代入话题文本集合∪iTi,取倒数第一层的神经网络输出,得到768维文本嵌入编码Embed={emb1,emb2...embT_Num},其中ei为话题ti的嵌入表达形式;预训练参数由谷歌官方公布,利用预训练的BERT模型,实现从文本数据嵌入到数字向量的映射,得到文本数据的数学表达形式。
如图3所示,单词Bulls的嵌入编码为:
embbulls=[0.37454012,0.95071431,0.73199394,0.59865848,0.15601864,
…
0.18340451,0.30424224,0.52475643,0.43194502,0.29122914,]
步骤1.3:如图4所示,设置Ncluster=1024,利用K-Means算法对文本嵌入编码进行特征聚类,得到N_cluster类话题集合其中 为聚类结果第i簇的话题集合;其中如图4中Bulls单词就被分为了第一类词簇中,统计每个用户发布的短文本中的所有话题在不同簇的频数,得到用户话题特征向量Fi={fi,1,fi,2...ti,N_cluster},其中fi,j为用户i所发布的话题被分为第j个簇的个数;如图5所示,得到用户id为303557018的1024维用户话题特征向量为:F303557018=[4,0,…,17]
根据所提取的话题个数的千分之一,设置为K-Means聚类簇的个数N_cluster,统计每个用户所发表的所有话题在不同簇中出现的频数,构造与聚类簇数相同维数的用户话题特征向量;
步骤1.4:根据用户话题特征向量,利用余弦相似度计算各个用户的之间的文本特征相似度矩阵,对用户的文本特征相似度矩阵进行归一化计算,根据归一化的用户相似度矩阵,通过随机采样的方式生成以用户为节点的文本特征图。
生成以用户为节点的文本特征图,具体为:
根据用户话题特征向量,通过余弦相似度计算得到用来衡量用户话题分布相似情况的用户文本特征相似度,随后利用线性函数归一化的方法,如公式(1)所示:
将余弦相似度计算得到的用户文本特征相似度矩阵映射到[0,1]线性区间当中,得到归一化的用户相似度矩阵;依据每个用户文本特征的相似度的值作为概率值,随机生成用户的边,并设置边的权值为1,得到用户的文本特征图。
如图6所示,用户1与用户2的具有极为相似的话题分布,通过计算用户相似度矩阵,经过归一化计算后,用户1与用户2有81%的概率存在一条边,经过采样后,得到用户特征图。
S102,采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图。
社交网络用户之间互动关系包括点赞、关注、评论动态和转发。
S103,基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图。
判断两个用户属性是否相同;若相同,将两个用户之间添加一条权值为1的边;若不同,则两个用户之间没有边关系,依照构造规则训练数据用户属性图;所述用户属性图为社交网络用户构成用户树形图的节点,用户之间的边关系定义为两个用户之间属性标签的相似程度;对于训练数据,默认属性相同的用户节点两两之间存在着权值为1的边。
如图7所示,用户1、2、3的职业属性相同,所以用户1、2、3之间彼此存在一条边。
S104,将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集。
S105,基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型。
基于变分自动编码器框架,编码器部分由两个双层的图卷积网络构成,解码器部分由前馈神经网络构成,输出维数为训练数据用户个数,搭建社交网络图生成模型;
所述编码器的两个图卷积网络分别接收训练集中的用户的文本特征图和用户社交关系图,在编码器部分嵌入得到基于高斯正态分布的隐向量,隐向量在解码器部分经过前馈神经网络输出与训练数据用户节点边的权值的预测值。具体模型图如图8所示。
S106,基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型。
以训练集中的文本特征图和用户的社交关系图作为社交网络图生成模型的输入,用户属性图作为真值,将模型输出与真值的二进制交叉熵和变分自动编码器的隐向量的相对熵作为社交网络图生成模型的优化目标,对社交网络图生成模型进行训练1000轮。
二进制交叉熵的计算如公式(2)所示:
其中,模型的预测值为训练数据的真值为Y,yi与为向量的第i个分量;
变分自动编码器的隐向量的KL散度如公式(3)所示:
其中,Z为服从均值为μ方差为σ2的正态分布抽样结果,μi与为Z第i个分量的均值和方差;
所述优化目标总的优化函数如公式(4)所示:
利用早停的训练机制,在社交网络图生成模型每轮训练结束之后代入测试集进行测试,若测试集的二进制交叉熵和相对熵不再降低,对社交网络图生成模型的参数进行保存,结束训练。
S107,基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
如图9所示,将待预测属性用户的社交关系图与文本特征图代入至社交网络图生成模型;得到待预测属性用户与训练用户节点的边关系矩阵EInput_user={e1,e2,…,eN},ei为模型推断得到的待预测属性用户与训练用户i的边关系权值;基于边关系矩阵的取值范围大小,获取社交网络用户属性图;基于社交网络用户属性图和训练用户经过独热编码的属性标签Label={l1,l2,…,lN},利用投票加权,得到社交网络中用户的属性标签。
在实际预测推断待预测属性用户的属性过程中,代入用户的文本特征图和用户社交关系图,生成输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},其取值在[0,1]区间,如果用户的属性标签与训练用户的相同的可能性越大,则取值越趋近于1,反之越趋近于0;由此生成社交网络用户属性图;
基于社交网络用户属性图,即输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},已知训练用户的属性标签,记为Label={l1,l2,…,lN},其中每个用户的属性标签用独热编码表示,则用户的属性标签如公式(5)所示:
参见图10,本发明公布了一种基于图生成的社交网络用户属性预测系统,包括:
处理模块,所述处理模块用于采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
生成模块,所述生成模块用于采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
构建模块,所述构建模块基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
划分模块,所述划分模块用于将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
模型生成模块,所述模型生成模块基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
最优化模块,所述最优化模块基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
预测模块,所述预测模块基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于图生成的社交网络用户属性预测方法,其特征在于,包括:
采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;具体为:
以训练集中的文本特征图和用户的社交关系图作为社交网络图生成模型的输入,用户属性图作为真值,将模型输出与真值的二进制交叉熵和变分自动编码器的隐向量的相对熵作为社交网络图生成模型的优化目标,对社交网络图生成模型进行训练;
利用早停的训练机制,在社交网络图生成模型每轮训练结束之后代入测试集进行测试,若测试集的二进制交叉熵和相对熵不再降低,对社交网络图生成模型的参数进行保存,结束训练;
所述社交网络图生成模型的优化目标由型输出与真值的二进制交叉熵和变分自动编码器的隐向量的KL散度构成;二进制交叉熵的计算如公式(2)所示:
其中,模型的预测值为,训练数据的真值为,与为向量的第个分量;
变分自动编码器的隐向量的KL散度如公式(3)所示:
其中,为服从均值为方差为的正态分布抽样结果,与为第个分量的均值和方差;
所述优化目标总的优化函数如公式(4)所示:
基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签,具体为:
将待预测属性用户的社交关系图与文本特征图代入至社交网络图生成模型;得到待预测属性用户与训练用户节点的边关系矩阵,为模型推断得到的待预测属性用户与训练用户的边关系权值;基于边关系矩阵的取值范围大小,获取社交网络用户属性图;基于社交网络用户属性图和训练用户经过独热编码的属性标签,利用投票加权,得到社交网络中用户的属性标签;
在实际预测推断待预测属性用户的属性过程中,代入用户的文本特征图和用户社交关系图,生成输入用户与训练用户的边权值向量,其取值在[0,1]区间,如果用户的属性标签与训练用户的相同的可能性越大,则取值越趋近于1,反之越趋近于0;由此生成社交网络用户属性图;
基于社交网络用户属性图,即输入用户与训练用户的边权值向量,已知训练用户的属性标签,记为,其中每个用户的属性标签用独热编码表示,则用户的属性标签如公式(5)所示:
2.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述社交网络用户之间互动关系包括点赞、关注、评论动态和转发;
所述采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户的文本特征图,具体为:
步骤2.1:利用正则表达式提取社交网络用户短文本中的话题文本,得到集合,其中表示用户的短文本话题集合,表示用户发布的第个话题;
步骤2.2:搭建BERT模型,将预训练参数作为模型参数,代入话题文本集合,取倒数第一层的神经网络输出,得到文本嵌入编码,其中为话题的嵌入表达形式;
步骤2.3:利用K-Means算法对文本嵌入编码进行特征聚类得到类话题集合,其中,为聚类结果第簇的话题集合;统计每个用户发布的短文本中的所有话题在不同簇的频数,得到用户话题特征向量,其中为用户所发布的话题被分为第个簇的个数;
步骤2.4:根据用户话题特征向量,利用余弦相似度计算各个用户的之间的文本特征相似度矩阵,对用户的文本特征相似度矩阵进行归一化计算,根据归一化的用户相似度矩阵,通过随机采样的方式生成以用户为节点的文本特征图。
3.根据权利要求2所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述步骤2.1中的短文本中的话题文本特指社交媒体平台上搜索词条用的关键词,其特征为书写形式是以#符号作为开头,后序链接一段词组,以空格作为结尾,利用正则表达式将#后链接的词组进行提取;
所述步骤2.2中利用预训练的BERT模型,实现从文本数据嵌入到数字向量的映射,得到文本数据的数学表达形式;
所述步骤2.3中,根据所提取的话题个数的千分之一,设置为K-Means聚类簇的个数,统计每个用户所发表的所有话题在不同簇中出现的频数,构造与聚类簇数相同维数的用户话题特征向量;
所述2.4中生成以用户为节点的文本特征图,具体为:
根据用户话题特征向量,通过余弦相似度计算得到用来衡量用户话题分布相似情况的用户文本特征相似度,随后利用线性函数归一化的方法,如公式(1)所示:
将余弦相似度计算得到的用户文本特征相似度矩阵映射到[0,1]线性区间当中,得到归一化的用户相似度矩阵;依据每个用户文本特征的相似度的值作为概率值,随机生成用户的边,并设置边的权值为1,得到用户的文本特征图。
4.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图,具体为:判断两个用户属性是否相同;若相同,将两个用户之间添加一条权值为1的边;若不同,则两个用户之间没有边关系,依照构造规则训练数据用户属性图;
所述用户属性图为社交网络用户构成用户树形图的节点,用户之间的边关系定义为两个用户之间属性标签的相似程度;对于训练数据,默认属性相同的用户节点两两之间存在着权值为1的边。
5.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型,具体为:基于变分自动编码器框架,编码器部分由两个双层的图卷积网络构成,解码器部分由前馈神经网络构成,输出维数为训练数据用户个数,搭建社交网络图生成模型;
所述编码器的两个图卷积网络分别接收训练集中的用户的文本特征图和用户社交关系图,在编码器部分嵌入得到基于高斯正态分布的隐向量,隐向量在解码器部分经过前馈神经网络输出与训练数据用户节点边的权值的预测值。
6.基于图生成的社交网络用户属性预测系统,用于实现权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,包括:
处理模块,所述处理模块用于采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
生成模块,所述生成模块用于采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
构建模块,所述构建模块基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
划分模块,所述划分模块用于将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
模型生成模块,所述模型生成模块基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
最优化模块,所述最优化模块基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
预测模块,所述预测模块基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210439507.1A CN114741515B (zh) | 2022-04-25 | 2022-04-25 | 基于图生成的社交网络用户属性预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210439507.1A CN114741515B (zh) | 2022-04-25 | 2022-04-25 | 基于图生成的社交网络用户属性预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114741515A CN114741515A (zh) | 2022-07-12 |
CN114741515B true CN114741515B (zh) | 2024-07-26 |
Family
ID=82284252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210439507.1A Active CN114741515B (zh) | 2022-04-25 | 2022-04-25 | 基于图生成的社交网络用户属性预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741515B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892019B (zh) * | 2024-03-14 | 2024-05-14 | 南京信息工程大学 | 一种跨社交网络身份链接方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528163A (zh) * | 2020-12-04 | 2021-03-19 | 中山大学 | 一种基于图卷积网络的社交平台用户职业预测方法 |
CN113505307A (zh) * | 2021-09-06 | 2021-10-15 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574192B (zh) * | 2013-10-25 | 2021-01-15 | 华为技术有限公司 | 在多个社交网络中识别同一用户的方法及装置 |
CN113792110A (zh) * | 2021-08-03 | 2021-12-14 | 浙大城市学院 | 一种基于社交物联网的设备信任值评估方法 |
CN113870040B (zh) * | 2021-09-07 | 2024-05-21 | 天津大学 | 融合不同传播模式的双流图卷积网络微博话题检测方法 |
-
2022
- 2022-04-25 CN CN202210439507.1A patent/CN114741515B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528163A (zh) * | 2020-12-04 | 2021-03-19 | 中山大学 | 一种基于图卷积网络的社交平台用户职业预测方法 |
CN113505307A (zh) * | 2021-09-06 | 2021-10-15 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114741515A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
CN107832353B (zh) | 一种社交媒体平台虚假信息识别方法 | |
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
US20190236148A1 (en) | Generative text using a personality model | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN110162700A (zh) | 信息推荐及模型的训练方法、装置、设备以及存储介质 | |
CN111274405A (zh) | 一种基于gcn的文本分类方法 | |
CN110750640A (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN112000801A (zh) | 基于机器学习的政务文本分类、热点问题挖掘方法及系统 | |
CN111241425B (zh) | 一种基于层次注意力机制的poi推荐方法 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN116402630B (zh) | 一种基于表征学习的财务风险预测方法及系统 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN114741515B (zh) | 基于图生成的社交网络用户属性预测方法及系统 | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
CN116167371A (zh) | 产品的推荐方法及装置、处理器和电子设备 | |
CN113222471B (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
CN117077680A (zh) | 问答意图识别方法及装置 | |
CN115203589A (zh) | 基于Trans-dssm模型的向量搜索方法及系统 | |
CN113688633A (zh) | 一种提纲确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |