CN114741515A - 基于图生成的社交网络用户属性预测方法及系统 - Google Patents

基于图生成的社交网络用户属性预测方法及系统 Download PDF

Info

Publication number
CN114741515A
CN114741515A CN202210439507.1A CN202210439507A CN114741515A CN 114741515 A CN114741515 A CN 114741515A CN 202210439507 A CN202210439507 A CN 202210439507A CN 114741515 A CN114741515 A CN 114741515A
Authority
CN
China
Prior art keywords
user
social network
graph
training
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210439507.1A
Other languages
English (en)
Inventor
周亚东
边策
刘晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210439507.1A priority Critical patent/CN114741515A/zh
Publication of CN114741515A publication Critical patent/CN114741515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Animal Husbandry (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Agronomy & Crop Science (AREA)
  • Evolutionary Biology (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于图生成的社交网络用户属性预测方法及系统,包括:采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;划分用户文本特征图和用户社交关系图,获得测试集和训练集;基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图为训练目标,得到最优化的社交网络图生成模型;基于最优化的社交网络图生成模型,对用户进行属性预测,得到社交网络用户属性标签。本发明实现对社交网络用户的属性预测,提高预测准确率。

Description

基于图生成的社交网络用户属性预测方法及系统
技术领域
本发明属于网络信息及深度学习领域,涉及一种基于图生成的社交网络用户属性预测方法及系统。
背景技术
在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”、“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地对这些数据加以利用,用这些数据进行分析和评估是企业基于更大数据量背景下的问题点。随着大数据技术的深入研究与应用,企业的专注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而对用户的精准属性识别有助于推荐系统等下游任务的推进。
依据社交网络同质性,具有相同属性的用户往往具有相近的社交关系,依据这一性质,利用图嵌入等技术作为额外信息可以进一步的提高用户属性预测的性能。伴随着图神经网络的发展,图卷积网络,图注意力网络的出现,为解决社交网络属性预测提供了新的思路。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于图生成的社交网络用户属性预测方法及系统,从用户文本特征相似度与用户社交网络关系图两个角度出发,通过深度学习方法实现对社交网络用户属性的精准预测。
为达到上述目的,本发明采用以下技术方案予以实现:
基于图生成的社交网络用户属性预测方法,包括:
采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
本发明的进一步改进在于:
社交网络用户之间互动关系包括点赞、关注、评论动态和转发;
采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户的文本特征图,具体为:
步骤1:利用正则表达式提取社交网络用户短文本中的话题文本,得到集合Ti={ti,1,ti,2...ti,i_Num},其中Ti表示用户i的短文本话题集合,ti,j表示用户i发布的第j个话题;
步骤2:搭建BERT模型,将预训练参数作为模型参数,代入话题文本集合∪iTi,取倒数第一层的神经网络输出,得到文本嵌入编码Embed={emb1,emb2...embT_Num},其中ei为话题ti的嵌入表达形式;
步骤3:利用K-Means算法对文本嵌入编码进行特征聚类得到N_cluster类话题集合
Figure BDA0003614518290000021
其中
Figure BDA0003614518290000022
为聚类结果第i簇的话题集合;统计每个用户发布的短文本中的所有话题在不同簇的频数,得到用户话题特征向量Fi={fi,1,fi, 2...ti,N_cluster},其中fi,j为用户i所发布的话题被分为第j个簇的个数;
步骤4:根据用户话题特征向量,利用余弦相似度计算各个用户的之间的文本特征相似度矩阵,对用户的文本特征相似度矩阵进行归一化计算,根据归一化的用户相似度矩阵,通过随机采样的方式生成以用户为节点的文本特征图。
步骤1中的短文本中的话题文本特指社交媒体平台上搜索词条用的关键词,其特征为书写形式是以#符号作为开头,后序链接一段词组,以空格作为结尾,利用正则表达式将#后链接的词组进行提取;
步骤2中预训练参数由谷歌官方公布,利用预训练的BERT模型,实现从文本数据嵌入到数字向量的映射,得到文本数据的数学表达形式;
步骤3中,根据所提取的话题个数的千分之一,设置为K-Means聚类簇的个数N_cluster,统计每个用户所发表的所有话题在不同簇中出现的频数,构造与聚类簇数相同维数的用户话题特征向量;
步骤4中生成以用户为节点的文本特征图,具体为:
根据用户话题特征向量,通过余弦相似度计算得到用来衡量用户话题分布相似情况的用户文本特征相似度,随后利用线性函数归一化的方法,如公式(1)所示:
Figure BDA0003614518290000031
将余弦相似度计算得到的用户文本特征相似度矩阵映射到[0,1]线性区间当中,得到归一化的用户相似度矩阵;依据每个用户文本特征的相似度的值作为概率值,随机生成用户的边,并设置边的权值为1,得到用户的文本特征图。
基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图,具体为:判断两个用户属性是否相同;若相同,将两个用户之间添加一条权值为1的边;若不同,则两个用户之间没有边关系,依照构造规则训练数据用户属性图;
用户属性图为社交网络用户构成用户树形图的节点,用户之间的边关系定义为两个用户之间属性标签的相似程度;对于训练数据,默认属性相同的用户节点两两之间存在着权值为1的边。
基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型,具体为:基于变分自动编码器框架,编码器部分由两个双层的图卷积网络构成,解码器部分由前馈神经网络构成,输出维数为训练数据用户个数,搭建社交网络图生成模型;
编码器的两个图卷积网络分别接收训练集中的用户的文本特征图和用户社交关系图,在编码器部分嵌入得到基于高斯正态分布的隐向量,隐向量在解码器部分经过前馈神经网络输出与训练数据用户节点边的权值的预测值。
基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型,具体为:
以训练集中的文本特征图和用户的社交关系图作为社交网络图生成模型的输入,用户属性图作为真值,将模型输出与真值的二进制交叉熵和变分自动编码器的隐向量的相对熵作为社交网络图生成模型的优化目标,对社交网络图生成模型进行训练;
利用早停的训练机制,在社交网络图生成模型每轮训练结束之后代入测试集进行测试,若测试集的二进制交叉熵和相对熵不再降低,对社交网络图生成模型的参数进行保存,结束训练。
社交网络图生成模型的优化目标由型输出与真值的二进制交叉熵和变分自动编码器的隐向量的KL散度构成;二进制交叉熵的计算如公式(2)所示:
Figure BDA0003614518290000041
其中,模型的预测值为
Figure BDA0003614518290000042
训练数据的真值为Y,yi
Figure BDA0003614518290000043
为向量的第i个分量;
变分自动编码器的隐向量的KL散度如公式(3)所示:
Figure BDA0003614518290000044
其中,Z为服从均值为μ方差为σ2的正态分布抽样结果,μi
Figure BDA0003614518290000045
为Z第i个分量的均值和方差;
所述优化目标总的优化函数如公式(4)所示:
Figure BDA0003614518290000046
基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签;具体为:
将待预测属性用户的社交关系图与文本特征图代入至社交网络图生成模型;得到待预测属性用户与训练用户节点的边关系矩阵EInput_user={e1,e2,…,eN},ei为模型推断得到的待预测属性用户与训练用户i的边关系权值;基于边关系矩阵的取值范围大小,获取社交网络用户属性图;基于社交网络用户属性图和训练用户经过独热编码的属性标签Label={l1,l2,…,lN},利用投票加权,得到社交网络中用户的属性标签。
在实际预测推断待预测属性用户的属性过程中,代入用户的文本特征图和用户社交关系图,生成输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},其取值在[0,1]区间,如果用户的属性标签与训练用户的相同的可能性越大,则取值越趋近于1,反之越趋近于0;由此生成社交网络用户属性图;
基于社交网络用户属性图,即输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},已知训练用户的属性标签,记为Label={l1,l2,…,lN},其中每个用户的属性标签用独热编码表示,则用户的属性标签如公式(5)所示:
Figure BDA0003614518290000051
基于图生成的社交网络用户属性预测系统,包括:
处理模块,所述处理模块用于采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
生成模块,所述生成模块用于采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
构建模块,所述构建模块基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
划分模块,所述划分模块用于将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
模型生成模块,所述模型生成模块基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
最优化模块,所述最优化模块基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
预测模块,所述预测模块基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
与现有技术相比,本发明具有以下有益效果:
本发明基于用户文本特征图与用户社交关系图,对社交网络图生成模型进行训练和测试,得到最优化的社交网络图生成模型。本发明通过用户文本的相似度,独特地构造了用户特征图,能够提高后续文本特征和社交图特征融合的亲和度,同时利用用户文本作为辅助信息,能够提高图生成模型的表现力;本发明有效地实现了对社交网络下用户的属性预测,用户属性预测准确率高,能够应用于各种社交网络平台,有很高的实用价值。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明的基于图生成的社交网络用户属性预测方法的一种流程图;
图2是本发明的基于图生成的社交网络用户属性预测方法的另一种流程图;
图3是本发明针对话题提取及文本嵌入的示例图;
图4是本发明的话题聚类的示例图;
图5是本发明的用户话题特征向量生成示例图;
图6是本发明的构成用户特征图的示例图;
图7是本发明的构造用户属性图的示例图;
图8是本发明的社交用户属性图生成模型的示例图;
图9是本发明的用户属性预测模块的示例图;
图10是本发明的基于图生成的社交网络用户属性预测系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
如图1所示,本发明基于图生成的社交网络用户属性预测方法,在功能上,该方法有赖于四个功能模块,分别为用户特征图构建模块、训练数据的用户属性图构建模块、社交网络属性图生成模块和社交网络用户属性预测模块。
参见图2,本发明公开了一种基于图生成的社交网络用户属性预测方法,包括:
S101,采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图。
步骤1.1:如图3所示,利用正则表达式提取社交网络用户短文本中的话题文本,得到集合Ti={ti,1,ti,2...ti,i_Num},其中Ti表示用户i的短文本话题集合,ti,j表示用户i发布的第j个话题;
短文本中的话题文本特指社交媒体平台上搜索词条用的关键词,其特征为书写形式是以#符号作为开头,后序链接一段词组,以空格作为结尾,利用正则表达式将#后链接的词组进行提取。
在图3中,利用正则表达式’#.*?\s’将#后链接的词组进行提取,提取到用户id为364555060的话题数据['Bulls','JustSayin','Bears','Synergy','Bears','Bears','sex',...]。
步骤1.2:搭建BERT模型,将预训练参数作为模型参数,代入话题文本集合∪iTi,取倒数第一层的神经网络输出,得到768维文本嵌入编码Embed={emb1,emb2...embT_Num},其中ei为话题ti的嵌入表达形式;预训练参数由谷歌官方公布,利用预训练的BERT模型,实现从文本数据嵌入到数字向量的映射,得到文本数据的数学表达形式。
如图3所示,单词Bulls的嵌入编码为:
embbulls=[0.37454012,0.95071431,0.73199394,0.59865848,0.15601864,
0.18340451,0.30424224,0.52475643,0.43194502,0.29122914,]
步骤1.3:如图4所示,设置Ncluster=1024,利用K-Means算法对文本嵌入编码进行特征聚类,得到N_cluster类话题集合
Figure BDA0003614518290000091
其中
Figure BDA0003614518290000092
Figure BDA0003614518290000093
为聚类结果第i簇的话题集合;其中如图4中Bulls单词就被分为了第一类词簇中,统计每个用户发布的短文本中的所有话题在不同簇的频数,得到用户话题特征向量Fi={fi,1,fi,2...ti,N_cluster},其中fi,j为用户i所发布的话题被分为第j个簇的个数;如图5所示,得到用户id为303557018的1024维用户话题特征向量为:F303557018=[4,0,…,17]
根据所提取的话题个数的千分之一,设置为K-Means聚类簇的个数N_cluster,统计每个用户所发表的所有话题在不同簇中出现的频数,构造与聚类簇数相同维数的用户话题特征向量;
步骤1.4:根据用户话题特征向量,利用余弦相似度计算各个用户的之间的文本特征相似度矩阵,对用户的文本特征相似度矩阵进行归一化计算,根据归一化的用户相似度矩阵,通过随机采样的方式生成以用户为节点的文本特征图。
生成以用户为节点的文本特征图,具体为:
根据用户话题特征向量,通过余弦相似度计算得到用来衡量用户话题分布相似情况的用户文本特征相似度,随后利用线性函数归一化的方法,如公式(1)所示:
Figure BDA0003614518290000094
将余弦相似度计算得到的用户文本特征相似度矩阵映射到[0,1]线性区间当中,得到归一化的用户相似度矩阵;依据每个用户文本特征的相似度的值作为概率值,随机生成用户的边,并设置边的权值为1,得到用户的文本特征图。
如图6所示,用户1与用户2的具有极为相似的话题分布,通过计算用户相似度矩阵,经过归一化计算后,用户1与用户2有81%的概率存在一条边,经过采样后,得到用户特征图。
S102,采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图。
社交网络用户之间互动关系包括点赞、关注、评论动态和转发。
S103,基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图。
判断两个用户属性是否相同;若相同,将两个用户之间添加一条权值为1的边;若不同,则两个用户之间没有边关系,依照构造规则训练数据用户属性图;所述用户属性图为社交网络用户构成用户树形图的节点,用户之间的边关系定义为两个用户之间属性标签的相似程度;对于训练数据,默认属性相同的用户节点两两之间存在着权值为1的边。
如图7所示,用户1、2、3的职业属性相同,所以用户1、2、3之间彼此存在一条边。
S104,将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集。
S105,基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型。
基于变分自动编码器框架,编码器部分由两个双层的图卷积网络构成,解码器部分由前馈神经网络构成,输出维数为训练数据用户个数,搭建社交网络图生成模型;
所述编码器的两个图卷积网络分别接收训练集中的用户的文本特征图和用户社交关系图,在编码器部分嵌入得到基于高斯正态分布的隐向量,隐向量在解码器部分经过前馈神经网络输出与训练数据用户节点边的权值的预测值。具体模型图如图8所示。
S106,基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型。
以训练集中的文本特征图和用户的社交关系图作为社交网络图生成模型的输入,用户属性图作为真值,将模型输出与真值的二进制交叉熵和变分自动编码器的隐向量的相对熵作为社交网络图生成模型的优化目标,对社交网络图生成模型进行训练1000轮。
二进制交叉熵的计算如公式(2)所示:
Figure BDA0003614518290000111
其中,模型的预测值为
Figure BDA0003614518290000112
训练数据的真值为Y,yi
Figure BDA0003614518290000113
为向量的第i个分量;
变分自动编码器的隐向量的KL散度如公式(3)所示:
Figure BDA0003614518290000114
其中,Z为服从均值为μ方差为σ2的正态分布抽样结果,μi
Figure BDA0003614518290000115
为Z第i个分量的均值和方差;
所述优化目标总的优化函数如公式(4)所示:
Figure BDA0003614518290000116
利用早停的训练机制,在社交网络图生成模型每轮训练结束之后代入测试集进行测试,若测试集的二进制交叉熵和相对熵不再降低,对社交网络图生成模型的参数进行保存,结束训练。
S107,基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
如图9所示,将待预测属性用户的社交关系图与文本特征图代入至社交网络图生成模型;得到待预测属性用户与训练用户节点的边关系矩阵EInput_user={e1,e2,…,eN},ei为模型推断得到的待预测属性用户与训练用户i的边关系权值;基于边关系矩阵的取值范围大小,获取社交网络用户属性图;基于社交网络用户属性图和训练用户经过独热编码的属性标签Label={l1,l2,…,lN},利用投票加权,得到社交网络中用户的属性标签。
在实际预测推断待预测属性用户的属性过程中,代入用户的文本特征图和用户社交关系图,生成输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},其取值在[0,1]区间,如果用户的属性标签与训练用户的相同的可能性越大,则取值越趋近于1,反之越趋近于0;由此生成社交网络用户属性图;
基于社交网络用户属性图,即输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},已知训练用户的属性标签,记为Label={l1,l2,…,lN},其中每个用户的属性标签用独热编码表示,则用户的属性标签如公式(5)所示:
Figure BDA0003614518290000121
参见图10,本发明公布了一种基于图生成的社交网络用户属性预测系统,包括:
处理模块,所述处理模块用于采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
生成模块,所述生成模块用于采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
构建模块,所述构建模块基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
划分模块,所述划分模块用于将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
模型生成模块,所述模型生成模块基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
最优化模块,所述最优化模块基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
预测模块,所述预测模块基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于图生成的社交网络用户属性预测方法,其特征在于,包括:
采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
2.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述社交网络用户之间互动关系包括点赞、关注、评论动态和转发;
所述采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户的文本特征图,具体为:
步骤2.1:利用正则表达式提取社交网络用户短文本中的话题文本,得到集合Ti={ti,1,ti,2...ti,i_Num},其中Ti表示用户i的短文本话题集合,ti,j表示用户i发布的第j个话题;
步骤2.2:搭建BERT模型,将预训练参数作为模型参数,代入话题文本集合∪iTi,取倒数第一层的神经网络输出,得到文本嵌入编码Embed={emb1,emb2…embT_Num},其中ei为话题ti的嵌入表达形式;
步骤2.3:利用K-Means算法对文本嵌入编码进行特征聚类得到N_cluster类话题集合
Figure FDA0003614518280000011
其中
Figure FDA0003614518280000012
为聚类结果第i簇的话题集合;统计每个用户发布的短文本中的所有话题在不同簇的频数,得到用户话题特征向量Fi={fi,1,fi,2…ti,N_cluster},其中fi,j为用户i所发布的话题被分为第j个簇的个数;
步骤2.4:根据用户话题特征向量,利用余弦相似度计算各个用户的之间的文本特征相似度矩阵,对用户的文本特征相似度矩阵进行归一化计算,根据归一化的用户相似度矩阵,通过随机采样的方式生成以用户为节点的文本特征图。
3.根据权利要求2所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述步骤2.1中的短文本中的话题文本特指社交媒体平台上搜索词条用的关键词,其特征为书写形式是以#符号作为开头,后序链接一段词组,以空格作为结尾,利用正则表达式将#后链接的词组进行提取;
所述步骤2.2中预训练参数由谷歌官方公布,利用预训练的BERT模型,实现从文本数据嵌入到数字向量的映射,得到文本数据的数学表达形式;
所述步骤2.3中,根据所提取的话题个数的千分之一,设置为K-Means聚类簇的个数N_cluster,统计每个用户所发表的所有话题在不同簇中出现的频数,构造与聚类簇数相同维数的用户话题特征向量;
所述2.4中生成以用户为节点的文本特征图,具体为:
根据用户话题特征向量,通过余弦相似度计算得到用来衡量用户话题分布相似情况的用户文本特征相似度,随后利用线性函数归一化的方法,如公式(1)所示:
Figure FDA0003614518280000021
将余弦相似度计算得到的用户文本特征相似度矩阵映射到[0,1]线性区间当中,得到归一化的用户相似度矩阵;依据每个用户文本特征的相似度的值作为概率值,随机生成用户的边,并设置边的权值为1,得到用户的文本特征图。
4.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图,具体为:判断两个用户属性是否相同;若相同,将两个用户之间添加一条权值为1的边;若不同,则两个用户之间没有边关系,依照构造规则训练数据用户属性图;
所述用户属性图为社交网络用户构成用户树形图的节点,用户之间的边关系定义为两个用户之间属性标签的相似程度;对于训练数据,默认属性相同的用户节点两两之间存在着权值为1的边。
5.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型,具体为:基于变分自动编码器框架,编码器部分由两个双层的图卷积网络构成,解码器部分由前馈神经网络构成,输出维数为训练数据用户个数,搭建社交网络图生成模型;
所述编码器的两个图卷积网络分别接收训练集中的用户的文本特征图和用户社交关系图,在编码器部分嵌入得到基于高斯正态分布的隐向量,隐向量在解码器部分经过前馈神经网络输出与训练数据用户节点边的权值的预测值。
6.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型,具体为:
以训练集中的文本特征图和用户的社交关系图作为社交网络图生成模型的输入,用户属性图作为真值,将模型输出与真值的二进制交叉熵和变分自动编码器的隐向量的相对熵作为社交网络图生成模型的优化目标,对社交网络图生成模型进行训练;
利用早停的训练机制,在社交网络图生成模型每轮训练结束之后代入测试集进行测试,若测试集的二进制交叉熵和相对熵不再降低,对社交网络图生成模型的参数进行保存,结束训练。
7.根据权利要求6所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述社交网络图生成模型的优化目标由型输出与真值的二进制交叉熵和变分自动编码器的隐向量的KL散度构成;二进制交叉熵的计算如公式(2)所示:
Figure FDA0003614518280000041
其中,模型的预测值为
Figure FDA0003614518280000042
训练数据的真值为Y,yi
Figure FDA0003614518280000043
为向量的第i个分量;
变分自动编码器的隐向量的KL散度如公式(3)所示:
Figure FDA0003614518280000044
其中,Z为服从均值为μ方差为σ2的正态分布抽样结果,μi
Figure FDA0003614518280000045
为Z第i个分量的均值和方差;
所述优化目标总的优化函数如公式(4)所示:
Figure FDA0003614518280000046
8.根据权利要求1所述的基于图生成的社交网络用户属性预测方法,其特征在于,所述基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签;具体为:
将待预测属性用户的社交关系图与文本特征图代入至社交网络图生成模型;得到待预测属性用户与训练用户节点的边关系矩阵EInput_user={e1,e2,…,eN},ei为模型推断得到的待预测属性用户与训练用户i的边关系权值;基于边关系矩阵的取值范围大小,获取社交网络用户属性图;基于社交网络用户属性图和训练用户经过独热编码的属性标签Label={l1,l2,…,lN},利用投票加权,得到社交网络中用户的属性标签。
9.根据权利要求8所述的基于图生成的社交网络用户属性预测方法,其特征在于,在实际预测推断待预测属性用户的属性过程中,代入用户的文本特征图和用户社交关系图,生成输入用户与训练用户的边权值向量EInput_user={e1,e2,…,eN},其取值在[0,1]区间,如果用户的属性标签与训练用户的相同的可能性越大,则取值越趋近于1,反之越趋近于0;由此生成社交网络用户属性图;
基于社交网络用户属性图,即输入用户与训练用户的边权值向量EInput_user={e1,e2,...,eN},已知训练用户的属性标签,记为Label={l1,l2,...,lN},其中每个用户的属性标签用独热编码表示,则用户的属性标签如公式(5)所示:
Figure FDA0003614518280000051
10.基于图生成的社交网络用户属性预测系统,其特征在于,包括:
处理模块,所述处理模块用于采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;
生成模块,所述生成模块用于采集社交网络用户之间互动关系,根据用户之间的互动频数作为用户节点之间边的权重,生成用户文本特征图;
构建模块,所述构建模块基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;
划分模块,所述划分模块用于将用户文本特征图和用户社交关系图进行划分,获得测试集和训练集;
模型生成模块,所述模型生成模块基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;
最优化模块,所述最优化模块基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图作为训练目标,得到最优化的社交网络图生成模型;
预测模块,所述预测模块基于最优化的社交网络图生成模型,对待预测属性用户进行属性预测,得到社交网络中用户的属性标签。
CN202210439507.1A 2022-04-25 2022-04-25 基于图生成的社交网络用户属性预测方法及系统 Pending CN114741515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210439507.1A CN114741515A (zh) 2022-04-25 2022-04-25 基于图生成的社交网络用户属性预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210439507.1A CN114741515A (zh) 2022-04-25 2022-04-25 基于图生成的社交网络用户属性预测方法及系统

Publications (1)

Publication Number Publication Date
CN114741515A true CN114741515A (zh) 2022-07-12

Family

ID=82284252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210439507.1A Pending CN114741515A (zh) 2022-04-25 2022-04-25 基于图生成的社交网络用户属性预测方法及系统

Country Status (1)

Country Link
CN (1) CN114741515A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892019A (zh) * 2024-03-14 2024-04-16 南京信息工程大学 一种跨社交网络身份链接方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892019A (zh) * 2024-03-14 2024-04-16 南京信息工程大学 一种跨社交网络身份链接方法及装置
CN117892019B (zh) * 2024-03-14 2024-05-14 南京信息工程大学 一种跨社交网络身份链接方法及装置

Similar Documents

Publication Publication Date Title
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN111274405A (zh) 一种基于gcn的文本分类方法
CN106991085B (zh) 一种实体的简称生成方法及装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
Kirelli et al. Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN113268675B (zh) 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
CN112734154A (zh) 一种基于模糊数相似度的多因素舆情风险评估方法
CN110263343A (zh) 基于短语向量的关键词抽取方法及系统
CN111581379B (zh) 一种基于作文扣题度的自动作文评分计算方法
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN114741515A (zh) 基于图生成的社交网络用户属性预测方法及系统
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111241288A (zh) 一种大集中电力客户服务中心的突发事件感知系统以及构建方法
CN116452353A (zh) 一种财务数据管理方法及系统
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
CN113850483A (zh) 一种企业信用风险评级系统
CN113688633A (zh) 一种提纲确定方法及装置
Gong Analysis of internet public opinion popularity trend based on a deep neural network
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
CN113051886A (zh) 一种试题查重方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination