CN112528163B - 一种基于图卷积网络的社交平台用户职业预测方法 - Google Patents
一种基于图卷积网络的社交平台用户职业预测方法 Download PDFInfo
- Publication number
- CN112528163B CN112528163B CN202011404011.8A CN202011404011A CN112528163B CN 112528163 B CN112528163 B CN 112528163B CN 202011404011 A CN202011404011 A CN 202011404011A CN 112528163 B CN112528163 B CN 112528163B
- Authority
- CN
- China
- Prior art keywords
- user
- network
- users
- occupation
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 63
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 20
- 238000007477 logistic regression Methods 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000009304 pastoral farming Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000010276 construction Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图卷积网络的社交平台用户职业预测方法。首先爬取用户的社交网络数据构建网络结构邻接矩阵,利用bag‑of‑words表示用户个人简介构建节点属性特征矩阵,之后输入图卷积网络得到网络特征向量;然后再与由用户基本属性和行为属性构造的主用户属性特征向量进行拼接,得到主用户特征向量,并输入逻辑斯特回归分类器进行训练得到最终的职业分类模型。本发明充分利用用户在社交平台上留下的数据,使用图卷积网络模型构建社交网络,使用户职业预测更加准确;预测社交网络用户职业有利于用户画像的构建,可以优化平台的广告推荐、用户推荐算法,进而有效地增强平台用户粘性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于图卷积网络的社交平台用户职业预测方法。
背景技术
社交平台用户的特征预测是自然语言处理的一个热门主题。例如新浪微博作为一个大型的社交平台,就拥有几亿用户,用户在平台上活动产生了大量的用户属性(个人简介、性别、年龄、地区)、用户行为(评论、转发、点赞)以及用户社交关系(关注、粉丝)数据,数据挖掘研究和应用提供了大量的数据支持。对用户的某些特征进行预测可以为用户个性化推荐提供支撑,有利于为用户提供更好的服务、为平台创造更大的收益。同时,网络信息安全得到越来越多的重视,对用户的属性进行预测有利于提高对社交平台中用户身份识别的准确率,有利遏制和打击网络犯罪。
社交平台用户的个人基本属性以及用户活跃在平台上产生的大量文本数据可以构成用户的基本特征,同时,用户主页可以获取用户的关注用户以及粉丝,以此可以构建用户的社交网络关系图获得用户的社交网络特征。结合用户的基本特征以及社交网络特征对用户职业利用深度学习算法进行预测可以达到较高的分类精度。
在20世纪80年代,由David Runelhart、Geoffrey Hinton等人提出了用于训练多层神经网络的BP算法,将计算机的学习过程提高到以往不能企及的高度,使得神经网络再度迎来春天。由于传统的多层感知机很容易陷入局部最小,直接使用BP算法求取的分类效果不太明显,因此多伦多大学Geoffery hinton教授提出了Deep learning的概念,引入了概率图模型里的生成模型。它能从训练数据里通过不断地学习自动提取出所需要的特征,解决了传统手工特征提取考虑不周的问题,并且更好地对神经网络权重进行初始化,之后通过BP算法不断修正权重,得到的分类效果良好。
CNN自LeCun提出的LeNet网络结构在对手写数字识别上取得很好效果之后开始被广泛认知。CNN不需要对输入进行过多的预处理,通过卷积运算,可以学习到图像或文本的局部特征,从而达到一个良好的分类效果,在图像处理以及自然语言处理领域得到广泛运用。
图卷积网络(GCN)是近几年提出的可以很好地处理图结构数据的卷积神经网络模型。普通的CNN研究的对象需要具备规则的空间结构,比如图片是规则的正方形、语音是规则的序列。可以通过有限维度的矩阵将这些对象表示出来作为网络的输入。然而现实生活中许多数据不具备规则的空间结构,比如社交网络。利用GCN可以很好地对空间结构不规则的数据进行学习分类。此外,GCN的输入参数包括邻接矩阵以及特征矩阵,不仅能学习网络结构,还能利用网络节点的属性进行学习,相比一般的表示图结构的模型GCN学习到的信息更加充分。
文本的表示最早采用one-hot方法,每一个单词对应向量中的一位,但是one-hot方法占用的内存空间过大。有学者提出了Bag-of-words模型,该模型假定对于一个文档,忽略它的语法、句法以及单词顺序等要素,把它仅仅看作作干个词汇的集合,是信息检索领域常用的文档表示方法。用短文本预处理时用Bag-of-word表示能起到很好的模型训练效果。
目前的现有技术之一,专利“挖掘用户职业的方法、装置、计算机可读存储介质和终端设备”,基于用户基本特征,结合用户职业构建特征向量达到预测用户职业的目的。具体步骤如下:1、提取样本用户的特征值,将样本用户的特征值转换为样本用户的特征词;2、根据样本用户的特征词和样本用户的职业标签,获取所有职业标签嵌入向量和待挖掘用户的嵌入向量,其中,职业标签嵌入向量和待挖掘用户的嵌入向量隶属于同一向量空间;3、待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配,取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。该技术的缺点是没有利用用户社交网络结构。技术一仅仅利用用户的基本特征构建特征向量,特征维度太少。用户在平台上活跃会与许多其他用户发生联系,会产生社交网络图。社交网络图上的每个节点都是用户,含有大量的用户信息。将社交网络结构作为用户职业预测的特征之一可以大大提高用户职业预测的准确率。
目前的现有技术之二,专利“一种基于节点嵌入的在线社交网络用户缺失属性预测方法”,通过构建社交网络结构向量,利用相关用户属性进行学习,预测用户确实属性的值,具体步骤如下:1、收集在线社交网络数据;2、用node2vec方法进行节点嵌入得到表征网络结构的特征向量,构造表征用户其他特征的向量,并进行特征拼接得到网络模型;3、逻辑斯特回归模型进行分类预测。该方法的缺点是将网络节点用node2vec进行表示后直接与用户特征向量进行拼接,作为逻辑斯特回归模型的输入进行分类预测,没有利用神经网络模型结合网络结构特征和用户属性对社交网络进行更加充分的学习。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于图卷积网络的社交平台用户职业预测方法。本发明解决的主要问题,一是现有方法进行用户职业预测时特征维度过少的问题,即如何充分利用社交网络的结构以及用户的属性,构建神经网络模型进行学习。二是社交网络结构的特征学习问题,即如何利用图卷积网络结合网络结构特征和用户属性对社交网络进行更加充分的学习并进行分类预测。
为了解决上述问题,本发明提出了一种基于图卷积网络的社交平台用户职业预测方法,所述方法包括:
数据收集及预处理,爬取社交平台中的用户数据,其中用户数据包括用户基本数据以及社交网络数据,用户基本数据包括用户的基本属性、行为属性,社交网络数据包括用户好友列表以及好友列表用户的基本属性,被搜集了行为属性及好友列表的用户为主用户,好友列表用户为相关用户;
对所述社交网络数据中所述相关用户进行数据过滤,仅保留在5个及以上主用户的好友列表中出现过的相关用户作为所述主用户的相邻节点,若进行数据过滤后所述主用户的相关用户都被过滤掉,则直接用该主用户原有相关用户作为该主用户的相邻节点,之后最终确定的相邻节点与所述主用户节点构建网络结构邻接矩阵;
构建bag-of-words的词库,之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示,构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵;
将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习,对模型参数进行学习调整之后得到网络特征向量;
对所述主用户的基本属性和行为属性进行预处理,构造主用户属性特征向量;
将所述网络特征向量和所述主用户属性特征向量进行拼接,得到最终代表主用户特征的主用户特征向量;
将所述主用户特征向量输入逻辑斯特回归分类器,对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型;
将待预测职业的社交平台用户数据输入所述职业分类模型,模型输出结果即为预测得到的用户职业。
优选地,所述数据收集及预处理阶段,需要根据所述用户基本属性标定其所属职业用于训练,职业划分按照《中华人民共和国职业分类大典》分为8大类,用数字表示,分别为:0-各类专业及技术人员、1-国家党政机关或企事业单位人员、2-办事人员和有关人员、3-商业工作人员、4-服务性工作人员、5-农林牧渔劳动者、6-生产工作/运输工作和部分体力劳动者、7-不方便分类的其他劳动者。
优选地,所述构建bag-of-words的词库,之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示,构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵,具体为:
将包括所述主用户与所述相关用户在内的所有用户的个人简介作为语料库,对语料库进行分词、去停词之后保留出现频率最高的5000个词,作为bag-of-words的词库。
将用户的个人简介用bag-of-words表示得到用户节点的属性特征,构建与所述网络结构邻接矩阵结构相对应的节点属性特征矩阵,矩阵结构为dN*df,其中N表示用户节点数量,f表示特征数量。
优选地,所述将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习,对模型参数进行学习调整之后得到网络特征向量,具体为:
将所述网络结构邻接矩阵以及所述节点属性特征矩阵的集合划定为训练集和测试集;
图卷积网络模型表示为f(H(l),A),其中H(0)=X是所述节点属性特征矩阵,A是所述网络结构邻接矩阵:
图卷积网络模型的输入为所述网络结构邻接矩阵和所述节点属性特征矩阵,采用3层卷积层,激活函数选择ReLU,得到网络特征向量:
在训练过程通过调整参数使预测结果拟合程度更高。
优选地,所述将所述网络特征向量和所述主用户属性特征向量进行拼接,得到最终代表主用户特征的主用户特征向量,具体为:
在所述划定的训练集和测试集中,分别将所述主用户属性特征向量加到所述网络特征向量后进行拼接,得到结构为d主用户*d节点特征+属性特征的主用户特征向量。
优选地,所述将所述主用户特征向量输入逻辑斯特回归分类器,对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型,具体为:
使用逻辑斯特回归算法进行分类:
其中h是所述主用户特征向量,u是所述职业划分的代号,将问题转化为预测某个用户的职业是0,1,2…7号职业的概率y是多少,最后选择概率最高的作为其最终预测所得的职业。
逻辑斯特回归采用L2正则化:
本发明提出的一种基于图卷积网络的社交平台用户职业预测方法,通过采集社交平台用户的好友列表信息构建社交网络,同时采集用户基本属性以及行为特征,充分利用用户在社交平台上留下的数据;选取用户的个人简介的bag-of-word表示作为节点的特征,使用图卷积网络模型构建社交网络,使用户职业预测更加准确;预测社交网络用户职业有利于用户画像的构建,可以优化平台的广告推荐、用户推荐算法,进而有效地增强平台用户粘性。
附图说明
图1是本发明实施例的一种基于图卷积网络的社交平台用户职业预测方法的总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种基于图卷积网络的社交平台用户职业预测方法的总体流程图,如图1所示,该方法包括:
S1,数据收集及预处理,爬取社交平台中的用户数据,其中用户数据包括用户基本数据以及社交网络数据,用户基本数据包括用户的基本属性、行为属性,社交网络数据包括用户好友列表以及好友列表用户的基本属性,被搜集了行为属性及好友列表的用户为主用户,好友列表用户为相关用户;
S2,对所述社交网络数据中所述相关用户进行数据过滤,仅保留在5个及以上主用户的好友列表中出现过的相关用户作为所述主用户的相邻节点,若进行数据过滤后所述主用户的相关用户都被过滤掉,则直接用该主用户原有相关用户作为该主用户的相邻节点,之后最终确定的相邻节点与所述主用户节点构建网络结构邻接矩阵;
S3,构建bag-of-words的词库,之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示,构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵;
S4,将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习,对模型参数进行学习调整之后得到网络特征向量;
S5,对所述主用户的基本属性和行为属性进行预处理,构造主用户属性特征向量;
S6,将所述网络特征向量和所述主用户属性特征向量进行拼接,得到最终代表主用户特征的主用户特征向量;
S7,将所述主用户特征向量输入逻辑斯特回归分类器,对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型;
S8,将待预测职业的社交平台用户数据输入所述职业分类模型,模型输出结果即为预测得到的用户职业。
步骤S1,具体如下:
S1-1,以微博为例,主用户基本属性包括用户个人简介、性别、年龄、所在地、是否加V,用户行为包括原创微博数与总微博数的百分比、用户主页最热门微博的点赞数、转发数、评论数之和。好友列表指主用户的关注列表以及粉丝列表,此处存储相关用户的uid,好友列表基本属性特指相关用户的个人简介。
S1-2,根据所述用户基本属性标定其所属职业用于训练,职业划分按照《中华人民共和国职业分类大典》分为8大类,用数字表示,分别为:0-各类专业及技术人员、1-国家党政机关或企事业单位人员、2-办事人员和有关人员、3-商业工作人员、4-服务性工作人员、5-农林牧渔劳动者、6-生产工作/运输工作和部分体力劳动者、7-不方便分类的其他劳动者。
S1-3,对数据进行预处理。将用户性别表示为0-男性、1-女性、2-未知,,是否加V表示为0-否、1-是,所在地按照一线二线城市进行划分,1-一线城市、2-二线城市以此类推,用户年龄和用户的点赞数、转发数、评论数、原创微博数与总微博数的百分比则有其具体的数字不需要进行数据抽象。之后对数据进行标准化处理。标准化处理是为了防止数据过大的特征过于突出而导致其他特征被削弱。
步骤S2,具体如下:
S2-1,对S1得到的相关用户数据进行过滤,仅保留在5个及以上主用户的好友列表中出现过的相关用户作为主用户的相邻节点。
S2-2,数据过滤之后导致少数主用户失去了所有相关用户,则直接用该主用户原有相关用户作为该主用户的相邻节点。
S2-3,为预处理完的用户社交网络构建邻接矩阵,矩阵结构为dN*dN(N表示节点数量)。
步骤S3,具体如下:
S3-1,将包括主用户与相关用户在内的所有用户的个人简介作为语料库,对语料库进行分词、去停词之后保留出现频率最高的5000个词,作为bag-of-words的词库。
S3-2,将用户的个人简介用bag-of-words表示得到用户节点的属性特征,构建与网络结构邻接矩阵结构相对应的节点属性特征矩阵,矩阵结构为dN*df(f表示特征数量)。由于一开始对主用户职业进行判断很大程度上是根据主用户个人简介进行判断的,为了避免其因为权重过大而无法突出社交网络特征对于分类结果的影响,将主用户的属性特征设为空。
步骤S4,具体如下:
S4-1,将网络结构邻接矩阵以及节点属性特征矩阵的集合的80%作为训练集,20%作为测试集。在神经网络的训练中,训练集是神经网络学习数据分布的来源,而测试集则是用来检测模型有没有发生过拟合,可以衡量模型学习的效果。
S4-2,图卷积网络模型表示为f(H(l),A),其中H(0)=X是所述节点属性特征矩阵,A是所述网络结构邻接矩阵:
S4-3,在图卷积网络模型的每一层中,每个节点通过聚集其邻接节点的特征,再通过W和b进行线性转化。图卷积网络是一个多层的图卷积神经网络,每一个卷积层仅处理一阶领域信息,通过叠加若干卷积层可以实现多阶领域的信息传递。
S4-4,图卷积网络模型的输入为网络结构邻接矩阵和节点属性特征矩阵,采用3层卷积层,激活函数选择ReLU,得到网络特征向量:
S4-5,在训练过程通过调整参数使预测结果拟合程度更高。
步骤S5,具体如下:
S5-1,将转发数、评论数、点赞数等用户行为数据进行数据标准化处理,对用户属性中的用户所在地进行标号处理,得到经过预处理的用户属性及行为数据。
S5-2,经过预处理的用户属性以及行为数据按照用户性别、年龄、是否加V、所在地、点赞数、转发数、评论数、原创微博占总微博数的百分比的顺序构建主用户属性特征向量。
步骤S6,具体如下:
在所述划定的训练集和测试集中,分别将所述主用户属性特征向量加到所述网络特征向量后进行拼接,得到结构为d主用户*d节点特征+属性特征的主用户特征向量。
步骤S7,具体如下:
S7-1,使用逻辑斯特回归算法进行分类:
其中h是所述主用户特征向量,u是所述职业划分的代号,将问题转化为预测某个用户的职业是0,1,2…7号职业的概率y是多少,最后选择概率最高的作为其最终预测所得的职业。
S7-2,逻辑斯特回归采用L2正则化:
本发明实施例提出的一种基于图卷积网络的社交平台用户职业预测方法,通过采集社交平台用户的好友列表信息构建社交网络,同时采集用户基本属性以及行为特征,充分利用用户在社交平台上留下的数据;选取用户的个人简介的bag-of-word表示作为节点的特征,使用图卷积网络模型构建社交网络,使用户职业预测更加准确;预测社交网络用户职业有利于用户画像的构建,可以优化平台的广告推荐、用户推荐算法,进而有效地增强平台用户粘性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于图卷积网络的社交平台用户职业预测方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于图卷积网络的社交平台用户职业预测方法,其特征在于,所述方法包括:
数据收集及预处理,爬取社交平台中的用户数据,其中用户数据包括用户基本数据以及社交网络数据,用户基本数据包括用户的基本属性、行为属性,社交网络数据包括用户好友列表以及好友列表用户的基本属性,被搜集了行为属性及好友列表的用户为主用户,好友列表用户为相关用户;
对所述社交网络数据中所述相关用户进行数据过滤,仅保留在5个及以上主用户的好友列表中出现过的相关用户作为所述主用户的相邻节点,若进行数据过滤后所述主用户的相关用户都被过滤掉,则直接用该主用户原有相关用户作为该主用户的相邻节点,之后最终确定的相邻节点与所述主用户节点构建网络结构邻接矩阵;
构建bag-of-words的词库,之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示,构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵;
将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习,对模型参数进行学习调整之后得到网络特征向量;
对所述主用户的基本属性和行为属性进行预处理,构造主用户属性特征向量;
将所述网络特征向量和所述主用户属性特征向量进行拼接,得到最终代表主用户特征的主用户特征向量;
将所述主用户特征向量输入逻辑斯特回归分类器,对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型;
将待预测职业的社交平台用户数据输入所述职业分类模型,模型输出结果即为预测得到的用户职业。
2.如权利要求1所述的一种基于图卷积网络的社交平台用户职业预测方法,其特征在于,所述数据收集及预处理阶段,需要根据所述用户基本属性标定其所属职业用于训练,职业划分按照《中华人民共和国职业分类大典》分为8大类,用数字表示,分别为:0-各类专业及技术人员、1-国家党政机关或企事业单位人员、2-办事人员和有关人员、3-商业工作人员、4-服务性工作人员、5-农林牧渔劳动者、6-生产工作/运输工作和部分体力劳动者、7-不方便分类的其他劳动者。
3.如权利要求1所述的一种基于图卷积网络的社交平台用户职业预测方法,其特征在于,所述构建bag-of-words的词库,之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示,构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵,具体为:
将包括所述主用户与所述相关用户在内的所有用户的个人简介作为语料库,对语料库进行分词、去停词之后保留出现频率最高的5000个词,作为bag-of-words的词库;
将用户的个人简介用bag-of-words表示得到用户节点的属性特征,构建与所述网络结构邻接矩阵结构相对应的节点属性特征矩阵,矩阵结构为dN*df,其中N表示用户节点数量,f表示特征数量。
4.如权利要求1所述的一种基于图卷积网络的社交平台用户职业预测方法,其特征在于,所述将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习,对模型参数进行学习调整之后得到网络特征向量,具体为:
将所述网络结构邻接矩阵以及所述节点属性特征矩阵的集合划定为训练集和测试集;
图卷积网络模型表示为f(H(l),A),其中H(0)=X是所述节点属性特征矩阵,A是所述网络结构邻接矩阵:
图卷积网络模型的输入为所述网络结构邻接矩阵和所述节点属性特征矩阵,采用3层卷积层,激活函数选择ReLU,得到网络特征向量:
在训练过程通过调整参数使预测结果拟合程度更高。
5.如权利要求4所述的一种基于图卷积网络的社交平台用户职业预测方法,其特征在于,所述将所述网络特征向量和所述主用户属性特征向量进行拼接,得到最终代表主用户特征的主用户特征向量,具体为:
在所述划定的训练集和测试集中,分别将所述主用户属性特征向量加到所述网络特征向量后进行拼接,得到结构为d主用户*d节点特征+属性特征的主用户特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404011.8A CN112528163B (zh) | 2020-12-04 | 2020-12-04 | 一种基于图卷积网络的社交平台用户职业预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011404011.8A CN112528163B (zh) | 2020-12-04 | 2020-12-04 | 一种基于图卷积网络的社交平台用户职业预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528163A CN112528163A (zh) | 2021-03-19 |
CN112528163B true CN112528163B (zh) | 2022-03-25 |
Family
ID=74997483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011404011.8A Active CN112528163B (zh) | 2020-12-04 | 2020-12-04 | 一种基于图卷积网络的社交平台用户职业预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528163B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505307B (zh) * | 2021-09-06 | 2021-12-07 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
CN114358007A (zh) * | 2022-01-11 | 2022-04-15 | 平安科技(深圳)有限公司 | 多标签识别方法、装置、电子设备及存储介质 |
CN114741515B (zh) * | 2022-04-25 | 2024-07-26 | 西安交通大学 | 基于图生成的社交网络用户属性预测方法及系统 |
CN115269845B (zh) * | 2022-08-01 | 2023-06-23 | 安徽大学 | 一种基于社交网络用户人格的网络对齐方法及系统 |
CN115952438B (zh) * | 2022-12-12 | 2023-11-17 | 中国科学院软件研究所 | 社交平台用户属性预测方法、系统、移动设备及存储介质 |
CN116127204B (zh) * | 2023-04-17 | 2023-07-18 | 中国科学技术大学 | 多视角用户画像方法、多视角用户画像系统、设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523051A (zh) * | 2020-04-24 | 2020-08-11 | 山东师范大学 | 基于图卷积矩阵分解的社交兴趣推荐方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544535B2 (en) * | 2019-03-08 | 2023-01-03 | Adobe Inc. | Graph convolutional networks with motif-based attention |
-
2020
- 2020-12-04 CN CN202011404011.8A patent/CN112528163B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523051A (zh) * | 2020-04-24 | 2020-08-11 | 山东师范大学 | 基于图卷积矩阵分解的社交兴趣推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于图卷积网络的社交网络Spammer检测技术;曲强等;《网络与信息安全学报》;20180515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528163A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528163B (zh) | 一种基于图卷积网络的社交平台用户职业预测方法 | |
Kumar et al. | A deep multi-modal neural network for informative Twitter content classification during emergencies | |
Zhang et al. | A recommendation model based on deep neural network | |
CN112241481B (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
CN110263257B (zh) | 基于深度学习处理多源异构数据的推荐方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111104975B (zh) | 一种基于广度学习的信用评估方法 | |
CN110457562A (zh) | 一种基于神经网络模型的食品安全事件分类方法及装置 | |
CN113268675A (zh) | 一种基于图注意力网络的社交媒体谣言检测方法和系统 | |
CN113553510B (zh) | 一种文本信息推荐方法、装置及可读介质 | |
Van Quan et al. | Real-time earthquake detection using convolutional neural network and social data | |
Bedi et al. | CitEnergy: A BERT based model to analyse Citizens’ Energy-Tweets | |
CN110909529A (zh) | 一种公司形象提升系统的用户情感分析和预判系统 | |
Vie et al. | Using posters to recommend anime and mangas in a cold-start scenario | |
Dahou et al. | A social media event detection framework based on transformers and swarm optimization for public notification of crises and emergency management | |
Chakraborty et al. | Sentiment analysis of Bengali facebook data using classical and deep learning approaches | |
CN116228368A (zh) | 一种基于深度多行为网络的广告点击率预测方法 | |
CN113516094B (zh) | 一种用于为文档匹配评议专家的系统以及方法 | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
CN111966828B (zh) | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 | |
Harris | Searching for Diverse Perspectives in News Articles: Using an LSTM Network to Classify Sentiment. | |
Ahan et al. | Social network analysis using data segmentation and neural networks | |
CN111597580A (zh) | 机器人听觉隐私信息监听处理方法 | |
Venkataraman et al. | FBO‐RNN: Fuzzy butterfly optimization‐based RNN‐LSTM for extracting sentiments from Twitter Emoji database | |
CN115238075B (zh) | 一种基于超图池化的文本情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |