CN115952438B - 社交平台用户属性预测方法、系统、移动设备及存储介质 - Google Patents
社交平台用户属性预测方法、系统、移动设备及存储介质 Download PDFInfo
- Publication number
- CN115952438B CN115952438B CN202211596521.9A CN202211596521A CN115952438B CN 115952438 B CN115952438 B CN 115952438B CN 202211596521 A CN202211596521 A CN 202211596521A CN 115952438 B CN115952438 B CN 115952438B
- Authority
- CN
- China
- Prior art keywords
- user
- matrix
- incompleteness
- social platform
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 135
- 238000004220 aggregation Methods 0.000 claims abstract description 31
- 230000002776 aggregation Effects 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012546 transfer Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 35
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种社交平台用户属性预测方法、系统、移动设备及存储介质,社交平台用户属性预测方法包括以下步骤:采集社交平台用户的数据;对于采集到的数据进行文本特征的提取;将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;计算不完全程度;根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;根据计算出的权重基于异构图网络模型进行节点特征的聚合;使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。根据本发明,适用于不同在线社交平台,预测的准确率高。
Description
技术领域
本发明涉及一种社交平台用户属性预测方法、社交平台用户属性预测系统、移动设备及存储介质。
背景技术
用户在使用在线社交平台时,会产生个人资料、历史发文、社交关系等数据。基于这些数据我们可以预测用户属性,如性别、年龄、职业、收入、宗教信仰等。预测用户属性是用户画像的基础任务。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,成为用户画像,才能为用户提供有针对性的服务。
在现有技术中,有一种社交平台用户属性预测方法为基于文本特征的预测方法,该方法使用用户的历史发文构建文本特征,然后使用传统机器学习或者神经网络模型对用户属性进行预测。例如使用多种方法构建文本特征,如使用NPMI(Normalised PointwiseMutual Information,标准化点互信息)计算词与词的相似度矩阵,然后进行SVD(singularvalue decomposition,奇异值分解)将词嵌入到低维空间,使用word2vec(word tovector,词向量)方法进学习到词嵌入等。得到文本特征之后,使用GP(Gaussian Process,高斯过程)预测用户属性。但是,这种预测方法只考虑到不同类用户的行文风格、文本内容、文本主题等文本特征不同,没有用到社交网络结构。只使用文本构建的特征向量信息稀疏,含有较少的用户信息。
在现有技术中,还有一种社交平台用户属性预测方法在文本特征的基础上增加了用户的社交网络结构特征。例如专利CN108647800B使用node2vec(node to vector,节点向量)方法学习到用户的社交网络结构特征,处理用户行为和已知数据得到特征向量,然后将这两种特征向量相拼接,最后使用逻辑回归分类器对用户属性进行预测。但是,这种预测方法只是简单的将社交网络结构特征和文本特征拼接,没有考虑在实际情况中,用户的特征是如何在社交网络中传递的,没有将网络结构信息和文本信息很好的结合。
在现有技术中,还有一种社交平台用户属性预测方法使用图卷积网络将用户社交网络结构特征和文本特征相结合。该方法首先使用获取到的用户社交关系数据构建社交网络图,然后使用图卷积网络模型对用户的文本特征进行聚合,在多层聚合之后可以得到用户的属性类别。例如专利CN112528163B使用图卷积网络得到用户的网络特征向量,预处理用户的基本属性和行为属性得到用户的属性特征向量,然后将这两种特征向量拼接,最后训练逻辑回归分类器得到职业分类模型。但是,这种预测方法在社交网络图中将主用户和相关用户视为相同类型的节点,使用相同的聚合方式,由于主用户和相关用户爬取到的数据和图结构都有很大的差异,使用相同聚合方式聚合到的特征不准确。
由此可见,能否基于现有技术中的不足,提供一种改进的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高,成为本领域技术人员亟待解决的技术难题。
发明内容
发明所要解决的课题
本发明的目的是在于克服现有技术的缺陷,提供一种改进的社交平台用户属性预测方法、社交平台用户属性预测系统、移动设备及存储介质。根据本发明所提供的改进的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高。
用于解决课题的方法
本发明第一方面涉及一种社交平台用户属性预测方法,包括以下步骤:
采集社交平台用户的数据;
对于采集到的数据进行文本特征的提取;
将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
根据采集到的数据计算社交平台用户的社交关系的不完全程度;
根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
根据计算出的权重基于异构图网络模型进行节点特征的聚合;
使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测,
在不完全程度的计算中,先计算主用户关注的不完全程度,然后计算主用户被关注的不完全程度/>,最后计算邻居用户被关注的不完全程度/>,邻居用户是主用户的关注的用户,
,主用户关注的不完全程度/>按照下式进行计算,
是主用户集,/>是用户t获取到关注列表中的用户数,/>是用户t个人简介中的关注数,
主用户被关注的不完全程度按照下式进行计算,
,/>是主用户集,/>是用户t出现在获取到的关注列表中的次数, />是用户t个人简介中的关注数,
邻居用户被关注的不完全程度按照下式进行计算,
,/>是邻居用户集,/>是用户t出现在获取到的关注列表中的次数,/>是用户t个人简介中的粉丝数,
在块相似矩阵Q的计算中,先计算主用户关注的块矩阵,然后计算主用户被关注的块矩阵/>,最后计算邻居用户被关注的块矩阵/>,基于主用户关注的块矩阵/>、主用户被关注的块矩阵/>、邻居用户被关注的块矩阵/>的加权求和而得到块矩阵H,按照下式进行块相似矩阵Q的计算,
。
优选地,采集到的数据包括:社交平台用户的个人资料、历史发文、关注列表、关注列表中用户的个人资料。
优选地,文本特征包括:主用户个人简介特征、主用户历史发文特征、邻居用户个人简介特征、邻居用户历史发文特征。
优选地,根据主用户个人简介特征生成伪标签矩阵。
优选地,将主用户个人简介特征和主用户历史发文特征进行拼接,将邻居用户个人简介特征和邻居用户历史发文特征进行拼接,作为异构图网络模型的输入。
本发明第二方面涉及一种社交平台用户属性预测系统,包括:
数据采集模块,用于采集社交平台用户的数据;
特征提取模块,用于对于采集到的数据进行文本特征的提取;
伪标签矩阵生成模块,用于将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
程度计算模块,用于根据采集到的数据计算社交平台用户的社交关系的不完全程度;
块相似矩阵计算模块,用于根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
权重计算模块,用于根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
特征聚合模块,用于根据计算出的权重基于异构图网络模型进行节点特征的聚合;
属性预测模块,用于使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测,
在不完全程度的计算中,先计算主用户关注的不完全程度,然后计算主用户被关注的不完全程度/>,最后计算邻居用户被关注的不完全程度/>,邻居用户是主用户的关注的用户,
,主用户关注的不完全程度/>按照下式进行计算,
是主用户集,/>是用户t获取到关注列表中的用户数,/>是用户t个人简介中的关注数,
主用户被关注的不完全程度按照下式进行计算,
,/>是主用户集,/>是用户t出现在获取到的关注列表中的次数, />是用户t个人简介中的关注数,
邻居用户被关注的不完全程度按照下式进行计算,
,/>是邻居用户集,/>是用户t出现在获取到的关注列表中的次数,/>是用户t个人简介中的粉丝数,
在块相似矩阵Q的计算中,先计算主用户关注的块矩阵,然后计算主用户被关注的块矩阵/>,最后计算邻居用户被关注的块矩阵/>,基于主用户关注的块矩阵/>、主用户被关注的块矩阵/>、邻居用户被关注的块矩阵/>的加权求和而得到块矩阵H,按照下式进行块相似矩阵Q的计算,
。
本发明第三方面涉及一种移动设备,包括:
处理器;
输入装置;以及
存储器,其中存储有程序,
在处理器执行所述程序时,进行以下操作:
采集社交平台用户的数据;
对于采集到的数据进行文本特征的提取;
将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
根据采集到的数据计算社交平台用户的社交关系的不完全程度;
根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
根据计算出的权重基于异构图网络模型进行节点特征的聚合;
使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测,
在不完全程度的计算中,先计算主用户关注的不完全程度,然后计算主用户被关注的不完全程度/>,最后计算邻居用户被关注的不完全程度/>,邻居用户是主用户的关注的用户,
,主用户关注的不完全程度/>按照下式进行计算,
是主用户集,/>是用户t获取到关注列表中的用户数,/>是用户t个人简介中的关注数,
主用户被关注的不完全程度按照下式进行计算,
,/>是主用户集,/>是用户t出现在获取到的关注列表中的次数, />是用户t个人简介中的关注数,
邻居用户被关注的不完全程度按照下式进行计算,
,/>是邻居用户集,/>是用户t出现在获取到的关注列表中的次数,/>是用户t个人简介中的粉丝数,
在块相似矩阵Q的计算中,先计算主用户关注的块矩阵,然后计算主用户被关注的块矩阵/>,最后计算邻居用户被关注的块矩阵/>,基于主用户关注的块矩阵/>、主用户被关注的块矩阵/>、邻居用户被关注的块矩阵/>的加权求和而得到块矩阵H,按照下式进行块相似矩阵Q的计算,
。
本发明第四方面涉及一种存储介质,用于存储程序,所述程序在被执行时使得如本发明第三方面所述的移动设备进行以下操作,包括:
采集社交平台用户的数据;
对于采集到的数据进行文本特征的提取;
将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
根据采集到的数据计算社交平台用户的社交关系的不完全程度;
根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
根据计算出的权重基于异构图网络模型进行节点特征的聚合;
使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。
发明的效果
根据本发明所涉及的社交平台用户属性预测方法、社交平台用户属性预测系统、移动设备及存储介质,有效解决了现有预测方法中适用性不高预测不准的问题,适用于不同在线社交平台的用户属性预测,预测的准确率高。
附图说明
图1为本发明的第一实施方式的社交平台用户属性预测方法的流程图。
图2为图1中的社交平台用户属性预测方法中社交平台用户关注网络的一个例子的示意图。
图3为本发明的第二实施方式的社交平台用户属性预测系统的示意图。
具体实施方式
以下,首先对于本发明所涉及的社交平台用户属性预测方法详细地进行说明。
图1为本发明的第一实施方式的社交平台用户属性预测方法的流程图。如图1所示,该社交平台用户属性预测方法的具体流程为,首先采集社交平台用户的数据(步骤1)。采集到的数据优选为包括:社交平台用户的个人资料、历史发文、关注列表、关注列表中用户的个人资料,但并不限于此,也可以进一步包括其他数据。个人资料例如可以为:用户id、用户名、用户关注数、用户粉丝数、性别、年龄、个人简介等。将被采集数据的用户称为MU(Main user,主用户),将主用户关注列表中的用户称为NU(Neighbor user,邻居用户)。主用户的属性标签可以直接使用个人资料中的数据或者根据个人资料中的数据人工进行标注。如图2中的社交平台用户关注网络所示,MU对NU进行关注,同时NU有可能关注MU,也有可能不关注MU。在现有技术中,通常会将主用户和邻居用户视为相同类型用户,使用相同的参数进行特征聚合,但由于主用户和邻居用户爬取数据的不同,他们的特征和图结构差异是很大的,如果进行相同的处理,会导致预测的准确率大幅度减低。因此在本发明中将主用户和邻居用户视为不同类型的节点进行处理,从而预测的准确度高,也更加合理。
然后对于采集到的数据进行文本特征的提取(步骤2)。文本特征优选为包括:主用户个人简介特征、主用户历史发文特征、邻居用户个人简介特征、邻居用户历史发文特征,但并不限于此,也可以进一步包括其他文本特征。例如采取如下步骤进行文本特征的提取,首先构建个人简介词典和历史发文词典。统计所有用户(主用户和邻居用户)个人资料个人简介字段中出现词的次数,将其中出现最频繁的多个词语,例如5000个词语作为个人简介词典。统计所有主用户历史发文中出现词的次数,将其中出现最频繁的多个词语,例如5000个词语作为历史发文词典。然后将主用户个人资料个人简介中的词根据个人简介词典生成bag-of-words向量,再进行归一化处理,提取出主用户个人简介特征。将主用户历史发文中的词根据历史发文词典生成bag-of-words向量,然后进行归一化处理,提取出主用户历史发文特征。将邻居用户个人资料个人简介中的词根据个人简介词典生成bag-of-words向量,然后进行归一化处理,提取出邻居用户个人简介特征。因为没有获取邻居用户的历史发文,将零向量作为邻居用户历史发文特征。
然后将提取的文本特征输入到特征训练MLP(multi-layer perception,多层感知机),从而对于社交平台用户生成伪标签矩阵(步骤3)。感知机作为人工神经网络,网络过于简单,不能解决非线性问题等。多层感知机是在单层神经网络基础上引入一个或多个隐藏层,使神经网络有多个网络层。例如可以使用主用户个人简介特征训练MLP,将所有用户个人简介特征输入到训练好的MLP中得到所有用户的伪标签矩阵B,维度是|V|×C(|V|是所有用户数,C表示属性的类别数)。每个用户的伪标签向量维度为1×C(C表示属性的类别数)。
根据采集到的数据计算社交平台用户的社交关系的不完全程度(步骤4)。
例如可以先计算主用户关注的不完全程度。/>是主用户集,/>是用户t获取到关注列表中的用户数,/>是用户t个人简介中的关注数,
,然后计算主用户被关注的不完全程度/>。虽然只获取了主用户的关注,但是如果主用户关注了某个主用户就隐含了主用户被关注的信息。/>是主用户集,/>是用户t出现在获取到的关注列表中的次数, />是用户t个人简介中的关注数,
,最后计算邻居用户被关注的不完全程度/>。邻居用户是作为主用户的关注被获取到的,所以邻居用户有被关注的信息。/>是主用户集,是用户t出现在获取到的关注列表中的次数, />是用户t个人简介中的粉丝数。
,然后根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵(步骤5)。步骤5中的块相似矩阵将用于在后续的步骤7中引导异构图网络的特征聚合。在现有技术中,一般都使用图卷积网络进行特征聚合,但是所有邻接节点使用的权重是相同的,这与实际情况不符,从而会导致属性预测的准确率很低。为了解决这个技术问题,本发明采用了块相似矩阵,同类的邻接节点使用相同的权重进行聚合,不同类的邻接节点使用不同的权重进行聚合。例如优选为基于以下三个块矩阵加权求和而计算块相似矩阵:主用户关注的块矩阵、主用户被关注的块矩阵、邻居用户被关注的块矩阵,但并不限于此,也可以基于其他块矩阵。首先计算主用户关注的块矩阵/>,(表征主用户关注网络中类别之间连边的概率),矩阵维度为C×C(C表示属性的类别数)。使用伪标签向量、主用户关注的不完全程度和主用户关注的边计算类别之间连边的概率。然后计算主用户被关注的块矩阵/>(表征主用户被关注网络中类别之间连边的概率),矩阵维度为C×C。使用伪标签向量、主用户被关注的不完全程度和主用户被关注的边计算类别之间连边的概率。然后计算邻居用户被关注的块矩阵/>(表征邻居用户被关注网络中类别之间连边的概率),矩阵维度为C×C。使用得到的伪标签向量、邻居用户被关注的不完全程度和邻居用户被关注的边计算类别之间连边的概率。这三个块矩阵加权求和得到整个图的块矩阵H。权重是使用节点个数和不完全程度计算得到的。计算整个图的块相似矩阵Q。
。
如上所述,在块相似矩阵中引入了用户社交关系的不完全程度,可以让计算的块相似矩阵更能代表真实社交网络的规律,节点聚合到的特征更加准确,从而大幅度提高了预测的准确性。
然后根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重(步骤6)。例如根据以下方法计算权重。用户s关注用户t时,s向t传递特征时的权重为。
其中B是步骤3中的伪标签矩阵,Q是步骤5中的块相似矩阵,N-1(t)的含义是t出现在哪些用户的关注列表中。用户s关注用户t时,t向s传递特征时的权重为。
其中N(s)含义是s关注列表中的用户。
然后根据计算出的权重基于异构图网络模型进行节点特征的聚合(步骤7)。例如根据以下方法进行聚合。首先,将主用户和邻居用户作为异构节点类型,将主用户的关注作为有向边,构建异构图。
异构图G的定义为:G(V,E,O,R),其中V是节点集,E是边集,O是节点类型集(两种类型:MU(主用户),NU(邻居用户)),R是边类型集(两种类型:following(关注),following-1(被关注))。
:/>,
节点、边到关系类型的映射(4种关系类型:<MU,following,MU><MU,following-1,MU><MU,following,NU><NU,following-1,MU>)
优选地,将每个用户的个人简介特征和历史发文特征拼接为特征h0 [t]作为异构图网络模型的输入。优选地,以如下的更新公式作为第l层节点t特征的更新公式。
主用户节点的更新公式:
其中是线性投影,/>是源节点s在l-1层的特征,/>是聚合到的关注信息,/>是聚合到的被关注信息,/>是目的节点t在l层的特征邻居用户节点的更新公式:
经过L层的特征聚合之后节点t的特征向量为h[t]。
然后使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测(步骤8)。
根据下式得到预测结果Y:
其中h是所有用户经过异构网络模型特征聚合之后的特征向量,Softmax为归一化指数函数,执行有限项离散概率分布的梯度对数归一化。
以下,将对本发明合适的实施例做说明,不过本发明的实施形式不限于此。
<实施例1>
实施例1为对单个用户的年龄属性进行预测。
年龄共分为四类:小于27为第0类,27-36为第1类,37-49为第2类, 50以上为第3类。
采集1个用户(MU),该MU关注了10个NU,将该一个MU和10个NU的用户数据按照上述的步骤1-步骤8执行之后,预测出该用户(MU)的年龄属性类别为第1类,即27-36岁。通过后续的确认,预测的年龄属性符合用户的真实情况。
<实施例2>
实施例2为对多个用户的年龄属性进行预测。
采集100个用户(MU),从这100个用户的关注列表得到2970个邻居用户(NU),将将该100个MU和2970个NU的用户数据按照上述的步骤1-步骤8执行之后,预测出100个用户MU的年龄属性类别。通过后续的确认,预测的年龄属性与100个用户的真实情况符合率达到了70%以上。
根据本发明的第一实施方式的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高。
具体来说,现有技术在获取用户的社交关系时,既获取用户的关注列表,也获取用户的粉丝列表。由于在线社交平台的限制,获取到的用户社交关系是不完全的。在获取用户的社交关系时,用户关注列表的不完全程度低,获取用户的粉丝列表会导致预测的准确率降低,因此本发明为了解决该技术问题,只获取用户的关注列表。同种属性用户在关注网络中有相似的网络结构,所以只爬取用户的关注,也可以学习到属性各类别的网络结构。
此外,现有技术在使用图神经网络进行特征传递时,所有邻接节点使用相同的权重,忽略了在社交网络中,用户既会与相同属性用户相连也会与不同属性用户相连会导致预测的准确率降低,因此本发明为了解决该技术问题,通过计算类别连边分布的相似性来表示类别之间的相似程度。同类的邻接节点使用相同的权重进行聚合,不同类的邻接节点使用不同的权重进行聚合。在计算类别之间的相似程度时,本发明引入了获取到的用户社交关系不完全。由于社交平台的限制,用户的社交关系无法完整获取。本发明在计算块相似矩阵和节点更新公式中都引入了用户社交关系的不完全程度。这可以让计算的块相似矩阵更能代表真实社交网络的规律,节点聚合到的特征更加准确。
此外,现有技术在进行特征传递时,将主用户和邻居用户视为相同类型的节点,没有考虑主用户和邻居用户获取到的数据差异很大,会导致预测的准确率降低,因此本发明为了解决该技术问题,将主用户和邻居用户视为不同类型的节点,使用异构图网络模型传递特征,更好地聚合了节点特征。现有技术在进行特征传递时,只传递了所有用户的基本属性中的个人简介信息,没有传递主用户的基本数据,会导致预测的准确率降低,因此本发明为了解决该技术问题,将先将用户的个人简介特征和基本数据特征拼接,然后再输入到社交网络中传递。这样使得所有节点都学习到了更多的用户信息。
本发明的第二实施方式的社交平台用户属性预测系统与第一实施方式的社交平台用户属性预测方法相对应,因此第一实施方式中的各种变形方式也同样适用于第二实施方式,在此不再赘述。
如上所述,根据本发明的第二实施方式的社交平台用户属性预测系统,适用于不同在线社交平台的用户属性预测,预测的准确率高。
接着,对于本发明所涉及的移动设备详细地进行说明。
移动设备包括:处理器;输入装置;以及存储器,其中存储有程序,在处理器执行所述程序时,进行以下操作:采集社交平台用户的数据;对于采集到的数据进行文本特征的提取;将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;根据采集到的数据计算社交平台用户的社交关系的不完全程度;根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;根据计算出的权重基于异构图网络模型进行节点特征的聚合;使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。
本发明的第三实施方式的移动设备与第一实施方式的社交平台用户属性预测方法相对应,因此第一实施方式中的各种变形方式也同样适用于第三实施方式,在此不再赘述。
如上所述,根据本发明的第三实施方式的移动设备,适用于不同在线社交平台的用户属性预测,预测的准确率高。
接着,对于本发明所涉及的存储介质详细地进行说明。
存储介质用于存储程序,程序在被执行时使得如本发明第三实施方式的移动设备进行以下操作,包括:采集社交平台用户的数据;对于采集到的数据进行文本特征的提取;将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;根据采集到的数据计算社交平台用户的社交关系的不完全程度;根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;根据计算出的权重基于异构图网络模型进行节点特征的聚合;使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。
本发明的第四实施方式的存储介质与第一实施方式的社交平台用户属性预测方法相对应,因此第一实施方式中的各种变形方式也同样适用于第四实施方式,在此不再赘述。
如上所述,根据本发明的第四实施方式的存储介质,适用于不同在线社交平台的用户属性预测,预测的准确率高。
产业应用性
根据本发明所涉及的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (8)
1.一种社交平台用户属性预测方法,其特征在于,包括以下步骤:
采集社交平台用户的数据;
对于采集到的数据进行文本特征的提取;
将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
根据采集到的数据计算社交平台用户的社交关系的不完全程度;
根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
根据计算出的权重基于异构图网络模型进行节点特征的聚合;
使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测,
在不完全程度的计算中,先计算主用户关注的不完全程度,然后计算主用户被关注的不完全程度/>,最后计算邻居用户被关注的不完全程度/>,邻居用户是主用户的关注的用户,
主用户关注的不完全程度按照下式进行计算,
,
是主用户集,/>是用户t获取到关注列表中的用户数,/>是用户t个人简介中的关注数,
主用户被关注的不完全程度按照下式进行计算,
,/>是主用户集,/>是用户t出现在获取到的关注列表中的次数,/>是用户t个人简介中的关注数,
邻居用户被关注的不完全程度按照下式进行计算,
,/>是邻居用户集,/>是用户t出现在获取到的关注列表中的次数,/>是用户t个人简介中的粉丝数,
在块相似矩阵Q的计算中,先计算主用户关注的块矩阵,然后计算主用户被关注的块矩阵/>,最后计算邻居用户被关注的块矩阵/>,基于主用户关注的块矩阵/>、主用户被关注的块矩阵/>、邻居用户被关注的块矩阵/>的加权求和而得到块矩阵H,按照下式进行块相似矩阵Q的计算,
。
2.根据权利要求1所述的社交平台用户属性预测方法,其特征在于,
采集到的数据包括:社交平台用户的个人资料、历史发文、关注列表、关注列表中用户的个人资料。
3.根据权利要求1所述的社交平台用户属性预测方法,其特征在于,
文本特征包括:主用户个人简介特征、主用户历史发文特征、邻居用户个人简介特征、邻居用户历史发文特征。
4.根据权利要求3所述的社交平台用户属性预测方法,其特征在于,
根据主用户个人简介特征生成伪标签矩阵。
5.根据权利要求3所述的社交平台用户属性预测方法,其特征在于,
将主用户个人简介特征和主用户历史发文特征进行拼接,将邻居用户个人简介特征和邻居用户历史发文特征进行拼接,作为异构图网络模型的输入。
6.一种社交平台用户属性预测系统,其特征在于,包括:
数据采集模块,用于采集社交平台用户的数据;
特征提取模块,用于对于采集到的数据进行文本特征的提取;
伪标签矩阵生成模块,用于将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
程度计算模块,用于根据采集到的数据计算社交平台用户的社交关系的不完全程度;
块相似矩阵计算模块,用于根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
权重计算模块,用于根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
特征聚合模块,用于根据计算出的权重基于异构图网络模型进行节点特征的聚合;
属性预测模块,用于使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测,
在不完全程度的计算中,先计算主用户关注的不完全程度,然后计算主用户被关注的不完全程度/>,最后计算邻居用户被关注的不完全程度/>,邻居用户是主用户的关注的用户,
主用户关注的不完全程度按照下式进行计算,
,/>是主用户集,/>是用户t获取到关注列表中的用户数,/>是用户t个人简介中的关注数,
主用户被关注的不完全程度按照下式进行计算,
,/>是主用户集,/>是用户t出现在获取到的关注列表中的次数, />是用户t个人简介中的关注数,
邻居用户被关注的不完全程度按照下式进行计算,
,/>是邻居用户集,/>是用户t出现在获取到的关注列表中的次数,/>是用户t个人简介中的粉丝数,
在块相似矩阵Q的计算中,先计算主用户关注的块矩阵,然后计算主用户被关注的块矩阵/>,最后计算邻居用户被关注的块矩阵/>,基于主用户关注的块矩阵/>、主用户被关注的块矩阵/>、邻居用户被关注的块矩阵/>的加权求和而得到块矩阵H,按照下式进行块相似矩阵Q的计算,
。
7.一种移动设备,其特征在于,包括:
处理器;
输入装置;以及
存储器,其中存储有程序,
在处理器执行所述程序时,进行以下操作:
采集社交平台用户的数据;
对于采集到的数据进行文本特征的提取;
将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
根据采集到的数据计算社交平台用户的社交关系的不完全程度;
根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
根据计算出的权重基于异构图网络模型进行节点特征的聚合;
使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测,
在不完全程度的计算中,先计算主用户关注的不完全程度,然后计算主用户被关注的不完全程度/>,最后计算邻居用户被关注的不完全程度/>,邻居用户是主用户的关注的用户,
主用户关注的不完全程度按照下式进行计算,
,
是主用户集,/>是用户t获取到关注列表中的用户数,/>是用户t个人简介中的关注数,
主用户被关注的不完全程度按照下式进行计算,
,/>是主用户集,/>是用户t出现在获取到的关注列表中的次数, />是用户t个人简介中的关注数,
邻居用户被关注的不完全程度按照下式进行计算,
,/>是邻居用户集,/>是用户t出现在获取到的关注列表中的次数,/>是用户t个人简介中的粉丝数,
在块相似矩阵Q的计算中,先计算主用户关注的块矩阵,然后计算主用户被关注的块矩阵/>,最后计算邻居用户被关注的块矩阵/>,基于主用户关注的块矩阵/>、主用户被关注的块矩阵/>、邻居用户被关注的块矩阵/>的加权求和而得到块矩阵H,按照下式进行块相似矩阵Q的计算,
。
8.一种存储介质,用于存储程序,该存储介质的特征在于,所述程序在被执行时使得如权利要求7所述的移动设备进行以下操作,包括:
采集社交平台用户的数据;
对于采集到的数据进行文本特征的提取;
将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;
根据采集到的数据计算社交平台用户的社交关系的不完全程度;
根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵Q;
根据生成的伪标签矩阵和计算出的块相似矩阵Q计算社交平台用户之间特征传递的权重;
根据计算出的权重基于异构图网络模型进行节点特征的聚合;
使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211596521.9A CN115952438B (zh) | 2022-12-12 | 2022-12-12 | 社交平台用户属性预测方法、系统、移动设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211596521.9A CN115952438B (zh) | 2022-12-12 | 2022-12-12 | 社交平台用户属性预测方法、系统、移动设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115952438A CN115952438A (zh) | 2023-04-11 |
CN115952438B true CN115952438B (zh) | 2023-11-17 |
Family
ID=87286887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211596521.9A Active CN115952438B (zh) | 2022-12-12 | 2022-12-12 | 社交平台用户属性预测方法、系统、移动设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952438B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540232A (zh) * | 2023-09-13 | 2024-02-09 | 广州大学 | 基于上下文路径的在线社交网络用户表示方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11313216A (ja) * | 1998-04-27 | 1999-11-09 | Canon Inc | 画像処理方法、装置および記録媒体 |
CN111209173A (zh) * | 2020-01-02 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种性别预测方法、装置、存储介质、以及电子设备 |
CN112307351A (zh) * | 2020-11-23 | 2021-02-02 | 中国科学院计算技术研究所 | 用户行为的模型训练、推荐方法、装置和设备 |
CN112528163A (zh) * | 2020-12-04 | 2021-03-19 | 中山大学 | 一种基于图卷积网络的社交平台用户职业预测方法 |
CN112861967A (zh) * | 2021-02-07 | 2021-05-28 | 中国电子科技集团公司电子科学研究院 | 基于异构图神经网络的社交网络异常用户检测方法及设备 |
CN114298851A (zh) * | 2021-11-11 | 2022-04-08 | 国电南瑞科技股份有限公司 | 基于图表征学习的网络用户社交行为分析方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295987A1 (en) * | 2019-03-27 | 2021-09-23 | General Electric Company | Monitoring, predicting and alerting for census periods in medical inpatient units |
US11238531B2 (en) * | 2020-04-24 | 2022-02-01 | Capital One Services, Llc | Credit decisioning based on graph neural networks |
-
2022
- 2022-12-12 CN CN202211596521.9A patent/CN115952438B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11313216A (ja) * | 1998-04-27 | 1999-11-09 | Canon Inc | 画像処理方法、装置および記録媒体 |
CN111209173A (zh) * | 2020-01-02 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种性别预测方法、装置、存储介质、以及电子设备 |
CN112307351A (zh) * | 2020-11-23 | 2021-02-02 | 中国科学院计算技术研究所 | 用户行为的模型训练、推荐方法、装置和设备 |
CN112528163A (zh) * | 2020-12-04 | 2021-03-19 | 中山大学 | 一种基于图卷积网络的社交平台用户职业预测方法 |
CN112861967A (zh) * | 2021-02-07 | 2021-05-28 | 中国电子科技集团公司电子科学研究院 | 基于异构图神经网络的社交网络异常用户检测方法及设备 |
CN114298851A (zh) * | 2021-11-11 | 2022-04-08 | 国电南瑞科技股份有限公司 | 基于图表征学习的网络用户社交行为分析方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
"heterogenous graph attention networks";xiao wang etc;《WWW2019》;全文 * |
社交网络中的用户属性预测;龚真强;;中国教育网络(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115952438A (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11983269B2 (en) | Deep neural network system for similarity-based graph representations | |
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112241481B (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
US11816183B2 (en) | Methods and systems for mining minority-class data samples for training a neural network | |
CN111279362B (zh) | 胶囊神经网络 | |
CN110659723B (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN111191791A (zh) | 机器学习模型的应用方法、训练方法、装置、设备及介质 | |
US11037027B2 (en) | Computer architecture for and-or neural networks | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
US20230049817A1 (en) | Performance-adaptive sampling strategy towards fast and accurate graph neural networks | |
CN112148986B (zh) | 一种基于众包的top-N服务再推荐方法及系统 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
CN115952438B (zh) | 社交平台用户属性预测方法、系统、移动设备及存储介质 | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
CN117608650B (zh) | 业务流程图生成方法、处理设备及存储介质 | |
CN115099326A (zh) | 基于人工智能的行为预测方法、装置、设备及存储介质 | |
Haroon et al. | Application of machine learning in forensic science | |
CN115631008A (zh) | 商品推荐方法、装置、设备及介质 | |
US20230315745A1 (en) | Information pushing method, apparatus, device, storage medium, and computer program product | |
WO2020201913A1 (en) | Computer architecture for labeling documents | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN116029760A (zh) | 消息推送方法、装置、计算机设备和存储介质 | |
CN109299291A (zh) | 一种基于卷积神经网络的问答社区标签推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |