CN114936723B - 一种基于数据增强的社交网络用户属性预测方法及系统 - Google Patents
一种基于数据增强的社交网络用户属性预测方法及系统 Download PDFInfo
- Publication number
- CN114936723B CN114936723B CN202210856300.4A CN202210856300A CN114936723B CN 114936723 B CN114936723 B CN 114936723B CN 202210856300 A CN202210856300 A CN 202210856300A CN 114936723 B CN114936723 B CN 114936723B
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- layer
- forwarding
- behavior data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006399 behavior Effects 0.000 claims description 257
- 239000013598 vector Substances 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据挖掘技术领域,公开了一种基于数据增强的社交网络用户属性预测方法及系统,该属性预测方法,基于用户的历史行为序列,推断用户未来一段时间的行为序列,通过将历史行为序列与预测得到的行为序列进行拼接,扩大行为序列的长度,对用户的行为数据进行增强。本发明解决了现有技术存在的在线网络用户行为序列长度较短时不能为用户属性预测任务提供足够信息、从而导致用户属性预测的预测准确性低的问题。
Description
技术领域
本发明涉及数据挖掘技术领域,具体是一种基于数据增强的社交网络用户属性预测方法及系统。
背景技术
在过去的二十年间涌现出越来越多的社交平台(例如Twitter、Facebook、Instagram等等),在这些社交平台上,用户可以第一时间阅读感兴趣的推文并将自己的想法添加到评论区与他人分享。除了评论之外,用户还可以利用更加便捷的转发功能,在原始推文的基础上添加评论后进行转发,便可与粉丝分享你的观点。在推特平台中,用户之间通过转发关系构成错综复杂的网络结构,这种推文传播方式具有传播快、覆盖广的特点,使得某些推文能够在短时间内形成极大的关注和影响。
虽然已有工作针对社交网络中的转发行为预测进行了多项研究,但是这些方法均着眼于推文的被转发概率或者用户转发推文的可能性,并未对用户在未来一段时间内的转发对象进行深入研究。除此之外,上述算法的预测精度与特征的构建及选择息息相关,为了对用户的转发行为进行更加精准的预测,数据科学家需要根据业务背景以及专家知识构建大量特征用于机器学习模型的训练,这使得训练好的模型很难迁移到其它数据集或相关业务场景之下。在模型的训练方式上,由于特征工程与模型训练是分开执行的,所以很难选择最佳的特征组合对建立好的模型进行训练,而端到端的训练方式可以将特征构建与预测任务进行有效的结合,从而使得模型能够对不同特征之间的相对重要程度以及特征与预测任务之间的关联性进行全面的考量。
随着深度学习技术的快速发展,数据增强技术已经在自然语言处理、语音识别、目标检测等多个领域取得了巨大的进展。如何将数据增强技术应用于行为建模等相关技术是接下来用户属性预测任务的研究重点。
发明内容
为克服现有技术的不足,本发明提供了一种基于数据增强的社交网络用户属性预测方法及系统,解决现有技术存在的在线网络用户行为序列长度较短时不能为用户属性预测任务提供足够信息、从而导致用户属性预测的预测准确性低的问题。
本发明解决上述问题所采用的技术方案是:
一种基于数据增强的社交网络用户属性预测方法,基于用户的历史行为序列,推断用户未来一段时间的行为序列,通过将历史行为序列与预测得到的行为序列进行拼接,扩大行为序列的长度,对用户的行为数据进行增强。
作为一种优选的技术方案,包括以下步骤:
S1,进行数据预处理:提取社交网络用户的转发行为数据,对提取的转发行为数据进行预处理,获得预处理后的用户行为数据;
S2,构建并训练预测模型:利用预处理后的用户行为数据,构建用户行为数据预测模型,并训练用户行为数据预测模型;
S3,预测转发行为:利用训练好的用户行为数据预测模型预测用户未来一段时间的转发行为,获得增强后的用户行为数据;
S4,预测属性信息:利用增强后的用户行为数据预测社交网络中用户的属性信息。
作为一种优选的技术方案,步骤S1包括以下步骤:
S11,提取社交网络用户的行为信息:对于给定用户,首先获取在某一段时间跨度内的转发行为序列,在起始位置添加特殊标志符[SOS],在行为序列的末尾添加特殊标志符[EOS];并将转发行为对应的时间戳进行记录;其中,i表示用户的编号,表示第i个用户的昵称,表示第i个用户的转发行为对应的时间戳;
S12,首先计算当前转发行为与参照时刻之间的时间间隔,然后以事先设定的周期将时间间隔转换为时间ID,最后计算相邻转发行为之间时间ID的差分值。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,构建用户转发行为嵌入表示层:用户转发行为嵌入表示层包括行为序列嵌入表示层、行为先后顺序嵌入表示层、时间信息嵌入层;其中,行为序列嵌入表示层用于将用户转发行为序列中的每一个昵称转换为k维的向量表示,行为先后顺序嵌入表示层用于将每一个被转发用户的转发顺序编号转换为k维的向量表示,时间信息嵌入层用于将每一个被转发用户的转发时间信息转换为k维的向量表示,将上述三种向量表示按位相加,得到生成式预训练用户行为数据预测模型的输入;k≥2且k为整数;
S22,构建编码器:构建包括多头自注意力模块MHA、基于位置的全连接前馈网络FFN的编码器;其中,多头自注意力模块MHA基于缩放点积自注意力用户行为数据预测模型,将嵌入表示矩阵作为输入,输出注意力评分矩阵;基于位置的全连接前馈网络FFN,将注意力评分矩阵作为输入,输出解码器的隐层表示;
S23,构建行为序列输出层:行为序列输出层为全连接神经网络,用于将解码器的隐层表示作为输入,输出预测结果,并通过Softmax函数计算预测结果与真实值之间的误差值,所述预测结果指用户下一时刻转发行为;
步骤S24,通过误差反向传播的训练方式更新用户行为数据预测模型参数,直到误差值达到最低为止,保存最终的用户行为数据预测模型参数,获得训练好的用户行为数据预测模型;误差值达到最低为止指用户行为数据预测模型收敛的情形。
作为一种优选的技术方案,步骤S22包括以下步骤:
S221,利用嵌入表示矩阵作为输入,先将整理为,再将输入到一个层的Transformer网络中进行编码:
;
其中,,,表示用户行为的向量表征,表示第层用户行为数据预测模型的输出结果,表示Transformer网络中的层编号,表示第层Transformer网络编码后的结果,表示步骤S11中转发行为序列的长度,分别表示第1至第个行为在第层的向量表征;在每个Transformer编码器中,有多头注意力机制以聚合前一层的输出向量;第层的Transformer中的一个自注意力头的计算公式如下:
,
,
,
,
;
其中,前层的输出通过参数为的线性变换分别得到查询向量、键向量、值向量;掩码矩阵控制着行为之间是否能够被参照,表示第层查询向量对应的线性变换矩阵,表示第层键向量对应的线性变换矩阵,表示第层值向量对应的线性变换矩阵,i表示掩码矩阵的行标号,j表示掩码矩阵的列标号,表示掩码矩阵的第i行第j列元素,表示键向量的转置,表示隐藏层神经元个数,表示用户行为的嵌入维度;
S222,以交叉熵作为损失函数,采用梯度下降法训练行为生成部分的神经网络,将用户的转发行为进行独热编码;
S223:返回步骤S221,循环执行步骤S221~步骤S222,直至训练用户行为数据预测模型收敛为止。
作为一种优选的技术方案,步骤S222中,独热编码计算公式为:
;
其中,表示损失值,表示真实用户在第i时刻转发用户j的概率,n表示时刻总数,表示所分析的用户的总数量,表示社交网络用户行为数据预测模型预测的用户i在第j时刻转发用户的概率。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,利用词嵌入层以及位置嵌入层对行为序列对应的时间ID差分序列进行嵌入表示,然后用户行为数据预测模型通过个编码层得到时间ID差分序列的隐藏表示,最后利用交叉熵损失函数计算用户行为数据预测模型预测结果与期望值之间的偏差;
S32,将嵌入表示矩阵输入到多头自注意力机制ATT中,得到注意力权重矩阵,并将注意力矩阵输入到基于位置的全连接前馈网络FFN中,得到隐层表示,并通过步骤S23得到用户下一时刻转发行为的预测结果,最后将预测结果拼接到输入序列中;
S33,循环执行步骤S31~S32,直至得到用户未来一段时间的转发行为预测结果。
作为一种优选的技术方案,步骤S4包括以下步骤:
S41,将步骤S33得到的用户行为预测结果与用户历史行为序列进行拼接得到增强后的用户行为数据,并利用步骤S21得到用户行为数据的嵌入矩阵,对嵌入矩阵按列求平均得到社交网络用户属性预测用户行为数据预测模型的输入特征;
S42,将特征向量输入到预训练好的用户行为数据预测模型中进行调整,得到用户属性的所属概率值。
作为一种优选的技术方案,步骤S42中,对用户行为数据预测模型进行调整的具体方法为:
仅保留用户行为数据预测模型的嵌入层以及编码器模块,并添加Flatten层做维度变换,最后输入包括依次相连的线性层、激活层、线性层的前馈神经网络,将隐藏特征映射到真实标签,具体的计算方式如下式:
,
;
其中,表示用户行为数据预测模型最后一个编码器的输出向量,表示属性预测结果,表示全连接前馈神经网络的输出,、表示权重,表示、表示偏置。
一种基于数据增强的社交网络用户属性预测系统,基于所述的一种基于数据增强的社交网络用户属性预测方法,包括依次电相连的以下模块:
数据预处理模块:用以,提取社交网络用户的转发行为数据,对提取的转发行为数据进行预处理,获得预处理后的用户行为数据;
预测模型构建并训练模块:用以,利用预处理后的用户行为数据,构建用户行为数据预测模型,并训练用户行为数据预测模型;
转发行为预测模块:用以,利用训练好的用户行为数据预测模型预测用户未来一段时间的转发行为,获得增强后的用户行为数据;
属性信息预测模块:用以,利用增强后的用户行为数据预测社交网络中用户的属性信息。
本发明相比于现有技术,具有以下有益效果:
(1)本发明通过采用数据增强的方法,仅基于用户的历史行为序列,便可以合理预测其未来一段时间的行为,通过将历史行为序列与预测得到的行为序列进行拼接,可以有效扩大行为序列的长度,便于为广泛的下游任务提供更加丰富的行为信息;
(2)本发明通过嵌入表示,可以得到用户行为的通用化向量表示方法,基于行为的向量表示方法,可以将其应用于不同的下游任务并均取得非常准确的预测效果;
(3)本发明通过使用微调的方法,以增强后的用户行为数据作为输入,预测该用户的属性信息,从而有效克服特征维度高、筛选有效特征难等问题。
附图说明
图1为用户行为数据预测模型的示意图;
图2为本发明所述的一种基于数据增强的社交网络用户属性预测方法的步骤示意图;
图3为数据预处理流程图;
图4为自注意力模块的算法流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图4所示,本发明公开一种基于数据增强的社交网络用户属性预测方法。
1)能够充分融合行为信息及其相关的时间信息,并对行为模式识别与行为数据生成两种任务同时进行学习;2)提出一种共享参数的深度学习模型,通过使用精心设计的注意力掩码机制控制行为数据增强过程中所用到的行为以及时间信息;3)选用Transformer的编码器部分进行建模,通过采用多头掩码自注意力机制,可以使模型在预测当前时刻的转发用户昵称时,有侧重地对其所有的历史转发记录进行分析;4)在行为生成模型中引入转发时间信息,帮助模型学习更加复杂的转发行为模式,从而较为准确地预测出用户未来一段时间的转发对象。5)对预训练好的模型针对用户属性预测任务进行微调,输出的结果表示用户属性的所属概率。本发明公开的一种基于数据增强的社交网络用户属性预测方法可应用于在线社交网络中的用户属性补全,从而帮助社交媒体平台建立更加完整的用户画像,所需要的数据在现实网络中易于获取,计算复杂度低,可以在社交网络的用户属性预测任务中获得非常高的准确率。
一种基于数据增强的社交网络用户属性预测方法,根据用户的转发行为信息能够快速预测社交网络中用户的属性信息,具体包括以下步骤:
步骤S1:用户行为数据预处理
步骤S11:提取社交网络用户的转发行为信息,用表示第i个用户的昵称,用表示用户转发行为对应的时间戳。这里用转发对象的昵称表示用户的转发行为,对于给定用户,首先获取其某一段时间跨度内的转发行为数据,其中在起始位置添加特殊标志符[SOS],在行为序列的末尾添加特殊标志符[EOS]。并记录用户转发行为对应的时间戳;
步骤S12:首先计算当前转发行为与参照时刻之间的时间间隔,然后按照事先设定的周期将时间间隔转换为时间ID,最后计算相邻转发行为之间时间ID的差分值;
步骤S2:构建用户行为数据预测模型,模型一共由三个模块组成,包括用户转发行为嵌入表示层,编码器和行为序列输出层;模型的构建具体包括以下步骤:
步骤S21:构建用户转发行为嵌入表示层:用户转发行为嵌入表示层包括行为序列嵌入表示层、行为先后顺序嵌入表示层、时间信息嵌入层;其中,行为序列嵌入表示层用于将用户转发行为序列中的每一个昵称转换为k维的向量表示,行为先后顺序嵌入表示层用于将每一个被转发用户的转发顺序编号转换为k维的向量表示,时间信息嵌入层用于将每一个被转发用户的转发时间信息转换为k维的向量表示,将上述三种向量表示按位相加,得到生成式预训练用户行为数据预测模型的输入;k≥2且k为整数;
步骤S22:构建编码器,包括多头自注意力模块(Multi-head Attention, MHA)、基于位置的全连接前馈网络(Feed Forward Neural Network, FFN)。多头自注意力模块MHA基于缩放点积自注意力模型,将嵌入表示矩阵作为输入,输出注意力评分矩阵;基于位置的全连接前馈网络FFN,将注意力评分矩阵作为输入,输出解码器的隐层表示;
步骤S23:构建行为序列输出层:行为序列输出层为全连接神经网络,用于将解码器的隐层表示作为输入,输出预测结果,并通过Softmax函数计算预测结果与真实值之间的误差值,所述预测结果指用户下一时刻转发行为;
步骤S24:通过误差反向传播的训练方式更新用户行为数据预测模型的参数,直到误差值达到最低为止,保存最终的模型参数;
步骤S3:利用训练好的用户行为数据预测模型预测用户未来一段时间的转发行为,具体包括以下步骤:
步骤S31:利用时间嵌入层以及位置嵌入层对行为序列对应的时间ID差分序列进行嵌入表示,然后户行为数据预测模型通过个编码层得到时间ID差分序列的隐藏表示,最后利用交叉熵损失函数计算户行为数据预测模型预测结果与期望值之间的偏差;
步骤S32:将嵌入表示矩阵输入到多头自注意力机制ATT中,得到注意力权重矩阵,并将注意力矩阵输入到基于位置的全连接前馈网络FFN中,得到隐层表示,并通过步骤S23得到用户下一时刻转发行为的预测结果,最后将预测结果拼接到输入序列中;
步骤S33:循环执行步骤S31、S32得到用户未来一段时间的转发行为预测结果;
步骤S4:利用增强后的用户行为数据推理社交网络中用户的属性信息,具体包括以下步骤:
步骤S41:将步骤S33得到的用户行为预测结果与用户历史行为序列进行拼接得到增强后的用户行为数据,并利用步骤S21得到用户行为数据的嵌入矩阵,对嵌入矩阵按列求平均得到社交网络用户属性预测用户行为数据预测模型的输入特征;
步骤S42:根据步骤S41,将特征向量输入到预训练好的用户行为数据预测模型中进行调整,得到用户属性的所属概率值;
所述步骤S22中的编码器构建方式具体包括以下步骤:
步骤S1:利用嵌入表示矩阵作为输入,先将嵌入表示矩阵整理为。再将其输入到一个层的Transformer网络中对输入进行编码:
S221,利用嵌入表示矩阵作为输入,先将整理为,再将输入到一个层的Transformer网络中进行编码:
;
其中,,,表示用户行为的向量表征,表示第层用户行为数据预测模型的输出结果,表示Transformer网络中的层编号,表示第层Transformer网络编码后的结果,表示步骤S11中转发行为序列的长度,分别表示第1至第个行为在第层的向量表征;在每个Transformer编码器中,有多头注意力机制以聚合前一层的输出向量;第层的Transformer中的一个自注意力头的计算公式如下:
,
,
,
,
;
其中,前层的输出通过参数为的线性变换分别得到查询向量、键向量、值向量;掩码矩阵控制着行为之间是否能够被参照,表示第层查询向量对应的线性变换矩阵,表示第层键向量对应的线性变换矩阵,表示第层值向量对应的线性变换矩阵,i表示掩码矩阵的行标号,j表示掩码矩阵的列标号,表示掩码矩阵的第i行第j列元素,表示键向量的转置,表示隐藏层神经元个数,表示用户行为的嵌入维度;
不同的掩码矩阵控制关注到不同的上下文信息,例如在双向掩码矩阵中,掩码矩阵的值为0,表示所有的行为之间都能够相互注意到。
S222,以交叉熵作为损失函数,采用梯度下降法训练行为生成部分的神经网络,将用户的转发行为进行独热编码(One-Hot Encoding);
独热编码计算公式为:
;
其中,表示损失值,表示真实用户在第i时刻转发用户j的概率,n表示时刻总数,表示所分析的用户的总数量,表示社交网络用户行为数据预测模型预测的用户i在第j时刻转发用户的概率。
S223:返回步骤S221,循环执行步骤S221~步骤S222,直至训练用户行为数据预测模型收敛为止。
本发明的目的在于针对在线网络用户行为序列长度较短,不能为用户属性预测任务提供足够信息的问题,提出一种基于数据增强的社交网络用户属性预测方法,能够对用户的行为数据进行有效增强,从而提高社交网络用户属性预测的预测准确性。
本发明具有以下有益效果:
(1)本发明通过采用数据增强的方法,仅基于用户的历史行为序列,便可以合理预测其未来一段时间的行为,通过将历史行为序列与预测得到的行为序列进行拼接,可以有效扩大行为序列的长度,便于为广泛的下游任务提供更加丰富的行为信息;
(2)本发明通过嵌入表示,可以得到用户行为的通用化向量表示方法,基于行为的向量表示方法,可以将其应用于不同的下游任务并均取得非常准确的预测效果;
(3)本发明通过使用微调的方法,以增强后的用户行为数据作为输入,预测该用户的属性信息,从而有效克服特征维度高、筛选有效特征难等问题。
实施例2
如图1至图4所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
本发明为一种基于数据增强的社交网络用户属性预测方法,包括以下步骤:
步骤S1:用户行为数据预处理;
为了验证本文所提算法的有效性,本实施例中的用户转发行为数据集来自于Internet Archive网站。从该网站获取了2019年9月1日至2019年9月30日之间的推特用户数据,这些数据包含来自5,971,242个用户的50,560,219条推文信息。首先,从原始数据中提取用户昵称、被转发用户昵称、转发时间戳作为用户的转发行为数据。由于不同转发次数下的用户数量服从幂律分布,为了确保用户有足够多的历史转发行为供模型分析,仅考虑转发次数大于10的用户进行分析。在样本选择方面,考虑到计算资源的有限性,对每一类转发次数下的样本进行了随机采样。行为推理模型预训练的一个要素就是如何对每一类转发次数下的样本进行采样,这个选择是一个零和博弈,如果转发行为较多的样本采样频率过高,模型可能过拟合;如果转发行为较少的样本训练次数不够,模型就会欠拟合。因此,采用XLM中使用的方法,假设有M种转发次数,每一种转发次数下对应的样本记为,而每一种转发次数下的样本数目记为。然后,将每一种转发次数下的样本随机打乱后按照概率进行随机采样,其中的计算公式如下:
不难发现,值越大,对于样本数较多的类别采样频率越高,惩罚力度越小,本发明中选择。通过上述采样方式,共得到2,038个用户的219,341条历史转发记录,采样数据中共包含74,936种用户昵称。
然后将用户的转发对象昵称映射为0至N之间的一个整数,其中N表示数据集中所有出现过的昵称所构成的集合的大小。通过上述步骤,一个用户的转发行为序列便可表示为由多个数字构成的列表。这里,取该列表的前n项作为模型的输入:,而后项作为模型的期望输出:。数据预处理过程如图3所示。
步骤S2:构建用户行为数据预测模型,如图2所示模型一共由四个模块组成,包括用户转发行为嵌入表示层,编码器、行为序列输出层;
构建用户转发行为嵌入表示层:用户转发行为嵌入表示层包括行为序列嵌入表示层、行为先后顺序嵌入表示层、时间信息嵌入层;行为序列嵌入表示层用于将用户转发行为序列中的每一个昵称转换为512维的向量表示,行为先后顺序嵌入表示层用于将每一个被转发用户的转发顺序编号转换为512维的向量表示,时间信息嵌入层用于将每一个被转发用户的转发时间信息转换为k维的向量表示,将上述三种向量表示按位相加,得到生成式预训练模型的输入;
解码器包括多头自注意力模块MHA、基于位置的全连接前馈网络FFN。多头自注意力模块MHA基于缩放点积自注意力模型,将嵌入表示矩阵作为输入,输出注意力权重矩阵,具体计算方式如图3所示;基于位置的全连接前馈网络FFN,将注意力权重矩阵作为输入,输出解码器的隐层表示。
行为序列输出层为全连接神经网络,将解码器的隐层表示作为输入,输出用户下一时刻转发行为的预测结果,这里计算得到的是对每一个推特用户的转发概率,概率值越大,表示用户在下一时刻更有可能转发该用户的推文,并通过Softmax函数计算预测结果与真实值之间的误差值。通过使用梯度下降法反复更迭模型参数,使得误差值最小化,并将此时的模型参数保存下来。
步骤S3:利用训练好的用户行为数据预测模型预测用户未来一段时间的转发行为;
基于训练好的用户行为数据预测模型,通过反复将模型的预测值加入到输入序列中进一步解码,就可以得到用户在未来一段时间的转发行为序列。将生成的转发行为序列与用户的历史行为序列进行合并便可得到增强后的用户行为数据。
步骤S4:利用增强后的用户行为数据推断用户的属性信息;
采用微调的方式训练用户属性推断模型。在微调过程中,为了使模型能够对下游任务进行端到端的训练,仅保留模型的嵌入层以及编码器模块,并在此基础上添加Flatten层做维度变换,最后采用“线性层-激活层-线性层”的结构将隐藏特征映射到真实标签,具体的计算方式如下式:
,
;
其中,表示用户行为数据预测模型最后一个编码器的输出向量,表示属性预测结果,表示全连接前馈神经网络的输出,、表示权重,表示、表示偏置。
其中表示用户行为数据预测模型最后一个编码器的输出向量。微调模型中新增线性层权重参数以正态分布初始化,偏置参数初始化为常数。
为了检验在本实施例中本发明所提出的基于数据增强的用户属性推断方法的效果,在整个数据集上进行了测试,整个数据集包含2,038名Twitter用户以及这些用户的219,341条转发行为。选择该数据集中80%左右用户的行为信息以及属性信息作为训练集,10%左右的用户行为以及属性信息作为验证集, 10%左右的用户行为以及属性信息作为测试集。在测试集上计算BLEU-4和Accuracy两个值分别作为行为生成和属性推断的评价指标。
BLEU-4指标的计算方法为:表示模型生成的行为序列,表示m个参考结果,表示元素在行为序列中出现的次数,表示元素在参考结果中出现的次数,表示序列中的第k个n-gram词组,表示元素在各条参考结果中的最大出现次数。基于上述定义,我们给出各阶n-gram的精度计算公式:
Accuracy指标计算的是所有预测正确样本占所有实验样本的比例。
本次实施例的实验结果如下:
行为序列生成的BLEU-4稳定在5.98,测试集Accuracy值稳定在0.81。
该实验结果表明本发明所提出的基于数据增强的用户属性推断方法可以在在线社交网络中实现对用户属性推断并取得很好的效果。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (7)
1.一种基于数据增强的社交网络用户属性预测方法,其特征在于,基于用户的历史行为序列,推断用户未来一段时间的行为序列,通过将历史行为序列与预测得到的行为序列进行拼接,扩大行为序列的长度,对用户的行为数据进行增强;
包括以下步骤:
S1,进行数据预处理:提取社交网络用户的转发行为数据,对提取的转发行为数据进行预处理,获得预处理后的用户行为数据;
S2,构建并训练预测模型:利用预处理后的用户行为数据,构建用户行为数据预测模型,并训练用户行为数据预测模型;
S3,预测转发行为:利用训练好的用户行为数据预测模型预测用户未来一段时间的转发行为,获得增强后的用户行为数据;
S4,预测属性信息:利用增强后的用户行为数据预测社交网络中用户的属性信息;
步骤S1包括以下步骤:
S11,提取社交网络用户的行为信息:对于给定用户,首先获取在某一段时间跨度内的转发行为序列,在起始位置添加特殊标志符[SOS],在行为序列的末尾添加特殊标志符[EOS];并将转发行为对应的时间戳进行记录;其中,i表示用户的编号,表示第i个用户的昵称,表示第i个用户的转发行为对应的时间戳;
S12,首先计算当前转发行为与参照时刻之间的时间间隔,然后以事先设定的周期将时间间隔转换为时间ID,最后计算相邻转发行为之间时间ID的差分值;
步骤S2包括以下步骤:
S21,构建用户转发行为嵌入表示层:用户转发行为嵌入表示层包括行为序列嵌入表示层、行为先后顺序嵌入表示层、时间信息嵌入层;其中,行为序列嵌入表示层用于将用户转发行为序列中的每一个昵称转换为k维的向量表示,行为先后顺序嵌入表示层用于将每一个被转发用户的转发顺序编号转换为k维的向量表示,时间信息嵌入层用于将每一个被转发用户的转发时间信息转换为k维的向量表示,将上述三种向量表示按位相加,得到生成式预训练用户行为数据预测模型的输入;k≥2且k为整数;
S22,构建编码器:构建包括多头自注意力模块MHA、基于位置的全连接前馈网络FFN的编码器;其中,多头自注意力模块MHA基于缩放点积自注意力用户行为数据预测模型,将嵌入表示矩阵作为输入,输出注意力评分矩阵;基于位置的全连接前馈网络FFN,将注意力评分矩阵作为输入,输出解码器的隐层表示;
S23,构建行为序列输出层:行为序列输出层为全连接神经网络,用于将解码器的隐层表示作为输入,输出预测结果,并通过Softmax函数计算预测结果与真实值之间的误差值,所述预测结果指用户下一时刻转发行为;
步骤S24,通过误差反向传播的训练方式更新用户行为数据预测模型参数,直到误差值达到最低为止,保存最终的用户行为数据预测模型参数,获得训练好的用户行为数据预测模型;误差值达到最低为止指用户行为数据预测模型收敛的情形。
2.根据权利要求1所述的一种基于数据增强的社交网络用户属性预测方法,其特征在于,步骤S22包括以下步骤:
S221,利用嵌入表示矩阵作为输入,先将整理为,再将输入到一个层的Transformer网络中进行编码:
;
其中,,,表示用户行为的向量表征,表示第层用户行为数据预测模型的输出结果,表示Transformer网络中的层编号,表示第层Transformer网络编码后的结果,表示步骤S11中转发行为序列的长度,分别表示第1至第个行为在第层的向量表征;在每个Transformer编码器中,有多头注意力机制以聚合前一层的输出向量;第层的Transformer中的一个自注意力头的计算公式如下:
,
,
,
,
;
其中,前层的输出通过参数为的线性变换分别得到查询向量、键向量、值向量;掩码矩阵控制着行为之间是否能够被参照,表示第层查询向量对应的线性变换矩阵,表示第层键向量对应的线性变换矩阵,表示第层值向量对应的线性变换矩阵,i表示掩码矩阵的行标号,j表示掩码矩阵的列标号,表示掩码矩阵的第i行第j列元素,表示键向量的转置,表示隐藏层神经元个数,表示用户行为的嵌入维度;
S222,以交叉熵作为损失函数,采用梯度下降法训练行为生成部分的神经网络,将用户的转发行为进行独热编码;
S223:返回步骤S221,循环执行步骤S221~步骤S222,直至训练用户行为数据预测模型收敛为止。
3.根据权利要求2所述的一种基于数据增强的社交网络用户属性预测方法,其特征在于,步骤S222中,独热编码计算公式为:
;
其中,表示损失值,表示真实用户在第i时刻转发用户j的概率,n表示时刻总数,表示所分析的用户的总数量,表示社交网络用户行为数据预测模型预测的用户i在第j时刻转发用户的概率。
4.根据权利要求3所述的一种基于数据增强的社交网络用户属性预测方法,其特征在于,步骤S3包括以下步骤:
S31,利用词嵌入层以及位置嵌入层对行为序列对应的时间ID差分序列进行嵌入表示,然后用户行为数据预测模型通过个编码层得到时间ID差分序列的隐藏表示,最后利用交叉熵损失函数计算用户行为数据预测模型预测结果与期望值之间的偏差;
S32,将嵌入表示矩阵输入到多头自注意力模块MHA中,得到注意力评分矩阵,并将注意力评分矩阵输入到基于位置的全连接前馈网络FFN中,得到隐层表示,并通过步骤S23得到用户下一时刻转发行为的预测结果,最后将预测结果拼接到输入序列中;
S33,循环执行步骤S31~S32,直至得到用户未来一段时间的转发行为预测结果。
5.根据权利要求4所述的一种基于数据增强的社交网络用户属性预测方法,其特征在于,步骤S4包括以下步骤:
S41,将步骤S33得到的用户行为预测结果与用户历史行为序列进行拼接得到增强后的用户行为数据,并利用步骤S21得到用户行为数据的嵌入矩阵,对嵌入矩阵按列求平均得到社交网络用户属性预测用户行为数据预测模型的输入特征;
S42,将特征向量输入到预训练好的用户行为数据预测模型中进行调整,得到用户属性的所属概率值。
6.根据权利要求5所述的一种基于数据增强的社交网络用户属性预测方法,其特征在于,步骤S42中,对用户行为数据预测模型进行调整的具体方法为:
仅保留用户行为数据预测模型的嵌入层以及编码器模块,并添加Flatten层做维度变换,最后输入包括依次相连的线性层、激活层、线性层的前馈神经网络,将隐藏特征映射到真实标签,具体的计算方式如下式:
,
;
其中,表示用户行为数据预测模型最后一个编码器的输出向量,表示属性预测结果,表示全连接前馈神经网络的输出,、表示权重,表示、表示偏置。
7.一种基于数据增强的社交网络用户属性预测系统,其特征在于,基于权利要求1至6任一项所述的一种基于数据增强的社交网络用户属性预测方法,包括依次电相连的以下模块:
数据预处理模块:用以,提取社交网络用户的转发行为数据,对提取的转发行为数据进行预处理,获得预处理后的用户行为数据;
预测模型构建并训练模块:用以,利用预处理后的用户行为数据,构建用户行为数据预测模型,并训练用户行为数据预测模型;
转发行为预测模块:用以,利用训练好的用户行为数据预测模型预测用户未来一段时间的转发行为,获得增强后的用户行为数据;
属性信息预测模块:用以,利用增强后的用户行为数据预测社交网络中用户的属性信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210856300.4A CN114936723B (zh) | 2022-07-21 | 2022-07-21 | 一种基于数据增强的社交网络用户属性预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210856300.4A CN114936723B (zh) | 2022-07-21 | 2022-07-21 | 一种基于数据增强的社交网络用户属性预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114936723A CN114936723A (zh) | 2022-08-23 |
CN114936723B true CN114936723B (zh) | 2023-04-14 |
Family
ID=82868429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210856300.4A Active CN114936723B (zh) | 2022-07-21 | 2022-07-21 | 一种基于数据增强的社交网络用户属性预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936723B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532464A (zh) * | 2019-08-13 | 2019-12-03 | 桂林电子科技大学 | 一种基于多旅游上下文建模的旅游推荐方法 |
CN111915024A (zh) * | 2020-09-25 | 2020-11-10 | 点内(上海)生物科技有限公司 | 一种序列预测模型训练方法、预测系统及预测方法和介质 |
CN113177633A (zh) * | 2021-04-20 | 2021-07-27 | 浙江大学 | 一种深度解耦时间序列预测方法 |
CN114298417A (zh) * | 2021-12-29 | 2022-04-08 | 中国银联股份有限公司 | 反欺诈风险评估方法、训练方法、装置及可读存储介质 |
CN114579963A (zh) * | 2022-03-09 | 2022-06-03 | 携程旅游信息技术(上海)有限公司 | 基于数据挖掘的用户行为分析方法、系统、设备及介质 |
CN114691995A (zh) * | 2022-04-06 | 2022-07-01 | 东华大学 | 一种基于信息传播和注意力机制的序列推荐方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10265008B2 (en) * | 2013-03-13 | 2019-04-23 | Aptima, Inc. | Systems and methods to determine user state |
US20160189207A1 (en) * | 2014-12-26 | 2016-06-30 | Yahoo! Inc. | Enhanced online content delivery system using action rate lift |
-
2022
- 2022-07-21 CN CN202210856300.4A patent/CN114936723B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532464A (zh) * | 2019-08-13 | 2019-12-03 | 桂林电子科技大学 | 一种基于多旅游上下文建模的旅游推荐方法 |
CN111915024A (zh) * | 2020-09-25 | 2020-11-10 | 点内(上海)生物科技有限公司 | 一种序列预测模型训练方法、预测系统及预测方法和介质 |
CN113177633A (zh) * | 2021-04-20 | 2021-07-27 | 浙江大学 | 一种深度解耦时间序列预测方法 |
CN114298417A (zh) * | 2021-12-29 | 2022-04-08 | 中国银联股份有限公司 | 反欺诈风险评估方法、训练方法、装置及可读存储介质 |
CN114579963A (zh) * | 2022-03-09 | 2022-06-03 | 携程旅游信息技术(上海)有限公司 | 基于数据挖掘的用户行为分析方法、系统、设备及介质 |
CN114691995A (zh) * | 2022-04-06 | 2022-07-01 | 东华大学 | 一种基于信息传播和注意力机制的序列推荐方法 |
Non-Patent Citations (3)
Title |
---|
User personality prediction based on topic preference and sentiment analysis using LSTM model;Jinghua Zhao 等;《Pattern Recognition Letters》;20200728;第138卷;第397-402页 * |
机器学习增强的电子商务平台用户行为预测;杨国胜 等;《科技与创新》;20190105(第1期);第124-125页 * |
用户行为序列个性化推荐研究综述;汪菁瑶 等;《小型微型计算机系统》;20220223;第43卷(第5期);第921-935页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114936723A (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111949865A (zh) | 基于图神经网络与用户长短期偏好的兴趣点推荐方法 | |
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
Peebles et al. | Learning to learn with generative models of neural network checkpoints | |
CN110781401A (zh) | 一种基于协同自回归流实现的Top-n项目推荐方法 | |
Alfarhood et al. | DeepHCF: a deep learning based hybrid collaborative filtering approach for recommendation systems | |
Jiang et al. | An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing | |
CN114880479A (zh) | 基于多级交互和图重构的异构图卷积谣言检测方法 | |
Wei et al. | MoCo4SRec: A momentum contrastive learning framework for sequential recommendation | |
CN117350304B (zh) | 一种多轮对话上下文向量增强方法及系统 | |
CN114332565A (zh) | 一种基于分布估计的条件生成对抗网络文本生成图像方法 | |
Hashana et al. | Deep Learning in ChatGPT-A Survey | |
CN116433800B (zh) | 基于社交场景用户偏好与文本联合指导的图像生成方法 | |
CN114936723B (zh) | 一种基于数据增强的社交网络用户属性预测方法及系统 | |
Zhang et al. | Scaling Law of Large Sequential Recommendation Models | |
CN114116692B (zh) | 一种基于mask和双向模型的缺失POI轨迹补全方法 | |
CN115310004A (zh) | 融合项目时序关系的图神经协同过滤推荐方法 | |
Sharma et al. | A generalized novel image forgery detection method using generative adversarial network | |
Dasgupta et al. | A Review of Generative AI from Historical Perspectives | |
Wang | Forecast model of TV show rating based on convolutional neural network | |
Zhang et al. | An improved math word problem (MWP) model using unified pretrained language model (UniLM) for pretraining | |
CN117633371B (zh) | 基于多注意力机制的推荐方法、设备和可读存储介质 | |
Chen et al. | Genetic Design of Topology for Neural Network | |
Horn | Similarity encoder: A neural network architecture for learning similarity preserving embeddings | |
Lazarova | Text Content Features for Hybrid Recommendations: Pre-trained Language Models for Better Recommendations | |
Kamani et al. | Cross-domain recommender systems via multimodal domain adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |