CN111159569A - 一种基于用户个性化特征的社交网络用户行为预测方法 - Google Patents
一种基于用户个性化特征的社交网络用户行为预测方法 Download PDFInfo
- Publication number
- CN111159569A CN111159569A CN201911283164.9A CN201911283164A CN111159569A CN 111159569 A CN111159569 A CN 111159569A CN 201911283164 A CN201911283164 A CN 201911283164A CN 111159569 A CN111159569 A CN 111159569A
- Authority
- CN
- China
- Prior art keywords
- user
- social network
- behavior
- users
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000006399 behavior Effects 0.000 claims abstract description 208
- 239000013598 vector Substances 0.000 claims abstract description 114
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 11
- 238000012163 sequencing technique Methods 0.000 abstract description 3
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000008846 dynamic interplay Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于用户个性化特征的社交网络用户行为预测方法,首先基于若干社交网络用户的多维行为属性数据,构建不同类别的用户标记向量;对社交网络用户进行分类,划分为不同归属类别的用户,并对其行为进行行为特征向量转化,得到向量化后的用户行为;将向量化用户行为按时序排列,采用长短时记忆神经网络进行预测,所需预测结果;本发明对社交网络用户进行分类定义,对社交网络用户的类别及行为属性进行区分;对每一归属类别的用户行为的时序数据进行排序,通过对该类别用户行为数据的学习迭代来进行用户行为预测,降低了对预测过程中参数化的假设;充分考虑了社交网络用户在时序行为上的动态过程,提高了预测结果的真实性。
Description
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于用户个性化特征的社交网络用户行为预测方法。
背景技术
在数据挖掘领域中,用户行为数据是一种非常重要的处理数据,用户行为数据是由用户在网络空间中的各种动态行为数据组成。随着互联网的迅速发展,社交网络在生活中越来越普及,用户的行为数据越来越多;同时,用户行为数据以及其行为产生者随着社会网络的发展以各种形式存在于各个网络;用户行为数据涉及用户时间、空间各个维度的数据,例如用户定位某个地点后发表推文或用户在某个时间点进行网页浏览等。由于网络的庞大性和用户的复杂性,这些用户的时空行为数据在各个社交网络上快速增长。
在一个社交网络中,用户不仅拥有其自身的属性也随之产生与其相关的时序行为数据。如果我们能对用户的行为进行较为准确的预测,则可以针对用户进行一些商品推荐,好友推荐、信息转发或者信息扩散。现有的用户行为预测,更多的是针对于一些评论行为、购买意向、点击率以及转发行为预测,未考虑用户在时序上的一个长期行为;并且,以往的用户行为预测往往定焦于用户的某个特定行为上,未考虑用户的不同行为;同时,以往的方法参数化假设性强,缺乏考虑在线社交网络用户在时序行为上的动态过程。
发明内容
针对现有技术中存在的技术问题,本发明提供了一种基于用户个性化的社交网络用户行为预测方法,以解决现有技术中的用户行为预测未考虑用户在时序上的长期行为或定焦于用户的某个特定行为,参数化假设性强,缺乏考虑在线社交网络用户在时序行为上的动态过程的技术问题。
为达到上述目的,本发明采用的技术方案为:
本发明提供了一种基于用户个性化特征的社交网络用户行为预测方法,包括以下步骤:
步骤1、基于若干社交网络用户的多维行为属性数据,构建不同类别的用户标记向量;
步骤2、基于不同类别的用户标记向量,对社交网络用户进行分类,划分为不同归属类别的用户;
步骤3、对每一归属类别的用户行为进行行为特征向量转化,得到向量化用户行为;将向量化用户行为按时序排列,并采用长短时记忆神经网络进行用户行为预测,得到社交网络用户的预测行为特征;对社交网络用户的预测行为特征进行解码,得到所需的用户行为。
进一步的,步骤1中,构建不同类别的用户标记向量时,具体包括以下步骤:
步骤11、提取若干个社交网络用户的多维行为属性数据,构建每个社交网络用户的用户属性特征向量;对每个用户属性特征向量进行归一化处理,得到每个社交网络用户的归一化用户属性特征向量;
步骤12、利用聚类算法及先验知识,对每个社交网络用户的归一化用户属性特征向量的进行分类标记,得到不同类别的用户标记向量。
进一步的,步骤1中,多维行为属性数据包括社交网络用户的动态数、点赞数、关注数、粉丝数、原创频率及转发频率。
进一步的,步骤11中,对每个用户属性特征向量进行归一化处理时,采用对社交网络用户的每个行为属性数据利用归一化公式进行归一化处理。
进一步的,步骤12中,对每个社交网络用户的归一化用户属性特征向量进行分类标记时,具体包括以下步骤:
s1、选取k个社交网络用户的归一化用户属性特征向量作为初始对象;
s2、分别计算每个社交网络用户的归一化用户属性特征向量到k个初始对象的距离,将社交网络用户的归一化属性特征向量与其距离最短的初始对象划归为一类,得到k类初步社交网络用户的归一化属性特征向量组;
s3、计算步骤s2中的每一类初步社交网络用户的归一化属性特征向量组的中心,不断迭代,直至每类初步社交网络用户的归一化属性特征向量组的中心数据不发生改变,得到k类社交网络用户归一化属性特征向量;
s4、结合先验知识对剔除后的k类社交网络用户归一化属性特征向量组中的行为属性数据进行标记,得到不同类别的用户标记向量。
进一步的,步骤2中,采用SVM法、KNN法、随机森林法或朴素贝叶斯法对社交网络用户进行分类。
进一步的,步骤2中,采用SVM法对社交网络用户进行分类时,具体包括以下步骤:
步骤21、构建用户类型判别函数;
步骤22、通过拉格朗日定理构建目标函数,采用SMO算法,求解用户类型判别函数;
步骤23、利用步骤22中的判别函数对用户个性化特征进行判断,根据用户个性化特征的权重,将社交网络用户划分为不同归属类别的用户。
进一步的,步骤21中,构建的判别函数为:
f(x)=sign(Wtx+b);
步骤22中,目标函数为:
0≤αi≤C,i=1,2,...,N
N为社交网络用户个数;
x为用户的特征属性向量;
xi为第i个用户的特征属性向量;
xj为第j个用户的特征属性向量;
yi为第i个用户的类别标签;
yj为第j个用户的类别标签;
αi为拉格朗日乘子;
αj为拉格朗日乘子。
进一步的,步骤3具体包括以下步骤:
步骤31、对每一归属类别的用户的用户行为进行定义,利用one-hot方法,构建每一归属类别用户的用户行为特征向量;
步骤32、将用户行为特征向量按照时序先后顺序排列,得到用户行为特征矩阵;
步骤33、构建长短时神经网络,利用用户行为特征矩阵中的部分用户行为特征向量作为训练数据,其余数据作为测试数据;通过反向传播算法,对长短时神经网络进行参数更新;得到预测的用户行为向量;
步骤34、对预测的用户行为向量进行解析,得到预测的用户行为。
进一步的,步骤33中,选取用户行为特征矩阵中的50%-90%的用户行为特征向量作为训练数据。
与现有技术相比,本发明的有益效果为:
本发明提供了一种基于用户个性化特征的社交网络用户行为预测方法,基于若干社交网络用户的多维行为属性数据,通过对社交网络用户进行分类定义,对社交网络用户的类别及行为属性进行区分;对每一归属类别的用户行为的时序数据进行排序,通过对该类别用户行为数据的学习迭代来进行用户行为预测,降低了对预测过程中参数化的假设;充分考虑了社交网络用户在时序行为上的动态过程,提高了预测结果的真实性。
本发明中通过对社交网络用户进行分类定义,提出对用户的有用分类定义,标记用户,增强用户标记的适用性。不同用户之间有着明显的行为特征,用户与行为之间存在着广泛的动态交互和相互影响,相似用户拥有类似的行为活动,对用户先分类再进行行为预测的用户个性化的社交网络的行为预测可以很好的捕捉这一特性。
附图说明
图1为本发明所述的基于用户个性化特征的社交网络用户行为预测方法流程示意图;
图2为本发明所述的用户行为预测方法中的对社交网络用户分类过程的流程示意图;
图3为本发明所述的用户行为预测方法中的行为预测过程流程示意图;
图4为实施例1中所述的用户行为预测方法中用户分类准确率与训练数据曲线图
图5为实施例1中所述的用户行为预测方法中行为预测结果准确率与训练数据的曲线图。
具体实施方式
下面结合附图及具体实施方式对本发明作进一步详细说明。
如附图1-3所示,本发明提供了一种基于用户个性化特征的社交网络用户行为预测方法,包括以下步骤:
步骤1、基于若干社交网络用户的多维行为属性数据,构建不同类别的用户标记向量;
具体的,包括以下步骤:
步骤11、提取若干个社交网络用户的多维行为属性数据,构建每个社交网络用户的用户属性特征向量;对每个用户属性特征向量进行归一化处理,得到每个社交网络用户的归一化用户属性特征向量;所述多维行为属性数据包括社交网络用户的动态数、点赞数、关注数、粉丝数、原创频率及转发频率;对每个用户属性特征向量进行归一化处理时,采用对社交网络用户的每个行为属性数据利用归一化公式进行归一化处理。
步骤12、利用聚类算法及先验知识,对每个社交网络用户的归一化用户属性特征向量的进行分类标记,得到不同类别的用户标记向量;其中对每个社交网络用户的归一化用户属性特征向量进行分类标记时,具体包括以下步骤:
s1、选取k个社交网络用户的归一化用户属性特征向量作为初始对象;
s2、分别计算每个社交网络用户的归一化用户属性特征向量到k个初始对象的距离,将社交网络用户的归一化属性特征向量与其距离最短的初始对象划归为一类,得到k类初步社交网络用户的归一化属性特征向量组;
s3、计算步骤s2中的每一类初步社交网络用户的归一化属性特征向量组的中心,不断迭代,直至每类初步社交网络用户的归一化属性特征向量组的中心数据不发生改变,得到k类社交网络用户归一化属性特征向量;
s4、结合先验知识对剔除后的k类社交网络用户归一化属性特征向量组中的行为属性数据进行标记,得到不同类别的用户标记向量。
步骤2、基于不同类别的用户标记向量,利用SVM法、KNN法、随机森林法或朴素贝叶斯法,对社交网络用户进行分类,划分为不同归属类别的用户;
其中,采用SVM法对社交网络用户进行分类时,具体包括以下步骤:
步骤21、构建用户类型判别函数;判别函数如下:
f(x)=sign(Wtx+b)
其中,x为用户特征属性向量;W为权重参数,b为偏置参数;t表示转置;
步骤22、通过拉格朗日定理构建目标函数,采用SMO算法,求解用户类型判别函数;
其中,目标函数如下:
0≤αi≤C,i=1,2,...,N
其中,N为社交网络用户个数;x为用户的特征属性向量;xi为第i个用户的特征属性向量;xj为第j个用户的特征属性向量;yi为第i个用户的类别标签;yj为第j个用户的类别标签;αi为拉格朗日乘子;αj为拉格朗日乘子。
步骤23、利用步骤22中的判别函数对用户个性化特征进行判断,根据用户个性化特征的权重,将社交网络用户划分为不同归属类别的用户。
步骤3、对每一归属类别的用户行为进行行为特征向量转化,得到向量化后的用户行为;将向量化用户行为按时序排列,并采用长短时记忆神经网络进行用户行为预测,得到社交网络用户的预测行为特征;对社交网络用户的预测行为特征进行解码,得到所需的用户行为;
具体的,包括以下步骤:
步骤31、对每一归属类别的用户的用户行为进行定义,利用one-hot方法,构建每一归属类别用户的用户行为特征向量;
步骤32、将用户行为特征向量按照时序先后顺序排列,得到用户行为特征矩阵;
步骤33、构建长短时神经网络,利用用户行为特征矩阵中的部分用户行为特征向量作为训练数据,其余数据作为测试数据;通过反向传播算法,对长短时神经网络进行参数更新;得到预测的用户行为向量;优选的,选取用户行为特征矩阵中的50%-90%的用户行为特征向量作为训练数据;
步骤34、对预测的用户行为向量进行解析,得到预测的用户行为。
本发明提供了一种基于用户个性化特征的社交网络用户行为预测方法,基于若干社交网络用户的多维行为属性数据,通过对社交网络用户进行分类定义,对社交网络用户的类别及行为属性进行区分;对每一归属类别的用户行为的时序数据进行排序,通过对该类别用户行为数据的学习迭代来进行用户行为预测,降低了对预测过程中参数化的假设;充分考虑了社交网络用户在时序行为上的动态过程,提高了预测结果的真实性。
本发明中通过对社交网络用户进行分类定义,提出对用户的有用分类定义,标记用户,增强用户标记的适用性。不同用户之间有着明显的行为特征,用户与行为之间存在着广泛的动态交互和相互影响,相似用户拥有类似的行为活动,对用户先分类再进行行为预测的用户个性化的社交网络的行为预测可以很好的捕捉这一特性。
实施例
本发明所述的一种基于用户个性化特征的社交网络用户行为预测方法,包括以下步骤:
步骤1,对若干个社交网络用户的多维用户属性数据进行提取及标记,达到用户个性化特征表示;具体的,
步骤1.1,提取若干个社交网络用户的多维用户行为属性数据,构建用户属性特征向量,并对用户属性特征向量中的用户行为属性数据进行归一化处理;其中多维用户行为属性数据包括动态数、点赞数、关注数、粉丝数、原创频率及转发频率;
其中,采用归一化公式对用户行为属性数据进行处理,归一化公式如下:
其中,x表示用户某一行为属性的当前值;
xmin表示用户当前行为属性的最小值;
xmax表示用户当前行为属性的最大值;
步骤1.2,利用聚类算法与先验知识相结合的方法对用户类型进行分类标记,并采用不同类别的用户标记向量进行表示,不同类别的用户标记向量表示为:
T={(x1,y1),(x2,y2)…(xi,yi)…(xN,yN)}
其中,i表示第i个社交网络用户,xi∈Rn为特征属性向量,yi∈{1,2…i…N};
所述步骤1.2中所用的聚类方法具体步骤如下:并且对得到的用户数据进行标记,具体标记过程如下:
首先,选择k个对象作为初始点,其中k一般选择3、5或8;
然后,计算每个用户数据到k个初始对象的距离,选择距离最短的将其与初始对象归为一类;
其次,再次计算每一类的中心,不断迭代,当每一类的中心位置不再改变则停止;
最后,得到k类用户,在每类用户数据中,若某个用户的数据大于3倍的中心点,则剔除该数据,结合先验知识最后对用户进行类别标记。
步骤2,基于不同类别的用户标记向量,对社交网络用户进行分类,划分为不同属性的用户;具体的;
步骤2.1,基于标记好的不同类别的用户标记向量中的N类用户,将每两类用户分为一组,共分成N*N(N-1)/2种,在每个组合中分别将两类组合标记为1和-1,即yi∈{-1,1},表示每类用户标记;
步骤2.2,基于N个组合中的用户行为属性数据,构建用户类型判别函数模型,其中判别函数模型如下:
f(x)=sign(Wtx+b)
其中,W为权重参数,b为偏置参数;W及b初始化随机值为0.1;
步骤2.3,基于N个组合中的用户行为属性数据,将每个用户的行为属性特征数据进行归一化,通过拉格朗日定理构建目标函数,使用部分用户行为属性数据,通过SMO算法,求得拉格朗日因子α*的最优解,基于α*和部分已知的xi及yi,进行参数W和b的更新;得到用户类型判别函数;其中,通过SMO算法求最优解,α*=(α1 *,α2 *,...,αN *),基于α*、xi及yi更新W和b,W和b的迭代公式分别为:
其中,xi为第i个用户的特征属性向量;xj为第j个用户的特征属性向量;yi为第i个用户的类别标签;yj为第j个用户的类别标签;
其中,部分训练数据的选取一般为总数据的50%~90%。
步骤2.4、对于步骤2.1中N*N(N-1)/2种组合均进行判断一次,每次判断某个用户的归属类别,同时在该类的权重上加1,所有组合判断完成后,比较所有类别的权重,权重最大的类别则为该用户所属的类别,将用户分为N类;
步骤3,将不同归属类别用户的时间序列行为进行特征提取,使用长短时神经网络预测用户下一时刻行为,具体步骤如下:
步骤3.1,对不同归属类别用户的行为进行定义,假设用户行为定义为P类,使用one-hot构建用户行为特征向量,表示为P维向量;
步骤3.2,将用户行为特征向量按照时间顺序排列好,即得到一个M行P列的矩阵;其中,M代表某一类用户中的某个行为最少的用户数其对应的行为数,P代表行为总数;
步骤3.3,选取部分数据作为训练数据,剩下的数据作为测试数据;构建长短时神经网络,投入训练数据通过反向传播算法不断进行参数更新,得到预测的新的行为即P维向量,若该向量第K位为1,用户在某时刻出现行为K,则将P维向量的第K位表示为1,其他位表示0,即用户行为表示为P维向量(0,0,..1,0),其中第K位为1,则代表该行为是第K个行为。
本实施例中用户分类方法也可选取KNN,随机森林以及朴素贝叶斯等方法。用户行为需提前定义,提取的行为特征向量简单易于辨别。转化复杂度低,易于与神经网络相连接。
如图4、5所示,当社交网络用户数为1000用户数,提取的用户行为属性数据共10万条时,筛选用户的关注数、被关注数、点赞数、动态数、原创频率及转发频率,作为用户的特征向量xi=(xi1,xi2,xi3,xi4,xi5,xi6),xi表示第i个用户的特征属性向量,归一化处理;
然后,选取5个对象作为初始点,计算每个用户数据到初始对象的距离,选择最短的将其与初始对象归为一类,再次计算每一类的中心,不断迭代直到中心位置不再改变停止,得到5类用户,在每类用户中若某个用户的数据大于3倍的中心点,则剔除该数据,人工筛查数据合理性后对用户进行类别标记;
一共5类用户,将其两两分组,一共分成10组,每一组用户构建分类判别函数:
f(x)=sign(Wtx+b)
并将W和b初始化为随机值;通过输入的特征向量xi=(xi1,xi2,xi3,xi4,xi5,xi6)以及用户类别标签yi通过以下目标函数计算拉格朗日算子α*=(α1 *,α2 *,...,αN *);之后通过,xi,yi来更新判别函数中的W和b;
然后将W和b带入分类判别函数,输入新用户的特征向量判断其类别;在10种组合中循环对每一个用户进行判断,判别其归属类别,将权重累加,最后权重最大的则为其归属类别。
本次实验结果的用户分类准确率选择不同的训练数据,准确率相应不同,当训练数据越多,用户分类的准确率越高,具体参见图4。
本实施例中对每一个归属类别用户的行为进行定义,提取的数据包括用户的推文、回复标志及引用标志等信息,将用户行为定义为转发行为、原创行为、回复行为、原创并提及他人行为、引用并提及他人行为;用户一共有5个行为,因此对每个用户的行为创建5维向量:例如(1,0,0,0,0)表示行为1,(0,1,0,0,0)表示行为2,(0,0,1,0,0)表示行为3,(0,0,0,1,0)表示行为4,(0,0,0,0,1)表示行为5;
同时对每个用户提取其两年的时间行为,选取在此期间最少行为的用户,将其行为数记为M,将用户行为时间转化为时间戳按时间排序后,构造M行5列的初始向量;对每一类用户的所有数据排序好后,依次将每一个用户行为数据输入四层的长短时神经网络中,通过反向传播算法优化,得到预测结果,对用户的预测结果应为5维向量(1,0,0,0,0),(0,1,0,0,0),(0,0,1,0,0),(0,0,0,1,0),(0,0,0,0,1),分别解析为行为1,行为2,行为3,行为4及行为5。
如附图5所示,不同训练数据对用户行为预测结果不同,但分类后用户行为预测结果比不分类显著提高。
本发明在整个用户行为预测中,无需用户的网络拓扑信息,只需用户的属性数据以及行为数据,使得该方法具有极强的普适性;使用的聚类算法确定k个中心点迭代、分类算法以及长短时记忆神经网络等方法的本身特性决定了本发明方法的简单实现,复杂度低。不同用户之间有着明显的行为特征,用户与行为之间存在着广泛的动态交互和相互影响,相似用户拥有类似的行为活动,对用户先分类后进行行为预测可以很好的捕捉到这一特性,增强算法的通用性。
以上所述仅表示本发明的优选实施方式,任何人在不脱离本发明的原理下而做出的结构变形、改进和润饰等,这些变形、改进和润饰等均视为在本发明的保护范围内。
Claims (10)
1.一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,包括以下步骤:
步骤1、基于若干社交网络用户的多维行为属性数据,构建不同类别的用户标记向量;
步骤2、基于不同类别的用户标记向量,对社交网络用户进行分类,划分为不同归属类别的用户;
步骤3、对每一归属类别的用户行为进行行为特征向量转化,得到向量化用户行为;将向量化用户行为按时序排列,并采用长短时记忆神经网络进行用户行为预测,得到社交网络用户的预测行为特征;对社交网络用户的预测行为特征进行解码,得到所需的用户行为。
2.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤1中,构建不同类别的用户标记向量时,具体包括以下步骤:
步骤11、提取若干个社交网络用户的多维行为属性数据,构建每个社交网络用户的用户属性特征向量;对每个用户属性特征向量进行归一化处理,得到每个社交网络用户的归一化用户属性特征向量;
步骤12、利用聚类算法及先验知识,对每个社交网络用户的归一化用户属性特征向量的进行分类标记,得到不同类别的用户标记向量。
3.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤1中,多维行为属性数据包括社交网络用户的动态数、点赞数、关注数、粉丝数、原创频率及转发频率。
4.根据权利要求2所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤11中,对每个用户属性特征向量进行归一化处理时,采用对社交网络用户的每个行为属性数据利用归一化公式进行归一化处理。
5.根据权利要求2所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤12中,对每个社交网络用户的归一化用户属性特征向量进行分类标记时,具体包括以下步骤:
s1、选取k个社交网络用户的归一化用户属性特征向量作为初始对象;
s2、分别计算每个社交网络用户的归一化用户属性特征向量到k个初始对象的距离,将社交网络用户的归一化属性特征向量与其距离最短的初始对象划归为一类,得到k类初步社交网络用户的归一化属性特征向量组;
s3、计算步骤s2中的每一类初步社交网络用户的归一化属性特征向量组的中心,不断迭代,直至每类初步社交网络用户的归一化属性特征向量组的中心数据不发生改变,得到k类社交网络用户归一化属性特征向量;
s4、结合先验知识对剔除后的k类社交网络用户归一化属性特征向量组中的行为属性数据进行标记,得到不同类别的用户标记向量。
6.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤2中,采用SVM法、KNN法、随机森林法或朴素贝叶斯法对社交网络用户进行分类。
7.根据权利要求6所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤2中,采用SVM法对社交网络用户进行分类时,具体包括以下步骤:
步骤21、构建用户类型判别函数;
步骤22、通过拉格朗日定理构建目标函数,采用SMO算法,求解用户类型判别函数;
步骤23、利用步骤22中的判别函数对用户个性化特征进行判断,根据用户个性化特征的权重,将社交网络用户划分为不同归属类别的用户。
9.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤3具体包括以下步骤:
步骤31、对每一归属类别的用户的用户行为进行定义,利用one-hot方法,构建每一归属类别用户的用户行为特征向量;
步骤32、将用户行为特征向量按照时序先后顺序排列,得到用户行为特征矩阵;
步骤33、构建长短时神经网络,利用用户行为特征矩阵中的部分用户行为特征向量作为训练数据,其余数据作为测试数据;通过反向传播算法,对长短时神经网络进行参数更新;得到预测的用户行为向量;
步骤34、对预测的用户行为向量进行解析,得到预测的用户行为。
10.根据权利要求9所述的一种基于用户个性化特征的社交网络用户行为预测方法,其特征在于,步骤33中,选取用户行为特征矩阵中的50%-90%的用户行为特征向量作为训练数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911283164.9A CN111159569A (zh) | 2019-12-13 | 2019-12-13 | 一种基于用户个性化特征的社交网络用户行为预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911283164.9A CN111159569A (zh) | 2019-12-13 | 2019-12-13 | 一种基于用户个性化特征的社交网络用户行为预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159569A true CN111159569A (zh) | 2020-05-15 |
Family
ID=70556959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911283164.9A Pending CN111159569A (zh) | 2019-12-13 | 2019-12-13 | 一种基于用户个性化特征的社交网络用户行为预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159569A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782959A (zh) * | 2020-07-20 | 2020-10-16 | 深圳市欢太科技有限公司 | 用户画像更新方法、装置、计算机设备及存储介质 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281882A (zh) * | 2014-09-16 | 2015-01-14 | 中国科学院信息工程研究所 | 基于用户特征的预测社交网络信息流行度的方法及系统 |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN110059190A (zh) * | 2019-04-18 | 2019-07-26 | 东南大学 | 一种基于社交媒体内容和结构的用户实时观点检测方法 |
CN110245984A (zh) * | 2019-06-09 | 2019-09-17 | 广东工业大学 | 一种基于因果推断的网络购物行为分析方法和系统 |
-
2019
- 2019-12-13 CN CN201911283164.9A patent/CN111159569A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281882A (zh) * | 2014-09-16 | 2015-01-14 | 中国科学院信息工程研究所 | 基于用户特征的预测社交网络信息流行度的方法及系统 |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN110059190A (zh) * | 2019-04-18 | 2019-07-26 | 东南大学 | 一种基于社交媒体内容和结构的用户实时观点检测方法 |
CN110245984A (zh) * | 2019-06-09 | 2019-09-17 | 广东工业大学 | 一种基于因果推断的网络购物行为分析方法和系统 |
Non-Patent Citations (2)
Title |
---|
YADONG ZHOU 等: "We Know Who You Are: Discovering Similar Groups Across Multiple Social Networks", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS》 * |
马尧: "基于多维用户特征建模的个性化社交搜索引擎的设计与实现", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782959A (zh) * | 2020-07-20 | 2020-10-16 | 深圳市欢太科技有限公司 | 用户画像更新方法、装置、计算机设备及存储介质 |
CN111782959B (zh) * | 2020-07-20 | 2023-07-14 | 深圳市与飞科技有限公司 | 用户画像更新方法、装置、计算机设备及存储介质 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Supervised feature selection with a stratified feature weighting method | |
CN109741112B (zh) | 一种基于移动大数据的用户购买意向预测方法 | |
Gibert et al. | Graph embedding in vector spaces by node attribute statistics | |
CN112070125A (zh) | 一种基于孤立森林学习的不平衡数据集的预测方法 | |
CN108170765B (zh) | 基于在校行为数据多维分析的贫困生资助推荐方法 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN110555717A (zh) | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 | |
Yu et al. | Meta-ADD: A meta-learning based pre-trained model for concept drift active detection | |
CN110956497A (zh) | 一种电子商务平台用户重复购买行为预测方法 | |
Tian et al. | Learning subspace-based RBFNN using coevolutionary algorithm for complex classification tasks | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN107169061B (zh) | 一种融合双信息源的文本多标签分类方法 | |
CN107169572A (zh) | 一种基于Mahout的机器学习服务组装方法 | |
CN112906890A (zh) | 一种基于互信息和改进遗传算法的用户属性特征选择方法 | |
CN111641608A (zh) | 异常用户识别方法、装置、电子设备及存储介质 | |
Tsimperidis et al. | R 2 BN: An adaptive model for keystroke-dynamics-based educational level classification | |
Zheng et al. | Multimodal deep network embedding with integrated structure and attribute information | |
Santos et al. | Optimizing the parameters of drift detection methods using a genetic algorithm | |
CN111159569A (zh) | 一种基于用户个性化特征的社交网络用户行为预测方法 | |
CN114881161A (zh) | 面向多社交网络平台的机器人检测方法 | |
Waqas et al. | Robust bag classification approach for multi-instance learning via subspace fuzzy clustering | |
Mir et al. | Online fake review detection using supervised machine learning and BERT model | |
Nayak et al. | Multi-objective clustering: a kernel based approach using differential evolution | |
CN110910235A (zh) | 一种基于用户关系网络的贷中异常行为检测方法 | |
CN117668582A (zh) | 基于行为数据的用户聚类分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
RJ01 | Rejection of invention patent application after publication |