CN108710609A

CN108710609A - 一种基于多特征融合的社交平台用户信息的分析方法

Info

Publication number: CN108710609A
Application number: CN201810428598.2A
Authority: CN
Inventors: 柴帆; 柴一帆; 岳文静; 陈志�; 狄小娟; 魏梦冶; 骆威奇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-10-26

Abstract

本发明公开一种基于多特征融合的社交平台用户信息的分析方法，解决了目前社交网络的用户信息分析主要集中在用户的行为数据，而没有充分挖掘用户在社交网络内发表的文本内容这一问题。本发明首先用社交网络平台上的应用编程接口获取用户行为数据和文本内容数据，然后对行为数据进行处理，剔除缺失的无效用户，对行为数据进行量化，得到用户的行为统计数据，接着对用户发表的文本内容进行分词以及词频统计，对不同的词进行权重调整，最后利用主成分分析简化所得数据，应用线性回归和决策树算法，对用户的性别、年龄、性格成分进行预测。本发明通过结合用户在社交网络平台上的行为数据和发表的文本内容，在性别、年龄、性格成分的预测上拥有很好的准确性。

Description

一种基于多特征融合的社交平台用户信息的分析方法

技术领域

本发明涉及一种基于多特征融合的社交平台用户信息分析模型的构建方法，属于自然语言处理、机器学习等交叉技术领域。

背景技术

近年来，社交网络如雨后春笋般出现，国内比较知名的有人人网、微博、QQ空间等，国外则有Facebook、Twitter等。社交网络在改变着人们的生活与社交方式，人们逐渐接受并习惯在社交网络上发照片、写日志、更新状态。等。社交网络越来越多的改变着人们的生活方式以及社交方式，人们逐渐接受并习惯在社交网络上发照片、写日志、更新状态。

另一方面，用户在社交网络上的表现也趋于差异化，例如，有些人喜欢只浏览而不发表内容，另一些人喜欢发表日志却很少发照片。用户的这些行为并不是杂乱无章的，而是蕴含着一定的规律，如何有效的分析用户的行为，挖掘行为背后的深层次规律，进而给用户提供个性化的服务成为一大难点。

目前，基于社交网络的用户信息分析主要集中在用户的行为数据上，没有充分挖掘用户在社交网络内发表的文本内容，如用户的状态和日志等，另一方面，目前的用户分析也没有涉及到用户的性格模型，如果能找到用户的性格和行为之间的内在联系，必然能够为社交网络的用户分析提供新的理论支持。

基于上述研究成果，本发明提出一种基于多特征融合的社交平台用户信息分析构建方法，旨在使模型在训练过程中能挖掘更深层的隐藏情感信息。

发明内容

技术问题：本发明的目的在于克服现有方法的不足而提供一种基于多特征融合的社交平台用户分析性格行为内在联系的方法，该方法构造的行为与文本内容结合模型与普通的基于用户行为模型相比，能充分挖掘用户的性格和行为之间的内在联系，从而提高模型的分类效果。

技术方案：本发明的一种基于多特征融合的社交平台用户信息的分析方法包括以下步骤：

步骤1)选用关于授权的开放网络标准OAthu，通过相关应用程序编程接口获取社交平台用户的数据；

步骤2)对获取到的社交平台用户数据，剔除其中数据缺失的无效用户，从用户状态、用户日志、用户相册、用户好友、用户分享多维度计算获取用户的行为统计数据和文本统计数据；

步骤3)对获取到的文本统计数据，用开源的汉语词法分析系统ICTCLAS将用户的所有文本内容进行分词；根据词语的状态、根目录状态、博客标题、博客主体、照片捕捉这五种不同来源对应的不同权值，对词语的权重进行调整；将同一个词语的所有权值累加，对停用词进行剔除，采用信息检索与数据挖掘加权技术TF-IDF，对每个词对应的权重值再次进行修正，得到最终的分词结果；

步骤4)采用现在流行的分布式系统基础架构对步骤3)中的分词结果进行词频统计，对每个用户下的相同的词语进行权重的累加，将所得的数据缩减，并对这些数据根据权重进行排序处理，对于出现频次较高的无意义停用词进行剔除，用TF-IDF技术对权重进行修订，得到最终的文本统计数据；

步骤5)将步骤2)得到的行为统计数据与步骤4)得到的文本统计数据进行合并，得到一个以用户为行、以具体词语与行为数据为列的稀疏矩阵。记该稀疏矩阵为X，用户个数为m，词语个数为n，则该矩阵X表示为采用主成分分析法简化获得的数据，得到矩阵Y；

步骤6)利用步骤5)中简化的矩阵Y对用户的资料及性格成分进行预测，对于需要输出具体类别的预测，采用一种新版本的决策树算法CART，引入基尼系数Gini指标算法作为分裂属性，Gini指标的定义为:所述k指类别数,所述r指类别总数，r在数值上和步骤5)中n相同，所述p_k指类别k在数据集D中所占得比例)输入主成分分析法的输出矩阵，将数据随机分成四份，其中三份用于模型的训练，另外一份作为检验集进行模型有效性的验证；

步骤7)对需要输出具体数值的预测，采用线性回归算法，用户的年龄y和步骤6)中经过主成分分析法得到的500个主要成分(x₁,x₂,……x₅₀₀)存在线性关系，用方程表示为:y(x)＝w₀+w₁x₁+w₂x₂+……+w₅₀₀x₅₀₀所述w为权重，根据这些训练数据确定w，引入代价函数，其定义为：所述m为用户个数,y(x⁽ⁱ⁾)指预测到的年龄,y⁽ⁱ⁾指实际年龄,w_g指第g个权重，参数w₀,w₁,…,w₅₀₀的确定过程采用梯度下降法，给定一个更新步长s，以权重w₀为例，每次更新的大小为

所述w为权重，m为用户个数,y(x⁽ⁱ⁾)指预测到的年龄,y⁽ⁱ⁾指实际年龄,s为设置步长,在经过若干迭代之后得到最优权重，将检验集中的数据依次输入模型，得到预测结果。

其中，

所述步骤3)的具体方法如下：

步骤31)取权重的步进大小为0.1，在五个权重中取一个赋值为0，所述四个权值赋为一个相同的值；

步骤32)，将取出的该权值每次增加0.1的步进长度，继而分别计算最后的验证准确率，所述对应准确率最大的那个权重就是最后训练得出的权重值。

所述步骤5)的具体方法如下：

步骤51)将步骤2)得到的行为统计数据与步骤4)得到的文本统计数据进行合并，进而我们得到一个以用户为行、以具体词语与行为数据为列的稀疏矩阵。记该稀疏矩阵为X,用户个数为m，词语个数为n，则该矩阵X表示为

步骤52)对步骤51)中的矩阵X＝(x₁,x₂,x₃,…,x_n)求解z个列向量的平均值 μ₁,μ₂,μ₃,…,μ_n，z在数值上和n相同，对矩阵中的每一个元素x_jb都减去该元素所在列的平均值μ_i，得到矩阵其中所述b指行数，j指列数，x_jb指第b行第j列元素；计算矩阵的协方差矩阵z为列向量数量，求矩阵B的特征向量矩阵W＝(u₁,u₂,u₃,…,u_n)，u_c指第c列矩阵对应的第c个特征向量，及对应的特征值Λ＝[λ₁,λ₂,λ₃,…,λ_n]，λ_f指第f个特征向量对应的第f个特征值，对特征值进行降序排列，对对应的特征向量也进行类似的排序，得到变化矩阵W，W中有p个特征向量，p在数值上和z相同；

步骤53)对于步骤52)中得到的变换矩阵W，W中有p个特征向量，取其中的q个特征向量，选取q时引进贡献率以及累计贡献率的问题。定义贡献率为η_γ指第γ列的特征值，η_h指第h列的特征值，p指特征向量的总数量，η_γ的值越大，代表对应的特征向量贡献越大；

累计贡献率为

其中η_γ指对应第γ列的特征值，η_h指第h列的特征值，p指特征向量的总数量，q指选取的特征向量的数量，取前500个特征值计算q＝500时的累计贡献率为0.89，因此，取矩阵W 的前500个特征向量组成矩阵T；

步骤54)根据主成分分析的思想，将步骤52)中得到的z个向量映射到z个新的向量β_σ 上，即

t_ue为步骤52)中得到的变换矩阵T的元素(u指行数，e指列数)，变换后的新变量β_σ需满足以下条件:

(1)z个β_σ之间相互正交，即β_σβ_d ^T＝0，σ＜＝d，d＜＝z；

(2)β_σ是x_z的所有线性组合中方差最大的，y₂是与y₁正交的所有的x_z线性组合中方差最大的，依此类推，得到简化后的矩阵Y。

所述步骤53)中，q按照经验取500。

所述步骤7)中，s按照经验取0.1。

有益效果：本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明提出一种基于用户行为统计数据及文本统计数据对用户资料和性格成分进行预测模型的构建方法，旨在使模型在训练过程中能挖掘更深层的隐藏情感信息，提高模型的预测效果，具体来说：

(1)本发明提出一种结合特征多样化的分析模型，和基于行为分析用户特征的模型相比，该模型能充分考虑用户的情感特征信息；

(2)本发明通过基于用户行为统计数据及文本统计数据对用户的资料和性格成分进行了预测，拓展网络模型使预测更加精确；

(3)基于来自现实生活的一个数据集开展实验，验证并分析本模型的性能。

附图说明

图1是一种基于多特征融合的社交平台用户信息的分析方法。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

在某一社交网络平台上，选用一个关于授权的开放网络标准OAthu，通过该社交网络的相关应用程序编程接口获取数据。

对于获取到的数据，剔除其中数据缺失的无效用户，从用户状态、用户日志、用户相册、用户好友、用户分享多维度计算获取用户的行为统计数据。

对于获取到的数据，用开源的汉语词法分析系统ICTCLAS将用户的所有文本内容进行分词。根据词语的五种不同来源(状态、根目录状态、博客标题、博客主体、照片捕捉对应的不同权值，对词语的权重进行调整。将同一个词语的所有权值累加，对停用词进行剔除，采用一种用于信息检索与数据挖掘的常用加权技术TF-IDF(term frequency–inversedocument frequency)，对每个词对应的权重值再次进行修正。

采用现在流行的分布式系统基础架构Hadoop对分词结果进行词频统计，对每个用户下的相同的词语进行权重的累加，将所得的数据缩减，并对这些数据根据权重进行排序处理，对于出现频次较高的无意义停用词比如“了”，“的”，“呢”这些词语进行剔除。用TF-IDF技术对权重进行修订。

将得到的行为统计数据与文本统计数据进行合并，进而我们得到一个以用户为行、以具体词语与行为数据为列的稀疏矩阵。得到的文本统计数据进行合并，进而我们得到一个以用户为行、以具体词语与行为数据为列的稀疏矩阵，记该稀疏矩阵为X,用户个数为m，词语个数为n，则该矩阵X表示为

对于矩阵X＝(x₁,x₂,x₃,…,x_n)求解z个列向量的平均值μ₁,μ₂,μ₃,…,μ_n，z在数值上和n 相同，对矩阵中的每一个元素x_jb都减去该元素所在列的平均值μ_i，得到矩阵其中所述b 指行数，j指列数，x_jb指第b行第j列元素；计算矩阵的协方差矩阵z为列向量数量，求矩阵B的特征向量矩阵W＝(u₁,u₂,u₃,…,u_n)，u_c指第c列矩阵对应的第c个特征向量，及对应的特征值Λ＝[λ₁,λ₂,λ₃,…,λ_n]，λ_f指第f个特征向量对应的第f个特征值，对特征值进行降序排列，对对应的特征向量也进行类似的排序，得到变化矩阵W，W中有p个特征向量，p在数值上和z相同；

对于上面得到的变换矩阵W，W中有p个特征向量，取其中的q个特征向量，选取q时引进贡献率以及累计贡献率的问题。定义贡献率为η_γ指第γ列的特征值，η_h指第h列的特征值，p指特征向量的总数量，η_γ的值越大，代表对应的特征向量贡献越大；

累计贡献率为

根据主成分分析的思想，将之前得到的z个向量映射到z个新的向量β_σ上，即

(1)z个β_σ之间相互正交，即β_σβ_d ^T＝0，σ＜＝d，d＜＝z；

利用简化的矩阵Y对用户的资料及性格成分进行预测，对于需要输出具体类别的预测，采用一种新版本的决策树算法CART，引入基尼系数Gini指标算法作为分裂属性，Gini指标的定义为:所述k指类别数,所述r指类别总数，r在数值上和步骤5)中n相同，所述p_k指类别k在数据集D中所占得比例)输入主成分分析法的输出矩阵，将数据随机分成四份，其中三份用于模型的训练，另外一份作为检验集进行模型有效性的验证；

对需要输出具体数值的预测，采用线性回归算法，用户的年龄y和步骤6)中经过主成分分析法得到的500个主要成分(x₁,x₂,……x₅₀ ₀)存在线性关系，用方程表示为:y(x)＝w₀+w₁x₁+w₂x₂+……+w₅₀₀x₅₀₀所述w为权重，根据这些训练数据确定w，引入代价函数，其定义为：所述m为用户个数,y(x⁽ⁱ⁾)指预测到的年龄,y⁽ⁱ⁾指实际年龄,w_g指第g个权重，参数w₀,w₁,…,w₅₀₀的确定过程采用梯度下降法，给定一个更新步长s，以权重w₀为例，每次更新的大小为

Claims

1.一种基于多特征融合的社交平台用户信息的分析方法，其特征在于，该方法包括以下步骤：

步骤5)将步骤2)得到的行为统计数据与步骤4)得到的文本统计数据进行合并，得到一个以用户为行、以具体词语与行为数据为列的稀疏矩阵，记该稀疏矩阵为X，用户个数为m，词语个数为n，则该矩阵X表示为采用主成分分析法简化获得的数据，得到简化的矩阵Y；

2.根据权利要求1所述的一种基于多特征融合的社交平台用户信息的分析方法，其特征在于，所述步骤3)的具体方法如下：

3.根据权利要求1所述的一种基于多特征融合的社交平台用户信息的分析方法，其特征在于，所述步骤5)的具体方法如下：

步骤51)将步骤2)得到的行为统计数据与步骤4)得到的文本统计数据进行合并，进而我们得到一个以用户为行、以具体词语与行为数据为列的稀疏矩阵，记该稀疏矩阵为X,用户个数为m，词语个数为n，则该矩阵X表示为

步骤52)对步骤51)中的矩阵X＝(x₁,x₂,x₃,…,x_n)求解z个列向量的平均值μ₁,μ₂,μ₃,…,μ_n，z在数值上和n相同，对矩阵中的每一个元素x_jb都减去该元素所在列的平均值μ_i，得到矩阵其中所述b指行数，j指列数，x_jb指第b行第j列元素；计算矩阵的协方差矩阵z为列向量数量，求矩阵B的特征向量矩阵W＝(u₁,u₂,u₃,…,u_n)，u_c指第c列矩阵对应的第c个特征向量，及对应的特征值Λ＝[λ₁,λ₂,λ₃,…,λ_n]，λ_f指第f个特征向量对应的第f个特征值，对特征值进行降序排列，对对应的特征向量也进行类似的排序，得到变化矩阵W，W中有p个特征向量，p在数值上和z相同；

累计贡献率为

其中η_γ指对应第γ列的特征值，η_h指第h列的特征值，p指特征向量的总数量，q指选取的特征向量的数量，取前500个特征值计算q＝500时的累计贡献率为0.89，因此，取矩阵W的前500个特征向量组成矩阵T；

步骤54)根据主成分分析的思想，将步骤52)中得到的z个向量映射到z个新的向量β_σ上，即

(1)z个β_σ之间相互正交，即β_σβ_d ^T＝0，σ＜＝d，d＜＝z；

4.根据权利要求2所述的一种基于多特征融合的社交平台用户信息的分析方法，其特征在于，所述步骤53)中，q按照经验取500。

5.根据权利要求2所述的一种基于多特征融合的社交平台用户信息的分析方法，其特征在于，所述步骤7)中，s按照经验取0.1。