CN109409433B

CN109409433B - 一种社交网络用户的人格识别系统和方法

Info

Publication number: CN109409433B
Application number: CN201811284740.7A
Authority: CN
Inventors: 郑康锋; 伍淳华; 武斌; 张冬梅; 毛雨
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2022-06-07
Anticipated expiration: 2038-10-31
Also published as: CN109409433A

Abstract

本发明提出一种社交网络用户的人格识别系统和方法，属于机器学习和主体认知领域。本发明系统包括：社交网络爬虫模块，社交网络用户人格分析模块，社交网络用户数据库模块，分析结果响应模块。首先，爬取用户授权的网络行为数据，生成带人格标签的离线网络行为数据集；对带人格标签的离线网络行为数据提取用户行为特征；将前述数据分为训练集和测试集，采用不同的机器学习算法，最终选取最优模型；最后，继续模型优化，直到获得达标的人格分析模型，进而得到该用户的人格标签。本发明通过分析社交网络用户的线上行为，挖掘强相关特征，根据群智能优化算法选出最优特征组合，分析得到社交网络用户的人格，为个性化推荐和用户心理预警提供基础。

Description

一种社交网络用户的人格识别系统和方法

技术领域

本发明属于机器学习和主体认知领域，具体涉及一种社交网络用户的人格识别系统和方法。

背景技术

随着互联网的发展，各种互联网应用逐渐进入人们的生活。人们在使用互联网应用时的习惯和需求各不相同，个性化逐渐成为推荐系统、用户心理预警等应用需要考虑的重要因素。其次，人格与网络空间中的行为高度相关，因此获取网络用户的人格可以进一步促进个性化应用的发展。再次，传统的人格测量主要通过调查问卷的方式进行，不适合大规模用户人格测量，而借助社交网络平台，用户在使用过程中会产生大量信息和行为数据。通过社交网络数据进行人格自动化预测，可以高效地获取用户人格。现有的人格研究方法，对文本风格分析不够深入，而且已有的特征优化方法只针对单个特征，不能保证其特征组合能达到人格识别的最优效果。

人格被定义为从生物和环境因素演变而来的一系列习惯行为、认知和情感模式。人格不仅与人在现实社会的行为表现息息相关，而且与网络空间中的行为高度相关。由于人格是一种不能直接观察到的隐含的心理结构，它必须通过有效的和明确的行为指标来衡量。目前已有的测量人格的方法中，自我报告是使用最广泛的方法。然而这种方法在获取用户数据的同时受到用户主观性的影响，同时在参与者招聘，反馈效率和资源消耗方面存在局限性。因此，自我报告方法需要改进。社交网络作为传播信息、发表观点的平台，其载体信息具有可记录、易获取等特性。通过人格信息可以更好地理解社交网络中用户的行为，这对于依赖个性化的应用(如推荐系统，个性化广告，用户心理警示)等方面具有巨大价值。因此针对社交网络用户进行人格分析具有重要意义。

目前国内外对社交网络用户人格识别技术进行了大量的研究工作。从社交网络属性特征的构建上，可以分为语言特征、静态属性特征和动态属性特征等。但是这类技术主要针对社交网络数据中的基本统计信息，忽略了用户在个人写作中体现出的文本风格等特点。因此，需要对人格识别进行更深入的特征分析。在特征优化方面，以往的技术主要采用皮尔逊相关系数、信息增益等方法，但是这类技术只能选出最优的特征个体，不一定保证对整体效果最好，因此需要采用能选出最优特征组合的技术。

发明内容

针对现有的人格研究方法，对文本风格分析不够深入，而且已有的特征优化方法只针对单个特征，不能保证其特征组合能达到人格识别的最优效果等问题，本发明提出一种社交网络用户的人格识别系统和方法，通过分析社交网络用户的线上行为，挖掘强相关特征，根据群智能优化算法选出最优特征组合，分析得到社交网络用户的人格，为个性化推荐和用户心理预警提供基础。

本发明提供的一种社交网络用户人格识别系统，包括：社交网络爬虫模块，社交网络用户人格分析模块，社交网络用户数据库模块，分析结果响应模块。

所述的社交网络爬虫模块从社交网络爬取用户数据，包括用户个人信息、用户发布的博文内容、博文发布的时间和用户人格标签，并存储到社交网络用户数据库中；

所述的社交网络用户人格分析模块对社交网络用户数据库中离线的带人格标签的用户数据提取的用户行为特征，用户行为特征包含五类：时间特征、词性标注特征、统计特征、文本风格特征和心理词汇特征；对每个用户提取一个D维的用户行为特征向量，然后采用粒子群优化算法进行特征组合优化，选出最优特征组合；D为正整数；将带人格标签的离线数据分为训练集和测试集，将所选取的最优特征组合作为机器学习算法的输入，人格标签作为机器学习算法的输出，利用训练集采用不同的机器学习算法进行人格分析模型训练，再利用测试集选取最优模型，将获得预期指标的模型作为最终的人格分析模型；

所述的社交网络用户数据库模块，存储社交网络爬虫模块从社交网络中获取的离线的带人格标签的用户数据，待分析的用户数据，以及社交网络用户人格分析模块的识别结果；

所述的分析结果响应模块从社交网络用户数据库获得人格识别结果，生成人格分析结果报告并根据结果报告中社交网络行为中存在的不安全因素进行用户心理预警。

本发明还提供了一种社交网络用户的人格识别方法，包括以下步骤：

步骤1，从社交网络中爬取用户授权的网络行为数据，生成带人格标签的离线网络行为数据集；

步骤2，对带人格标签的离线网络行为数据提取用户行为特征，用户行为特征包含五类：时间特征、词性标注特征、统计特征、文本风格特征和心理词汇特征；对每个用户提取一个D维的用户行为特征向量，然后采用粒子群优化算法进行特征组合优化，选出最优特征组合；D为正整数；

步骤3，将带人格标签的离线网络行为数据分为训练集和测试集，将所选取的最优特征组合作为机器学习算法的输入，人格标签作为机器学习算法的输出，利用训练集采用不同的机器学习算法进行人格分析模型训练，再利用测试集选取最优模型；

步骤4，步骤3所得到的人格分析模型要达到预期指标，若未达到，则继续执行步骤3进行模型优化，直到获得达标的人格分析模型；

在得到最终的人格分析模型后，对从社交网络爬取的用户的待分析数据，通过步骤2提取用户行为特征，并获得对应的最优特征组合，输入最终获得的人格分析模型，得到该用户的人格标签。

本发明与现有技术相比，具有以下明显优势：

(1)现有的社交网络用户的人格识别方法中，常用的特征集大多是时间特征、词性标注特征等基本统计特征。因此本发明提出了基于用户博文内容的文本风格特征，并率先将粒子群优化算法PSO应用于人格分析模型中，具有创新性。

(2)本发明方法将群智能优化算法的PSO用于特征优化，选取最优的特征组合，减少了特征提取的工作量，提高了识别效率。

附图说明

图1是本发明社交网络用户人格识别系统的结构示意图；

图2是本发明社交网络用户人格识别模型流程图；

图3是本发明PSO特征优化流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图和具体实施例对本发明作进一步的详细描述。

本发明提供的社交网络用户的人格识别系统及方法，对社交网络用户的人格进行识别，如果识别出可能存在的人格特性，分析与人格分析结果关联性强的社交网络行为，生成人格分析结果报告，并对社交网络行为中存在的不安全因素进行用户心理预警。

如图1所示，本发明社交网络用户人格识别系统包括：社交网络爬虫模块1，社交网络用户人格分析模块2，社交网络用户数据库3，以及分析结果响应模块4。

社交网络爬虫模块1用于获取社交网络用户数据，包括社交网络用户的个人信息、用户发布的博文内容、博文发布的时间和邀请用户填写大五人格量表的用户人格标签，筛选出发博数量超过20条的用户并将获取到的数据存储在社交网络用户数据库模块3中；社交网络用户数据，即离线网络行为数据。

社交网络用户人格分析模块2从社交网络用户数据库3中提取的用户行为特征数据，对用户行为特征数据根据粒子群优化算法PSO(参考文献1：Kennedy,J.(2011).Particle swarm optimization.Encyclopedia of machine learning.)选取显著特征集合，完成特征选取；对选取出来的最优组合特征，采用机器学习算法建立人格识别模型，并对社交网络用户数据库模块3中待检测的用户进行人格识别。

社交网络用户人格分析模块2提取的用户行为特征包含五类：时间特征、词性标注特征、统计特征、文本风格特征和心理词汇特征；对每个用户提取一个D维的用户行为特征向量。D一般是一个比较大的数目，例如提取了96维的特征向量，如果直接用D维特征向量来进行机器算法的模型训练，将有很大的计算量，本发明对D维特征向量采用粒子群优化算法进行特征组合优化，选出最优特征组合，减少了特征提取的工作量，降低机器算法模型训练的计算量，也提高了识别效率。在得到最优特征组合后，将带人格标签的离线数据分为训练集和测试集，将所选取的最优特征组合作为机器学习算法的输入，人格标签作为机器学习算法的输出，利用训练集采用不同的机器学习算法进行人格分析模型训练，再利用测试集选取最优模型，将获得预期指标的模型作为最终的人格分析模型。

社交网络用户数据库3一方面存储社交网络爬虫模块1爬取的带人格标签的离线的社交网络用户数据，供社交网络用户人格分析模块2进行人格分析模型训练使用；一方面存储社交网络爬虫模块1获取的待分析的社交网络用户数据，并提供给社交网络用户人格分析模块2进行分析识别，并存储社交网络用户人格分析模块2的识别结果。

分析结果响应模块4从社交网络用户数据库3中获得人格识别结果，如果识别出可能存在的人格特性，则进一步分析与社交网络用户人格分析模块2分析的结果关联性强的社交网络行为，生成人格分析结果报告，并根据结果报告对社交网络行为中存在的不安全因素进行用户心理预警。

为了更好的实现本发明的目的，本发明还提供了一种社交网络用户的人格识别方法，如图2所示，该方法包括：社交网络用户数据输入，用户数据特征提取并优化，人格分析模型训练和人格分析模型测试四个步骤。下面说明各步骤的实现。

步骤1、从社交网络中获取用户授权的网络行为数据，并存储到数据社交网络用户数据库3中。

通过社交网络爬虫模块1从社交网络爬取用户授权的用户数据，主要包括户发布的博文内容、博文发布的时间等网络行为数据，以及用户通过在网站填写大五人格问卷获得的人格特性得分及人格标签等数据，这些获取的带人格标签的离线网络行为数据形成一个数据集存储到社交网络用户数据库3中。

其中，用户发布的博文内容是用户行为数据中重要的一部分，不同人格的用户发布的博文具有不同的特点。用户发布博文的时间也是用户网络行为习惯的体现，根据博文发布的时间能进一步得到用户发布博文的频率等时间特性。用户人格标签由大五人格模型组成。大五人格模型将人格分为五个维度：外向性、神经质、宜人性、责任心、开放性。

步骤2、用户行为特征提取和优化。

从社交网络用户数据库3存储的带人格标签的离线网络行为数据集中提取用户行为特征，用户行为特征包括五类：时间特征、词性标注特征、统计特征、文本风格特征和心理词汇特征，采用粒子群优化算法PSO进行特征组合优化，选出最优特征组合。将用户行为特征数据分为测试集和训练集。

下面说明下用户行为特征中的五类特征：

时间特征(参考文献2：G.Farnadi,and S.Zoghbi(2013).Recognisingpersonality traits using facebook status updates.Proceedings of thewcpr.AAAI.)，是用户在某个时间段活跃度的表现，如用户在06:00-11:00发布博文的频率。

词性标注特征(参考文献3：D.Markovikj,and S.Gievska.(2013).Miningfacebook data for predictive personality modeling.Proc.AAAI internationalconference on weblogs and social media(icwsm).)，不同人格的用户在用词习惯上会有不同的体现，如开放性人格会使用更多的NLTK词性标注中的存在词。通过对用户发布的博文内容进行分析来获得词性标注特征。

统计特征(参考文献4：L.Li,and B.Hao.(2014).Predicting active userspersonality based on micro-blogging behaviors.PLoS ONE 9(1),pp.1-11.)，是基于标点符号、发布博文时间的相关统计信息，包括使用叹号/疑问号的频率、发布博文最频繁时间、每天发布博文初始时间等。

文本风格特征，包括叹词、标点符号、复杂词、大小写词的使用频率。

心理词汇特征，一般而言，外向性、宜人性和开放性人格倾向于使用更多的积极词汇，神经质人格易使用较多的消极词汇，责任心人格往往使用更多的与工作有关的词汇。

对于本发明中的五类特征，时间特征、词性标注特征和统计特征是在相关研究的基础上提取的，文本风格特征在参考文献5(R.S.Silva,and G.Laboreiro.(2011).twaznme！！！；(’automatic authorship analysis of micro-blogging messages.Proc.the16th international conference on applications of natural language toinformation systems,Springer Berlin Heidelberg,pp.161-168.)中被提出可以识别出不同人的写作风格，由于人的行为不同是人的人格不同的一种外在体现，所以本发明将文本风格特征用于人格分析的特征。在已有研究中，研究者利用LIWC(Linguistic Inquiryand Word Count)词典工具(参考文献6：J.W.Pennebaker,and L.A.King.(1999).Linguistic styles:Language use as an individual difference.Journal ofPersonality and Social Psychology 77:1296–1312.)提取心理词汇特征，但是LIWC工具只考虑到同一类别中词汇的重要性。由于每个用户的文本长度不一致，简单地计算词汇的频率作为区分不同人格的特征是不准确的。为了消除文本长度不一致的影响，本发明作出如下改进：对每个用户，计算LIWC词典中心理词汇的TF-IDF值来代替词频统计，作为对应心理词汇的特征值，如下：

tfidf_i,j＝tf_i,j×idf_i

其中，tf_i,j表示词汇t_i在用户的一条博文d_j中出现的次数，idf_i表示词汇t_i的逆向文件频率，分别计算如下：

其中，n_i,j表示词汇t_i在用户的一条博文d_j中出现的次数，∑n_k,j表示在d_j中所有词汇的总数。|D|表示数据集中包含的用户的博文数，|{j:t_i∈d_j}|表示包含词汇t_i的用户博文数量。

本发明根据用户数据对每个用户提取一个D维的用户行为特征向量，即一共包含D个特征值，这些特征值分属于上面五类特征。所有用户的行为特征向量的维度相同，每个维度所对应的特征含义和计算值获取方法都是相同的。

为了提高社交网络用户人格分析模块2的识别准确率和运行效率，需要对原始特征集进行特征优化。常用的特征优化算法有皮尔逊相关系数、信息增益等，但是此类方法只能选出最优的特征个体，不一定保证对整体效果最好。本发明中采用粒子群优化算法PSO选出最优特征组合，如图3所示，为PSO特征优化流程图，PSO特征优化流程如下：

步骤201、随机初始化粒子群。

随机产生D维空间的N个粒子作为初始粒子群体，并初始化粒子参数，包括粒子的位置和粒子速度。D对应用户行为特征向量的维度。设第i个粒子的位置为X_i，第i个粒子的速度为V_i，i＝1,2,…,N。

一个粒子的位置代表了一种选取的特征组合，X_i＝(x_i1,x_i2,...,x_iD)，是由0、1构成的二进制编码向量，向量中的每个元素对应一个用户行为特征，元素x_ij对应是否选取用户行为特征向量中的第j个特征，j＝1,2,…,D。当x_ij取值为1时，代表选取该特征，取值为0时，代表不选取该特征。

粒子的速度V_i＝(v_i1,v_i2,...,v_iD)，其中元素v_ij(j＝1,2,…,D)上限为V_max，取值为[-V_max,V_max]，表示第i个粒子在第j维空间位置取值为1的概率，也就是第i个粒子选取用户行为特征向量中的第j个特征的概率。

设pbest_i表示个体最优位置向量，pbest_i＝(p_i1,p_i2,...,p_iD)；设gbest表示群体最优位置向量，gbest＝(g₁,g₂,...,g_D)。初始pbest_i和gbest均为空向量。

步骤202、对每个粒子进行归一化处理，并采用F1作为PSO算法的适应度函数，计算每个粒子的适应度，即对每个特征组合计算对应的F1值；

F1＝2*Pecision*Recall/(Precison+Recall)

其中，Precison表示模型的准确率，Recall表示模型的召回值。

对于每个粒子，都对应有一个人格分析模型的准确率和召回值。本发明将属于该人格记作正类标签，将不属于该人格记作负类标签，计算公式如下：

Precision＝TP/(TP+FP)

Recall＝TP/(TP+FN)

其中，TP表示正确识别为正类的样本数，FP表示错误识别为正类的样本数，FN表示错误识别为负类的样本数。

步骤203、根据步骤202的计算结果得到每个粒子的适应度，对每个粒子，将当前适应度与其之前记录的最优位置对应的适应度比较，把两者中较大的适应度对应的位置更新为个体最优位置，每个粒子的个体最优位置更新完毕后，比较所有粒子的个体最优位置对应的适应度，取最大的适应度对应的粒子位置更新群体最优位置。

步骤204、更新当前粒子的速度和位置，设当前第t次迭代的粒子i的第j维速度为v_ij(t)，则更新第t+1次迭代时粒子i的第j维速度v_ij(t+1)，如下：

v_ij(t+1)＝ω×v_ij(t)+c₁×rand()×(p_ij(t)-x_ij(t))+c₂×Rand()×(g_j(t)-x_ij(t))

其中，ω是惯性权重，调节对解空间的搜索范围，取值为非负数；c₁是粒子i当前位置x_ij(t)与个体最好位置p_ij(t)之间距离的学习步长，c₂是粒子i当前位置x_ij(t)与群体最好位置g_j(t)之间距离的学习步长；rand()、Rand()分别是对应c₁和c₂的增加随机搜索性的随机函数，取值范围为0-1；p_ij(t)表示第t次迭代时个体最优位置向量的第j维元素；g_j(t)表示第t次迭代时群体最优位置向量的第j维元素。

设当前第t次迭代的粒子i的第j维位置为x_ij(t)，则更新第t+1次迭代时粒子i的第j维位置x_ij(t+1)如下：

其中，

表示采用sigmoid函数将速度v_ij(t+1)映射到[0,1]区间。

步骤205、当达到最大迭代次数或全局最优位置满足最小界限时，停止迭代，此时的群体最优位置向量gbest中值为1的特征构成的集合即PSO算法选择的最优特征组合；否则返回步骤202。

步骤3、人格分析模型训练。

将特征训练集数据采用多种不同的机器学习算法进行模型训练，建立人格分析模型。输入测试数据进行性能测试，选出最优模型。

本发明实施例中，步骤3进行人格分析模型训练时，将构建好的特征集按3:1分为训练集和测试集两部分，分别采用三种机器学习算法：KNN、朴素贝叶斯和决策树，建立人格分析模型，从中选出最优模型。

步骤4、人格分析模型测试。

输入测试集数据对人格分析模型进行模型评估，如果评估指标达到预期，则输出最终人格分析模型及人格分析结果；若未达到预期，则继续步骤3，优化人格分析模型。

人格分析模型在测试集上的表现可以衡量模型的泛化能力，本发明采用F1值作为评估指标。在测试集上评价指标F1值最高的模型，是本发明中社交网络用户人格分析系统的最终模型。

在得到最终的人格分析模型后，对从社交网络爬取的用户的待分析数据，根据步骤2确定的最优特征组合提取用户行为特征，并输入最终获得的人格分析模型，得到该用户的人格标签。

为使本发明的技术方案更加清楚，下面对本发明提出的方法进行实验仿真，仿真条件如下表1所示：

表1：仿真条件

操作系统	Windows 10
		编程语言	Python 2.7.9
硬件条件	处理器Intel(R)Core(TM)i5-5200U CPU 2.20GHz
		检测对象	社交网络(Facebook)用户
系统功能	给出系统检测的F1值

(1)数据获取及特征提取。通过用户授权获取网络行为数据，并邀请用户填写大五人格问卷，其得分作为人格标签，对数据进行归一化处理并提取用户行为特征。

(2)人格分析结果验证。将预测结果与已知人格标签做对比。计算出F1值。

(3)观察人格分析结果。人格分析模型的F1值在外向性、神经质、宜人性、责任心、开放性这五个人格上分别达到：77％，71％，77％，69％，79％。通过对比，发现基于粒子群优化算法PSO选取的特征，采用KNN算法建立的模型具有最好的预测效果，所以选取KNN算法训练模型，最后形成社交网络用户的人格预测模型，供用户使用。

Claims

1.一种社交网络用户的人格识别系统，其特征在于，包括：社交网络爬虫模块、社交网络用户人格分析模块、社交网络用户数据库以及分析结果响应模块；

所述的文本风格特征包括叹词、标点符号、复杂词、大小写词的使用频率；

所述的心理词汇特征利用LIWC词典工具提取，对每个用户，计算LIWC词典中心理词汇的TF-IDF值来作为对应心理词汇的特征值，如下：

tfidf_i，j＝tf_i，j×idf_i

其中，tfidf_i，j表示心理词汇t_i在博文d_j的TF-IDF值，tf_i，j表示词汇t_i在用户的一条博文d_j中出现的次数，idf_i表示词汇t_i的逆向文件频率，i，j均为正整数；

其中，n_i，j表示词汇t_i在用户的一条博文d_j中出现的次数，∑n_k，j表示在d_j中所有词汇的总数；|D|表示数据集中包含的用户的博文数，|{j：t_i∈d_j}|表示包含词汇t_i的用户博文数量；

2.一种社交网络用户的人格识别方法，其特征在于，包括如下步骤：

步骤2，对带人格标签的离线网络行为数据提取用户行为特征，用户行为特征包含五类：时间特征、词性标注特征、统计特征、文本风格特征和心理词汇特征；对每个用户提取一个D维的用户行为特征向量，然后采用粒子群优化算法进行特征组合优化，选出最优特征组合；

文本风格特征包括叹词、标点符号、复杂词、大小写词的使用频率；

利用LIWC词典工具提取心理词汇特征，对每个用户，计算LIWC词典中心理词汇的TF-IDF值来作为对应心理词汇的特征值，如下：

tfidf_i，j＝tf_i，j×idf_i

在得到最终的人格分析模型后，对从社交网络爬取的用户的待分析数据，提取步骤2所获得的最优特征组合，输入最终获得的人格分析模型，得到该用户的人格标签。

3.根据权利要求2所述的方法，其特征在于，所述的步骤2中，采用粒子群优化算法进行特征组合优化，其中设置种群中的每个粒子的位置和速度如下：

设第i个粒子的位置为X_i，速度为V_i；

一个粒子的位置代表一种选取的特征组合，X_i＝(x_i1，x_i2，...，x_iD)，元素x_ij对应是否选取用户行为特征向量中的第j个特征，j＝1，2，...，D；D对应用户行为特征向量的维度；x_ij取值为1时，代表选取该特征，取值为0时，代表不选取该特征；

V_i＝(v_i1，v_i2，...，v_iD)，元素v_ij表示第i个粒子选取用户行为特征向量中的第j个特征的概率，j＝1，2，...，D。