CN110119849A

CN110119849A - 一种基于网络行为的人格特质预测方法及系统

Info

Publication number: CN110119849A
Application number: CN201910424244.5A
Authority: CN
Inventors: 崔立真; 王世鹏; 鹿旭东; 郭伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-13
Anticipated expiration: 2039-05-21
Also published as: CN110119849B

Abstract

本发明公开了一种基于网络行为的人格特质预测方法及系统，包括：获取用户行为数据；对上述用户的人格特质进行标注；对获取的数据进行数据预处理和特征提取；按照发生的时间顺序，对设定时间段内提取的数据特征进行数据集成，形成包含时序关系的行为向量特征；将用户的行为向量特征与其被标注的人格特质进行对应，将对应后的数据输入到长短期记忆模型进行预测，输出人格特质的预测结果。本发明有益效果：能够自动预测用户的人格特质；使用社交平台的异构数据，实现了对用户人格的自动化计算与预测。

Description

一种基于网络行为的人格特质预测方法及系统

技术领域

本发明属于众智科学技术领域，尤其涉及一种基于网络行为的人格特质预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前，随着社会经济的不断发展和互联网、云计算，大数据等技术的不断成熟，移动社交网络已经成为沟通真实物理世界和虚拟网络空间的桥梁，相对于现实世界中的行为，由于网络的匿名性，人们在网络中的行为更加直接地反映了人们在真实世界中的活动和情感。同时，人格测量在越来越多的领域中得到了广泛的应用，例如，针对就业择业、人才选拔以及征兵的人格测试能够帮助企业或者军队在遴选人才方面节省成本，规避风险；在网络电商平台和在线投放网络广告方面，基于用户人格特质的推荐往往更加贴合用户心理，精准推荐为商家带来更大收益；此外，在社交媒体领域，准确把握用户的人格特质有利于引导舆论，减少负面事件的发生。在传统的心理学研究中，人格特质可以通过特异性指标(行为特征)加以鉴别，比如人的语言、动作、神态等，通过分析人的行为特征，能够对人的人格特质进行区分和判断，在网络环境中，不仅仅语言、神态可以体现人格特质，海量多源异构的网络行为数据为人格特质的研究提供了可能。在此背景下，基于网络行为数据合理预测人的人格特质便成为了现代心理学测量的研究热点。

发明人发现，在基于网络行为预测人格方面，目前已有一些研究，主要是使用回归模型和支持向量机(SVM)、神经网络(NN)等机器学习和深度学习方法。例如有的人基于社交平台Facebook的点赞行为，使用线性回归(Linear Regression)和逻辑回归(LogisticRegression)预测人格特质和其他相关倾向；有的人基于微博相关数据，使用支持向量机(SVM)训练人格特质分类模型，并利用PaceRegression方法建立了回归模型预测人格特质；此外，有人基于机器学习和深度学习的思想预测人格特质中细粒度的倾向，比如使用贝叶斯方法(Bayes)建模预测预测人的消费冲动倾向；还有人基于异构社交网站数据(如文本、图片、头像等)，使用集成学习的思想融合不同维度的数据来预测人格特质。然而，这些工作大多集中于某种单一数据，且未考虑人格特质受行为时间和时序的影响，同时现有的研究需要大量的人工标注进行验证，不能实现自动化预测人格特质的目的。

发明内容

为了解决上述问题，本发明提出一种基于网络行为的人格特质预测方法及系统，利用长短期记忆网络模型实现对异构社交平台网络行为数据所反映的人格特质的自动化预测。

在一些实施方式中，采用如下技术方案：

一种基于网络行为的人格特质预测方法，包括：

获取用户行为数据；

对上述用户的人格特质进行标注；

对获取的数据进行数据预处理和特征提取；

按照发生的时间顺序，对设定时间段内提取的数据特征进行数据集成，形成包含时序关系的行为向量特征；

将用户的行为向量特征与其被标注的人格特质进行对应，将对应后的数据输入到长短期记忆模型进行预测，输出人格特质的预测结果。

在另一些实施方式中，采用如下技术方案：

一种基于网络行为的人格特质预测系统，包括：

用于获取用户行为数据的模块；

用于对上述用户的人格特质进行标注的模块；

用于对获取的数据进行数据预处理和特征提取的模块；

用于按照发生的时间顺序，对设定时间段内提取的数据特征进行数据集成，形成包含时序关系的行为向量特征的模块；

用于将用户的行为向量特征与标注的人格特质进行对应，将对应后的数据输入到长短期记忆模型进行预测，输出人格特质的预测结果的模块。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于网络行为的人格特质预测方法。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于网络行为的人格特质预测方法。

与现有技术相比，本发明的有益效果是：

(1)本发明能够自动预测用户的人格特质；使用社交平台的异构数据，实现了对用户人格的自动化计算与预测；

(2)本发明相比于传统心理学测量方式，不仅节省专家判别等人力资源成本和传统心理学问卷费时、费钱的问题，也减少了因被测试用户主观因素导致的人格预测不准确的问题，同时，提供了一种新的研究研究用户人格的工具，对这些数字媒介行为进行记录和分析，能够为计算社会科学、个性化搜索引擎、推荐系统以及电商平台有针对性的在线营销提供帮助，尤其是基于数字行为记录对人格进行预测，可以极大地提高在线营销和推荐系统的针对性来帮助商家获取更大的利益。

(3)基于网络行为自动预测人格特质，准确把握人的个性特质，在商业方面能够向社会公众提供合理的产品或者服务，在社会舆论方面能够对于社会公众形成合理的引导和规劝，对经济发展和社会稳定具有重要意义。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例一中基于网络行为的人格特质预测方法流程示意图；

图2是实施例一中LSTM模型示意图；

图3是实施例一中LSTM模型结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了一种基于网络行为的人格特质预测方法，包括以下步骤：

(1)获取用户行为数据；

(2)对上述用户的人格特质进行标注；

(3)对获取的数据进行数据预处理和特征提取；

(4)按照发生的时间顺序，对设定时间段内提取的数据特征进行数据集成，形成包含时序关系的行为向量特征；

(5)将用户的行为向量特征与标注的人格特质进行对应，将对应后的数据输入到长短期记忆模型进行预测，输出人格特质的预测结果。其中，对应后的数据指的是用户行为特征向量与其人格特质分数连接构成的向量，如对应后的向量为(0.005，0.047，0.102，0.231，…，0.002，0.018，0.09)，其中前n-1位为用户行为特征向量，第n位为人格特质得分。

下面结合图1中的方法流程图，以用户微博数据的人格特质预测为例对本发明方法进行详细描述，具体包括：

步骤一：爬取微博上多源异构的用户行为数据，并对数据进行存储。

1.数据爬取过程

使用Scrapy爬虫框架，模拟用户登录微博web页面进行数据爬取，爬取包括用户ID，用户发帖(包含文本和图片帖)，用户点赞等行为和发生行为的时间。为了避免网页反爬虫机制，设置网络代理定期更新IP，并设置爬虫随机休眠时间。

2.数据存储

采用MongoDB数据库进行存储，MongoDB是一个高性能，开源，无模式的文档型数据库，适合实时的插入、更新与查询。存储用户ID、文本帖子、图片帖子和点赞内容，以及这些行为发生的时间。

步骤二：对爬取的用户行为数据进行数据预处理和特征提取

由于不同社交平台的文本语言可能存在风格上的差异，为了更好的提取文本特征，可针对具体的平台选择不同的数据进行预训练，如基于微博数据预测，则在提取文本特征时，使用预处理好的微博文本数据训练Word2vec模型。

1.文本类数据处理模块：

对于收集到的文本数据，采用Jieba分词进行语句词语的切分。Jieba分词是Python的一款中文分词工具，对于一长段文字，其分词原理大体可分为三步：首先用正则表达式将中文段落粗略的分成一个个句子；然后将每个句子构造成有向无环图(DAG),之后寻找最佳切分方案；最后对于连续的单字，采用隐马尔可夫模型(HMM模型)将其再次划分。例如，对于文本“我来到北京清华大学”，采用默认分词模式，切分为“我”“来到”“北京”“清华大学”。在采用Jieba分词的过程中，我们预设停用词库，针对微博文本，我们将其中的表情符号，如“(^_^)”以及笑脸脸符号和一些阿拉伯字母、数字等加入停用词库，删除此类信息对于微博文本的影响。

进一步的，分词后的文本数据进行词嵌入(Word Embedding)过程处理，把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，叫做词向量，词向量具有良好的语义特性，是表示词语特征的常用方式，词向量每一维的值代表一个具有一定的语义和语法上解释的特征。在此步骤中，我们首先使用爬取的微博文本数据训练word2vec模型，训练好的Word2vec模型用于将用户的原始文本转化为文本向量，从而进行词的嵌入(Word Embedding)，计算出用户文本中每个词的词嵌入向量；

在此发明中使用skip-gram模型训练词向量嵌入的神经网络，基于微博语料文本词典，对于每个切好的词构造one-hot向量，使用神经网络训练低维词嵌入向量，在此发明中设置为300维，如对于词“北京”，其词向量为w_北京＝(0.3552，0.0147，0.3821，0.1004，0.0021，…，0.1258，0.2257)，共300维，对于词“清华大学”，其词向量为w_清华大学＝(0.0052，0.047，0.1021，0.2314，0.0021，…，0.0218，0.0009)，共300维。

进一步的，将用户的文本词向量连接为句子。采用简单向量拼接方式，按照文本中的词顺序连接。如“我来到北京清华大学”可以表示为V＝(w_我,w_来到,w_北京,w_清华大学)，即V＝(0.0225，0.2210，…，0.0133，0.0291，0.0102，0.0147，…，0.0018，0.2709，0.3552，0.0147，…，0.1258，0.2257,0.0052，0.0470，…，0.0218，0.0009)，共1200维。将所有的用户文本都转化为句子向量。

用户文本特征提取模块：

采用迁移学习的方法，先使用意识流文章数据集预训练一个卷积神经网络模型，用来提取与用户个性相关的文本特征。采用James Pennebaker and Laura King’sstream-of-consciousness essay数据集，共包含2467篇匿名文章，这些文章由心理学专业学生在20分钟内完成，包含190万词。并且在完成文章后，学生被要求按照大五人格问卷测量了大五人格，对学生在五个人格维度上具有的特质进行了标注。在此数据集上训练卷积神经网络模型CNN，CNN隐藏层设置为3层，每层为全连接网络，神经元个数设置为300，一层sigmoid层，使用relu函数，一层softmax层，输出设置为5维，分别对应大五人格维度。然后将句子向量输入训练好的CNN模型，提取第三层隐藏层的输出，作为句子最终的文本特征F_t＝V*，V*为第三层隐藏层的输出，是一个300维的向量。

图片类数据处理模块：

首先将用户微博动态的图片数据提取出来，删除清晰度较低的图片，采用Brenner梯度函数计算图片清晰度，并按照一定阈值删除低于阈值的图片。Brenner梯度函数较为简单，计算的是相邻两个像素灰度差的平方。

进一步的，将保留下来的图片进行标签验证，通过专家打上人格特质标签，需要500张经过专家标记的图片。

用户图片特征提取模块：

首先在ImageNet图片数据库中使用VGG16network神经网络进行预训练，设置隐藏层设置为3层，每层为全连接网络，神经元个数设置为300，一层sigmoid层，使用relu函数，一层softmax层，输出设置为5维，分别对应大五人格维度。将训练好的卷积神经网络模型CNN_image模型保存下来。其中ImageNet是一个计算机视觉系统识别项目名称，是目前世界上图像识别最大的数据库，ImageNet能够从图片识别物体，被用来完成一些图像识别领域的监督学习模型训练。

进一步的基于迁移学习的思想，使用训练好的CNN_image模型，然后使用我们预处理好的带有人格特质标签的微博图片数据继续训练此模型，优化模型权重参数，使其更加适配人格特质预测任务。待模型优化后，针对用户的每张微博图片，使用优化后的模型CNN_after提取其模型中第三层隐藏层的输出作为用户图片特征F_p，此处F_p为300维。

点赞行为数据处理模块：

针对爬取的微博用户的点赞行为构造用户点赞行为向量。首先删除用户点赞中的图片，然后针对其中的文本内容，使用基于微博数据预训练好的LDA模型(隐狄利克雷分配模型)分析该条文本内容和其中关键词分别属于的领域(如娱乐)，以及具体的子领域(如电影、音乐、明星等)；

用户点赞特征提取模块：

将用户点赞行为向量化，构建用户的点赞行为特征。具体的，根据LDA主题分类后的领域构建点赞行为字典编码,根据此字典，采用one-hot编码方式，对用户点赞行为L进行编码，示例为：如果主题字典包含六个主题，D＝{1：娱乐，2：军事，3：房产，4：体育，5：美食，6：财经}，用户A在某一较短时间点赞了“军事”内容，“房产”内容，“财经”内容，用户B在某一较短时间点赞了“娱乐”内容，“美食”内容，“房产”内容，“体育”内容，则用户A的点赞行为特征向量为f_A＝(0，1，1，0，0，1)，用户B的点赞行为特征向量为f_B＝(1，0，1，1，1，0)。在此发明中，基于我们的微博数据，在删除较少用户点赞的主体并合并冗余主题后，我们构造了100维的用户点赞主题词典。

步骤三：对用户进行人格特质的标注，目的是获得用户人格特质得分，作为使用LSTM模型预测时的标签。

设计针对网络用户的人格特质问卷，测量用户的大五人格特质，作为使用LSTM模型预测时的标签。

对用户人格特质进行标注，采用志愿者自愿标注的方式进行。针对爬取的用户u_i的ID，在其社交平台爬取其绑定的个人邮箱或者手机号等联系方式并发送邮件或者短信征集志愿者，针对愿意参与实验的用户，通过人格特质网络问卷测试其人格特质并与ID绑定。用户完成人格特质问卷后，将自动评判用户的人格特质。同时，可通过人格测试对用户行为分析，标注少量用户人格特质，进行效度和信度的验证；比如通过大五人格量表验证用户人格特质。

步骤四：对异构数据特征进行特征集成

对文本、图片和点赞行为三类数据特质进行数据集成，具体实施如下：

由于用户文本长度不一致，尤其是文本中语句长度不一致，对微博语料分析后发现，长的语句可以有140字，短的语句只有2-3个词，所以首先规整模型的输入的每条文本向量的长度，固定用户文本向量特征长度。在此发明中，我们设置用户单个文本特征为300维，统计用户在固定等长时间间隔内(我们设置为每6个小时)发帖中文本的众数，设为a，将用户在选定时间间隔内的文本向量连接起来，则用户文本特征为F_t＝(f^t ₁,f^t ₂,…,f^t ₃₀₀,f^t ₃₀₁,…,f^t _300a-1,f^t _300a)，如果用户文本数少于a，则使用零向量填充，即为F_t＝(f^t ₁,f^t ₂,…,f^t ₃₀₀,f^t ₃₀₁,…,0,0…,0,0)；如果用户文本数大于a，则本系统随机挑选a条，构造用户的文本特征。

相应地，在本实施例中，用户的发的动态中图片在输入时也需要固定图片向量的长度。设置用户单个图片特征为300,统计用户在固定等长时间间隔内(我们设置为每6个小时)发帖中图片的众数，设为b，将用户在选定时间间隔内的图片向量连接起来，则用户图片特征为F_p＝(f^p ₁,f^p ₂,…,f^p ₂₉₉,f^p ₃₀₀,f^p ₃₀₁,…,f^p _300b-1,f^p _300b)，如果用户发帖图片数少于b，则使用零向量填充，即为F_p＝(f^p ₁,f^p ₂,…,f^p ₃₀₀,f^p ₃₀₁,…,0,0…,0,0)；如果用户发帖图片数大于b，则本系统随机挑选b条，构造用户的图片特征。。

相应的，同样需要固定用户点赞行为特征向量长度。设置用户单个点赞特征向量为一个100维的向量f_n，通过步骤二可得。统计用户在固定等长时间间隔内(我们设置为每6个小时)点赞数目的众数设为c，则用户点赞行为特征为F_b＝(f₁,f₂,…,f_i,…,f_c)，如果用户点赞数少于c，则使用零向量填充，即为F_b＝(f₁,f₂,…，0，…，0，0)；如果用户点赞数大于c，则随机挑选c个，构造用户的点赞行为特征。

用户特征集成模块：

将以上三种类型的数据连接起来，所以用户在某个时间段z的特征集成为F^z _u＝(F_t，F_p，F_b)，其中F_t＝(f^t ₁,f^t ₂,…,f^t ₃₀₀,f^t ₃₀₁,…,f^t _300a-1,f^t _300a)，F_p＝(f^p ₁,f^p ₂,…,f^p ₂₉₉,f^p ₃₀₀,f^p ₃₀₁,…,f^p _300b-1,f^p _300b)，F_b＝(f₁,f₂,…,f_i,…,f_c)。

步骤五：构建用户行为特征的时序模型

按照用户行为发生的时间顺序构造用户行为特征时序模型，并提取不同间隔的时间段中的总体行为特征。

以6小时为一个时间间隔，将每天分为0-6时、6-12时、12-18时、18-24时四个时间段，然后将每个时间段内，对用户的文本，图片和点赞行为数据特征按照发生的时间顺序，采用步骤四的方法集成，其中若每类行为数据大于1条，则随机取1条，若不足1条，则以0向量表示，最终集成用户每日特征F^z _u＝(F_t，F_p，F_b)，z＝1,2,3,4，F^z _u为700维的向量。

然后统计用户行为整体特征：在该时间段(如0-6点)的原始发帖文本数C_t，原始发帖图片数C_p，原始点赞数C_b，每周的发帖文本数C^w _t和发帖图片数C^w _p，原始点赞数C^w _b，每月的发帖文本数C^m _t和发帖图片数C^m _p，原始点赞数C^m _b。则用户全局行为特征为F_global＝(C_t，C_p，C_b，C^w _t，C^w _p，C^w _b，C^m _t，C^m _p，C^m _b)。

所以对于每个用户，其用户行为特征可转变为F_u＝(F_t，F_p，F_b，C_t，C_p，C_b，C^w _t，C^w _p，C^w _b，C^m _t，C^m _p，C^m _b)，共709维，其用户特征向量变为(F_u，人格特质分数)，共710维。

步骤六：基于以上构造的用户特征向量(用户行为特征+人格特质得分)，使用长短期记忆模型LSTM进行预测。

长短期记忆模型(long-short term memory)是一种特殊的RNN模型，是为了解决RNN模型梯度弥散的问题而提出的；在传统的RNN中，训练算法使用的是BPTT，当时间比较长时，需要回传的残差会指数下降，导致网络权重更新缓慢，无法体现出RNN的长期记忆的效果，因此需要一个存储单元来存储记忆，因此LSTM模型被提出。LSTM模型能较好的处理时序行为数据，心理学中研究表明，用户人格特质是较稳定的人格因素，但短时间内会随所处环境发生轻微波动，并且具有连续行为的数据更能体现出真实的用户人格。所以我们采用LSTM模型来预测人格特质。

如图2所示，为LSTM模型示意图，其中X_i,t为用户i在第t个时间段内的用户特征，LSTM unit表示全连接神经网络单元，为输出。

如图3所示，为LSTM模型单个神经元的结构图，其包含输入门，遗忘门和输出门三部分。其工作原理为：

(1)遗忘门：选择忘记过去某些信息(通过sigmoid(x,h)控制门忘记一部分cellstate，其中Sigmoid激活函数σ常被用作神经网络的阈值函数，将变量映射到0-1之间)，遗忘门计算公式为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

(2)输入门：记忆现在的某些信息(现在的信息通过tanh(x,h)激活，再通过sigmoid(x,h)控制门忘记一部分，其中tanh函数是双曲函数中的一个函数)，则输入门部分计算公式为：

i_t＝σ(W_i·[h_t-1，x_t]+b_i]

(3)将过去记忆和现在的记忆合并：

(4)输出门计算公式为：

o_t＝σ(W_o·[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

以上为LSTM模型工作原理，W_f，W_i，W_o分别为遗忘门、输入门和输出门的权重矩阵，b_f、b_i、b_c分别为遗忘门、输入门和输出门的偏移量，以上均为待训练的参数，i为隐藏层，x_t为t时刻的用户特征输入，本实施例中x_t＝F_u，o_t为输出，在本实施例中为对应大五人格特征预测的结果。

步骤七：输出人格特质的预测结果，为大五人格特质预测的结果，大五人格特质，也称为人格五因素模型，包含开放性，责任心、外倾性、宜人性和情绪稳定性五个维度，可以涵盖人格描述的所有方面，并且具有完备的测量量表。

针对步骤七输出的预测结果，经人格量表验证后，反馈与步骤三，对人格特质标签进行补充，完善训练数据集，进一步提高此人格预测装置的预测准确率。

实施例二

在一个或多个实施方式中，公开了一种基于网络行为的人格特质预测系统，包括：

用于获取用户行为数据的模块；

用于对上述用户的人格特质进行标注的模块；

用于对获取的数据进行数据预处理和特征提取的模块；

用于将用户的行为向量特征与标注的人格特质进行对应，将对应后的数据(用户行为特征向量与其人格特质分数连接构成的向量)输入到长短期记忆模型进行预测，输出人格特质的预测结果的模块。

实施例三

在一个或多个实施方式中，公开了一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行实施例一中所述的一种基于网络行为的人格特质预测方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算机可读存储介质可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

结合实施例一中的方法步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于网络行为的人格特质预测方法，其特征在于，包括：

获取用户行为数据；

对上述用户的人格特质进行标注；

对获取的数据进行数据预处理和特征提取；

2.如权利要求1所述的一种基于网络行为的人格特质预测方法，其特征在于，获取用户行为数据，具体为：使用Scrapy爬虫框架，针对社交网络平台web页面进行数据爬取，爬取包括用户ID、用户发帖和用户点赞行为以及行为发生的时间，并分别存储在数据库中。

3.如权利要求1所述的一种基于网络行为的人格特质预测方法，其特征在于，对上述用户的人格特质进行标注，具体为：采用志愿者自愿标注的方式进行；针对爬取的用户的ID，在其社交平台爬取其联系方式并征集志愿者，针对愿意参与标注的用户，通过人格特质网络问卷测试其人格特质并与ID绑定；

或者，通过大五人格量表验证用户人格特质。

4.如权利要求1所述的一种基于网络行为的人格特质预测方法，其特征在于，对获取的数据进行数据预处理和特征提取，具体为：

针对文本数据，提取用户文本特征，具体包括：

对用户文本数据进行分词、去停用词预处理；

使用预处理的用户文本数据训练Word2vec模型，训练好的Word2vec模型用于将用户的原始文本转化为文本向量，从而进行词的嵌入，计算出用户文本中每个词的词嵌入向量；

将用户文本词嵌入向量连接起来形成用户文本句子向量；

采用迁移学习方法，将用户文本句子向量输入到预训练好的卷积神经网络模型，提取出用户的文本特征；

或者，针对图片数据，提取用户图片特征，具体包括：

在ImageNet图片数据库中使用卷积神经网络进行预训练，将训练好的卷积神经网络模型保存下来；

基于迁移学习的思想，使用训练好的卷积神经网络模型，卷积提取用户特征并继续训练当前卷积神经网络模型的权重参数，待模型优化后，使用优化后的卷积神经网络模型提取其模型中层神经元的输出作为用户图片特征；

或者，针对用户点赞数据，提取用户点赞行为特征，具体包括：

针对用户点赞行为，构造用户点赞行为向量，具体做法是：对用户点赞内容进行分类，如果点赞内容是图片，则删除该条点赞内容记录；如果点赞内容是文本，则使用预训练好的LDA模型分析该条文本内容和其中关键词分别属于的领域以及具体的子领域；

根据LDA主题分类后的领域构建点赞行为字典编码，根据此字典编码，采用one-hot编码方式，对用户点赞行为进行编码；

根据点赞行为编码构建用户行为特征向量。

5.如权利要求1所述的一种基于网络行为的人格特质预测方法，其特征在于，对设定时间段内提取的数据特征进行数据集成，具体为：

针对文本数据特征，固定用户文本向量特征长度，设置用户单个文本特征为l维，统计用户在等长时间间隔内发帖中文本的众数设为a，则用户文本特征为F_t＝(f^t ₁,f^t ₂,…,f^t _l,f^t _l+1,…,f^t _2l,f^t _2l+1,…,f^t _al-1,f^t _al)，如果用户文本数少于a，则使用零向量填充，如果用户文本数大于a，则随机挑选a条；

或者，针对图片数据特征，固定用户图片特征向量长度，设置用户单个图片特征为m,统计用户在等长时间间隔内发帖中图片的众数设为b，则用户图片特征为F_p＝(f^p ₁,f^p ₂,…,f^p _m,f^p _m+1,…,f^p _2m,f^p _2m+1,…,f^p _bm-1,f^p _bm)，如果用户发帖图片数少于b，则使用零向量填充，如果用户发帖图片数大于b，则随机挑选b条；

或者，针对点赞数据特征，固定用户点赞行为特征向量长度，设置用户单个点赞特征向量为e_n，统计用户在等长时间间隔内点赞数目的众数设为c，则用户点赞行为特征为F_b＝(e₁,e₂,…,e_c)，如果用户点赞数少于c，则使用零向量填充，如果用户点赞数大于c，则随机挑选c个。

6.如权利要求1所述的一种基于网络行为的人格特质预测方法，其特征在于，根据每天、每周或每月建立时间间隔，提取不同间隔的时间段中的包含文本、图片以及点赞数据特征的总体行为特征，综合形成用户的行为向量特征。

7.如权利要求1所述的一种基于网络行为的人格特质预测方法，其特征在于，对于输出的人格特质的预测结果，经验证后，对标注的人格特质标签进行补充，完善训练数据集，进一步提高人格特质预测的准确率。

8.一种基于网络行为的人格特质预测系统，其特征在于，包括：

用于获取用户行为数据的模块；

用于对上述用户的人格特质进行标注的模块；

用于对获取的数据进行数据预处理和特征提取的模块；

9.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-8任一项所述的基于网络行为的人格特质预测方法。

10.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-8任一项所述的基于网络行为的人格特质预测方法。