CN110119849A - 一种基于网络行为的人格特质预测方法及系统 - Google Patents
一种基于网络行为的人格特质预测方法及系统 Download PDFInfo
- Publication number
- CN110119849A CN110119849A CN201910424244.5A CN201910424244A CN110119849A CN 110119849 A CN110119849 A CN 110119849A CN 201910424244 A CN201910424244 A CN 201910424244A CN 110119849 A CN110119849 A CN 110119849A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- behavior
- personal traits
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000006399 behavior Effects 0.000 claims abstract description 84
- 239000013598 vector Substances 0.000 claims abstract description 67
- 230000010354 integration Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 210000003813 thumb Anatomy 0.000 claims description 35
- 230000003542 behavioural effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000003442 weekly effect Effects 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 241001156002 Anthonomus pomorum Species 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000035800 maturation Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于网络行为的人格特质预测方法及系统,包括:获取用户行为数据;对上述用户的人格特质进行标注;对获取的数据进行数据预处理和特征提取;按照发生的时间顺序,对设定时间段内提取的数据特征进行数据集成,形成包含时序关系的行为向量特征;将用户的行为向量特征与其被标注的人格特质进行对应,将对应后的数据输入到长短期记忆模型进行预测,输出人格特质的预测结果。本发明有益效果:能够自动预测用户的人格特质;使用社交平台的异构数据,实现了对用户人格的自动化计算与预测。
Description
技术领域
本发明属于众智科学技术领域,尤其涉及一种基于网络行为的人格特质预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
目前,随着社会经济的不断发展和互联网、云计算,大数据等技术的不断成熟,移动社交网络已经成为沟通真实物理世界和虚拟网络空间的桥梁,相对于现实世界中的行为,由于网络的匿名性,人们在网络中的行为更加直接地反映了人们在真实世界中的活动和情感。同时,人格测量在越来越多的领域中得到了广泛的应用,例如,针对就业择业、人才选拔以及征兵的人格测试能够帮助企业或者军队在遴选人才方面节省成本,规避风险;在网络电商平台和在线投放网络广告方面,基于用户人格特质的推荐往往更加贴合用户心理,精准推荐为商家带来更大收益;此外,在社交媒体领域,准确把握用户的人格特质有利于引导舆论,减少负面事件的发生。在传统的心理学研究中,人格特质可以通过特异性指标(行为特征)加以鉴别,比如人的语言、动作、神态等,通过分析人的行为特征,能够对人的人格特质进行区分和判断,在网络环境中,不仅仅语言、神态可以体现人格特质,海量多源异构的网络行为数据为人格特质的研究提供了可能。在此背景下,基于网络行为数据合理预测人的人格特质便成为了现代心理学测量的研究热点。
发明人发现,在基于网络行为预测人格方面,目前已有一些研究,主要是使用回归模型和支持向量机(SVM)、神经网络(NN)等机器学习和深度学习方法。例如有的人基于社交平台Facebook的点赞行为,使用线性回归(Linear Regression)和逻辑回归(LogisticRegression)预测人格特质和其他相关倾向;有的人基于微博相关数据,使用支持向量机(SVM)训练人格特质分类模型,并利用PaceRegression方法建立了回归模型预测人格特质;此外,有人基于机器学习和深度学习的思想预测人格特质中细粒度的倾向,比如使用贝叶斯方法(Bayes)建模预测预测人的消费冲动倾向;还有人基于异构社交网站数据(如文本、图片、头像等),使用集成学习的思想融合不同维度的数据来预测人格特质。然而,这些工作大多集中于某种单一数据,且未考虑人格特质受行为时间和时序的影响,同时现有的研究需要大量的人工标注进行验证,不能实现自动化预测人格特质的目的。
发明内容
为了解决上述问题,本发明提出一种基于网络行为的人格特质预测方法及系统,利用长短期记忆网络模型实现对异构社交平台网络行为数据所反映的人格特质的自动化预测。
在一些实施方式中,采用如下技术方案:
一种基于网络行为的人格特质预测方法,包括:
获取用户行为数据;
对上述用户的人格特质进行标注;
对获取的数据进行数据预处理和特征提取;
按照发生的时间顺序,对设定时间段内提取的数据特征进行数据集成,形成包含时序关系的行为向量特征;
将用户的行为向量特征与其被标注的人格特质进行对应,将对应后的数据输入到长短期记忆模型进行预测,输出人格特质的预测结果。
在另一些实施方式中,采用如下技术方案:
一种基于网络行为的人格特质预测系统,包括:
用于获取用户行为数据的模块;
用于对上述用户的人格特质进行标注的模块;
用于对获取的数据进行数据预处理和特征提取的模块;
用于按照发生的时间顺序,对设定时间段内提取的数据特征进行数据集成,形成包含时序关系的行为向量特征的模块;
用于将用户的行为向量特征与标注的人格特质进行对应,将对应后的数据输入到长短期记忆模型进行预测,输出人格特质的预测结果的模块。
在另一些实施方式中,采用如下技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于网络行为的人格特质预测方法。
在另一些实施方式中,采用如下技术方案:
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的基于网络行为的人格特质预测方法。
与现有技术相比,本发明的有益效果是:
(1)本发明能够自动预测用户的人格特质;使用社交平台的异构数据,实现了对用户人格的自动化计算与预测;
(2)本发明相比于传统心理学测量方式,不仅节省专家判别等人力资源成本和传统心理学问卷费时、费钱的问题,也减少了因被测试用户主观因素导致的人格预测不准确的问题,同时,提供了一种新的研究研究用户人格的工具,对这些数字媒介行为进行记录和分析,能够为计算社会科学、个性化搜索引擎、推荐系统以及电商平台有针对性的在线营销提供帮助,尤其是基于数字行为记录对人格进行预测,可以极大地提高在线营销和推荐系统的针对性来帮助商家获取更大的利益。
(3)基于网络行为自动预测人格特质,准确把握人的个性特质,在商业方面能够向社会公众提供合理的产品或者服务,在社会舆论方面能够对于社会公众形成合理的引导和规劝,对经济发展和社会稳定具有重要意义。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为实施例一中基于网络行为的人格特质预测方法流程示意图;
图2是实施例一中LSTM模型示意图;
图3是实施例一中LSTM模型结构图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于网络行为的人格特质预测方法,包括以下步骤:
(1)获取用户行为数据;
(2)对上述用户的人格特质进行标注;
(3)对获取的数据进行数据预处理和特征提取;
(4)按照发生的时间顺序,对设定时间段内提取的数据特征进行数据集成,形成包含时序关系的行为向量特征;
(5)将用户的行为向量特征与标注的人格特质进行对应,将对应后的数据输入到长短期记忆模型进行预测,输出人格特质的预测结果。其中,对应后的数据指的是用户行为特征向量与其人格特质分数连接构成的向量,如对应后的向量为(0.005,0.047,0.102,0.231,…,0.002,0.018,0.09),其中前n-1位为用户行为特征向量,第n位为人格特质得分。
下面结合图1中的方法流程图,以用户微博数据的人格特质预测为例对本发明方法进行详细描述,具体包括:
步骤一:爬取微博上多源异构的用户行为数据,并对数据进行存储。
1.数据爬取过程
使用Scrapy爬虫框架,模拟用户登录微博web页面进行数据爬取,爬取包括用户ID,用户发帖(包含文本和图片帖),用户点赞等行为和发生行为的时间。为了避免网页反爬虫机制,设置网络代理定期更新IP,并设置爬虫随机休眠时间。
2.数据存储
采用MongoDB数据库进行存储,MongoDB是一个高性能,开源,无模式的文档型数据库,适合实时的插入、更新与查询。存储用户ID、文本帖子、图片帖子和点赞内容,以及这些行为发生的时间。
步骤二:对爬取的用户行为数据进行数据预处理和特征提取
由于不同社交平台的文本语言可能存在风格上的差异,为了更好的提取文本特征,可针对具体的平台选择不同的数据进行预训练,如基于微博数据预测,则在提取文本特征时,使用预处理好的微博文本数据训练Word2vec模型。
1.文本类数据处理模块:
对于收集到的文本数据,采用Jieba分词进行语句词语的切分。Jieba分词是Python的一款中文分词工具,对于一长段文字,其分词原理大体可分为三步:首先用正则表达式将中文段落粗略的分成一个个句子;然后将每个句子构造成有向无环图(DAG),之后寻找最佳切分方案;最后对于连续的单字,采用隐马尔可夫模型(HMM模型)将其再次划分。例如,对于文本“我来到北京清华大学”,采用默认分词模式,切分为“我”“来到”“北京”“清华大学”。在采用Jieba分词的过程中,我们预设停用词库,针对微博文本,我们将其中的表情符号,如“(^_^)”以及笑脸脸符号和一些阿拉伯字母、数字等加入停用词库,删除此类信息对于微博文本的影响。
进一步的,分词后的文本数据进行词嵌入(Word Embedding)过程处理,把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,叫做词向量,词向量具有良好的语义特性,是表示词语特征的常用方式,词向量每一维的值代表一个具有一定的语义和语法上解释的特征。在此步骤中,我们首先使用爬取的微博文本数据训练word2vec模型,训练好的Word2vec模型用于将用户的原始文本转化为文本向量,从而进行词的嵌入(Word Embedding),计算出用户文本中每个词的词嵌入向量;
在此发明中使用skip-gram模型训练词向量嵌入的神经网络,基于微博语料文本词典,对于每个切好的词构造one-hot向量,使用神经网络训练低维词嵌入向量,在此发明中设置为300维,如对于词“北京”,其词向量为w北京=(0.3552,0.0147,0.3821,0.1004,0.0021,…,0.1258,0.2257),共300维,对于词“清华大学”,其词向量为w清华大学=(0.0052,0.047,0.1021,0.2314,0.0021,…,0.0218,0.0009),共300维。
进一步的,将用户的文本词向量连接为句子。采用简单向量拼接方式,按照文本中的词顺序连接。如“我来到北京清华大学”可以表示为V=(w我,w来到,w北京,w清华大学),即V=(0.0225,0.2210,…,0.0133,0.0291,0.0102,0.0147,…,0.0018,0.2709,0.3552,0.0147,…,0.1258,0.2257,0.0052,0.0470,…,0.0218,0.0009),共1200维。将所有的用户文本都转化为句子向量。
用户文本特征提取模块:
采用迁移学习的方法,先使用意识流文章数据集预训练一个卷积神经网络模型,用来提取与用户个性相关的文本特征。采用James Pennebaker and Laura King’sstream-of-consciousness essay数据集,共包含2467篇匿名文章,这些文章由心理学专业学生在20分钟内完成,包含190万词。并且在完成文章后,学生被要求按照大五人格问卷测量了大五人格,对学生在五个人格维度上具有的特质进行了标注。在此数据集上训练卷积神经网络模型CNN,CNN隐藏层设置为3层,每层为全连接网络,神经元个数设置为300,一层sigmoid层,使用relu函数,一层softmax层,输出设置为5维,分别对应大五人格维度。然后将句子向量输入训练好的CNN模型,提取第三层隐藏层的输出,作为句子最终的文本特征Ft=V*,V*为第三层隐藏层的输出,是一个300维的向量。
图片类数据处理模块:
首先将用户微博动态的图片数据提取出来,删除清晰度较低的图片,采用Brenner梯度函数计算图片清晰度,并按照一定阈值删除低于阈值的图片。Brenner梯度函数较为简单,计算的是相邻两个像素灰度差的平方。
进一步的,将保留下来的图片进行标签验证,通过专家打上人格特质标签,需要500张经过专家标记的图片。
用户图片特征提取模块:
首先在ImageNet图片数据库中使用VGG16network神经网络进行预训练,设置隐藏层设置为3层,每层为全连接网络,神经元个数设置为300,一层sigmoid层,使用relu函数,一层softmax层,输出设置为5维,分别对应大五人格维度。将训练好的卷积神经网络模型CNNimage模型保存下来。其中ImageNet是一个计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库,ImageNet能够从图片识别物体,被用来完成一些图像识别领域的监督学习模型训练。
进一步的基于迁移学习的思想,使用训练好的CNNimage模型,然后使用我们预处理好的带有人格特质标签的微博图片数据继续训练此模型,优化模型权重参数,使其更加适配人格特质预测任务。待模型优化后,针对用户的每张微博图片,使用优化后的模型CNNafter提取其模型中第三层隐藏层的输出作为用户图片特征Fp,此处Fp为300维。
点赞行为数据处理模块:
针对爬取的微博用户的点赞行为构造用户点赞行为向量。首先删除用户点赞中的图片,然后针对其中的文本内容,使用基于微博数据预训练好的LDA模型(隐狄利克雷分配模型)分析该条文本内容和其中关键词分别属于的领域(如娱乐),以及具体的子领域(如电影、音乐、明星等);
用户点赞特征提取模块:
将用户点赞行为向量化,构建用户的点赞行为特征。具体的,根据LDA主题分类后的领域构建点赞行为字典编码,根据此字典,采用one-hot编码方式,对用户点赞行为L进行编码,示例为:如果主题字典包含六个主题,D={1:娱乐,2:军事,3:房产,4:体育,5:美食,6:财经},用户A在某一较短时间点赞了“军事”内容,“房产”内容,“财经”内容,用户B在某一较短时间点赞了“娱乐”内容,“美食”内容,“房产”内容,“体育”内容,则用户A的点赞行为特征向量为fA=(0,1,1,0,0,1),用户B的点赞行为特征向量为fB=(1,0,1,1,1,0)。在此发明中,基于我们的微博数据,在删除较少用户点赞的主体并合并冗余主题后,我们构造了100维的用户点赞主题词典。
步骤三:对用户进行人格特质的标注,目的是获得用户人格特质得分,作为使用LSTM模型预测时的标签。
设计针对网络用户的人格特质问卷,测量用户的大五人格特质,作为使用LSTM模型预测时的标签。
对用户人格特质进行标注,采用志愿者自愿标注的方式进行。针对爬取的用户ui的ID,在其社交平台爬取其绑定的个人邮箱或者手机号等联系方式并发送邮件或者短信征集志愿者,针对愿意参与实验的用户,通过人格特质网络问卷测试其人格特质并与ID绑定。用户完成人格特质问卷后,将自动评判用户的人格特质。同时,可通过人格测试对用户行为分析,标注少量用户人格特质,进行效度和信度的验证;比如通过大五人格量表验证用户人格特质。
步骤四:对异构数据特征进行特征集成
对文本、图片和点赞行为三类数据特质进行数据集成,具体实施如下:
由于用户文本长度不一致,尤其是文本中语句长度不一致,对微博语料分析后发现,长的语句可以有140字,短的语句只有2-3个词,所以首先规整模型的输入的每条文本向量的长度,固定用户文本向量特征长度。在此发明中,我们设置用户单个文本特征为300维,统计用户在固定等长时间间隔内(我们设置为每6个小时)发帖中文本的众数,设为a,将用户在选定时间间隔内的文本向量连接起来,则用户文本特征为Ft=(ft 1,ft 2,…,ft 300,ft 301,…,ft 300a-1,ft 300a),如果用户文本数少于a,则使用零向量填充,即为Ft=(ft 1,ft 2,…,ft 300,ft 301,…,0,0…,0,0);如果用户文本数大于a,则本系统随机挑选a条,构造用户的文本特征。
相应地,在本实施例中,用户的发的动态中图片在输入时也需要固定图片向量的长度。设置用户单个图片特征为300,统计用户在固定等长时间间隔内(我们设置为每6个小时)发帖中图片的众数,设为b,将用户在选定时间间隔内的图片向量连接起来,则用户图片特征为Fp=(fp 1,fp 2,…,fp 299,fp 300,fp 301,…,fp 300b-1,fp 300b),如果用户发帖图片数少于b,则使用零向量填充,即为Fp=(fp 1,fp 2,…,fp 300,fp 301,…,0,0…,0,0);如果用户发帖图片数大于b,则本系统随机挑选b条,构造用户的图片特征。。
相应的,同样需要固定用户点赞行为特征向量长度。设置用户单个点赞特征向量为一个100维的向量fn,通过步骤二可得。统计用户在固定等长时间间隔内(我们设置为每6个小时)点赞数目的众数设为c,则用户点赞行为特征为Fb=(f1,f2,…,fi,…,fc),如果用户点赞数少于c,则使用零向量填充,即为Fb=(f1,f2,…,0,…,0,0);如果用户点赞数大于c,则随机挑选c个,构造用户的点赞行为特征。
用户特征集成模块:
将以上三种类型的数据连接起来,所以用户在某个时间段z的特征集成为Fz u=(Ft,Fp,Fb),其中Ft=(ft 1,ft 2,…,ft 300,ft 301,…,ft 300a-1,ft 300a),Fp=(fp 1,fp 2,…,fp 299,fp 300,fp 301,…,fp 300b-1,fp 300b),Fb=(f1,f2,…,fi,…,fc)。
步骤五:构建用户行为特征的时序模型
按照用户行为发生的时间顺序构造用户行为特征时序模型,并提取不同间隔的时间段中的总体行为特征。
以6小时为一个时间间隔,将每天分为0-6时、6-12时、12-18时、18-24时四个时间段,然后将每个时间段内,对用户的文本,图片和点赞行为数据特征按照发生的时间顺序,采用步骤四的方法集成,其中若每类行为数据大于1条,则随机取1条,若不足1条,则以0向量表示,最终集成用户每日特征Fz u=(Ft,Fp,Fb),z=1,2,3,4,Fz u为700维的向量。
然后统计用户行为整体特征:在该时间段(如0-6点)的原始发帖文本数Ct,原始发帖图片数Cp,原始点赞数Cb,每周的发帖文本数Cw t和发帖图片数Cw p,原始点赞数Cw b,每月的发帖文本数Cm t和发帖图片数Cm p,原始点赞数Cm b。则用户全局行为特征为Fglobal=(Ct,Cp,Cb,Cw t,Cw p,Cw b,Cm t,Cm p,Cm b)。
所以对于每个用户,其用户行为特征可转变为Fu=(Ft,Fp,Fb,Ct,Cp,Cb,Cw t,Cw p,Cw b,Cm t,Cm p,Cm b),共709维,其用户特征向量变为(Fu,人格特质分数),共710维。
步骤六:基于以上构造的用户特征向量(用户行为特征+人格特质得分),使用长短期记忆模型LSTM进行预测。
长短期记忆模型(long-short term memory)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因此LSTM模型被提出。LSTM模型能较好的处理时序行为数据,心理学中研究表明,用户人格特质是较稳定的人格因素,但短时间内会随所处环境发生轻微波动,并且具有连续行为的数据更能体现出真实的用户人格。所以我们采用LSTM模型来预测人格特质。
如图2所示,为LSTM模型示意图,其中Xi,t为用户i在第t个时间段内的用户特征,LSTM unit表示全连接神经网络单元,为输出。
如图3所示,为LSTM模型单个神经元的结构图,其包含输入门,遗忘门和输出门三部分。其工作原理为:
(1)遗忘门:选择忘记过去某些信息(通过sigmoid(x,h)控制门忘记一部分cellstate,其中Sigmoid激活函数σ常被用作神经网络的阈值函数,将变量映射到0-1之间),遗忘门计算公式为:
ft=σ(Wf·[ht-1,xt]+bf)
(2)输入门:记忆现在的某些信息(现在的信息通过tanh(x,h)激活,再通过sigmoid(x,h)控制门忘记一部分,其中tanh函数是双曲函数中的一个函数),则输入门部分计算公式为:
it=σ(Wi·[ht-1,xt]+bi]
(3)将过去记忆和现在的记忆合并:
(4)输出门计算公式为:
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
以上为LSTM模型工作原理,Wf,Wi,Wo分别为遗忘门、输入门和输出门的权重矩阵,bf、bi、bc分别为遗忘门、输入门和输出门的偏移量,以上均为待训练的参数,i为隐藏层,xt为t时刻的用户特征输入,本实施例中xt=Fu,ot为输出,在本实施例中为对应大五人格特征预测的结果。
步骤七:输出人格特质的预测结果,为大五人格特质预测的结果,大五人格特质,也称为人格五因素模型,包含开放性,责任心、外倾性、宜人性和情绪稳定性五个维度,可以涵盖人格描述的所有方面,并且具有完备的测量量表。
针对步骤七输出的预测结果,经人格量表验证后,反馈与步骤三,对人格特质标签进行补充,完善训练数据集,进一步提高此人格预测装置的预测准确率。
实施例二
在一个或多个实施方式中,公开了一种基于网络行为的人格特质预测系统,包括:
用于获取用户行为数据的模块;
用于对上述用户的人格特质进行标注的模块;
用于对获取的数据进行数据预处理和特征提取的模块;
用于按照发生的时间顺序,对设定时间段内提取的数据特征进行数据集成,形成包含时序关系的行为向量特征的模块;
用于将用户的行为向量特征与标注的人格特质进行对应,将对应后的数据(用户行为特征向量与其人格特质分数连接构成的向量)输入到长短期记忆模型进行预测,输出人格特质的预测结果的模块。
实施例三
在一个或多个实施方式中,公开了一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行实施例一中所述的一种基于网络行为的人格特质预测方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算机可读存储介质可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
结合实施例一中的方法步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于网络行为的人格特质预测方法,其特征在于,包括:
获取用户行为数据;
对上述用户的人格特质进行标注;
对获取的数据进行数据预处理和特征提取;
按照发生的时间顺序,对设定时间段内提取的数据特征进行数据集成,形成包含时序关系的行为向量特征;
将用户的行为向量特征与其被标注的人格特质进行对应,将对应后的数据输入到长短期记忆模型进行预测,输出人格特质的预测结果。
2.如权利要求1所述的一种基于网络行为的人格特质预测方法,其特征在于,获取用户行为数据,具体为:使用Scrapy爬虫框架,针对社交网络平台web页面进行数据爬取,爬取包括用户ID、用户发帖和用户点赞行为以及行为发生的时间,并分别存储在数据库中。
3.如权利要求1所述的一种基于网络行为的人格特质预测方法,其特征在于,对上述用户的人格特质进行标注,具体为:采用志愿者自愿标注的方式进行;针对爬取的用户的ID,在其社交平台爬取其联系方式并征集志愿者,针对愿意参与标注的用户,通过人格特质网络问卷测试其人格特质并与ID绑定;
或者,通过大五人格量表验证用户人格特质。
4.如权利要求1所述的一种基于网络行为的人格特质预测方法,其特征在于,对获取的数据进行数据预处理和特征提取,具体为:
针对文本数据,提取用户文本特征,具体包括:
对用户文本数据进行分词、去停用词预处理;
使用预处理的用户文本数据训练Word2vec模型,训练好的Word2vec模型用于将用户的原始文本转化为文本向量,从而进行词的嵌入,计算出用户文本中每个词的词嵌入向量;
将用户文本词嵌入向量连接起来形成用户文本句子向量;
采用迁移学习方法,将用户文本句子向量输入到预训练好的卷积神经网络模型,提取出用户的文本特征;
或者,针对图片数据,提取用户图片特征,具体包括:
在ImageNet图片数据库中使用卷积神经网络进行预训练,将训练好的卷积神经网络模型保存下来;
基于迁移学习的思想,使用训练好的卷积神经网络模型,卷积提取用户特征并继续训练当前卷积神经网络模型的权重参数,待模型优化后,使用优化后的卷积神经网络模型提取其模型中层神经元的输出作为用户图片特征;
或者,针对用户点赞数据,提取用户点赞行为特征,具体包括:
针对用户点赞行为,构造用户点赞行为向量,具体做法是:对用户点赞内容进行分类,如果点赞内容是图片,则删除该条点赞内容记录;如果点赞内容是文本,则使用预训练好的LDA模型分析该条文本内容和其中关键词分别属于的领域以及具体的子领域;
根据LDA主题分类后的领域构建点赞行为字典编码,根据此字典编码,采用one-hot编码方式,对用户点赞行为进行编码;
根据点赞行为编码构建用户行为特征向量。
5.如权利要求1所述的一种基于网络行为的人格特质预测方法,其特征在于,对设定时间段内提取的数据特征进行数据集成,具体为:
针对文本数据特征,固定用户文本向量特征长度,设置用户单个文本特征为l维,统计用户在等长时间间隔内发帖中文本的众数设为a,则用户文本特征为Ft=(ft 1,ft 2,…,ft l,ft l+1,…,ft 2l,ft 2l+1,…,ft al-1,ft al),如果用户文本数少于a,则使用零向量填充,如果用户文本数大于a,则随机挑选a条;
或者,针对图片数据特征,固定用户图片特征向量长度,设置用户单个图片特征为m,统计用户在等长时间间隔内发帖中图片的众数设为b,则用户图片特征为Fp=(fp 1,fp 2,…,fp m,fp m+1,…,fp 2m,fp 2m+1,…,fp bm-1,fp bm),如果用户发帖图片数少于b,则使用零向量填充,如果用户发帖图片数大于b,则随机挑选b条;
或者,针对点赞数据特征,固定用户点赞行为特征向量长度,设置用户单个点赞特征向量为en,统计用户在等长时间间隔内点赞数目的众数设为c,则用户点赞行为特征为Fb=(e1,e2,…,ec),如果用户点赞数少于c,则使用零向量填充,如果用户点赞数大于c,则随机挑选c个。
6.如权利要求1所述的一种基于网络行为的人格特质预测方法,其特征在于,根据每天、每周或每月建立时间间隔,提取不同间隔的时间段中的包含文本、图片以及点赞数据特征的总体行为特征,综合形成用户的行为向量特征。
7.如权利要求1所述的一种基于网络行为的人格特质预测方法,其特征在于,对于输出的人格特质的预测结果,经验证后,对标注的人格特质标签进行补充,完善训练数据集,进一步提高人格特质预测的准确率。
8.一种基于网络行为的人格特质预测系统,其特征在于,包括:
用于获取用户行为数据的模块;
用于对上述用户的人格特质进行标注的模块;
用于对获取的数据进行数据预处理和特征提取的模块;
用于按照发生的时间顺序,对设定时间段内提取的数据特征进行数据集成,形成包含时序关系的行为向量特征的模块;
用于将用户的行为向量特征与标注的人格特质进行对应,将对应后的数据输入到长短期记忆模型进行预测,输出人格特质的预测结果的模块。
9.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求1-8任一项所述的基于网络行为的人格特质预测方法。
10.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行如权利要求1-8任一项所述的基于网络行为的人格特质预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424244.5A CN110119849B (zh) | 2019-05-21 | 2019-05-21 | 一种基于网络行为的人格特质预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424244.5A CN110119849B (zh) | 2019-05-21 | 2019-05-21 | 一种基于网络行为的人格特质预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110119849A true CN110119849A (zh) | 2019-08-13 |
CN110119849B CN110119849B (zh) | 2020-08-04 |
Family
ID=67522911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910424244.5A Active CN110119849B (zh) | 2019-05-21 | 2019-05-21 | 一种基于网络行为的人格特质预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119849B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352972A (zh) * | 2020-02-28 | 2020-06-30 | 厦门医学院 | 一种基于行为大数据的统计学人格计算方法 |
CN111667096A (zh) * | 2020-05-12 | 2020-09-15 | 汕头大学 | 一种人格特质引导的新用户行为反馈预测方法 |
CN111914885A (zh) * | 2020-06-19 | 2020-11-10 | 合肥工业大学 | 基于深度学习的多任务人格预测方法和系统 |
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113806476A (zh) * | 2021-07-28 | 2021-12-17 | 合肥工业大学 | 综合用户人格特征和社交关系的用户情绪分析方法和系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102950B (zh) * | 2020-11-04 | 2021-02-12 | 平安科技(深圳)有限公司 | 一种数据处理系统、方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363690A (zh) * | 2018-02-08 | 2018-08-03 | 北京十三科技有限公司 | 基于神经网络的对话语义意图预测方法及学习训练方法 |
CN108520780A (zh) * | 2018-03-07 | 2018-09-11 | 中国科学院计算技术研究所 | 一种基于迁移学习的医学数据处理和系统 |
US20180285771A1 (en) * | 2017-03-31 | 2018-10-04 | Drvision Technologies Llc | Efficient machine learning method |
CN109409433A (zh) * | 2018-10-31 | 2019-03-01 | 北京邮电大学 | 一种社交网络用户的人格识别系统和方法 |
-
2019
- 2019-05-21 CN CN201910424244.5A patent/CN110119849B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285771A1 (en) * | 2017-03-31 | 2018-10-04 | Drvision Technologies Llc | Efficient machine learning method |
CN108363690A (zh) * | 2018-02-08 | 2018-08-03 | 北京十三科技有限公司 | 基于神经网络的对话语义意图预测方法及学习训练方法 |
CN108520780A (zh) * | 2018-03-07 | 2018-09-11 | 中国科学院计算技术研究所 | 一种基于迁移学习的医学数据处理和系统 |
CN109409433A (zh) * | 2018-10-31 | 2019-03-01 | 北京邮电大学 | 一种社交网络用户的人格识别系统和方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352972A (zh) * | 2020-02-28 | 2020-06-30 | 厦门医学院 | 一种基于行为大数据的统计学人格计算方法 |
CN111667096A (zh) * | 2020-05-12 | 2020-09-15 | 汕头大学 | 一种人格特质引导的新用户行为反馈预测方法 |
CN111667096B (zh) * | 2020-05-12 | 2023-03-28 | 汕头大学 | 一种人格特质引导的新用户行为反馈预测方法 |
CN111914885A (zh) * | 2020-06-19 | 2020-11-10 | 合肥工业大学 | 基于深度学习的多任务人格预测方法和系统 |
CN111914885B (zh) * | 2020-06-19 | 2024-04-26 | 合肥工业大学 | 基于深度学习的多任务人格预测方法和系统 |
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113222772B (zh) * | 2021-04-08 | 2023-10-31 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113806476A (zh) * | 2021-07-28 | 2021-12-17 | 合肥工业大学 | 综合用户人格特征和社交关系的用户情绪分析方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110119849B (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929164B (zh) | 一种基于用户动态偏好与注意力机制的兴趣点推荐方法 | |
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
US10846488B2 (en) | Collating information from multiple sources to create actionable categories and associated suggested actions | |
CN110119849A (zh) | 一种基于网络行为的人格特质预测方法及系统 | |
CN111858945B (zh) | 基于深度学习的评论文本方面级情感分类方法及系统 | |
CN112579778B (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
US20140079297A1 (en) | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities | |
CN110096575B (zh) | 面向微博用户的心理画像方法 | |
US20200382612A1 (en) | Interpretable user modeling from unstructured user data | |
CN112364638B (zh) | 一种基于社交文本的人格识别方法 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN109409433B (zh) | 一种社交网络用户的人格识别系统和方法 | |
Ibrahim et al. | An intelligent hybrid neural collaborative filtering approach for true recommendations | |
Rong et al. | Structural information aware deep semi-supervised recurrent neural network for sentiment analysis | |
CN114201516B (zh) | 一种用户画像构建的方法、信息推荐的方法以及相关装置 | |
CN117314593A (zh) | 一种基于用户行为分析的保险项目推送方法及系统 | |
Chaudhuri | Visual and text sentiment analysis through hierarchical deep learning networks | |
Wang et al. | Prediction of perceived utility of consumer online reviews based on lstm neural network | |
CN113362034A (zh) | 一种职位推荐方法 | |
Sharma et al. | A Systematic approach for the Prediction of Personality based on Attention Enhanced GCNN and LSTM Approach | |
Nimeshika et al. | A Method to Identify the Current Mood of Social Media Users | |
Geetha et al. | Deep Learning and Sentiment Analysis Improve E-commerce Sales Prediction | |
Davoudi | User Acquisition and engagement in digital News Media | |
KR102653187B1 (ko) | 웹크롤링 기반 학습용 데이터 전처리 전자 장치 및 그 방법 | |
Pichotta | Advances in statistical script learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |