CN110060772A - 一种基于社交网络的职业心理性格分析方法 - Google Patents

一种基于社交网络的职业心理性格分析方法 Download PDF

Info

Publication number
CN110060772A
CN110060772A CN201910066007.6A CN201910066007A CN110060772A CN 110060772 A CN110060772 A CN 110060772A CN 201910066007 A CN201910066007 A CN 201910066007A CN 110060772 A CN110060772 A CN 110060772A
Authority
CN
China
Prior art keywords
classifier
function
personality
classification
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910066007.6A
Other languages
English (en)
Other versions
CN110060772B (zh
Inventor
朱蔚恒
龙舜
石文娟
王会进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910066007.6A priority Critical patent/CN110060772B/zh
Publication of CN110060772A publication Critical patent/CN110060772A/zh
Application granted granted Critical
Publication of CN110060772B publication Critical patent/CN110060772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社交网络的职业心理性格分析方法,具体涉及心理分析领域,具体步骤为:步骤一:采集用户的基本信息;步骤二:构造MBTI职业性格四维度的分类器;步骤三:将修改过权值的新数据集送给下层分类器进行训练;步骤四:完成对象的MBTI分析报告。本发明通过采集个人的社交网络内容并进行全面深入的量化分析,借助MBTI模型量化个人微博内容和职业心理性格之间的关联,通过采集样本训练分类器,使得招聘方可以根据候选人在社交网络发布的内容全面迅速准确地判断地其职业心理性格,为决策提供客观的依据,同时本发明用信息技术实现了上述整个分析过程的自动化,大大降低了分析的时间成本。

Description

一种基于社交网络的职业心理性格分析方法
技术领域
本发明涉及心理分析技术领域,更具体地说,本发明涉及一种基于社交 网络的职业心理性格分析方法。
背景技术
心理分析是指根据心理现象之间及心理现象与行为之间的因果关系,由 一种心理现象推知另一种心理现象、特征或行为的方法。它通过对人的心理 现象和活动(智力活动、情绪活动、意志活动、梦等)的分析对一个人的气 质性格人品等进行评判、对某一心理疾病做出诊断、分析某一思维的过程、 对某一心理现象做出预示(预测)等。它可用于识人用人、人际交往、心理 预测、心理诊断、心理治疗、心理调控等。在现实世界中,人格测验常被用 于心理诊断、治疗、司法鉴定和人力资源等多方面。
人与人之间的心理差异来源于个人先天遗传、生长环境、教育背景等诸 多方面的不同,表现在对同一事物或行为的差异。心理学家们制定了一系列 的人格测验用于测量个体的人格特质并将其归属到某类人格类型。人格测验 即测量个人在一定的情境下,经常表现出来的典型行为和情感反应,进而归 属其人格类型,其间所采用的一切测量工具都可称为人格测验。现代常用的 人格量表有如下几种:1)梅耶-布里格性格分析法模型(MBTI);2)明尼苏 达多项人格调查表(MMPI);3)加利福尼亚心理调查表(CPI);4)艾森克 人格问卷(EPQ);5)十六项人格因素问卷(简称16PF);和6)大五人格 问卷(简称NEO-PI或BFI)。其中MBTI量表对了解用户的职业性格有一定帮 助,常作为职业性格分析用量表被广泛应用于在校学生培训、企业的雇员招 聘、高级经理人个人魅力训练以及个人的职业规划等领域中,近年来,它逐 渐在公司人力资源领域得到高度重视及普及,世界五百强企业中有80%有MBTI 的应用经验。
中文微博在有限字数下可以表达更丰富的内容也提供更丰富的分析材 料。国内近年也开始重视对微博这一社交网络用户行为的分析,与国外不同, 国内的工作主要集中在情感分类、兴趣和行为识别等方面而在性格分析方面 比较欠缺。
专利申请公布号201205769514的发明专利公开了一种基于微博用户行为 的人格预测方法。该发明以社交网络(微博和人人网)用户为研究对象,采 集他们线上行为记录并从中提取行为特征,以作为预测变量;同时,对研究 对象施测人格问卷,获取其在各人格维度上的得分,以此作为结果变量。利 用朴素贝叶斯、支持向量机、决策树与Pace回归等算法训练基于社交网络行 为的人格特征预测模型。在此基础上,他们开发了“文心(TextMind)”中文 心理分析系统,系统采用大五人格量表进行性格分析,为用户提供从简体中 文自动分词,到语言心理分析的一揽子分析解决方案,另外,他们还利用相 关成果开发了一个高自杀风险用户筛查系统。
国外针对社交网络的用户性格分析的相关研究从一定程度上证实了基于 社交网络的用户性格分析具有可行性。虽然内容才是进行性格心理分析的核 心依据,但大部分研究进行的是简单定量统计等工作,较少涉及到对用户在 社交网络发表的内容本身的分析与挖掘,显然这些工作不仅方法有待改进, 准确率也可待提高。
与英文环境下的分析研究工作不同,中文文本分类因为研究内容更加丰 富,因而相对更复杂,难度也更大。国内相关工作尚处于起步阶段,而且相 关工作更多地倾向于情感分析和兴趣识别而非性格心理分析。情感是一个短 期的表现,表现在对一句话一件事等的(瞬时)反应,而心理性格则更需要 长期的观察和分析;情感经常变换,而心理性格则较稳定不易变。情感和兴 趣识别在一定程度上性格特点的具体体现,但仅对情感作为分析难以对人形 成全面的认知。
另一方面,当前相关研究大都是进行针对一般意义上的性格心理,没有 针对招聘-求职这一领域进行有针对性的研究。而招聘-求职需要特别考察性 格心理中与工作相关的动力、信息收集方式、决策方式和生活方式这四个维 度的特征,一般性格心理分析则不能完全涵盖这些方面的内容,因此有必要 进行有针对性地研发工作。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种基于社交网络 的职业心理性格分析方法,通过采集个人的社交网络内容并进行全面深入的 量化分析,借助MBTI模型量化个人微博内容和职业心理性格之间的关联,通 过采集样本训练分类器,使得招聘方可以根据候选人在社交网络发布的内容 全面迅速准确地判断地其职业心理性格,为决策提供客观的依据,同时本发 明用信息技术实现了上述整个分析过程的自动化,大大降低了分析的时间成 本,并能通过案例的不断积累不断提高分析判断的准确度。
为实现上述目的,本发明提供如下技术方案:一种基于社交网络的职业 心理性格分析方法,具体步骤为:
步骤一:采集用户的基本信息,并且根据基本信息的内容打上各种使用 行为标签、主题标签、情感倾向标签,并且分别计算各个标签使用百分比, 同时对基本信息内用词进行统计,包括高频词和它们的使用比率;
步骤二:构造MBTI职业性格四维度的分类器,将性格分为动力(外向/内 向)、信息收集(感觉/直觉)、决策方式(理智/情感)、生活方式(独立/依赖) 四个维度共16种组合,利用训练数据对四方面的分类器分别进行训练,并预 测结果的准确率和查全率对分类器进行调优;
步骤三:采用了Adaboost迭代算法整合步骤二中分类器的分析结果,根 据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率, 来确定每个样本的权值,将修改过权值的新数据集送给下层分类器进行训练, 最后将每次训练得到的分类器最后融合起来,作为MBTI进行动力、信息收集、 决策方式、生活方式这四个方面分析所使用的分类器;
步骤四:当需要分析一个目标对象的职业性格心理的时候,我们首先通 过爬虫采集他的社交网络数据,并且进行步骤一的数据预处理,在完成预处 理后,我们将得到的诸多特征输入动力、信息收集、决策方式、生活方式分 类器,得到相关MBTI四个维度的分析结果,并根据MBTI职业性格心理分析 报告模板,套用这些特征数据完成对象的MBTI分析报告。
在一个优选的实施方式中,所述步骤一中基本信息包括用户的个性化自 我描述、是否修改了微博默认URL、微博数、粉丝数、关注数、是否有自我描 述、性别、微博昵称的长度等结构化特征;另外还要给用户的个性描述打上 组织归属与信仰、生活态度、自我描述、准则、目标、语录等各种类别标签, 并且根据用户的社交软件分别设定了话题/投票/活动、求助、收藏、与他人 互动、分享、日常生活、对事物进行评论等标签类别,通过基于规则学习训 练文本分类器完成打标签的工作。
在一个优选的实施方式中,所述步骤二中分类器分别进行训练包括 Logistic回归算法,多用于估计某种事物的可能性,它是一个学习f:X->Y 方程或者P(Y|X)的方法,其中Y是离散取值的,而X=<X1,X2...,Xn>是任 意一个向量,其中每个特征分量Xi可取离散或者连续值,它可用于概率预测, 也可用于分类,而且不需要各特征Xi之间相互独立,它是当前业界比较常用 的机器学习方法,Logistic回归方法包括:
1)构造预测函数h;
2)构造损失函数J;
3)想办法使得J函数最小并求得回归参数(θ)三步,其中:
1)构造预测函数h,本发明使用Logistic函数(或称Sigmoid函数), 形式为:
对于线性边界的情况,边界形式如下:
构造预测函数为:
函数hθ(x)的值有特殊的含义,它表示结果取1的概率,因此对于输入x 分类结果为类别1和类别0的概率分别为:
2)构造损失函数J,Cost函数和J函数是基于最大似然估计推导得到 的:
3)最大似然估计就是求使l(θ)取最大值时的θ,其实这里可以使用梯度 上升法求解,求得的θ就是要求的最佳参数。本发明采用以下公式:
即取J(θ)最小值时的θ为要求的最佳参数,
θ更新过程可以写成:
在一个优选的实施方式中,步骤二中分类器分别进行训练包括人工神经 网络,是从信息处理角度对人脑神经元网络进行抽象,通过建立某种简单模 型,按不同的连接方式组成不同的网络,它是一种运算模型,由大量的神经 元之间相互联接构成,每个神经元代表一种特定的输出函数,称为激励函数, 每对神经元间的连接都代表一个对于通过该连接信号的加权值,称为权重, 网络的输出则依网络的连接方式,权重值和激励函数的不同而不同,人工神 经网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
在一个优选的实施方式中,步骤二中分类器分别进行训练包括采用了 C4.5算法实现决策树,该算法如下所示:
输入:训练集D={(x1,y1),(x2,y2),...,(xm,ym)}
属性集A={a1,a2,...,ad}.
过程:函数TreeGenerate(D,A)
生成结点node;
if D中样本全属于同一类别C then
将node标记为C类叶结点;return
end if
if A==(OR D中样本在A上取值相同)then
将node标记为叶结点,其类别标记为D中样本数 最多的类;return
end if
从A中选择最优划分属性a*;
for a*的每一个值a*_v do
为node生成一个分支;令Dv表示D中在a*上取值 为a*_v的样本子集;
if Dv为空then
将分支结点标记为叶结点,其类别标记为D 中样本最多的类;then
else
以TreeGenerte(Dv,A\{a*})为分支结点
end if
end for
输出:以node为根节点的一颗决策树。
在一个优选的实施方式中,步骤二中分类器分别进行训练包括使用 Apriori算法,进行关联规则挖掘,该算法使用频繁项集的先验知识,使用一 种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集,首先,通过扫描事 务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频 繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集, 最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则:
Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。
2)连接步:为找出Lk(所有的频繁k项集的集合),通过将Lk-1(所有 的频繁k-1项集的集合)与自身连接产生候选k项集的集合,候选集合记作 Ck,设l1和l2是Lk-1中的成员,记li[j]表示li中的第j项,假设Apriori 算法对事务或项集中的项按字典次序排序,
即对于(k-1)项集li,li[1]<li[2]<……….<li[k-1],
将Lk-11与自身连接,如果 (l1[1]=l2[1])&&(l1[2]=l2[2])&&……..&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k -1]),那认为l1和l2是可连接,连接l1和l2产生的结果是 {l1[1],l1[2],……,l1[k-1],l2[k-1]};
3)剪枝步:CK是LK的超集,也就是说,CK的成员可能是也可能不是频 繁的,通过扫描所有的事务(交易),确定CK中每个候选的计数,判断是否 小于最小支持度计数,如果不是,则认为该候选是频繁的。
在一个优选的实施方式中,所述步骤四中Adaboost的算法描述如下:
设训练数据集T={(x1,y1),(x2,y2)…(xN,yN)}
初始化训练数据的权值分布:
D1=(w11,w12…w1i…,w1N),
使用具有权值分布Dm的训练数据集学习,得到基本分类器:
Gm(x):χ→{-1,+1}
计算Gm(x)在训练数据集上的分类误差率:
计算Gm(x)的系数:
更新训练数据集的权值分布
Dm+1=(wm+1,1,wm+1,2…wm+1,i…,wm+1,N),
其中,Zm是规范化因子,它使Dm+1成为一个概率分布:
构建基本分类器的线性组合:
得到最终分类器:
本发明的技术效果和优点:
1、本发明通过采集个人的社交网络内容并进行全面深入的量化分析,借 助MBTI模型量化个人微博内容和职业心理性格之间的关联,通过采集样本训 练分类器,使得招聘方可以根据候选人在社交网络发布的内容全面迅速准确 地判断地其职业心理性格,为决策提供客观的依据,同时本发明用信息技术 实现了上述整个分析过程的自动化,大大降低了分析的时间成本,并能通过 案例的不断积累不断提高分析判断的准确度;
2、本发明专门为全面客观迅速地判断一个人的职业性格心理而开发,更 具有针对性,面向更专业的用户市场,采用的逻辑回归和神经网络算法具有 更高的抗噪性和可靠性,也更加适合于职业性格心理的量化分析;同时采用 了Adaboost迭代算法整合多个分类器的分析结果,使分析结果更加可信;本 发明提供的迭代式处理框架使得系统可以根据采集来的案例不断自动对分析 算法进行调优,无需进行人工干预和调整,即可逐渐提高分析准确性。
附图说明
图1为本发明的整体系统结构示意图;
图2为本发明的社交内容标签结构示意图;
图3为本发明的Adaboost支持的四个MBTI测试维度的分类器示意图;
图4为本发明的持续学习的迭代式框架支持分类器原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本发明提供了如图1-4所示的一种基于社交网络的职业心理性格分析方 法,具体步骤为:
步骤一:采集用户的基本信息,并且根据基本信息的内容打上各种使用 行为标签、主题标签、情感倾向标签,并且分别计算各个标签使用百分比, 同时对基本信息内用词进行统计,包括高频词和它们的使用比率;
步骤二:构造MBTI职业性格四维度的分类器,将性格分为动力(外向/内 向)、信息收集(感觉/直觉)、决策方式(理智/情感)、生活方式(独立/依赖) 四个维度共16种组合,利用训练数据对四方面的分类器分别进行训练,并预 测结果的准确率和查全率对分类器进行调优;
步骤三:采用了Adaboost迭代算法整合步骤二中分类器的分析结果,根 据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率, 来确定每个样本的权值,将修改过权值的新数据集送给下层分类器进行训练, 最后将每次训练得到的分类器最后融合起来,作为MBTI进行动力、信息收集、 决策方式、生活方式这四个方面分析所使用的分类器;
步骤四:当需要分析一个目标对象的职业性格心理的时候,我们首先通 过爬虫采集他的社交网络数据,并且进行步骤一的数据预处理,在完成预处 理后,我们将得到的诸多特征输入动力、信息收集、决策方式、生活方式分 类器,得到相关MBTI四个维度的分析结果,并根据MBTI职业性格心理分析 报告模板,套用这些特征数据完成对象的MBTI分析报告。
进一步的,步骤一中基本信息包括用户的个性化自我描述、是否修改了 微博默认URL、微博数、粉丝数、关注数、是否有自我描述、性别、微博昵称 的长度等结构化特征;另外还要给用户的个性描述打上组织归属与信仰、生 活态度、自我描述、准则、目标、语录等各种类别标签,并且根据用户的社 交软件分别设定了话题/投票/活动、求助、收藏、与他人互动、分享、日常 生活、对事物进行评论等标签类别,通过基于规则学习训练文本分类器完成打标签的工作。
参照说明书附图2:
根据用户社交软件的文本使用行为标签算法为:
根据社交软件内容打上各种主题标签;
本发明使用由互联网词库获得体育、娱乐、财经、饮食、游戏、名人明 星等词库和免费的PHP开源分词系统(SCWS分词工具),结合词库和关键字 对微博体现的兴趣爱好进行标注,得到用户微博内容中体现的兴趣爱好,兴 趣爱好标签有视频、音乐、游戏、美食、旅游、购物、IT数码、搞笑幽默、 摄影、小说、星座运势、情感生活、宠物图集、图片、互联网、英语、读书、 设计、家居、美容、时尚、美女、八卦杂谈、女人、减肥瘦身、本地生活、 名人明星、新闻趣事、体育资讯、职场招聘、财经资讯、房产、车世界、其
本发明所提出的一种基于社交网络的职业心理性格分析方法特别针对尾 微博进行举例说明:
根据微博内容打上情感倾向标签;
本发明使用的微博情感标签包括积极、消极和中性三类标签。利用清华 大学定义的积极、消极情感词库和SCWS分词工具对微博内容的情感倾向进行 分类。默认用户发布的微博不含正面或负面情绪,即为中性情感微博,如微 博中积极词汇多于微博中消极词汇则定义为积极情感微博,否则为消极情感 微博。其过程可以用以下公式表示:
其中,采用的基于社交内容的情感倾向分类过程如算法下所示
同时计算用户的社交软件类别、使用行为、主题和情感倾向标签的百分 比;
用户的社交软件的用词统计,包括高频词和它们的使用比率。
实施例二:
由实施例一可知:
步骤二中分类器分别进行训练包括Logistic回归算法,多用于估计某种 事物的可能性,它是一个学习f:X->Y方程或者P(Y|X)的方法,其中Y是 离散取值的,而X=<X1,X2...,Xn>是任意一个向量,其中每个特征分量 Xi可取离散或者连续值。它可用于概率预测,也可用于分类,而且不需要各 特征Xi之间相互独立,它是当前业界比较常用的机器学习方法,Logistic回 归方法包括
1)构造预测函数h;
2)构造损失函数J;
3)想办法使得J函数最小并求得回归参数(θ)三步,其中:
1)构造预测函数h,本发明使用Logistic函数(或称Sigmoid函数), 形式为:
对于线性边界的情况,边界形式如下:
构造预测函数为:
函数hθ(x)的值有特殊的含义,它表示结果取1的概率,因此对于输入x 分类结果为类别1和类别0的概率分别为:
2)构造损失函数J,Cost函数和J函数是基于最大似然估计推导得到 的:
3)最大似然估计就是求使l(θ)取最大值时的θ,其实这里可以使用梯度 上升法求解,求得的θ就是要求的最佳参数。本发明采用以下公式:
即取J(θ)最小值时的θ为要求的最佳参数,
θ更新过程可以写成:
步骤二中分类器分别进行训练包括人工神经网络,是从信息处理角度对 人脑神经元网络进行抽象,通过建立某种简单模型,按不同的连接方式组成 不同的网络,它是一种运算模型,由大量的神经元之间相互联接构成,每个 神经元代表一种特定的输出函数,称为激励函数,每对神经元间的连接都代 表一个对于通过该连接信号的加权值,称为权重,网络的输出则依网络的连 接方式,权重值和激励函数的不同而不同,人工神经网络自身通常都是对自 然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
步骤二中分类器分别进行训练包括采用了C4.5算法实现决策树,该算法 如下所示:
输入:训练集D={(x1,y1),(x2,y2),...,(xm,ym)}
属性集A={a1,a2,...,ad}.
过程:函数TreeGenerate(D,A)
生成结点node;
if D中样本全属于同一类别C then
将node标记为C类叶结点;return
end if
if A==(OR D中样本在A上取值相同)then
将node标记为叶结点,其类别标记为D中样本数 最多的类;return
end if
从A中选择最优划分属性a*;
for a*的每一个值a*_v do
为node生成一个分支;令Dv表示D中在a*上取值 为a*_v的样本子集;
if Dv为空then
将分支结点标记为叶结点,其类别标记为D 中样本最多的类;then
else
以TreeGenerte(Dv,A\{a*})为分支结点
end if
end for
输出:以node为根节点的一颗决策树。
步骤二中分类器分别进行训练包括使用Apriori算法,进行关联规则挖 掘,该算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k 项集用于探索(k+1)项集,首先,通过扫描事务(交易)记录,找出所有的频 繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3, 如此下去,直到不能再找到任何频繁k项集,最后再在所有的频繁集中找出 强规则,即产生用户感兴趣的关联规则:
Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集:
4)1)连接步:为找出Lk(所有的频繁k项集的集合),通过将Lk-1(所 有的频繁k-1项集的集合)与自身连接产生候选k项集的集合,候选集合记 作Ck,设l1和l2是Lk-1中的成员,记li[j]表示li中的第j项,假设Apriori 算法对事务或项集中的项按字典次序排序,
即对于(k-1)项集li,li[1]<li[2]<……….<li[k-1],
将Lk-11与自身连接,如果 (l1[1]=l2[1])&&(l1[2]=l2[2])&&……..&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k -1]),那认为l1和l2是可连接,连接l1和l2产生的结果是 {l1[1],l1[2],……,l1[k-1],l2[k-1]};
2)剪枝步:CK是LK的超集,也就是说,CK的成员可能是也可能不是频 繁的,通过扫描所有的事务(交易),确定CK中每个候选的计数,判断是否 小于最小支持度计数,如果不是,则认为该候选是频繁的。
实施例三:
由说明书附图3、图4和实施例一可知:
采用了Adaboost迭代算法整合这些分类器的分析结果。Adaboost的核心 思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器集合起 来,构成一个更强的最终的强分类器。Adaboost根据每次训练集之中每个样 本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。 将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的 分类器最后融合起来,作为MBTI进行动力、信息收集、决策方式、生活方式 这四个方面分析所使用的分类器。
所述步骤四中Adaboost的算法描述如下:
设训练数据集T={(x1,y1),(x2,y2)…(xN,yN)}
初始化训练数据的权值分布:
D1=(w11,w12…w1i…,w1N),
使用具有权值分布Dm的训练数据集学习,得到基本分类器:
Gm(x):χ→{-1,+1}
计算Gm(x)在训练数据集上的分类误差率:
计算Gm(x)的系数:
更新训练数据集的权值分布
Dm+1=(wm+1,1,wm+1,2…wm+1,i…,wm+1,N),
其中,Zm是规范化因子,它使Dm+1成为一个概率分布:
构建基本分类器的线性组合:
得到最终分类器:
在完成上述各个MBTI测试测试维度分类器的基础上,本发明使用了一个 持续学习的迭代式框架(如说明书附图图4所示),支持分类器通过不断地 从采集的训练实例中学习逐步提高各个分类器的准确率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限 制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的 技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作 的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于社交网络的职业心理性格分析方法,其特征在于:具体步骤为:
步骤一:采集用户的基本信息,并且根据基本信息的内容打上各种使用行为标签、主题标签、情感倾向标签,并且分别计算各个标签使用百分比,同时对基本信息内用词进行统计,包括高频词和它们的使用比率;
步骤二:构造MBTI职业性格四维度的分类器,将性格分为动力(外向/内向)、信息收集(感觉/直觉)、决策方式(理智/情感)、生活方式(独立/依赖)四个维度共16种组合,利用训练数据对四方面的分类器分别进行训练,并预测结果的准确率和查全率对分类器进行调优;
步骤三:采用了Adaboost迭代算法整合步骤二中分类器的分析结果,根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值,将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为MBTI进行动力、信息收集、决策方式、生活方式这四个方面分析所使用的分类器;
步骤四:当需要分析一个目标对象的职业性格心理的时候,我们首先通过爬虫采集他的社交网络数据,并且进行步骤一的数据预处理,在完成预处理后,我们将得到的诸多特征输入动力、信息收集、决策方式、生活方式分类器,得到相关MBTI四个维度的分析结果,并根据MBTI职业性格心理分析报告模板,套用这些特征数据完成对象的MBTI分析报告。
2.根据权利要求1所述的一种基于社交网络的职业心理性格分析方法,其特征在于:所述步骤一中基本信息包括用户的个性化自我描述、是否修改了微博默认URL、微博数、粉丝数、关注数、是否有自我描述、性别、微博昵称的长度等结构化特征;另外还要给用户的个性描述打上组织归属与信仰、生活态度、自我描述、准则、目标、语录等各种类别标签,并且根据用户的社交软件分别设定了话题/投票/活动、求助、收藏、与他人互动、分享、日常生活、对事物进行评论等标签类别,通过基于规则学习训练文本分类器完成打标签的工作。
3.根据权利要求1所述的一种基于社交网络的职业心理性格分析方法,其特征在于:所述步骤二中分类器分别进行训练包括Logistic回归算法,多用于估计某种事物的可能性,它是一个学习f:X->Y方程或者P(Y|X)的方法,其中Y是离散取值的,而X=<X1,X2...,Xn>是任意一个向量,其中每个特征分量Xi可取离散或者连续值,它可用于概率预测,也可用于分类,而且不需要各特征Xi之间相互独立,它是当前业界比较常用的机器学习方法,Logistic回归方法包括:
1)构造预测函数h;
2)构造损失函数J;
3)想办法使得J函数最小并求得回归参数(θ)三步,其中:
1)构造预测函数h,本发明使用Logistic函数(或称Sigmoid函数),形式为:
对于线性边界的情况,边界形式如下:
构造预测函数为:
函数hθ(x)的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
2)构造损失函数J,Cost函数和J函数是基于最大似然估计推导得到的:
3)最大似然估计就是求使l(θ)取最大值时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数。本发明采用以下公式:
即取J(θ)最小值时的θ为要求的最佳参数,
θ更新过程可以写成:
4.根据权利要求3所述的一种基于社交网络的职业心理性格分析方法,其特征在于:所述步骤二中分类器分别进行训练包括人工神经网络,是从信息处理角度对人脑神经元网络进行抽象,通过建立某种简单模型,按不同的连接方式组成不同的网络,它是一种运算模型,由大量的神经元之间相互联接构成,每个神经元代表一种特定的输出函数,称为激励函数,每对神经元间的连接都代表一个对于通过该连接信号的加权值,称为权重,网络的输出则依网络的连接方式,权重值和激励函数的不同而不同,人工神经网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
5.根据权利要求3所述的一种基于社交网络的职业心理性格分析方法,其特征在于:所述步骤二中分类器分别进行训练包括采用了C4.5算法实现决策树,该算法如下所示:
6.根据权利要求3所述的一种基于社交网络的职业心理性格分析方法,其特征在于:所述步骤二中分类器分别进行训练包括使用Apriori算法,进行关联规则挖掘,该算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集,首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集,最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则:
Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。
1)连接步:为找出Lk(所有的频繁k项集的集合),通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合,候选集合记作Ck,设l1和l2是Lk-1中的成员,记li[j]表示li中的第j项,假设Apriori算法对事务或项集中的项按字典次序排序,
即对于(k-1)项集li,li[1]<li[2]<……….<li[k-1],
将Lk-11与自身连接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&……..&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那认为l1和l2是可连接,连接l1和l2产生的结果是{l1[1],l1[2],……,l1[k-1],l2[k-1]};
2)剪枝步:CK是LK的超集,也就是说,CK的成员可能是也可能不是频繁的,通过扫描所有的事务(交易),确定CK中每个候选的计数,判断是否小于最小支持度计数,如果不是,则认为该候选是频繁的。
7.根据权利要求1所述的一种基于社交网络的职业心理性格分析方法,其特征在于:所述步骤四中Adaboost的算法描述如下:
设训练数据集T={(x1,y1),(x2,y2)…(xN,yN)}
初始化训练数据的权值分布:
D1=(w11,w12…w1i…,w1N),
使用具有权值分布Dm的训练数据集学习,得到基本分类器:
Gm(x):χ→{-1,+1}
计算Gm(x)在训练数据集上的分类误差率:
计算Gm(x)的系数:
更新训练数据集的权值分布:
Dm+1=(wm+1,1,wm+1,2…wm+1,i…,wm+1,N),
其中,Zm是规范化因子,它使Dm+1成为一个概率分布:
构建基本分类器的线性组合:
得到最终分类器:
CN201910066007.6A 2019-01-24 2019-01-24 一种基于社交网络的职业心理性格分析方法 Active CN110060772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910066007.6A CN110060772B (zh) 2019-01-24 2019-01-24 一种基于社交网络的职业心理性格分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910066007.6A CN110060772B (zh) 2019-01-24 2019-01-24 一种基于社交网络的职业心理性格分析方法

Publications (2)

Publication Number Publication Date
CN110060772A true CN110060772A (zh) 2019-07-26
CN110060772B CN110060772B (zh) 2022-07-01

Family

ID=67316486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910066007.6A Active CN110060772B (zh) 2019-01-24 2019-01-24 一种基于社交网络的职业心理性格分析方法

Country Status (1)

Country Link
CN (1) CN110060772B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674865A (zh) * 2019-09-20 2020-01-10 燕山大学 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN110910989A (zh) * 2019-09-23 2020-03-24 平安科技(深圳)有限公司 心理评分方法、装置、电子设备及存储介质
CN111415538A (zh) * 2020-04-29 2020-07-14 常开旺 一种智慧教室系统
CN112487184A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 用户性格判定方法、装置、存储器和电子设备
CN113011997A (zh) * 2021-02-20 2021-06-22 上海电机学院 电网用户用电异常行为检测方法
CN113592225A (zh) * 2021-06-24 2021-11-02 浙江清朗科技有限公司 一种基层员工思维动态采集方法
WO2022087806A1 (en) * 2020-10-27 2022-05-05 Paypal, Inc. Multi-phase training techniques for machine learning models using weighted training data
CN115587263A (zh) * 2022-12-13 2023-01-10 中国人民解放军国防科技大学 基于社交网络数据的社会心理预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337101A1 (en) * 2012-05-23 2014-11-13 Woofound, Inc. System and method for businesses to collect personality information from their customers
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN106777855A (zh) * 2015-11-23 2017-05-31 吴涛 一种心理学方法
CN107247764A (zh) * 2017-06-02 2017-10-13 北京星河聘快线科技有限公司 一种信息匹配度的确定方法及系统
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN109086837A (zh) * 2018-10-24 2018-12-25 高嵩 基于卷积神经网络的用户属性分类方法、存储介质、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337101A1 (en) * 2012-05-23 2014-11-13 Woofound, Inc. System and method for businesses to collect personality information from their customers
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN106777855A (zh) * 2015-11-23 2017-05-31 吴涛 一种心理学方法
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN107247764A (zh) * 2017-06-02 2017-10-13 北京星河聘快线科技有限公司 一种信息匹配度的确定方法及系统
CN109086837A (zh) * 2018-10-24 2018-12-25 高嵩 基于卷积神经网络的用户属性分类方法、存储介质、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙启翔: "基于移动互联网社交行为的用户性格分析和预测", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674865A (zh) * 2019-09-20 2020-01-10 燕山大学 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN110674865B (zh) * 2019-09-20 2023-04-07 燕山大学 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN110910989A (zh) * 2019-09-23 2020-03-24 平安科技(深圳)有限公司 心理评分方法、装置、电子设备及存储介质
CN111415538A (zh) * 2020-04-29 2020-07-14 常开旺 一种智慧教室系统
WO2022087806A1 (en) * 2020-10-27 2022-05-05 Paypal, Inc. Multi-phase training techniques for machine learning models using weighted training data
CN112487184A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 用户性格判定方法、装置、存储器和电子设备
CN113011997A (zh) * 2021-02-20 2021-06-22 上海电机学院 电网用户用电异常行为检测方法
CN113592225A (zh) * 2021-06-24 2021-11-02 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN113592225B (zh) * 2021-06-24 2023-12-01 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN115587263A (zh) * 2022-12-13 2023-01-10 中国人民解放军国防科技大学 基于社交网络数据的社会心理预测方法

Also Published As

Publication number Publication date
CN110060772B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN110060772A (zh) 一种基于社交网络的职业心理性格分析方法
Sampath et al. Data set creation and empirical analysis for detecting signs of depression from social media postings
Kaiser et al. Mining consumer dialog in online forums
Bulbul et al. Comparison of classification techniques used in machine learning as applied on vocational guidance data
Menon et al. A novel approach to evaluate and rank candidates in a recruitment process by estimating emotional intelligence through social media data
CN112948710A (zh) 基于图神经网络的朋辈教育推荐方法、系统和存储介质
Hasan et al. Employment of ensemble machine learning methods for human activity Recognition
Persia et al. Improving orienteering-based tourist trip planning with social sensing
Samanta et al. Depression Detection from Twitter Data Using Two Level Multi-modal Feature Extraction
Ashrafi et al. Efficient resume based re-education for career recommendation in rapidly evolving job markets
Pal et al. Generic disease prediction using symptoms with supervised machine learning
Pradhan et al. Machine learning architecture and framework
Tianxing et al. An ontology of machine learning algorithms for human activity data processing
Mangla et al. Employing machine learning for multi-perspective emotional health analysis
Synko et al. Application of Clusterization for Analysis of Virtual Community Users.
Danubianu et al. Model of a Data Mining System for Personalized Therapy of Speech Disorders
Chen et al. Hybrid Method for Short Text Topic Modeling
Roshchina et al. Evaluating the similarity estimator component of the TWIN personality-based recommender system
Elbaghazaoui et al. Predicting user behavior using data profiling and hidden Markov model.
Grypari et al. Research & Innovation Activities’ Impact Assessment: The Data4Impact System
Denter Machine learning for patent intelligence: opportunities and challenges
Bhoomika et al. 2q-learning scheme for resume screening
Adikari Modelling Human Emotion Dynamics from Social Media Footprints with Artificial Intelligence and Natural Language Processing
Jeba et al. Inferring Personality From Social Media User Behaviors Using Dense Net Convolutional Neural Networks
Gullerud Leveraging LSTM and Language Embeddings for Age Group Estimation in Child Language Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant