CN110060772A

CN110060772A - 一种基于社交网络的职业心理性格分析方法

Info

Publication number: CN110060772A
Application number: CN201910066007.6A
Authority: CN
Inventors: 朱蔚恒; 龙舜; 石文娟; 王会进
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-07-26
Anticipated expiration: 2039-01-24
Also published as: CN110060772B

Abstract

本发明公开了一种基于社交网络的职业心理性格分析方法，具体涉及心理分析领域，具体步骤为：步骤一：采集用户的基本信息；步骤二：构造MBTI职业性格四维度的分类器；步骤三：将修改过权值的新数据集送给下层分类器进行训练；步骤四：完成对象的MBTI分析报告。本发明通过采集个人的社交网络内容并进行全面深入的量化分析，借助MBTI模型量化个人微博内容和职业心理性格之间的关联，通过采集样本训练分类器，使得招聘方可以根据候选人在社交网络发布的内容全面迅速准确地判断地其职业心理性格，为决策提供客观的依据，同时本发明用信息技术实现了上述整个分析过程的自动化，大大降低了分析的时间成本。

Description

一种基于社交网络的职业心理性格分析方法

技术领域

本发明涉及心理分析技术领域，更具体地说，本发明涉及一种基于社交网络的职业心理性格分析方法。

背景技术

心理分析是指根据心理现象之间及心理现象与行为之间的因果关系，由一种心理现象推知另一种心理现象、特征或行为的方法。它通过对人的心理现象和活动(智力活动、情绪活动、意志活动、梦等)的分析对一个人的气质性格人品等进行评判、对某一心理疾病做出诊断、分析某一思维的过程、对某一心理现象做出预示(预测)等。它可用于识人用人、人际交往、心理预测、心理诊断、心理治疗、心理调控等。在现实世界中，人格测验常被用于心理诊断、治疗、司法鉴定和人力资源等多方面。

人与人之间的心理差异来源于个人先天遗传、生长环境、教育背景等诸多方面的不同，表现在对同一事物或行为的差异。心理学家们制定了一系列的人格测验用于测量个体的人格特质并将其归属到某类人格类型。人格测验即测量个人在一定的情境下，经常表现出来的典型行为和情感反应，进而归属其人格类型，其间所采用的一切测量工具都可称为人格测验。现代常用的人格量表有如下几种：1)梅耶-布里格性格分析法模型(MBTI)；2)明尼苏达多项人格调查表(MMPI)；3)加利福尼亚心理调查表(CPI)；4)艾森克人格问卷(EPQ)；5)十六项人格因素问卷(简称16PF)；和6)大五人格问卷(简称NEO-PI或BFI)。其中MBTI量表对了解用户的职业性格有一定帮助，常作为职业性格分析用量表被广泛应用于在校学生培训、企业的雇员招聘、高级经理人个人魅力训练以及个人的职业规划等领域中，近年来，它逐渐在公司人力资源领域得到高度重视及普及，世界五百强企业中有80％有MBTI 的应用经验。

中文微博在有限字数下可以表达更丰富的内容也提供更丰富的分析材料。国内近年也开始重视对微博这一社交网络用户行为的分析，与国外不同，国内的工作主要集中在情感分类、兴趣和行为识别等方面而在性格分析方面比较欠缺。

专利申请公布号201205769514的发明专利公开了一种基于微博用户行为的人格预测方法。该发明以社交网络(微博和人人网)用户为研究对象，采集他们线上行为记录并从中提取行为特征，以作为预测变量；同时，对研究对象施测人格问卷，获取其在各人格维度上的得分，以此作为结果变量。利用朴素贝叶斯、支持向量机、决策树与Pace回归等算法训练基于社交网络行为的人格特征预测模型。在此基础上，他们开发了“文心(TextMind)”中文心理分析系统，系统采用大五人格量表进行性格分析，为用户提供从简体中文自动分词，到语言心理分析的一揽子分析解决方案，另外，他们还利用相关成果开发了一个高自杀风险用户筛查系统。

国外针对社交网络的用户性格分析的相关研究从一定程度上证实了基于社交网络的用户性格分析具有可行性。虽然内容才是进行性格心理分析的核心依据，但大部分研究进行的是简单定量统计等工作，较少涉及到对用户在社交网络发表的内容本身的分析与挖掘，显然这些工作不仅方法有待改进，准确率也可待提高。

与英文环境下的分析研究工作不同，中文文本分类因为研究内容更加丰富，因而相对更复杂，难度也更大。国内相关工作尚处于起步阶段，而且相关工作更多地倾向于情感分析和兴趣识别而非性格心理分析。情感是一个短期的表现，表现在对一句话一件事等的(瞬时)反应，而心理性格则更需要长期的观察和分析；情感经常变换，而心理性格则较稳定不易变。情感和兴趣识别在一定程度上性格特点的具体体现，但仅对情感作为分析难以对人形成全面的认知。

另一方面，当前相关研究大都是进行针对一般意义上的性格心理，没有针对招聘-求职这一领域进行有针对性的研究。而招聘-求职需要特别考察性格心理中与工作相关的动力、信息收集方式、决策方式和生活方式这四个维度的特征，一般性格心理分析则不能完全涵盖这些方面的内容，因此有必要进行有针对性地研发工作。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于社交网络的职业心理性格分析方法，通过采集个人的社交网络内容并进行全面深入的量化分析，借助MBTI模型量化个人微博内容和职业心理性格之间的关联，通过采集样本训练分类器，使得招聘方可以根据候选人在社交网络发布的内容全面迅速准确地判断地其职业心理性格，为决策提供客观的依据，同时本发明用信息技术实现了上述整个分析过程的自动化，大大降低了分析的时间成本，并能通过案例的不断积累不断提高分析判断的准确度。

为实现上述目的，本发明提供如下技术方案：一种基于社交网络的职业心理性格分析方法，具体步骤为：

步骤一：采集用户的基本信息，并且根据基本信息的内容打上各种使用行为标签、主题标签、情感倾向标签，并且分别计算各个标签使用百分比，同时对基本信息内用词进行统计，包括高频词和它们的使用比率；

步骤二：构造MBTI职业性格四维度的分类器，将性格分为动力(外向/内向)、信息收集(感觉/直觉)、决策方式(理智/情感)、生活方式(独立/依赖) 四个维度共16种组合，利用训练数据对四方面的分类器分别进行训练，并预测结果的准确率和查全率对分类器进行调优；

步骤三：采用了Adaboost迭代算法整合步骤二中分类器的分析结果，根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值，将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为MBTI进行动力、信息收集、决策方式、生活方式这四个方面分析所使用的分类器；

步骤四：当需要分析一个目标对象的职业性格心理的时候，我们首先通过爬虫采集他的社交网络数据，并且进行步骤一的数据预处理，在完成预处理后，我们将得到的诸多特征输入动力、信息收集、决策方式、生活方式分类器，得到相关MBTI四个维度的分析结果，并根据MBTI职业性格心理分析报告模板，套用这些特征数据完成对象的MBTI分析报告。

在一个优选的实施方式中，所述步骤一中基本信息包括用户的个性化自我描述、是否修改了微博默认URL、微博数、粉丝数、关注数、是否有自我描述、性别、微博昵称的长度等结构化特征；另外还要给用户的个性描述打上组织归属与信仰、生活态度、自我描述、准则、目标、语录等各种类别标签，并且根据用户的社交软件分别设定了话题/投票/活动、求助、收藏、与他人互动、分享、日常生活、对事物进行评论等标签类别，通过基于规则学习训练文本分类器完成打标签的工作。

在一个优选的实施方式中，所述步骤二中分类器分别进行训练包括 Logistic回归算法，多用于估计某种事物的可能性，它是一个学习f:X->Y 方程或者P(Y|X)的方法，其中Y是离散取值的，而X＝<X₁,X₂...,X_n>是任意一个向量，其中每个特征分量X_i可取离散或者连续值，它可用于概率预测，也可用于分类，而且不需要各特征X_i之间相互独立，它是当前业界比较常用的机器学习方法，Logistic回归方法包括：

1)构造预测函数h；

2)构造损失函数J；

3)想办法使得J函数最小并求得回归参数(θ)三步，其中：

1)构造预测函数h，本发明使用Logistic函数(或称Sigmoid函数)，形式为：

对于线性边界的情况，边界形式如下：

构造预测函数为：

函数h_θ(x)的值有特殊的含义，它表示结果取1的概率，因此对于输入x 分类结果为类别1和类别0的概率分别为：

2)构造损失函数J，Cost函数和J函数是基于最大似然估计推导得到的：

3)最大似然估计就是求使l(θ)取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。本发明采用以下公式：

即取J(θ)最小值时的θ为要求的最佳参数，

θ更新过程可以写成：

在一个优选的实施方式中，步骤二中分类器分别进行训练包括人工神经网络，是从信息处理角度对人脑神经元网络进行抽象，通过建立某种简单模型，按不同的连接方式组成不同的网络，它是一种运算模型，由大量的神经元之间相互联接构成，每个神经元代表一种特定的输出函数，称为激励函数，每对神经元间的连接都代表一个对于通过该连接信号的加权值，称为权重，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，人工神经网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

在一个优选的实施方式中，步骤二中分类器分别进行训练包括采用了 C4.5算法实现决策树，该算法如下所示：

输入：训练集D＝{(x1,y1),(x2,y2),...,(xm,ym)}

属性集A＝{a1,a2,...,ad}.

过程：函数TreeGenerate(D,A)

生成结点node；

if D中样本全属于同一类别C then

将node标记为C类叶结点；return

end if

if A＝＝(OR D中样本在A上取值相同)then

将node标记为叶结点，其类别标记为D中样本数最多的类；return

end if

从A中选择最优划分属性a*；

for a*的每一个值a*_v do

为node生成一个分支；令Dv表示D中在a*上取值为a*_v的样本子集；

if Dv为空then

将分支结点标记为叶结点，其类别标记为D 中样本最多的类；then

else

以TreeGenerte(Dv,A\{a*})为分支结点

end if

end for

输出：以node为根节点的一颗决策树。

在一个优选的实施方式中，步骤二中分类器分别进行训练包括使用 Apriori算法，进行关联规则挖掘，该算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集，首先，通过扫描事务(交易)记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集，最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则：

Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。

2)连接步：为找出L_k(所有的频繁k项集的集合)，通过将L_k-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合，候选集合记作 Ck，设l₁和l2是L_k-1中的成员，记l_i[j]表示l_i中的第j项，假设Apriori 算法对事务或项集中的项按字典次序排序，

即对于(k-1)项集l_i，l_i[1]<l_i[2]<……….<l_i[k-1]，

将L_k-11与自身连接，如果 (l₁[1]＝l₂[1])&&(l₁[2]＝l₂[2])&&……..&&(l₁[k-2]＝l₂[k-2])&&(l₁[k-1]<l₂[k -1])，那认为l₁和l₂是可连接，连接l₁和l₂产生的结果是 {l₁[1],l₁[2],……,l₁[k-1],l₂[k-1]}；

3)剪枝步：CK是LK的超集，也就是说，CK的成员可能是也可能不是频繁的，通过扫描所有的事务(交易)，确定CK中每个候选的计数，判断是否小于最小支持度计数，如果不是，则认为该候选是频繁的。

在一个优选的实施方式中，所述步骤四中Adaboost的算法描述如下：

设训练数据集T＝{(x1,y1),(x2,y2)…(xN,yN)}

初始化训练数据的权值分布：

D₁＝(w₁₁,w₁₂…w_1i…,w_1N),

使用具有权值分布Dm的训练数据集学习，得到基本分类器：

G_m(x)：χ→{-1,+1}

计算Gm(x)在训练数据集上的分类误差率：

计算Gm(x)的系数：

更新训练数据集的权值分布

D_m+1＝(w_m+1,1,w_m+1,2…w_m+1,i…,w_m+1,N),

其中，Zm是规范化因子，它使Dm+1成为一个概率分布：

构建基本分类器的线性组合：

得到最终分类器：

本发明的技术效果和优点：

1、本发明通过采集个人的社交网络内容并进行全面深入的量化分析，借助MBTI模型量化个人微博内容和职业心理性格之间的关联，通过采集样本训练分类器，使得招聘方可以根据候选人在社交网络发布的内容全面迅速准确地判断地其职业心理性格，为决策提供客观的依据，同时本发明用信息技术实现了上述整个分析过程的自动化，大大降低了分析的时间成本，并能通过案例的不断积累不断提高分析判断的准确度；

2、本发明专门为全面客观迅速地判断一个人的职业性格心理而开发，更具有针对性，面向更专业的用户市场，采用的逻辑回归和神经网络算法具有更高的抗噪性和可靠性，也更加适合于职业性格心理的量化分析；同时采用了Adaboost迭代算法整合多个分类器的分析结果，使分析结果更加可信；本发明提供的迭代式处理框架使得系统可以根据采集来的案例不断自动对分析算法进行调优，无需进行人工干预和调整，即可逐渐提高分析准确性。

附图说明

图1为本发明的整体系统结构示意图；

图2为本发明的社交内容标签结构示意图；

图3为本发明的Adaboost支持的四个MBTI测试维度的分类器示意图；

图4为本发明的持续学习的迭代式框架支持分类器原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

本发明提供了如图1-4所示的一种基于社交网络的职业心理性格分析方法，具体步骤为：

进一步的，步骤一中基本信息包括用户的个性化自我描述、是否修改了微博默认URL、微博数、粉丝数、关注数、是否有自我描述、性别、微博昵称的长度等结构化特征；另外还要给用户的个性描述打上组织归属与信仰、生活态度、自我描述、准则、目标、语录等各种类别标签，并且根据用户的社交软件分别设定了话题/投票/活动、求助、收藏、与他人互动、分享、日常生活、对事物进行评论等标签类别，通过基于规则学习训练文本分类器完成打标签的工作。

参照说明书附图2：

根据用户社交软件的文本使用行为标签算法为：

根据社交软件内容打上各种主题标签；

本发明使用由互联网词库获得体育、娱乐、财经、饮食、游戏、名人明星等词库和免费的PHP开源分词系统(SCWS分词工具)，结合词库和关键字对微博体现的兴趣爱好进行标注，得到用户微博内容中体现的兴趣爱好，兴趣爱好标签有视频、音乐、游戏、美食、旅游、购物、IT数码、搞笑幽默、摄影、小说、星座运势、情感生活、宠物图集、图片、互联网、英语、读书、设计、家居、美容、时尚、美女、八卦杂谈、女人、减肥瘦身、本地生活、名人明星、新闻趣事、体育资讯、职场招聘、财经资讯、房产、车世界、其

本发明所提出的一种基于社交网络的职业心理性格分析方法特别针对尾微博进行举例说明：

根据微博内容打上情感倾向标签；

本发明使用的微博情感标签包括积极、消极和中性三类标签。利用清华大学定义的积极、消极情感词库和SCWS分词工具对微博内容的情感倾向进行分类。默认用户发布的微博不含正面或负面情绪，即为中性情感微博，如微博中积极词汇多于微博中消极词汇则定义为积极情感微博，否则为消极情感微博。其过程可以用以下公式表示：

其中，采用的基于社交内容的情感倾向分类过程如算法下所示

同时计算用户的社交软件类别、使用行为、主题和情感倾向标签的百分比；

用户的社交软件的用词统计，包括高频词和它们的使用比率。

实施例二：

由实施例一可知：

步骤二中分类器分别进行训练包括Logistic回归算法，多用于估计某种事物的可能性，它是一个学习f:X->Y方程或者P(Y|X)的方法，其中Y是离散取值的，而X＝<X1,X2...,Xn>是任意一个向量，其中每个特征分量 Xi可取离散或者连续值。它可用于概率预测，也可用于分类，而且不需要各特征Xi之间相互独立，它是当前业界比较常用的机器学习方法，Logistic回归方法包括

1)构造预测函数h；

2)构造损失函数J；

3)想办法使得J函数最小并求得回归参数(θ)三步，其中：

对于线性边界的情况，边界形式如下：

构造预测函数为：

即取J(θ)最小值时的θ为要求的最佳参数，

θ更新过程可以写成：

步骤二中分类器分别进行训练包括人工神经网络，是从信息处理角度对人脑神经元网络进行抽象，通过建立某种简单模型，按不同的连接方式组成不同的网络，它是一种运算模型，由大量的神经元之间相互联接构成，每个神经元代表一种特定的输出函数，称为激励函数，每对神经元间的连接都代表一个对于通过该连接信号的加权值，称为权重，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，人工神经网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

步骤二中分类器分别进行训练包括采用了C4.5算法实现决策树，该算法如下所示：

输入：训练集D＝{(x1,y1),(x2,y2),...,(xm,ym)}

属性集A＝{a1,a2,...,ad}.

过程：函数TreeGenerate(D,A)

生成结点node；

if D中样本全属于同一类别C then

将node标记为C类叶结点；return

end if

if A＝＝(OR D中样本在A上取值相同)then

end if

从A中选择最优划分属性a*；

for a*的每一个值a*_v do

if Dv为空then

else

以TreeGenerte(Dv,A\{a*})为分支结点

end if

end for

输出：以node为根节点的一颗决策树。

步骤二中分类器分别进行训练包括使用Apriori算法，进行关联规则挖掘，该算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k 项集用于探索(k+1)项集，首先，通过扫描事务(交易)记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集，最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则：

Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集：

4)1)连接步：为找出L_k(所有的频繁k项集的集合)，通过将L_k-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合，候选集合记作Ck，设l₁和l2是L_k-1中的成员，记l_i[j]表示l_i中的第j项，假设Apriori 算法对事务或项集中的项按字典次序排序，

即对于(k-1)项集l_i，l_i[1]<l_i[2]<……….<l_i[k-1]，

2)剪枝步：CK是LK的超集，也就是说，CK的成员可能是也可能不是频繁的，通过扫描所有的事务(交易)，确定CK中每个候选的计数，判断是否小于最小支持度计数，如果不是，则认为该候选是频繁的。

实施例三：

由说明书附图3、图4和实施例一可知：

采用了Adaboost迭代算法整合这些分类器的分析结果。Adaboost的核心思想是针对同一个训练集训练不同的弱分类器，然后把这些弱分类器集合起来，构成一个更强的最终的强分类器。Adaboost根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为MBTI进行动力、信息收集、决策方式、生活方式这四个方面分析所使用的分类器。

所述步骤四中Adaboost的算法描述如下：

设训练数据集T＝{(x1,y1),(x2,y2)…(xN,yN)}

初始化训练数据的权值分布：

D₁＝(w₁₁,w₁₂…w_1i…,w_1N),

使用具有权值分布Dm的训练数据集学习，得到基本分类器：

G_m(x)：χ→{-1,+1}

计算Gm(x)在训练数据集上的分类误差率：

计算Gm(x)的系数：

更新训练数据集的权值分布

D_m+1＝(w_m+1,1,w_m+1,2…w_m+1,i…,w_m+1,N),

其中，Zm是规范化因子，它使Dm+1成为一个概率分布：

构建基本分类器的线性组合：

得到最终分类器：

在完成上述各个MBTI测试测试维度分类器的基础上，本发明使用了一个持续学习的迭代式框架(如说明书附图图4所示)，支持分类器通过不断地从采集的训练实例中学习逐步提高各个分类器的准确率。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于社交网络的职业心理性格分析方法，其特征在于：具体步骤为：

步骤二：构造MBTI职业性格四维度的分类器，将性格分为动力(外向/内向)、信息收集(感觉/直觉)、决策方式(理智/情感)、生活方式(独立/依赖)四个维度共16种组合，利用训练数据对四方面的分类器分别进行训练，并预测结果的准确率和查全率对分类器进行调优；

2.根据权利要求1所述的一种基于社交网络的职业心理性格分析方法，其特征在于：所述步骤一中基本信息包括用户的个性化自我描述、是否修改了微博默认URL、微博数、粉丝数、关注数、是否有自我描述、性别、微博昵称的长度等结构化特征；另外还要给用户的个性描述打上组织归属与信仰、生活态度、自我描述、准则、目标、语录等各种类别标签，并且根据用户的社交软件分别设定了话题/投票/活动、求助、收藏、与他人互动、分享、日常生活、对事物进行评论等标签类别，通过基于规则学习训练文本分类器完成打标签的工作。

3.根据权利要求1所述的一种基于社交网络的职业心理性格分析方法，其特征在于：所述步骤二中分类器分别进行训练包括Logistic回归算法，多用于估计某种事物的可能性，它是一个学习f:X->Y方程或者P(Y|X)的方法，其中Y是离散取值的，而X＝<X₁,X₂...,X_n>是任意一个向量，其中每个特征分量X_i可取离散或者连续值，它可用于概率预测，也可用于分类，而且不需要各特征X_i之间相互独立，它是当前业界比较常用的机器学习方法，Logistic回归方法包括:

1)构造预测函数h；

2)构造损失函数J；

3)想办法使得J函数最小并求得回归参数(θ)三步，其中：

对于线性边界的情况，边界形式如下：

构造预测函数为：

函数h_θ(x)的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

即取J(θ)最小值时的θ为要求的最佳参数，

θ更新过程可以写成：

4.根据权利要求3所述的一种基于社交网络的职业心理性格分析方法，其特征在于：所述步骤二中分类器分别进行训练包括人工神经网络，是从信息处理角度对人脑神经元网络进行抽象，通过建立某种简单模型，按不同的连接方式组成不同的网络，它是一种运算模型，由大量的神经元之间相互联接构成，每个神经元代表一种特定的输出函数，称为激励函数，每对神经元间的连接都代表一个对于通过该连接信号的加权值，称为权重，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，人工神经网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

5.根据权利要求3所述的一种基于社交网络的职业心理性格分析方法，其特征在于：所述步骤二中分类器分别进行训练包括采用了C4.5算法实现决策树，该算法如下所示：

6.根据权利要求3所述的一种基于社交网络的职业心理性格分析方法，其特征在于：所述步骤二中分类器分别进行训练包括使用Apriori算法，进行关联规则挖掘，该算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集，首先，通过扫描事务(交易)记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集，最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则：

1)连接步：为找出L_k(所有的频繁k项集的集合)，通过将L_k-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合，候选集合记作Ck，设l₁和l2是L_k-1中的成员，记l_i[j]表示l_i中的第j项，假设Apriori算法对事务或项集中的项按字典次序排序，

即对于(k-1)项集l_i，l_i[1]<l_i[2]<……….<l_i[k-1]，

将L_k-11与自身连接，如果(l₁[1]＝l₂[1])&&(l₁[2]＝l₂[2])&&……..&&(l₁[k-2]＝l₂[k-2])&&(l₁[k-1]<l₂[k-1])，那认为l₁和l₂是可连接，连接l₁和l₂产生的结果是{l₁[1],l₁[2],……,l₁[k-1],l₂[k-1]}；

7.根据权利要求1所述的一种基于社交网络的职业心理性格分析方法，其特征在于：所述步骤四中Adaboost的算法描述如下：

设训练数据集T＝{(x1,y1),(x2,y2)…(xN,yN)}

初始化训练数据的权值分布：

D₁＝(w₁₁,w₁₂…w_1i…,w_1N),

使用具有权值分布Dm的训练数据集学习，得到基本分类器：

G_m(x)：χ→{-1,+1}

计算Gm(x)在训练数据集上的分类误差率：

计算Gm(x)的系数：

更新训练数据集的权值分布：

D_m+1＝(w_m+1,1,w_m+1,2…w_m+1,i…,w_m+1,N),

其中，Zm是规范化因子，它使Dm+1成为一个概率分布：

构建基本分类器的线性组合：

得到最终分类器：