CN102663001A - 基于支持向量机的博客作者兴趣与性格自动识别方法 - Google Patents

基于支持向量机的博客作者兴趣与性格自动识别方法 Download PDF

Info

Publication number
CN102663001A
CN102663001A CN2012100701746A CN201210070174A CN102663001A CN 102663001 A CN102663001 A CN 102663001A CN 2012100701746 A CN2012100701746 A CN 2012100701746A CN 201210070174 A CN201210070174 A CN 201210070174A CN 102663001 A CN102663001 A CN 102663001A
Authority
CN
China
Prior art keywords
interest
personality
author
blog
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100701746A
Other languages
English (en)
Inventor
黄翰
鲁梦平
郝志峰
刘伟庆
张远峰
蔡昭权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN2012100701746A priority Critical patent/CN102663001A/zh
Publication of CN102663001A publication Critical patent/CN102663001A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于支持向量机的博客作者兴趣与性格自动识别方法,首先构建兴趣分类训练样本集和性格分类训练样本集,然后使用中文词法分析器分别处理这两组训练样本集,得到候选兴趣特征项集合和候选性格特征项集合,接着使用统计方法分析这两组候选特征项集合,构建兴趣分类特征项集合和性格分类特征项集合,然后分别使用这两组特征项集合将兴趣分类训练样本集和性格分类训练样本集表示成向量形式,最后分别使用这两组向量训练兴趣分类器和性格分类器,该分类器被用于识别其他作者的兴趣和性格。本发明能够准确地识别作者的兴趣和性格,适用于各种基于作者信息的个性化服务,使服务商更加充分地了解用户,从而提高服务质量,具有极大的实用价值。

Description

基于支持向量机的博客作者兴趣与性格自动识别方法
技术领域
本发明涉及博客挖掘技术,具体涉及基于支持向量机的博客作者兴趣与性格自动识别方法。
背景技术
随着互联网的高速发展,网络交流方式越来越多样化。博客作为一种全新的网络交流方式,具有使用简单、个性化强、实时性好、互动性强等优点,因此受到越来越多人的关注。据中国互联网络信息中心(CNNIC)发布的《第25次中国互联网络发展状况统计报告》数据显示,截至2009年12月,博客用户规模达到2.21乙。其中,活跃博客的规模进一步扩大,在半年内更新过博客空间的博客用户规模达到1.45亿。
如今,博客的应用已经渗透到社会生活的各个领域。由于博客空间的信息丰富、更新速度快且源于广大民众等特点,是人们真实情感和事件评论的体现,近年来开始受到科研界和工业界的广泛关注。如何有效的利用丰富的博客资源,挖掘有价值的信息,对于掌握互联网的发展动态,改进各种网上服务,丰富用户网上生活,提高用户体验等都具有十分重要的现实意义和研究价值。
兴趣和性格作为用户最主要的特征,几乎影响着用户的一切行为。兴趣是个体以特定的事物、活动及人为对象,所产生的积极的和带有倾向性、选择性的态度和情绪。由于兴趣本身具有稳定性的特点,通过对人们的兴趣分析可以得到他们所喜好的领域信息,并据此为其提供相应的服务。在传统领域,对于兴趣的研究已经较为普遍,但由于博客自身的特殊性,目前,国内针对博客的兴趣研究尚处于初步阶段,并且缺乏标准的数据集支持,因此很难开展相关的研究。相比之下,国外学者在该领域的研究则在一定程度上领先于我们,然而他们的研究集中在英文博客。由于中文和英文存在较大的差异,因此国外的研究仅仅具有一定的理论参考价值。
性格是一个人表现在对现实的态度和行为方式上的比较稳定但又可变的心理特征,是个性的最重要的组成部分,是一种与社会相关最密切的人格特征。性格在学习教育、团队管理、交际能力、职业等方面发挥着重要的作用,在某些方面,性格的重要性甚至高于智力。信息社会面临着“数据过剩”和“知识贫乏”的矛盾。
如何通过知识挖掘,快速、准确地获得信息及隐藏在信息中的知识,已经成为人们的迫切需要。据了解,自动识别中文博客作者性格的方法目前还没有,因此本发明具有较强的创新性。
发明内容
本发明针对当前博客用户量巨大,基于博客的个性化服务缺乏以及人工搜集或者推断作者个人信息开销大、实施比较困难的情况,提供了基于支持向量机的博客作者兴趣与性格自动识别方法。本发明的目的在于让机器智能地分析作者的所有博客文章,自动地识别作者的兴趣和性格,让市场人员更加充分地了解用户,从而改善服务方式,提高客户服务质量。具体技术方案如下:
基于支持向量机的博客作者兴趣与性格自动识别方法,其包括以下步骤:
(a)搜集一组表示作者兴趣主题的博客文章以及内向、外向作者写作的博客文章,分别将这两组博客文章作为兴趣分类和性格分类训练样本集;
(b)用中文词法分析器对步骤(a)得到的两组训练样本集进行词法分析,得到这两组样本集中文章分词结果和词语的词性,分别定义为候选兴趣特征项集合和候选性格特征项集合;
(c)用统计方法分别分析候选兴趣特征项集合和候选性格特征项集合中的特征项对兴趣训练样本集和性格训练样本集的重要性,并分别按重要性大小筛选一组兴趣特征项和一组性格特征项,分别定义为兴趣分类特征项集合和性格分类特征项集合;
(d)根据兴趣分类特征项集合将兴趣分类训练样本集的每个样本表示成向量形式,定义为兴趣分类训练样本向量集合;根据性格分类特征项集合将性格分类训练样本集的每个样本表示成向量形式,定义为性格分类训练样本向量集合;
(e)将兴趣分类训练样本向量集合和性格分类训练样本向量集合作为支持向量机的输入进行训练,得到兴趣分类器和性格分类器;
(f)对于一个待预测其兴趣和性格类别的作者,搜集该作者的所有博客文章,使用步骤(b)所述的词法分析器对该组博客文章进行词法分析,根据步骤(c)得到的兴趣分类特征项集合和性格分类特征项集合将该作者所有博客文章表示成向量形式,分别得到用于预测该作者兴趣的向量集合和预测该作者性格的向量;
(g)将步骤(f)的用于预测该作者兴趣的向量集合作为步骤(e)兴趣分类器的输入,得到该作者每篇文章的兴趣类别;将步骤(f)的用于预测该作者性格的向量作为步骤(e)性格分类器的输入,得到该作者的性格类别。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(a)包括以下步骤:
(a-1)使用网络爬虫从博客站点的分类目录搜集一组博客文章,根据分类目录的主题特征将该目录包含主题类别划分为兴趣主题类别和非兴趣主题类别,其中兴趣主题类别表示作者的兴趣,兴趣主题包含育儿、房产、家居、教育、娱乐、财经、游戏、健康、科技、汽车、文化、美食、体育、旅游和军事中的一种以上;非兴趣主题类别不可以表示作者的兴趣,非兴趣主题包括星座、女性、公益中的一种以上;
(a-2)根据作者注册博客时填写的个人资料,使用网络爬虫从博客站点搜集一组性格为内向或外向类别作者全部的博客文章,将每一个作者的全部博客文章作为一个样本;
(a-3)对步骤(a-1)搜集的博客文章进行去噪处理;
(a-4)分别将步骤(a-3)处理后的博客文章和步骤(a-2)搜集的博客文章作为兴趣分类和性格分类训练样本集,具体是:将兴趣主题类别包含的每个子类看作一个单独的兴趣类别,将非兴趣主题类别包含的所有子类合并为一个非兴趣类别;将内向和外向类别作为性格分类训练样本集的两种类别。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(a-3)所述博客文章去噪处理包括以下步骤:
(1)对于步骤(a-1)搜集的每类博客文章,使用中科院ICTCLAS词法分析器进行分词,统计该类别所有博客文章中包含的词语,得到词语集合T={key1,key2,Λ,keyn},词语keyi在该类别博客文章中出现的文档频数为df(keyi),n为分词得到的词语个数,i取值为1~n;
(2)将该类别中的每篇博客文章表示成向量形式dj=(w1,w2,Λ,wn),其中
Figure BDA0000143942460000031
|C|表示该类别包含的博客文章数,Pj(keyi)表示在该类别博客文章中词语keyi在第j篇文章dj出现的概率,tfj(keyi)表示词语keyi在第j篇文章dj出现的次数,j取值为1~|C|;
(3)对该类别所有博客文章对应的向量取算术平均值,得到该类别博客文章的中心向量;
(4)采用余弦相似度计算该类别中每篇博客文章对应的向量与该类别博客文章中心向量之间的相似度,剔除相似度小于δ的博客文章,δ取值为0.2~0.3。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(b)包括以下步骤:
(b-1)使用中科院ICTCLAS词法分析器处理兴趣分类和性格分类训练样本集,得到这两组样本集中文章分词结果和词语的词性;
(b-2)分析兴趣分类训练样本集,保留名词、动词和形容词作为候选兴趣特征项集合;分析性格分类训练样本集,将分词结果按照N个连续的词语分组,得到这N个词语对应的N元词性序列,并保留N元词性序列作为候选性格特征项集合,N≤4。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(c)包括以下步骤:(c-1)使用信息增益方法度量候选兴趣特征项集合中的每个特征项区分不同类别的兴趣训练样本的能力,并筛选出信息增益值最大的前p个特征项作为兴趣分类特征项集合,p取值为2000~4000;
(c-2)使用F分布(以统计学家R.A.Fisher姓氏的第一个字母命名)和Eta相关系数(相关比率,Correlation Ratio)度量候选性格特征项集合中的每个特征项区分不同类别的性格训练样本的能力以及每个特征项与性格之间的相关性;并筛选出F值大于α且Eta值大于β的一组特征项作为性格分类特征项集合,α取值为3.85,β取值为0.03~0.04;
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(d)包括以下步骤:
(d-1)根据兴趣分类特征项集合将兴趣分类训练样本集的每个样本S表示成向量形式,即S=(η1,η2,Λ,ηp),ηm为第m个特征项tm的权值,m取值为1~p;(d-2)根据性格分类特征项集合将性格分类训练样本集的每个样本H表示成向量形式,即H=(λ1,λ2,Λ,λq),其中q为性格分类特征项集合的大小,λr为第r个特征项hr的权值,r取值为1~q;
(d-3)分别将兴趣分类训练样本和性格分类训练样本的向量结果定义为兴趣分类训练样本向量集合和性格分类训练样本向量集合。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,所述步骤(d-1)具体是:兴趣分类训练样本集的每个样本S的向量表示中,第m个特征项tm的权值ηm计算过程具体是:根据综合评价模型的G1法,分别给博客内容中标题、标签、类别、首段、末段以及其他正文部分的特征词赋予不同的权重
Figure BDA0000143942460000041
并结合文档频-逆文档频方法给出每个特征项最终的权值,即
Figure BDA0000143942460000042
其中TF(tm)表示特征项tm在该样本中出现的次数,DF(tm)表示兴趣分类训练样本集中包含特征项tm的样本个数,L是兴趣分类训练样本集的样本个数,β为调节因子,取值为0.1;
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,所述步骤(d-2)具体是:性格分类训练样本集的每个样本H的向量表示中,第r个特征项hr的权值λr等于特征项hr在该样本中出现的次数与该样本内容占用字节数的比值。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(e)具体过程是:根据支持向量机统计学习理论,使用兴趣分类训练样本向量集合和性格分类训练样本向量集合分别训练兴趣分类器和性格分类器,生成相应的兴趣分类模型文件和性格分类模型文件。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(f)具体过程是:给定一个待预测其兴趣和性格类别的作者,使用网络爬虫搜集该作者的所有博客文章,使用步骤(b)所述的词法分析器对该作者的所有博客文章进行词法分析,根据步骤(c)得到的兴趣分类特征项集合和性格分类特征项集合将该作者的所有博客文章表示成向量形式,分别得到用于预测该作者兴趣的向量集合和预测该作者性格的向量。
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,步骤(g)具体过程是:将步骤(f)的用于预测该作者兴趣的向量集合作为步骤(e)得到的兴趣分类器的输入,得到该作者每篇文章的兴趣类别,综合该作者所有的兴趣类别构建作者的兴趣向量,筛选最重要的兴趣作为该作者最终的兴趣;将步骤(f)的用于预测该作者性格的向量作为步骤(e)得到的性格分类器的输入,得到该作者的性格类别;
上述的基于支持向量机的博客作者兴趣与性格自动识别方法中,所述的构建作者的兴趣向量的具体过程是:根据待预测作者所有博客文章的兴趣类别,统计每种兴趣类别的文章数量,并剔除非兴趣类别的文章数量,按照每种兴趣类别的文章数量衡量作者兴趣的重要程度,筛选出最重要M个兴趣作为作者最终的兴趣,M≤3。
与现有的技术相比,本发明具有如下优点和技术效果:(1)实现博客文章训练样本的自动搜集和去噪,不需要耗费过多的人力去标注训练样本,提供了真实可靠的样本数据用于训练兴趣分类器和性格分类器;(2)使用N元词性序列特征对作者性格进行识别,这类特征独立于主题内容,比主题特征更加适合于性格分类问题;(3)特征筛选过程简单有效,并且结合博客自身的特点计算特征项的权值,更加切合实际;(4)现有技术中相关方法仅仅使用博客作者少量的文章作为预测的依据,而本发明使用博客作者的全部文章作为预测兴趣和性格的依据,预测结果更加准确可靠;(5)使用支持向量机学习算法对兴趣和性格分类问题进行建模,能较好地解决数据维灾难和过拟合问题,且具有良好的推广性能和分类效果。
附图说明
图1为博客作者兴趣自动识别的流程图。
图2为博客作者性格自动识别的流程图。
具体实施方式
以下结合附图对本发明的实施方式作进一步说明,但本发明的实施不限于此。
基于支持向量机的博客作者兴趣与性格自动识别方法包括博客作者兴趣自动识别和性格自动识别。其中兴趣自动识别包括博客文章训练样本搜集、博客文章样本去噪、中文词法分析、构建候选兴趣特征项集合、衡量候选兴趣特征项的重要性、筛选兴趣分类特征项集合、特征项的权值计算、兴趣分类训练样本的向量表示、训练兴趣分类器,预测其他博客作者的兴趣类别;性格自动识别包括博客文章训练样本搜集、中文词法分析、构建候选性格特征项集合、衡量候选性格特征项的重要性、筛选性格分类特征项集合、特征项的权值计算、性格分类训练样本的向量表示、训练性格分类器、预测其他博客作者性格类别。下面将进行详细介绍:
图1为博客作者兴趣自动识别的流程图,具体流程描述如下:
(1)按博客站点的分类目录,使用网络爬虫搜集一组博客文章;
(2)根据分类目录的主题特征将该目录包含主题类别划分为兴趣主题类别和非兴趣主题类别,其中兴趣主题类别表示作者的兴趣,兴趣主题包含育儿、房产、家居、教育、娱乐、财经、游戏、健康、科技、汽车、文化、美食、体育、旅游和军事中的一种以上;非兴趣主题类别不可以表示作者的兴趣,非兴趣主题包括星座、女性、公益中的一种以上;
(3)将兴趣主题类别包含的每个子类看作一个单独的兴趣类别,将非兴趣主题类别包含的子类合并为一个非兴趣类别,总共包含16个类别,分别是育儿、房产、家居、教育、娱乐、财经、游戏、健康、科技、汽车、文化、美食、体育、旅游、军事和非兴趣类别;
(4)对该组博客文章进行去噪处理,构建兴趣分类训练样本集,具体过程是:
(4-a)对于搜集的每类博客文章,使用中科院ICTCLAS词法分析器进行分词,统计该类别所有博客文章中包含的词语,得到词语集合T={key1,key2,Λ,keyn}、词语keyi在该类别博客文章中出现的文档频数为df(keyi),n为分词得到的词语个数,i取值为1~n;
(4-b)将该类别中的每篇博客文章表示成向量形式dj=(w1,w2,Λ,wn),其中
Figure BDA0000143942460000071
|C|表示该类别包含的博客文章数,Pj(keyi)表示在该类别博客文章中词语keyi在第j篇文章dj出现的概率,tfj(keyi)表示词语keyi在第j篇文章dj出现的次数,j取值为1~|C|。
(4-c)对该类别所有博客文章对应的向量取算术平均值,得到该类别博客文章的中心向量;
(4-d)采用余弦相似度计算该类别中每篇博客文章对应的向量与该类别博客文章中心向量之间的相似度,剔除相似度小于δ的博客文章,δ取值为0.2~0.3。
(5)使用中科院词法分析工具ICTCLAS对兴趣分类训练样本集进行分析,得到样本文章的分词结果和词语的词性;
(6)分析兴趣分类训练样本集,保留名词、动词和形容词作为候选兴趣特征项集合;
(7)衡量候选特征项的重要性:使用信息增益方法度量候选兴趣特征项集合中的每个特征项区分不同类别的兴趣训练样本的能力;
(8)从候选兴趣特征项集合中筛选出信息增益值最大的前p个特征项作为兴趣分类特征项集合,p取值为2000~4000;
(9)根据兴趣分类特征项集合将兴趣分类训练样本集的每个样本S表示成向量形式,即S=(η1,η2,Λ,ηp),ηm为第m个特征项tm的权值,其计算过程具体是:根据综合评价模型的G1法,分别给博客内容中标题、标签、类别、首段、末段以及其他正文部分的特征词赋予不同的权重
Figure BDA0000143942460000072
并结合文档频-逆文档频方法给出每个特征项最终的权值,即
其中TF(tm)表示特征项tm在该样本中出现的次数,DF(tm)表示兴趣分类训练样本集中包含特征项tm的样本个数,L是兴趣分类训练样本集的样本个数,β为调节因子,取值为0.1,m取值为1~p。
(10)根据支持向量机统计学习理论,将兴趣分类训练样本向量集合作为支持向量机的输入进行训练,得到兴趣分类器,以及相应的兴趣分类模型文件;
(11)对于一个待预测其兴趣的作者,搜集该作者的全部博客文章;
(12)使用中科院词法分析工具ICTCLAS对(11)的博客文章进行词法分析,并结合(8)的兴趣分类特征项集合,将(11)的每篇文章表示成向量形式,向量的每一维特征项的权值计算过程与(9)相同;
(13)将(12)每篇文章对应的向量作为支持向量机分类器的输入,使用(10)生成的兴趣分类模型文件预测该文章的兴趣类别,然后统计每种兴趣类别的文章数量,并剔除非兴趣类别的文章数量,按照每种兴趣类别的文章数量衡量作者兴趣的重要程度,筛选出最重要的M个兴趣作为作者最终的兴趣,M≤3。
图2为博客作者性格自动识别的流程图,具体流程描述如下:
(1)根据作者注册博客时填写的个人资料,使用网络爬虫从博客站点搜集一组性格为内向或外向类别作者全部的博客文章,将每一个作者的全部博客文章作为一个样本,构建性格分类训练样本集;
(2)使用中科院ICTCLAS词法分析器对性格分类样本集进行分析,得到样本文章的分词结果和词语的词性;
(3)分析性格分类训练样本集,将分词结果按照N个连续的词语分组,得到这N个词语对应的N元词性序列,并保留N元词性序列作为候选性格特征项集合,N≤4;
(4)衡量候选特征项的重要性:使用F分布(以统计学家R.A.Fisher姓氏的第一个字母命名)和Eta相关系数(相关比率,Correlation Ratio)度量候选性格特征项集合中的每个特征项区分不同类别的性格训练样本的能力以及每个特征项与性格之间的相关性;
(5)从候选性格特征项集合中筛选出F值大于α且Eta值大于β的一组特征项作为性格分类特征项集合,α取值为3.85,β取值为0.03~0.04;
(6)根据性格分类特征项集合将性格分类训练样本集的每个样本H表示成向量形式,即H=(λ1,λ2,Λ,λq),其中q为性格分类特征项集合的大小,λr为第r个特征项hr的权值,它等于特征项hr在该样本中出现的次数与该样本内容占用字节数的比值,r取值为1~q;
(7)根据支持向量机统计学习理论,将性格分类训练样本向量集合作为支持向量机的输入进行训练,得到性格分类器,以及相应的性格分类模型文件;
(8)对于一个待预测其性格的作者,搜集该作者的全部博客文章作为一个样本;
(9)使用中科院词法分析工具ICTCLAS对(8)的博客文章进行词法分析,并结合(5)的性格分类特征项集合,将(8)的博客文章表示成向量形式,向量的每一维特征项的权值计算过程与(6)相同;
(10)将(9)得到的向量作为支持向量机分类器的输入,使用(7)生成的性格分类模型文件预测该博客作者的性格类别。

Claims (10)

1.基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于,包括以下步骤:
(a)搜集一组表示作者兴趣主题的博客文章以及内向、外向作者写作的博客文章,分别将这两组博客文章作为兴趣分类和性格分类训练样本集;
(b)用中文词法分析器对步骤(a)得到的两组训练样本集进行词法分析,得到这两组样本集中文章分词结果和词语的词性,分别定义为候选兴趣特征项集合和候选性格特征项集合;
(c)用统计方法分别分析候选兴趣特征项集合和候选性格特征项集合中的特征项对兴趣训练样本集和性格训练样本集的重要性,并分别按重要性大小筛选一组兴趣特征项和一组性格特征项,分别定义为兴趣分类特征项集合和性格分类特征项集合;
(d)根据兴趣分类特征项集合将兴趣分类训练样本集的每个样本表示成向量形式,定义为兴趣分类训练样本向量集合;根据性格分类特征项集合将性格分类训练样本集的每个样本表示成向量形式,定义为性格分类训练样本向量集合;
(e)将兴趣分类训练样本向量集合和性格分类训练样本向量集合作为支持向量机的输入进行训练,得到兴趣分类器和性格分类器;
(f)对于一个待预测其兴趣和性格类别的作者,搜集该作者的所有博客文章,使用步骤(b)所述的词法分析器对该组博客文章进行词法分析,根据步骤(c)得到的兴趣分类特征项集合和性格分类特征项集合将该作者所有博客文章表示成向量形式,分别得到用于预测该作者兴趣的向量集合和预测该作者性格的向量;
(g)将步骤(f)的用于预测该作者兴趣的向量集合作为步骤(e)兴趣分类器的输入,得到该作者每篇文章的兴趣类别;将步骤(f)的用于预测该作者性格的向量作为步骤(e)性格分类器的输入,得到该作者的性格类别。
2.如权利要求1所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于所述步骤(a)包括以下步骤:
(a-1)使用网络爬虫从博客站点的分类目录搜集一组博客文章,根据分类目录的主题特征将该目录包含主题类别划分为兴趣主题类别和非兴趣主题类别,
其中兴趣主题类别表示作者的兴趣,兴趣主题包含育儿、房产、家居、教育、娱乐、财经、游戏、健康、科技、汽车、文化、美食、体育、旅游和军事中的一种以上;非兴趣主题类别不可以表示作者的兴趣,非兴趣主题包括星座、女性、公益中的一种以上;
(a-2)根据作者注册博客时填写的个人资料,使用网络爬虫从博客站点搜集一组性格为内向或外向类别作者全部的博客文章,将每一个作者的全部博客文章作为一个 样本;
(a-3)对步骤(a-1)搜集的博客文章进行去噪处理;
(a-4)分别将步骤(a-3)处理后的博客文章和步骤(a-2)搜集的博客文章作为兴趣
分类和性格分类训练样本集,具体是:将兴趣主题类别包含的每个子类看作一个单独的兴趣类别,将非兴趣主题类别包含的所有子类合并为一个非兴趣类别;将内向和外向类别作为性格分类训练样本集的两种类别。
3.如权利要求2所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于步骤(a-3)所述博客文章去噪处理包括以下步骤:
(1)对于步骤(a-1)搜集的每类博客文章,使用中科院ICTCLAS词法分析器进行分词,统计该类别所有博客文章中包含的词语,得到词语集合T={key1,key2,Λ,keyn},词语keyi在该类别博客文章中出现的文档频数为df(keyi),n为分词得到的词语个数,i取值为1~n;
(2)将该类别中的每篇博客文章表示成向量形式dj=(w1,w2,Λ,wn),其中 
Figure FDA0000143942450000021
|C|表示该类别包含的博客文章数,Pj(keyi)表示在该类别博客文章中词语keyi在第j篇文章dj出现的概率,tfj(keyi)表示词语keyi在第j篇文章dj出现的次数,j取值为1~|C|;
(3)对该类别所有博客文章对应的向量取算术平均值,得到该类别博客文章的中心向量;
(4)采用余弦相似度计算该类别中每篇博客文章对应的向量与该类别博客文章中心向量之间的相似度,剔除相似度小于δ的博客文章,δ取值为0.2~0.3。
4.如权利要求1所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于步骤(b)包括以下步骤:
(b-1)使用中科院ICTCLAS词法分析器处理兴趣分类和性格分类训练样本集,得到这两组样本集中文章分词结果和词语的词性;
(b-2)分析兴趣分类训练样本集,保留名词、动词和形容词作为候选兴趣特征项集合;分析性格分类训练样本集,将分词结果按照N个连续的词语分组,得到这N个词语对应的N元词性序列,并保留N元词性序列作为候选性格特征项集合,N≤4。
5.如权利要求1所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于步 骤(c)包括以下步骤:
(c-1)使用信息增益方法度量候选兴趣特征项集合中的每个特征项区分不同类别的兴趣训练样本的能力,并筛选出信息增益值最大的前p个特征项作为兴趣分类特征项集合,p取值为2000~4000;
(c-2)使用F分布(以统计学家R.A.Fisher姓氏的第一个字母命名)和Eta相关系数(相关比率,Correlation Ratio)度量候选性格特征项集合中的每个特征项区分不同类别的性格训练样本的能力以及每个特征项与性格之间的相关性;并筛选出F值大于α且Eta值大于β的一组特征项作为性格分类特征项集合,α取值为3.85,β取值为0.03~0.04。
6.如权利要求1所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于步骤(d)包括以下步骤:
(d-1)根据兴趣分类特征项集合将兴趣分类训练样本集的每个样本S表示成向量形式,即S=(η1,η2,Λ,ηp),ηm为第m个特征项tm的权值,m取值为1~p;
(d-2)根据性格分类特征项集合将性格分类训练样本集的每个样本H表示成向量形式,即H=(λ1,λ2,Λ,λq),其中q为性格分类特征项集合的大小,λr为第r个特征项hr的权值,r取值为1~q;
(d-3)分别将兴趣分类训练样本和性格分类训练样本的向量结果定义为兴趣分类训练样本向量集合和性格分类训练样本向量集合。
7.如权利要求6所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于所述步骤(d-1)具体是:兴趣分类训练样本集的每个样本S的向量表示中,第m个特征项tm的权值ηm计算过程具体是:根据综合评价模型的G1法,分别给博客内容中标题、标签、类别、首段、末段以及其他正文部分的特征词赋予不同的权重 
Figure FDA0000143942450000031
并结合文档频-逆文档频方法给出每个特征项最终的权值,即
Figure FDA0000143942450000032
其中TF(tm)表示特征项tm在该样本中出现的次数,DF(tm)表示兴趣分类训练样本集中包含特征项tm的样本个数,L是兴趣分类训练样本集的样本个数,β为调节因子,取值为0.1;
所述步骤(d-2)具体是:性格分类训练样本集的每个样本H的向量表示中,第r个特征项hr的权值λr等于特征项hr在该样本中出现的次数与该样本内容占用字节数的比值。 
8.如权利要求1所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于步骤(e)具体过程是:根据支持向量机统计学习理论,使用兴趣分类训练样本向量集合和性格分类训练样本向量集合分别训练兴趣分类器和性格分类器,生成相应的兴趣分类模型文件和性格分类模型文件。
9.如权利要求1所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于步骤(f)具体过程是:给定一个待预测其兴趣和性格类别的作者,使用网络爬虫搜集该作者的所有博客文章,使用步骤(b)所述的词法分析器对该作者的所有博客文章进行词法分析,根据步骤(c)得到的兴趣分类特征项集合和性格分类特征项集合将该作者的所有博客文章表示成向量形式,分别得到用于预测该作者兴趣的向量集合和预测该作者性格的向量。
10.如权利要求1所述基于支持向量机的博客作者兴趣与性格自动识别方法,其特征在于步骤(g)具体过程是:将步骤(f)的用于预测该作者兴趣的向量集合作为步骤(e)得到的兴趣分类器的输入,得到该作者每篇文章的兴趣类别,综合该作者所有的兴趣类别构建作者的兴趣向量,筛选最重要的兴趣作为该作者最终的兴趣;将步骤(f)的用于预测该作者性格的向量作为步骤(e)得到的性格分类器的输入,得到该作者的性格类别;
所述的构建作者的兴趣向量的具体过程是:根据待预测作者所有博客文章的兴趣类别,统计每种兴趣类别的文章数量,并剔除非兴趣类别的文章数量,按照每种兴趣类别的文章数量衡量作者兴趣的重要程度,筛选出最重要的M个兴趣作为作者最终的兴趣,M≤3。 
CN2012100701746A 2012-03-15 2012-03-15 基于支持向量机的博客作者兴趣与性格自动识别方法 Pending CN102663001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100701746A CN102663001A (zh) 2012-03-15 2012-03-15 基于支持向量机的博客作者兴趣与性格自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100701746A CN102663001A (zh) 2012-03-15 2012-03-15 基于支持向量机的博客作者兴趣与性格自动识别方法

Publications (1)

Publication Number Publication Date
CN102663001A true CN102663001A (zh) 2012-09-12

Family

ID=46772492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100701746A Pending CN102663001A (zh) 2012-03-15 2012-03-15 基于支持向量机的博客作者兴趣与性格自动识别方法

Country Status (1)

Country Link
CN (1) CN102663001A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593690A (zh) * 2013-11-25 2014-02-19 北京光年无限科技有限公司 用户智能标签系统
CN103714063A (zh) * 2012-09-28 2014-04-09 国际商业机器公司 数据分析方法及其系统
CN104361063A (zh) * 2014-11-04 2015-02-18 北京字节跳动网络技术有限公司 用户兴趣发现方法和装置
CN105930532A (zh) * 2016-06-16 2016-09-07 上海聚力传媒技术有限公司 一种向用户推荐多媒体资源的方法和装置
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN107085608A (zh) * 2017-04-21 2017-08-22 上海喆之信息科技有限公司 一种有效的网络热点监测系统
CN108153715A (zh) * 2016-12-02 2018-06-12 财团法人资讯工业策进会 比较表格自动产生方法及装置
CN108776846A (zh) * 2018-05-15 2018-11-09 中国平安人寿保险股份有限公司 推荐方法、装置、计算机设备及存储介质
CN109815415A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于卡方词频分析的社交媒体用户兴趣识别方法
WO2019120024A1 (zh) * 2017-12-22 2019-06-27 Oppo广东移动通信有限公司 用户性别识别方法、装置、存储介质及电子设备
CN110704643A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端
CN110717326A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
JP2021012547A (ja) * 2019-07-05 2021-02-04 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN114036264A (zh) * 2021-11-19 2022-02-11 四川大学 一种基于小样本学习的电子邮件作者身份归属识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074883A1 (en) * 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
CN101017504A (zh) * 2007-03-02 2007-08-15 华中科技大学 基于语义小世界模型的文献检索方法
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN101026802A (zh) * 2007-03-16 2007-08-29 华为技术有限公司 一种信息推送方法与装置
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074883A1 (en) * 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
CN101017504A (zh) * 2007-03-02 2007-08-15 华中科技大学 基于语义小世界模型的文献检索方法
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN101026802A (zh) * 2007-03-16 2007-08-29 华为技术有限公司 一种信息推送方法与装置
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714063B (zh) * 2012-09-28 2017-08-04 国际商业机器公司 数据分析方法及其系统
CN103714063A (zh) * 2012-09-28 2014-04-09 国际商业机器公司 数据分析方法及其系统
US11222375B2 (en) 2012-09-28 2022-01-11 International Business Machines Corporation Data analysis method and system thereof
US11176586B2 (en) 2012-09-28 2021-11-16 International Business Machines Corporation Data analysis method and system thereof
CN103593690B (zh) * 2013-11-25 2017-08-08 北京光年无限科技有限公司 用户智能标签系统
CN103593690A (zh) * 2013-11-25 2014-02-19 北京光年无限科技有限公司 用户智能标签系统
CN104361063A (zh) * 2014-11-04 2015-02-18 北京字节跳动网络技术有限公司 用户兴趣发现方法和装置
CN104361063B (zh) * 2014-11-04 2018-03-16 北京字节跳动网络技术有限公司 用户兴趣发现方法和装置
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN105930532A (zh) * 2016-06-16 2016-09-07 上海聚力传媒技术有限公司 一种向用户推荐多媒体资源的方法和装置
CN105930532B (zh) * 2016-06-16 2019-08-02 上海聚力传媒技术有限公司 一种向用户推荐多媒体资源的方法和装置
CN108153715A (zh) * 2016-12-02 2018-06-12 财团法人资讯工业策进会 比较表格自动产生方法及装置
CN107085608A (zh) * 2017-04-21 2017-08-22 上海喆之信息科技有限公司 一种有效的网络热点监测系统
WO2019120024A1 (zh) * 2017-12-22 2019-06-27 Oppo广东移动通信有限公司 用户性别识别方法、装置、存储介质及电子设备
CN108776846A (zh) * 2018-05-15 2018-11-09 中国平安人寿保险股份有限公司 推荐方法、装置、计算机设备及存储介质
CN109815415A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于卡方词频分析的社交媒体用户兴趣识别方法
JP2021012547A (ja) * 2019-07-05 2021-02-04 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP7194084B2 (ja) 2019-07-05 2022-12-21 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN110704643A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端
CN110704643B (zh) * 2019-08-23 2022-07-26 上海科技发展有限公司 不同类文献相同作者自动辨识方法及装置、存储介质终端
CN110717326A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN110717326B (zh) * 2019-09-17 2022-12-23 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN114036264A (zh) * 2021-11-19 2022-02-11 四川大学 一种基于小样本学习的电子邮件作者身份归属识别方法
CN114036264B (zh) * 2021-11-19 2023-06-16 四川大学 一种基于小样本学习的电子邮件作者身份归属识别方法

Similar Documents

Publication Publication Date Title
CN102663001A (zh) 基于支持向量机的博客作者兴趣与性格自动识别方法
CN104915446B (zh) 基于新闻的事件演化关系自动提取方法及其系统
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN101609450A (zh) 基于训练集的网页分类方法
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN101794311A (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN104035927A (zh) 一种基于用户行为的搜索方法及系统
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
CN109558587B (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN102955813B (zh) 一种信息搜索方法和系统
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN106682236A (zh) 基于机器学习的专利数据处理方法及其处理系统
CN114077705A (zh) 一种对社交平台上的媒体账号进行画像的方法和系统
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
CN103034726A (zh) 文本过滤系统及方法
CN105868347A (zh) 一种基于多步聚类的重名消歧方法
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN112214991A (zh) 一种基于多特征融合加权的微博文本立场检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120912