CN105243094A

CN105243094A - 一种基于微博文本和个人信息的用户职业分类方法及系统

Info

Publication number: CN105243094A
Application number: CN201510577403.7A
Authority: CN
Inventors: 李寿山; 戴斌; 周国栋
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2016-01-13

Abstract

本发明提供一种基于微博文本和个人信息的用户职业分类方法及系统，所述方法包括以下步骤。收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。如此，有效提高微博用户职业分类的准确率。

Description

一种基于微博文本和个人信息的用户职业分类方法及系统

技术领域

本发明属于自然语言处理和社交网络领域，具体地，涉及一种基于微博文本和个人信息的用户职业分类方法和系统。

背景技术

互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台，并且产生大量的社交网站，同时微型博客(Microblog)也随之产生，成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息，且越来越多的研究工作开始关注微博，其中重要的一类研究是微博用户特征分析。

所谓微博用户特征分析，就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征，并根据这些特征进行用户分类。其中微博用户分类是微博用户特征分析的一项基本内容，具体来讲，是将微博用户按职业划分为不同类别，比如：学生、自由职业、计算机类和销售类；由于社交网络刚刚起步相关研究较少，因此关于用户职业类别的研究也比较缺乏。

但是，已有的研究主要是针对Twitter等外文网站，且利用的信息是网站提供的社交网络信息；然而，相对于社交网络信息，文本信息，例如，用户名和所发微博等，更容易获取且更具普遍性。

于现有技术中，申请号为201510236383.7的发明专利公开了一种基于微博的用户职业分类方法和系统，包括：获取预设数量的第一用户，第一用户为已经提供职业信息的微博用户；获取每个第一用户的职业信息和微博文本；依据第一用户的职业信息对第一用户进行分类，利用分类后得到的结果确定每个第一用户的职业类型；将每个第一用户的微博文本分别进行分词处理，得到第一文本词组；利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量，并利用第一用户的职业类型及第一特征向量构建最大熵分类器；利用最大熵分类器对第二特征向量进行处理，得到与第二特征向量对应的微博文本所属的第二用户的职业类型。由此，能够准确获知未知职业信息的微博用户的职业类型。在上述方案中，首先对于职业的分类不够细化，此外，分类准确率仍然有待提高。

鉴于此，本发明提供一种基于微博文本和个人信息的用户职业分类方法和系统，以解决上述问题。

发明内容

本发明提供一种基于微博文本和个人信息的用户职业分类方法，包括以下步骤。

S1、收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本。

S2、根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本进行分词处理后作为第二训练样本。

S3、利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。

优选的，在步骤S1中，收集指定数量的第一用户的微博文本和个人信息包括以下步骤：

S11、构建一个空的用户列表，在列表中添加指定数量的种子用户；

S12、获取所述种子用户的微博文本和个人信息，并获取对所述种子用户的微博文本的评论账号，将所述评论账号加入用户列表中；

S13、从用户列表取出一个账号，获取该账号发表过的微博文本和个人信息，并回转至步骤S12，直至达到第一用户的所需数量。

优选的，在步骤S12中，所述种子用户的微博文本和个人信息通过微博网站提供的API获取。

优选的，用户的个人信息包括微博网站提供的用户名、性别、年龄、关注者、粉丝及职业。

优选的，所述职业类型为根据微博网站的职业直接划分，并对各职业类型进行标号。

优选的，所述职业类型包括在校学生、计算机网络技术类、经营管理类、文体工作类、销售类、医疗卫生类、农林牧渔劳动者、酒店餐饮旅游服务类、美术设计创意类、电子电器通信技术类、农村外出务工人员、贸易物流采购运输类、建筑房地产装修类、财务审计统计类、电气能源动力类、个体经营商业零售类、军人警察类、美容保健类、行政后勤类、教育培训类、公务员类、市场公关咨询媒介类、技工类、工厂生产类、宗教神职人员类、工程师类、新闻出版文化工作类、金融类、人力资源类、保险类、法律类、翻译类、其他类、娱乐业、自由职业类及待业/无业/失业类。

优选的，步骤S3还包括：利用所述第一最大熵分类器及第二最大熵分类器，对第二用户的微博文本和个人信息进行分类，得到两个分类结果，将两个分类结果融合得到所述融合结果。

本发明还提供一种基于微博文本和个人信息的用户职业分类系统，包括类型标注模块、训练样本获取模块及分类模块，所述类型标注模块连接训练样本获取模块，所述训练样本获取模块连接分类模块。所述类型标注模块，用于收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本；所述训练样本获取模块，用于根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本；所述分类模块，用于利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。

根据本发明提供的基于微博文本和个人信息的用户职业分类方法及系统，收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。如此，有效提高微博用户职业分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法流程图；

图2是本发明较佳实施例提供的收集指定数量的第一用户的微博文本和个人信息流程图；

图3是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类系统示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法流程图。如图1所示，本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法包括步骤S1～S3。

步骤S1：收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本。

具体而言，本实施例中所述微博均为腾讯微博，所述第一用户是指可通过人工操作获得职业信息的部分用户。图2是本发明较佳实施例提供的收集指定数量的第一用户的微博文本和个人信息流程图。如图2所示，收集指定数量的第一用户的微博文本和个人信息包括步骤S11～S13。

步骤S11：构建一个空的用户列表，在列表中添加指定数量的种子用户。

步骤S12：获取所述种子用户的微博文本和个人信息，并获取对所述种子用户的微博文本的评论账号，将所述评论账号加入用户列表中；

具体地，用户的个人信息包括微博网站提供的用户名、性别、年龄、关注者、粉丝及职业。本步骤中，所述种子用户的微博文本和个人信息通过微博网站提供的API获取。

步骤S13：从用户列表取出一个账号，获取该账号发表过的微博文本和个人信息，并回转至步骤S12，直至达到第一用户的所需数量。

本实施例中，所述职业类型根据微博网站的职业直接划分，并对各职业类型进行标号。所述职业类型包括在校学生、计算机网络技术类、经营管理类、文体工作类、销售类、医疗卫生类、农林牧渔劳动者、酒店餐饮旅游服务类、美术设计创意类、电子电器通信技术类、农村外出务工人员、贸易物流采购运输类、建筑房地产装修类、财务审计统计类、电气能源动力类、个体经营商业零售类、军人警察类、美容保健类、行政后勤类、教育培训类、公务员类、市场公关咨询媒介类、技工类、工厂生产类、宗教神职人员类、工程师类、新闻出版文化工作类、金融类、人力资源类、保险类、法律类、翻译类、其他类、娱乐业、自由职业类及待业/无业/失业类。表1是各职业类型及其职业标号对照示例表。

在校学生	1007	行政后勤类	2019
				计算机网络技术类	2002	教育培训类	2020
经营管理类	2003	公务员类	2021
				文体工作类	2004	市场公关咨询媒介类	2022
销售类	2005	技工类	2023
				医疗卫生类	2006	工厂生产类	2024
农林牧渔劳动者	2007	宗教神职人员类	2025
				酒店餐饮旅游服务类	2008	工程师类	2026
美术设计创意类	2009	新闻出版文化工作类	2027
				电子电器通信技术类	2010	金融类	2028
农村外出务工人员	2011	人力资源类	2029
				贸易物流采购运输类	2012	保险类	2030
建筑房地产装修类	2013	法律类	2031
				财务审计统计类	2014	翻译类	2032
电气能源动力类	2015	其他类	2033
				个体经营商业零售类	2016	娱乐业	2034

军人警察类	2017	自由职业类	3001
				美容保健类	2018	待业/无业/失业	4001

表1

参照表1，本实施例所做的数据实验中选取在社交网络中数量较多的四个职业，分别为1007(在校学生)，2002(计算机网络技术类)，2016(个体经营商业零售类)，2020(教育培训类)。

步骤S2：根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本进行分词处理后作为第二训练样本。

具体地，所述分词处理是采用中国科学院计算技术研究所的分词软件ICTCLAS，对标注好的微博文本进行分词操作，并将所述经过分词操作的微博文本作为第二训练样本。

步骤S3：利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。

本步骤中，是利用所述第一训练样本、第二训练样本及Mallet提供的最大熵工具包构建最大熵分类器。

于此，利用所述第一最大熵分类器及第二最大熵分类器，对第二用户的微博文本和个人信息进行分类，得到两个分类结果，将两个分类结果融合得到所述融合结果。

其中最大熵分类器的方法具体解释如下。

本实验中使用的特征为文本特征，即以文本中出现的词作为特征，实验中的类别共有4种。由此可以定义语料(corpus)中所有的文本，以词为单位，每个词即X。label(x)表示这个词的类别，features(x)表示这个词特征。判断一个文本的类别，需要计算这个文本中的所有词分别为每种类别的概率，每种类别的所有词概率即p(label(x)|features(x))分别求和，得到的就是这个文本为这几个类别的概率，取最大概率即认为该文本属于这个类别。见如下公式。

P(features)＝∑_x|in|corpusP(label(x)|features(x))

值得指出的是，计算概率的时候由于使用熵的公式计算，其中含有log，所以这里采用的是求和。

其中p(label|features),一个特征为features将有类标签label的输入的概率，被定义为：

P(label|features)＝P(label,features)/∑_labelP(label,features)

上述公式理解为：计算一个特征features有类别label的概率要用这个features有一种label的概率然后除以所有features具有每种label的概率的和。

经实验数据证明，采用本发明提供的基于微博文本和个人信息的用户职业分类方法，对微博用户进行分类的准确率为0.68，其中训练样本包含4个职业各800，测试样本包含4个类别各200。相比现有技术中的类似方法准确率有较大提高。

图3是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类系统示意图。如图3所示，本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类系统包括类型标注模块1、训练样本获取模块2及分类模块3，所述类型标注模块1连接训练样本获取模块2，所述训练样本获取模块2连接分类模块3。所述类型标注模块1，用于收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本。所述训练样本获取模块2，用于根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。所述分类模块3，用于利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。关于上述系统的操作流程同上述方法类似，故于此不再赘述。

综上所述，根据本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法及系统，收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。如此，有效提高微博用户职业分类的准确率。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于微博文本和个人信息的用户职业分类方法，其特征在于，包括以下步骤：

S1、收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本；

S2、根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本进行分词处理后作为第二训练样本；

2.根据权利要求1所述的方法，其特征在于，在步骤S1中，收集指定数量的第一用户的微博文本和个人信息包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，在步骤S12中，所述种子用户的微博文本和个人信息通过微博网站提供的API获取。

4.根据权利要求1所述的方法，其特征在于，用户的个人信息包括微博网站提供的用户名、性别、年龄、关注者、粉丝及职业。

5.根据权利要求4所述的方法，其特征在于，所述职业类型为根据微博网站的职业直接划分，并对各职业类型进行标号。

6.根据权利要求5所述的方法，其特征在于，所述职业类型包括在校学生、计算机网络技术类、经营管理类、文体工作类、销售类、医疗卫生类、农林牧渔劳动者、酒店餐饮旅游服务类、美术设计创意类、电子电器通信技术类、农村外出务工人员、贸易物流采购运输类、建筑房地产装修类、财务审计统计类、电气能源动力类、个体经营商业零售类、军人警察类、美容保健类、行政后勤类、教育培训类、公务员类、市场公关咨询媒介类、技工类、工厂生产类、宗教神职人员类、工程师类、新闻出版文化工作类、金融类、人力资源类、保险类、法律类、翻译类、其他类、娱乐业、自由职业类及待业/无业/失业类。

7.根据权利要求1所述的方法，其特征在于，步骤S3还包括：利用所述第一最大熵分类器及第二最大熵分类器，对第二用户的微博文本和个人信息进行分类，得到两个分类结果，将两个分类结果融合得到所述融合结果。

8.一种基于微博文本和个人信息的用户职业分类系统，其特征在于，包括类型标注模块、训练样本获取模块及分类模块，所述类型标注模块连接训练样本获取模块，所述训练样本获取模块连接分类模块，

所述类型标注模块，用于收集指定数量第一用户的微博文本和个人信息，并根据第一用户的个人信息获得其职业类型，并将所述第一用户的个人信息作为第一训练样本；

所述训练样本获取模块，用于根据第一用户的职业类型字段，对第一用户的微博文本和个人信息进行标注，并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本；

所述分类模块，用于利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器，并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合，并根据融合结果确定所述第二用户职业类型。