CN104809236A

CN104809236A - 一种基于微博的用户年龄分类方法及系统

Info

Publication number: CN104809236A
Application number: CN201510237163.6A
Authority: CN
Inventors: 李寿山; 戴斌; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-05-11
Filing date: 2015-05-11
Publication date: 2015-07-29
Anticipated expiration: 2035-05-11
Also published as: CN104809236B

Abstract

本发明提供的一种基于微博的用户年龄分类方法及系统，包括：获取待测用户，待测用户为未提供年龄信息的微博用户；获取待测用户的微博文本；对待测用户的微博文本进行分词处理，得到待测文本词组，并按照预设规则对待测文本词组进行转换，得到待测特征向量；将待测特征向量作为预先建立的最大熵分类器的输入值，得到测试结果；利用测试结果确定待测用户的用户年龄类型。本申请通过获取待测用户的微博文本，对其进行相关处理后利用最大熵分类器获取测试结果，以根据该测试结果确定其用户年龄类型，由此，将待测用户自身所发表的微博文本作为依据，利用最大熵分类器进行测试，能够使得所确定的待测用户的用户年龄类型更加准确，且，能够实现通用性。

Description

一种基于微博的用户年龄分类方法及系统

技术领域

本发明涉及自然语言处理和社交网络技术领域，更具体地说，涉及一种基于微博的用户年龄分类方法及系统。

背景技术

互联网的开放性、虚拟性与共享性，使其渐渐成为人们表达观点、态度、感觉、情绪等的公共平台；同时，产生了大量基于互联网的社交网站，其中就包括微型博客(Microblog)，即微博。越来越多的研究工作开始关注微博，其中重要的一类研究就是微博用户特征分析。

所谓微博用户特征分析，就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征，并根据这些用户特征进行用户分类、用户挖掘及影响力探测等。其中，微博用户年龄是微博用户特征分析的一项基本内容，具体来讲，其主要为根据用户年龄划分特定类别，比如将用户年龄划分为70后、80后及90后，或者划分为成年和未成年。其中，出生年在1970到1979之间的用户为70后，出生年在1980到1989之间的用户为80后，出生年在1990到1999之间的用户为90后。

现有技术中关于用户年龄类型分类的技术方案主要是针对Twitter等外文网站，其具体为：获取一未提供年龄信息的待测用户，该待测用户存在具有一定联系的并已经提供年龄信息的关联用户，通过获取关联用户的年龄信息确定关联用户的年龄类型，进而根据其关联用户的年龄类型判断该待测用户的年龄类型。比如：关联用户中有百分之六十的用户为90后，则确定该待测用户为90后。但是，现今的微博用户大多数交友较广泛，经常出现其大部分的关联用户与该待测用户的年龄类型并不相同的情况，因此，用上述的技术方案所确定待测用户的年龄类型并不准确，且不具备通用性。

因此，现有技术中存在所确定的待测用户的年龄类型不准确，且不具有通用性的缺点。

发明内容

本发明的目的是提供一种基于微博的用户年龄分类方法及系统，以解决现有技术中存在的所确定的待测用户的年龄类型不准确，且不具有通用性的缺点。

为了实现上述目的，本发明提供如下技术方案：

一种基于微博的用户年龄分类方法，包括：

获取待测用户，所述待测用户为未提供年龄信息的微博用户；

获取所述待测用户的微博文本；

对所述待测用户的微博文本进行分词处理，得到待测文本词组，并按照预设规则对所述待测文本词组进行转换，得到待测特征向量；

将所述待测特征向量作为预先建立的最大熵分类器的输入值，得到测试结果；

利用所述测试结果确定所述待测用户的用户年龄类型。

优选的，所述利用所述测试结果确定所述待测用户的用户年龄类型，包括：

所述测试结果包括第一概率、第二概率及第三概率，所述第一概率对应的用户年龄类型为第一类，所述第二概率对应的用户年龄类型为第二类，所述第三概率对应的用户年龄类型为第三类；

对所述第一概率、所述第二概率及所述第三概率进行加权计算，得到计算结果，根据所述计算结果确定所述待测用户的用户年龄类型。

优选的，所述最大熵分类器的预先建立过程包括：

获取预设数量的训练用户，所述训练用户为已经提供年龄信息的微博用户；

获取每个训练用户的年龄信息和微博文本；

依据所述每个训练用户的年龄信息对所述训练用户进行分类，利用分类后得到的结果确定所述每个训练用户的用户年龄类型；

将所述每个训练用户的微博文本分别进行分词处理，得到分别与所述每个训练用户的微博文本对应的训练文本词组，并利用所述训练文本词组构成分别与所述每个训练用户的微博文本对应的训练特征向量；

利用所述用户年龄类型及所述训练特征向量构建最大熵分类器。

优选的，所述获取预设数量的训练用户，包括：

步骤1：任意选取一个微博用户作为当前确定的训练用户；

步骤2：获取该当前确定的训练用户的关注微博用户及粉丝微博用户，并确定所述关注微博用户及粉丝微博用户均为训练用户；

步骤3：由所述关注微博用户及粉丝微博用户中任意选取一个微博用户作为当前确定的训练用户，返回执行步骤2，直至所述训练用户的数量达到预设数量为止。

优选的，所述方法还包括：

构建一个训练用户列表，并将其初始化为空；

每获得一个训练用户，则将该训练用户添加至所述训练用户列表中，以供查询。

优选的，获取每个训练用户的年龄信息和微博文本，包括：

通过微博提供的API获取每个训练用户的年龄信息和微博文本。

一种基于微博的用户年龄分类系统，包括待测用户获取装置、待测特征向量获取装置、测试装置及用户年龄类型确定装置，其中：

所述待测用户获取装置，用于获取待测用户，及所述待测用户的微博文本，所述待测用户为未提供年龄信息的微博用户；

所述待测特征向量获取装置，用于对所述待测用户的微博文本进行分词处理，得到待测文本词组，并按照预设规则对所述待测文本词组进行转换，得到待测特征向量；

测试装置，用于将所述待测特征向量作为预先建立的最大熵分类器的输入值，得到测试结果；

用户年龄类型确定装置，用于利用所述测试结果确定所述待测用户的用户年龄类型。

优选的，所述测试装置包括：训练用户获取模块、用户年龄类型确定模块、训练特征向量获取模块及分类器构建模块，其中：

所述训练用户获取模块，用于获取预设数量的训练用户，以及每个训练用户的年龄信息和微博文本，所述训练用户为已经提供年龄信息的微博用户；

用户年龄类型确定模块，依据所述每个训练用户的年龄信息对所述训练用户进行分类，利用分类后得到的结果确定所述每个训练用户的用户年龄类型；

所述训练特征向量获取模块，用于将所述每个训练用户的微博文本分别进行分词处理，得到分别与所述每个训练用户的微博文本对应的训练文本词组，并利用所述训练文本词组构成分别与所述每个训练用户的微博文本对应的训练特征向量；

所述分类器构建模块，用于利用所述用户年龄类型及所述训练特征向量构建最大熵分类器。

本发明提供的一种基于微博的用户年龄分类方法及系统，包括：获取待测用户，所述待测用户为未提供年龄信息的微博用户；获取所述待测用户的微博文本；对所述待测用户的微博文本进行分词处理，得到待测文本词组，并按照预设规则对所述待测文本词组进行转换，得到待测特征向量；将所述待测特征向量作为预先建立的最大熵分类器的输入值，得到测试结果；利用所述测试结果确定所述待测用户的用户年龄类型。与现有技术相比，本申请通过获取待测用户的微博文本，对其进行相关处理后利用最大熵分类器获取测试结果，以根据该测试结果确定其用户年龄类型，由此，将待测用户自身所发表的微博文本作为依据，利用最大熵分类器进行测试，能够使得所确定的待测用户的用户年龄类型更加准确，且，能够实现通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于微博的用户年龄分类方法的流程图；

图2为本发明实施例提供的一种基于微博的用户年龄分类方法中获取预设数量的训练用户的流程图；

图3为本发明实施例提供的一种基于微博的用户年龄分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种基于微博的用户年龄分类方法的流程图，可以包括以下步骤：

S11：获取待测用户，待测用户为未提供年龄信息的微博用户。

需要说明的是，微博中设置有个人资料，个人资料就包括年龄信息；微博用户可根据需要选择是否将自己的相关资料填入个人资料中。

S12:获取待测用户的微博文本。

微博文本即可以为该待测用户在其微博主页发表过的文本。

S13：对待测用户的微博文本进行分词处理，得到待测文本词组，并按照预设规则对待测文本词组进行转换，得到待测特征向量。

本申请中对微博文本进行分词处理，均可以采用分词软件FuDanNLP来实现。另外，预设规则可以由工作人员根据实际需要进行确定，也可以根据预先建立的最大熵分类器进行确定。

S14:将待测特征向量作为预先建立的最大熵分类器的输入值，得到测试结果。

S15:利用测试结果确定待测用户的用户年龄类型。

本申请通过获取待测用户的微博文本，对其进行相关处理后利用最大熵分类器获取测试结果，以根据该测试结果确定其用户年龄类型，由此，将待测用户自身所发表的微博文本作为依据，利用最大熵分类器进行测试，能够使得所确定的待测用户的用户年龄类型更加准确，且，能够实现通用性。

最大熵分类器作为机器学习分类方法中的一种，其是基于最大熵信息理论的一种分类器。最大熵分类器的基本思想是：为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，假设p(y|X)代表样本X属于类别y的概率，最大熵模型要求p(y|X)满足一定约束条件，同时必须使依据以下公式计算得到的熵取得最大值：

H (p) = - \underset{X, y}{Σ} p (y | X) \log (p (y | X))

这里H(p)代表条件熵H(y|X)，H(y|X)是一种度量条件概率p(y|X)均匀性的方法，强调对概率分布p的依赖。上述约束条件是指所有已知事实，可用以下方式表述：

其中，f(X,y)为最大熵模型的特征。可以看到：这些特征描述了向量X与类别y的联系，最终概率输出为：

p (y | X) = \frac{1}{Z (X)} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

其中，

Z (X) = \underset{y}{Σ} \exp (\underset{i}{Σ} λ_{i} f_{i} (X, y))

称为归一化因子；λ_i为特征的权重。

并且，经过实验证明，采用本发明实施例提供的基于微博的用户年龄分类方法对待测用户进行年龄分类的准确率可达到0.69及以上。

需要说明的是，上述实施例提供的一种基于微博的用户年龄分类方法中，利用测试结果确定待测用户的用户年龄类型，可以包括：

测试结果包括第一概率、第二概率及第三概率，第一概率对应的用户年龄类型为第一类，第二概率对应的用户年龄类型为第二类，第三概率对应的用户年龄类型为第三类；

对第一概率、第二概率及第三概率进行加权计算，得到计算结果，根据计算结果确定待测用户的用户年龄类型。

需要说明的是，对用户年龄类型的分类及类型数量均可以根据实际需要进行确定。

举例说明上述过程：可以将用户年龄类型分为三类，分别为70后，80后及90后，则第一概率即为该待测用户为70后的概率，第二概率即该待测用户为80后的概率，第三概率即为该待测用户为90后的概率。由此，对第一概率、第二概率及第三概率进行加权计算，则可以得到一个计算结果，根据该计算结果即可确定该待测用户的用户年龄类型。

由此，通过对第一概率、第二概率及第三概率进行加权计算，进而确定待测用户的用户年龄类型，能够使所确定的待测用户的用户年龄类型更加准确。

另外，上述实施例提供的一种基于微博的用户年龄分类方法中，最大熵分类器的预先建立过程可以包括：

获取预设数量的训练用户，训练用户为已经提供年龄信息的微博用户；

获取每个训练用户的年龄信息和微博文本；

依据每个训练用户的年龄信息对训练用户进行分类，利用分类后得到的结果确定每个训练用户的用户年龄类型；

将每个训练用户的微博文本分别进行分词处理，得到分别与每个训练用户的微博文本对应的训练文本词组，并利用训练文本词组构成分别与每个训练用户的微博文本对应的训练特征向量；

利用用户年龄类型及训练特征向量构建最大熵分类器。

需要说明的是，利用用户年龄类型及训练特征向量构建最大熵分类器，可以是基于Mallet提供的最大熵工具包利用用户年龄类型及训练特征向量构建最大熵分类器。并且，可以通过微博提供的API(Application ProgrammingInterface,应用程序编程接口)获取每个训练用户的年龄信息和微博文本。

另外，上述“利用训练文本词组构成分别与每个微博文本对应的训练特征向量”具体可以为：

提取全部训练文本词组中的所有词作为特征空间集，并对每个微博文本的训练文本词组，根据向量空间模型(Vector Space Model，VSM)构建训练特征向量。其中，向量空间模型的具体实现方法如下：

首先，将每个训练文本词组表示成由该训练文本词组中含有的所有词(每个词为一个特征项)组成的集合，即训练文本词组集：Document＝D(t₁,t₂,...,t_n)，其中t_k(1≤k≤n)是其中的特征项。例如，若一个训练文本词组包含s、t、m、n四个特征项，则此训练文本词组集可表示为Document＝D(s,t,m,n)。然后，提取训练文本词组集中的所有特征项作为特征空间。例如，若训练文本词组集共包含N个特征项，则特征空间可表示为N维坐标系：Vector＝V(t₁,t₂,t₃,...,t_N)。最后，根据得到的特征空间构建每个训练文本词组的特征向量表示。即，若训练文本词组中包含特征空间中的特征项，则将该特征项对应的坐标值设置为1，否则为0。

请参阅图2，其示出了本申请实施例提供的一种基于微博的用户年龄分类方法中获取预设数量的训练用户的流程图，可以包括以下步骤：

S21：任意选取一个微博用户作为当前确定的训练用户。

优选的，可选取关注微博用户和粉丝微博用户，即其所关注的微博用户和关注其的微博用户，较多的微博用户作为当前确定的训练用户。

S22：获取该当前确定的训练用户的关注微博用户及粉丝微博用户，并确定关注微博用户及粉丝微博用户均为训练用户。

S23：由关注微博用户及粉丝微博用户中任意选取一个微博用户作为当前确定的训练用户，返回执行步骤S22，直至训练用户的数量达到预设数量为止。

其中，预设数量可以由工作人员根据实际需要进行确定，如800或者1000等。

且，上述实施例提供的一种基于微博的用户年龄分类方法还可以包括：构建一个训练用户列表，并将其初始化为空；每获得一个训练用户，则将该训练用户添加至训练用户列表中，以供查询。

由此，能够方便工作人员在需要时对训练用户进行查询。

与上述方法实施例相对应，本申请还提供了一种基于微博的用户年龄分类系统，如图3所示，该系统可以包括待测用户获取装置31、待测特征向量获取装置32、测试装置33及用户年龄类型确定装置34，其中：

待测用户获取装置31，用于获取待测用户，及待测用户的微博文本，待测用户为未提供年龄信息的微博用户；

待测特征向量获取装置32，用于对待测用户的微博文本进行分词处理，得到待测文本词组，并按照预设规则对待测文本词组进行转换，得到待测特征向量；

测试装置33，用于将待测特征向量作为预先建立的最大熵分类器的输入值，得到测试结果；

用户年龄类型确定装置34，用于利用测试结果确定待测用户的用户年龄类型。

本申请通过上述系统获取待测用户的微博文本，对其进行相关处理后利用最大熵分类器获取测试结果，以根据该测试结果确定其用户年龄类型，由此，将待测用户自身所发表的微博文本作为依据，利用最大熵分类器进行测试，能够使得所确定的待测用户的用户年龄类型更加准确，且，能够实现通用性。

上述实施例提供一种用户年龄分类系统中，测试装置可以包括：训练用户获取模块、用户年龄类型确定模块、训练特征向量获取模块及分类器构建模块，其中：

训练用户获取模块，用于获取预设数量的训练用户，以及每个训练用户的年龄信息和微博文本，训练用户为已经提供年龄信息的微博用户；

用户年龄类型确定模块，依据每个训练用户的年龄信息对训练用户进行分类，利用分类后得到的结果确定每个训练用户的用户年龄类型；

训练特征向量获取模块，用于将每个训练用户的微博文本分别进行分词处理，得到分别与每个训练用户的微博文本对应的训练文本词组，并利用训练文本词组构成分别与每个训练用户的微博文本对应的训练特征向量；

分类器构建模块，用于利用用户年龄类型及训练特征向量构建最大熵分类器。

由此，能够保证上述系统对于最大熵分类器的正常利用，保证能够准确获得待测用户的用户年龄类型。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于微博的用户年龄分类方法，其特征在于，包括：

获取所述待测用户的微博文本；

利用所述测试结果确定所述待测用户的用户年龄类型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述测试结果确定所述待测用户的用户年龄类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述最大熵分类器的预先建立过程包括：

获取每个训练用户的年龄信息和微博文本；

4.根据权利要求3所述的方法，其特征在于，所述获取预设数量的训练用户，包括：

步骤1：任意选取一个微博用户作为当前确定的训练用户；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

构建一个训练用户列表，并将其初始化为空；

6.根据权利要求5所述的方法，其特征在于，获取每个训练用户的年龄信息和微博文本，包括：

7.一种基于微博的用户年龄分类系统，其特征在于，包括待测用户获取装置、待测特征向量获取装置、测试装置及用户年龄类型确定装置，其中：

8.根据权利要求7所述的系统，其特征在于，所述测试装置包括：训练用户获取模块、用户年龄类型确定模块、训练特征向量获取模块及分类器构建模块，其中：