CN105573983A

CN105573983A - 基于主题模型的微博用户情绪层次化分类方法和分类系统

Info

Publication number: CN105573983A
Application number: CN201510957386.XA
Authority: CN
Inventors: 徐华; 张帆
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2016-05-11

Abstract

本发明公开了一种基于主题模型的微博用户情绪层次化分类方法和分类系统，分类方法包括S1：获取微博内容并进行预处理得到待分类词语，其中，所述待分类词语为副词、动词和形容词之中的一种或多种；S2：对所述待分类词语进行特征降维；以及S3：对特征降维后的待分类词语按照层次分类模型进行微博内容的情绪分类，其中，所述层次分类模型中所有层的节点为代表某种情绪的词语。本发明具有如下优点：设计了层次分类框架，并根据微博博文短文本的结构特点，采用了LDA这种概率生成模型来刻画数据进而进行特征降维和抽取。符合文本特点的模块引用提高了分类的准确性，获得了较好的分类结果。

Description

基于主题模型的微博用户情绪层次化分类方法和分类系统

技术领域

本发明涉及计算机应用机器学习领域，具体涉及一种基于主题模型的微博用户情绪层次化分类方法和分类系统。

背景技术

微博作为一个新兴的网络社交平台，具有用户群体庞大，对社会热点话题敏锐，数据资源丰富多样等特点。新浪微博作为流行的中文社交网络平台，其用户评论信息对学业界和工业界来说都是宝贵的研究资料。近年来多项关于新浪微博评论的创新研究发表。微博用户信息分析在用户流行主题发现、用户信息提取、用户观点挖掘以及标签推荐、用户情绪分析等应用上存在着巨大的挖掘潜力。本系统着重研究微博用户的情绪分析。情绪分析对于线上用户对于产品的反馈、话题的流行、舆论的分析有着较优的辅助作用，并广泛应用于执法部门监控、正向舆论导向、产品使用分析、流行趋势预测等具体应用领域。结合新浪微博的流行应用平台，能十分有效地反应用户的对于某具体事物的具体观点，具有实时性、话题敏感性和多变性的特点。情感分析作为自然语言处理的重要组成部分，也是人工智能中的一个重要研究领域。同时，由于流行平台数据的多变性和数据规模的庞大，基于在线数据的情绪分类一直是研究的热点和难点。网络用语、社会话题的快速流行和消亡往往要求在线情绪分析模型具有良好的应激性及对于新用语的敏感性和适应性，这在机器学习领域尚是个研究热点。同时，微博博文由于其字数的限制，一个微博文本所能反映的信息量相对长文本较少，对于这种短文本的特征提取和主题发现同样是个研究热点和难点。然而，微博用户信息分析蕴含的极大的研究价值仍表明，这是个值得探索的领域。情绪分析作为自然语言处理乃至文本处理的重要组成部分，对其基于微博用户评论的层次分类是十分必要和具有应用价值的。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种基于主题模型的微博用户情绪层次化分类方法。

本发明的第二个目的在于提出一种基于主题模型的微博用户情绪层次化分类系统。

为了实现上述目的，本发明的实施例公开了一种基于主题模型的微博用户情绪层次化分类方法，包括以下步骤：S1：获取微博内容并进行预处理得到待分类词语，其中，所述待分类词语为副词、动词和形容词之中的一种或多种；S2：对所述待分类词语进行特征降维；以及S3：对特征降维后的待分类词语按照层次分类模型进行微博内容的情绪分类，其中，所述层次分类模型中所有层的节点为代表某种情绪的词语。

根据本发明实施例的基于主题模型的微博用户情绪层次化分类方法，设计了层次分类框，并根据微博博文短文本的结构特点，采用了LDA这种概率生成模型来刻画数据进而进行特征降维和抽取。符合文本特点的模块引用提高了分类的准确性，获得了较好的分类结果。

另外，根据本发明上述实施例的基于主题模型的微博用户情绪层次化分类方法，还可以具有如下附加的技术特征：

进一步地，对所述微博内容进行预处理包括数据去重、删除无关内容、时间离散化对齐和数据标注。

进一步地，使用潜在的狄利克雷分布模型进行特征降维。

进一步地，所述层次分类模型中父节点使用支持向量机实现情绪的二分类。

为了实现上述目的，本发明的实施例公开了一种基于主题模型的微博用户情绪层次化分类系统，包括：数据获取模块，用于获取微博数据；预处理模块，用于对获取的微博数据进行预处理得到待分类词语，其中，所述待分类词语为副词、动词和形容词之中的一种或多种；特征降维模块，用于对所述待分类词语进行特征降维；以及层次分类模型，用于特征降维后的待分类词语进行情绪分类，其中，所述层次分类模型中所有层的节点为代表某种情绪的词语。

根据本发明实施例的基于主题模型的微博用户情绪层次化分类系统，设计了层次分类框架，并根据微博博文短文本的结构特点，采用了LDA这种概率生成模型来刻画数据进而进行特征降维和抽取。符合文本特点的模块引用提高了分类的准确性，获得了较好的分类结果。

另外，根据本发明上述实施例的基于主题模型的微博用户情绪层次化分类系统，还可以具有如下附加的技术特征：

进一步地，所述预处理模块对所述微博数据进行预处理的内容包括数据去重、删除无关内容、时间离散化对齐和数据标注。

进一步地，所述特征降维模块为潜在的狄利克雷分布模型。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于主题模型的微博用户情绪层次化分类方法的流程图；

图2是本发明一个实施例的基于主题模型的微博用户情绪层次化分类系统的结构示意图；

图3是本发明一个实施例的层次分类模型的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

以下结合附图描述根据本发明实施例的基于主题模型的微博用户情绪层次化分类方法。

图1是本发明一个实施例的基于主题模型的微博用户情绪层次化分类方法的流程图。请参考图1，基于主题模型的微博用户情绪层次化分类方法包括：

S1：获取微博内容并进行预处理得到待分类词语。其中，所述待分类词语为副词、动词和形容词之中的一种或多种。

在本发明的一个实施例中，对所述微博内容进行预处理包括数据去重、删除无关内容、时间离散化对齐和数据标注。通过以上四个步骤，可以得噪声较小，相关度比较高的处理后的数据集。

由于获取的数据均直接由微博原始数据不加筛选的直接导出，因此每条记录十分详细。这就会带来两方面的影响：首先，可以得到充足的用户信息，了解每个时刻用户信息的变迁；但是，另一方面原始记录中也存在许多相互重复的信息以及和预测目标无关的无用信息，这些信息会造成最后模型参数激增，使得模型训练变得更加困难。

另一方面，微博用户评论是一个糅合了多种语言形式的文本，例如网络流行语、网络用语缩写、网页链接和表情符号等。有些数据类型明显与情绪分类无关，因此需要对数据进行清洗和筛选。例如将网页链接、话题标签、位置信息以及重复的子句将被删除，网络流行语及网络缩写在遍历了用语词典后仍找不到的提醒人工标注，表情符号以文字代替。

S2：对所述待分类词语进行特征降维。

在本发明的一个实施例中，使用潜在的狄利克雷分布模型进行特征降维。

具体地，潜在的狄利克雷分布(LatentDirichletAllocation，LDA)，是一种层次的贝叶斯模型。其主要思想是将计算出文本中每个词在预先设定好的主题下的概率，并通过阈值限定筛选出有用的特征及过滤掉无用的噪声数据。假设文本中每个词w都具其唯一的主题z，其优化目标如下所示：

\Pr o (z, w, θ | α, β) = \Pr o (θ | α) Π_{n = 1}^{N} [\Pr o (z_{n} | θ) \Pr o (w_{n} | z_{n}, β)]

其中z表示主题，w表示文本中的单词，θ表示满足以α为超参数的狄利克雷分布，N表示文本的单词数。因此，求解有用的特征词的概率问题就转换成了求解文档～主题的分布和主题～词汇的分布的问题，而这两个问题在给定文本集的前提下是可统计计算的，并在每个主题下将文本词汇按条件概率排序。

由此可知，通过设定不同的阈值适当保留前若干个高概率词汇，完成特征筛取和降维。其主要流程可以用以下几个步骤说明：初始特征空间为空；每次挑选一个特征，计算在当前特征(主题)下每个词的条件概率；根据阈值重复第2步，直到选择了足够维度的特征。

S3：对特征降维后的待分类词语按照层次分类模型进行微博内容的情绪分类，其中，所述层次分类模型中所有层的节点为代表某种情绪的词语。

在本发明的一个实施例中，所述层次分类模型中父节点使用支持向量机实现情绪的二分类。

具体地，层次分类模型如图2所示，本系统基于广泛应用的六情感分类上细化分类为十九种。本层次分类框架共有四层，每层对应不同的情绪分类细度并从上向下逐一详尽。每一层的分类器均由单一的支持向量机构成，每层的分类结果又作为下一层的训练数据。第一层是最原始的情绪分类：有情绪/无情绪；第二层是二元情绪分类：正向情绪/负向情绪；第三层是目前使用最广的六情绪分类：喜、乐、哀、惊、惧、怒；第四层是本系统提出的更细化的分类，分为喜爱、祝愿、信任、平静等19种。在此层次化结构模型中，每个非叶子结点都有自己的子结点及父结点，即对应的每种情绪都可向上的回溯到自己的父情绪。

在每一层中，使用单一的支持向量机完成“是\否”是该情绪的二分类问题，并将每层的支持向量机结合起来形成一个层次化的分类结构。之所以选择层次化分类模型，是因为在微博相关文本中，用户往往倾向于表达固定几种情绪。因此这几种情绪的语料占整体语料的比重较多，其他情绪的机器学习资源相对不充足。为了每种情绪能够得到相对“纯净”的学习语料，通过父结点的情绪分类将一些无关该情绪的其他语料剔除，能够大大提高分类器的学习能力节省学习时间并获得相对纯净的训练语料。同时，这种层次分类方法能够使用户在不同层面看到文本的情绪分类情况，满足用户不同层面的科研或商用需求。支持向量机要求分类间隔最大，实际上是对推广能力的控制。

以下结合附图描述根据本发明实施例的基于主题模型的微博用户情绪层次化分类系统。

图3是本发明一个实施例的基于主题模型的微博用户情绪层次化系统的结构示意图。请参考图3，基于主题模型的微博用户情绪层次化分类系统200包括：数据获取模块210、预处理模块220、特征降维模块230和层次分类模型240。

数据获取模块210，用于获取微博数据。

预处理模块220，用于对获取的微博数据进行预处理得到待分类词语，其中，所述待分类词语为副词、动词和形容词之中的一种或多种。

特征降维模块230，用于对所述待分类词语进行特征降维。

\Pr o (z, w, θ | α, β) = \Pr o (θ | α) Π_{n = 1}^{N} [\Pr o (z_{n} | θ) \Pr o (w_{n} | z_{n}, β)]

层次分类模型240，用于特征降维后的待分类词语进行情绪分类，其中，所述层次分类模型240中所有层的节点为代表某种情绪的词语。

另外，本发明实施例的基于主题模型的微博用户情绪层次化分类方法和分类系统的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种基于主题模型的微博用户情绪层次化分类方法，其特征在于，包括以下步骤：

S1：获取微博内容并进行预处理得到待分类词语，其中，所述待分类词语为副词、动词和形容词之中的一种或多种；

S2：对所述待分类词语进行特征降维；以及

2.根据权利要求1所述的基于主题模型的微博用户情绪层次化分类方法，其特征在于，对所述微博内容进行预处理包括数据去重、删除无关内容、时间离散化对齐和数据标注。

3.根据权利要求1所述的基于主题模型的微博用户情绪层次化分类方法，其特征在于，使用潜在的狄利克雷分布模型进行特征降维。

4.根据权利要求1所述的基于主题模型的微博用户情绪层次化分类方法，其特征在于，所述层次分类模型中父节点使用支持向量机实现情绪的二分类。

5.一种基于主题模型的微博用户情绪层次化分类系统，其特征在于，包括：

数据获取模块，用于获取微博数据；

预处理模块，用于对获取的微博数据进行预处理得到待分类词语，其中，所述待分类词语为副词、动词和形容词之中的一种或多种；

特征降维模块，用于对所述待分类词语进行特征降维；以及

层次分类模型，用于特征降维后的待分类词语进行情绪分类，其中，所述层次分类模型中所有层的节点为代表某种情绪的词语。

6.根据权利要求5所述的基于主题模型的微博用户情绪层次化分类系统，其特征在于，所述预处理模块对所述微博数据进行预处理的内容包括数据去重、删除无关内容、时间离散化对齐和数据标注。

7.根据权利要求5所述的基于主题模型的微博用户情绪层次化分类系统，其特征在于，所述特征降维模块为潜在的狄利克雷分布模型。

8.根据权利要求5所述的基于主题模型的微博用户情绪层次化分类系统，其特征在于，所述层次分类模型中父节点使用支持向量机实现情绪的二分类。