CN112800225A

CN112800225A - 一种微博评论情绪分类方法和系统

Info

Publication number: CN112800225A
Application number: CN202110120528.2A
Authority: CN
Inventors: 叶宁; 查猛; 徐康; 王娟; 王甦; 汪莹; 王波; 刘雅秦; 陈鑫; 史秋彦
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-14
Anticipated expiration: 2041-01-28
Also published as: CN112800225B

Abstract

本发明公开了一种微博评论情绪分类方法和系统，属于自然语言处理技术领域，方法包括如下步骤：采集原始微博评论文本数据并进行预处理获得微博文本数据集；对微博文本数据集进行预训练；利用情绪词典选取微博文本中包含情绪的句子作为局部情绪特征；利用训练好的胶囊网络提取微博文本的整体情绪特征；对微博文本的整体情绪特征和局部情绪特征进行融合，获得该微博文本的情绪分类结果；将微博用户的所有微博文本的情绪分类结果求和取平均值，根据所述平均值确定微博用户微博评论的情绪倾向。本发明的方法和系统从局部与整体方面使用深度学习方法进行学习，能更加准确地判断微博用户的情绪倾向，能提高情绪分类准确率。

Description

一种微博评论情绪分类方法和系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种微博评论情绪分类方法和系统。

背景技术

在以微博和微信等为代表的新兴社交媒体上，人们可以自由地以微博文本、图片和视频等形式发布个人内容，进行信息交流和意见表达。对这些海量用户生成的数据进行情绪分类，将有助于达到多方面的目的，例如获取大众对于有关政策的意见、相关产品的满意程度和各种社会事件的看法等等。情绪分类，又称意见挖掘，是分类人们对于产品、服务、组织、个人、事件、主题及其属性等实体对象所怀有的意见、情绪、评价、看法和态度等主观感受的研究领域。任何可以传达人类情绪的事物都是情绪分类的研究对象，例如微博文本、图片、声音和视频等。微博情绪分类一般通过分类微博的微博文本内容来判断其情绪倾向，因而大多采用微博文本分类技术。

然而，现实中微博的内容除了微博文本之外，还具有其他多种多样的表现形式，例如包含大量的主题标签、表情符号、URL、图片和视频等，同样有助于分类微博的情绪倾向。

基于微博内容文字清晰、简洁和应用方便，越来越多的网络用户习惯于通过微博在网络上自由的发表自己的观点、意见和态度，让微博成为自己网络上的声音。例如对时事的看法和见解，对明星、名人的喜恶，对某些企业或产品的评价，甚至是本人情绪和心情的宣泄等。微博已经成为当前网络社交平台中最为流行的应用之一，不仅让人们的交流跨越了距离和时间，还提供了一个展现个性和表达情绪的网络平台。

因此，可以考虑通过微博文本对网络用户的群体感情进行分类和判别，而每时每刻产生的海量微博文本，也使得对微博情绪的分类成为可能。通过自然语言处理技术和数据挖掘技术，从微博平台产生的海量信息中准确、快速的发现情绪倾向成为当前研究的重点。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种微博评论情绪分类方法和系统，通过结合微博文本中的内容，以句子为局部，微博文本为整体，从局部与整体两个方面使用深度学习方法进行学习，能更加准确地判断用户的情绪倾向，能提高情绪分类的准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种微博评论情绪分类方法，包括如下步骤：

采集用于训练胶囊网络模型参数(Capsule Netwok)的原始微博评论文本数据，并对原始微博评论文本数据进行预处理获得微博文本数据集，所述微博文本数据集包括训练集和测试集；

对微博文本数据集进行预训练将微博文本数据集中微博文本转换成特征词向量；

利用情绪词典在待分类微博文本中选取包含情绪的句子作为局部情绪特征；

利用经训练集和测试集训练好的胶囊网络提取待分类微博文本的整体情绪特征；

对所述训练集中微博文本的整体情绪特征和局部情绪特征进行融合，获得待分类微博文本的情绪分类结果，所述情绪分类结果包括正面情绪概率和负面情绪概率；

将微博用户的所有待分类微博文本的情绪分类结果求和取平均值，根据所述平均值确定所述微博用户的情绪倾向。

进一步的，对初始微博文本数据进行预处理包括如下步骤：

采用网络爬虫采集原始微博评论文本数据，进行数据过滤以除去含有图片和特殊符号以及表情的微博评论；

采用人工标注的方式对过滤后的原始微博评论文本数据进行情绪标注形成微博文本数据集，所述情绪包括正面情绪和负面情绪；

将微博文本数据集按照4:1分为训练集和测试集。

进一步的，选取包含情绪的句子作为局部情绪特征的方法包括如下步骤：

将训练集中单个微博文本作为整体用标点符号进行句子分割，所述标点符号包括逗号、句号、分号、感叹号和问号；

再利用情绪词典选出包含情绪的句子，将选取的句子作为局部情绪特征。

进一步的，得到用于构建词汇表的特征词向量的方法包括如下步骤：

采用中文分词工具对微博文本数据集中微博文本进行分词处理；

采用word2vec工具在微博文本数据集上训练，将句子转化成对应的特征词向量矩阵，每个句子表示为：

s＝(w1,w2,w3,...wn)

其中，s表示一个句子，wn表示第n个k维实数向量的特征词向量。

进一步的，利用经训练集和测试集训练好的胶囊网络提取待分类的微博文本的整体情绪特征的方法包括如下步骤：

构建胶囊网络，所述胶囊网络包括输入层、卷积层、基础胶囊层、卷积胶囊层、全连接胶囊层、胶囊平均池化层、输出层，所述卷积层包括三种用于学习微博文本语句间的特征信息的卷积核，三种所述卷积核分别为3*300、4*300、5*300；

将所述微博文本数据集按照4:1比例拆分成训练集和测试集，利用训练集训练胶囊网络，训练过程中设置Dropout率为0.5，所述胶囊网络采用Adam算法更新网络各层的参数，迭代次数为100次；

将多个微博微博文本输入到训练好的胶囊网络中，经过卷积层提取后，将学到的局部情绪特征不经过池化层的再提取而直接存储到胶囊层中；

胶囊网络使用动态路由算法来学习特征，三种所述卷积核将学习到的特征全部映射到胶囊平均池化层。

进一步的，分别采用Max pooling、Sum pooling和Concatenation方法对待分类微博文本的整体情绪特征和局部情绪特征进行融合获得该微博文本的情绪分类结果；

在Max pooling方法中，选取概率排前K个的局部情绪特征，一个微博微博文本的情绪概率

表示如下：

其中，

为微博文本整体情绪特征的输出概率，

为第j个句子的局部情绪特征的输出概率，

和

的向量结构均为(y_pos,y_neg)，y_pos表示正面情绪的概率，y_neg表示负面情绪的概率；

在Sum pooling方法中，聚合所有局部情绪特征的概率且情绪一致的局部情绪特征的权重加强，表示如下：

其中，β是一个用于权衡局部情绪特征和整体情绪特征的超参数；

在Concatenation方法中，通过组合所有的局部情绪特征和整体情绪特征进行情绪分类，表示如下：

进一步的，根据情绪分类结果求和取平均值确定微博用户微博评论的情绪倾向的方法如下：

如果为y_pos≥y_neg，则微博用户没有抑郁症倾向，反之，如果y_pos<y_neg，则微博用户具有抑郁症倾向。

第二方面，本发明提供了一种微博评论情绪分类系统，包括如下模块：

预处理模块，用于采集原始微博评论文本数据，并对原始微博评论文本数据进行预处理获得微博文本数据集，所述微博文本数据集包括训练集和测试集；

预训练模块，用于对微博文本数据集进行预训练将微博文本数据集中微博文本转换成特征词向量；

局部情绪特征提取模块，用于利用情绪词典在经预训练的所述训练集的待分类微博文本中选取包含情绪的句子作为局部情绪特征；

整体特征提取模块，用于利用经训练集和测试集训练好的胶囊网络提取待分类微博文本的整体情绪特征；

特征融合模块，用于对所述训练集中微博文本的整体情绪特征和局部情绪特征进行融合，获得待分类微博文本的情绪分类结果，所述情绪分类结果包括正面情绪概率和负面情绪概率；

情绪分类模块，用于将微博用户的所有待分类微博文本的情绪分类结果求和取平均值，根据所述平均值确定该微博用户的情绪倾向。

第三方面，本发明提供了一种系统，包括处理器和存储介质，所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面中所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

1)本发明的方法和系统通过学习局部和整体的情绪特征对微博用户的微博评论情绪进行分类预测，较好地利用了微博文本，对于句子的情绪分类直接利用微博文本标签，极大的减少了人工标注的成本；

2)采用情绪词典选取对模型分类结果影响最大的句子，可以使得胶囊网络模型学习到有效的特征，能够由端到端直接训练和分类，避免了特征工程对分类结果带来的影响；

3)使用胶囊网络能够在微博文本数据集较小时就获得良好的特征学习，并且胶囊网络相比于卷积神经网络可以很好的学习到自然语言中的位置关系；

4)通过将一个用户的所有微博文本的情绪分类结果通过三种方法结合，得出该微博文本准确的情绪预测，并且在用户情绪分类的角度综合预测了该用户的所有评论，得到较为准确的用户情绪倾向预测。

附图说明

图1是本发明实施例提供的一种微博评论情绪分类方法的流程图；

图2是本发明实施例提供的一种微博评论情绪分类系统的框图；

图3是本发明实施例提供的一种胶囊网络的结构框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明实施例提供了一种微博评论情绪分类方法，包括如下步骤：

步骤一：采集用于训练胶囊网络的原始微博评论文本数据，并对原始微博评论文本数据进行预处理获得微博文本数据集，所述微博文本数据集包括训练集和测试集；

步骤二：对微博文本数据集中微博文本进行预训练将微博文本数据集中微博微博文本转换成word2vec特征词向量；

步骤三：利用情绪词典在经预训练的所述训练集的待分类微博文本中选取包含情绪的句子作为局部情绪特征；

步骤四：利用经训练集和测试集训练好的胶囊网络提取待分类微博文本的整体情绪特征；

步骤五：对所述微博文本数据集中待分类微博文本的整体情绪特征和局部情绪特征进行融合，获得待分类微博文本的情绪分类结果，所述情绪分类结果包括正面情绪概率和负面情绪概率；

步骤六：将所述微博文本数据集中有个微博用户的所有待分类微博文本的情绪分类结果求和取平均值，根据所述平均值确定该微博用户的情绪倾向。

具体地，在本实施例中，微博评论情绪分类方法利用局部和整体情绪特征并且基于训练好的胶囊网络对微博评论进行情绪分类，详细操作步骤如下所述。

在步骤一中，采集用于训练胶囊网络模型参数的原始微博评论文本数据，并对原始微博评论文本数据进行规范化预处理，生成预处理的微博文本数据集，微博文本数据集划分为训练集和测试集。

针对某个微博用户爬取其微博平台上微博评论数据作为原始微博评论文本数据，对采集到的原始微博评论文本数据进行预处理。

具体地，首先，采用网络爬虫采集原始微博评论文本数据，并进行数据过滤处理，除去含有图片和特殊符号以及表情的评论；

然后，采用人工标注的方式对经过滤的评论数据进行情绪标注，获得相应的微博文本标签。情绪分为两类，即正面情绪和负面情绪，如对预处理过的句子——“更博了，爆照了，帅的呀，就是越来越爱你！生快傻缺”这类正面情绪的句子，标记为1；“这点儿我就困了，我还能不能干点儿什么了”这类负面情绪的句子，标记为0，以此作为微博文本数据集；

最后，将预处理后的微博文本数据集按照一定比例为训练数据集和测试数据集，例如比例为4:1。

在步骤二中，将训练数据集中的单个微博文本作为整体用汉语的标点符号进行分割，再利用情绪词典选出包含情绪的句子，句子作为局部情绪特征。

在本实施例中，使用情绪词典标记出具有情绪倾向的句子，使得该句子可以被胶囊网络模型自动识别，句子通过标点符号分割得到，其中，标点符号如逗号、句号、分号、感叹号、问号等。

句子在胶囊网络模型中表示的是一个微博文本中的局部内容，胶囊网络模型可以学到局部内容的情绪特征并且得到相应的情绪分类概率。

如果一个微博文本可以提取出k个句子，即拥有k个局部，训练时将微博文本作为一个整体输入，胶囊网络模型会通过情绪词典自动识别出具有情绪倾向的句子并学习到其情绪分类的概率，之后，将概率按照大小选取前m个保留参与最终情绪分类预测结果的计算。

在步骤三中，构建词汇表，将微博文本数据集进行预训练，得到对应的Word2vec特征词向量。

在本实施例中，采用中文分词工具，例如分词工具jieba，对微博文本进行分词处理，并采用word2vec工具在微博文本数据集上训练，将句子转化成对应的词向量矩阵。

例如，如果一个微博文本s由n个词语构成，经分词处理之后可表示为：

s＝(w₁,w₂,w₃,...w_n)

并将每个词语w表示为k维实数向量，则最终每个句子就表示为n×k的矩阵。

在步骤四中，提取待分类微博文本的整体情绪特征：采用胶囊网络(CapsuleNetwok)提取微博文本的整体情绪特征。

在本实施例中，将单个微博文本作为一次输入，输入到胶囊网络中进行学习，得出一个以概率表示的二分类结果，设计的深度学习模型同时也可以学习到包含情绪的句子的特征，输出结果与微博文本形式相同，输出形式为{y1，y2}，其中，y1为正面情绪，y2为负面情绪。

提取微博文本的整体情绪特征的具体方法包括如下步骤：

A：构建胶囊网络

为了提取出微博微博文本中局部与整体的情绪特征，本发明技术方案构建了胶囊网络，如图3所示，胶囊网络包括输入层、卷积层、基础胶囊层、卷积胶囊层、全连接胶囊层、胶囊平均池化层、输出层。在卷积层使用了三种卷积核，分别为3*300、4*300、5*300，用三种卷积核是为了模型可以更好的学习微博文本语句间的特征信息。

B：训练胶囊网络

将微博评论的微博文本数据集按照4:1比例拆分成训练集和测试集，在训练集上训练胶囊网络，训练过程中为了防止过拟合，设置Dropout率为0.5，即每次迭代中随机放弃一部分训练参数，脑囊网络采用Adam算法更新网络各层的参数，迭代次数为100次。在胶囊网络模型达到一定准确率之后对该模型使用测试集进行测试，检查模型的预测准确率。

C：利用训练好的胶囊网络模型提取微博文本情绪特征

将m个n*k维矩阵表示的微博文本输入到训练好的胶囊网络中，经过卷积层提取后，学到的局部情绪特征不经过池化层再提取，而是直接存储到胶囊层中，这样就可以更好的保留词语间的位置特征。之后，胶囊网络使用动态路由算法来学习特征，与此同时，本发明实施例的胶囊网络模型会保留之前标记情绪句子的特征。最后，三种卷积核学习到的特征全部映射到胶囊平均池化层。

在步骤五中，单个微博文本的整体情绪特征与以句子为局部情绪特征具有同样的词向量表示，结合学习到的整体与局部情绪特征，可以用三种方法得出单个待分类微博文本最终的情绪分类预测结果。

在本实施例中，对于每一个局部情绪特征和整体情绪特征，通过胶囊网络都可以获得一个两维的情绪分类预测结果，这些两维的向量将被聚合来得到该待分类微博文本最终的情绪分类预测结果。

本发明实施例考虑了三种方法策略，分别为Max pooling、Sum pooling和Concatenation。

在Max pooling中，高概率的局部情绪特征将被保留，低概率的局部情绪特征将被忽略。一个微博微博文本的情绪概率

定义如下：

其中，

为微博文本整体特征的输出概率，

为第j个句子的局部情绪特征的输出概率，本技术方案选取排前K个的局部情绪特征，

和

有相同的向量结构，结构为(y_pos,y_neg)，其中y_pos表示正面情绪的概率，y_neg表示负面情绪的概率。

在Sum pooling中，聚合了所有局部情绪特征的概率，其中情绪一致的局部情绪特征的权重会被加强，定义如下：

其中，β是一个用于权衡局部情绪特征和整体情绪特征的超参数。

在Concatenation中，通过局部情绪特征和整体情绪特征来得到情绪分类预测，是一个简单却高效的方法，定义如下：

以上三种方法是单独的，每一种方法都是对局部和整体情绪特征进融合，通过级联所有的预测结果来产生最终的情绪预测，在设计时就保证了所有的预测结果形式一致，从而可以使用SVM算法对这些特征进行分类。

在步骤六中，将一个微博用户的所有待分类微博文本进行预测，最后由每一微博文本的预测结果求和取平均得出该微博用户的情绪分类结果，以此来判断该名微博用户是否具有抑郁症倾向。

在步骤五中得出了一名微博用户的单个待分类微博文本情绪分类结果，在最后预测时只需要将每一微博文本情绪分类结果加和取平均，即可得到该名用户的情绪倾向。

具体地，如果为y_pos≥y_neg，那么该名微博用户没有抑郁症倾向，反之，如果y_pos<y_neg，那么该名微博用户具有抑郁症倾向。

如图2所示，本发明实施例还提供了一种微博评论情绪分类系统，该系统包括如下模块：

预处理模块，用于采集微博评论原始微博评论文本数据，并对原始微博评论文本数据进行预处理获得微博文本数据集，所述微博文本数据集包括训练集和测试集；

预训练模块，用于对微博文本数据集中微博文本进行预训练将微博文本数据集中微博文本转换成word2vec特征词向量；

局部情绪特征提取模块，用于利用情绪词典在经预训练的所述训练集的微博文本中选取包含情绪的句子作为局部情绪特征；

特征融合模块，用于对所述待分类微博文本的整体情绪特征和局部情绪特征进行融合，获得待分类微博文本的情绪分类结果，所述情绪分类结果包括正面情绪概率和负面情绪概率；

情绪分类模块，用于将微博文本数据集中所有待分类微博文本的情绪分类结果求和取平均值，根据所述平均值确定微博用户的情绪倾向。

本发明实施例还提供了一种系统，包括处理器和存储介质，所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行上述微博评论情绪分类方法的步骤。

结合上述实施例，本发明实施例提供的微博评论情绪分类方法和系统于现有技术相比具有如下有益效果：

1)本发明的方法和系统通过学习局部和整体的情绪特征对微博用户的微博评论情绪进行分类预测，较好地利用了微博文本信息，对于句子的情绪分类直接利用微博文本标签，极大的减少了人工标注的成本；

2)采用情绪词典选取对模型训练影响最大的句子，可以使得胶囊网络模型学习到有效的特征，能够由端到端直接训练和分类，避免了特征工程对分类结果带来的影响；

4)通过将句子的局部情绪特征与微博文本的整体情绪特征通过三种方法结合，得出该微博文本准确的情绪预测，并且在用户情绪分类的角度综合预测了该用户的所有微博文本，得到较为准确的用户情绪分类预测。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种微博评论情绪分类方法，其特征在于，包括如下步骤：

采集用于训练胶囊网络模型参数的原始微博评论文本数据，并对原始微博评论文本数据进行预处理获得微博文本数据集，所述微博文本数据集包括训练集和测试集；

对微博文本数据集进行预训练将微博文本转换成特征词向量；

利用情绪词典选取待分类微博文本中包含情绪的句子作为局部情绪特征；

利用经所述训练集和测试集训练好的胶囊网络提取待分类微博文本的整体情绪特征；

对待分类微博文本的整体情绪特征和局部情绪特征进行融合，获得待分类微博文本的情绪分类结果，所述情绪分类结果包括正面情绪概率和负面情绪概率；

2.根据权利要求1中所述的微博评论情绪分类方法，其特征在于，对初始微博文本数据进行预处理包括如下步骤：

将微博文本数据集按照4:1分为训练集和测试集。

3.根据权利要求1中所述的微博评论情绪分类方法，其特征在于，选取包含情绪的句子作为局部情绪特征的方法包括如下步骤：

再利用情绪词典选出一个微博文本中包含情绪的句子，将选取的句子作为局部情绪特征。

4.根据权利要求1中所述的微博评论情绪分类方法，其特征在于，得到用于构建词汇表的特征词向量的方法包括如下步骤：

采用中文分词工具对微博文本数据集进行分词处理；

采用word2vec工具在微博文本数据集上训练，将一个句子转化成对应的特征词向量矩阵，每个句子表示为：

s＝(w1,w2,w3,...wn)

5.根据权利要求1中所述的微博评论情绪分类方法，其特征在于，利用经训练集和测试集训练好的胶囊网络提取各个待分类微博文本的整体情绪特征的方法包括如下步骤：

将多个微博文本输入到训练好的胶囊网络中，经过卷积层提取后，将学到的局部情绪特征不经过池化层的再提取而直接存储到胶囊层中；

胶囊网络使用动态路由算法来学习整体情绪特征，三种所述卷积核将学习到的特征全部映射到类胶囊层。

6.根据权利要求4中所述的微博评论情绪分类方法，其特征在于，分别采用Maxpooling、Sum pooling和Concatenation方法对一个待分类微博文本的整体情绪特征和局部情绪特征进行融合获得该微博文本的情绪分类结果；

在Max pooling方法中，选取概率排前K个的局部情绪特征，一个微博用户的情绪分类结果

表示如下：

其中，

为一个微博文本的整体情绪特征的输出概率，

为第j个句子的局部情绪特征的输出概率，

和

7.根据权利要求6中所述的微博评论情绪分类方法，其特征在于，根据情绪分类结果求和取平均值确定微博用户的情绪倾向的方法如下：

8.一种微博评论情绪分类系统，其特征在于，包括如下模块：

预训练模块，用于对微博文本数据集进行预训练将微博文本转换成特征词向量；

局部情绪特征提取模块，用于利用情绪词典在待分类微博文本中选取包含情绪的句子作为局部情绪特征；

整体特征提取模块，用于利用经所述训练集和测试集训练好的胶囊网络提取待分类微博文本的整体情绪特征；

特征融合模块，用于对待分类微博文本的整体情绪特征和局部情绪特征进行融合，获得待分类微博文本的情绪分类结果，所述情绪分类结果包括正面情绪概率和负面情绪概率；

情绪分类模块，用于将微博用户的所有待分类微博文本的情绪分类结果求和取平均值，根据所述平均值确定所述微博用户的情绪倾向。

9.一种系统，其特征在于，包括处理器和存储介质，所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行权利要求1-7中任一项所述方法的步骤。