CN112632272B

CN112632272B - 基于句法分析的微博情感分类方法和系统

Info

Publication number: CN112632272B
Application number: CN202011127304.6A
Authority: CN
Inventors: 季白杨; 郑晓辉
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-07-19
Anticipated expiration: 2040-10-20
Also published as: CN112632272A

Abstract

一种基于句法分析的微博情感分类方法，包括：S1：获取用于情感分析的微博短文本，根据情感极性进行文本类别标注并划分为训练集和测试集；S2：分别对训练集和测试集进行数据预处理；S3：对预处理后的每个样本进行依存句法分析，结合外部情感特征词典构建特征词库；S4：根据预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展，使用TFIDF计算每个特征词的特征权值并向量化表示文本；S5：根据所述扩展后的训练样本集训练贝叶斯分类器，根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果。本发明还包括基于句法分析的微博情感分类系统。

Description

基于句法分析的微博情感分类方法和系统

技术领域

本发明涉及中文短文本分类技术领域，尤其是涉及一种基于句法分析的微博情感分类方法和系统。

背景技术

作为当代最热门的社交软件之一，微博从发展至今拥有了上亿的用户群，由于微博信息发布速度快、传播范围广，成为了最受民众欢迎社交网络平台。在微博上，每一个人都可以畅所欲言，发表一些生活动态以及对时事新闻、娱乐八卦的看法，同时也可以快速获取我们想要了解的信息。微博传播的高效性、实时性在为我们带来了便利的同时，也会给社会带来一些消极负面的影响。

微博短文本的情感分析，重点在于通过文本中包含的立场、观点、态度等主观信息对微博正负情感倾向性进行判断，实质上是一种中文短文本的分类问题。微博由于文本字数的限制(最多不超过140字)，导致文本信息内容简短、情感特征稀疏，使得难以对其进行高效的分类。目前，微博情感分析的分类方法主要有两类：一类是基于外部语料库的方法，通过引入外部语料库对微博情感特征进行语义特征扩展，虽然能提高分类效果，但是很大程度上依赖于语料库的质量；另一类是基于深度学习的分类方法，使用深度学习模型进行情感分类，分类模型的好坏取决于微博情感特征的提取。

因此，对微博短文本的情感分析问题进行研究，提供一种高效快速的微博情感分类方法和系统，具有重要的研究意义和实用价值，有助于网络监管、舆情发现、杜绝网络暴力、维护一个清明纯净的网络空间。

发明内容

本发明的目的在于克服现有技术中所存在的上述缺点和不足，提供一种基于句法分析的微博情感分类方法和系统。本发明有效利用句法依存关系对微博短文本进行情感特征提取，再借助于外部的情感词库进行特征扩展后，有效解决了微博短文本情感特征稀疏导致分类效果不佳的缺陷。

为了实现上述发明目的，本发明提供了以下技术方案：

本发明提供了一种基于句法分析的微博情感分类方法，该方法包含以下实现步骤：

S1：获取用于情感分析的微博短文本，根据情感极性进行文本类别标注并划分为训练集和测试集；

S2：分别对训练集和测试集进行数据预处理，包括中文分词、去停用词等；

S3：对预处理后的每个样本进行依存句法分析，得到依存句法树；根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择，提取出具有明显情感倾向性的词汇作为初始特征集合，并结合外部情感特征词典构建特征词库；

S4：根据预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展，使用TFIDF计算每个特征词的特征权值并向量化表示文本；

S5：根据所述扩展后的训练样本集训练贝叶斯分类器，得到贝叶斯分类模型；根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果。

进一步地，所述步骤S1具体包含：

S11：在新浪微博等社交平台上，通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据；

S12：将获取的文本数据进行数据清洗：删除空文本等无效样本数据，并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据，为保证样本的多样性，处理后的样本数量不少于10000条；

S13：根据微博文本内容，对每个微博样本的情感正负倾向性进行类别标注，微博情感主要划分为积极、中性以及消极三种情感类别；举例说明具体的微博情感类别，例如：“今年中秋国庆凑一块了，连休八天，真好！终于不用上班可以出去玩了！”该微博包含了开心快乐的情感，应划分为积极情感一类。

S14：将微博短文本数据按3：1划分为训练集和测试集，训练集用于训练分类模型，测试集用于验证分类模型的有效性。

进一步地，所述步骤S2具体包含：

S21：利用中文分词工具如jieba、PkuSeg、HanLP等，分别对训练集和测试集进行中文分词处理，并标注词性；

S22：根据预先建立的停用词表，剔除文本数据中出现的停用词，即一些无实际意义的字词(如“的”、“和”、“由于”等高频词)、标点以及特殊符号。

进一步地，所述步骤S3具体包含：

S31：训练集数据以句子为单位，利用句法分析工具(如Stanford句法分析) 进行句法依存分析，得到文本的句法依存结构即依存关系，以及依存句法树；

S32：根据句法依存关系采用基于句法路径的匹配算法进行微博情感特征选择，提取出具有明显情感倾向性的词汇作为初始特征集合；

S33：结合外部情感特征词典，如知网情感词典、大连理工大学情感词汇本体库等，利用初始特征集合构建情感特征词库，用于扩展微博短文本的情感特征；

进一步地，所述步骤S4具体包含：

S41：根据所述预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展；

S42：使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值，TFIDF的具体计算公式为：

其中n_ij表示某一类别d_j中字词w_i出现的次数，而

表示在该类d_j中所有字词出现的次数之和，|D|表示语料库中的类目总数，|{j:w_j∈d_j}|表示包含字词w_i的类目数。

S43：根据所述特征权值即ITIDF值，将训练集和测试集文本以向量化形式进行文本表示。

进一步地，所述步骤S5具体包含：

S51：通过扩展后的训练样本集训练贝叶斯分类器，得到贝叶斯分类模型；

S52：根据所述分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果。

此外，本发明还提供了一种基于句法分析的微博情感分类系统，所述系统包括：

数据获取模块，用于在新浪微博等社交平台上利用爬虫软件获取微博文本数据，根据微博内容进行情感标注并划分为训练集和测试集；

数据预处理模块：用于对微博文本数据进行预处理，包括文本清洗、中文分词以及去停用词等；

特征提取模块：用于分别对训练集和测试集进行特征提取，主要包括：

句法依存分析子模块：用于利用句法分析工具分别对训练集和测试集进行句法依存分析，获取依存句法树；

特征选择子模块：根据依存句法树，采用基于句法路径的匹配算法进行情感特征提取，选择具有明显情感倾向性的词汇作为初始情感特征集合；

特征词库构建子模块：结合外部情感特征词典，以及所述初始情感特征集合构建情感特征词库，用于扩展短文本的情感特征；

特征扩展模块：用于根据所述特征词库对文本进行特征扩展，使用IFTIDF 计算特征权值并向量化表示文本；

情感分类模块：用于通过扩展后的训练集训练分类器，得到贝叶斯分类模型，再对扩展后的测试集进行分类操作得到微博情感分类结果。

优选地，数据获取模块具体包括：

微博短文本数据爬取子模块：在新浪微博等社交平台上，通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据。

文本数据清晰子模块：将获取的文本数据进行数据清洗：删除空文本等无效样本数据，并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据，为保证样本的多样性，处理后的样本数量不少于10000条。

微博样本的情感正负倾向性类别标注子模块：根据微博文本内容，对每个微博样本的情感正负倾向性进行类别标注，微博情感主要划分为积极、中性以及消极三种情感类别。举例说明具体的微博情感类别，例如：“今年中秋国庆凑一块了，连休八天，真好！终于不用上班可以出去玩了！”该微博包含了开心快乐的情感，应划分为积极情感一类。

训练集和测试集划分子模块：将微博短文本数据按3：1划分为训练集和测试集，训练集用于训练分类模型，测试集用于验证分类模型的有效性。

优选地，数据预处理模块具体包含：

中文分词处理子模块：通过jieba分词工具分别对训练集和测试集进行中文分词处理，并标注词性；

停用词剔除子模块：根据预先建立的停用词表，剔除文本数据中出现的停用词，即一些无实际意义的字词、标点以及特殊符号。

优选地，句法依存分析子模块具体包括：

训练集数据以句子为单位，利用Stanford句法分析工具进行句法依存分析，得到文本的句法依存结构(即依存关系)，以及依存句法树。

依存句法通过词汇之间的依存关系表达整个句子结构，这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树，树的根节点为句子核心谓词，用来表达整个句子的核心内容。依存句法分析树标注集及其含义如下表1：

表1依存句法分析树标注集及其含义

优选地，特征扩展模块具体包括：

特征扩展子模块：根据所述预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展；

特征权值计算子模块：使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值，TFIDF的具体计算公式为：

其中n_ij表示某一类别d_j中字词w_i出现的次数，而

表示在该类d_j中所有字词出现的次数之和，|D|表示语料库中的类目总数，|{j:w_j∈d_j}|表示包含字词w_i的类目数；

文本表示子模块：根据所述特征权值即ITIDF值，将训练集和测试集文本以向量化形式进行文本表示：文本d可以表示为若干个情感特征及其权值的集合 d＝(w₁,w₂,…,w_n)，wi为情感特征词w的特征权值。

优选地，情感分类模块具体包括：

朴素贝叶斯分类器训练子模块：通过扩展后的训练样本集训练朴素贝叶斯分类器，得到微博情感分类模型；

测试样本分类子模块：根据所述分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果。

本发明与现有技术相比，具有如下优点和效益：

传统仅依靠特征词库进行特征选择的方法，忽略了文本之间的句法关系，分类效果不佳。上述微博情感分类方法，通过基于句法分析的情感特征提取方法，有效利用句子的句法依存关系提取微博短文本的情感特征，再结合外部情感词典构建特征词库用于扩展文本特征，有效解决了短文本特征稀疏带来的分类效果不好的问题；本方法与现有技术相比，分类效果更好、分类准确率更高。

附图说明

图1为本发明实施例的一种基于句法分析的微博情感分类方法的实现过程示意图。

图2为本发明实施例的一种基于句法分析的微博情感分类系统的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细说明。

本发明提供一种基于句法分析的微博情感分类方法和系统，该方法有效利用句法依存关系对微博短文本进行情感特征提取，再借助情感词库进行特征扩展后，有效解决了微博短文本特征稀疏导致情感分类效果不佳的缺陷。

为了实现上述发明目的，本发明提供了如图1所示的以下技术方案：

S4：根据所述预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展，使用TFIDF计算每个特征词的特征权值并向量化表示文本；

S5：通过扩展后的训练样本集训练贝叶斯分类器，得到贝叶斯分类模型；根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果。

进一步地，所述步骤S1具体包含：

S11：在新浪微博等社交平台上，通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据。

S12：将获取的文本数据进行数据清洗：删除空文本等无效样本数据，并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据，为保证样本的多样性，处理后的样本数量不少于10000条。

S13：根据微博文本内容，对每个微博样本的情感正负倾向性进行类别标注，微博情感主要划分为积极、中性以及消极三种情感类别。举例说明具体的微博情感类别，例如：“今年中秋国庆凑一块了，连休八天，真好！终于不用上班可以出去玩了！”该微博包含了开心快乐的情感，应划分为积极情感一类。

进一步地，所述步骤S2具体包含：

S21：通过jieba分词工具分别对训练集和测试集进行中文分词处理，并标注词性。例如，对文本“知乎的内容质量很好”进行分词后，得到“(知乎，n)、(的，aux.v)、(内容，n)、(质量，n)、(很好，adv)”，其中n、aux.v、adv分别表示名词、助动词和副词。

进一步地，所述步骤S3具体包含：

S31：训练集数据以句子为单位，利用Stanford句法分析工具进行句法依存分析，得到文本的句法依存结构(即依存关系)，以及依存句法树。

表1依存句法分析树标注集及其含义

S32：根据依存句法结构，采用基于句法路径的匹配算法进行微博情感特征选择，提取出具有明显情感倾向性的词汇作为初始特征集合。句法路径是指在句法树上链接任意两个节点之间的句法结构。通过句法路径提取文本情感特征时，根据预先统计好的句法路径表进行匹配，获取文本的依存句法结构，再选择具有明显正负情感倾向性的词汇作为情感特征。

S33：结合外部情感特征词典，例如知网情感词典、大连理工大学情感词汇本体库等，利用初始特征集合构建情感特征词库，用于扩展微博短文本的情感特征。

进一步地，所述步骤S4具体包含：

S41：根据所述预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展。

S42：使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值， TFIDF的具体计算公式为：

其中n_ij表示某一类别d_j中字词w_i出现的次数，而

S43：根据所述特征权值即ITIDF值，将训练集和测试集文本以向量化形式进行文本表示：文本d可以表示为若干个情感特征及其权值的集合 d＝(w₁,w₂,…,w_n)，wi为情感特征词w的特征权值。

进一步地，所述步骤S5具体包含：

S51：通过扩展后的训练样本集训练朴素贝叶斯分类器，得到微博情感分类模型。

此外，本发明还提供了一种基于句法分析的微博情感分类系统，如图2所示，所述系统包括：

数据获取模块，用于在新浪微博等社交平台上利用爬虫软件获取微博文本数据，根据微博内容进行情感标注并划分为训练集和测试集；具体包括：

数据预处理模块：用于对微博文本数据进行预处理，包括文本清洗、中文分词以及去停用词等；具体包含：

中文分词处理子模块：通过jieba分词工具分别对训练集和测试集进行中文分词处理，并标注词性。例如，对文本“知乎的内容质量很好”进行分词后，得到“(知乎，n)、(的，aux.v)、(内容，n)、(质量，n)、(很好，adv)”，其中n、 aux.v、adv分别表示名词、助动词和副词。

停用词剔除子模块：根据预先建立的停用词表，剔除文本数据中出现的停用词，即一些无实际意义的字词(如“的”、“和”、“由于”等高频词)、标点以及特殊符号。

特征选择模块：用于分别对训练集和测试集进行特征提取，包括：

句法依存分析子模块：用于利用句法分析工具分别对训练集和测试集进行句法依存分析，获取依存句法树；具体包括：

依存句法通过词汇之间的依存关系表达整个句子结构，这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树，树的根节点为句子核心谓词，用来表达整个句子的核心内容。

依存句法分析树标注集及其含义如下表1：

表1依存句法分析树标注集及其含义

特征提取子模块：根据依存句法树，采用基于句法路径的匹配算法进行情感特征提取，选择具有明显情感倾向性的词汇作为初始情感特征集合；

句法路径是指在句法树上链接任意两个节点之间的句法结构。通过句法路径提取文本情感特征时，根据预先统计好的句法路径表进行匹配，获取文本的依存句法结构，再选择具有明显正负情感倾向性的词汇作为情感特征。

结合外部情感特征词典，例如知网情感词典、大连理工大学情感词汇本体库等，利用初始特征集合构建情感特征词库，用于扩展微博短文本的情感特征。

特征扩展模块：用于根据所述特征词库对文本进行特征扩展，使用IFTIDF 计算特征权值并向量化表示文本；具体包括：

特征扩展子模块：根据所述预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展。

其中n_ij表示某一类别d_j中字词w_i出现的次数，而

情感分类模块：用于通过扩展后的训练集训练分类器，得到贝叶斯分类模型，再对扩展后的测试集进行分类操作得到微博情感分类结果。具体包括：

朴素贝叶斯分类器训练子模块：通过扩展后的训练样本集训练朴素贝叶斯分类器，得到微博情感分类模型。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于句法分析的微博情感分类方法，包含以下步骤：

S1：获取用于情感分析的微博短文本，根据情感极性进行文本类别标注并划分为训练集和测试集；具体包含：

S11：在新浪微博社交平台上，通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据；

S12：将获取的文本数据进行数据清洗：删除空文本的无效样本数据，并通过正则表达式剔除微博短文本中包含表情、链接、图片的噪声数据；

S13：根据微博文本内容，对每个微博样本的情感正负倾向性进行类别标注，微博情感主要划分为积极、中性以及消极三种情感类别；

S14：将微博短文本数据按3：1划分为训练集和测试集，训练集用于训练分类模型，测试集用于验证分类模型的有效性；

S2：分别对训练集和测试集进行数据预处理，包括中文分词、去停用词；具体包含：

S21：利用中文分词工具，分别对训练集和测试集进行中文分词处理，并标注词性；

S22：根据预先建立的停用词表，剔除文本数据中出现的停用词，即一些无实际意义的字词、标点以及特殊符号；

S3：对预处理后的每个样本进行依存句法分析，得到依存句法树；根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择，提取出具有明显情感倾向性的词汇作为初始特征集合，并结合外部情感特征词典构建特征词库；具体包含：

S31：训练集数据以句子为单位，利用句法分析工具进行句法依存分析，得到文本的句法依存结构即依存关系，以及依存句法树；

S33：结合外部情感特征词典，利用初始特征集合构建情感特征词库，用于扩展微博短文本的情感特征；

S4：根据预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展，使用TFIDF计算每个特征词的特征权值并向量化表示文本；具体包含：

其中n_ij表示某一类别d_j中字词w_i出现的次数，而

S43：根据所述特征权值即ITIDF值，将训练集和测试集文本以向量化形式进行文本表示；

S5：根据所述扩展后的训练样本集训练贝叶斯分类器，得到贝叶斯分类模型；根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果；具体包含：

2.一种基于句法分析的微博情感分类系统，其特征在于：包括：

(1)数据获取模块，用于在新浪微博社交平台上利用爬虫软件获取微博文本数据，根据微博内容进行情感标注并划分为训练集和测试集；数据获取模块具体包括：

微博短文本数据爬取子模块：在新浪微博社交平台上，通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据；

文本数据清晰子模块：将获取的文本数据进行数据清洗：删除空文本的无效样本数据，并通过正则表达式剔除微博短文本中包含表情、链接、图片的噪声数据，为保证样本的多样性，处理后的样本数量不少于10000条；

微博样本的情感正负倾向性类别标注子模块：根据微博文本内容，对每个微博样本的情感正负倾向性进行类别标注，微博情感主要划分为积极、中性以及消极三种情感类别；

训练集和测试集划分子模块：将微博短文本数据按3：1划分为训练集和测试集，训练集用于训练分类模型，测试集用于验证分类模型的有效性；

(2)数据预处理模块：用于对微博文本数据进行预处理，包括文本清洗、中文分词以及去停用词；数据预处理模块具体包含：

停用词剔除子模块：根据预先建立的停用词表，剔除文本数据中出现的停用词，即一些无实际意义的字词、标点以及特殊符号；

(3)特征提取模块：用于分别对训练集和测试集进行特征提取，主要包括：

句法依存分析子模块：用于利用句法分析工具分别对训练集和测试集进行句法依存分析，获取依存句法树；句法依存分析子模块具体包括：

训练集数据以句子为单位，利用Stanford句法分析工具进行句法依存分析，得到文本的句法依存结构以及依存句法树；依存结构即依存关系；

依存句法通过词汇之间的依存关系表达整个句子结构，这些依存关系表达了句子各成分之间的语义依赖关系；所有词汇之间的依存关系构成一颗句法树，树的根节点为句子核心谓词，用来表达整个句子的核心内容；

(4)特征扩展模块：用于根据所述特征词库对文本进行特征扩展，使用IFTIDF计算特征权值并向量化表示文本；特征扩展模块具体包括：

其中n_ij表示某一类别d_j中字词w_i出现的次数，而

文本表示子模块：根据所述特征权值即ITIDF值，将训练集和测试集文本以向量化形式进行文本表示：文本d可以表示为若干个情感特征及其权值的集合d＝(w₁,w₂,…,w_n)，wi为情感特征词w的特征权值；

(5)情感分类模块：用于通过扩展后的训练集训练分类器，得到贝叶斯分类模型，再对扩展后的测试集进行分类操作得到微博情感分类结果；情感分类模块具体包括：