CN106294845A

CN106294845A - 基于权重学习和多特征抽取的多情绪分类方法及装置

Info

Publication number: CN106294845A
Application number: CN201610697105.6A
Authority: CN
Inventors: 徐华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-01-04
Anticipated expiration: 2036-08-19
Also published as: CN106294845B

Abstract

本发明公开了一种基于权重学习和多特征抽取的多情绪分类方法及装置，其中，方法包括以下步骤：从互联网上获取多条用户发布的微博文本；对多条微博文本进行预处理，以抽取多个词性特征词和多个句法特征词；通过权重学习融合多个词性特征词和多个句法特征词，以得到句子信息；根据句子信息训练情绪分类体系中每个节点的二分类器，以构建情绪分类体系，并通过分类体系实现情绪分类；根据分类结果得到多条用户发布的微博文本的情绪分类信息。该分类方法可以利用抽取出的词性特征和依存句法特征，并使用权重融合词性特征和依存句法特征，从而对微博用户情绪细进行分类，有效地对微博用户进行层次情绪分类。

Description

基于权重学习和多特征抽取的多情绪分类方法及装置

技术领域

本发明涉及计算机应用机器学习技术领域，特别涉及一种基于权重学习和多特征抽取的多情绪分类方法及装置。

背景技术

微博作为一个已有广大群众基础的网络社交平台，有对社会热点话题敏锐，数据资源丰富多样等特点。新浪微博作为流行的中文社交网络平台，其用户评论信息对学业界和工业界来说都是宝贵的研究资料。近年来多项关于新浪微博评论的创新研究发表。微博用户信息分析在用户观点挖掘以及标签推荐、用户情绪分析等应用上存在着巨大的挖掘潜力。相关技术中，分类系统着重研究微博用户的情绪分析。情绪分析对于线上用户对于产品的反馈、话题的流行、舆论的分析有着的辅助作用，并广泛应用于执法部门监控、正向舆论导向、产品使用分析、流行趋势预测等具体应用领域。结合新浪微博的流行应用平台，能十分有效地反应用户的对于某具体事物的具体观点，具有实时性、话题敏感性和多变性的特点。情感分析作为自然语言处理的重要组成部分，也是人工智能中的一个重要研究领域。微博用户信息分析蕴含的极大的研究价值仍表明，这是个值得探索的领域。情绪分析作为自然语言处理乃至文本处理的重要组成部分，对其基于微博用户评论的情绪分类是十分必要和具有应用价值的。

为了实现基于微博用户评论信息的层次情绪分类，需要解决三个方面的主要难题：1)短文本词性特征和句法特征的抽取。2)词性特征与句法特征的融合。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于权重学习和多特征抽取的多情绪分类方法，该方法可以有效地对微博用户进行层次情绪分类，简单易实现。

本发明的另一个目的在于提出一种基于权重学习和多特征抽取的多情绪分类装置。

为达到上述目的，本发明一方面实施例提出了一种基于权重学习和多特征抽取的多情绪分类方法，包括以下步骤：从互联网上获取多条用户发布的微博文本；对所述多条微博文本进行预处理，以抽取多个词性特征词和多个句法特征词；通过权重学习融合所述多个词性特征词和多个句法特征词，以得到句子信息；根据所述句子信息训练情绪分类体系中每个节点的二分类器，以构建所述情绪分类体系，并通过所述分类体系实现情绪分类；根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。

本发明实施例的基于权重学习和多特征抽取的多情绪分类方法，针对微博文本的内容，通过抽取词性和句法特征抽取，并且通过学习权重的方法融合了词性和句法特征，符合文本特点的模块引用提高了分类的准确性，获得了较好的分类结果，通过利用抽取出的词性特征和依存句法特征，并使用权重融合词性特征和依存句法特征，从而对微博用户情绪细进行分类，有效地对微博用户进行层次情绪分类，简单易实现。

另外，根据本发明上述实施例的基于权重学习和多特征抽取的多情绪分类方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述对所述多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。

进一步地，在本发明的一个实施例中，根据名词、动词、形容词和副词抽取所述多个词性特征词，并且根据句法结构特征抽取所述多个句法特征，其中，所述句法结构特征包括动补结构、关联结构、后附加结构、定中结构、动宾结构、主谓结构、状中结构、并列结构和核心。

进一步地，在本发明的一个实施例中，在词性抽取中，否定词与后一个词集合成一个词，以进行词向量表示之后再进行抽取。

进一步地，在本发明的一个实施例中，所述通过权重学习融合所述多个词性特征词和多个句法特征词进一步包括：运用权重和阈值将所述多个词性特征词的预测值和所述多个句法特征词的预测值相融合，以得到所述句子信息。

为达到上述目的，本发明另一方面实施例提出了一种基于权重学习和多特征抽取的多情绪分类装置，包括：获取模块，用于从互联网上获取多条用户发布的微博文本；抽取模块，用于对所述多条微博文本进行预处理，以抽取多个词性特征词和多个句法特征词；融合模块，用于通过权重学习融合所述多个词性特征词和多个句法特征词，以得到句子信息；构建模块，用于根据所述句子信息训练情绪分类体系中每个节点的二分类器，以构建所述情绪分类体系，并通过所述分类体系实现情绪分类；分类模块，用于根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。

本发明实施例的基于权重学习和多特征抽取的多情绪分类装置，针对微博文本的内容，通过抽取词性和句法特征抽取，并且通过学习权重的方法融合了词性和句法特征，符合文本特点的模块引用提高了分类的准确性，获得了较好的分类结果，通过利用抽取出的词性特征和依存句法特征，并使用权重融合词性特征和依存句法特征，从而对微博用户情绪细进行分类，有效地对微博用户进行层次情绪分类，简单易实现。

另外，根据本发明上述实施例的基于权重学习和多特征抽取的多情绪分类装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述融合模块具体用于运用权重和阈值将所述多个词性特征词的预测值和所述多个句法特征词的预测值相融合，以得到所述句子信息。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于权重学习和多特征抽取的多情绪分类方法的流程图；

图2为根据本发明一个实施例的基于权重学习和多特征抽取的多情绪分类方法的流程图；

图3为根据本发明一个实施例的求权重最优解的算法流程图；

图4为根据本发明一个实施例的求阈值最优解的算法流程图；

图5为根据本发明实施例的基于权重学习和多特征抽取的多情绪分类装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于权重学习和多特征抽取的多情绪分类方法及装置，首先将参照附图描述根据本发明实施例提出的基于权重学习和多特征抽取的多情绪分类方法。

图1是本发明实施例的基于权重学习和多特征抽取的多情绪分类方法的流程图。

如图1所示，该基于权重学习和多特征抽取的多情绪分类方法包括以下步骤：

在步骤S101中，从互联网上获取多条用户发布的微博文本。

在步骤S102中，对多条微博文本进行预处理，以抽取多个词性特征词和多个句法特征词。

其中，在本发明的一个实施例中，对多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。

进一步地，在本发明的一个实施例中，根据名词、动词、形容词和副词抽取多个词性特征词，并且根据句法结构特征抽取多个句法特征，其中，句法结构特征包括动补结构、关联结构、后附加结构、定中结构、动宾结构、主谓结构、状中结构、并列结构和核心。

另外，在本发明的一个实施例中，在词性抽取中，否定词与后一个词集合成一个词，以进行词向量表示之后再进行抽取。

需要说明的是，句子中有很多不同的特征可以体现句子的结构，其中词性特征和句法特征可以同时体现作者的某些情绪特征，这些情绪特征可以显示该句子是什么情感，便可以间接知道笔者对于某件事的看法观点或者笔者此时的心情等信息。就现在的大部分研究而言，研究者往往着重于研究词性层面特征的学习，而忽视了句法层面的信息。本模块主要是抽取词性特征：名词，形容词，副词和动词；以及句法依存特征：状中结构，后附加结构，定中结构，动宾结构，主谓结构，并列结构，动补结构，关联结构和核心等。运用这些特征来表示句子的信息。其中如果有否定词“不”，要将“不”与后面那个词合为一个词，并用新的词向量来表示。

其主要流程可以用以下几个步骤说明：S1：运用哈工大LTP-Cloud将语料中的每个句子进行分词，词性标注和句法依存分析；S2：运用word2vec学习分词后的数据集，用词向量表示每句话；S3：分别抽取词性特征和句法结构特征。

在步骤S103中，通过权重学习融合多个词性特征词和多个句法特征词，以得到句子信息。

进一步地，在本发明的一个实施例中，通过权重学习融合多个词性特征词和多个句法特征词进一步包括：运用权重和阈值将多个词性特征词的预测值和多个句法特征词的预测值相融合，以得到句子信息。

需要说明的是，对于词性特征和句法特征，每一句话有不同的向量表示方式。同时，这两种特征不是某个包含某个的关系，而是交集的关系。因此，如何将这两种不同的表示方式融合为一个并且可以运用到学习和预测中去是一个需要解决的问题。就融合而言，权重学习是一个好的方法。

举例而言，可以通过运用布尔变量进行权重区间的分值的求解，来求得最优权重g。相同的，词性特征和句法特征在求取权重最优解时可以看作是布尔变量，而最终预测的值可以看作是权重区间的分值。这种方法简单易操作，便于实验的进行和改进。其中w的最优解为正确率最高情况下求出的，且最后求出的c值通过与阈值的对比可以判断是否是特定的情绪，用此来计算准确率等评判标准。

在步骤S104中，根据句子信息训练情绪分类体系中每个节点的二分类器，以构建情绪分类体系，并通过分类体系实现情绪分类。

在步骤S105中，根据分类结果得到多条用户发布的微博文本的情绪分类信息。

举例而言，在本发明的实施例中，如图2所示，可以运用实验室原先的数据进行实验。由于数据存在于后台系统中，需要用于模型训练要先根据数据特点进行数据预处理，其中包括词向量的训练，句子处理，如分词，词性标注和句法依存分析。学习分词后的数据集，用词向量表示每句话。通过这样的初步处理，我们就可以得到后期实验可用的处理后的数据集。

进一步地，对于不同的特征，抽取方法也不同。对于词性特征而言，名词，动词，形容词和副词可以很好地体现一个人的情绪；而对于句法特征而言，比较能表现情绪如表1所示，抽取出之后便能够作为句子的信息来进行学习和预测。其中，表1为句法特征表。

表1

句法结构特征	标签表示
		动补结构	CMP
关联结构	CNJ
		后附加结构	RAD
定中结构	ATT
		动宾结构	VOB
主谓结构	SBV
		状中结构	ADV
并列结构	COO
		核心	HED

其中要注意的一点是关于否定词“不”的处理，否定词“不”会使得句子表现出与形容词相反的意思。在词性抽取中，应该将“不”与后面的词集合成一个词，进行词向量表示之后再进行抽取；在句法结构抽取中，应将“不”与后面的形容词或者动词集合成一个词，进行词向量表示之后再进行抽取。

例如，“我非常高兴。”这句话中的“非常”为副词，“高兴”为形容词，两个合起来为状中结构，可以加深笔者对于高兴这个情绪；“我们有昂扬的斗志。”这句话中，“昂扬”和“的”构成了后附加结构，同时“昂扬”和“斗志”构成了定中结构，运用了“昂扬”来修饰“斗志”，对句子进行了分析；“我们迎来了新的一年。”这句话中“我们”与“迎来”构成了主谓结构，同时“迎来”与“一年”构成了动宾结构，表示了行动发出者是谁以及发出的动作；“我们画了雄鹰，松鼠和麻雀。”这句话中，“雄鹰”，“松鼠”和“麻雀”为并列结构，表示该句中的多个主体；“球员对这个判罚不满”这句话中，“判罚”和“不满”构成动补关系，表示主体的态度，体很好地体现了主体的情绪；核心词由于每个句子差异性比较大，但是都是比较重要的词语，所以也能够很好地表现句子的一些信息，所以也把这个信息进行了抽取。

进一步地，运用权重和阈值将词性特征的预测值和句法依存结构特征的预测值相融合，用来表示句子的总体信息。

对于两个不同特征学习的数据集而言，给每个特征一个系数，即权重w，再运用公式：

w*a+(1-w)*b＝c(0<＝w<＝1)，

求得w的最优解，其中初始阈值设为0，评价函数为正确分类的百分比，w的最优解为分类正确率最大值时的w值。

首先，将数据分成三组：训练组，学习组和测试组，其中训练组占总数据的70％，学习组占10％，测试组占20％。运用SVM^Perf对训练组进行学习后，分别对学习组和测试组进行预测，令词性特征预测值为a，句法结构特征预测值为b，在初始阈值为0的情况下，运用上述公式对w进行从0到1的遍历，后一个w与前一个w的值相差0.01，可以求得某句在不同w值下的预测值c，这里的c包含了该句话的词性特征和句法特征，达到了本研究想要将词性结构和句法结构相融合的目的。若c的值大于初始阈值0且该句话原本手动标注为正，或者c小于初始阈值0且原本手动标注为负，则认为分类正确，反之，则不正确。运用上述方法求得正确率最大值后的w值即为权重最优解。

运用测试组来检验该权重是否有效。将上述方法得出的权重最优解再运用测试组的a、b值进行计算，得到测试组的c值，此时的c为该句话的预测值。对阈值从-5到5进行遍历，前一个阈值和后一个阈值香肠0.01.若c大于阈值并且该句话原本的手动标注为正，或者c小于阈值并且原本的手动标志位负，则认为分类正确，反之，则错误。将分类正确率作为评价函数，最优阈值为正确率最大情况下的阈值，如图3和图4所示。

最后，可以使用层次分类框架对微博用户情绪进行分类。对于多分类情绪问题，可以运用一对一分类方法，由于有6种情绪需要进行分类，所以设置15个二分类器，对不同的一对情绪进行学习分类，最后运用投票的方式进行最终分类，可以求出整个数据集的分类正确率。

同时由于数据的不平衡性，可以将6类情绪进行分层，数据过少的两种情绪做二分类，另外四种情绪做多分类，这样求出的正确率是最高的。

根据本发明实施例的基于权重学习和多特征抽取的多情绪分类方法，针对微博文本的内容，通过抽取词性和句法特征抽取，并且通过学习权重的方法融合了词性和句法特征，符合文本特点的模块引用提高了分类的准确性，获得了较好的分类结果，通过利用抽取出的词性特征和依存句法特征，并使用权重融合词性特征和依存句法特征，从而对微博用户情绪细进行分类，有效地对微博用户进行层次情绪分类，简单易实现。

其次参照附图描述根据本发明实施例提出的基于权重学习和多特征抽取的多情绪分类装置。

图5是本发明实施例的基于权重学习和多特征抽取的多情绪分类装置的结构示意图。

如图5所示，该基于权重学习和多特征抽取的多情绪分类装置10包括：获取模块100、抽取模块200、融合模块300、构建模块400和分类模块500。

其中，获取模块100用于从互联网上获取多条用户发布的微博文本。抽取模块200用于对多条微博文本进行预处理，以抽取多个词性特征词和多个句法特征词。融合模块300用于通过权重学习融合多个词性特征词和多个句法特征词，以得到句子信息。构建模块400用于根据句子信息训练情绪分类体系中每个节点的二分类器，以构建情绪分类体系，并通过分类体系实现情绪分类。分类模块500用于根据分类结果得到多条用户发布的微博文本的情绪分类信息。本发明实施例的分类装置10可以利用抽取出的词性特征和依存句法特征，并使用权重融合词性特征和依存句法特征，从而对微博用户情绪细进行分类，有效地对微博用户进行层次情绪分类。

进一步地，在本发明的一个实施例中，对多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。

进一步地，在本发明的一个实施例中，融合模块300具体用于运用权重和阈值将多个词性特征词的预测值和多个句法特征词的预测值相融合，以得到句子信息。

需要说明的是，前述对基于权重学习和多特征抽取的多情绪分类方法实施例的解释说明也适用于该实施例的基于权重学习和多特征抽取的多情绪分类装置，此处不再赘述。

根据本发明实施例的基于权重学习和多特征抽取的多情绪分类装置，针对微博文本的内容，通过抽取词性和句法特征抽取，并且通过学习权重的方法融合了词性和句法特征，符合文本特点的模块引用提高了分类的准确性，获得了较好的分类结果，通过利用抽取出的词性特征和依存句法特征，并使用权重融合词性特征和依存句法特征，从而对微博用户情绪细进行分类，有效地对微博用户进行层次情绪分类，简单易实现。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于权重学习和多特征抽取的多情绪分类方法，其特征在于，包括以下步骤：

从互联网上获取多条用户发布的微博文本；

对所述多条微博文本进行预处理，以抽取多个词性特征词和多个句法特征词；

通过权重学习融合所述多个词性特征词和多个句法特征词，以得到句子信息；

根据所述句子信息训练情绪分类体系中每个节点的二分类器，以构建所述情绪分类体系，并通过所述分类体系实现情绪分类；以及

根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。

2.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法，其特征在于，所述对所述多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。

3.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法，其特征在于，根据名词、动词、形容词和副词抽取所述多个词性特征词，并且根据句法结构特征抽取所述多个句法特征，其中，所述句法结构特征包括动补结构、关联结构、后附加结构、定中结构、动宾结构、主谓结构、状中结构、并列结构和核心。

4.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法，其特征在于，在词性抽取中，否定词与后一个词集合成一个词，以进行词向量表示之后再进行抽取。

5.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法，其特征在于，所述通过权重学习融合所述多个词性特征词和多个句法特征词进一步包括：

运用权重和阈值将所述多个词性特征词的预测值和所述多个句法特征词的预测值相融合，以得到所述句子信息。

6.一种基于权重学习和多特征抽取的多情绪分类装置，其特征在于，包括：

获取模块，用于从互联网上获取多条用户发布的微博文本；

抽取模块，用于对所述多条微博文本进行预处理，以抽取多个词性特征词和多个句法特征词；

融合模块，用于通过权重学习融合所述多个词性特征词和多个句法特征词，以得到句子信息；

构建模块，用于根据所述句子信息训练情绪分类体系中每个节点的二分类器，以构建所述情绪分类体系，并通过所述分类体系实现情绪分类；以及

分类模块，用于根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。

7.根据权利要求6所述的基于权重学习和多特征抽取的多情绪分类装置，其特征在于，所述对所述多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。

8.根据权利要求6所述的基于权重学习和多特征抽取的多情绪分类装置，其特征在于，根据名词、动词、形容词和副词抽取所述多个词性特征词，并且根据句法结构特征抽取所述多个句法特征，其中，所述句法结构特征包括动补结构、关联结构、后附加结构、定中结构、动宾结构、主谓结构、状中结构、并列结构和核心。

9.根据权利要求6所述的基于权重学习和多特征抽取的多情绪分类装置，其特征在于，在词性抽取中，否定词与后一个词集合成一个词，以进行词向量表示之后再进行抽取。

10.根据权利要求6所述的基于权重学习和多特征抽取的多情绪分类装置，其特征在于，所述融合模块具体用于运用权重和阈值将所述多个词性特征词的预测值和所述多个句法特征词的预测值相融合，以得到所述句子信息。