CN106445919A

CN106445919A - 一种情感分类方法及装置

Info

Publication number: CN106445919A
Application number: CN201610861056.5A
Authority: CN
Inventors: 张磊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2017-02-22

Abstract

本发明公开一种情感分类方法及装置，所述方法包括：利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征，其中，所述情感数据集包括标注有情感标签的文本；利用词袋模型对所述情感数据集进行计算，以得到情感数据集上的词袋模型特征；利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；或者，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。所述方法及装置的分类准确度更高。

Description

一种情感分类方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种情感分类方法及装置。

背景技术

情感分类也被称为意见挖掘，指的是自动从文本中识别和提取具有倾向性的态度、意见和情感。情感分类技术时自然语言处理中的一个重要技术，特别在互联网领域日益发达的背景下，情感分类技术在电子产品、影视娱乐和新闻等多个领域中都得到广泛的应用。

现有技术中已有多种情感分类方法，但是，这些情感分类方法的准确度有待提升。

发明内容

本发明解决的技术问题是提升情感分类方法的准确度。

为解决上述技术问题，本发明实施例提供一种情感分类方法，包括：利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征，其中，所述情感数据集包括标注有情感标签的文本；利用词袋模型对所述情感数据集进行计算，以得到情感数据集上的词袋模型特征；利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；或者，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

可选的，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练包括：对所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合，以得到组合训练特征；利用所述组合训练特征训练第一分类器，训练后的第一分类器用于对待分类句子进行情感分类。

可选的，所述情感分类方法还包括：利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征；利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征；对所述待分类句子的卷积神经网络特征和所述待分类句子的词袋模型特征进行组合，得到分类组合特征；将所述分类组合特征输入所述第一分类器，以对所述待分类句子进行情感分类。

可选的，所述第一分类器为支持向量机分类器。

可选的，所述利用卷积神经网络对情感数据集进行计算包括：采用Word2vec或者Glove将所述情感数据集转换为词向量；利用卷积神经网络对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

可选的，所述利用卷积神经网络对所述词向量进行计算包括：利用卷积层、激活函数和最大数值池层对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

可选的，所述利用词袋模型对所述情感数据集进行计算包括：对所述情感数据集的单元组、双元组、三元组分别进行计算综合，以得到所述情感数据集上的词袋模型特征。

可选的，所述利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练包括：利用所述情感数据集上的卷积神经网络特征训练第二分类器，所述第二分类器适于计算待分类句子的情感分类的置信度，得到卷积神经网络分类置信度；利用所述情感数据集上的词袋模型特征训练第三分类器，所述第三分类器适于计算待分类句子的情感分类的置信度，得到词袋模型分类置信度。

可选的，所述情感分类方法还包括：利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征，由第二分类器根据所述待分类句子的卷积神经网络特征得到待分类句子的卷积神经网络分类置信度；利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征，由第三分类器根据所述待分类句子的词袋模型特征得到待分类句子的卷积词袋模型分类置信度；比较所述卷积神经网络分类置信度和所述词袋模型分类置信度，以确定待分类句子的情感分类。

可选的，所述第三分类器为朴素贝叶斯分类器或支持向量机分类器。

本发明实施例还提供一种情感分类装置，包括：第一计算单元，适于利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征，其中，所述情感数据集包括标注有情感标签的文本；第二计算单元，适于利用词袋模型对所述情感数据集进行计算，以得到情感数据集上的词袋模型特征；第一训练单元或者第二训练单元，其中：所述第一训练单元适于利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；所述第二训练单元适于利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

可选的，所述第一训练单元包括：第一组合单元，适于对所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合，以得到组合训练特征；第一分类器训练单元，适于利用所述组合训练特征训练第一分类器，训练后的第一分类器用于对待分类句子进行情感分类。

可选的，所述情感分类装置还包括：第三计算单元，适于利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征；第四计算单元，适于利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征；第二组合单元，适于对所述待分类句子的卷积神经网络特征和所述待分类句子的词袋模型特征进行组合，得到分类组合特征；分类单元，适于将所述分类组合特征输入所述第一分类器，以对所述待分类句子进行情感分类。

可选的，所述第一分类器为支持向量机分类器。

可选的，所述第一计算单元包括：词向量转换单元，适于采用Word2vec或者Glove将所述情感数据集转换为词向量；词向量计算单元，适于利用卷积神经网络对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

可选的，所述词向量计算单元适于利用卷积层、激活函数和最大数值池层对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

可选的，所述第二计算单元适于对所述情感数据集的单元组、双元组、三元组分别进行计算综合，以得到所述情感数据集上的词袋模型特征。

可选的，所述第二训练单元包括：第二分类器训练单元，适于利用所述情感数据集上的卷积神经网络特征训练第二分类器，所述第二分类器适于计算待分类句子的情感分类的置信度，得到卷积神经网络分类置信度；第三分类器训练单元，适于利用所述情感数据集上的词袋模型特征训练第三分类器，所述第三分类器适于计算待分类句子的情感分类的置信度，得到词袋模型分类置信度。

可选的，所述情感分类装置还包括：第一置信度单元，适于利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征，由第二分类器根据所述待分类句子的卷积神经网络特征得到待分类句子的卷积神经网络分类置信度；第二置信度单元，适于利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征，由第三分类器根据所述待分类句子的词袋模型特征得到待分类句子的卷积词袋模型分类置信度；比较单元，适于比较所述卷积神经网络分类置信度和所述词袋模型分类置信度，以确定待分类句子的情感分类。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，通过分别利用卷积神经网络和词袋模型对情感数据集进行计算，得到情感数据集上的卷积神经网络特征和词袋模型特征；利用情感数据集上的卷积神经网络特征和词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类的句子进行情感分类；或者利用情感数据集上的卷积神经网络特征和词袋模型特征分别对至少两个分类器进行训练，利用训练后的至少两个分类器用于对待分类句子进行情感分类。由此，分类器的训练过程是利用词袋模型特征和卷积神经网络特征共同完成的，而卷积神经网络特征比词袋模型特征更加底层，故二者可以有效互补，从而利用二者训练的分类器进行分类，准确度会有所提升。

附图说明

图1是本发明实施例中一种情感分类方法的流程图；

图2是本发明实施例中一种利用卷积神经网络对情感数据集进行计算的方法的流程图；

图3a是本发明实施例中一种对分类器进行训练的方法的流程图；

图3b是本发明实施例中另一种对分类器进行训练的方法的流程图；

图3c是本发明实施例中再一种对分类器进行训练的方法的流程图；

图4是本发明实施例中一种对待分类句子进行分类的方法的流程图；

图5是本发明实施例中一种情感分类装置的结构示意图；

图6是本发明实施例中一种第一训练单元的结构示意图；

图7是本发明实施例中一种情感分类装置的部分结构示意图；

图8是本发明实施例中一种第一计算单元的结构示意图；

图9是本发明实施例中一种第二训练单元的结构示意图；

图10是本发明实施例中另一种情感分类装置的部分结构示意图。

具体实施方式

如前所述，现有技术中已有多种情感分类方法，但是，这些情感分类方法的准确度有待提升。

经发明人研究发现，现有的情感分类方法较多，进行情感分类的基础是对分类器进行训练，而对分类器的训练是基于由情感数据集中的文本转换得到的特征构成的向量；在对待分类句子进行分类时，也需先将待分类句子转换成为特征构成的向量。故如果能更为合理的对文本进行转换，得到对应的向量，则可以提升情感分类方法的准确度。

在本发明实施例中，利用卷积神经网络和词袋模型对情感数据集进行计算，得到情感数据集上的卷积神经网络特征和词袋模型特征；可以利用情感数据集上的卷积神经网络特征和词袋模型特征对同一分类器训练，训练好的分类器适于对待分类句子进行分类；或者利用情感数据集上的卷积神经网络特征和词袋模型特征分别对不同的分类器进行训练，训练好的不同分类器共同用于对待分类句子进行情感分类。

词袋模型(Bag of Words，BoW)是一种基于统计量将文本语义特征向量化的方法，常用的特征是单元组(uni-gram)、双元组(bi-gram)、三元组(tri-gram)以及一些人工抽取的模板特征。在特征表示之后，词袋模型往往使用词频、互信息等方法筛选出最有效的词袋模型特征，形成向量。词袋模型特征简单明了，可以直接对应于原文本。但是，词袋模型在表示文本时，往往会忽略上下文信息，或者说，会丢失词序信息。

卷积神经网络(Convolutional neural network,CNN)是一种前馈神经网络，可以基于深度语言模型对文本语义的特征进行向量化的表示，不会丢失词序信息，但卷积神经网络得到的向量并不能直观对应于原文本。

本发明实施例通过利用情感数据集上的词袋模型和卷积神经网络特征共同对同一分类器训练，或利用上述词袋模型和卷积神经网络特征各自分别对至少两个分类器进行训练，可以结合词袋模型和卷积神经网络各自的优势，进行优势互补，故本发明实施例中的情感分类方法的准确度更高。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中一种情感分类方法的流程图。如图1所示的情感分类方法可以包括如下步骤：

步骤S11，利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征，其中，所述情感数据集包括标注有情感标签的文本；

步骤S12，利用词袋模型对所述情感数据集进行计算，以得到情感数据集上的词袋模型特征；

步骤S13，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；或者，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

其中，情感数据集也可以被称为训练集，可以包含标注有情感标签的文本。情感标签可以是针对每一句话的情感标签，用来指示情感倾向。情感标签可以简单的指示两档情感倾，正向和负向；也可以指示三档情感倾向：正向、中性、负向；或者也可以指示更多层次的情感倾向。

在具体实施中，情感数据集中的情感标签可以对应于情感数据集中的各个句子。

由于情感数据集中的文本是标注有情感标签的文本，故情感数据集上的卷积神经网络特征和词袋模型特征均存在对应的情感标签，故利用情感数据集上的卷积神经网络特征和词袋模型特征可以对分类器进行训练，使得训练后的分类器能够对待分类句子进行分类。

情感数据集可以来源于网络，也可以来源于预设的数据库，或者也可以来源于用户与智能问答机器人对话的过程。情感数据集中的文本的标签可以是人工标注的。

卷积神经网络特征和词袋模型特征均可以是对情感数据集中的文本提取的语义特征化向量，分别是利用卷积神经网络和词袋模型对情感数据集中的文本语义特征进行的向量化表示。

在具体实施中，参见图2，利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征的步骤可以包括：

步骤S21，采用Word2vec或者Glove将所述情感数据集转换为词向量；

步骤S22，利用卷积神经网络对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

Word2vec和Glove均是种将词表征为实数值向量的工具，结合深度学习的思想，可以通过训练把对文本内容的语义信息映射至线性空间中，从而利用词向量的方式表示情感数据集的特征。

卷积神经网络特征是一种语义特征向量，利用卷积神经网络对词向量进行计算，得到情感数据集上的卷积神经网络特征可以弥补仅利用词袋模型进行计算存在的数据稀疏性和词义敏感性的问题。

在具体实施中，利用卷积神经网络对词向量进行计算可以包括：利用卷积层、激活函数和最大数值池层对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

其中，在卷积层可以使用多个不同宽度、包含不同权值的和矩阵分别对由词向量得到的映射矩阵进行二维卷积运算，提取局部卷积特征，并生成卷积特征矩阵。可以通过激活函数(active function)扩大特征矩阵的特征效果，去除数据中的冗余。

最大数值池层(1-max pooling)算法可以对局部卷积特征矩阵进行下采样，得到情感数据集上的全局特征矩阵，将全局特征矩阵进行非线性正切变换，并将变换后的特征矩阵转换为语义特征向量，由语义特征向量组成卷积神经网络特征。

在具体实施中，利用词袋模型对情感数据集进行计算可以包括：对所述情感数据集的单元组、双元组、三元组分别进行计算综合，以得到所述情感数据集上的词袋模型特征。

在具体实施中，对所述情感数据集的单元组、双元组、三元组分别进行计算综合可以是对计算情感数据集中每个句子(文本)的单元组、双元组、三元组的词频-逆文档频率(TF-IDF)，以得到每个句子的特征向量，进而得到情感数据集上的词袋模型特征。

其中，对所述情感数据集利用单元组计算可以利用二进制表示某个单词是否出现，若出现，则特征向量的相应维的数值为1，否则为0。对所述情感数据集利用双元组和单元组计算以减少分词带来的误差，并考虑词之间的相互联系。

在得到情感数据集上的卷积神经网络特征和词袋模型特征后，可以利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；或者，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

具体而言，在后一种方案中，可以利用情感数据集上的卷积神经网络特征对一个分类器进行训练，并利用所述情感数据集上的词袋模型特征对另一个分类器进行训练，训练后的两个分类器共同用于对待分类句子进行情感分类。

参见图3a，在具体实施中，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练的步骤可以包括：

步骤S31，对所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合，以得到组合训练特征；

步骤S32，利用所述组合训练特征训练第一分类器，训练后的第一分类器用于对待分类句子进行情感分类。

其中，对情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合可以是以多种方式进行组合。

在具体实施中，当词袋模型特征为M维向量，卷积神经网络特征为N维向量时，对卷积神经网络特征和词袋模型特征进行组合后，可以得到维度为M+N的组合训练特征。

如前所述，情感数据集中可以包含多个句子，每个句子均对应于情感标签，在对卷积神经网络特征和词袋模型特征进行组合时，可以是将同一句子的卷积神经网络特征和词袋模型特征进行组合。在利用组合特征训练第一分类器时，可以是利用与情感数据集中多个句子对应的组合特征和标签进行训练。

在具体实施中，第一类分类器可以是支持向量机分类器(Support VectorMachine，SVM)。支持向量机是一种监督学习模型，可以分析数据、识别模式，常用于分类和回归分析。

利用给定的训练样本(组合训练特征)和标记(情感标签)可以训练支持向量机分类器，训练后的支持向量机分类器可以为新的实例(待分类句子)进行分类。

继续参考图3a，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练的步骤还可以包括：

步骤S33，利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征；

步骤S34，利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征；

步骤S35，对所述待分类句子的卷积神经网络特征和所述待分类句子的词袋模型特征进行组合，得到分类组合特征；

步骤S36，将所述分类组合特征输入所述第一分类器，以对所述待分类句子进行情感分类。

其中步骤S33和步骤S34在步骤S35之前，但对二者顺序并不做限定。也即，参见图3b，可以先执行步骤S33，再执行步骤S34；或者参见图3c，可以并行执行步骤S33和步骤S34。

可以理解的是，通常在完成对第一分类器的训练后，再利用训练好的分类器对待分类句子进行分类，故步骤S34与步骤S33通常在步骤S32之后。

获取待分类句子的词袋模型特征和卷积神经网络特征的具体实现可以参见步骤S11和步骤S12，在此不再赘述。

步骤S35中对待分类句子的卷积神经网络特征和所述待分类句子的词袋模型特征进行组合的具体实现采用与步骤S31相同的方式，在此不再赘述。

由于组合训练特征中同时包含卷积神经网络特征和词袋模型特征，可以综合卷积神经网络特征和词袋模型特征各自的优点，形成优势互补，故利用训练后的第一分类器进行分类可以得到更加准确的分类结果。

在本发明另一实施例中，可以利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。具体可以包括：利用所述情感数据集上的卷积神经网络特征训练第二分类器，所述第二分类器适于计算待分类句子的情感分类的置信度，得到卷积神经网络分类置信度；利用所述情感数据集上的词袋模型特征训练第三分类器，所述第三分类器适于计算待分类句子的情感分类的置信度，得到词袋模型分类置信度。其中，所述第三分类器可以是朴素贝叶斯分类器或支持向量机分类器

相应的，参见图4，上述实施例的情感分类方法还可以包括：

步骤S41，利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征，由第二分类器根据所述待分类句子的卷积神经网络特征得到待分类句子的卷积神经网络分类置信度；

步骤S42，利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征，由第三分类器根据所述待分类句子的词袋模型特征得到待分类句子的卷积词袋模型分类置信度；

步骤S43，比较所述卷积神经网络分类置信度和所述词袋模型分类置信度，以确定待分类句子的情感分类。

置信度可以表征分类器对待分类句子进行分类时的确定度，置信度越高，说明对分类结果越确定。由于第二分类器时由卷积神经网络训练的分类器，第三分类器是由词袋模型训练的分类器，而卷积神经网路和词袋模型各具优势，故当卷积神经网络分类置信度和卷积词袋模型分类置信度不同时，选择对应的置信度较高的结果作为对待分类句子的分类结果可以提升分类结果的准确性。

为对本发明实施例的效果进行进一步验证，在一实验中，利用同一情感数据集分别对第一分类器、第二分类器和第三分类器进行训练后，对包含若干句子的测试集进行分类测试，结果如下：

单独利用第一分类器进行测试，分类准确率为96.18％；也即，利用卷积神经网络特征和词袋模型特征的组合共同训练的分类器的准确率为96.18；

单独利用第二分类器进行测试，分类准确率为96.05％；也即，单独利用卷积神经网络特征训练的分类器的准确率为96.05％；

单独利用第三分类器进行测试，分类准确率为95.54％；也即，单独利用卷积神经网络特征训练的分类器的准确率为95.54％；

对利用第二分类器和第三分类器进行分类后，进行置信度比较后选取的结果进行测试，分类准确率为96.15％。

由此可以看出，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，或者，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的分类器的分类准确性较高。

在本发明实施例中，分类器的训练是过程中利用词袋模型特征和卷积神经网络特征共同完成的，而卷积神经网络特征比词袋模型特征更加底层，故二者可以有效互补，从而利用二者训练的分类器进行分类，准确度会有所提升。

本发明实施例还提供一种情感分类装置，其结构示意图参见图5。

情感分类装置可以包括：第一计算单元51，适于利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征，其中，所述情感数据集包括标注有情感标签的文本；

第二计算单元52，适于利用词袋模型对所述情感数据集进行计算，以得到情感数据集上的词袋模型特征；

第一训练单元53或者第二训练单元54，其中：所述第一训练单元53适于利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；所述第二训练单元54适于利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

卷积神经网络特征是一种语义特征向量，由第一计算单元51利用卷积神经网络对词向量进行计算，得到情感数据集上的卷积神经网络特征，可以弥补仅利用词袋模型进行计算存在的数据稀疏性和词义敏感性的问题。

在得到情感数据集上的卷积神经网络特征和词袋模型特征后，可以由第一训练单元53利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；或者，也可以由第二训练单元54利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

具体而言，在后一种方案中，第二训练单元54可以利用情感数据集上的卷积神经网络特征对一个分类器进行训练，并利用所述情感数据集上的词袋模型特征对另一个分类器进行训练，训练后的两个分类器共同用于对待分类句子进行情感分类。

参见图6，在具体实施中，所述第一训练单元53可以包括：

第一组合单元61，适于对所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合，以得到组合训练特征；

第一分类器训练单元62，适于利用所述组合训练特征训练第一分类器，训练后的第一分类器用于对待分类句子进行情感分类。

其中，第一组合单元61对情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合，可以是以多种方式进行组合。

在具体实施中，当词袋模型特征为M维向量，卷积神经网络特征为N维向量时，第一组合单元61对卷积神经网络特征和词袋模型特征进行组合后，可以得到维度为M+N的组合训练特征。

情感数据集中可以包含多个句子，每个句子均对应于情感标签，在第一组合单元61对卷积神经网络特征和词袋模型特征进行组合时，可以是将同一句子的卷积神经网络特征和词袋模型特征进行组合。在第一分类器训练单元62利用组合特征训练第一分类器时，可以是利用与情感数据集中多个句子对应的组合特征和标签进行训练。

在具体实施中，第一类分类器可以是支持向量机分类器(Support VectorMachine，SVM)。

第一分类器训练单元62可以利用给定的训练样本(组合训练特征)和标记(情感标签)训练支持向量机分类器，训练后的支持向量机分类器可以为新的实例(待分类句子)进行分类。

参见图7，在具体实施中，所述情感分类装置还可以包括：

第三计算单元71，适于利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征；

第四计算单元72，适于利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征；

第二组合单元73，适于对所述待分类句子的卷积神经网络特征和所述待分类句子的词袋模型特征进行组合，得到分类组合特征；

分类单元74，适于将所述分类组合特征输入所述第一分类器，以对所述待分类句子进行情感分类。

其中，分类单元74可以基于如图5所示的第一训练单元53训练后的分类器进行分类。

第三计算单元71以及第四计算单元72的具体实现可以相同或类似于第一计算单元51(参见图5)和第二计算单元52(参见图5)；第二组合单元73的具体实现可以相同或类似于第一组合单元61(参见图6)，在此不再赘述。

在具体实施中，所述第一分类器可以是支持向量机分类器。

参见图8，在具体实施中，所述第一计算单元51可以包括：

词向量转换单元81，适于采用Word2vec或者Glove将所述情感数据集转换为词向量；

词向量计算单元82，适于利用卷积神经网络对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

在具体实施中，所述词向量计算单元82适于利用卷积层、激活函数和最大数值池层对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

其中，词向量计算单元82可以在卷积层使用多个不同宽度、包含不同权值的和矩阵分别对由词向量得到的映射矩阵进行二维卷积运算，提取局部卷积特征，并生成卷积特征矩阵。可以通过激活函数(active function)扩大特征矩阵的特征效果，去除数据中的冗余。

词向量计算单元82可以通过最大数值池层(1-max pooling)算法对局部卷积特征矩阵进行下采样，得到情感数据集上的全局特征矩阵，将全局特征矩阵进行非线性正切变换，并将变换后的特征矩阵转换为语义特征向量，由语义特征向量组成卷积神经网络特征。

继续参见图5，在具体实施中，所述第二计算单元52适于对所述情感数据集的单元组、双元组、三元组分别进行计算综合，以得到所述情感数据集上的词袋模型特征。

在具体实施中，第二计算单元52对所述情感数据集的单元组、双元组、三元组分别进行计算综合时，可以对计算情感数据集中每个句子(文本)的单元组、双元组、三元组的词频-逆文档频率(TF-IDF)，以得到每个句子的特征向量，进而得到情感数据集上的词袋模型特征。

其中，第二计算单元52对所述情感数据集利用单元组计算时，可以利用二进制表示某个单词是否出现，若出现，则特征向量的相应维的数值为1，否则为0。对所述情感数据集利用双元组和单元组计算以减少分词带来的误差，并考虑词之间的相互联系。

参见图9，在具体实施中，所述第二训练单元54可以包括：

第二分类器训练单元91，适于利用所述情感数据集上的卷积神经网络特征训练第二分类器，所述第二分类器适于计算待分类句子的情感分类的置信度，得到卷积神经网络分类置信度；

第三分类器训练单元92，适于利用所述情感数据集上的词袋模型特征训练第三分类器，所述第三分类器适于计算待分类句子的情感分类的置信度，得到词袋模型分类置信度。

参见图10，在具体实施中，情感分类装置还可以包括：

第一置信度单元101，适于利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征，由第二分类器根据所述待分类句子的卷积神经网络特征得到待分类句子的卷积神经网络分类置信度；

第二置信度单元102，适于利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征，由第三分类器根据所述待分类句子的词袋模型特征得到待分类句子的卷积词袋模型分类置信度；

比较单元103，适于比较所述卷积神经网络分类置信度和所述词袋模型分类置信度，以确定待分类句子的情感分类。

其中，第一置信度单元101可以利用第二分类器训练单元91(参见图9)训练后的第二分类器进行置信度的计算，该计算基于待分类句子的卷积神经网络特征进行。

第二置信度单元102可以利用第三分类器训练单元92(参见图9)训练后的第三分类器进行置信度的计算，该计算是基于待分类句子的词袋模型特征进行的。

由于第二分类器时由卷积神经网络训练的分类器，第三分类器是由词袋模型训练的分类器，而卷积神经网路和词袋模型各具优势，故当卷积神经网络分类置信度和卷积词袋模型分类置信度不同时，选择对应的置信度较高的结果作为对待分类句子的分类结果可以提升分类结果的准确性。

在具体实施中，所述第三分类器可以是朴素贝叶斯分类器或支持向量机分类器。

在本发明实施例中，通过第一计算单元和第二计算单元分别利用卷积神经网络和词袋模型对情感数据集进行计算，得到情感数据集上的卷积神经网络特征和词袋模型特征；通过第一训练单元利用情感数据集上的卷积神经网络特征和词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类的句子进行情感分类；或者通过第二训练单元利用情感数据集上的卷积神经网络特征和词袋模型特征分别对至少两个分类器进行训练，利用训练后的至少两个分类器用于对待分类句子进行情感分类。由此，分类器的训练过程是利用词袋模型特征和卷积神经网络特征共同完成的，而卷积神经网络特征比词袋模型特征更加底层，故二者可以有效互补，从而利用二者训练的分类器进行分类，准确度会有所提升。

本发明实施例中，情感分类装置的描述部分涉及到的词语的定义及解释可以参见情感分类方法，在此不再赘述。另外，对情感分类方法进行的验证实验的结果同样适用于情感分类装置，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种情感分类方法，其特征在于，包括：

利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征，其中，所述情感数据集包括标注有情感标签的文本；

利用词袋模型对所述情感数据集进行计算，以得到情感数据集上的词袋模型特征；

利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；或者，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

2.根据权利要求1所述的情感分类方法，其特征在于，利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练包括：

对所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合，以得到组合训练特征；

利用所述组合训练特征训练第一分类器，训练后的第一分类器用于对待分类句子进行情感分类。

3.根据权利要求2所述的情感分类方法，其特征在于，还包括：

利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征；

利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征；

对所述待分类句子的卷积神经网络特征和所述待分类句子的词袋模型特征进行组合，得到分类组合特征；

将所述分类组合特征输入所述第一分类器，以对所述待分类句子进行情感分类。

4.根据权利要求2所述的情感分类方法，其特征在于，所述第一分类器为支持向量机分类器。

5.根据权利要求1所述的情感分类方法，其特征在于，所述利用卷积神经网络对情感数据集进行计算包括：

采用Word2vec或者Glove将所述情感数据集转换为词向量；

利用卷积神经网络对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

6.根据权利要求5所述的情感分类方法，其特征在于，所述利用卷积神经网络对所述词向量进行计算包括：利用卷积层、激活函数和最大数值池层对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

7.根据权利要求1所述的情感分类方法，其特征在于，所述利用词袋模型对所述情感数据集进行计算包括：对所述情感数据集的单元组、双元组、三元组分别进行计算综合，以得到所述情感数据集上的词袋模型特征。

8.根据权利要求1所述的情感分类方法，其特征在于，所述利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练包括：

利用所述情感数据集上的卷积神经网络特征训练第二分类器，所述第二分类器适于计算待分类句子的情感分类的置信度，得到卷积神经网络分类置信度；

利用所述情感数据集上的词袋模型特征训练第三分类器，所述第三分类器适于计算待分类句子的情感分类的置信度，得到词袋模型分类置信度。

9.根据权利要求8所述的情感分类方法，其特征在于，还包括：

利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征，由第二分类器根据所述待分类句子的卷积神经网络特征得到待分类句子的卷积神经网络分类置信度；

利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征，由第三分类器根据所述待分类句子的词袋模型特征得到待分类句子的卷积词袋模型分类置信度；

比较所述卷积神经网络分类置信度和所述词袋模型分类置信度，以确定待分类句子的情感分类。

10.根据权利要求9所述的情感分类方法，其特征在于，所述第三分类器为朴素贝叶斯分类器或支持向量机分类器。

11.一种情感分类装置，其特征在于，包括：

第一计算单元，适于利用卷积神经网络对情感数据集进行计算，以得到情感数据集上的卷积神经网络特征，其中，所述情感数据集包括标注有情感标签的文本；

第二计算单元，适于利用词袋模型对所述情感数据集进行计算，以得到情感数据集上的词袋模型特征；

第一训练单元或者第二训练单元，其中：所述第一训练单元适于利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征共同对同一分类器进行训练，训练后的分类器用于对待分类句子进行情感分类；所述第二训练单元适于利用所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征分别对至少两个分类器进行训练，训练后的至少两个分类器共同用于对待分类句子进行情感分类。

12.根据权利要求11所述的情感分类装置，其特征在于，所述第一训练单元包括：

第一组合单元，适于对所述情感数据集上的卷积神经网络特征和所述情感数据集上的词袋模型特征进行组合，以得到组合训练特征；

第一分类器训练单元，适于利用所述组合训练特征训练第一分类器，训练后的第一分类器用于对待分类句子进行情感分类。

13.根据权利要求12所述的情感分类装置，其特征在于，还包括：

第三计算单元，适于利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征；

第四计算单元，适于利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征；

第二组合单元，适于对所述待分类句子的卷积神经网络特征和所述待分类句子的词袋模型特征进行组合，得到分类组合特征；

分类单元，适于将所述分类组合特征输入所述第一分类器，以对所述待分类句子进行情感分类。

14.根据权利要求12所述的情感分类装置，其特征在于，所述第一分类器为支持向量机分类器。

15.根据权利要求11所述的情感分类装置，其特征在于，所述第一计算单元包括：

词向量转换单元，适于采用Word2vec或者Glove将所述情感数据集转换为词向量；

词向量计算单元，适于利用卷积神经网络对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

16.根据权利要求15所述的情感分类装置，其特征在于，所述词向量计算单元适于利用卷积层、激活函数和最大数值池层对所述词向量进行计算，以得到所述情感数据集上的卷积神经网络特征。

17.根据权利要求11所述的情感分类装置，其特征在于，所述第二计算单元适于对所述情感数据集的单元组、双元组、三元组分别进行计算综合，以得到所述情感数据集上的词袋模型特征。

18.根据权利要求11所述的情感分类装置，其特征在于，所述第二训练单元包括：

第二分类器训练单元，适于利用所述情感数据集上的卷积神经网络特征训练第二分类器，所述第二分类器适于计算待分类句子的情感分类的置信度，得到卷积神经网络分类置信度；

第三分类器训练单元，适于利用所述情感数据集上的词袋模型特征训练第三分类器，所述第三分类器适于计算待分类句子的情感分类的置信度，得到词袋模型分类置信度。

19.根据权利要求18所述的情感分类装置，其特征在于，还包括：

第一置信度单元，适于利用所述卷积神经网络对所述待分类句子进行计算，以得到待分类句子的卷积神经网络特征，由第二分类器根据所述待分类句子的卷积神经网络特征得到待分类句子的卷积神经网络分类置信度；

第二置信度单元，适于利用词袋模型对所述待分类句子进行计算，以得到待分类句子的词袋模型特征，由第三分类器根据所述待分类句子的词袋模型特征得到待分类句子的卷积词袋模型分类置信度；

比较单元，适于比较所述卷积神经网络分类置信度和所述词袋模型分类置信度，以确定待分类句子的情感分类。

20.根据权利要求19所述的情感分类装置，其特征在于，所述第三分类器为朴素贝叶斯分类器或支持向量机分类器。