CN110750648A

CN110750648A - 一种基于深度学习和特征融合的文本情感分类方法

Info

Publication number: CN110750648A
Application number: CN201911003328.8A
Authority: CN
Inventors: 李传艺; 葛季栋; 孔力; 冯奕; 周筱羽; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-04

Abstract

本发明提出一种基于深度学习和特征融合的文本情感分类方法，该方法通过整合层次特征学习文本表示，包括：根据文本极性及否定词，为情感词设计不同环境的向量表示；为词性采样得到向量区分同形词；结合表情符优化词向量，使用神经网络模型学习基于词向量的单句特征；通过字序列学习基于字向量的单句特征；两部分拼接得到句子级特征；对于至少包含两个单句的文档，句向量序列输入到上层神经网络学习基于神经网的文档特征，并对段首、段尾和包含总结词的句子取平均获得基于规则的文档特征，两部分拼接获得文档级特征。针对具体任务，将单句或文档特征输入随机森林分类器即可预测情感类别。与基础模型相比，本发明能够有效提高文本情感分类的准确性。

Description

一种基于深度学习和特征融合的文本情感分类方法

技术领域

本发明涉及一种情感分类方法，具体涉及一种基于深度学习和特征融合的文本情感分类方法，属于自然语言处理技术领域。

背景技术

文本情感分析旨在从无结构的文本中自动地识别带有主观色彩的文本，可以应用到社会媒体分析、自动机器问答等领域。随着互联网的发展和社交媒体(例如微博、Twitter、Facebook、IMDB)的兴起，越来越多的用户由信息的接收者逐渐转化为信息的贡献者，互联网上带有主观色彩的文本急剧增长。这些海量的用户生成文本为分析用户的情感提供了极为便利的平台，同时也为文本情感分析带来了诸多挑战。文本情感分析的意义可以概括如下：

文本情感分析可以促进人工智能、社会计算等相关领域的发展：在人工智能领域，计算机是否能够理解和具有人类的情感仍然未知，对这个问题的研究将是对人工智能领域的有力补充，也必将推动人工智能的发展。由于分析文本情感可以观察大规模用户的情感倾向及演变，因此可为社会学、传播学、语言学、管理学等社会科学提供实证基础。

文本情感分析有利于大众与政府的沟通：以往政府了解民情需要通过问卷调查等传统方式，在覆盖面、真实性和效率方面都有欠缺。社交媒体出现以后，通过对社交媒体文本的情感分析，政府部分可以很方便地收集到广大民众对政策法规的态度，为改进政府工作和预防公众不满情绪提供决策依据。

文本情感分析可以为生产者和消费者之间的连接提供技术支持：在电子商务领域，用户对商家的褒贬评价成为商家信誉最重要的标志，决定着商家的命运。文本情感分析技术可以为商家更好的分析和汇总用户对产品的反馈意见，为产品的改进优化提供有力的依据。

情感分类是情感分析领域中一个重要的子问题，诸多研究表明，情感分类的性能很大程度上取决于文本的特征好坏。数十年来，人们通常使用人工编辑的特征模板把原始数据转换为适合机器学习算法使用的特征表示，虽然这样的手段可以在一定程度上利用人的先验知识，但特征模板的设计和选择通常费时费力，而且严重依赖领域专家的知识。而且特征模板依赖于文本主题、很难直接地进行领域移植(例如，从法律领域扩展到电商领域)或跨语言移植(例如，从英文扩展到中文)。另外，传统的离散特征通常维度较高，在这样稀疏的0/1特征表示下很难完成文本的语义组合和语义理解。

因此，目前亟需要研究一种自动化的方法从大规模数据中学习文本的语义表示，以便更好地服务于情感分类任务。基于功能强大的神经网络模型，并结合使用丰富的多种文本特征(例如，词性、表情符、词语极性)，是自动学习数据表示的有效方法。

神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。在自然语言处理领域，算法自动地从数据中学习数据的表示的方法通常被称作表示学习。表示学习的目的在于从数据中自动地学习文本(如词语、句子、篇章)的语义表示，这种表示可以在机器学习算法的框架下作为特征应用于多样的自然语言处理任务(如抽取、识别)当中。因此，本发明以神经网络为基础，融合多种任务相关特征，着重研究了一种基于深度学习和特征融合的文本情感分类方法。

发明内容

本发明是一种基于深度学习和特征融合的文本情感分类方法，提供一种文本情感倾向自动分类方法，针对社交语料文本的多种共同特征，设计不同策略融入到一个深度神经网络中。该方法能有效捕捉文本中的语义和情感信息，学习到一个情感相关的分布式表示，提高情感分类的准确率。

本发明所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于包含以下步骤：

步骤(1)语料预处理；

步骤(2)向量预训练；

步骤(3)对情感词选取环境特定的情感词向量；

步骤(4)以多种特征作为输入，获得单句特征；

步骤(5)以单句特征序列作为输入，获得文档特征；

步骤(6)分别输出单句情感类别和文档情感类别。

1.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(1)中语料预处理，具体子步骤包括：

步骤(1.1)通过匹配文本中的“[”和“]”符号找出所有的表情符，人工标注若干典型表情符；

步骤(1.2)对文本进行分句、分词、词性标注和去除停用词；

步骤(1.3)统计文本词性分布，筛选出最高频的50个词性；

2.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(2)中向量预训练，包括使用正态分布采样表情符的向量表示和最高频的50个词性的向量表示，使用一个大规模的中文新闻语料库，调用word2vec工具为每一个词训练出100维的词向量和为每一个汉字训练出100维的字向量，对于情感词汇，分别训练积极语境下和消极语境下的两种情感词向量。

3.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(3)中对情感词选取环境特定的情感词向量，具体子步骤包括：

步骤(3.1)根据情感词表，判断是否为情感词以及对应的词汇情感类别；

步骤(3.2)对于非情感词直接使用普通词向量；

步骤(3.3)对于情感词，检查其前n大小的窗口中是否包含奇数个否定词，满足条件则认为该情感词处于否定环境中；

步骤(3.4)对于积极情感词，如果处于否定环境中，则选择它在消极语料中训练得到的情感词向量，否则选择在积极语境下训练得到的情感词向量，同样对于消极情感词，如果处于否定环境中，则选择它在积极语料中训练得到的情感词向量，否则选择在消极语境下训练得到的情感词向量。

4.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(4)中以多种特征作为输入，获得单句特征。具体子步骤包括：

步骤(4.1)确定词语级别输入特征。针对非情感词和情感词分别按照前一步的原则选取对应的预训练词向量，与对应的初始化后的词性向量进行拼接，其中低频词性向量取零向量。然后将单句中包含的典型表情符向量取平均，句中每一个词向量与词性向量的拼接和表情符向量做一个相乘，得到的向量构成的序列即为单句基于词语的输入特征序列；

步骤(4.2)使用一个神经网络(如循环神经网络RNN结合注意力机制attention或者卷积神经网络CNN)作为基础模型，对词语构成的输入向量序列进行特征提取，得到单句基于词语的特征表示。为了验证文发明适用于不同的模型，在biGRU和CNN模型上分别实现；

步骤(4.3)直接以字向量序列作为输入，使用一个神经网络进行特征提取，得到单句基于字的特征表示；

步骤(4.4)将基于词语的特征表示和基于字的特征表示拼接，即得到单句最终的特征表示。

5.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(5)中以单句特征序列作为输入，获得文档特征。具体子步骤包括：

步骤(5.1)将单句的特征向量序列输入到一个神经网络，进行特征提取，得到的特征向量称为基于神经网络的文档特征；

步骤(5.2)选择段首、段尾以及包含了总结词的句子特征，求平均，称为基于规则的文档特征；

步骤(5.3)将称为基于规则的文档特征和基于规则的文档特征进行拼接，即可得到文档最终的特征表示；

6.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(6)分别输出单句情感类别和文档情感类别。以前面学习到的向量表示作为特征，情感类别(主观/客观、积极/消极/中性)作为类别标签，训练一个随机森林分类器。分类的效果采用准确率和宏平均进行评估。

本发明与现有技术相比，其显著优点是：采用深度神经网络(以循环神经网络RNN中的变体双向门循环单元，bi-directional Gated Recurrent Unit，biGRU和卷积神经网络CNN为例)作为基础模型，更好地对句子语义进行建模；更加全面地考虑了社交语料文本的多种共同特征，并融入到深度神经网络的框架中；对于包含多个单句的文档，使用分层的方法，先获得单句特征向量，再以单句向量序列作为新的输入学习文档特征向量，并结合人们在书写时的习惯制定一个规则，即赋予段首、段尾以及包含总结词的句子更大权重；经测试，本发明可以有效提高文本情感分类的准确率和宏平均值。

附图说明

图1基于深度学习和特征融合的文本情感分类方法的总体流程图

图2基于深度学习和特征融合的文本情感分类方法单句级流程图(以RNN为例)

图3基于深度学习和特征融合的文本情感分类方法文档级流程图(以RNN为例)

图4爬虫抓取的文本中表情符示例图

图5情感词向量选择方法流程图

图6中文文本字序列示例图

图7已有分类方法与本发明分类方法的实验对比图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于针对社交网络语料，提出一种基于深度学习和特征融合的文本情感分类方法。通过结合词性向量，可以区分同形但是不同词性对应不同语义的词语，也可以突出某些特定词性的词语(比如动词、名词、形容词)对于表达语义起到了更重要的作用；文本包含的典型表情符，通常可以直接表达文本语义，将文本包含的表情符向量纳入到文本中词语表达中能够丰富词语在特定文本中的表达能力；对于中文词语中包含的字，拆开词语来看单个的字本身也蕴含丰富的语义信息，因此字序列可以作为文本的另一种呈现方式，也可以作为分类模型的另一种输入形式，学习另一种文本特征。基于词和字获取的文本特征进行拼接得到最终的表示，如图2所示。对于包含多个单句的文档，既可以将文档看成一个单句序列的组合，套用一个上层的神经网络网络模型，也可以参考人们日常生活中书写的习惯，人工制定简单规则取段首、段尾以及包含总结词的单句组合成文档最终的语义表示，如图3所示。本发明概括来说主要包括以下步骤：

步骤(1)语料预处理；

步骤(2)向量预训练；

步骤(3)对情感词选取环境特定的情感词向量；

步骤(4)以多种特征作为输入，获得单句特征；

步骤(5)以单句特征序列作为输入，获得文档特征；

步骤(6)分别输出单句情感类别和文档情感类别。

下面对上述步骤进行详细描述。

1.由于社交语料文本包含多种信息，无法直接全部作为自然语言读取并通过模型进行处理，因此需要对语料进行预处理，提取出多种语义相关的特征，用于后面的向量组合。具体步骤是：

步骤(1.1)人工标注若干典型表情符。近年来社交网络应用程序和网站在用户输入文本时通常还提供丰富的表情符，部分表情符，特别是模拟人面部表情的表情符，能够生动直观地表达用户在文字中想要传达的情绪。爬虫抓取的网络文本中表情符以“[”和“]”包围的表情符名称的形式存在，如图4所示。可以通过正则表达式获取文本中所有表情符，对高频表情符进行人工筛选，标记能够表达明显感情色彩的典型表情符。

步骤(1.2)对文本进行分句、分词、词性标注和去除停用词。为了执行单句级别的情感分类任务，需要对一整段的文本进行分句。选择问号、句号、感叹号、省略号和分号为句子分隔符，将包含多个单句的文档划分为单句的序列。使用分词工具(例如iieba)对中文文本进行分词和词性标注。考虑到低频词语以及过于常见词语对于文本的语义表示贡献比较小，同时为了减少模型处理的数据量，使用一个停用词表过滤掉停用词。

步骤(1.3)统计文本词性分布，筛选出最高频的50个词性，低频词性不在考虑范围内。

2.神经网络的输入是向量，为了从文本获得向量表示，需要进行向量的初始化，包括词性向量、表情符向量、词向量和字向量。

使用(-0.5，0.5)的均匀分布为最高频的50个词性初始化100维向量，使用期望为0、标准差为0.5的正态分布采样典型表情符的100维向量表示。

对于自然语言处理任务最重要的词向量，使用一个大规模的中文无标注新闻语料库，调用word2vec工具为每一个词训练出100维的词向量和为每一个汉字训练出100维的字向量。

对于情感词汇，需要使用有情感极性标注的文本进行预训练。考虑到表情符一定程度上能够表达文本情感倾向，使用爬虫抓取微博文本，并假设如果一条微博中包含的表情符都是积极表情符，则该微博文本是积极的，反之亦然。在积极和消极的微博语料中同样调用word2vec工具分别训练积极环境下的和消极环境下的两种情感词向量。

3.考虑到情感词汇有两种初始表达形式，具体根据词语在文本中是否存在否定情况选择合适的情感词向量，如图5所示。首先对照情感词表确定一个词语是否是情感词，否则直接选择使用在无标注语料中预训练的普通词向量。如果是积极的情感词，接着判断是否存在于否定环境中。存在否定的判断方法是查看该词语的前n个词语构成的窗口内是否存在否定词。为了排除双重否定的抵消作用，限定为否定词出现的次数为奇数次。如果积极情感词处于否定环境中，则选择在消极语料中训练的词向量，否则选择在积极语料中训练的词向量。同样，对于消极情感词，如果处于否定环境中，则选择在积极语料中训练的词向量，否则选择在消极语料中训练的词向量。

4.以多种特征作为输入，获得单句特征，目标是将分类特定的任务相关的多种文本特征同时融入到先进的神经网络模型中，提高模型特征提取的能力，更好地表达文本语义和情感信息，为后续的分类任务提供准确率的保证。具体步骤包括：

步骤(4.1)确定词语级别输入特征。针对非情感词和情感词分别按照前一步的原则选取对应的预训练词向量，与对应的词性向量进行拼接，其中低频词性向量取零向量，语料库词表中第i个词语此时的向量表示e_i计算公式为：

e_i＝[v_i，p_i]

其中v_i是语料库词表中第i个词语直接查询预训练词向量得到的向量表示，p_i是该词语的词性向量，[a，b]代表a向量和b向量的拼接。

然后将单句中包含的典型表情符向量取平均，每一个词向量与词性向量的拼接和表情符向量相乘，得到的向量表示为：

其中p代表句中典型表情符的数量，emo_j代表句子中第j个典型表情符的向量表示，a⊙b代表向量a向量和b向量的乘法。此时的词语向量序列即为单句基于词语的输入特征序列；

步骤(4.2)使用一个神经网络(如循环神经网络RNN结合注意力机制attention，卷积神经网络CNN)作为基础模型，对单句的输入向量序列进行特征提取，为了验证文发明适用于不同的模型，在biGRU和CNN模型上分别实现。在使用GRU作为模型时得到文档中第i个单句基于词语的特征表示fw_i＝GRU(w₁，w₂...w_m；e₁，e₂...e_p)。在使用CNN作为模型时得到文档中第i个单句基于词语的特征表示fw_i＝CNN(w₁，w₂...w_m；e₁，e₂...e_p)其中w₁，w₂...w_m是该单句的词向量序列，m代表句中词语数量，e₁，e₂...e_p是该单句中包含的典型表情符向量，与出现顺序无关；

步骤(4.3)对于汉语等词语可以进一步进行分割的语言，单字经常也独立地包含了一定的语义信息，如图6例子所示。直接以字向量序列作为输入，使用一个神经网络进行特征提取，在使用GRU作为模型时得到文档中第i个单句基于字的特征表示fc_i＝GRU(c₁，c₂...c_n)。其中c₁，c₂...c_n是该单句的字向量序列，n代表句中汉字的数量；

步骤(4.4)将基于词语的特征表示和基于字的特征表示拼接，即得到文档中第i个单句最终的特征表示f_i＝[fw_i，fc_i]。

5.以单句特征序列作为输入，获得文档特征。本发明把文本看成词语/字到单句、单句到文档的层级结构，将单句序列到文档特征的学习过程类比词语序列到单句特征的学习过程，在获得了单句特征表示的基础上，进一步进行特征提取获得文档级别的向量表示。考虑到神经网络在单句级别任务上的学习能力，同样对单句向量序列执行基于深度学习的特征提取，并借鉴人们书写习惯的背景知识，加入基于规则的特征提取方法。具体步骤包括：

步骤(5.1)仿照从词向量到句子特征的学习过程，将文档包含的单句的特征向量序列按照它们在文档中的出现顺序输入到一个上层的神经网络，进行从单句到文档的自动特征提取，这种分层使用多级神经网络结构得到的特征向量称为基于神经网络的文档特征；

步骤(5.2)考虑到人们书写时经常在开头点明主题或者在结尾阐述观点，或者用一些主题句总结一段话的主旨，整理一份总结词(比如，“总之”、“总的说来”)表，选择段首、段尾以及包含了总结词的句子特征，求平均，称为基于规则的文档特征；

步骤(5.3)将称为基于神经网络的文档特征和基于规则的文档特征进行拼接，即可得到文档最终的向量表示。

6.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(6)分别输出单句情感类别和文档情感类别。以前面学习到的向量表示作为特征，单句级别或者文档级别的情感类别(主观/客观、积极/消极/中性)作为类别标签，训练一个随机森林分类器。优化模型的损失函数定义为预测类别和真实类别之间的交叉熵，如下所示：

其中N代表测试集中的单句/文档数量，l_i肛表第i个单句/文档的真实类别标签，y_i代表第i个单句/文档在本发明下预测的类别标签。

本发明的效果采用分类准确率和宏平均进行评估。在实验评估时，本发明针对NLPCC2012到2014年微博情感分析子任务提供的微博评测数据，对比了已有的情感分类方法，包括无监督和有监督方法，和本发明提出的基于深度学习和特征融合的文本情感分类方法的效果，实验结果如图7所示。其中Majority代表直接选择训练集中比重最大的标签作为测试集样本的标签，Count_senti代表计算文本情感词不同类别数量的方法，Ave_SVM代表使用文本词向量平均为特征、SVM为分类器的方法，CNN是基于卷积神经网络的方法，CNN+emo代表CNN结合表情符的方法，MF_CNN代表本发明提出的在CNN上实现的方法，CNN和CNN+emo可以看成是MF_CNN的基础。biGRU代表基于双向门循环单元的方法，biGRU+att代表双向门循环单元结合注意力机制的方法。MF_RNN代表本发明提出的在biGRU+att上实现的方法，biGRU和biGRU+att可以看成是MF_RNN的基础。由测评结果可见，在微博语料库上，本发明提取的情感分类方法都优于其他方法。为了验证不同特征对分类结果的影响，在单句和文档两个层面进行阉割实验，实验结果如图7所示，其中单句层面的不完整模型MF_CNN/RNN-senti、MF_CNN/RNN-POS、MF_CNN/RNN-emo、MF_CNN/RNN-char分别代表不考虑情感词、不考虑词性、不考虑表情符、不考虑字向量的模型，文档层面的不完整模型MF_CNN/RNN-rule、MF_CNN/RNN-NN分别代表不考虑人工制定规则、不考虑单句到文档的神经网络的模型。

上面已经参考附图对根据本发明实施的一种基于深度学习和特征融合的文本情感分类方法进行了详细描述。本发明具有如下优点：使用深度学习模型作为基础方法，提高分类的基线效果；结合社交媒体文本中包含的多种特征，更准确地提取情感分类所需的语义和情感信息；将特征的自动提取和人工规则将结合，利用先验知识增强模型的解释性。

Claims

1.一种基于深度学习和特征融合的文本情感分类方法，其特征在于包含以下步骤：

步骤(1)语料预处理；

步骤(2)向量预训练；

步骤(3)对情感词选取环境特定的情感词向量；

步骤(4)以多种特征作为输入，获得单句特征；

步骤(5)以单句特征序列作为输入，获得文档特征；

步骤(6)分别输出单句情感类别和文档情感类别。

2.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(1)中语料预处理，具体子步骤包括：

步骤(1.2)对文本进行分句、分词、词性标注和去除停用词；

步骤(1.3)统计文本词性分布，筛选出最高频的50个词性。

3.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(2)中向量预训练，包括使用正态分布采样表情符的向量表示和最高频的50个词性的向量表示，使用一个大规模的中文新闻语料库，调用word2vec工具为每一个词训练出100维的词向量和为每一个汉字训练出100维的字向量，对于情感词汇，分别训练积极语境下和消极语境下的两种情感词向量。

4.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(3)中对情感词选取环境特定的情感词向量，具体子步骤包括：

步骤(3.2)对于非情感词直接使用普通词向量；

5.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(4)中以多种特征作为输入，获得单句特征。具体子步骤包括：

步骤(4.1)确定词语级别输入特征。针对非情感词和情感词分别按照前一步的原则选取对应的预训练词向量，与对应的词性向量进行拼接，其中低频词性向量取零向量。然后将单句中包含的典型表情符向量取平均，每一个词向量与词性向量的拼接和表情符向量相乘，得到的向量序列即为单句的输入特征序列；

步骤(4.2)使用一个神经网络(如循环神经网络RNN结合注意力机制attention，卷积神经网络CNN)作为基础模型，对单句的输入向量序列进行特征提取，得到单句基于词语的特征表示；

步骤(4.3)直接以字向量序列作为作为输入，使用一个神经网络进行特征提取，得到单句基于字的特征表示；

6.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类技术，其特征在于步骤(5)中以单句特征序列作为输入，获得文档特征。具体子步骤包括：

步骤(5.3)将称为基于规则的文档特征和基于规则的文档特征进行拼接，即可得到文档最终的特征表示。

7.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法，其特征在于步骤(6)分别输出单句情感类别和文档情感类别。以前面学习到的向量表示作为特征，情感类别(主观/客观、积极/消极/中性)作为类别标签，训练一个随机森林分类器。分类的效果采用准确率和宏平均进行评估。