CN111767741B

CN111767741B - 一种基于深度学习和tfidf算法的文本情感分析方法

Info

Publication number: CN111767741B
Application number: CN202010617921.8A
Authority: CN
Inventors: 陈柏杭; 张振昌; 张少涵; 高丽斌; 陈日清
Original assignee: Fujian Agriculture and Forestry University
Current assignee: Fujian Agriculture and Forestry University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-04-07
Anticipated expiration: 2040-06-30
Also published as: CN111767741A

Abstract

本发明涉及一种基于深度学习结合TFIDF算法的文本情感分析方法，将获取的中文语料及维基百科的中文语料进行文本预处理后，使用word2vec模型分别进行训练，然后结合两者训练的得到的词向量，作为深度学习训练模型的输入，然后进行情感分析模型的构建；最后，进行新语料的预测。本发明无需进行复杂的词典构建，减少了人工成本，避免了繁琐的特征工程构建对分类结果的影响，同时将深度学习模型中学习的特征结合了传统的语义信息，增加了分类的准确性。此外，在词向量的训练中将文本自身领域与维基百科的中文语料纳入考虑，提高了词向量对文本语义信息表达的准确性。

Description

一种基于深度学习和TFIDF算法的文本情感分析方法

技术领域

本发明涉及计算机应用技术领域，特别是一种基于深度学习和TFIDF算法的文本情感分析方法。

背景技术

在Web3.0时代，互联网影响人们的方式在逐渐改变，在互联网提供的信息服务里，广大网民在各大网络平台上积极地参与信息交流，这种信息化交流常常通过文本、视频和语音等媒介进行，其中文本交流最为常见。由于网民主动性的提高，唯品会、京东、淘宝等电商平台，以及微博、贴吧、论坛等在线交流网站上涌现出大量的主观性信息，这些信息携带了用户丰富的观念和情绪。如何从这些主观信息中挖掘出网民对某份商品、某项政策和某个事件的态度和情绪，并分析出对整个商业和社会有价值的信息是十分重要的研究课题，这就是文本情感分析技术(Text Sentiment Analysis)，简称情感分析，通常也叫文本挖掘。

文本情感分析是从丰富的文本资源中挖掘出用户在情绪上的极性信息，比如表扬、批评、开心、悲伤等情感。在日常消费中，用户在购买产品前会通过互联网事先了解大众对该产品的评价，例如用户会根据好评率来选择外卖的餐饮店、想看的电影、想买的手机款式等，用户的情感倾向性极大的决定了产品的销量，与此同时，商家也能根据用户对产品属性的评价有目的地调整产品从而满足更广泛的用户需求。例如，用户在淘宝网上购买产品后留下评论“衣服太大了，按平常尺寸买穿不下”，淘宝商家则根据用户的反映及时在产品详情页备注衣服尺寸偏大，以便用户在购买时能更准确的选择尺码从而提高衣服的销量。此外，政府通过情感分析技术能进行舆情信息监控，不良网络信息的传播将被及时阻止。因此，文本情感分析课题具有重要研究价值，受到广大学者的青睐。

面对搜索引擎、购物平台、在线交流网站等热门产业中海量的网络文本数据，文本情感分析无疑是一种信息分析和信息获取的高效技术。情感分析方法主要涉及统计学习中的监督学习和无监督学习，其中基于词典的方法属于无监督学习，基于机器学习和深度学习的方法属于有监督学习。利用词典对文本进行情感分析是较早期出现的技术，该类方法根据现有的情感词典或重新构建新的词典，根据词典规则来统计所有情感词的极性，以此来判断文本最终的情感极值，从而实现大量文本的情感判别。基于词典的无监督学习方法在判别文本的情感极性时过分依赖与词典的规则，词典构建的精确性直接影响情感极性的判断，而且在互联网时代，一些情感词的极性也随之产生了变化，网络新词层出不穷，词典的构建十分复杂，而且工作量巨大。随着机器学习技术的出现，基于机器学习的情感分析在各种文本数据上取得较好的效果，但是基于机器学习的情感分析需要构建繁琐的人工特征，没有挖掘出文本的深层语义、句法等信息，属于浅层的情感分析方法。近年来，文本的语义、句法、语法等深层结构的研究有了进展，词语的分布式表示通过word2vec工具得以实现。基于深度学习的情感分析则用分布式的词向量来表示文本数据，Bengio等人在研究神经网络语言模型的同时提出了分布式表征的词向量概念，词向量能在低纬空间反映词与词之间的关系，包含一定的词法信息。在此基础上，研究者们将深度学习模型应用于情感分析并取得不错的进展，各种研究表明卷积神经网络(Convolutional Neural Network,CNN)能提取深层的句子表征，长短时记忆神经网络(Long Short-term Memory Network,LSTM)能有效地学习到句子的序列特征。两种方法的分析流程有一定的差异，但是前提工作都是文本预处理，文本预处理工作主要包括标签标注、停用词处理和中文分词三个部分。中文文本由各种丰富的词语无缝串联，中文的每个句子由短语、宾语、介词等不同的词根组成，计算机并不认识一个完整的中文字符串，只有将字符串切分成一个个词才能让其识别语义信息，因而准确地进行文本分词是情感分析的首要步骤。分词工作后需将部分没有实际含义的词语剔除，例如“恩”、“其实”、“也许”等，这类词语被称为停用词。停用词对情感分析工作没有多大帮助，通常需要将文本中每个词与整理好的停用词表对比，如果匹配到停用词，则将该词从文本中去除。文本去除停用词后还需要进行标签处理，即通过浏览每条文本对其进行极性标注。本文将包含积极情感的文本打上“1”的标签，包含中性情感的文本打上“0”的标签，包含消极情感的文本打上“2”的标签。标签处理是一项耗费人力、时间的工作，对于无监督的情感分析模型，可省去该步骤，对于有监督的情感分析方法而言是必不可少的步骤。文本进行特征筛选后仅保留对情感分析起重要作用的特征，然而每个特征的贡献程度不同，因而需要对特征进行权重计算，权重值越大的特征项表示其重要性越高。

发明内容

有鉴于此，本发明的目的是提出一种基于深度学习和TFIDF算法的文本情感分析方法，无需进行复杂的词典构建，减少了人工成本，避免了繁琐的特征工程构建对分类结果的影响，同时将深度学习模型中学习的特征结合了传统的语义信息，增加了分类的准确性。

本发明采用以下方案实现：一种基于深度学习和TFIDF算法的文本情感分析方法，包括以下步骤：

步骤S1：进行标签标注、停用词处理和中文分词三个部分的数据预处理；

步骤S2：构建词向量模型；利用word2vec模型，典型语料维基百科中文语料结合文本语料进行训练得到词向量生成模型，其中词向量生成模型包含信息特征的词向量；

步骤S3：进行情感分析模型的构建；

步骤S4：进行新语料的预测。

进一步地，所述步骤S1的具体包括以下步骤：

步骤S11：中文分词；

步骤S12：停用词剔除：分别将步骤S11中所述两种文本中的每个词与设置的停用词表进行对比，若匹配到停用词则将该词从所述文本中剔除；

步骤S13：对步骤S11中所述两种文本进行人工标注：将包含积极情感的文本打上1的标签，包含中性情感的文本打上0的标签，包含消极情感的文本打上2的标签。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：将步骤S2中训练得到的词向量结合，并作为深度学习训练模型的输入，然后利用卷积神经网络提取训练文本中的局部特征；

步骤S32：对于卷积层提取到的局部特征通过卷积神经网络中的池化层将填充后的文本局部特征矩阵送入LSTM神经网络层中获取训练样本中文本的全局特征矩阵；

步骤S33：利用tf-idf算法得到所述中文语料文本的文档词频矩阵；

步骤S34：通过tfidf特征得到的词频矩阵来表示文本的特征矩阵，将该特征矩阵作为神经网络中隐藏层的输入矩阵进行训练得到新的文本特征矩阵；

步骤S35：采用填充的方法拼接具有tfidf特征的矩阵和LSTM层的全局特征矩阵；

步骤S36：利用softmax函数对拼接后的文本特征矩阵进行分类，用以进行情感分析。

进一步地，步骤S33中所述tf-idf算法的具体内容为：

词频TF的计算：文本内每个词出现的次数称为词频，由于文本长度不一通常会对词频进行归一化，词频的计算公式为：

其中，tf_ij表示第i个词在第j个文本的词频值，n_ij表示第j个文本中第i个词出现的次数，

表示第j个文本中所有词的词频总和。考虑到少部分词频较高的词会影响整体的比例，词频归一化后还会进行对数处理，如公式(2)所示：

逆文档频率IDF的计算：设df_i表示含有第i个词的文本总数，N为语料中文本总数，则计算IDF值的公式如下所示：

由公式可知如果一个词在大部分文本中出现，则其对应df_i越大，idf_i越小；

TF-IDF值的计算：将第j个文本中第i个词的TF-IDF值记为tfidf_ij，在TF和IDF基础上，可根据公式(4)直接计算：

tfidf_ij＝tf_ij×idf_i (4)

TF-IDF算法的原理为：如果一个词在单个文本内出现次数越多，其TF-IDF值就越大，如果一个词在多个文档中出现，其TF-IDF值反而下降；因此，TF-IDF算法侧重于剔除频繁出现的词，保留携带重要信息的词。

进一步地，所述步骤S4的具体内容为：对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵；然后通过步骤S3将该测试词向量转化为测试句子向量，将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向分为积极、消极或中性。

与现有技术相比，本发明有以下有益效果：

本发明无需进行复杂的词典构建，减少了人工成本，避免了繁琐的特征工程构建对分类结果的影响，同时将深度学习模型中学习的特征结合了传统的语义信息，增加了分类的准确性。此外，在词向量的训练中将文本自身领域与维基百科的中文语料纳入考虑，提高了词向量对文本语义信息表达的准确性。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于深度学习和TFIDF算法的文本情感分析方法，包括以下步骤：

步骤S3：进行情感分析模型的构建：选取最优的卷积神经网络CNN+LSTM网络+TF-IDF模型来获得文本情感信息矩阵；

步骤S4：进行新语料的预测。

在本实施例中，所述步骤S1的具体包括以下步骤：

步骤S11：中文分词；

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31：将步骤S2中训练得到的词向量结合，并作为深度学习训练模型的输入，然后利用卷积神经网络提取训练文本中(使用的训练样本包含维基百科中文与要进行预测的某个领域的训练样本)的局部特征；

在本实施例中，步骤S33中所述tf-idf算法的具体内容为：

tfidf_ij＝tf_ij×idf_i (4)

在本实施例中，所述步骤S4的具体内容为：对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵；然后通过步骤S3将该测试词向量转化为测试句子向量，将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向分为积极、消极或中性。

较佳的，本实施例先将获取的中文语料及维基百科的中文语料进行文本预处理后，使用word2vec模型分别进行训练，然后结合两者训练的得到的词向量，作为深度学习训练模型的输入，然后使用卷积神经网络CNN获取文本的局部特征，在通过池化层、padding操作，将获取的文本特征送入LSTM神经网络模型中，获取文本的全局特征，结合经过隐藏层训练的tf-idf特征得到句向量的表示，将其送入softmax层进行正负情感极性的分类，达到情感分析的目的。

较佳的，在本实施例中，情感分析模型构建，创新点在于利用卷积神经网络CNN抽取输入文本的局部特征，后并未直接通过隐藏层输出结果矩阵，而是将卷积得到的局部特征通过池化层填充后，送入长短期记忆神经网络LSTM模型中训练文本的全局特征，最后与经过影藏层计算的TFIDF特征矩阵进行拼接，得到组合深度学习分类模型。

较佳的，在本实施例的步骤S3中构建CNN卷积神经网络、LSTM长短时记忆网络以及TFIDF的组合深度学习网络，并加入全连接层以及softmax层，共同构成结合传统TFIDF的深度学习分类模型是：利用不同的卷积核与输入层中的句子矩阵进行卷积操作；将同一尺寸卷积核下的特征值按时间顺序拼接起来，作为长短时记忆网络的输入，通过长短时记忆网络进一步获取文本的上下文关系特征；将经过全连接层得到的向量矩阵与经过隐藏层计算的该评论文本的词语所包含的TF-IDF特征进行拼接得到新的得分向量特征矩阵，当标签的得分向量矩阵经过softmax层后，会计算出分类概率，最终得到分类的类别。

较佳的，在本实施例中，预测新语料：对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵；然后通过步骤S2的方法将该测试词向量转化为测试句子向量，将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向(积极、消极、中性)

较佳的，在本实施例中，

(1)数据预处理：文本的预处理包含标签标注、停用词处理和中文分词三个部分。

中文的每个句子由短语、宾语、介词等不同的词根组成，计算机并不认识一个完整的中文字符串，只有将字符串切分成一个个词才能让其识别语义信息，因而准确地进行文本分词是情感分析的首要步骤，分词工作后需将部分没有实际含义的词语剔除，例如“恩”、“其实”、“也许”等，这类词语被称为停用词。停用词对情感分析工作没有多大帮助，通常需要将文本中每个词与整理好的停用词表对比，如果匹配到停用词，则将该词从文本中去除。本文将哈工大和百度的两个词表融合在一起，去除重复的停用词后整理成新的停用词表，然后根据该词表去除实验数据中的停用词。

文本去除停用词后还需要进行标签处理，即通过浏览每条文本对其进行极性标注。本文将包含积极情感的文本打上“1”的标签，包含中性情感的文本打上“0”的标签，包含消极情感的文本打上“2”的标签。

(2)构建词向量模型：利用Word2Vec工具从维基百科中文语料与该领域文本的大规模数据上训练出Word2Vec模型，讲实验中的词向量训练文本输入词向量模型进行训练，得到词向量生成模型，模型训练完成后，输入词语w，利用模型可以得到与之相对应的词向量矩阵，d为词向量维度，本发明每个向量维度为300。

(3)情感分析模型构建，首先输入要求长度一致，所以句子要截取同样长度，查看长度分布图决定，长度不足补0，根据词典索引获取词语的词向量并将每个评论语句组合成句向量，然后将句向量在保留每个词向量矩阵完整的情况下划分成h区域，h表示该句能表达情感极性的最多词语数目，将划分的各区域独立地作为卷积神经网络的输入矩阵，然后使用长度为L的卷积核对区域做卷积操作，提取每个区域的局部特征，将各个区域的局部特征组合成一个新矩阵,再利用LSTM模型得到输入文本的全局特征，组合经过隐藏层计算的TF-IDF特征得到新的矩阵k，使用softmax函数对矩阵k进行分类。

(4)预测新语料：对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据(2)词向量模型获得该测试评论的词向量输入矩阵；然后通过(3)的方法将该测试词向量转化为测试句子向量，将测试句向量输入到情感分类模型中，计算得到此段评论的情感倾向(积极、消极、中性)。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于深度学习和TFIDF算法的文本情感分析方法，其特征在于：包括以下步骤：

步骤S2：构建词向量模型；利用Word2Vec工具从维基百科中文语料与领域文本的大规模数据上训练出Word2Vec模型，将词向量训练文本输入词向量模型进行训练，得到词向量生成模型，其中词向量生成模型包含信息特征的词向量；

步骤S3：进行情感分析模型的构建；

步骤S4：进行新语料的预测；

述步骤S3具体包括以下步骤：

步骤S31：将步骤S2中训练得到的词向量，并作为深度学习训练模型的输入，然后利用卷积神经网络提取训练文本中的局部特征；

步骤S33：利用tf-idf算法得到中文语料文本的文档词频矩阵；

2.根据权利要求1所述的一种基于深度学习和TFIDF算法的文本情感分析方法，其特征在于：所述步骤S1的具体包括以下步骤：

步骤S11：中文分词；

步骤S12：停用词剔除：分别将步骤S11中得到的维基百科中文语料与领域文本的大规模数据中的每个词与设置的停用词表进行对比，若匹配到停用词则将该词从所述文本中剔除；

步骤S13：对步骤S11中两种文本进行人工标注：将包含积极情感的文本打上1的标签，包含中性情感的文本打上0的标签，包含消极情感的文本打上2的标签。

3.根据权利要求1所述的一种基于深度学习和TFIDF算法的文本情感分析方法，其特征在于：步骤S33中所述tf-idf算法的具体内容为：

词频TF的计算：文本内每个词出现的次数称为词频，由于文本长度不一，对词频进行归一化，词频的计算公式为：

表示第j个文本中所有词的词频总和；考虑到少部分词频较高的词会影响整体的比例，词频归一化后还会进行对数处理，如公式(2)所示：

tfidf_ij＝tf_ij×idf_i (4)。

4.根据权利要求1所述的一种基于深度学习和TFIDF算法的文本情感分析方法，其特征在于：所述步骤S4的具体内容为：对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵；然后通过步骤S3将该测试评论的词向量转化为测试句子向量，将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向分为积极、消极或中性。