CN115659990A

CN115659990A - 烟草情感分析方法、装置及介质

Info

Publication number: CN115659990A
Application number: CN202211386860.4A
Authority: CN
Inventors: 郝燕如; 肖丁; 王锐; 石川; 杨天持
Original assignee: Beijing University of Posts and Telecommunications; Zhengzhou Tobacco Research Institute of CNTC
Current assignee: Beijing University of Posts and Telecommunications; Zhengzhou Tobacco Research Institute of CNTC
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-01-31

Abstract

本发明提供烟草情感分析方法、装置及介质，所述方法包括构建烟草情感分析模型；训练上述烟草情感分析模型；将预分析的文本输入训练后的烟草情感分析模型，获得所述文本的情感极性，所述情感极性包括正向、中性和负向。本发明能够准确有效的预测烟草领域用户评论的情感极性。

Description

烟草情感分析方法、装置及介质

技术领域

本发明涉及烟草技术领域，具体涉及烟草情感分析方法、装置及介质。

背景技术

情感分析是对信息情感倾向的挖掘，主要应用于舆情监测、商品评论分析、信息检索等。越来越多的用户可以在各种社交平台上发表自己的观点和经历，由此产生了大量的感性评论文本数据，具有极高的价值。近年来，对产品评论的情感分析引起了极为广泛关注。

目前主流的情感分析方法基于现有的公共数据集，例如SemEval-2014task4和Twitter。这两个都是英文数据集。他们的领域以餐饮和娱乐为主，不涉及烟草领域。目前，人们对烟草消费的需求正在快速增长。2000年至2019年，国内烟草消费年均增长率达到11.26％。烟草是一个特殊而巨大的领域，但几乎没有围绕它的研究。

当前情感分析的研究方法主要有三类：

第一种是基于情感词典的方法：该方法需要构建领域情感词典，并结合人为设计的规则来确定情感极性。但由于互联网上不断涌现的新词，情感词典无法实时收录，使得情感分析的结果缺乏准确性。同一个词在不同领域的意义和重要性也存在差异，基本的情感词典分析无法解决不同领域的词语差异问题，导致分析结果缺乏准确性。

第二种是机器学习方法。该方法主要训练分类器，如朴素贝叶斯、最大熵、支持向量机(SVM)、逻辑回归等。与基于情感词典的方法相比，机器学习的性能大大提高。但是，它对特征工程的要求很高，不能很好地适应不同领域的不同工作。

第三种是深度学习方法。它主要关注两种类型的卷积神经网络(CNN)和递归神经网络(RNN)，需要有大量的标注数据来训练数据集。相较于机器学习方法，深度学习的领域适用型要强一下，但因为没有烟草领域的数据集来训练，导致在烟草领域的效果比较差。

导致烟草消费领域研究困境的三个主要困难：

第一个是目前没有可供研究的公开烟草数据集。烟草是一个专业领域，基于其他领域公共数据集的研究并不完全适用于烟草领域。数据集的缺乏阻碍了进一步的研究。

第二个难点是网上评论大多是五花八门，风格随意。直接爬取的数据会包含大量的重复数据、错别字、无关内容等无效信息。

第三个难点是一个评论句子可能包含多个方面的评价，每个方面都有不同的情感倾向。尽管基于方面的情感分析可以识别句子中特定方面的情感极性，但现有方法无法判断句子的整体情感极性。例如，句子“包装很漂亮，但味道太差，香味不好，不值这个价”，有四个方面“包装”、“味道”、“香味”和“价格”，它们分别与负面和正面情绪相关。虽然“包装”是正向的，但“味道”“香味”“价格”等其他方面都是负向。

综上，现有研究方法都不能很好地克服烟草数据集的困难，无法在烟草领域取得较好的效果。

发明内容

针对现有技术存在问题中的一个或多个，本发明提供一种烟草情感分析方法，包括：

步骤S1,构建烟草情感分析模型(EHCRNN模型,基于Ernie、HAN、CNN、RNN网络的模型框架)；

步骤S2,训练上述烟草情感分析模型；

步骤S3,将预分析的文本输入训练后的烟草情感分析模型，获得所述文本的情感极性，所述情感极性包括正向、中性和负向；

其中，所述步骤S1包括：

步骤S11,引入多头注意力机制使用预训练模型Ernie来获得词向量矩阵；

步骤S12,将词向量矩阵作为卷积神经网络(CNN)的输入，提取第一特征向量矩阵，将第一特征向量矩阵作为双向长短时记忆网络(BiLSTM,基于RNN)的输入，获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到第一特征向量矩阵获得第二特征向量矩阵；

步骤S13,通过层次注意力网络(HAN)获得上述第二特征向量矩阵的语义级注意力和词级注意力，通过第二特征向量矩阵、语义级注意力和词级注意力的加权组合获得第三特征向量矩阵；

步骤S14,通过softmax函数预测第三特征向量矩阵的情感极性。

本发明在词向量矩阵中引入多头注意力机制，CNN和BiLSTM后通过层次注意力网络也引入了注意力，实现了CNN和BiLSTM的融合和拓展，提高特征提取的准确性和速度。

根据本发明的一个方面，所述步骤S11包括：

对文本中的句子做标记，形成文本序列，所述标记包括[CLS]和[SEP]，[CLS]表示放在一个句子的首位，[SEP]用于分开两个输入句子，优选地，所述文本序列为{[CLS],w₁,w₂,…,w_n,[SEP]}，n表示句子的长度，w_n为句子中第n个词；

将原始词、片段和序列位置嵌入上述文本序列；

引入多头注意力获得嵌入后文本序列中不同句子中不同词之间的相关性及重要性,优选地，通过下式获得不同句子中不同词之间的相关性及重要性:

其中，Q(Query，查询),K(Key，键),V(Value，值)是输入词向量矩阵，d_k是输入词向量维度，QK^T为每个词与其他词的相关性，

为词向量的加权和，为不同句子中不同词的重要性，加权和越大，重要性越重要；R_A为注意力操作，r为多头注意力中的头表示；

将Ernie输出的隐变量矩阵作为词向量矩阵,优选地，隐变量矩阵为H∈R^n×h，其中，h表示Ernie的隐变量维数。

本发明利用动态预训练语言模型Ernie可根据上下文生成词的语义特征信息。Ernie直接对先验语义知识单元进行建模，增强了模型语义表示能力。在模型设计中引入Ernie生成语义特征信息，能有效地解决烟草领域中文字词汇信息一词多义的问题，从而提高烟草领域文字词汇敏感信息识别的准确性。

根据本发明的一个方面，所述步骤S12包括：

将Ernie输出的词向量作为卷积神经网络(CNN)的输入，提取特征，获得第一特征向量矩阵，优选地，采用不同尺寸的卷积核提取特征，进一步优选地，所述不同尺寸的卷积核分别为2、3和4；优选地，卷积神经网络(CNN)的各个层之间采用非线性激活函数ReLU，优选地，通过下式过得第一特征向量矩阵：

C_i＝ReLU(w·x_i:i+d-1+b)＝max(0,w·x_i:i+d-1+b)

其中，w为权重项，x_i:i+d-1表示词向量矩阵的第i行到第i+d-1行的词向量，b为偏置项，C_i为第一特征向量矩阵的第i个特征向量；

对第一特征向量矩阵进行最大池化，优选地，通过下式对第一特征向量矩阵进行最大池化：

C^*＝max(C₁,C₂,…C_n-d+1)

其中，C^*为池化后的第一特征向量矩阵的特征向量；

将最大池化后的第一特征向量矩阵作为双向长短时记忆网络(BiLSTM)的输入，获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到最大池化后的第一特征向量矩阵获得第二特征向量矩阵。

本发明通过CNN和LSTM可以深层次提取句子级词向量表示，能够对Ernie增强后的表征进一步抽象，上下文语义特征提取和抽象，提高特征的表达能力。LSTM能够很好的解决RNN梯度消失和梯度爆炸的问题，本发明中的BiLSTM由两个LSTM网络组成，一个正向的LSTM收集利用过去的信息，一个逆向的LSTM可以利用未来的信息，这样在时刻t，既能够使用t-1时刻的信息，又能够利用到t+1时刻的信息。因此BiLSTM捕获更多的信息，更好的预测和分类序列数据。

根据本发明的一个方面，所述步骤S13包括：

通过下式获得第三特征向量矩阵：

u_i＝tanh(W_sh_i+b_s)

其中，W_s为第二特征向量矩阵，h_i为第i个句子的向量表示，b_s为偏置项，u_s是一个随机初始化的向量，α_i为重要性权重，v_i得到的第i个句子的基于权重的加权向量表示,也是第三特征向量矩阵的第i个特征向量。

本发明通过层次注意力网络(HAN)能够同时利用语义级注意力和词级注意力，同时学习句子和单词的重要性，并通过相应的聚合操作获得最终的权重分配。因此，本发明引入了层次注意力网络(HAN)在词汇和句子两个层次上做权重分布，能够捕获更多的重要信息，极大增强了模型的文本特征提取能力，提升文本分类识别准确度。

根据本发明的一个方面，所述步骤S14包括：

使用softmax通过下式预测第三特征向量矩阵的情感极性：

其中,M为第三特征向量矩阵的特征向量的个数。

本发明结合softmax能够根据概率给出分类预测结果，从而达到文本情感分析的效果。

根据本发明的一个方面，所述步骤S2之前还包括构建烟草数据集。

根据本发明的一个方面，所述构建烟草数据集的步骤包括：

采集关于烟草的多个评论文本；

采用不同方式对上述多个评论文本进行标注，所述不同方式包括情感词典和SnowNLP；

筛选出不同方式标注一致的标注。

在人工智能领域，机器学习和深度学习模型依赖数据集中大量的标注进行训练，然而制作大量已标注的训练样本是非常困难的，人力成本昂贵，时间成本较大。现实情况下往往只有少量标注数据和大量的无标注数据。本发明能够节省大量的人力成本，快速构建新型领域的数据集，从而供以开展进一步的研究。

根据本发明的一个方面，所述构建烟草数据集的步骤还包括：

对标注不一致的标注进行交叉验证。

根据本发明的一个方面，所述步骤S2包括：

采用交叉熵损失和L2正则化损失之和作为损失函数；

将烟草数据集输入烟草情感分析模型进行训练；

将最小损失函数对应的烟草情感分析模型作为训练后的烟草情感分析模型。

根据本发明的一个方面，还包括：

将烟草数据集分为训练集、验证集和测试集；

通过上述训练集对烟草情感分析模型进行训练；

通过验证集参数调优；

通过测试集评估参数调优后的烟草情感分析模型，所述评估指标包括准确率、精度、查全率和f1-score中的一种或多种。

根据本发明的一个方面，所述采用不同方式对上述多个评论文本进行标注的步骤包括：

建立数据库，所述数据库包括基础情感词典、程度副词词典、连词词典、否定词词典、停用词词典和烟草情感词典；

对评论文本进行分句和分词，获得评论文本中的每个句子、每个句子中的每个子句以及每个句子和每个子句中的每个词，优选地，利用jieba对子句进行分词；

通过数据库分析句子中否定词对情感词的修饰关系；

通过数据库分析每个句子的倾向值；

对每个句子的倾向值进行累加，获得评论文本的正向情感倾向分值和负向情感倾向分值；

使用Sigmoid函数获得评论文本的情感倾向、正向情感倾向程度和负向情感倾向程度。

机器学习模型在未受过特定领域数据集训练时得出的结果会收到领域适配性限制，上述方式利用词典和规则的方式进行情感分析，能够在没有注释的情况下得出适用于特定领域的情感分析结果。

根据本发明的一个方面，所述建立数据库的步骤包括：

通过LDA主题模型采取评论文本的主题；

根据上述主题初始化属性词词典；

采用word2vec获得初始化后属性词词典中词向量之间的距离；

将距离大于设定值的词向量进行主题归类，构建烟草情感词典，优选地，所述设定值为0.8；

构建基础情感词典、程度副词词典、连词词典、否定词词典、停用词词典。

优选地，采用知网情感词典作为基础情感词典。

优先地，采用哈工大停用词词典作为停用词词典

优选地，利用互联网中连词词表、否定词词表通过数据处理整理为连词词典和否定词词典。

优选地，根据知网HowNet程度级别词语构建程度副词词典，按极量、高量、中高量、中量和低量进行权重赋值，得到程度副词词典。

根据本发明的一个方面，所述通过数据库分析句子中否定词对情感词的修饰关系的步骤包括：

利用烟草情感词典、程度副词词典、连词词典、以及否定词词典识别评论文本中的情感词、程度副词、否定词以及转折连词，并嵌入情感词、程度副词、否定词以及转折连词的位置；

获得每个程度副词和每个否定词；

将与每个程度副词距离最近的一个情感词作为所述程度副词的修饰目标；

将与每个否定词距离最近的一个情感词作为所述否定词的修饰目标；

根据否定词的数量确定修饰关系，当否定词在句子中出现的次数是奇数时，所述否定词对情感词的修饰关系为否定；当否定词在句子中出现的次数是偶数时，所述否定词对情感词的修饰关系为肯定。

本发明利用上述规则匹配中文文本用法，提升情感词典分析模型的准确性。

根据本发明的一个方面，所述通过数据库分析每个句子的倾向值的步骤包括：

通过下式获得每个子句的情感分值

其中，I表示否定词对情感词的修饰关系，D表示程度副词的分值，S_w、S_sen分别表示情感词和子句的情感分值，z表示转折连词的数量；

当句子包括多个子句，正向情感分值的子句和负向情感分值的子句都不为0时，降低正向情感分值或/和增大负向情感分值；

当转折连词不为0时，增大转折连词后的子句的情感分值或/和降低转折连词前子句的情感分值。

根据本发明的一个方面，所述使用Sigmoid函数获得评论文本的情感倾向、正向情感倾向程度和负向情感倾向程度的步骤包括：

通过下式获得评论文本的情感倾向、正向情感倾向程度和负向情感倾向程度

其中，

表示评论文本的正向情感分值和负向情感分值，P_p、P_n表示正向情感分值和负向情感分值的百分比，百分比越大，情感倾向程度越大。

根据本发明的第二个方面，提供一种烟草情感分析系统，包括：

模型构建部，构建烟草情感分析模型；

训练部,训练上述模型构建部构建的烟草情感分析模型；

预测部,将预分析的文本输入训练部训练后的烟草情感分析模型，获得所述文本的情感极性，所述情感极性包括正向、中性和负向；

其中，所述模型构建部包括嵌入层、特征提取层、层次注意力网络和情感极性分析模型，所述嵌入层引入多头注意力机制使用预训练模型Ernie来获得词向量矩阵；所述特征提取层包括卷积神经网络(CNN)和双向长短时记忆网络(BiLSTM)，所述嵌入层的词向量矩阵为卷积神经网络(CNN)的输入，所述卷积神经网络提取第一特征向量矩阵，所述第一特征向量矩阵为双向长短时记忆网络(BiLSTM)的输入，所述双向长短时记忆网络获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到第一特征向量矩阵获得第二特征向量矩阵；所述层次注意力网络提取特征提取层输出第二特征向量矩阵的语义级注意力和词级注意力，将第二特征向量矩阵、语义级注意力和词级注意力的加权组合获得第三特征向量矩阵；所述情感极性分析模型通过softmax函数预测所述层次注意力网络输出的第三特征向量矩阵的情感极性。

根据本发明的第三个方面，提供一种电子装置，包括存储器和处理器，所述存储器中存储有烟草情感分析程序，所述烟草情感分析程序被所述处理器执行时实现如上述述烟草情感分析方法的步骤。

根据本发明的第四个方面，提供一种计算机可读存储介质，所述计算机可读存储介质中包括有烟草情感分析程序，所述烟草情感分析程序被处理器执行时，实现上述烟草情感分析方法的步骤。

Hochreiter等人提出的LSTM(Long short-term memory长短期记忆)模型，该模型在可以接收并处理不同长度的语句序列，并捕捉出其中的文本特征，但不适用于进行并行计算。

Kim提出的CNN模型也可用于情感分析，CNN更加支持并行计算，但其局部和实体之间的负相关会对模型有影响，在经过几层池化之后，词的位置特征也会丢失，预测结果会受到不利影响。

Ernie模型利用大量数据集来进行无监督学习的预训练，预训练后的调优是利用特定的数据集来训练以适用于特性场景。许多场景下Ernie能取得比LSTM和CNN更好的效果，但它只是图谱机制，不适用于知识驱动型的NLP任务，经过实验证明其在烟草领域情感分析方面不如基于知识增强的网络模型。

综上所述，现有技术主要利用文本特征提取信息，没有考虑到文本中语义知识实体的识别、上下文关联的文本特征提取、以及文本语义推理等问题，因此对于烟草领域的情感分析问题，现有技术中的几种方法都不够准确。

本发明烟草情感分析系统结合了最近自然语言处理的优势，包括嵌入层、特征提取层、层次注意力网络和情感极性分析模型。本发明烟草情感分析方法采用预训练的Ernie模型来嵌入输入，主要由卷积神经网络(CNN)和双向长短时记忆网络(BiLSTM)的卷积和池化进行特征提取，可以有效地捕捉和利用上下文信息，层次注意力网络(HAN)关注词语和句子两个层次，增强了模型的文本特征提取能力，使用softmax来预测句子的情感极性，考虑到文本中语义知识实体的识别、上下文关联的文本特征提取、以及文本语义推理，能够准确有效的预测烟草领域用户评论的情感极性。

本发明不仅在全新的烟草数据集上验证了本发明的EHCRNN模型，还选择了公开的NLPCC2014任务数据集进行实验验证，实验表明，本发明在烟草数据集和公开的数据集上都优于现有技术的模型。

本发明还构建了完备的烟草数据集。

附图说明

图1是本发明所述的烟草情感分析方法的一个实施例的流程示意图；

图2是本发明所述的构建烟草情感分析模型的方法的一个实施例的流程示意图；

图3是本发明所述构建烟草数据集的方法的一个实施例的流程示意图；

图4是本发明所述采用情感词典对多个评论文本进行标注的方法的一个实施例的流程示意图；

图5是本发明所述烟草情感分析系统的一个实施例的构成框图的示意图；

图6是输入大小与准确率的坐标图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1是本发明所述的烟草情感分析方法的一个实施例的流程示意图，如图1所示，所述烟草情感分析方法包括：

步骤S1,构建烟草情感分析模型；

步骤S2,训练上述烟草情感分析模型；

步骤S3,将预分析的文本输入训练后的烟草情感分析模型，获得所述文本的情感极性，所述情感极性包括正向、中性和负向，例如烟草情感分析模型输出值为0，表示情感极性为负向；烟草情感分析模型输出值为1，表示情感极性为中性；烟草情感分析模型输出值为2，表示情感极性为正向。

在一个实施例中，如图2所示，所述步骤S1包括：

步骤S12,将词向量矩阵作为卷积神经网络(CNN)的输入，提取第一特征向量矩阵，将第一特征向量矩阵作为双向长短时记忆网络(BiLSTM)的输入，获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到第一特征向量矩阵获得第二特征向量矩阵；

步骤S13,通过层次注意力网络获得上述第二特征向量矩阵的语义级注意力和词级注意力，通过第二特征向量矩阵、语义级注意力和词级注意力的加权组合获得第三特征向量矩阵；

步骤S14,通过softmax函数预测第三特征向量矩阵的情感极性。

本发明CNN得到的混合向量作为LSTM的输入序列，丰富了提取语义特征和充分利用上下文信息，对LSTM模型采用双向处理得到BiLSTM，前向LSTM用于对上述信息进行建模，后向LSTM用于对以下信息进行建模，得到上下文相关的文本表示。本发明采用多层注意力网络，在词汇和句子两个层次上做权重分布，在CNN的输出以及BiLSTM都利用注意力网络，以增强模型的文本特征提取能力。多层注意力网络同时利用语义级注意力和词级注意力，同时学习句子和单词的重要性，并通过相应的聚合操作获得最终的权重分配。将BiLSTM处理后的输出输入到HAN层，可以有效提高分类精度。

在一个实施例中，步骤S11包括：

将原始词、片段和序列位置嵌入上述文本序列；

为词向量的加权和，为不同句子中不同词的重要性，加权和越大，重要性越重要；R_A为注意力操作，r为多头注意力中的头表示；也就是说，通过QK^T获得输入序列中每个词与其他词的关系，通过

进行向量压缩，然后通过softmax函数进行归一化，得到词向量的加权和，从而反映不同句子序列中不同词之间的相关性及其重要性。

Ernie输出隐变量矩阵作为词向量矩阵,优选地，隐变量矩阵为H∈R^n×h，其中，h表示Ernie的隐变量维数。

在一个实施例中，所述步骤S12包括：

C_i＝ReLU(w·x_i:i+d-1+b)＝max(0,w·x_i:i+d-1+b)

C^*＝max(C₁,C₂,…C_n-d+1)

其中，C^*为池化后的第一特征向量矩阵的特征向量；

在一个实施例中，所述步骤S13包括：

通过下式获得第三特征向量矩阵：

u_i＝tanh(W_sh_i+b_s)

其中，W_s为第二特征向量矩阵，h_i为第i个句子的向量表示，b_s为偏置项，u_s是一个随机初始化的向量，α_i为重要性权重，v_i得到的第i个句子的基于权重的加权向量表示,也是第三特征向量矩阵的第i个特征向量；其中u_i是h_i的属性表示，u_i是上下文向量，可以在训练时随机初始化和一起学习，v_i表示h_i的重要性加权求和得到的高层表示，是整个文本的向量表示，概括了整个文本中句子的所有信息。

在一个实施例中，所述步骤S14包括：

使用softmax通过下式预测第三特征向量矩阵的情感极性：

其中,M为第三特征向量矩阵的特征向量的个数。通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布，选择概率最高的作为输出。

在一个实施例中，所述步骤S2训练烟草情感分析模型之前还包括构建烟草数据集。

图3是本发明所述构建烟草数据集的方法的一个实施例的流程示意图，如图3所示，所述构建烟草数据集的方法包括：

步骤S100,采集关于烟草的多个评论文本；

步骤S300,采用不同方式对上述多个评论文本进行标注，所述不同方式包括情感词典和SnowNLP；

步骤S400,筛选出不同方式标注一致的标注。

在一个实施例中，在步骤S300之前还包括步骤S200,对采集的多个评论文本上进行数据预处理，所述数据预处理包括以下步骤中的一个或多个：

删除重复评论、无用评论或/和广告；

修正或删除错别字；

将繁体字修改为简体字，例如，采集https://www.yanyue.cn上的帖子，论坛上的评论是随机的，大部分评论都是非标准语言，语法结构混乱，文本包含错别字、繁体字、重复评论、无用评论、广告等，经过一系列数据预处理，得到在线有效评论75610条。

在一个实施例中，所述步骤S400包括：

判断不同方式对多个评论文本的标注是否一致；

如果标注一致，则认为标注可靠，加入烟草数据集

如果标注不一致，对标注不一致的标注进行交叉验证。

图4是本发明所述采用情感词典对多个评论文本进行标注的方法的一个实施例的流程示意图，如图4所示，所述采用情感词典对多个评论文本进行标注的方法包括：

步骤S310,建立数据库，所述数据库包括基础情感词典、程度副词词典、连词词典、否定词词典、停用词词典和烟草情感词典；

步骤S320,对评论文本进行分句和分词，获得评论文本中的每个句子、每个句子中的每个子句以及每个句子和每个子句中的每个词，例如，根据标点符号将读入的文本数据分割为多个子句，利用jieba对子句进行分词；

步骤S330,通过数据库分析子句中否定词对情感词的修饰关系，利用情感词词典、程度副词词典以及否定词词典识别子句中的情感词(W1,W2,…,Wn)、程度副词(D1,D2,…,Dn)和否定词(I1,I2,…,In)以及转折连词(Z1，Z2,…，Zn)，并记录其位置，根据每个程度副词和否定词，并将该方向最近的一个情感词作为其修饰目标，并根据否定词的数量确定修饰关系；

步骤S340,通过数据库分析每个句子的倾向值；

步骤S350,对每个句子的倾向值进行累加，获得评论文本的正向情感倾向分值和负向情感倾向分值；

步骤S360,为了使文本情感倾向分值能够表征该文本的倾向程度，使用Sigmoid函数获得评论文本的情感倾向、正向情感倾向程度和负向情感倾向程度。

在一个实施例中，所述步骤S310建立数据库的步骤包括：

通过LDA主题模型采取评论文本的主题；

根据上述主题初始化属性词词典；

采用word2vec获得初始化后属性词词典中词向量之间的距离；

优选地，采用知网情感词典作为基础情感词典；优先地，采用哈工大停用词词典作为停用词词典；优选地，利用互联网中连词词表、否定词词表通过数据处理整理为连词词典和否定词词典；优选地，根据知网HowNet程度级别词语构建程度副词词典，按极量、高量、中高量、中量和低量进行权重赋值，得到程度副词词典。

本发明采用LDA主题模型进行主题建模输出词典，为了更符合烟草领域的情感分析，通过自定义主题与初始化属性词词典，采用word2vec词向量之间的距离，将距离大于0.8的属性选择出来进行主题归类，融合两个词典得出烟草领域主题情感词典，结合基础情感词典、程度副词词典、连词词典、否定词词典和停用词词典并进行情感分析。

在一个实施例中，所述步骤S330通过数据库分析句子中否定词对情感词的修饰关系的步骤包括：

获得每个程度副词和每个否定词；

在一个实施例中，所述步骤S340通过数据库分析每个句子的倾向值的步骤包括：

通过下式获得每个子句的情感分值

其中，I表示否定词对情感词的修饰关系，D表示程度副词的分值(程度副词词典中有分值)，S_w、S_sen分别表示情感词和子句的情感分值(烟草情感词典中有情感分值)，z表示转折连词的数量；

本发明通过数据库分析每个句子的倾向值更加符合网络用语的习惯，一句话同时表述正向和负向的同时，负向的倾向通常要大于正向，因此，当正向负向的情感分值都不为0时，降低正向的情感得分。转折连词表转折的部分情感倾向更加显，因此转折句得分提高，转折前的部分分值降低。

在一个实施例中，所述步骤S360使用Sigmoid函数获得评论文本的情感倾向、正向情感倾向程度和负向情感倾向程度的步骤包括：

其中，

表示评论文本的正向情感分值和负向情感分值，P_p、P_n表示正向情感分值和负向情感分值的百分比。

在一个实施例中，所述步骤S2训练烟草情感分析模型包括：

采用交叉熵损失和L2正则化损失之和作为损失函数，优选地，采用下式获得交叉熵损失和L2正则化损失

p＝softmax(W_cv_i+b_c)

其中，p为交叉熵损失，v_i为第三特征向量矩阵的第i个特征向量，W_c为v_i权重向，b_c为v_i偏置项，Ein是没有正则化的训练样本误差，λ是正则化参数，可以调整，w_j为权重参数；

将烟草数据集输入烟草情感分析模型进行训练；

在一个实施例中所述构建烟草数据集的步骤还包括：

将烟草数据集分为训练集、验证集和测试集；

通过上述训练集对烟草情感分析模型进行训练；

通过验证集参数调优，例如，利用网格化寻优方法对learning_rate(学习率),batch_size(批量大小)等超参数和卷积核大小等算法参数调优；

图5为本发明所述烟草情感分析系统的一个实施例的构成框图的示意图，如图5所示，所述烟草情感分析系统包括：

模型构建部1，构建烟草情感分析模型；

训练部2,训练上述模型构建部构建的烟草情感分析模型；

预测部3,将预分析的文本输入训练部训练后的烟草情感分析模型，获得所述文本的情感极性，所述情感极性包括正向、中性和负向；

其中，所述模型构建部1包括嵌入层11、特征提取层12、层次注意力网络13和情感极性分析模型14，所述嵌入层引入多头注意力机制使用预训练模型Ernie来获得词向量矩阵；所述特征提取层包括卷积神经网络(CNN)和双向长短时记忆网络(BiLSTM)，所述嵌入层的词向量矩阵为卷积神经网络(CNN)的输入，所述卷积神经网络提取第一特征向量矩阵，所述第一特征向量矩阵为双向长短时记忆网络(BiLSTM)的输入，所述双向长短时记忆网络获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到第一特征向量矩阵获得第二特征向量矩阵；所述层次注意力网络提取特征提取层输出第二特征向量矩阵的语义级注意力和词级注意力，将第二特征向量矩阵、语义级注意力和词级注意力的加权组合获得第三特征向量矩阵；所述情感极性分析模型通过softmax函数预测所述层次注意力网络输出的第三特征向量矩阵的情感极性。

本发明所述烟草情感分析系统嵌入层使用最新的预训练模型Ernie来获得词向量矩阵，然后采用基于CNN和RNN思想的特征提取层来捕获上下文信息。接下来，引入层次注意力机制来分层关注重要的单词和句子，并嵌入输入文本。最后，使用情感分类模块来预测句子的情感极性。

在一个实施例中，嵌入层将输入的句子做标记(例如，使用Word Piece方法将输入的句子做标记)。在文本序列中添加[CLS]和[SEP]特殊标记，从而形成文本序列为{[CLS],w₁,w₂,…,w_n,[SEP]}。每个子词的最终嵌入是通过结合其原始词嵌入、片段嵌入和序列位置嵌入来生成的。在Ernie模型的编码器结构中引入多头注意力机制，经过Ernie处理后，输出为H∈R^n×h，长截断，短补长。

在一个实施例中，特征提取层融合了CNN和RNN的思想，能够更加有效地捕捉和利用上下文信息。Ernie编码器层输出的H被发送到多个CNN，每个CNN都包含卷积和池化操作。在一个实施例中，CNN具有3种尺寸的卷积核：(2,3,4)，每个尺寸有100个卷积核来提取特征。对于卷积窗口大小为d的卷积核w∈R^d×h：

C_i＝ReLU(w·x_i:i+d-1+n)

其中激活函数使用非线性激活函数ReLU，ReLU函数为ReLU(x)＝mαx(0,x)，x_i:i+d-1表示输入向量从位置i到位置i+d-1的段。

池化操作使用最大池化，用于提取最明显的特征，

C^*＝max(C₁,C₂,…C_n-d+1)

CNN得到的混合向量作为LSTM的输入序列。无了更丰富提取语义特征和充分利用上下文信息，对LSTM模型采用双向处理得到BiLSTM，前向LSTM用于对上述信息进行建模，后向LSTM用于对以下信息进行建模，得到上下文相关的文本表示。

在一个实施例中，层次注意力网络在词汇和句子两个层次上做权重分布，在CNN的输出以及BiLSTM都利用注意力网络，以增强模型的文本特征提取能力。

多层注意力网络同时利用语义级注意力和词级注意力，同时学习句子和单词的重要性，并通过相应的聚合操作获得最终的权重分配。将BiLSTM处理后的输出输入到HAN，可以有效提高分类精度：

在一个实施例中，情感极性分析模型包括一个线性层和一个softmax层，不同权重的文本特征信息送到softmax层，以预测情感极性作为最终输出。Softmax用于对输出的概率进行归一化，最后选择概率最高的单元作为输出。在softmax之前执行了另一个dropout(构成线性层)。

由于烟草的论坛性质，更多的人愿意推荐好的产品和分享经验，其次是抱怨不好的产品。本发明通过数据处理和标注得到了38244个正面文本、16572个中性文本和20794个负面文本。中性句尤其少见。由于数据类别不平衡更符合互联网的实际情况，不进行数据类别平衡处理。最终烟草数据集中共有75610条数据，按照8:1:1的比例划分训练集、验证集和测试集，训练集用于模型训练，验证集用于参数调优，测试集用于评估，本发明烟草数据集的统计数据如表1所示。

表1

为了保证结果的可靠性，本发明选择nlpcc2014情感分析任务的公共数据集来验证有效性。这些评论来自多个领域，例如书籍、DVD和电子产品。将数据集分为训练集、验证集和测试集。数据集的详细信息如表2所示。

表2

在所有实验中，本发明使用搜狗新闻(https://github.com/Embedding/Chinese-Word-Vectors)预训练的300维词向量来初始化非Bert模型的词嵌入向量。本发明使用Adam优化器来训练这些模型。本发明将所有层的dropout概率设置为0.1，最大序列长度为128，batch size设置为64，学习率设置为5e^-5。评估指标包括准确率ACC、查准率precision、查全率re-call、综合指数f1-score反映有效性。

准确率：

精度：

查全率：

综合指数：

其中，TP：被模型预测为正类的正样本；TN：被模型预测为负类的负样本；FP：被模型预测为正类的负样本；FN：被模型预测为负类的正样本。

在公开的数据集和烟草特定领域数据集上都进行了实验评估，并与当前众多先进的研究方法进行比较，本发明烟草情感分析方法都取得了更好更出色的结果。实验结果如表3所示：

表3

首先，实验结果表明本发明始终优于现有技术的所有基线模型。在烟草数据集上，本发明相较于第二好的Ernie模型结果提升了约为3.2％，在公开的nlpcc2014任务数据集上，本发明结果提升了约为2.6％。本发明输出了正向、中性和负向三种类型的准确率、召回率和f1-score指标值。可以看出，现有技术的基线模型对于中性情感的预测结果通常是不准确的。由于数据不平衡，差距过大，中性句子准确率低于预期，同时也证明了准确率随着训练数据量的增加而增加。本发明可以准确地预测正向和负向情绪，同时将中性句子的准确率提高了7.54％。

本发明还进行了消融实验，具体地：试验进一步研究证明了本发明的各个不同组件对模型表现的影响，没有特征提取层和层次注意力机制的Ernie模型作为消融实验的基准模型。在基准模型的基础上，分别加入CNN、BiLSTM、HAN网络层作为变体，用于研究本发明的不同部分的影响。在模型的分类部分前插入CNN，得到Ernie-CNN模型，类似的，插入BiLSTM得到Ernie-LSTM模型。此外，本发明还使用bert替换Ernie，将这些消融模型在数据集上进行验证，并得出其准确性和F1-score消融实验结果如表4所示。

表4

由表4可知，以Ernie为编码的模型效果明显优于以bert为编码的模型，证明了预训练模型Ernie的有效性。此外，Ernie-CNN-LSTM较基线模型表现更好，表明了CNN和LSTM结合的有效性。在添加层次注意力机制后，就得到了本文的EHCRNN模型，并在各个数据集上获得显著的性能提升，不仅表明了层次注意力机制在聚合序列信息方面的有效性，还表明了EHCRNN模型结构设计的有效性。

本发明还进行了参数估计，具体地：本发明实验了不同参数对模型结果的影响。参数评估实验是在nlpcc2014任务数据集上进行的。从图6可以看出，当输入大小从64变为128时，准确率有明显提升，但是当从128变为150时，提升并不明显。由于句子长度不同，输入padding size(填充的数量)采用短补长切的方法，可能会截断句子中的重要内容。时间过长可以带来轻微的提升，但是会给服务器带来压力，大大增加运行时间。所以输入大小为128是，模型可获得最佳性能。

本发明结合预训练模型Ernie和深度学习网络的优势，并引入了分层注意力网络，提出了一个情感分析模型EHCRNN。在全新的烟草数据集和公开数据集nlpcc2014任务数据集上的实验结果都表明，本发明烟草情感分析方法比目前研究中的算法模型有更好的分类结果。

本发明提供的烟草情感分析方法，应用于一种电子装置。在本实施例中，电子装置可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端。

该电子装置包括存储器、处理器、网络接口及通信总线。

存储器包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置的内部存储单元，例如该电子装置的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置的外部存储器，例如所述电子装置上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器的可读存储介质通常用于存储安装于所述电子装置的烟草情感分析程序等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

处理器在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器中存储的程序代码或处理数据，例如执行烟草情感分析程序等。

网络接口可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置与其他电子用户端之间建立通信连接。

通信总线用于实现这些组件之间的连接通信。

上述实施例仅示出电子装置的一个实施例，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的用户端、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置还可以包括显示器，显示器也可以称为显示屏或显示单元。

在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

可选地，该电子装置还可以包括逻辑门电路，传感器、音频电路等等，在此不再赘述。

本发明提供的烟草情感分析方法应用于一种计算机存储介质的存储器中，可以包括烟草情感分析程序，被处理器执行时，实现上述各实施例的烟草情感分析方法。

上述烟草情感分析程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器中，并由处理器执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

本发明之计算机可读存储介质的具体实施方式与上述烟草情感分析方法、系统、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端用户端(可以是手机，计算机，服务器，或者网络用户端等)执行本发明各个实施例所述的方法。

上述为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种烟草情感分析方法，其特征在于，包括：

步骤S1,构建烟草情感分析模型；

步骤S2,训练上述烟草情感分析模型；

其中，所述步骤S1包括：

步骤S12,将词向量矩阵作为卷积神经网络的输入，提取第一特征向量矩阵，将第一特征向量矩阵作为双向长短时记忆网络的输入，获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到第一特征向量矩阵获得第二特征向量矩阵；

步骤S14,通过softmax函数预测第三特征向量矩阵的情感极性。

2.根据权利要求1所述的烟草情感分析方法，其特征在于，所述步骤S11包括：

将原始词、片段和序列位置嵌入上述文本序列；

其中，Q、K、V是输入词向量矩阵，d_k是输入词向量维度，QK^T为每个词与其他词的相关性，

3.根据权利要求1所述的烟草情感分析方法，其特征在于，所述步骤S12包括：

将Ernie输出的词向量作为卷积神经网络的输入，提取特征，获得第一特征向量矩阵，优选地，采用不同尺寸的卷积核提取特征，进一步优选地，所述不同尺寸的卷积核分别为2、3和4；优选地，卷积神经网络的各个层之间采用非线性激活函数ReLU，优选地，通过下式过得第一特征向量矩阵：

C_i＝ReLU(w·x_i：i+d-1+b)＝max(0，w·x_i：i+d-1+b)

其中，w为权重项，x_i：i+d-1表示词向量矩阵的第i行到第i+d-1行的词向量，b为偏置项，C_i为第一特征向量矩阵的第i个特征向量；

C^*＝max(C₁，C₂，...C_n-d+1)

其中，C^*为池化后的第一特征向量矩阵的特征向量；

将最大池化后的第一特征向量矩阵作为双向长短时记忆网络的输入，获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到最大池化后的第一特征向量矩阵获得第二特征向量矩阵；

优选地，所述步骤S13包括：

通过下式获得第三特征向量矩阵：

u_i＝tanh(W_sh_i+b_s)

其中，W_s为第二特征向量矩阵，h_i为第i个句子的向量表示，b_s为偏置项，u_s是一个随机初始化的向量，α_i为重要性权重，v_i得到的第i个句子的基于权重的加权向量表示，也是第三特征向量矩阵的第i个特征向量；

优选地，所述步骤S14包括：

使用softmax通过下式预测第三特征向量矩阵的情感极性：

其中，M为第三特征向量矩阵的特征向量的个数。

4.根据权利要求1所述的烟草情感分析方法，其特征在于，所述步骤S2之前还包括构建烟草数据集；

优选地，所述构建烟草数据集的步骤包括：

采集关于烟草的多个评论文本；

筛选出不同方式标注一致的标注；

优选地，所述构建烟草数据集的步骤还包括：

对标注不一致的标注进行交叉验证；

优选地，所述步骤S2包括：

采用交叉熵损失和L2正则化损失之和作为损失函数；

将烟草数据集输入烟草情感分析模型进行训练；

5.根据权利要求4所述的烟草情感分析方法，其特征在于，还包括：

将烟草数据集分为训练集、验证集和测试集；

通过上述训练集对烟草情感分析模型进行训练；

通过验证集参数调优；

6.根据权利要求4所述的烟草情感分析方法，其特征在于，所述采用不同方式对上述多个评论文本进行标注的步骤包括：

通过数据库分析句子中否定词对情感词的修饰关系；

通过数据库分析每个句子的倾向值；

7.根据权利要求6所述的烟草情感分析方法，其特征在于，所述建立数据库的步骤包括：

通过LDA主题模型采取评论文本的主题；

根据上述主题初始化属性词词典；

采用word2vec获得初始化后属性词词典中词向量之间的距离；

构建基础情感词典、程度副词词典、连词词典、否定词词典、停用词词典；

优选地，所述通过数据库分析句子中否定词对情感词的修饰关系的步骤包括：

获得每个程度副词和每个否定词；

根据否定词的数量确定修饰关系，当否定词在句子中出现的次数是奇数时，所述否定词对情感词的修饰关系为否定；当否定词在句子中出现的次数是偶数时，所述否定词对情感词的修饰关系为肯定；

优选地，所述通过数据库分析每个句子的倾向值的步骤包括：

通过下式获得每个子句的情感分值

当转折连词不为0时，增大转折连词后的子句的情感分值或/和降低转折连词前子句的情感分值；

优选地，所述使用Sigmoid函数获得评论文本的情感倾向、正向情感倾向程度和负向情感倾向程度的步骤包括：

其中，

8.一种烟草情感分析系统，其特征在于，包括：

模型构建部，构建烟草情感分析模型；

训练部,训练上述模型构建部构建的烟草情感分析模型；

其中，所述模型构建部包括嵌入层、特征提取层、层次注意力网络和情感极性分析模型，所述嵌入层引入多头注意力机制使用预训练模型Ernie来获得词向量矩阵；所述特征提取层包括卷积神经网络和双向长短时记忆网络，所述嵌入层的词向量矩阵为卷积神经网络的输入，所述卷积神经网络提取第一特征向量矩阵，所述第一特征向量矩阵为双向长短时记忆网络的输入，所述双向长短时记忆网络获得语义特征和上下文信息，将所述语义特征和上下文信息嵌入到第一特征向量矩阵获得第二特征向量矩阵；所述层次注意力网络提取特征提取层输出第二特征向量矩阵的语义级注意力和词级注意力，将第二特征向量矩阵、语义级注意力和词级注意力的加权组合获得第三特征向量矩阵；所述情感极性分析模型通过softmax函数预测所述层次注意力网络输出的第三特征向量矩阵的情感极性。

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器中存储有烟草情感分析程序，所述烟草情感分析程序被所述处理器执行时实现如权利要求1至7中任一项权利要求所述烟草情感分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括有烟草情感分析程序，所述烟草情感分析程序被处理器执行时，实现如权利要求1至7中任一项权利要求所述烟草情感分析方法的步骤。