CN116882415B

CN116882415B - 一种基于自然语言处理的文本情感分析方法及系统

Info

Publication number: CN116882415B
Application number: CN202311146313.3A
Authority: CN
Inventors: 陈龙; 曹昌; 舒展
Original assignee: Hunan Zingrow Information Technology Co ltd
Current assignee: Hunan Zingrow Information Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-11-24
Anticipated expiration: 2043-09-07
Also published as: CN116882415A

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于自然语言处理的文本情感分析方法及系统，采集情感文本语句，对各文本语句进行分词得到各词组；获取各词组的词向量；对于各文本语句，将各词组的词向量组成的序列作为词向量序列；根据词向量序列中各词向量之间的关系得到语句的词义对立指数；预设程度副词表；根据程度副词表中程度副词位置评分及各程度副词在语句中的位置得到语句的反常程度评级；根据语句的词义对立指数及反常程度评级得到语句的潜在反讽指数；将语句的潜在反讽指数插入到情感分析模型中进行情感识别。实现文本情感分析，提高了文本语句中情感分析准确性，具有较高文本情感检测精度。

Description

一种基于自然语言处理的文本情感分析方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于自然语言处理的文本情感分析方法及系统。

背景技术

文本情感分析是自然语言处理中极为重要的领域。随着互联网技术的发展，我们所面对的文本数据数量呈爆炸式增长。在日常生活中，我们经常需要对这些文本数据进行情感分析，而情感分析方法的应用范围非常广泛。它在用户情感反馈、市场洞察与决策支持、舆情监测和声誉管理等方面起着至关重要的作用。

在对文本进行情感分析时，我们通常将情感分为积极和消极等类别。在众多现有的方法中，基于深度学习的分类方法往往有着更好的表现。然而，在进行文本处理时，在文本数据中会存在反讽和讽刺的现象，这种情况下，文本数据的字面意思可能是积极的和正面情绪，但实际上表达的是不满和消极的情绪。

综上所述，本发明提出一种基于自然语言处理的文本情感分析方法，采集文本语句；根据文本语句中各词组的词义之间的差异构建潜在反讽指数，将其输入情感分析模型得到各语句情感，具有较高语句真实情感识别效果。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于自然语言处理的文本情感分析方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种基于自然语言处理的文本情感分析方法，该方法包括以下步骤：

采集文本语句；对各文本语句进行分词得到各词组；获取各词组的词向量；

对于各文本语句，将语句中各词组组成的序列作为第一序列；将各词组的词向量组成的序列作为词向量序列；根据词向量序列中各词向量之间的关系得到自相似距离矩阵；根据自相似距离矩阵得到语义对立矩阵；根据语义对立矩阵得到第一序列的词义对立指数；预设程度副词表；根据程度副词表得到程度副词位置序列及评分序列；根据程度副词位置序列、评分序列及语义对立矩阵得到语义对立反常矩阵；根据语义对立反常矩阵得到第一序列的反常程度评级；根据第一序列的词义对立指数及反常程度评级得到第一序列的潜在反讽指数；

将第一序列的潜在反讽指数插入到情感分析模型中进行情感识别。

优选的，所述获取各词组的词向量，具体为：

将大型通用语料库预训练得到的模型作为初始的词向量模型；将采集的文本语句输入初始的词向量模型进行训练得到新的词向量模型，根据新的词向量模型中词向量表获取各词组的词向量。

优选的，所述根据词向量序列中各词向量之间的关系得到自相似距离矩阵，具体为：将任意两个词向量的点积作为自相似距离矩阵中的各元素。

优选的，所述根据自相似距离矩阵得到语义对立矩阵，具体为：

当自相似距离矩阵中第行、第/>列的元素小于对立阈值时，将语义对立矩阵中第/>行、第/>列的元素设置为1；当自相似距离矩阵中第/>行、第/>列的元素大于等于对立阈值时，将语义对立矩阵中第/>行、第/>列的元素设置为0；获取语义对立矩阵各元素得到语义对立矩阵。

优选的，所述根据语义对立矩阵得到第一序列的词义对立指数，具体包括：

对于任意两个词组，将所述两个词组在第一序列中的序号的差值绝对值作为所述两个词组的位置距离；获取两个词组对应的语义对立矩阵中元素；计算所述位置距离与所述元素的乘积；将所述乘积的均值作为第一序列的词义对立指数。

优选的，所述根据程度副词表得到程度副词位置序列及评分序列，具体为：

当第一序列中各元素为程度副词时，将程度副词位置序列中对应元素设置为0，将评分序列中对应元素设置为1；当第一序列中各元素非程度副词时，将程度副词位置序列中对应元素设置为1，将评分序列中对应元素设置为程度副词表中对应评分；获取程度副词位置序列中各元素得到程度副词位置序列；获取评分序列中各元素得到评分序列。

优选的，所述根据程度副词位置序列、评分序列及语义对立矩阵得到语义对立反常矩阵，表达式为：

式中，为语义对立反常矩阵中第/>行、第/>列的元素值，/>为语义对立矩阵中第行、第/>列的元素值，/>为程度副词位置序列中第/>个元素的值，/>为评分序列中第/>个元素的评分。

优选的，所述根据语义对立反常矩阵得到第一序列的反常程度评级，具体包括：将语义对立反常矩阵中所有元素的均值作为第一序列的反常程度评级。

优选的，所述第一序列的潜在反讽指数，具体包括：将第一序列的词义对立指数与反常程度评级的乘积作为第一序列的潜在反讽指数。

第二方面，本发明实施例还提供了一种基于自然语言处理的文本情感分析系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项方法的步骤。

本发明实施例至少具有如下有益效果：

本发明通过深度学习网络结合语句中词义特征，根据语句中词义相反的词组数量及位置变化构建语句的潜在反讽指数，结合LSTM的深度学习网络模型得到语句的真实情感，解决了文本语句存在反讽导致深度学习网络对情感分析出现错误的问题，提高了文本情感分析的准确性；

本发明提出一种基于自然语言处理的文本情感分析方法及系统，采集文本语句数据集，获取语句中各词组的词向量，根据词向量之间的余弦相似度判断词组之间的词义差别，根据词义差别构建词义对立指数；根据语句中程度副词数量及评分构建反常程度评级；根据词义对立指数和反常程度评级得到各语句的潜在反讽指数；将潜在反讽指数融入到LSTM模型中进行情感分析，提高了文本语句中情感分析准确性，具有较高文本情感检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种基于自然语言处理的文本情感分析方法的步骤流程图；

图2为实施例提供的情感分析模型示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于自然语言处理的文本情感分析方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于自然语言处理的文本情感分析方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于自然语言处理的文本情感分析方法的步骤流程图，该方法包括以下步骤：

步骤S001，采集情感文本语句。

为分析网络用户评论信息中的文本语句情感，本实施例采用weibo_senti_100k数据集中的新浪微博的评论，作为本实施例的文本语句数据集，其中包括约12万条用户评论信息。在构建特征之前，需要对用户评论语句进行分词，具体分词方法实施者可自行选取，本实施例采用“结巴”中文分词工具进行分词。

由于采集到的文本语句数据集中部分用户评论语句过长，会增加模型训练的复杂度、浪费计算资源，因此，通过去停用词对文本语句数据集中的语句进行处理，以减少无意义的输入，具体去停用词的方式为公知技术，此处不再赘述。

步骤S002，根据各语句中词义相反的词组数量及程度副词构建各语句的潜在反讽指数。

在构建深度学习模型对情感信息进行分类时，本实施例采用LSTM（长短时记忆网络）模型构建情感分析模型，它能够很好的学习到句子的表征。但是在网络评论中，用户常常通过反讽的修辞手法进行评论，以表达自己的不满和负面情绪，这类文本在表面意思中通常表现为积极的正面反馈，然而实际却表达着相反的意思。例如：“这个洗衣机真是太方便了，每次洗完后都能在衣服上留下新的污渍”，表面是在夸洗衣机好用，但是实际却表达了不满或负面情绪。因此，本实施例根据反讽语句的特点计算各文本语句的潜在反讽指数，输入到LSTM情感分析模型中，提高文本情感分析准确性。

由于在进行情感信息分类时，使用的训练数据偏小，因此，本实施例首先采用大型通用语料库在GloVe模型上预训练一个初始的词向量模型。然后，考虑到在评论区的情感分析中，训练数据通常更加口语化和更加简洁，与通用语料库有所区别，故需要用本实施例所用数据集输入到初始的词向量模型进行训练，从而对通用语料库训练得到的词向量进行调整，得到最终的词典和词向量表，具体训练过程为公知技术，此处不再赘述。其中词向量表包括文本语句数据集中各词组及对应的词向量。

通常含有嘲讽情感的文本语句一般会在表达正面情绪之后有与之表达相反或夸张的描述，通过造成前后矛盾表达强烈的不满，通过计算每个文本语句中词义相反的词组数量计算句子的潜在反讽指数。

由于两个词组的词义可通过对应两个词向量之间的夹角来判断，因此针对一个句子中各词组组成的序列，记为第一序列，将其词向量组成的序列记为词向量序列/>，其中/>表示第一序列/>中第/>个词/>的词向量，通过词向量间的余弦相似度构建自相似距离矩阵/>，具体的，矩阵/>中各元素为：

式中，为自相似距离矩阵/>中第/>行、第/>列的元素值，表示第一序列/>中第/>个词与第/>个词之间的余弦相似度；/>和/>分别为句子词向量序列/>中第/>个和第/>个词向量。由于GloVe模型训练词向量的特性，上述计算所用每个词的词向量均为单位向量，因此二者做点积可以认为是两个词之间的余弦相似度。余弦相似度越大，词向量之间夹角越小，两个词组的词义越相近。

反讽是一种修辞手法，文本语句通常通过不同词组的词义对立性来体现反讽意味，通过对比和对立来表达出戏谑或讽刺的含义，使表达的观点与字面意思相反。本实施例根据语句中语义相反的词组数量计算该句子的词义对立指数，具体如下：

由于语句中包含多个词组，不同词组之间的词义可能不同，根据各词组之间的词义关系构建语义对立矩阵，其中矩阵/>中各元素具体为：

式中，为语义对立矩阵/>中第/>行、第/>列的元素值；表示第一序列/>中第/>个词与第/>个词的词义是否对立；/>为自相似距离矩阵/>中第/>行、第/>列的元素；/>为对立阈值，需要说明的是，/>的取值实施者可自行设定，本实施例将/>设置为0。当/>时，表明第/>个词与第/>个词之间语义距离较远，呈对立状，记为“1”；当/>时，表示二者词义较为相近，为同义词，记为“0”。

由语义对立矩阵可以得到语句中各词组之间的对立关系，存在反讽的句子中前后表达的情感意思不一致，一般表达情感的关键词组之间相距较远，两个词组相距越远时，对应/>的值应该赋予越高的权重，因此，构建第一序列/>的词义对立指数/>为：

式中，为第一序列/>的词义对立指数；/>为句子长度，即第一序列/>中元素个数；为第/>个词与第/>个词在句子中的位置距离，作为/>的权重系数存在；/>为语义对立矩阵/>中第/>行、第/>列的元素值。/>越大，两个词组距离越远，/>的权重越大；/>为1的数量越多，表明句子中词义相反的词组越多，该句子存在反讽的概率越大，/>越大；反之，词义相反的词组越少，该句子存在反讽的概率越小，/>越小。

通常采用反讽修辞手法的句子，会使用对立词、否定词和夸张等方式，其中夸张主要体现在程度副词的使用上，如果一个句子中存在大量的程度副词则认为该句子存在反讽的可能性较大。首先构建一个程度副词表，如表1所示，包括各程度副词及根据其语气强烈程度构建的评分，需要说明的是，各程度副词及其评分的设定实施者可自行设置，本实施例不做具体限制。

表1

然后，通过程度副词表，计算每句话的程度副词使用率并构建反常程度评级，使用程度副词越多则表明句子中越可能存在反讽的情况。具体为：根据程度副词表获取第一序列中各程度副词及其评分，根据获取到的程度副词及其在句子中的位置得到序列，记为程度副词位置序列，序列/>中各元素具体为：

式中，为程度副词位置序列/>中第/>个元素，表示第一序列/>中第/>个词/>是否为程度副词，“是”记为‘1’，“否”记为‘0’。

根据各程度副词的评分获取评分序列，序列/>中各元素具体为：

式中，为第一序列/>中第/>个词/>的评分，/>为/>在程度副词表中对应的评分，当/>为程度副词时，评分为/>；当/>不是程度副词时，评分记为“1”。当句子中的程度副词评分较高时，说明句子中的情感蕴含较为丰富，具有较为强烈的情感表达，当句子中语义对立情况较多时，程度副词越多，存在反讽的可能性越大，因此根据上述两个序列结合语义对立矩阵/>计算语义对立反常矩阵/>为：

式中，为语义对立反常矩阵/>中第/>行、第/>列的元素值，表示句子中第/>个词到第/>个词中间语句的反讽程度；/>为语义对立矩阵中第/>行、第/>列的元素值，代表着第一序列/>中第/>个和第/>个词之间语义是否对立；/>为程度副词位置序列/>中第/>个元素的值，代表着该词是否为程度副词；/>为评分序列/>中第/>个词对应的评分。两个词的语义相反时，句子中两个词中间的语句包含的程度副词越多、评分越高，反讽程度越高，/>越大。

句子中各词组之间语句的反讽程度越高，句子存在反讽的可能性越大，根据语义对立反常矩阵中各元素的反讽程度计算第一序列/>的反常程度评级/>：

式中，为第一序列/>的反常程度评级，代表整句话在描述时候夸张成分的多少；为句子长度；/>为语义对立反常矩阵/>中第/>行、第/>列的元素值，每个元素的值代表着语义相互对立的词之间夹杂的程度副词分数。

根据上述步骤计算得到第一序列的词义对立指数/>和反常程度评级/>，基于此，计算该句子的潜在反讽指数/>，具体如下：

式中，为第一序列/>的潜在反讽指数，代表该句话采用反讽修辞的可能性；/>为第一序列/>的词义对立指数；/>为第一序列/>的反常程度评级。当词义对立指数较高时，表示句子中语义对立词对较多，则句子存在反讽修辞的概率更大；当反常程度评级越高时，表示句子中程度副词使用越多，夸张成分越大，句子越有可能存在反讽的情况。

通过上述方法获取文本语句数据集中各语句的潜在反讽指数。

步骤S003，将各语句及对应的潜在反讽指数输入情感分析模型得到各语句情感。

本实施例采用LSTM深度网络学习模型作为情感分析模型进行情感分析，激活函数采用Softmax函数，负责将全连接层卷积得到的数据转化为两个概率值，分别为语句积极概率与语句消极概率；将句子的潜在反讽指数融合在全连接层的最后一层参与训练，如图2所示，将潜在反讽指数作为权重系数乘在全连接层最后一层每一个维度之上，之后通过激活函数获得语句积极概率与语句消极概率，最终选择概率较大的类别进行输出，即语句积极概率较大时，情感分析模型输出结果为“积极”；语句消极概率较大时，情感分析模型输出结果为“消极”。

图2中包含输入、嵌入层、长短时记忆网络1、长短时记忆网络2、全连接层1、全连接层2、激活函数和输出。本实施例采用BERT嵌入层作为长短时记忆网络模型的嵌入层对各词组进行词向量转化；为避免长短时记忆网络层过多导致模型在训练过程中发生过拟合，本实施例采用两层长短时记忆网络进行训练；损失函数选择二分类交叉熵损失函数。需要说明的是，长短时记忆网络学习模型的训练为现有公知技术，在此不做详细阐述。

基于与上述方法相同的发明构思，本发明实施例还提供了一种基于自然语言处理的文本情感分析系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于自然语言处理的文本情感分析方法中任意一项所述方法的步骤。

综上所述，本发明实施例提供了一种基于自然语言处理的文本情感分析方法及系统，通过深度学习网络结合语句中词义特征，根据语句中词义相反的词组数量及位置变化构建语句的潜在反讽指数，结合LSTM的深度学习网络模型得到语句的真实情感，解决了文本语句存在反讽导致深度学习网络对情感分析出现错误的问题，提高了文本情感分析的准确性；

本实施例通过采集文本语句数据集，获取语句中各词组的词向量，根据词向量之间的余弦相似度判断词组之间的词义差别，根据词义差别构建词义对立指数；根据语句中程度副词数量及评分构建反常程度评级；根据词义对立指数和反常程度评级得到各语句的潜在反讽指数；将潜在反讽指数融入到LSTM模型中进行情感分析，提高了文本语句中情感分析准确性，具有较高文本情感检测精度。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言处理的文本情感分析方法，其特征在于，该方法包括以下步骤：

将第一序列的潜在反讽指数插入到情感分析模型中进行情感识别；

所述根据自相似距离矩阵得到语义对立矩阵，具体为：

当自相似距离矩阵中第行、第/>列的元素小于对立阈值时，将语义对立矩阵中第/>行、第列的元素设置为1；当自相似距离矩阵中第/>行、第/>列的元素大于等于对立阈值时，将语义对立矩阵中第/>行、第/>列的元素设置为0；获取语义对立矩阵各元素得到语义对立矩阵；

所述根据语义对立矩阵得到第一序列的词义对立指数，具体包括：

对于任意两个词组，将所述两个词组在第一序列中的序号的差值绝对值作为所述两个词组的位置距离；获取两个词组对应的语义对立矩阵中元素；计算所述位置距离与所述元素的乘积；将所述乘积的均值作为第一序列的词义对立指数；

所述根据程度副词表得到程度副词位置序列及评分序列，具体为：

当第一序列中各元素为程度副词时，将程度副词位置序列中对应元素设置为0，将评分序列中对应元素设置为1；当第一序列中各元素非程度副词时，将程度副词位置序列中对应元素设置为1，将评分序列中对应元素设置为程度副词表中对应评分；获取程度副词位置序列中各元素得到程度副词位置序列；获取评分序列中各元素得到评分序列；

所述根据程度副词位置序列、评分序列及语义对立矩阵得到语义对立反常矩阵，表达式为：

式中，为语义对立反常矩阵中第/>行、第/>列的元素值，/>为语义对立矩阵中第/>行、第/>列的元素值，/>为程度副词位置序列中第/>个元素的值，/>为评分序列中第/>个元素的评分。

2.如权利要求1所述的一种基于自然语言处理的文本情感分析方法，其特征在于，所述获取各词组的词向量，具体为：

3.如权利要求1所述的一种基于自然语言处理的文本情感分析方法，其特征在于，所述根据词向量序列中各词向量之间的关系得到自相似距离矩阵，具体为：将任意两个词向量的点积作为自相似距离矩阵中的各元素。

4.如权利要求1所述的一种基于自然语言处理的文本情感分析方法，其特征在于，所述第一序列的潜在反讽指数，具体包括：将第一序列的词义对立指数与反常程度评级的乘积作为第一序列的潜在反讽指数。

5.一种基于自然语言处理的文本情感分析系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4任意一项方法的步骤。