CN112100388B

CN112100388B - 一种长文本新闻舆情的情感极性的分析方法

Info

Publication number: CN112100388B
Application number: CN202011291196.6A
Authority: CN
Inventors: 唐大鹏; 郭柏龙; 陈大龙
Original assignee: Nanjing Howso Technology Co ltd
Current assignee: Nanjing Howso Technology Co ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-23
Anticipated expiration: 2040-11-18
Also published as: CN112100388A

Abstract

本发明公开了一种长文本新闻舆情的情感极性的分析方法，包括以下步骤：S1收集文本数据作为训练样本，S2对步骤S1中收集的训练样本的数据进行数据清洗，并对清洗后的训练样本的数据中的特殊字符进行处理，获得数据集；S3切分数据集，将训练样本按照比例切分为训练集和测试集；S4搭建基于表征模型的深度学习网络并加载预训练参数；S5搭建长文本情感极性分析网络模型；S6修改训练样本数据结构；S7模型训练，采用分层抽样与K折交叉验证的方法，在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致，每折模型结果保存在验证集得分最高的模型，综合K折模型对于测试集进行测试，取平均概率作为该模型的测试结果。

Description

一种长文本新闻舆情的情感极性的分析方法

技术领域

本发明属于本发明属自然语言处理技术领域，尤其是涉及一种基于变形器（Transformer）结构的长文本新闻舆情情感极性分析的方法。

背景技术

判断新闻舆情的情感极性在自然语言处理领域可以抽象为文本分类问题，即通过标题与正文来判断该新闻所表达的情感极性。目前用于情感分析的方法主要分为以下三种：

1、基于情感词典的方法。基于情感词典的传统模型方法流程是先构建情感词典，通过该词典来对预分析文本中的字词进行情感倾向以及情感强弱的判定，从而实现文本整体的情感分类。该方法存在的局限性：（1）情感词典对未收纳的词汇无法处理（2）需要耗费大量的人工来制作高质量的情感词典（3）同样的词汇在不同领域表现出的情感倾向可能相差很大。

2、基于机器学习的方法。基于机器学习的方法可以通过对样本数据进行有效特征提取，从而来建立情感分类模型。该方法的优点是不受情感词典规模的限制，但其缺点是需要耗费大量的人工成本设计文本特征。

3、基于深度学习的方法。基于深度学习的方法能够自动将低阶特征组合、变化、提取生成高阶特征，因此成为了自然语言处理领域的主流方法。常见的方法有递归神经网络（RNN， Recursive Neural Network)、卷积神经网络(CNN，Convolutional NeuralNetwork)、长短期记忆网络(LSTM，Long Short-Term Memory)以及双向长短期记忆网络(Bi-LSTM，Bi-directional Long Short-Term Memory)等。随着变形器（Transformer）结构的出现，以基于变形器的双向编码器（BERT）为代表的深度双向预训练语言模型开始占领自然语言处理各项任务的头榜。但当前的中文预训练语言模型受限于模型文本最大长度的限制，在处理篇章级的长文本时通常采取直接截断的方法，失去了长文本中的很多有效信息。

因此，有必要开发一种长文本新闻舆情的情感极性的分析方法，将长文本通过变形器（Transformer）编码，再通过双向门限循环单元网络（Bi-GRU）来分析长文本新闻舆情情感极性的方法，能够解决传统方法准确率较低的问题。

发明内容

本发明要解决的技术问题是，提供一种长文本新闻舆情的情感极性的分析方法，将长文本通过变形器（Transformer）编码，再通过双向门限循环单元网络（Bi-GRU）来分析长文本新闻舆情情感极性的方法，能够解决传统方法准确率较低的问题。

为了解决上述技术问题，本发明采用的技术方案是：该长文本新闻舆情的情感极性的分析方法，包括以下步骤：

S1：收集文本数据作为训练样本；

S2：对步骤S1中收集的训练样本的数据进行数据清洗，并对清洗后的训练样本的数据中的特殊字符进行处理，获得数据集；

S3：切分数据集，将训练样本按照比例切分为训练集和测试集，在切分数据集时保证训练集和测试集中的情感极性标签的比例一致；

S4：搭建基于表征模型的深度学习网络并加载预训练参数；

S5：搭建长文本情感极性分析网络模型；

S6：修改训练样本数据结构；

S7：模型训练，采用分层抽样与K折交叉验证的方法，在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致，每折模型结果保存在验证集得分最高的模型，综合K折模型对于测试集进行测试，取平均概率作为所述步骤S5搭建的长文本情感极性分析网络模型的测试结果。

采用上述技术方案，将长文本通过变形器（Transformer）编码，再通过双向门限循环单元网络（Bi-GRU）来分析长文本新闻舆情情感极性，其中步骤S2中对样本的数据中的特殊字符进行处理时包括删除URL、删除特殊标点符号、删除连续标点符合、删除空格、删除连续换行符等；步骤S3中将样本按照8：2的比例随机切分为训练集和测试集，在切分数据集时保证训练集和测试集中的情感极性标签的比例一致；步骤S7中进行模型训练时所使用的是步骤S5搭建的长文本情感极性分析网络模型，其中K优选取值为10。

作为本发明的优选技术方案，所述步骤S4搭建基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络的具体步骤为：

S41：搭建网络输入层Input-Token与Input-Segment，该深度学习网络的输入为一个文本句子或文本句子对，即文本的Token编码与句子分割标识；

S42：搭建网络的字嵌入层Embedding，获得嵌入层结果；

S43：搭建面向中文理解的神经语境表征模型NEZHA-WWM的变形器Transformer主体结构，从而获得基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络。

作为本发明的优选技术方案，所述步骤S5具体包括以下步骤：

S51：搭建网络输出层，所述输出层为并列的多对输出Input-Token与Input-Segment；

S52：搭建网络拼接层，所述步骤S51中的多对输出通过共享的所述步骤S4中的面向中文理解的神经语境表征模型NEZHA-WWM的网络，每对输出Input-Token与Input-Segment可得到其4倍输出层，选取输出层作为输出值并将对应的多个隐藏层进行拼接；

S53：搭建双向门限循环单元网络层Bi-GRU，双向门限循环单元网络Bi-GRU能够从前后两个方向同时获取上下文信息，以提高特征提取的准确率；

S54：在网络的最后一层增加全连接层，并使用Softmax激活函数，用于输出各种类型的情感极性的概率结果。在步骤S4中搭建的面向中文理解的神经语境表征模型（NEZHA-WWM）可以提高模型对文本表意的准确性，但由于其模型结构无法处理长文本，需要调整模型结构后再添加分类部分，因此需要拱建长文本情感极性分析网络模型。步骤S52中由于前几层的输出值还未充分学习到文本的语义且最后一层的输出值过于接近掩码语言模型任务(MLM，Masked Language Model)与预测下句任务（NSP，Next Sentence Prediction），因此本方法取倒数第2层的输出值，并将其拼接。双向门限循环单元网络可（Bi-GRU）从前后方向同时获取上下文信息，以提高特征提取的准确率，并且该网络具有对词向量的依赖性小、复杂度低、响应时间快的优点。

作为本发明的优选技术方案，所述步骤S42中所述字嵌入层Embedding包括标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding，所述标记嵌入Token-Embedding是文本字典的下标，其引用NEZHA-WWM对应的文本字典；所述断句嵌入Segment-Embedding表明每个字属于句子对中的哪个句子，所述位置嵌入Position-Embedding代表的是每个字的位置信息，所述位置嵌入Position-Embedding使用Sin-Cos形式的位置向量；将所述标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding三个嵌入的输出直接相加，即得到嵌入层Embedding的值。

作为本发明的优选技术方案，所述步骤S43中所述变形器Transformer主体结构包括多个编码器，每个所述编码器的结构均依次由多头自注意力层Transformer-Multi-Head-Self-Attention、第一相加层Add和层归一化层Layer-Normalization、前馈神经网络层Transformer-Feed-Forward以及第二相加层Add和层归一化层Layer-Normalization构成。

作为本发明的优选技术方案，所述多头自注意力层Transformer-Multi-Head-Self-Attention能实现当前节点不只关注当前的字词，还能关注当前的输入句子的其他部分；所述多头自注意力层的自注意力机制Self-Attention采用矩阵运算的方式，计算出查询向量Query、键向量Key和值向量Value的矩阵，然后把步骤S42中的嵌入层Embedding的值与所述查询向量Query、键向量Key和值向量Value三个矩阵直接相乘，从而得到的新矩阵Q，再把所述矩阵Q与K相乘并乘以一个常数，做Softmax操作，最后乘上值向量Value矩阵，具体公式如下：

；

其中Q=Query矩阵，K=Key矩阵，V=Value矩阵，d为K的维度。

作为本发明的优选技术方案，所述前馈神经网络层Transformer-Feed-Forward接收所述多头自注意力层的输出，负责进行线性变换与激活变换并将数据输出到下一层；所述第一相加层Add和层归一化层Layer-Normalization与第二相加层Add和层归一化层Layer-Normalization用于让每层的输入结果与输出结果相加后进行标准化处理，使数据分布一致。

作为本发明的优选技术方案，所述步骤S51中的所述输出层为并列的三对输出Input-Token与Input-Segment，相应地，所述步骤S52中将并列的三对输出Input-Token与Input-Segment通过共享的面向中文理解的神经语境表征模型网络NEZHA-WWM，每对输出Input-Token与Input-Segment可得到输出共12层。

作为本发明的优选技术方案，所述步骤S6修改训练样本数据结构时基于步骤S5中所需的模型输入结构，将每个长文本样本的切分为3段，每段的最大长度为512，这样模型便能容纳最大长度为1536字的长文本，即保留了长文本的全部有效信息。

作为本发明的优选技术方案，当采用该长文本新闻舆情的情感极性的分析方法应用于新的样本分析时，具体步骤包括：

S1-1：将新的长文本新闻舆情样本数据采用步骤S2和步骤S3的方法进行数据清洗与文本切分；

S1-2：将切分后的多段文本输入面向中文理解的神经语境表征模型NEZHA-WWM，依次经过标记嵌入、断句嵌入和位置嵌入后，通过多头自注意力层Transformer-Multi-Head-Self-Attention得到编码器Encoder输出的结果，取出输出结果的倒数第二层隐藏层，并将对应的多个隐藏层结果进行拼接，再通过双向门限循环单元网络层Bi-GRU，最后对输出结果使用Softmax激活函数，得到输出三个类型的概率结果；

S1-3：从得到的情感极性概率结果的分布中，选择最大概率的情感极性作为该文本的情感极性。由于前几层的输出值还未充分学习到文本的语义且最后一层的输出值过于接近掩码语言模型任务(MLM，Masked Language Model)与预测下句任务（NSP，NextSentence Prediction），因此本方法取倒数第2层的输出值，并将其拼接。

相比现有技术，该技术方案具有的有益效果是：该长文本新闻舆情的情感极性的分析方法解决了基于变形器（Transformer）结构的情感分析模型无法处理长文本的问题，完整的保留了长文本新闻舆情的文本信息，使得情感极性分析模型更准确。

附图说明

下面结合附图和本发明的实施方式进一步详细说明：

图1为本发明的长文本新闻舆情的情感极性的分析方法的字嵌入层网络结构图；

图2为本发明的长文本新闻舆情的情感极性的分析方法的面向中文理解的神经语境表征模型NEZHA-WWM结构图；

图3为本发明的长文本新闻舆情的情感极性的分析方法的编码器Encoder结构图；

图4为本发明的长文本新闻舆情的情感极性的分析方法的自注意力Self-Attention结构图。

具体实施方式

实施例：该长文本新闻舆情的情感极性的分析方法，包括以下步骤：

S1：收集文本数据作为训练样本；其中情感极性标签类型包括积极、中性、消极三类；

S2：对步骤S1中收集的训练样本的数据进行数据清洗，并对清洗后的训练样本的数据中的特殊字符进行处理，包括删除URL、删除特殊标点符号、删除连续标点符合、删除空格、删除连续换行符等，获得数据集；

S3：切分数据集，将样本按照8：2的比例随机切分为训练集和测试集，在切分数据集时保证训练集和测试集中的情感极性标签的比例一致；

S4：搭建基于表征模型的深度学习网络并加载预训练参数；

所述步骤S4搭建基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络的具体步骤为：

S42：搭建网络的字嵌入层Embedding，获得嵌入层结果；

如图1所示，所述步骤S42中所述字嵌入层Embedding包括标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding，所述标记嵌入Token-Embedding是文本字典的下标，其引用NEZHA-WWM对应的文本字典；所述断句嵌入Segment-Embedding表明每个字属于句子对中的哪个句子，所述位置嵌入Position-Embedding代表的是每个字的位置信息，所述位置嵌入Position-Embedding使用Sin-Cos形式的位置向量；将所述标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding三个嵌入的输出直接相加，即得到嵌入层Embedding的值；

S43：搭建面向中文理解的神经语境表征模型NEZHA-WWM的变形器Transformer主体结构，从而获得基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络；

如图2所示，所述步骤S43中所述变形器Transformer主体结构包括多个编码器，如图3所示，每个所述编码器的结构均依次由多头自注意力层Transformer-Multi-Head-Self-Attention、第一相加层Add和层归一化层Layer-Normalization、前馈神经网络层Transformer-Feed-Forward以及第二相加层Add和层归一化层Layer-Normalization构成；

如图4所示，所述多头自注意力层Transformer-Multi-Head-Self-Attention能实现当前节点不只关注当前的字词，还能关注当前的输入句子的其他部分；所述多头自注意力层的自注意力机制Self-Attention采用矩阵运算的方式，计算出查询向量Query、键向量Key和值向量Value的矩阵，然后把步骤S42中的嵌入层Embedding的值与所述查询向量Query、键向量Key和值向量Value三个矩阵直接相乘，从而得到的新矩阵Q，再把所述矩阵Q与K相乘并乘以一个常数，做Softmax操作，最后乘上值向量Value矩阵，具体公式如下：

；

其中Q=Query矩阵，K=Key矩阵，V=Value矩阵，d为K的维度；

所述前馈神经网络层Transformer-Feed-Forward接收所述多头自注意力层的输出，负责进行线性变换与激活变换并将数据输出到下一层；所述第一相加层Add和层归一化层Layer-Normalization与第二相加层Add和层归一化层Layer-Normalization用于让每层的输入结果与输出结果相加后进行标准化处理，使数据分布一致；

S5：搭建长文本情感极性分析网络模型；所述步骤S5具体包括以下步骤：

S51：搭建网络输出层，所述输出层为并列的三对输出Input-Token与Input-Segment；

S52：搭建网络拼接层，所述步骤S51中的多对输出通过共享的所述步骤S4中的面向中文理解的神经语境表征模型NEZHA-WWM的网络，所述步骤S51中的所述输出层为并列的三对输出Input-Token与Input-Segment，相应地，所述步骤S52中将并列的三对输出Input-Token与Input-Segment通过共享的面向中文理解的神经语境表征模型网络NEZHA-WWM，每对输出Input-Token与Input-Segment可得到输出共12层；选取倒数第二层输出层作为输出值并将对应的多个隐藏层进行拼接；由于前几层的输出值还未充分学习到文本的语义且最后一层的输出值过于接近掩码语言模型任务(MLM，Masked Language Model)与预测下句任务（NSP，Next Sentence Prediction），因此本方法取倒数第2层的输出值，并将其拼接；

S53：搭建双向门限循环单元网络层Bi-GRU，双向门限循环单元网络Bi-GRU能够从前后两个方向同时获取上下文信息，以提高特征提取的准确率；并且该网络具有对词向量的依赖性小、复杂度低、响应时间快的优点；

S54：在网络的最后一层增加全连接层，并使用Softmax激活函数，用于输出各种类型的情感极性的概率结果。在步骤S4中搭建的面向中文理解的神经语境表征模型（NEZHA-WWM）可以提高模型对文本表意的准确性，但由于其模型结构无法处理长文本，需要调整模型结构后再添加分类部分，因此需要拱建长文本情感极性分析网络模型。

S6：修改训练样本数据结构；所述步骤S6修改训练样本数据结构时基于步骤S5中所需的模型输入结构，将每个长文本样本的切分为3段，每段的最大长度为512，这样模型便能容纳最大长度为1536字的长文本，即保留了长文本的全部有效信息；

S7：模型训练，采用分层抽样与K（K=10）折交叉验证的方法，在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致，每折模型结果保存在验证集得分最高的模型，综合K折模型对于测试集进行测试，取平均概率作为所述步骤S5搭建的长文本情感极性分析网络模型的测试结果。

新样本测试：

当采用该长文本新闻舆情的情感极性的分析方法应用于新的样本分析时，具体步骤包括：

采用上述长文本新闻舆情的情感极性的分析方法，进行了分析对比实验，对比实验结果如下表1。

表1对比实验结果

从表1中可以看出，通过4个实验对比可得到以下结论：

（1）在本实验所使用的数据集上，同时利用标题与正文进行训练的模型效果优于仅仅利用标题进行训练。通过人工观察发现，存在一些样本数据在标题上体现的情感极性为消极如违法犯罪事件等，但正文中会出现违法犯罪行为已被打击，其真正的情感极性应属于中性或积极，因此正文中的语义信息不可缺少；

（2）在本实验所使用的数据集上，使用基于面向中文理解的神经语境表征模型（NEZHA-WWM）的实验结果优于基于变形器的双向编码器（BERT）预训练模型；

（3）在本实验所使用的数据集上，通过基于面向中文理解的神经语境表征模型（NEZHA-WWM）得到文本的向量表达后再输入双向门限循环单元网络（Bi-GRU）神经网络层，模型的准确率有了提升，说明了该网络的有效性。

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种长文本新闻舆情的情感极性的分析方法，其特征在于，包括以下步骤：

S1：收集文本数据作为训练样本，其中情感极性标签类型包括积极、中性、消极三类；

S4：搭建基于表征模型的深度学习网络并加载预训练参数；

S5：搭建长文本情感极性分析网络模型；

S6：修改训练样本数据结构；

S7：模型训练，采用分层抽样与K折交叉验证的方法，在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致，每折模型结果保存在验证集得分最高的模型，综合K折模型对于测试集进行测试，取平均概率作为所述步骤S5搭建的长文本情感极性分析网络模型的测试结果；

S42：搭建网络的字嵌入层Embedding，获得嵌入层结果；

所述步骤S5具体包括以下步骤：

S54：在网络的最后一层增加全连接层，并使用Softmax激活函数，用于输出各种类型的情感极性的概率结果。

2.根据权利要求1所述的长文本新闻舆情的情感极性的分析方法，其特征在于，所述步骤S42中所述字嵌入层Embedding包括标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding，所述标记嵌入Token-Embedding是文本字典的下标，其引用NEZHA-WWM对应的文本字典；所述断句嵌入Segment-Embedding表明每个字属于句子对中的哪个句子，所述位置嵌入Position-Embedding代表的是每个字的位置信息，所述位置嵌入Position-Embedding使用Sin-Cos形式的位置向量；将所述标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding三个嵌入的输出直接相加，即得到嵌入层Embedding的值。

3.根据权利要求2所述的长文本新闻舆情的情感极性的分析方法，其特征在于，所述步骤S43中所述变形器Transformer主体结构包括多个编码器，每个所述编码器的结构均依次由多头自注意力层Transformer-Multi-Head-Self-Attention、第一相加层Add和层归一化层Layer-Normalization、前馈神经网络层Transformer-Feed-Forward以及第二相加层Add和层归一化层Layer-Normalization构成。

4.根据权利要求3所述的长文本新闻舆情的情感极性的分析方法，其特征在于，所述多头自注意力层Transformer-Multi-Head-Self-Attention能实现当前节点不只关注当前的字词，还能关注当前的输入句子的其他部分；所述多头自注意力层的自注意力机制Self-Attention采用矩阵运算的方式，计算出查询向量Query、键向量Key和值向量Value的矩阵，然后把步骤S42中的嵌入层Embedding的值与所述查询向量Query、键向量Key和值向量Value三个矩阵直接相乘，从而得到的新矩阵Q，再把所述矩阵Q与K相乘并乘以一个常数，做Softmax操作，最后乘上值向量Value矩阵，具体公式如下：

；

其中Q=Query矩阵, K=Key矩阵, V=Value矩阵, d为K的维度。

5.根据权利要求4所述的长文本新闻舆情的情感极性的分析方法，其特征在于，所述前馈神经网络层Transformer-Feed-Forward接收所述多头自注意力层的输出，负责进行线性变换与激活变换并将数据输出到下一层；所述第一相加层Add和层归一化层Layer-Normalization与第二相加层Add和层归一化层Layer-Normalization用于让每层的输入结果与输出结果相加后进行标准化处理，使数据分布一致。

6.根据权利要求5所述的长文本新闻舆情的情感极性的分析方法，其特征在于，所述步骤S51中的所述输出层为并列的三对输出Input-Token与Input-Segment，相应地，所述步骤S52中将并列的三对输出Input-Token与Input-Segment通过共享的面向中文理解的神经语境表征模型网络NEZHA-WWM，每对输出Input-Token与Input-Segment可得到输出共12层。

7.根据权利要求5所述的长文本新闻舆情的情感极性的分析方法，其特征在于，所述步骤S6修改训练样本数据结构时基于步骤S5中所需的模型输入结构，将每个长文本样本的切分为3段，每段的最大长度为512，这样模型便能容纳最大长度为1536字的长文本，即保留了长文本的全部有效信息。

8.根据权利要求5所述的长文本新闻舆情的情感极性的分析方法，其特征在于，当采用该长文本新闻舆情的情感极性的分析方法应用于新的样本分析时，具体步骤包括：

S1-2：将切分后的多段文本输入面向中文理解的神经语境表征模型NEZHA-WWM，依次经过标记嵌入、断句嵌入和位置嵌入后，通过多头自注意力层Transformer-Multi-Head-Self-Attention得到编码器Encoder输出的结果，取出输出结果的倒数第二层隐藏层，并将对应的多个隐藏层结果进行拼接，再通过双向门限循环单元网络层Bi-GRU，最后对输出结果使用Softmax激活函数，得到输出各种类型的情感极性的概率结果；

S1-3：从得到的情感极性概率结果的分布中，选择最大概率的情感极性作为该文本的情感极性。