CN114444481B

CN114444481B - 一种新闻评论的情感分析与生成方法

Info

Publication number: CN114444481B
Application number: CN202210102343.3A
Authority: CN
Inventors: 彭德中; 张蔚琪; 吕建成; 彭玺; 桑永胜; 胡鹏; 孙亚楠; 王旭; 陈杰; 王骞
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2023-04-07
Anticipated expiration: 2042-01-27
Also published as: CN114444481A

Abstract

本发明公开了一种新闻评论的情感分析与生成方法，具体包括以下步骤：准备初始数据集，其中包含人工标注小规模数据集A和大规模无监督数据集B；在数据集B的基础上，使用开源情感分类工具，为新闻评论情感分析模型建立大规模伪标签数据集C；基于大规模伪标签数据集C预训练新闻评论情感分析模型；预训练后再在人工标注的小规模数据集A上微调，得到最终的新闻评论情感分析模型；使用最终的新闻评论情感分析模型，重新在数据集B上进行伪标签标注得到大规模伪标签数据集D；基于大规模伪标签数据集D预训练可控式新闻评论生成模型；预训练后在人工标注的小规模数据集A上微调，得到最终的可控式新闻评论生成模型。

Description

一种新闻评论的情感分析与生成方法

技术领域

本发明属于自然语言处理中的情感分析与文本生成领域，特别涉及到一种新闻评论的情感分析与生成方法。

背景技术

新闻评论是倾听民众声音、了解民众诉求的重要窗口之一，面对互联网每时每刻不断产生的海量新闻评论，利用自然语言理解技术，自动实时地对海量新闻评论进行舆情情感分析，即时监测民众情绪、发现恶意、不实评论，对于政策制定、风险控制等具有重要意义。在舆情监测的同时，利用自然语言生成技术，自动可控地为新闻生成评论，有益于引导正确的舆论导向、疏导控制负面舆情等。

情感分析可以抽象为一个文本分类任务，一般分为正面、负面和中性三个类别。现有的情感分析技术一般分为基于规则的方法、基于传统机器学习的方法和基于深度学习的方法。基于规则的方法一般需要人工构建情感词典，依靠原文中出现的情感词进行情感极性的判断，这类方法需要耗费大量人力物力进行情感词典的构建，且泛化能力差；基于传统机器学习的方法虽然可以自动地从数据中学习，但仍需要人工进行费时费力的特征工程；基于深度学习的方法利用CNN、RNN、Transformers等具有强大特征提取能力的深度神经网络，大大降低了人工特征工程的工作量，取得了良好的效果，尤其是近些年来，基于Transformers结构的预训练语言模型，如BERT、ERNIE等的兴起，不断刷新自然语言处理各项任务的榜单。这些预训练语言模型通过在大规模无监督文本上进行预训练，获得了强大的文本表征能力和泛化能力，迁移到情感分析领域也大幅超越以往的模型。

新闻评论生成一般使用VAE、GAN、Seq2Seq、语言模型等生成式模型实现，相较于基于模板或检索的方法，生成式模型能依据新闻原文的语义直接生成相关的评论，不再依赖于特定的模板或评论库。近年来，GPT、UniLM、T5等预训练语言模型在文本生成领域大放异彩，很多时候生成的文本甚至能以假乱真，在这些模型中，通过设置不同的Prompt，模型可以应用于多种任务。

然而现有技术仍存在以下问题：现有的预训练语言模型在迁移至新闻评论情感分析和生成这两个下游任务时，为保证效果，依旧依赖于大量的标注数据，而领域内尚缺乏高质量的相关数据集，且人工标注费时费力；现有的新闻评论情感分析方法，大多将评论孤立地看待，没有同时考虑新闻原文的语义；现有的评论生成方法大多可控性弱，只是依据新闻原文随机地生成评论，无法在生成时设定想要的情感极性以达到舆情引导等目的；而研究通常将新闻评论情感分析和生成两个任务独立开来做，缺少对二者相互促进关系的考虑。

发明内容

本发明所要解决的技术问题在于针对现有技术中的不足，提供一种新闻评论的情感分析与生成方法。该方法使用的预训练语言模型技术，结合半监督学习方法，配合大规模无监督数据集，即可训练得到新闻评论情感分析和可控式评论生成两个模型，并让模型关联起来相互促进，大大减少了人工标注的工作量。

为了解决上述技术问题，本发明通过以下方式来实现：

一种新闻评论的情感分析与生成方法，具体包括以下步骤：

S1、准备初始数据集，其中包含人工标注小规模数据集A和大规模无监督数据集B；

S2、在数据集B的基础上，使用开源情感分类工具，为新闻评论情感分析模型建立大规模伪标签数据集C；

S3、基于大规模伪标签数据集C预训练新闻评论情感分析模型；

S4、预训练后再在人工标注的小规模数据集A上微调，得到最终的新闻评论情感分析模型；

S5、使用最终的新闻评论情感分析模型，重新在数据集B上进行伪标签标注得到大规模伪标签数据集D；

S6、基于大规模伪标签数据集D预训练可控式新闻评论生成模型；

S7、预训练后在人工标注的小规模数据集A上微调，得到最终的可控式新闻评论生成模型。

进一步的，所述步骤S2中建立大规模伪标签数据集C流程是：使用开源情感分类工具Senta，预测无监督数据集B中新闻所有评论的情感极性，得到评论正面的概率a；将a＞0.85的作为正面评论，a＜0.15的作为负面评论，0.4＜a＜0.6的作为中性评论，进而得到大规模伪标签数据集C。

进一步的，所述步骤S3中新闻评论情感分析模型包括Roformer模型和下游分类网络，Roformer模型输入为input_ids和token_type_ids，分别经过word embedding层和segment embedding层后转为词向量序列和段向量序列；input_ids公式如下：

input_ids＝[CLS]comment[SEP]news[SEP] (1)

其中，[CLS]表示整体的语义，[SEP]表示用做分隔，comment表示新闻评论，news表示新闻原文；

token_type_id用来标志input_ids中的句子成分类别，在[CLS]comment[SEP]部分设置为1，标志为评论；news[SEP]部分设为0，标志为新闻原文内容；输入Roformer模型得到最后一层的隐状态last_hidden_state，公式如下：

last_hidden_state＝Roformer(input_ids，token_type_ids) (2)

第一个[CLS]位置隐状态h_cls作为评论与新闻原文的句子关系的特征向量，经过下游分类网络得到该评论情感极性类别上的概率值y_pred，公式如下：

y_pred＝softmax(Linear₂(dropout(tanh(Linear₁(h_cls))))) (3)

其中，softmax表示激活函数，用于将特征向量每一维的值归一化为概率形式，tanh表示双曲正切激活函数，dropout表示随机丢弃层，Linear₁表示输入维度和输出维度均和h_cls维度一致的中间线性层，Linear₂表示输入维度和h_cls维度一致，输出维度为情感极性类别个数的中间线性层。

针对步骤S3中的预训练阶段，使用预测概率值y_pred与真实概率值y_true计算交叉熵损失，公式如下：

其中，N表示样本数，M表示类别数，P(y_true-ic)表示第i个样本为第c个类别的真实概率，P(y_pred-ic)表示第i个样本为第c个类别的预测概率。

进一步的，所述步骤S6中可控式新闻评论生成模型包括UniLM模型，UniLM模型输入为input_ids和token_type_ids，其中input_ids的公式如下：

input_ids＝[CLS]news[SEP][ui]～[uj]comment[SEP] (5)

其中，[ui]～[uj]表示Roformer词表中预留的占位token，不同情感极性设置不同的占位token序列，长度相同但彼此间token不交叉；模型建模的概率及分解为每个token上的条件概率形式后为：

其中，n为新闻原文，p为Prompt，c为评论，c_i为评论中第i个token，c_<i为评论中第i个token之前的token序列；

token_type_ids用来标志input_ids中的句子成分类别，在[CLS]news[SEP]部分设置为0，计算时采用双向注意力，在[ui]～[uj]comment[SEP]部分设置为1，计算时采用单向注意力；在模型输出的comment部分进行自回归预测，训练时采用负对数似然损失函数优化模型，其公式如下：

其中，cⁱ为第i个样本的评论，nⁱ为第i个样本的新闻原文，pⁱ为第i个样本的Prompt。

与现有技术相比，本发明具有如下有益效果：

该方法使用最新的预训练语言模型技术，提高了舆情分析模型的自然语言理解能力和评论生成模型的自然语言生成能力；同时考虑了新闻原文和评论内容二者的语义，转换为判断评论与新闻原文的句子关系，更加准确地为评论标注舆情情感极性。

使用半监督学习技术，仅使用一份小规模人工标注数据集，配合大规模无监督数据集就同时训练得到了了情感分析和可控式评论生成两个模型，且充分发挥两个模型的特性，让它们相互促进，解决了相关数据集缺乏、人工标注数据集费时费力的问题；在生成模型中引入Prompt范式，使得一个模型能可控地对指定新闻生成不同情感极性的评论。

附图说明

图1为本发明新闻评论情感分析模型和可控式新闻评论生成模型的半监督训练流程示意图。

图2为本发明新闻评论情感分析模型和可控式新闻评论生成模型关系示意图。

图3为本发明Roformer和半监督学习的新闻评论情感分析模型示意图。

图4为本发明UniLM、Prompt范式和半监督学习的可控式新闻评论生成模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式作进一步详细的说明。应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。

如图1～4所示，一种新闻评论的情感分析与生成方法，具体包括以下步骤：

在微博、今日头条、腾讯新闻等网站收集约30万篇涵盖各种主题、评论数大于10的新闻，附带每篇新闻的Top 100热评(不足100的全部收集)，在其中采样5000条新闻进行人工精准标注，作为人工标注小规模数据集A，剩余数据集作为大规模无监督数据集B。人工标注对于每篇新闻，需结合新闻原文和评论二者语义及关系，找出正面、负面、中性评论各1条(若某种情感极性评论未找到则人工撰写)，数据格式为<新闻原文，正面评论，负面评论，中性评论>，其中新闻原文为新闻标题与正文拼接的形式，数据可统一为情感分类的一般形式：<新闻原文，评论，情感极性标签>，其中情感极性标签属于{0，1，2}，分别代表正面、负面、中性三种极性类别。

为了新闻评论情感分析模型建立大规模伪标签数据集，使用开源的情感分类工具Senta，预测无监督数据集B中每篇新闻所有评论的情感极性，此时仅仅将评论孤立看待，且Senta并非专门为新闻评论设计，所以预测的只是一种精度一般的伪标签。Senta能得到每条评论正面的概率a，其中a属于[0，1]，负面的概率则为1-a；对于每篇新闻将a＞0.85的作为正面评论，a＜0.15的作为负面评论，a属于[0.4，0.6]的作为中性评论，每篇新闻采样正面、负面、中性评论各一条(若符合阈值的某种极性评论不存在则不采集)，得到大规模伪标签数据集C。

新闻文本一般较长，对文本截断太多对模型效果会有较大影响。Roformer和著名的Bert一样也是基于Transformers编码器结构的语言模型，但不同于Bert采用绝对位置编码，有着输入512长度的限制，且对中文采用暴力分字操作，Roformer模型采用旋转式相对位置编码，可以处理任意长度的序列，且有着字词混合词表的预训练版本，将新闻文本根据字词混合词表分词，可以大大减少输入序列长度，降低模型复杂度。

如图3所示，新闻评论情感分析模型包括Roformer模型和下游分类网络，模型输入为input_ids与token_type_ids，分别经过word embedding层和segment embedding层后转为词向量序列和段向量序列。input_ids是评论与新闻原文分词为token id序列后的拼接，公式如下：

input_ids＝[CLS]comment[SEP]news[SEP] (1)

其中，[CLS]和[SEP]是特殊字符，[CLS]表示整体的语义，[SEP]表示用做分隔，comment表示新闻评论，news表示新闻原文；

token_type_ids和input_ids等长，用来标志input_ids中的句子成分类别，在[CLS]comment[SEP]部分设置为1，标志为评论；news[SEP]部分设为0，标志为新闻原文内容；输入Roformer模型得到最后一层的隐状态last_hidden_state，公式如下

last_hidden_state＝Roformer(input_ids，token_type_ids) (2)

取第一个token位置，即[CLS]位置的隐状态h_cls作为评论与新闻原文的句子关系(该评论对该新闻而言属于哪种情感极性)的特征向量，经过下游分类网络，得到该评论属于正面、负面、中性三种情感极性类别上的概率值y_pred，公式如下：

y_pred＝softmax(Linear₂(dropout(tanh(Linear₁(h_cls))))) (3)

预训练阶段，使用预测概率值y_pred与真实概率值y_true计算交叉熵损失，公式如下：

其中，N表示样本数，M表示类别数，P(y_true-ic)表示第i个样本为第c个类别的真实概率，P(y_pred-ic)表示第i个样本为第c个类别的预测概率，预测阶段中取y_pred中概率最大的情感极性类别作为最终结果。

S4、预训练后再在人工标注的小规模数据集A上微调，得到最终的新闻评论情感分析模型；待适应新闻评论情感分析这个下游任务后，在人工精准标注的小规模有监督数据集A上进行微调，整个过程充分利用了大规模的无监督数据，仅依赖于小规模的人工标注数据集，最终得到模型即可用于舆情分析，还可为评论生成模型提供更加精准的伪标签数据。

使用最终的新闻评论情感分析模型重新在大规模无监督数据集B上进行伪标签标注，模型将对评论预测得到正面、负面和中性的概率a、b和c，均属于[0，1]，且a+b+c＝1；对于每篇新闻，将a＞0.85作为正面评论，b＞0.85作为负面评论，c＞0.85作为中性评论，每篇新闻采样正面、负面、中性评论各一条(若符合阈值的某种极性评论不存在则不采集)，得到大规模伪标签数据集D。

基于大规模伪标签数据集D预训练一个新闻评论生成模型，每种情感极性的Prompt皆为长度为5的占位符序列，其中可控式新闻评论生成模型包括UniLM模型，UniLM模型使用一种特殊的双向和单向混合的注意力掩码，使得在一个Transformers编码器中就能实现生成任务，无需在结构上显式分为编码器、解码器两个模块，同时本申请的UniLM模型仍然基于Roformer结构。

传统的新闻评论生成模型建模是一个条件概率：

P(c|n)

为了让生成过程变得可控，将情感极性作为条件融合到生成模型中，模型建模的概率变为：

P(c|n，s)

其中，n为新闻原文，c为评论，s为情感极佳信息。

本申请使用Prompt范式是让模型进行可控式生成的良好方案，在生成部分之前插入Prompt作为控制码，不同情感极性的评论使用不同的Prompt，即可为生成过程融合情感极性。而采用连续的Prompt形式，初始为一串占位token如[unused1]～[unusedi](简称[u1]～[ui])的形式，后序在模型训练过程中由模型自动地学习Prompt的embedding的连续表示，相比手工设计的离散Prompt模板更加灵活。

UniLM模型输入为input_ids和token_type_ids，其中input_ids的公式如下：

input_ids＝[CLS]news[SEP][ui]～[uj]comment[SEP] (5)

其中，n为新闻原文，p为Prompt，c为评论，ci为评论中第i个token，c_<i为评论中第i个token之前的token序列；

将步骤S6中预训练过的模型在人工标注的小规模数据集A上微调，得到最终的新闻评论生成模型。预测时输入新闻原文和目标情感极性的Prompt，即可以可控地生成符合新闻语义与相应情感极性的评论。

S8、用最终的可控式新闻评论生成模型为新闻评论情感分析模型生产新的评论以供数据增强。

为了进一步的增强新闻评论情感分析模型的效果，可以用最终的新闻评论生成模型为其生成新的评论以供训练。即生成模型对数据集的质量要求更高，在已经训练得到精度较高的情感分析模型后，用该模型对大规模新闻-评论数据集打上精度更高的伪标签后，用来训练新闻评论生成模型，待模型适应新闻评论生成这个下游任务后，再在人工精准标注的小规模有监督数据集上进行微调，进一步提高模型效果。最终模型则可以为新闻可控地生成指定情感极性的评论，用于舆情引导、辅助评论写作等领域，生成新的评论还可为情感分析模型提供数据增强功能。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节。

Claims

1.一种新闻评论的情感分析与生成方法，其特征在于：具体包括以下步骤：

S7、预训练后在人工标注的小规模数据集A上微调，得到最终的可控式新闻评论生成模型；

所述步骤S3中新闻评论情感分析模型包括Roformer模型和下游分类网络，Roformer模型输入为input_ids和token_type_ids，分别经过word embedding层和segment embedding层后转为词向量序列和段向量序列；input_ids公式如下：

input_ids＝[CLS]comment[SEP]news[SEP] (1)

token_type_ids用来标志input_ids中的句子成分类别，在[CLS]comment[SEP]部分设置为1，标志为评论；news[SEP]部分设为0，标志为新闻原文内容；输入Roformer模型得到最后一层的隐状态last_hidden_state，公式如下：

last_hidden_state＝Roformer(input_ids，token_type_ids) (2)

y_pred＝softmax(Linear₂(dropout(tanh(Linear₁(h_cls))))) (3)

2.如权利要求1所述的一种新闻评论的情感分析与生成方法，其特征在于：

所述步骤S2中建立大规模伪标签数据集C流程是：使用开源情感分类工具Senta，预测无监督数据集B中新闻所有评论的情感极性，得到评论正面的概率a；将a＞0.85的作为正面评论，a＜0.15的作为负面评论，0.4＜a＜0.6的作为中性评论，进而得到大规模伪标签数据集C。

3.如权利要求1所述的一种新闻评论的情感分析与生成方法，其特征在于：

所述步骤S3中的预训练阶段，使用预测概率值y_pred与真实概率值y_true计算交叉熵损失，公式如下：

4.如权利要求1所述的一种新闻评论的情感分析与生成方法，其特征在于：

所述步骤S6中可控式新闻评论生成模型包括UniLM模型，UniLM模型输入为input_ids和token_type_ids，其中input_ids的公式如下：

input_ids＝[CLS]news[SEP][ui]～[uj]comment[SEP] (5)

其中，[ui]～[uj]表示Roformer词表中预留的占位token，不同情感极性设置不同的占位token序列，长度相同但彼此间token不交叉；模型建模的概率及分解在每个token上展开后形式的条件概率为；

其中，n为新闻原文，p为Prompt，c为评论，c_i为评论中第i个token，c_＜i为评论中第i个token之前的token序列；