CN115146629A

CN115146629A - 一种基于对比学习的新闻文本与评论相关性分析方法

Info

Publication number: CN115146629A
Application number: CN202210507391.0A
Authority: CN
Inventors: 王红斌; 张卓; 李辉; 文永华; 线岩团
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-10-04

Abstract

本发明公开了一种基于对比学习的新闻文本与评论相关性分析方法，首先对文本进行分词和词性标注等处理，生成候选关键词，计算候选关键词与文本的相似度，提取关键词；文本的关键词序列与标题进行拼接得到新闻文本的表示；关键词和标题序列传递给BERT预训练模型的encoder两次，通过应用独立采样的dropoutmask获得两个作为正样本的嵌入，同时同一个batch里剩余新闻的两次嵌入作为负样本；交叉熵和相对熵损失函数对预训练模型进行微调。本发明提出的方法对于新闻文本与评论的相似度计算有很好的效果，通过合适的关键词数量与标题拼接可以提高相似度计算的准确率；在公共数据集上实验验证，该方法不仅适用于新闻文本与评论数据集，而且也具有一定的泛化能力。

Description

一种基于对比学习的新闻文本与评论相关性分析方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于对比学习的新闻文本与评论相关性分析方法。

背景技术

随着互联网的发展，网络新闻在各个平台广泛传播。针对某一事件的多方位报道以及对于这一事件的网络舆论就形成了网络新闻，网民可以对新闻内容进行多角度的评论，然而这些评论中有一部分评论与新闻文本有很强的相关性，另一部分评论与新闻文本的相关性较弱。因此通过计算新闻评论与新闻文本的相似度，去除与新闻相似度较低的评论，只保留与新闻相似度较高的评论，对后续的舆情分析以及评论的观点倾向性分析有着重大意义。新闻文本与新闻评论的相关性分析本质上是长文本与短文本的相似度计算，而文本相似度的计算与长文本的表示是该任务的核心内容。

传统的长文本处理方法一般分为两种：一种是对新闻文本进行等长、不重复的句子切分，将切分后的多个句子通过预训练模型得到句子的向量，然后使用平均池化、最大池化和自注意力来组合句子向量，得到文本的向量表示；另一种是基于局部自注意力机制的滑动窗口，并且每个词向量只关注同一窗口中的其他词向量。在整个文档上，这种局部注意力只会带来一部分计算和内存注意力成本，节省存储空间。最后使用一个学习过的饱和函数和两个阶段的池化策略得到文本的表示。

由于传统的长文本处理方法存在与文章主题无关的信息占比较大，容易对文本相似度计算造成干扰、只能突出文章的少数主题，针对新闻其他主题的评论识别效果较差、遗漏文章部分信息以及无法筛选出针对这部分新闻的评论等问题。

因此，为了解决上述问题，本文提出一种基于对比学习的新闻文本与评论相关性分析方法。

发明内容

为了解决上述技术问题，本发明设计了一种基于对比学习的新闻文本与评论相关性分析方法，该方法在计算新闻文本与评论的相似度前，首先对新闻文本进行分词和词性标注等处理，使用正则表达式生成候选关键词，通过文本分句后计算候选关键词与文本的相似度，提取出新闻文本的关键词，该步骤的目的是减小新闻文本长度，使其满足预训练模型的输入长度要求，同时去除文本中的冗余信息；然后将新闻文本的关键词序列与新闻标题进行拼接得到新闻文本的表示；接下来利用无监督对比学习的方法，将同一篇新闻的关键词和标题序列传递给BERT预训练模型的encoder两次，通过应用独立采样的dropout mask获得两个作为正样本的嵌入，同时将同一个batch里剩余新闻(关键词和标题序列)的两次嵌入作为负样本；最后通过交叉熵和相对熵损失函数对预训练模型进行微调。

为了达到上述技术效果，本发明是通过以下技术方案实现的：一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于，包括以下步骤：

Step1：使用分词工具对新闻文本进行分词、去除停止词和词性标注操作，将新闻文本拆分为带有词性标注的词序列,然后使用正则表达式对词序列进行匹配，组成名词短语，将这些短语作为候选关键词。

进一步的，模型的输入为完整的新闻文本，使用清华大学的 THULAC分词工具进行处理，实现对新闻文本的分词与词性标注，将新闻文本转化为词的序列W＝(w₁,w₂,…,w_n)。然后使用正则表达式对相邻位置的形容词与名词、名词与动词等进行拼接，组成名词短语，将这些短语作为候选关键词NP＝(NP₁,NP₂,…,NP_i)。

Step2：将新闻文本分成m个句子，使用BERT预训练模型对每一个句子进行编码，得到句子的向量表示

并使用嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NP_i的词向量

进一步的，设置MSL(minimum sequence length)为最小序列长度，将新闻文本分成大于或等于MSL的m个句子S＝(S₁,S₂,…,S_m)。对于每一个句子，使用BERT预训练模型获得句子的向量表示

由于BERT预训练模型的self-attention机制，同一个词在不同的语境有着不同的词嵌入。因此，通过嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NP_i的词嵌入。候选关键词NP_i的词嵌入如公式(1)所示：

其中NP_i表示当前关键词，S_j表示包含当前关键词的句子，

表示当前关键词NP_i在第j个句子中的词嵌入，n表示包含当前关键词 NP_i的句子总数。

Step3：通过余弦相似度计算得到每一个候选关键词与文本的相似度，然后通过softmax归一化，并结合候选关键词与新闻标题的相似度，得到所有关键词与新闻文本的相似度，接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为新闻文本的表示D。

进一步的，Step3中包括以下步骤：

Step3.1：对于每个候选关键词NP_i，通过公式(2)计算单个候选关键词与文本的相似度：

公式(2)中，

表示关键词NP_i的词向量，V_d表示文档的向量，

表示第j个句子的向量，本文使用当前关键词与文章所有句子的余弦相似度的和作为当前关键词与新闻文本的相似度。

Step3.2：对于关键词候选集里的所有关键词，通过公式(2)得到每一个候选关键词与文本的相似度，最后通过softmax归一化，并结合关键词与新闻标题的相似度，得到所有关键词与新闻文本的相似度。公式如(6)、(7)所示：

其中，V_Title表示新闻标题的向量，通过引入超参数

使最终得到的关键词与标题的相关程度更高。

Step3.3：得到候选关键词与新闻文本的相似度后，选取相似度最高的k个词作为新闻文本的关键词。最后将新闻标题与提取的k个关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示。

其中，title表示新闻文本的标题，w表示关键词，

表示拼接操作。通过关键词序列与标题拼接，从而在不丢失语义信息的情况下，将较长的新闻文本转换成较短的文本。

Step4：训练过程种使用对比学习方法微调预训练模型的参数，模型训练完成后，使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码，获得新闻文本的向量和评论的向量，之后通过计算向量之间的相似度得到评论与新闻文本的相似度，最后通过设定的相似度阈值对评论进行筛选。

进一步的，Step4中包括以下步骤：

Step4.1：使用dropout方法对BERT预训练模型进行随机失活，并使用该模型对同一篇新闻文本的表示D_i处理两次，得到当前新闻文本的两个不同嵌入表示

然后把

作为

的正样本，而负样本为同一个训练batch里的其他新闻文本的嵌入表示

其中 j≠i且j_max＝batch size。完成正负样本的构建后，模型的训练目标如公式(9)所示。

公式(9)中，N为batch size，τ为超参数，本文取值为0.05， L_i为模型的对比损失。模型通过减小L_i的值拉近

与

的距离，拉远

与

的距离，以此达到微调预训练模型的目的。

Step4.2：由于dropout方法在一个模型中随机地关闭神经元，所以当模型计算出

时，

与

实际上来自于两个不同的子模型，这两个子模型的区别在于dropout后神经元分布不同。为了解决不同子模型预测结果差距较大的问题，本文使用相对熵损失函数通过最小化

与

之间的分布差异来正则化模型的输出，目的是为了让两个子模型输出的结果尽可能一致。相对熵损失函数如公式(10)所示，模型的总损失如公式(11)所示。

loss＝L_i+L_k (11)

公式(10)中，当L_k的值越接近0，模型dropout后生成的

与

的随机分布越相似。

Step4.3：模型训练完一个batch的数据后，使用当前模型对新闻文本(标题与关键词序列)和对应的评论进行编码，获得新闻文本的向量和评论的向量，之后通过计算向量之间的相似度来得到评论与文本的相似度，最后通过设定的相似度阈值对评论进行筛选。

本发明的有益效果是：

本发明是基于BERT预训练模型，使用dropout方法构造训练数据的正负例，最后通过对比学习以及相对熵损失函数对预训练模型进行微调；实验结果证明本文提出的方法对于新闻文本与评论的相似度计算有很好的效果，通过合适的关键词数量与标题拼接可以提高相似度计算的准确率；在公共数据集上实验验证，该方法也取得了较好的效果，说明该方法不仅适用于新闻文本与评论数据集，而且也具有一定的泛化能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体模型图；

图2为本发明的新闻文本关键词提取模型图；

图3为本发明的新闻文本与评论相关性分析模型图；

图4为本发明的整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

参阅图1至图4所示，一种基于对比学习的新闻文本与评论相关性分析方法，所述方法的具体步骤为：

Step1、根据图2的模型所示，使用清华大学的THULAC分词工具进行处理，实现对新闻文本的分词与词性标注，将新闻文本转化为词的序列W＝(w₁,w₂,…,w_n)。然后使用正则表达式对相邻位置的形容词与名词、名词与动词等进行拼接，组成名词短语，将这些短语作为候选关键词NP＝(NP₁,NP₂,…,NP_i)。

Step2、将该新闻文本分成m个句子，使用BERT预训练模型对每一个句子进行编码，得到句子的向量表示

Step2.1、设置MSL(minimum sequence length)为最小序列长度，将新闻文本分成大于或等于MSL的m个句子S＝(S₁,S₂,…,S_m)。对于每一个句子，使用BERT预训练模型获得句子的向量表示

由于 BERT预训练模型的self-attention机制，同一个词在不同的语境有着不同的词嵌入。因此，通过嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NP_i的词嵌入。候选关键词NP_i的词嵌入如公式 (1)所示：

其中NP_i表示当前关键词，S_j表示包含当前关键词的句子，

Step3、使用余弦相似度计算得到每一个候选关键词与文本的相似度，然后通过softmax归一化，并结合候选关键词与新闻标题的相似度，得到所有关键词与新闻文本的相似度，接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为新闻文本的表示D。如图2 所示，从该新闻文本中提取出30个关键词。

Step3.1、对于每个候选关键词NP_i，通过公式(2)计算单个候选关键词与文本的相似度：

公式(2)中，

表示关键词NP_i的词向量，V_d表示文档的向量，

Step3.2、对于关键词候选集里的所有关键词，通过公式(2)得到每一个候选关键词与文本的相似度，最后通过softmax归一化，并结合关键词与新闻标题的相似度，得到所有关键词与新闻文本的相似度。公式如(6)、(7)所示：

其中，V_Title表示新闻标题的向量，通过引入超参数

使最终得到的关键词与标题的相关程度更高。

Step3.3、得到候选关键词与新闻文本的相似度后，选取相似度最高的k个词作为新闻文本的关键词。最后将新闻标题与提取的k个关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示。

其中，title表示新闻文本的标题，w表示关键词，

Step4、训练过程种使用对比学习方法微调预训练模型的参数。如图3所示，模型训练完成后，使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码，获得新闻文本的向量和评论的向量，之后通过计算向量之间的相似度得到评论与新闻文本的相似度，最后通过设定的相似度阈值对评论进行筛选。

Step4.1、使用dropout方法对BERT预训练模型进行随机失活，并使用该模型对同一篇新闻文本的表示D_i处理两次，得到当前新闻文本的两个不同嵌入表示

然后把

作为

与

的距离，拉远

与

的距离，以此达到微调预训练模型的目的。

Step4.2、由于dropout方法在一个模型中随机地关闭神经元，所以当模型计算出

时，

与

与

loss＝L_i+L_k (11)

公式(10)中，当L_k的值越接近0，模型dropout后生成的

与

的随机分布越相似。

Step4.3、模型训练完一个batch的数据后，使用当前模型对新闻文本(标题与关键词序列)和对应的评论进行编码，获得新闻文本的向量和评论的向量，之后通过计算向量之间的相似度来得到评论与文本的相似度，最后通过设定的相似度阈值对评论进行筛选。

本发明中，首先对新闻文本进行分词和词性标注等处理，使用正则表达式生成候选关键词，通过文本分句后计算候选关键词与文本的相似度，提取出新闻文本的关键词，该步骤的目的是减小新闻文本长度，使其满足预训练模型的输入长度要求，同时去除文本中的冗余信息；然后将新闻文本的关键词序列与新闻标题进行拼接得到新闻文本的表示；接下来利用无监督对比学习的方法，将同一篇新闻的关键词和标题序列传递给BERT预训练模型的encoder两次，通过应用独立采样的dropout mask获得两个作为正样本的嵌入，同时将同一个 batch里剩余新闻(关键词和标题序列)的两次嵌入作为负样本；最后通过交叉熵和相对熵损失函数对预训练模型进行微调。

实施例2

为了验证本发明的效果，使用1个新闻与评论的相关性分析数据集作为支撑。同时为了验证本发明的泛化能力，使用4个中文文本相似度计算公共数据集作为支撑。新闻与评论的相关性分析数据集为从新闻网站爬取的新闻文本与评论，其中新闻文本涵盖科技、社会、时政、体育、财经等10个领域。标签“0”表示评论与新闻无关，标签 “1”表示评论与新闻相关，本发明认为出现了新闻中的人物、地名、组织机构、事件或者用户针对以上事物的主观态度的评论是和新闻相关的，其余则无关。本文的训练集数据为10000篇新闻文本，验证集与测试集分别为10个领域的10篇新闻文本，每篇新闻对应300条评论，评论总数为3000条，验证集中标签为“1”的评论1490条，标签为“0”的评论1510条；测试集中标签为“1”的评论1508条，标签为“0”的评论1492条。数据集分布如表1所示。

表1新闻与评论数据集分布

在模型的训练过程中，由于本发明使用新闻文本实现正负样本的构造，所以训练集只有新闻文本，而没有新闻评论。验证集与测试集的作用为：当模型训练完一个batch的数据后，使用模型计算验证集里的评论与新闻文本的相似度，并使用准确率对模型效果进行检验；当模型计算出当前评论的得分高于准确率阈值时，判定当前评论为正样本，反之为负样本；最后将准确率最高的模型保存，训练结束后使用测试集的数据对模型效果进行测试。

本发明的参数设置为：文本最大序列为120，batch size为64，学习率为1e-5,关键词数量为30，相似度阈值为0.3，超参数τ取值为0.05，训练时使用相对熵与交叉熵损失函数微调BERT模型的参数。

在新闻与评论的相关性分析任务中，因为正负样本的比例接近1： 1，所以使用准确率(Accuracy)作为评价指标，准确率计算公式如 (12)所示。

其中TP表示模型预测评论与新闻相关并且标签为“1”的样本总数，TN表示模型预测评论与新闻不相关并且标签为“0”的样本总数， Total表示评论的总数。

本发明在4个中文预训练模型上进行实验效果对比，结果如表2 所示。实验的预训练模型分别为BERT-wwm、BERT-wwm-ext、RoBERT 和RoBERT-large，其中cls向量为BERT预训练模型编码器隐藏层的最后一层输出向量，pooler向量为在cls向量基础上进行线性变换得到的向量，last-avg向量为编码器隐藏层最后一层的所有向量取平均值得到的，first-last-avg向量为编码器隐藏层的第一层与最后一层的输出向量取平均值得到的。从表2可以看出，在4种输出向量中BERT-wwm-ext的cls向量效果为74.33，BERT-wwm的pooler向量效果为73.63，RoBERT-large的last-avg向量效果为75.23，RoBERT 的cls向量效果为76.28，所以RoBERT的cls向量取得了最好的效果。

表2不同预训练模型的实验结果

本发明使用了关键词与标题拼接作为长文本的表示，因此与三种长文本处理方法作为对比，以此证明本方法的有效性。三种方法说明如下：

文本等长分句：对新闻文本进行等长、不重复的句子切分，将切分后的多个句子通过预训练模型得到句子的向量，然后使用平均池化、最大池化和自注意力来组合句子向量，得到文本的向量表示。

截取：截取文本的前510个字符，或结尾510个字符，或前128 个字符和后382个字符，文本的剩余部分全部丢弃，只用截取的部分作为文本的表示，然后使用预训练模型提取文本的特征。

滑动窗口方法：文章提出了一种基于局部自注意力机制的滑动窗口，并且每个词向量只关注同一窗口中的其他词向量。在整个文档上，这种局部注意力只会带来一部分计算和内存注意力成本，节省存储空间。最后使用一个学习过的饱和函数和两个阶段的池化策略得到文本的表示。实验结果如表3所示。

表3消融实验

实验结果说明：本发明提出的关键词和标题拼接的长文本处理方法在准确率评价指标下取得了最佳效果，证明了该方法的有效性。因为大部分评论都是针对新闻文本的某一个或者两个点做出的评价，而新闻的关键词可以有效的涵盖评论针对的对象，所以关键词提取可以达到不丢失新闻文本的主要内容同时识别出多数评论。

为了检验本发明的泛化能力，本发明在4个中文语义相似度计算公共数据集上进行了对比实验。同时，本发明与最近几年的无监督语义相似度计算模型进行了对比，从而说明本发明性能的优越性。

因为目前大部分无监督语义相似度计算的模型在公共数据集上使用的是spearman相关系数评价指标(只依赖于预测分数与标签的相关性，并且不依赖于阈值)，所以本发明在公共数据集上也使用 spearman评价指标，并且所有实验的预训练模型为RoBERT。实验效果如表4所示。

表4公共数据集上的实验

从表4可以看出，本发明提出的方法在4个语义相似度计算公共数据集上均达到了最优的效果。在使用相同预训练模型的条件下，该模型与使用了dropout方法的SimCSE模型相比，在4个数据集上分别提升了1.02％、2.55％、6.11％和3.05％，充分证明了使用相对熵损失函数正则化对比学习模型的输出的有效性。表3的实验结果证明本文提出的方法对于新闻文本与评论的相似度计算有很好的效果，通过合适的关键词数量与标题拼接可以提高相似度计算的准确率。在公共数据集上实验验证，本文的方法也取得了较好的效果，说明该方法不仅适用于新闻文本与评论数据集，而且也具有一定的泛化能力。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于，包括以下步骤：

Step1：使用分词工具对新闻文本进行分词、去除停止词和词性标注操作，将新闻文本拆分为带有词性标注的词序列,然后使用正则表达式对词序列进行匹配，组成名词短语，将这些短语作为候选关键词；

Step3：通过余弦相似度计算得到每一个候选关键词与文本的相似度，然后通过softmax归一化，并结合候选关键词与新闻标题的相似度，得到所有关键词与新闻文本的相似度，接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为新闻文本的表示D；

Step4、使用dropout方法对BERT预训练模型进行随机失活，并使用该模型对新闻文本的表示D_i进行处理；训练过程种使用对比学习方法微调预训练模型的参数，模型训练完成后，使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码，获得新闻文本的向量和评论的向量，之后通过计算向量之间的相似度得到评论与新闻文本的相似度，最后通过设定的相似度阈值对评论进行筛选。

2.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于，所述Step1的具体步骤为：

模型的输入为完整的新闻文本，使用清华大学的THULAC分词工具进行处理，实现对新闻文本的分词与词性标注，将新闻文本转化为词的序列W＝(w₁,w₂,…,w_n)；然后使用正则表达式对相邻位置的形容词与名词、名词与动词等进行拼接，组成名词短语，将这些短语作为候选关键词NP＝(NP₁,NP₂,…,NP_i)。

3.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法，其特征在于，所述Step2的具体步骤为：

设置MSL(minimum sequence length)为最小序列长度，将新闻文本分成大于或等于MSL的m个句子S＝(S₁,S₂,…,S_m)；对于每一个句子，使用BERT预训练模型获得句子的向量表示