CN115146629A - 一种基于对比学习的新闻文本与评论相关性分析方法 - Google Patents

一种基于对比学习的新闻文本与评论相关性分析方法 Download PDF

Info

Publication number
CN115146629A
CN115146629A CN202210507391.0A CN202210507391A CN115146629A CN 115146629 A CN115146629 A CN 115146629A CN 202210507391 A CN202210507391 A CN 202210507391A CN 115146629 A CN115146629 A CN 115146629A
Authority
CN
China
Prior art keywords
news
text
model
similarity
news text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210507391.0A
Other languages
English (en)
Inventor
王红斌
张卓
李辉
文永华
线岩团
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210507391.0A priority Critical patent/CN115146629A/zh
Publication of CN115146629A publication Critical patent/CN115146629A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于对比学习的新闻文本与评论相关性分析方法,首先对文本进行分词和词性标注等处理,生成候选关键词,计算候选关键词与文本的相似度,提取关键词;文本的关键词序列与标题进行拼接得到新闻文本的表示;关键词和标题序列传递给BERT预训练模型的encoder两次,通过应用独立采样的dropoutmask获得两个作为正样本的嵌入,同时同一个batch里剩余新闻的两次嵌入作为负样本;交叉熵和相对熵损失函数对预训练模型进行微调。本发明提出的方法对于新闻文本与评论的相似度计算有很好的效果,通过合适的关键词数量与标题拼接可以提高相似度计算的准确率;在公共数据集上实验验证,该方法不仅适用于新闻文本与评论数据集,而且也具有一定的泛化能力。

Description

一种基于对比学习的新闻文本与评论相关性分析方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于对比学习 的新闻文本与评论相关性分析方法。
背景技术
随着互联网的发展,网络新闻在各个平台广泛传播。针对某一事 件的多方位报道以及对于这一事件的网络舆论就形成了网络新闻,网 民可以对新闻内容进行多角度的评论,然而这些评论中有一部分评论 与新闻文本有很强的相关性,另一部分评论与新闻文本的相关性较 弱。因此通过计算新闻评论与新闻文本的相似度,去除与新闻相似度 较低的评论,只保留与新闻相似度较高的评论,对后续的舆情分析以 及评论的观点倾向性分析有着重大意义。新闻文本与新闻评论的相关 性分析本质上是长文本与短文本的相似度计算,而文本相似度的计算 与长文本的表示是该任务的核心内容。
传统的长文本处理方法一般分为两种:一种是对新闻文本进行等 长、不重复的句子切分,将切分后的多个句子通过预训练模型得到句 子的向量,然后使用平均池化、最大池化和自注意力来组合句子向量, 得到文本的向量表示;另一种是基于局部自注意力机制的滑动窗口, 并且每个词向量只关注同一窗口中的其他词向量。在整个文档上,这 种局部注意力只会带来一部分计算和内存注意力成本,节省存储空 间。最后使用一个学习过的饱和函数和两个阶段的池化策略得到文本 的表示。
由于传统的长文本处理方法存在与文章主题无关的信息占比较 大,容易对文本相似度计算造成干扰、只能突出文章的少数主题,针 对新闻其他主题的评论识别效果较差、遗漏文章部分信息以及无法筛 选出针对这部分新闻的评论等问题。
因此,为了解决上述问题,本文提出一种基于对比学习的新闻文 本与评论相关性分析方法。
发明内容
为了解决上述技术问题,本发明设计了一种基于对比学习的新闻 文本与评论相关性分析方法,该方法在计算新闻文本与评论的相似度 前,首先对新闻文本进行分词和词性标注等处理,使用正则表达式生 成候选关键词,通过文本分句后计算候选关键词与文本的相似度,提 取出新闻文本的关键词,该步骤的目的是减小新闻文本长度,使其满 足预训练模型的输入长度要求,同时去除文本中的冗余信息;然后将 新闻文本的关键词序列与新闻标题进行拼接得到新闻文本的表示;接 下来利用无监督对比学习的方法,将同一篇新闻的关键词和标题序列 传递给BERT预训练模型的encoder两次,通过应用独立采样的dropout mask获得两个作为正样本的嵌入,同时将同一个batch里 剩余新闻(关键词和标题序列)的两次嵌入作为负样本;最后通过交 叉熵和相对熵损失函数对预训练模型进行微调。
为了达到上述技术效果,本发明是通过以下技术方案实现的:一 种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,包 括以下步骤:
Step1:使用分词工具对新闻文本进行分词、去除停止词和词性 标注操作,将新闻文本拆分为带有词性标注的词序列,然后使用正则 表达式对词序列进行匹配,组成名词短语,将这些短语作为候选关键 词。
进一步的,模型的输入为完整的新闻文本,使用清华大学的 THULAC分词工具进行处理,实现对新闻文本的分词与词性标注,将 新闻文本转化为词的序列W=(w1,w2,…,wn)。然后使用正则表达式对相 邻位置的形容词与名词、名词与动词等进行拼接,组成名词短语,将 这些短语作为候选关键词NP=(NP1,NP2,…,NPi)。
Step2:将新闻文本分成m个句子,使用BERT预训练模型对每一 个句子进行编码,得到句子的向量表示
Figure BDA0003636580970000031
并使用嵌入对齐的方法 来保持文本的上下文语义以及获取候选关键词NPi的词向量
Figure BDA0003636580970000032
进一步的,设置MSL(minimum sequence length)为最小序列 长度,将新闻文本分成大于或等于MSL的m个句子S=(S1,S2,…,Sm)。 对于每一个句子,使用BERT预训练模型获得句子的向量表示
Figure BDA0003636580970000033
由 于BERT预训练模型的self-attention机制,同一个词在不同的语境 有着不同的词嵌入。因此,通过嵌入对齐的方法来保持文本的上下文 语义以及获取候选关键词NPi的词嵌入。候选关键词NPi的词嵌入如公 式(1)所示:
Figure BDA0003636580970000034
其中NPi表示当前关键词,Sj表示包含当前关键词的句子,
Figure BDA0003636580970000041
表 示当前关键词NPi在第j个句子中的词嵌入,n表示包含当前关键词 NPi的句子总数。
Step3:通过余弦相似度计算得到每一个候选关键词与文本的相 似度,然后通过softmax归一化,并结合候选关键词与新闻标题的相 似度,得到所有关键词与新闻文本的相似度,接下来选取相似度最高 的k个词与新闻标题拼接得到的文本作为新闻文本的表示D。
进一步的,Step3中包括以下步骤:
Step3.1:对于每个候选关键词NPi,通过公式(2)计算单个候 选关键词与文本的相似度:
Figure BDA0003636580970000042
Figure BDA0003636580970000043
公式(2)中,
Figure BDA0003636580970000044
表示关键词NPi的词向量,Vd表示文档的向量,
Figure BDA0003636580970000045
表示第j个句子的向量,本文使用当前关键词与文章所有句子的余 弦相似度的和作为当前关键词与新闻文本的相似度。
Step3.2:对于关键词候选集里的所有关键词,通过公式(2)得 到每一个候选关键词与文本的相似度,最后通过softmax归一化,并 结合关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似 度。公式如(6)、(7)所示:
Figure BDA0003636580970000046
Figure BDA0003636580970000051
Figure BDA0003636580970000052
Figure BDA0003636580970000053
其中,VTitle表示新闻标题的向量,通过引入超参数
Figure BDA0003636580970000054
使最终得到 的关键词与标题的相关程度更高。
Step3.3:得到候选关键词与新闻文本的相似度后,选取相似度 最高的k个词作为新闻文本的关键词。最后将新闻标题与提取的k个 关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示。
Figure BDA0003636580970000055
其中,title表示新闻文本的标题,w表示关键词,
Figure BDA0003636580970000056
表示拼接操 作。通过关键词序列与标题拼接,从而在不丢失语义信息的情况下, 将较长的新闻文本转换成较短的文本。
Step4:训练过程种使用对比学习方法微调预训练模型的参数, 模型训练完成后,使用该模型对新闻文本(标题与关键词序列)和对 应的评论进行编码,获得新闻文本的向量和评论的向量,之后通过计 算向量之间的相似度得到评论与新闻文本的相似度,最后通过设定的 相似度阈值对评论进行筛选。
进一步的,Step4中包括以下步骤:
Step4.1:使用dropout方法对BERT预训练模型进行随机失活, 并使用该模型对同一篇新闻文本的表示Di处理两次,得到当前新闻文 本的两个不同嵌入表示
Figure BDA0003636580970000057
然后把
Figure BDA0003636580970000058
作为
Figure BDA0003636580970000059
的正样本,而负样 本为同一个训练batch里的其他新闻文本的嵌入表示
Figure BDA0003636580970000061
其中 j≠i且jmax=batch size。完成正负样本的构建后,模型的训练目标如公式(9)所示。
Figure BDA0003636580970000062
公式(9)中,N为batch size,τ为超参数,本文取值为0.05, Li为模型的对比损失。模型通过减小Li的值拉近
Figure BDA00036365809700000614
Figure BDA0003636580970000063
的距离,拉 远
Figure BDA0003636580970000064
Figure BDA0003636580970000065
的距离,以此达到微调预训练模型的目的。
Step4.2:由于dropout方法在一个模型中随机地关闭神经元, 所以当模型计算出
Figure BDA0003636580970000066
时,
Figure BDA0003636580970000067
Figure BDA0003636580970000068
实际上来自于两个不同的子模 型,这两个子模型的区别在于dropout后神经元分布不同。为了解决 不同子模型预测结果差距较大的问题,本文使用相对熵损失函数通过 最小化
Figure BDA0003636580970000069
Figure BDA00036365809700000610
之间的分布差异来正则化模型的输出,目的是为了让 两个子模型输出的结果尽可能一致。相对熵损失函数如公式(10)所 示,模型的总损失如公式(11)所示。
Figure BDA00036365809700000611
loss=Li+Lk (11)
公式(10)中,当Lk的值越接近0,模型dropout后生成的
Figure BDA00036365809700000612
Figure BDA00036365809700000613
的随机分布越相似。
Step4.3:模型训练完一个batch的数据后,使用当前模型对新 闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本 的向量和评论的向量,之后通过计算向量之间的相似度来得到评论与 文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
本发明的有益效果是:
本发明是基于BERT预训练模型,使用dropout方法构造训练数 据的正负例,最后通过对比学习以及相对熵损失函数对预训练模型进 行微调;实验结果证明本文提出的方法对于新闻文本与评论的相似度 计算有很好的效果,通过合适的关键词数量与标题拼接可以提高相似 度计算的准确率;在公共数据集上实验验证,该方法也取得了较好的 效果,说明该方法不仅适用于新闻文本与评论数据集,而且也具有一 定的泛化能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描 述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体模型图;
图2为本发明的新闻文本关键词提取模型图;
图3为本发明的新闻文本与评论相关性分析模型图;
图4为本发明的整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例, 都属于本发明保护的范围。
实施例1
参阅图1至图4所示,一种基于对比学习的新闻文本与评论相关 性分析方法,所述方法的具体步骤为:
Step1、根据图2的模型所示,使用清华大学的THULAC分词工具 进行处理,实现对新闻文本的分词与词性标注,将新闻文本转化为词 的序列W=(w1,w2,…,wn)。然后使用正则表达式对相邻位置的形容词与 名词、名词与动词等进行拼接,组成名词短语,将这些短语作为候选 关键词NP=(NP1,NP2,…,NPi)。
Step2、将该新闻文本分成m个句子,使用BERT预训练模型对每 一个句子进行编码,得到句子的向量表示
Figure BDA0003636580970000081
并使用嵌入对齐的方 法来保持文本的上下文语义以及获取候选关键词NPi的词向量
Figure BDA0003636580970000082
Step2.1、设置MSL(minimum sequence length)为最小序列长 度,将新闻文本分成大于或等于MSL的m个句子S=(S1,S2,…,Sm)。对 于每一个句子,使用BERT预训练模型获得句子的向量表示
Figure BDA0003636580970000083
由于 BERT预训练模型的self-attention机制,同一个词在不同的语境有 着不同的词嵌入。因此,通过嵌入对齐的方法来保持文本的上下文语 义以及获取候选关键词NPi的词嵌入。候选关键词NPi的词嵌入如公式 (1)所示:
Figure BDA0003636580970000091
其中NPi表示当前关键词,Sj表示包含当前关键词的句子,
Figure BDA0003636580970000092
表 示当前关键词NPi在第j个句子中的词嵌入,n表示包含当前关键词 NPi的句子总数。
Step3、使用余弦相似度计算得到每一个候选关键词与文本的相 似度,然后通过softmax归一化,并结合候选关键词与新闻标题的相 似度,得到所有关键词与新闻文本的相似度,接下来选取相似度最高 的k个词与新闻标题拼接得到的文本作为新闻文本的表示D。如图2 所示,从该新闻文本中提取出30个关键词。
Step3.1、对于每个候选关键词NPi,通过公式(2)计算单个候 选关键词与文本的相似度:
Figure BDA0003636580970000093
Figure BDA0003636580970000094
公式(2)中,
Figure BDA0003636580970000095
表示关键词NPi的词向量,Vd表示文档的向量,
Figure BDA0003636580970000096
表示第j个句子的向量,本文使用当前关键词与文章所有句子的余 弦相似度的和作为当前关键词与新闻文本的相似度。
Step3.2、对于关键词候选集里的所有关键词,通过公式(2)得 到每一个候选关键词与文本的相似度,最后通过softmax归一化,并 结合关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似 度。公式如(6)、(7)所示:
Figure BDA0003636580970000109
Figure BDA00036365809700001010
Figure BDA0003636580970000101
Figure BDA0003636580970000102
其中,VTitle表示新闻标题的向量,通过引入超参数
Figure BDA0003636580970000103
使最终得到 的关键词与标题的相关程度更高。
Step3.3、得到候选关键词与新闻文本的相似度后,选取相似度 最高的k个词作为新闻文本的关键词。最后将新闻标题与提取的k个 关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示。
Figure BDA0003636580970000104
其中,title表示新闻文本的标题,w表示关键词,
Figure BDA0003636580970000105
表示拼接操 作。通过关键词序列与标题拼接,从而在不丢失语义信息的情况下, 将较长的新闻文本转换成较短的文本。
Step4、训练过程种使用对比学习方法微调预训练模型的参数。 如图3所示,模型训练完成后,使用该模型对新闻文本(标题与关键 词序列)和对应的评论进行编码,获得新闻文本的向量和评论的向量, 之后通过计算向量之间的相似度得到评论与新闻文本的相似度,最后 通过设定的相似度阈值对评论进行筛选。
Step4.1、使用dropout方法对BERT预训练模型进行随机失活, 并使用该模型对同一篇新闻文本的表示Di处理两次,得到当前新闻文 本的两个不同嵌入表示
Figure BDA0003636580970000106
然后把
Figure BDA0003636580970000107
作为
Figure BDA0003636580970000108
的正样本,而负样 本为同一个训练batch里的其他新闻文本的嵌入表示
Figure BDA0003636580970000111
其中 j≠i且jmax=batch size。完成正负样本的构建后,模型的训练目标如公式(9)所示。
Figure BDA0003636580970000112
公式(9)中,N为batch size,τ为超参数,本文取值为0.05, Li为模型的对比损失。模型通过减小Li的值拉近
Figure BDA0003636580970000113
Figure BDA0003636580970000114
的距离,拉 远
Figure BDA0003636580970000115
Figure BDA0003636580970000116
的距离,以此达到微调预训练模型的目的。
Step4.2、由于dropout方法在一个模型中随机地关闭神经元, 所以当模型计算出
Figure BDA0003636580970000117
时,
Figure BDA0003636580970000118
Figure BDA0003636580970000119
实际上来自于两个不同的子模 型,这两个子模型的区别在于dropout后神经元分布不同。为了解决 不同子模型预测结果差距较大的问题,本文使用相对熵损失函数通过 最小化
Figure BDA00036365809700001110
Figure BDA00036365809700001111
之间的分布差异来正则化模型的输出,目的是为了让 两个子模型输出的结果尽可能一致。相对熵损失函数如公式(10)所 示,模型的总损失如公式(11)所示。
Figure BDA00036365809700001112
loss=Li+Lk (11)
公式(10)中,当Lk的值越接近0,模型dropout后生成的
Figure BDA00036365809700001113
Figure BDA00036365809700001114
的随机分布越相似。
Step4.3、模型训练完一个batch的数据后,使用当前模型对新 闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本 的向量和评论的向量,之后通过计算向量之间的相似度来得到评论与 文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
本发明中,首先对新闻文本进行分词和词性标注等处理,使用正 则表达式生成候选关键词,通过文本分句后计算候选关键词与文本的 相似度,提取出新闻文本的关键词,该步骤的目的是减小新闻文本长 度,使其满足预训练模型的输入长度要求,同时去除文本中的冗余信 息;然后将新闻文本的关键词序列与新闻标题进行拼接得到新闻文本 的表示;接下来利用无监督对比学习的方法,将同一篇新闻的关键词 和标题序列传递给BERT预训练模型的encoder两次,通过应用独立 采样的dropout mask获得两个作为正样本的嵌入,同时将同一个 batch里剩余新闻(关键词和标题序列)的两次嵌入作为负样本;最 后通过交叉熵和相对熵损失函数对预训练模型进行微调。
实施例2
为了验证本发明的效果,使用1个新闻与评论的相关性分析数据 集作为支撑。同时为了验证本发明的泛化能力,使用4个中文文本相 似度计算公共数据集作为支撑。新闻与评论的相关性分析数据集为从 新闻网站爬取的新闻文本与评论,其中新闻文本涵盖科技、社会、时 政、体育、财经等10个领域。标签“0”表示评论与新闻无关,标签 “1”表示评论与新闻相关,本发明认为出现了新闻中的人物、地名、 组织机构、事件或者用户针对以上事物的主观态度的评论是和新闻相 关的,其余则无关。本文的训练集数据为10000篇新闻文本,验证集 与测试集分别为10个领域的10篇新闻文本,每篇新闻对应300条评 论,评论总数为3000条,验证集中标签为“1”的评论1490条,标 签为“0”的评论1510条;测试集中标签为“1”的评论1508条,标 签为“0”的评论1492条。数据集分布如表1所示。
表1新闻与评论数据集分布
Figure BDA0003636580970000131
在模型的训练过程中,由于本发明使用新闻文本实现正负样本的 构造,所以训练集只有新闻文本,而没有新闻评论。验证集与测试集 的作用为:当模型训练完一个batch的数据后,使用模型计算验证集 里的评论与新闻文本的相似度,并使用准确率对模型效果进行检验; 当模型计算出当前评论的得分高于准确率阈值时,判定当前评论为正 样本,反之为负样本;最后将准确率最高的模型保存,训练结束后使 用测试集的数据对模型效果进行测试。
本发明的参数设置为:文本最大序列为120,batch size为64, 学习率为1e-5,关键词数量为30,相似度阈值为0.3,超参数τ取值 为0.05,训练时使用相对熵与交叉熵损失函数微调BERT模型的参数。
在新闻与评论的相关性分析任务中,因为正负样本的比例接近1: 1,所以使用准确率(Accuracy)作为评价指标,准确率计算公式如 (12)所示。
Figure BDA0003636580970000132
其中TP表示模型预测评论与新闻相关并且标签为“1”的样本总 数,TN表示模型预测评论与新闻不相关并且标签为“0”的样本总数, Total表示评论的总数。
本发明在4个中文预训练模型上进行实验效果对比,结果如表2 所示。实验的预训练模型分别为BERT-wwm、BERT-wwm-ext、RoBERT 和RoBERT-large,其中cls向量为BERT预训练模型编码器隐藏层的 最后一层输出向量,pooler向量为在cls向量基础上进行线性变换得到的向量,last-avg向量为编码器隐藏层最后一层的所有向量取 平均值得到的,first-last-avg向量为编码器隐藏层的第一层与最 后一层的输出向量取平均值得到的。从表2可以看出,在4种输出向 量中BERT-wwm-ext的cls向量效果为74.33,BERT-wwm的pooler向 量效果为73.63,RoBERT-large的last-avg向量效果为75.23,RoBERT 的cls向量效果为76.28,所以RoBERT的cls向量取得了最好的效 果。
表2不同预训练模型的实验结果
Figure BDA0003636580970000141
本发明使用了关键词与标题拼接作为长文本的表示,因此与三种 长文本处理方法作为对比,以此证明本方法的有效性。三种方法说明 如下:
文本等长分句:对新闻文本进行等长、不重复的句子切分,将切 分后的多个句子通过预训练模型得到句子的向量,然后使用平均池 化、最大池化和自注意力来组合句子向量,得到文本的向量表示。
截取:截取文本的前510个字符,或结尾510个字符,或前128 个字符和后382个字符,文本的剩余部分全部丢弃,只用截取的部分 作为文本的表示,然后使用预训练模型提取文本的特征。
滑动窗口方法:文章提出了一种基于局部自注意力机制的滑动窗 口,并且每个词向量只关注同一窗口中的其他词向量。在整个文档上, 这种局部注意力只会带来一部分计算和内存注意力成本,节省存储空 间。最后使用一个学习过的饱和函数和两个阶段的池化策略得到文本 的表示。实验结果如表3所示。
表3消融实验
Figure BDA0003636580970000151
实验结果说明:本发明提出的关键词和标题拼接的长文本处理方 法在准确率评价指标下取得了最佳效果,证明了该方法的有效性。因 为大部分评论都是针对新闻文本的某一个或者两个点做出的评价,而 新闻的关键词可以有效的涵盖评论针对的对象,所以关键词提取可以 达到不丢失新闻文本的主要内容同时识别出多数评论。
为了检验本发明的泛化能力,本发明在4个中文语义相似度计算 公共数据集上进行了对比实验。同时,本发明与最近几年的无监督语 义相似度计算模型进行了对比,从而说明本发明性能的优越性。
因为目前大部分无监督语义相似度计算的模型在公共数据集上 使用的是spearman相关系数评价指标(只依赖于预测分数与标签的 相关性,并且不依赖于阈值),所以本发明在公共数据集上也使用 spearman评价指标,并且所有实验的预训练模型为RoBERT。实验效 果如表4所示。
表4公共数据集上的实验
Figure BDA0003636580970000161
从表4可以看出,本发明提出的方法在4个语义相似度计算公共 数据集上均达到了最优的效果。在使用相同预训练模型的条件下,该 模型与使用了dropout方法的SimCSE模型相比,在4个数据集上分 别提升了1.02%、2.55%、6.11%和3.05%,充分证明了使用相对熵损 失函数正则化对比学习模型的输出的有效性。表3的实验结果证明本 文提出的方法对于新闻文本与评论的相似度计算有很好的效果,通过 合适的关键词数量与标题拼接可以提高相似度计算的准确率。在公共 数据集上实验验证,本文的方法也取得了较好的效果,说明该方法不 仅适用于新闻文本与评论数据集,而且也具有一定的泛化能力。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具 体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、 材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书 中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而 且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个 实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实 施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实 施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说 明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和 实际应用,从而使所属技术领域技术人员能很好地理解和利用本发 明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,包括以下步骤:
Step1:使用分词工具对新闻文本进行分词、去除停止词和词性标注操作,将新闻文本拆分为带有词性标注的词序列,然后使用正则表达式对词序列进行匹配,组成名词短语,将这些短语作为候选关键词;
Step2:将新闻文本分成m个句子,使用BERT预训练模型对每一个句子进行编码,得到句子的向量表示
Figure FDA0003636580960000011
并使用嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NPi的词向量
Figure FDA0003636580960000012
Step3:通过余弦相似度计算得到每一个候选关键词与文本的相似度,然后通过softmax归一化,并结合候选关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似度,接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为新闻文本的表示D;
Step4、使用dropout方法对BERT预训练模型进行随机失活,并使用该模型对新闻文本的表示Di进行处理;训练过程种使用对比学习方法微调预训练模型的参数,模型训练完成后,使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本的向量和评论的向量,之后通过计算向量之间的相似度得到评论与新闻文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
2.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,所述Step1的具体步骤为:
模型的输入为完整的新闻文本,使用清华大学的THULAC分词工具进行处理,实现对新闻文本的分词与词性标注,将新闻文本转化为词的序列W=(w1,w2,…,wn);然后使用正则表达式对相邻位置的形容词与名词、名词与动词等进行拼接,组成名词短语,将这些短语作为候选关键词NP=(NP1,NP2,…,NPi)。
3.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,所述Step2的具体步骤为:
设置MSL(minimum sequence length)为最小序列长度,将新闻文本分成大于或等于MSL的m个句子S=(S1,S2,…,Sm);对于每一个句子,使用BERT预训练模型获得句子的向量表示
Figure FDA0003636580960000021
由于BERT预训练模型的self-attention机制,同一个词在不同的语境有着不同的词嵌入;因此,通过嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NPi的词嵌入;候选关键词NPi的词嵌入如公式(1)所示:
Figure FDA0003636580960000022
其中NPi表示当前关键词,Sj表示包含当前关键词的句子,
Figure FDA0003636580960000023
表示当前关键词NPi在第j个句子中的词嵌入,n表示包含当前关键词NPi的句子总数。
4.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于:所述Step3的具体步骤为:
Step3.1:对于每个候选关键词NPi,通过公式(2)计算单个候选关键词与文本的相似度:
Figure FDA0003636580960000031
Figure FDA0003636580960000032
公式(2)中,
Figure FDA0003636580960000033
表示关键词NPi的词向量,Vd表示文档的向量,
Figure FDA0003636580960000034
表示第j个句子的向量,本文使用当前关键词与文章所有句子的余弦相似度的和作为当前关键词与新闻文本的相似度;
Step3.2:对于关键词候选集里的所有关键词,通过公式(2)得到每一个候选关键词与文本的相似度,最后通过softmax归一化,并结合关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似度;公式如(6)、(7)所示:
Figure FDA0003636580960000035
Figure FDA0003636580960000036
Figure FDA0003636580960000037
Figure FDA0003636580960000038
其中,VTitle表示新闻标题的向量,通过引入超参数
Figure FDA0003636580960000039
使最终得到的关键词与标题的相关程度更高;
Step3.3:得到候选关键词与新闻文本的相似度后,选取相似度最高的k个词作为新闻文本的关键词;最后将新闻标题与提取的k个关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示;
Figure FDA00036365809600000310
其中,title表示新闻文本的标题,w表示关键词,
Figure FDA00036365809600000311
表示拼接操作;通过关键词序列与标题拼接,从而在不丢失语义信息的情况下,将较长的新闻文本转换成较短的文本。
5.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于:所述Step4的具体步骤为:
Step4.1:使用dropout方法对BERT预训练模型进行随机失活,并使用该模型对同一篇新闻文本的表示Di处理两次,得到当前新闻文本的两个不同嵌入表示
Figure FDA0003636580960000041
然后把
Figure FDA0003636580960000042
作为
Figure FDA0003636580960000043
的正样本,而负样本为同一个训练batch里的其他新闻文本的嵌入表示
Figure FDA0003636580960000044
其中j≠i且jmax=batch size;完成正负样本的构建后,模型的训练目标如公式(9)所示;
Figure FDA0003636580960000045
公式(9)中,N为batch size,τ为超参数,本文取值为0.05,Li为模型的对比损失;模型通过减小Li的值拉近
Figure FDA0003636580960000046
Figure FDA0003636580960000047
的距离,拉远
Figure FDA0003636580960000048
Figure FDA0003636580960000049
的距离,以此达到微调预训练模型的目的;
Step4.2:由于dropout方法在一个模型中随机地关闭神经元,所以当模型计算出
Figure FDA00036365809600000410
时,
Figure FDA00036365809600000411
Figure FDA00036365809600000412
实际上来自于两个不同的子模型,这两个子模型的区别在于dropout后神经元分布不同;为了解决不同子模型预测结果差距较大的问题,本文使用相对熵损失函数通过最小化
Figure FDA00036365809600000413
Figure FDA00036365809600000414
之间的分布差异来正则化模型的输出,目的是为了让两个子模型输出的结果尽可能一致;相对熵损失函数如公式(10)所示,模型的总损失如公式(11)所示;
Figure FDA0003636580960000051
loss=Li+Lk (11)
公式(10)中,当Lk的值越接近0,模型dropout后生成的
Figure FDA0003636580960000052
Figure FDA0003636580960000053
的随机分布越相似;
Step4.3:模型训练完一个batch的数据后,使用当前模型对新闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本的向量和评论的向量,之后通过计算向量之间的相似度来得到评论与文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
6.根据权利要求1-8任一项所述的一种基于对比学习的新闻文本与评论相关性分析方法,其公开了一种基于对比学习的新闻文本与评论相关性分析方法在自然语言处理技术领域的应用。
CN202210507391.0A 2022-05-10 2022-05-10 一种基于对比学习的新闻文本与评论相关性分析方法 Pending CN115146629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210507391.0A CN115146629A (zh) 2022-05-10 2022-05-10 一种基于对比学习的新闻文本与评论相关性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210507391.0A CN115146629A (zh) 2022-05-10 2022-05-10 一种基于对比学习的新闻文本与评论相关性分析方法

Publications (1)

Publication Number Publication Date
CN115146629A true CN115146629A (zh) 2022-10-04

Family

ID=83407212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210507391.0A Pending CN115146629A (zh) 2022-05-10 2022-05-10 一种基于对比学习的新闻文本与评论相关性分析方法

Country Status (1)

Country Link
CN (1) CN115146629A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688771A (zh) * 2023-01-05 2023-02-03 京华信息科技股份有限公司 一种文书内容比对性能提升方法及系统
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116994099A (zh) * 2023-09-28 2023-11-03 北京科技大学 特征解耦的少量样本预训练模型鲁棒性微调方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688771A (zh) * 2023-01-05 2023-02-03 京华信息科技股份有限公司 一种文书内容比对性能提升方法及系统
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116776887B (zh) * 2023-08-18 2023-10-31 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116994099A (zh) * 2023-09-28 2023-11-03 北京科技大学 特征解耦的少量样本预训练模型鲁棒性微调方法及装置
CN116994099B (zh) * 2023-09-28 2023-12-22 北京科技大学 特征解耦的少量样本预训练模型鲁棒性微调方法及装置

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN112463944A (zh) 一种基于多模型融合的检索式智能问答方法及装置
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
Weng et al. An effective contextual language modeling framework for speech summarization with augmented features
CN114398900A (zh) 一种基于RoBERTa模型的长文本语义相似度计算方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN112926340B (zh) 一种用于知识点定位的语义匹配模型
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN115017404A (zh) 基于压缩空间句子选择的目标新闻话题摘要方法
CN113688633A (zh) 一种提纲确定方法及装置
CN113673237A (zh) 模型训练、意图识别方法、装置、电子设备及存储介质
Ducoffe et al. Machine Learning under the light of Phraseology expertise: use case of presidential speeches, De Gaulle-Hollande (1958-2016)
Yan Research on keyword extraction based on abstract extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination