CN115146629A - 一种基于对比学习的新闻文本与评论相关性分析方法 - Google Patents
一种基于对比学习的新闻文本与评论相关性分析方法 Download PDFInfo
- Publication number
- CN115146629A CN115146629A CN202210507391.0A CN202210507391A CN115146629A CN 115146629 A CN115146629 A CN 115146629A CN 202210507391 A CN202210507391 A CN 202210507391A CN 115146629 A CN115146629 A CN 115146629A
- Authority
- CN
- China
- Prior art keywords
- news
- text
- model
- similarity
- news text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 9
- 230000000052 comparative effect Effects 0.000 title claims description 14
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 64
- 238000004458 analytical method Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 18
- 238000004364 calculation method Methods 0.000 abstract description 14
- 238000002474 experimental method Methods 0.000 abstract description 8
- 238000011176 pooling Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于对比学习的新闻文本与评论相关性分析方法,首先对文本进行分词和词性标注等处理,生成候选关键词,计算候选关键词与文本的相似度,提取关键词;文本的关键词序列与标题进行拼接得到新闻文本的表示;关键词和标题序列传递给BERT预训练模型的encoder两次,通过应用独立采样的dropoutmask获得两个作为正样本的嵌入,同时同一个batch里剩余新闻的两次嵌入作为负样本;交叉熵和相对熵损失函数对预训练模型进行微调。本发明提出的方法对于新闻文本与评论的相似度计算有很好的效果,通过合适的关键词数量与标题拼接可以提高相似度计算的准确率;在公共数据集上实验验证,该方法不仅适用于新闻文本与评论数据集,而且也具有一定的泛化能力。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于对比学习 的新闻文本与评论相关性分析方法。
背景技术
随着互联网的发展,网络新闻在各个平台广泛传播。针对某一事 件的多方位报道以及对于这一事件的网络舆论就形成了网络新闻,网 民可以对新闻内容进行多角度的评论,然而这些评论中有一部分评论 与新闻文本有很强的相关性,另一部分评论与新闻文本的相关性较 弱。因此通过计算新闻评论与新闻文本的相似度,去除与新闻相似度 较低的评论,只保留与新闻相似度较高的评论,对后续的舆情分析以 及评论的观点倾向性分析有着重大意义。新闻文本与新闻评论的相关 性分析本质上是长文本与短文本的相似度计算,而文本相似度的计算 与长文本的表示是该任务的核心内容。
传统的长文本处理方法一般分为两种:一种是对新闻文本进行等 长、不重复的句子切分,将切分后的多个句子通过预训练模型得到句 子的向量,然后使用平均池化、最大池化和自注意力来组合句子向量, 得到文本的向量表示;另一种是基于局部自注意力机制的滑动窗口, 并且每个词向量只关注同一窗口中的其他词向量。在整个文档上,这 种局部注意力只会带来一部分计算和内存注意力成本,节省存储空 间。最后使用一个学习过的饱和函数和两个阶段的池化策略得到文本 的表示。
由于传统的长文本处理方法存在与文章主题无关的信息占比较 大,容易对文本相似度计算造成干扰、只能突出文章的少数主题,针 对新闻其他主题的评论识别效果较差、遗漏文章部分信息以及无法筛 选出针对这部分新闻的评论等问题。
因此,为了解决上述问题,本文提出一种基于对比学习的新闻文 本与评论相关性分析方法。
发明内容
为了解决上述技术问题,本发明设计了一种基于对比学习的新闻 文本与评论相关性分析方法,该方法在计算新闻文本与评论的相似度 前,首先对新闻文本进行分词和词性标注等处理,使用正则表达式生 成候选关键词,通过文本分句后计算候选关键词与文本的相似度,提 取出新闻文本的关键词,该步骤的目的是减小新闻文本长度,使其满 足预训练模型的输入长度要求,同时去除文本中的冗余信息;然后将 新闻文本的关键词序列与新闻标题进行拼接得到新闻文本的表示;接 下来利用无监督对比学习的方法,将同一篇新闻的关键词和标题序列 传递给BERT预训练模型的encoder两次,通过应用独立采样的dropout mask获得两个作为正样本的嵌入,同时将同一个batch里 剩余新闻(关键词和标题序列)的两次嵌入作为负样本;最后通过交 叉熵和相对熵损失函数对预训练模型进行微调。
为了达到上述技术效果,本发明是通过以下技术方案实现的:一 种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,包 括以下步骤:
Step1:使用分词工具对新闻文本进行分词、去除停止词和词性 标注操作,将新闻文本拆分为带有词性标注的词序列,然后使用正则 表达式对词序列进行匹配,组成名词短语,将这些短语作为候选关键 词。
进一步的,模型的输入为完整的新闻文本,使用清华大学的 THULAC分词工具进行处理,实现对新闻文本的分词与词性标注,将 新闻文本转化为词的序列W=(w1,w2,…,wn)。然后使用正则表达式对相 邻位置的形容词与名词、名词与动词等进行拼接,组成名词短语,将 这些短语作为候选关键词NP=(NP1,NP2,…,NPi)。
进一步的,设置MSL(minimum sequence length)为最小序列 长度,将新闻文本分成大于或等于MSL的m个句子S=(S1,S2,…,Sm)。 对于每一个句子,使用BERT预训练模型获得句子的向量表示由 于BERT预训练模型的self-attention机制,同一个词在不同的语境 有着不同的词嵌入。因此,通过嵌入对齐的方法来保持文本的上下文 语义以及获取候选关键词NPi的词嵌入。候选关键词NPi的词嵌入如公 式(1)所示:
Step3:通过余弦相似度计算得到每一个候选关键词与文本的相 似度,然后通过softmax归一化,并结合候选关键词与新闻标题的相 似度,得到所有关键词与新闻文本的相似度,接下来选取相似度最高 的k个词与新闻标题拼接得到的文本作为新闻文本的表示D。
进一步的,Step3中包括以下步骤:
Step3.1:对于每个候选关键词NPi,通过公式(2)计算单个候 选关键词与文本的相似度:
Step3.2:对于关键词候选集里的所有关键词,通过公式(2)得 到每一个候选关键词与文本的相似度,最后通过softmax归一化,并 结合关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似 度。公式如(6)、(7)所示:
Step3.3:得到候选关键词与新闻文本的相似度后,选取相似度 最高的k个词作为新闻文本的关键词。最后将新闻标题与提取的k个 关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示。
Step4:训练过程种使用对比学习方法微调预训练模型的参数, 模型训练完成后,使用该模型对新闻文本(标题与关键词序列)和对 应的评论进行编码,获得新闻文本的向量和评论的向量,之后通过计 算向量之间的相似度得到评论与新闻文本的相似度,最后通过设定的 相似度阈值对评论进行筛选。
进一步的,Step4中包括以下步骤:
Step4.1:使用dropout方法对BERT预训练模型进行随机失活, 并使用该模型对同一篇新闻文本的表示Di处理两次,得到当前新闻文 本的两个不同嵌入表示然后把作为的正样本,而负样 本为同一个训练batch里的其他新闻文本的嵌入表示其中 j≠i且jmax=batch size。完成正负样本的构建后,模型的训练目标如公式(9)所示。
Step4.2:由于dropout方法在一个模型中随机地关闭神经元, 所以当模型计算出时,与实际上来自于两个不同的子模 型,这两个子模型的区别在于dropout后神经元分布不同。为了解决 不同子模型预测结果差距较大的问题,本文使用相对熵损失函数通过 最小化与之间的分布差异来正则化模型的输出,目的是为了让 两个子模型输出的结果尽可能一致。相对熵损失函数如公式(10)所 示,模型的总损失如公式(11)所示。
loss=Li+Lk (11)
Step4.3:模型训练完一个batch的数据后,使用当前模型对新 闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本 的向量和评论的向量,之后通过计算向量之间的相似度来得到评论与 文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
本发明的有益效果是:
本发明是基于BERT预训练模型,使用dropout方法构造训练数 据的正负例,最后通过对比学习以及相对熵损失函数对预训练模型进 行微调;实验结果证明本文提出的方法对于新闻文本与评论的相似度 计算有很好的效果,通过合适的关键词数量与标题拼接可以提高相似 度计算的准确率;在公共数据集上实验验证,该方法也取得了较好的 效果,说明该方法不仅适用于新闻文本与评论数据集,而且也具有一 定的泛化能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描 述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体模型图;
图2为本发明的新闻文本关键词提取模型图;
图3为本发明的新闻文本与评论相关性分析模型图;
图4为本发明的整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例, 都属于本发明保护的范围。
实施例1
参阅图1至图4所示,一种基于对比学习的新闻文本与评论相关 性分析方法,所述方法的具体步骤为:
Step1、根据图2的模型所示,使用清华大学的THULAC分词工具 进行处理,实现对新闻文本的分词与词性标注,将新闻文本转化为词 的序列W=(w1,w2,…,wn)。然后使用正则表达式对相邻位置的形容词与 名词、名词与动词等进行拼接,组成名词短语,将这些短语作为候选 关键词NP=(NP1,NP2,…,NPi)。
Step2.1、设置MSL(minimum sequence length)为最小序列长 度,将新闻文本分成大于或等于MSL的m个句子S=(S1,S2,…,Sm)。对 于每一个句子,使用BERT预训练模型获得句子的向量表示由于 BERT预训练模型的self-attention机制,同一个词在不同的语境有 着不同的词嵌入。因此,通过嵌入对齐的方法来保持文本的上下文语 义以及获取候选关键词NPi的词嵌入。候选关键词NPi的词嵌入如公式 (1)所示:
Step3、使用余弦相似度计算得到每一个候选关键词与文本的相 似度,然后通过softmax归一化,并结合候选关键词与新闻标题的相 似度,得到所有关键词与新闻文本的相似度,接下来选取相似度最高 的k个词与新闻标题拼接得到的文本作为新闻文本的表示D。如图2 所示,从该新闻文本中提取出30个关键词。
Step3.1、对于每个候选关键词NPi,通过公式(2)计算单个候 选关键词与文本的相似度:
Step3.2、对于关键词候选集里的所有关键词,通过公式(2)得 到每一个候选关键词与文本的相似度,最后通过softmax归一化,并 结合关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似 度。公式如(6)、(7)所示:
Step3.3、得到候选关键词与新闻文本的相似度后,选取相似度 最高的k个词作为新闻文本的关键词。最后将新闻标题与提取的k个 关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示。
Step4、训练过程种使用对比学习方法微调预训练模型的参数。 如图3所示,模型训练完成后,使用该模型对新闻文本(标题与关键 词序列)和对应的评论进行编码,获得新闻文本的向量和评论的向量, 之后通过计算向量之间的相似度得到评论与新闻文本的相似度,最后 通过设定的相似度阈值对评论进行筛选。
Step4.1、使用dropout方法对BERT预训练模型进行随机失活, 并使用该模型对同一篇新闻文本的表示Di处理两次,得到当前新闻文 本的两个不同嵌入表示然后把作为的正样本,而负样 本为同一个训练batch里的其他新闻文本的嵌入表示其中 j≠i且jmax=batch size。完成正负样本的构建后,模型的训练目标如公式(9)所示。
Step4.2、由于dropout方法在一个模型中随机地关闭神经元, 所以当模型计算出时,与实际上来自于两个不同的子模 型,这两个子模型的区别在于dropout后神经元分布不同。为了解决 不同子模型预测结果差距较大的问题,本文使用相对熵损失函数通过 最小化与之间的分布差异来正则化模型的输出,目的是为了让 两个子模型输出的结果尽可能一致。相对熵损失函数如公式(10)所 示,模型的总损失如公式(11)所示。
loss=Li+Lk (11)
Step4.3、模型训练完一个batch的数据后,使用当前模型对新 闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本 的向量和评论的向量,之后通过计算向量之间的相似度来得到评论与 文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
本发明中,首先对新闻文本进行分词和词性标注等处理,使用正 则表达式生成候选关键词,通过文本分句后计算候选关键词与文本的 相似度,提取出新闻文本的关键词,该步骤的目的是减小新闻文本长 度,使其满足预训练模型的输入长度要求,同时去除文本中的冗余信 息;然后将新闻文本的关键词序列与新闻标题进行拼接得到新闻文本 的表示;接下来利用无监督对比学习的方法,将同一篇新闻的关键词 和标题序列传递给BERT预训练模型的encoder两次,通过应用独立 采样的dropout mask获得两个作为正样本的嵌入,同时将同一个 batch里剩余新闻(关键词和标题序列)的两次嵌入作为负样本;最 后通过交叉熵和相对熵损失函数对预训练模型进行微调。
实施例2
为了验证本发明的效果,使用1个新闻与评论的相关性分析数据 集作为支撑。同时为了验证本发明的泛化能力,使用4个中文文本相 似度计算公共数据集作为支撑。新闻与评论的相关性分析数据集为从 新闻网站爬取的新闻文本与评论,其中新闻文本涵盖科技、社会、时 政、体育、财经等10个领域。标签“0”表示评论与新闻无关,标签 “1”表示评论与新闻相关,本发明认为出现了新闻中的人物、地名、 组织机构、事件或者用户针对以上事物的主观态度的评论是和新闻相 关的,其余则无关。本文的训练集数据为10000篇新闻文本,验证集 与测试集分别为10个领域的10篇新闻文本,每篇新闻对应300条评 论,评论总数为3000条,验证集中标签为“1”的评论1490条,标 签为“0”的评论1510条;测试集中标签为“1”的评论1508条,标 签为“0”的评论1492条。数据集分布如表1所示。
表1新闻与评论数据集分布
在模型的训练过程中,由于本发明使用新闻文本实现正负样本的 构造,所以训练集只有新闻文本,而没有新闻评论。验证集与测试集 的作用为:当模型训练完一个batch的数据后,使用模型计算验证集 里的评论与新闻文本的相似度,并使用准确率对模型效果进行检验; 当模型计算出当前评论的得分高于准确率阈值时,判定当前评论为正 样本,反之为负样本;最后将准确率最高的模型保存,训练结束后使 用测试集的数据对模型效果进行测试。
本发明的参数设置为:文本最大序列为120,batch size为64, 学习率为1e-5,关键词数量为30,相似度阈值为0.3,超参数τ取值 为0.05,训练时使用相对熵与交叉熵损失函数微调BERT模型的参数。
在新闻与评论的相关性分析任务中,因为正负样本的比例接近1: 1,所以使用准确率(Accuracy)作为评价指标,准确率计算公式如 (12)所示。
其中TP表示模型预测评论与新闻相关并且标签为“1”的样本总 数,TN表示模型预测评论与新闻不相关并且标签为“0”的样本总数, Total表示评论的总数。
本发明在4个中文预训练模型上进行实验效果对比,结果如表2 所示。实验的预训练模型分别为BERT-wwm、BERT-wwm-ext、RoBERT 和RoBERT-large,其中cls向量为BERT预训练模型编码器隐藏层的 最后一层输出向量,pooler向量为在cls向量基础上进行线性变换得到的向量,last-avg向量为编码器隐藏层最后一层的所有向量取 平均值得到的,first-last-avg向量为编码器隐藏层的第一层与最 后一层的输出向量取平均值得到的。从表2可以看出,在4种输出向 量中BERT-wwm-ext的cls向量效果为74.33,BERT-wwm的pooler向 量效果为73.63,RoBERT-large的last-avg向量效果为75.23,RoBERT 的cls向量效果为76.28,所以RoBERT的cls向量取得了最好的效 果。
表2不同预训练模型的实验结果
本发明使用了关键词与标题拼接作为长文本的表示,因此与三种 长文本处理方法作为对比,以此证明本方法的有效性。三种方法说明 如下:
文本等长分句:对新闻文本进行等长、不重复的句子切分,将切 分后的多个句子通过预训练模型得到句子的向量,然后使用平均池 化、最大池化和自注意力来组合句子向量,得到文本的向量表示。
截取:截取文本的前510个字符,或结尾510个字符,或前128 个字符和后382个字符,文本的剩余部分全部丢弃,只用截取的部分 作为文本的表示,然后使用预训练模型提取文本的特征。
滑动窗口方法:文章提出了一种基于局部自注意力机制的滑动窗 口,并且每个词向量只关注同一窗口中的其他词向量。在整个文档上, 这种局部注意力只会带来一部分计算和内存注意力成本,节省存储空 间。最后使用一个学习过的饱和函数和两个阶段的池化策略得到文本 的表示。实验结果如表3所示。
表3消融实验
实验结果说明:本发明提出的关键词和标题拼接的长文本处理方 法在准确率评价指标下取得了最佳效果,证明了该方法的有效性。因 为大部分评论都是针对新闻文本的某一个或者两个点做出的评价,而 新闻的关键词可以有效的涵盖评论针对的对象,所以关键词提取可以 达到不丢失新闻文本的主要内容同时识别出多数评论。
为了检验本发明的泛化能力,本发明在4个中文语义相似度计算 公共数据集上进行了对比实验。同时,本发明与最近几年的无监督语 义相似度计算模型进行了对比,从而说明本发明性能的优越性。
因为目前大部分无监督语义相似度计算的模型在公共数据集上 使用的是spearman相关系数评价指标(只依赖于预测分数与标签的 相关性,并且不依赖于阈值),所以本发明在公共数据集上也使用 spearman评价指标,并且所有实验的预训练模型为RoBERT。实验效 果如表4所示。
表4公共数据集上的实验
从表4可以看出,本发明提出的方法在4个语义相似度计算公共 数据集上均达到了最优的效果。在使用相同预训练模型的条件下,该 模型与使用了dropout方法的SimCSE模型相比,在4个数据集上分 别提升了1.02%、2.55%、6.11%和3.05%,充分证明了使用相对熵损 失函数正则化对比学习模型的输出的有效性。表3的实验结果证明本 文提出的方法对于新闻文本与评论的相似度计算有很好的效果,通过 合适的关键词数量与标题拼接可以提高相似度计算的准确率。在公共 数据集上实验验证,本文的方法也取得了较好的效果,说明该方法不 仅适用于新闻文本与评论数据集,而且也具有一定的泛化能力。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具 体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、 材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书 中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而 且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个 实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实 施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实 施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说 明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和 实际应用,从而使所属技术领域技术人员能很好地理解和利用本发 明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,包括以下步骤:
Step1:使用分词工具对新闻文本进行分词、去除停止词和词性标注操作,将新闻文本拆分为带有词性标注的词序列,然后使用正则表达式对词序列进行匹配,组成名词短语,将这些短语作为候选关键词;
Step3:通过余弦相似度计算得到每一个候选关键词与文本的相似度,然后通过softmax归一化,并结合候选关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似度,接下来选取相似度最高的k个词与新闻标题拼接得到的文本作为新闻文本的表示D;
Step4、使用dropout方法对BERT预训练模型进行随机失活,并使用该模型对新闻文本的表示Di进行处理;训练过程种使用对比学习方法微调预训练模型的参数,模型训练完成后,使用该模型对新闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本的向量和评论的向量,之后通过计算向量之间的相似度得到评论与新闻文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
2.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,所述Step1的具体步骤为:
模型的输入为完整的新闻文本,使用清华大学的THULAC分词工具进行处理,实现对新闻文本的分词与词性标注,将新闻文本转化为词的序列W=(w1,w2,…,wn);然后使用正则表达式对相邻位置的形容词与名词、名词与动词等进行拼接,组成名词短语,将这些短语作为候选关键词NP=(NP1,NP2,…,NPi)。
3.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于,所述Step2的具体步骤为:
设置MSL(minimum sequence length)为最小序列长度,将新闻文本分成大于或等于MSL的m个句子S=(S1,S2,…,Sm);对于每一个句子,使用BERT预训练模型获得句子的向量表示由于BERT预训练模型的self-attention机制,同一个词在不同的语境有着不同的词嵌入;因此,通过嵌入对齐的方法来保持文本的上下文语义以及获取候选关键词NPi的词嵌入;候选关键词NPi的词嵌入如公式(1)所示:
4.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于:所述Step3的具体步骤为:
Step3.1:对于每个候选关键词NPi,通过公式(2)计算单个候选关键词与文本的相似度:
Step3.2:对于关键词候选集里的所有关键词,通过公式(2)得到每一个候选关键词与文本的相似度,最后通过softmax归一化,并结合关键词与新闻标题的相似度,得到所有关键词与新闻文本的相似度;公式如(6)、(7)所示:
Step3.3:得到候选关键词与新闻文本的相似度后,选取相似度最高的k个词作为新闻文本的关键词;最后将新闻标题与提取的k个关键词拼接得到的文本作为新闻文本的表示D,公式如(8)所示;
5.根据权利要求1所述的一种基于对比学习的新闻文本与评论相关性分析方法,其特征在于:所述Step4的具体步骤为:
Step4.1:使用dropout方法对BERT预训练模型进行随机失活,并使用该模型对同一篇新闻文本的表示Di处理两次,得到当前新闻文本的两个不同嵌入表示然后把作为的正样本,而负样本为同一个训练batch里的其他新闻文本的嵌入表示其中j≠i且jmax=batch size;完成正负样本的构建后,模型的训练目标如公式(9)所示;
Step4.2:由于dropout方法在一个模型中随机地关闭神经元,所以当模型计算出时,与实际上来自于两个不同的子模型,这两个子模型的区别在于dropout后神经元分布不同;为了解决不同子模型预测结果差距较大的问题,本文使用相对熵损失函数通过最小化与之间的分布差异来正则化模型的输出,目的是为了让两个子模型输出的结果尽可能一致;相对熵损失函数如公式(10)所示,模型的总损失如公式(11)所示;
loss=Li+Lk (11)
Step4.3:模型训练完一个batch的数据后,使用当前模型对新闻文本(标题与关键词序列)和对应的评论进行编码,获得新闻文本的向量和评论的向量,之后通过计算向量之间的相似度来得到评论与文本的相似度,最后通过设定的相似度阈值对评论进行筛选。
6.根据权利要求1-8任一项所述的一种基于对比学习的新闻文本与评论相关性分析方法,其公开了一种基于对比学习的新闻文本与评论相关性分析方法在自然语言处理技术领域的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210507391.0A CN115146629B (zh) | 2022-05-10 | 2022-05-10 | 一种基于对比学习的新闻文本与评论相关性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210507391.0A CN115146629B (zh) | 2022-05-10 | 2022-05-10 | 一种基于对比学习的新闻文本与评论相关性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115146629A true CN115146629A (zh) | 2022-10-04 |
CN115146629B CN115146629B (zh) | 2024-07-05 |
Family
ID=83407212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210507391.0A Active CN115146629B (zh) | 2022-05-10 | 2022-05-10 | 一种基于对比学习的新闻文本与评论相关性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146629B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115688771A (zh) * | 2023-01-05 | 2023-02-03 | 京华信息科技股份有限公司 | 一种文书内容比对性能提升方法及系统 |
CN116128438A (zh) * | 2022-12-27 | 2023-05-16 | 江苏巨楷科技发展有限公司 | 一种基于大数据记录信息的智慧社区管理系统 |
CN116541523A (zh) * | 2023-04-28 | 2023-08-04 | 重庆邮电大学 | 一种基于大数据的法律判决舆情分类方法 |
CN116776887A (zh) * | 2023-08-18 | 2023-09-19 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
CN116994099A (zh) * | 2023-09-28 | 2023-11-03 | 北京科技大学 | 特征解耦的少量样本预训练模型鲁棒性微调方法及装置 |
CN117875330A (zh) * | 2023-12-26 | 2024-04-12 | 首都经济贸易大学 | 基于自然语言处理的情绪分析方法、装置以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
CN111291195A (zh) * | 2020-01-21 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、终端及可读存储介质 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112307351A (zh) * | 2020-11-23 | 2021-02-02 | 中国科学院计算技术研究所 | 用户行为的模型训练、推荐方法、装置和设备 |
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN113850383A (zh) * | 2021-09-27 | 2021-12-28 | 平安科技(深圳)有限公司 | 文本匹配模型训练方法、装置、电子设备及存储介质 |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
-
2022
- 2022-05-10 CN CN202210507391.0A patent/CN115146629B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
US20210034812A1 (en) * | 2019-07-30 | 2021-02-04 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN111291195A (zh) * | 2020-01-21 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、终端及可读存储介质 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112307351A (zh) * | 2020-11-23 | 2021-02-02 | 中国科学院计算技术研究所 | 用户行为的模型训练、推荐方法、装置和设备 |
CN113850383A (zh) * | 2021-09-27 | 2021-12-28 | 平安科技(深圳)有限公司 | 文本匹配模型训练方法、装置、电子设备及存储介质 |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
Non-Patent Citations (3)
Title |
---|
DANQI CHEN等: "SimCSE:simple contrastive learning of sentence embedding", 《COMPUTATION AND LANGUAGE》, 9 September 2021 (2021-09-09), pages 1 - 18 * |
周国栋等: "基于多任务预训练的AMR文本生成研究", 《软件学报》, vol. 32, no. 10, 15 October 2021 (2021-10-15), pages 3036 - 3050 * |
王红斌等: "结合对比学习的新闻文本与评论相似度计算", 《小型微型计算机系统》, vol. 12, no. 44, 18 October 2022 (2022-10-18), pages 2671 - 2677 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128438A (zh) * | 2022-12-27 | 2023-05-16 | 江苏巨楷科技发展有限公司 | 一种基于大数据记录信息的智慧社区管理系统 |
CN115688771A (zh) * | 2023-01-05 | 2023-02-03 | 京华信息科技股份有限公司 | 一种文书内容比对性能提升方法及系统 |
CN116541523A (zh) * | 2023-04-28 | 2023-08-04 | 重庆邮电大学 | 一种基于大数据的法律判决舆情分类方法 |
CN116776887A (zh) * | 2023-08-18 | 2023-09-19 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
CN116776887B (zh) * | 2023-08-18 | 2023-10-31 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
CN116994099A (zh) * | 2023-09-28 | 2023-11-03 | 北京科技大学 | 特征解耦的少量样本预训练模型鲁棒性微调方法及装置 |
CN116994099B (zh) * | 2023-09-28 | 2023-12-22 | 北京科技大学 | 特征解耦的少量样本预训练模型鲁棒性微调方法及装置 |
CN117875330A (zh) * | 2023-12-26 | 2024-04-12 | 首都经济贸易大学 | 基于自然语言处理的情绪分析方法、装置以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115146629B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN115146629B (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN108920599B (zh) | 一种基于知识本体库的问答系统答案精准定位和抽取方法 | |
Chen et al. | Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN110377695B (zh) | 一种舆情主题数据聚类方法、装置及存储介质 | |
CN116050397B (zh) | 一种长文本摘要生成方法、系统、设备及存储介质 | |
CN114398900A (zh) | 一种基于RoBERTa模型的长文本语义相似度计算方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN112463944A (zh) | 一种基于多模型融合的检索式智能问答方法及装置 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN112926340B (zh) | 一种用于知识点定位的语义匹配模型 | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN117474703A (zh) | 基于社交网络的话题智能推荐方法 | |
CN116933782A (zh) | 一种电商文本关键词提取处理方法及系统 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 | |
CN114138936A (zh) | 一种文本摘要的生成方法、装置、电子设备和存储介质 | |
CN113673237A (zh) | 模型训练、意图识别方法、装置、电子设备及存储介质 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
Wang et al. | News Text Classification Based on Deep Learning and TRBert Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |