CN113536760A - 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 - Google Patents
引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 Download PDFInfo
- Publication number
- CN113536760A CN113536760A CN202110761419.9A CN202110761419A CN113536760A CN 113536760 A CN113536760 A CN 113536760A CN 202110761419 A CN202110761419 A CN 202110761419A CN 113536760 A CN113536760 A CN 113536760A
- Authority
- CN
- China
- Prior art keywords
- rumor
- vector
- article
- sentences
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 172
- 238000012549 training Methods 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 18
- 239000010410 layer Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 239000013604 expression vector Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 235000005979 Citrus limon Nutrition 0.000 description 2
- 244000131522 Citrus pyriformis Species 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种引述句和辟谣模式句引导的“谣言‑辟谣文章”匹配方法及系统。通过引导模型行为,使其更加关注辟谣文章中带有“引述”和“辟谣模式”成分的句子,实现考虑到辟谣文章特点的“谣言‑辟谣文章”匹配程度评分。具体地,本发明通过使用文字相似度指标精调神经网络模型增强引述句的发现能力,通过引入模式向量增强辟谣模式句的发现能力,从而使模型关注到含有引述成分和辟谣模式的关键句子,过滤掉辟谣文章中大部分无关句子,最终实现高效准确的“谣言‑辟谣文章”匹配。
Description
技术领域
本发明涉及信息检索领域,特别涉及一种基于引述句和模式句引导的“谣言-辟谣文章”匹配方法。
背景技术
目前,国内外应对网络谣言的思路大致有三种:第一类是进行人工事实核查,如Snopes、腾讯新闻“较真”等,它们通过用户主动提交或编辑整理收集需要进行澄清的谣言,聘请拥有专业知识或权威信息的个人或组织撰写辟谣文章,之后针对用户分发辟谣文章实现事实核查;第二类是开发自动检测系统,国内外比较知名的有dEFEND系统、“AI识谣”系统等,它们一般通过主动收集网络上的可疑新闻线索,通过利用新闻内容信息、发布者可信度[6]、网民评论等特征训练机器学习模型,自动输出新闻线索的可信度,将可信度较低的新闻预测为谣言;由于上述方案都忽略了已被辟谣的谣言继续传播的情况,而“旧谣新传”在现实中仍占有一定比例,近年来研究者提出了第三类思路,专门针对已澄清的谣言进行“谣言-辟谣文章”匹配,即以待测消息为检索输入,向辟谣文章库进行检索,通过待测消息和辟谣文章的匹配程度,来确定待测消息是否已经被辟谣,从而帮助找到辟谣后仍在传播的谣言。
目前的“谣言-辟谣文章”匹配方法局限于通用的信息检索方法,分别获得待测消息和辟谣文章中每个句子的表示向量,随后对句子向量间的余弦相似度求平均数,作为待测消息与辟谣文章之间的匹配度。然而,这些方法存在一个根本缺陷:辟谣文章通常较长,真正对匹配有效的句子往往只有少数几句,对整篇文章的建模会极大地影响效率,同时很容易受到其它无关内容的干扰。这种不足出现的原因,主要在于已有工作将辟谣文章当成了普通文章看待,从而将该任务代入了通用的信息检索框架。因此,针对“谣言-辟谣文章”匹配任务中的文本特点设计模型和方法十分必要。
发明内容
本发明的目的是弥补现有“谣言-辟谣文章”匹配技术缺少对辟谣文章中关键句子特点建模的不足,提出了一种基于引述句和模式句引导的“谣言-辟谣文章”匹配方法。
针对现有技术的不足,本发明提出一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中包括:
步骤1、将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q;
步骤2、分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
步骤3、对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示之后采用第二变换器模块获取的精细表示向量q′和skey′;
步骤4、选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi;
步骤5、对所有关键句对应的拼接向量进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分根据该匹配度得分判定该辟谣文章d是否匹配该待测消息q。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中该步骤1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中该步骤1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q:
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配方法中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中对该辟谣模式向量库中向量m进行更新的步骤包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
本发明还提出了一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中包括:
模块1,用于将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q;
模块2,用于分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
模块3,用于对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示之后采用第二变换器模块获取的精细表示向量q'和skey′;
模块4,用于选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi;
模块5,用于对所有关键句对应的拼接向量进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分根据该匹配度得分判定该辟谣文章d是否匹配该待测消息q。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q:
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配系统中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中对该辟谣模式向量库中向量m进行更新的模块包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
由以上方案可知,相较于已有方案本发明有性能提高、效率提高,可解释性增强三方面的优势:
(1)性能提高。通过引导模型对引述句和辟谣模式句给予更多的关注,本发明有效过滤了辟谣文章中与待测消息相近但实际上不匹配的无关信息,从而降低了匹配的复杂读,提高了匹配性能;
(2)效率提高。现有方法中,进行句子级匹配时需要将待测消息与辟谣文章的每句话都输入表示模型并得到完整输入。而本发明可以通过对辟谣文章句子的打分(引述句得分和辟谣模式句得分),提前过滤掉大部分无关句子,只保留得分较高的若干句进行精细的模型推断,从而提高了整体运行的效率;
(3)可解释性增强。现有方法由于缺乏引述和辟谣模式的发现能力,不能对结果提供好的解释,而本发明挑选出的句子不仅可以帮助“旧谣言”与辟谣文章的匹配,还可以作为匹配结果的解释或补充说明展示给用户。
附图说明
图1为以单层Transformer网络为例的文字相似度指标精调过程示意图;
图2为基于关键句子筛选的“谣言-辟谣文章”匹配方法流程图;
图3为辟谣模式向量移动方向的确定过程图。
具体实施方式
发明人经过对辟谣文章的观察,总结出了辟谣文章中关键句子(对匹配有明显帮助的句子)的两个特点:(1)关键句子经常引述原谣言,如“热柠檬水能杀死癌细胞的流言已经传播多年”,其中的“热柠檬水能杀死癌细胞”与原谣言在文字层面上高度匹配;(2)关键句子往往包含某种辟谣模式,如“……流传多年”、“……没有任何事实依据”和“相关部门已经针对……澄清多次”。以上特点虽然可以通过人工总结并进行“硬匹配”的方法建模,但其存在费时费力、误差累积的缺点。发明人提出,可以通过引导模型行为,使之更加关注辟谣文章中带有“引述”和“辟谣模式”成分的句子,实现考虑到辟谣文章特点的“谣言-辟谣文章”匹配程度评分。具体地,本发明通过使用文字相似度指标精调神经网络模型增强引述句的发现能力,通过引入模式向量增强辟谣模式句的发现能力,从而使模型关注到含有引述成分和辟谣模式的关键句子,过滤掉辟谣文章中大部分无关句子,最终实现高效准确的“谣言-辟谣文章”匹配。
本发明包含以下关键技术点:
关键点1:通过文本相似度指标指导的语义表示模型精调增强引述句发现能力。首先获取在大规模语料上训练好的语义表示模型,之后用文本相似度指标构建目标函数,来精调表示模型,使它在语义相似度之外考虑融入文本相似度。在精调之前,我们利用数据集中的“谣言-辟谣文章”对构建文本相似度训练数据,并预先计算了文本相似度指标。精调过程中,我们使用了代表参数变化幅度的约束项,来引导模型同时保留对语义和文本两个层面相似度的度量能力,从而更好地发现辟谣文章中的引述句。
关键点2:向量化辟谣模式句表示初始化和更新策略。利用语义相似度模型找出数据集中相似度较高的“谣言-辟谣句”对,之后对筛选出的谣言和辟谣句分别进行了向量化表示,二者的向量之差作为候选辟谣模式句表示向量。针对候选向量,我们使用聚类算法得到了若干聚类中心向量,这些中心向量即构成了辟谣模式句的初始表示向量库。在匹配模型训练的过程中,每个时期(epoch)结束后,我们依据训练集中“谣言-辟谣句”对对“谣言-辟谣文章”匹配的贡献程度更新各个模式句表示向量。通过这样的初始化和更新策略,我们隐式地实现了辟谣模式的自动挖掘和校正。
关键点3:基于关键句子筛选的“谣言-辟谣文章”匹配方法。首先利用将待测消息和辟谣文章的各个句子组成“谣言-辟谣句”并获取它们的嵌入(embeddings)。将嵌入输入精调过的表示模型(关键点1)得到待测消息与辟谣文章中句子的相似度得分(包含文字和语义两个层面),同时根据与辟谣模式句向量库中最相近向量的距离得到待测消息的模式得分,两种得分加权求和得分输入辟谣句的重要性得分,我们仅保留了每篇辟谣文章中的得分最高的若干句子,并输入精细匹配的神经网络模型,通过模式向量和重要性得分引导聚合各个重要句子中匹配的信息,最终通过一个全连接神经网络输出待测消息与输入辟谣文章的匹配度。通过上述步骤,我们实现了考虑辟谣文章特点的“谣言-辟谣文章”匹配。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明首先需要针对辟谣文章的特点,先进行基于文字相似度指标的模型精调以增强通用匹配模型的引述句发现能力(第一部分),和初始化辟谣模式句表示形成辟谣模式向量库(第二部分),之后再结合第一部分精调的模型和该辟谣模式向量库,对辟谣文章进行逐句打分,最后筛选出高分句与待测消息输入后续的精细匹配流程(第三部分)。在训练过程中,整个匹配模型会在按样本批(batch)进行优化(第三部分),而辟谣模式向量库会在每个周期(epoch)结束时进行更新(第二部分)。
一、基于文字相似度指标精调的引述句发现能力增强
首先获取一个拥有语义表示能力的神经网络模型,例如使用BERT(Bi-directional Encoder Representation from Transformers)预训练模型参数初始化的单层的Transformer(变换器)模块;之后利用文字相似度指标作为监督信号,对该Transformer进行权重参数微调,直到损失函数收敛。其中该文字相似度指标为是待测的谣言q和其对应的辟谣文章中的句子s间的相似度。
如图1所示,对于一条谣言,和其对应辟谣文章中的一个句子s,将它们与分类保留字[CLS]和分隔保留字[SEP]拼接成“[CLS]q[SEP]s”的形式,输入嵌入表示层(EmbeddingLayer),将得到的嵌入表示输入单层Transformer模块(已用预训练参数初始化),得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
其中分类保留字的含义是对输入的q和s的拼接序列进行分类任务时,会直接取[CLS]位置的输出特征(而不是整句话所有单词的特征)进行后续的分类操作,所以此处称为分类保留字。
分隔保留字的含义是分隔保留字用于输入序列是多句拼接的情况,用于分开两句话(此处分开了q和s),一般没有实际含义。
上述两个保留字遵循了Transformer类模型的习惯,其中[CLS]对应的输出特征用于文本相似度估计向量的产生,由于使用了文字相似度指标来精调Transformer模型,所以该模型跟容易发现字面上的相似关系(q和s中文字重合度高的部分),从而找到引述句s。
提取zq,s中[CLS]对应的向量zq,s([CLS]),并输入一个简单的全连接神经网络(记为Dense1),得到文本相似度估计向量
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是为了使该输出向量的每一维尽可能接近对应的文字相似度指标得分,第二项是为了使模型参数的变化量保持在可控的范围内,即在学习文字相似度度量能力同时保留语义相似度度量能力,Δθ代表Transformer模块的参数变化量,其可通过训练获得,λR是代表约束程度的常数,可人工指定,例如0.01。评价指标的选择不受限制,常见的有例如余弦相似度、ROUGE(Recall-OrientedUnderstudyforGistingEvaluation,召回导向的摘要评估)、BLEU(Bilingual evaluationunderstudy,双语评估替代)等。
二、向量化辟谣模式句表示初始化策略
首先使用词项嵌入表示的平均(该操作记为AvgToken)作为谣言(如q)和其对应的辟谣文章中各个句子(如s)的嵌入表示。对每一对q和s,计算两者的残差嵌入表示(Residual embedding)
rs,q=AvgToken(s)-AvgToken(q)
为避免噪声影响,只保留其二范数在一定范围区间内的残差嵌入表示,即满足
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类(例如,使用K-means聚类算法),聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,将上述向量保存到辟谣模式向量库中,完成初始化过程。
三、基于关键句子筛选的“谣言-辟谣文章”匹配方法
如图2所示,对每条待测消息与候选辟谣文章形成“待测消息-辟谣文章”对,候选辟谣文章可以通过比较简单的检索模型得到,也可以通过其它人工规则得到。对每个“待测消息-辟谣文章”对,将待测消息q和辟谣文章d中的l个句子S={S1,S2,…,Sl}组成“待测消息-辟谣句”对(如q和s),并得到残差嵌入表示rs,q。分别计算“待测消息-辟谣句”匹配得分scrQ(q,s)和“模式-辟谣句”匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s)代表句子s是关键句的可能性:
scrQ(q,s)=Scale(||rs,q||2)
scrP(q,s)=Scale(||mu-rs,q||2)
scr(q,s)=λQscrQ(q,s)+λPscrP(q,s)
将每一个“待测消息-关键句”对(如q和skey)分别输入第一部分描述的精调后神经网络中,得到联合表示之后采用复杂神经网络模型(以多层Transformer为例)获取q和skey的精细表示向量q'和skey′:
AvgToken是词项表示的平均操作,与第一部分不同的是,这里使用了多层Transformer的输出作平均。
v=[q′,skey ,mu]
训练过程:首先按照第一部分描述精调简单神经网络模型(以Transformer为例),损失函数为之后按照第二部分描述初始化辟谣模式向量库。在每个训练样本批(batch)中使用反向传播优化模型参数,损失函数为交叉熵损失函数(Cross Entropy)
其中yq,d∈0,1是训练集提供的真实标签,1代表q与d相关(d是针对q的辟谣文章),0代表q与d不相关(d不是针对q的辟谣文章)。
在训练周期(epoch)内,辟谣模式向量库不进行更新。在每个训练周期(epoch)结束后,对每个模式向量进行更新,以向量m为例,更新步骤如下:
1.对训练集中所有正例(即输入辟谣文章与输入谣言之间有对应关系)构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与m在向量空间中的欧氏距离小于与其它模式向量的距离,则将该残差嵌入表示记录下来。
2.将记录下来的残差嵌入表示分为两个集合,如果模型能正确预测该残差嵌入表示对应的“谣言-辟谣文章”对的匹配度(即),那么将这个残差嵌入表示放入正确集合(nc是集合中的残差嵌入表示数),反之则放入错误集合(nw是集合中的残差嵌入表示数)。
3.分别聚合C和W中的残差嵌入表示
其中aci和awi分别是权重系数,假设正确集合第i个残差嵌入表示对应q和s(s属于辟谣文章d),则计算方式为
错误集合中的权重计算方式相同。
4.如图3所示,为了使向量m与正确集合的聚合向量靠近,与错误集合的聚合向量疏远,我们通过下式计算最终的方向向量
u=pc(uc-m)+pr(m-uw)
其中pc和pr是权重系数
pr=1-pc
5.记更新后的辟谣模式向量为mnew,更新前的为mold,最终的向量更新计算如下:
λm是控制移动幅度的常数,可通过实验得到,例如λ_m=1。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中包括:
模块1,用于将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q;
模块2,用于分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
模块3,用于对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示之后采用第二变换器模块获取的精细表示向量q′和skey′;
模块4,用于选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi;
模块5,用于对所有关键句对应的拼接向量进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分根据该匹配度得分判定该辟谣文章d是否匹配该待测消息q。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q:
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配系统中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中对该辟谣模式向量库中向量m进行更新的模块包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
Claims (10)
1.一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,包括:
步骤1、将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q;
步骤2、分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
步骤3、对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示之后采用第二变换器模块获取的精细表示向量q′和skey′;
步骤4、选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi;
2.如权利要求1所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,该步骤1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
3.如权利要求2所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,该步骤1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q:
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
5.如权利要求4所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,对该辟谣模式向量库中向量m进行更新的步骤包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
6.一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其特征在于,包括:
模块1,用于将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q;
模块2,用于分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
模块3,用于对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示之后采用第二变换器模块获取的精细表示向量q′和skey′;
模块4,用于选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi;
7.如权利要求6所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其特征在于,该模块1包括:
将该l个待测对与分类保留字[ClS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
8.如权利要求7所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其特征在于,该模块1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q:
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
10.如权利要求9所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其特征在于,对该辟谣模式向量库中向量m进行更新的模块包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761419.9A CN113536760B (zh) | 2021-07-06 | 2021-07-06 | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761419.9A CN113536760B (zh) | 2021-07-06 | 2021-07-06 | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536760A true CN113536760A (zh) | 2021-10-22 |
CN113536760B CN113536760B (zh) | 2023-09-26 |
Family
ID=78097809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110761419.9A Active CN113536760B (zh) | 2021-07-06 | 2021-07-06 | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536760B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817505A (zh) * | 2022-05-10 | 2022-07-29 | 国网江苏省电力有限公司南通供电分公司 | 一种基于历史工单匹配系统的供电工单快速回复方法 |
CN116738962A (zh) * | 2023-02-10 | 2023-09-12 | 北京邮电大学 | 一种面向社交媒体的事实核查方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644029A (zh) * | 2016-07-20 | 2018-01-30 | 平安科技(深圳)有限公司 | 信息查询方法及信息查询装置 |
CN110781411A (zh) * | 2019-11-05 | 2020-02-11 | 重庆邮电大学 | 一种基于辟谣消息的谣言传播控制方法 |
CN111414552A (zh) * | 2020-02-25 | 2020-07-14 | 杭州师范大学 | 一种在线社交网络谣言传播范围的估计方法 |
CN111506794A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(武汉)有限公司 | 一种基于机器学习的谣言管理方法和装置 |
AU2020103810A4 (en) * | 2020-12-01 | 2021-02-11 | Basant Agarwal | A method for detecting fake news using grammatic transformation on neural network computer readable medium |
-
2021
- 2021-07-06 CN CN202110761419.9A patent/CN113536760B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644029A (zh) * | 2016-07-20 | 2018-01-30 | 平安科技(深圳)有限公司 | 信息查询方法及信息查询装置 |
CN110781411A (zh) * | 2019-11-05 | 2020-02-11 | 重庆邮电大学 | 一种基于辟谣消息的谣言传播控制方法 |
CN111414552A (zh) * | 2020-02-25 | 2020-07-14 | 杭州师范大学 | 一种在线社交网络谣言传播范围的估计方法 |
CN111506794A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(武汉)有限公司 | 一种基于机器学习的谣言管理方法和装置 |
AU2020103810A4 (en) * | 2020-12-01 | 2021-02-11 | Basant Agarwal | A method for detecting fake news using grammatic transformation on neural network computer readable medium |
Non-Patent Citations (1)
Title |
---|
陈燕方;周晓英;张璐;: "基于语义共现匹配的在线食品安全谣言相关文档识别方法研究", 情报理论与实践, no. 06 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817505A (zh) * | 2022-05-10 | 2022-07-29 | 国网江苏省电力有限公司南通供电分公司 | 一种基于历史工单匹配系统的供电工单快速回复方法 |
CN116738962A (zh) * | 2023-02-10 | 2023-09-12 | 北京邮电大学 | 一种面向社交媒体的事实核查方法及系统 |
CN116738962B (zh) * | 2023-02-10 | 2024-04-26 | 北京邮电大学 | 一种面向社交媒体的事实核查方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113536760B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188172A (zh) | 基于文本的事件检测方法、装置、计算机设备及存储介质 | |
CN108648747A (zh) | 语种识别系统 | |
CN109858015A (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
CN113536760A (zh) | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN110287292B (zh) | 一种裁判量刑偏离度预测方法及装置 | |
CN108509421A (zh) | 基于随机游走和粗糙决策置信度的文本情感分类方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN113900954B (zh) | 一种使用知识图谱的测试用例推荐方法及装置 | |
CN112597302A (zh) | 基于多维评论表示的虚假评论检测方法 | |
CN108510977A (zh) | 语种识别方法及计算机设备 | |
CN117094291A (zh) | 基于智能写作的自动新闻生成系统 | |
Saha et al. | The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network | |
CN108470035B (zh) | 一种基于判别混合模型的实体-引文相关性分类方法 | |
Nakayama et al. | Dnn-lstm-crf model for automatic audio chord recognition | |
CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN117216687A (zh) | 一种基于集成学习的大语言模型生成文本检测方法 | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
Shen et al. | Modeling token-level uncertainty to learn unknown concepts in SLU via calibrated dirichlet prior RNN | |
CN114298042B (zh) | 实体链接方法、实体链接模型训练方法及电子设备 | |
CN115470772A (zh) | 一种用于事件检测的语义感知方法 | |
CN112784587B (zh) | 一种基于多模型融合的文本相似性度量方法及装置 | |
CN115129818A (zh) | 基于知识驱动多分类的情绪原因对提取方法及系统 | |
Putra et al. | Disinformation Detection on 2024 Indonesia Presidential Election using IndoBERT | |
Sendhilkumar et al. | Novelty detection via topic modeling in research articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |