CN113536760B - 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 - Google Patents

引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 Download PDF

Info

Publication number
CN113536760B
CN113536760B CN202110761419.9A CN202110761419A CN113536760B CN 113536760 B CN113536760 B CN 113536760B CN 202110761419 A CN202110761419 A CN 202110761419A CN 113536760 B CN113536760 B CN 113536760B
Authority
CN
China
Prior art keywords
rumor
vector
representation
sentence
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110761419.9A
Other languages
English (en)
Other versions
CN113536760A (zh
Inventor
曹娟
盛强
张雪遥
钟雷
谢添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202110761419.9A priority Critical patent/CN113536760B/zh
Publication of CN113536760A publication Critical patent/CN113536760A/zh
Application granted granted Critical
Publication of CN113536760B publication Critical patent/CN113536760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种引述句和辟谣模式句引导的“谣言‑辟谣文章”匹配方法及系统。通过引导模型行为,使其更加关注辟谣文章中带有“引述”和“辟谣模式”成分的句子,实现考虑到辟谣文章特点的“谣言‑辟谣文章”匹配程度评分。具体地,本发明通过使用文字相似度指标精调神经网络模型增强引述句的发现能力,通过引入模式向量增强辟谣模式句的发现能力,从而使模型关注到含有引述成分和辟谣模式的关键句子,过滤掉辟谣文章中大部分无关句子,最终实现高效准确的“谣言‑辟谣文章”匹配。

Description

引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及 系统
技术领域
本发明涉及信息检索领域,特别涉及一种基于引述句和模式句引导的“谣言-辟谣文章”匹配方法。
背景技术
目前,国内外应对网络谣言的思路大致有三种:第一类是进行人工事实核查,如Snopes、腾讯新闻“较真”等,它们通过用户主动提交或编辑整理收集需要进行澄清的谣言,聘请拥有专业知识或权威信息的个人或组织撰写辟谣文章,之后针对用户分发辟谣文章实现事实核查;第二类是开发自动检测系统,国内外比较知名的有dEFEND系统、“AI识谣”系统等,它们一般通过主动收集网络上的可疑新闻线索,通过利用新闻内容信息、发布者可信度[6]、网民评论等特征训练机器学习模型,自动输出新闻线索的可信度,将可信度较低的新闻预测为谣言;由于上述方案都忽略了已被辟谣的谣言继续传播的情况,而“旧谣新传”在现实中仍占有一定比例,近年来研究者提出了第三类思路,专门针对已澄清的谣言进行“谣言-辟谣文章”匹配,即以待测消息为检索输入,向辟谣文章库进行检索,通过待测消息和辟谣文章的匹配程度,来确定待测消息是否已经被辟谣,从而帮助找到辟谣后仍在传播的谣言。
目前的“谣言-辟谣文章”匹配方法局限于通用的信息检索方法,分别获得待测消息和辟谣文章中每个句子的表示向量,随后对句子向量间的余弦相似度求平均数,作为待测消息与辟谣文章之间的匹配度。然而,这些方法存在一个根本缺陷:辟谣文章通常较长,真正对匹配有效的句子往往只有少数几句,对整篇文章的建模会极大地影响效率,同时很容易受到其它无关内容的干扰。这种不足出现的原因,主要在于已有工作将辟谣文章当成了普通文章看待,从而将该任务代入了通用的信息检索框架。因此,针对“谣言-辟谣文章”匹配任务中的文本特点设计模型和方法十分必要。
发明内容
本发明的目的是弥补现有“谣言-辟谣文章”匹配技术缺少对辟谣文章中关键句子特点建模的不足,提出了一种基于引述句和模式句引导的“谣言-辟谣文章”匹配方法。
针对现有技术的不足,本发明提出一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中包括:
步骤1、将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q
步骤2、分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
步骤3、对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句/>将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示/>之后采用第二变换器模块获取的精细表示向量q′和skey′
步骤4、选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi
步骤5、对所有关键句对应的拼接向量/>进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分/>根据该匹配度得分/>判定该辟谣文章d是否匹配该待测消息q。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中该步骤1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
提取zq,s中[CLS]对应的向量zq,s([CLS]),并输入全连接神经网络Dense1,得到文本相似度估计向量
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中该步骤1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配方法中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其中对该辟谣模式向量库中向量m进行更新的步骤包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合/>其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
本发明还提出了一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中包括:
模块1,用于将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q
模块2,用于分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
模块3,用于对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句/>将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示/>之后采用第二变换器模块获取的精细表示向量q'和skey′
模块4,用于选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi
模块5,用于对所有关键句对应的拼接向量/>进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分/>根据该匹配度得分/>判定该辟谣文章d是否匹配该待测消息q。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
提取zq,s中[CLS]对应的向量zq,s([ClS]),并输入全连接神经网络Dense1,得到文本相似度估计向量
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配系统中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中对该辟谣模式向量库中向量m进行更新的模块包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合/>其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
由以上方案可知,相较于已有方案本发明有性能提高、效率提高,可解释性增强三方面的优势:
(1)性能提高。通过引导模型对引述句和辟谣模式句给予更多的关注,本发明有效过滤了辟谣文章中与待测消息相近但实际上不匹配的无关信息,从而降低了匹配的复杂读,提高了匹配性能;
(2)效率提高。现有方法中,进行句子级匹配时需要将待测消息与辟谣文章的每句话都输入表示模型并得到完整输入。而本发明可以通过对辟谣文章句子的打分(引述句得分和辟谣模式句得分),提前过滤掉大部分无关句子,只保留得分较高的若干句进行精细的模型推断,从而提高了整体运行的效率;
(3)可解释性增强。现有方法由于缺乏引述和辟谣模式的发现能力,不能对结果提供好的解释,而本发明挑选出的句子不仅可以帮助“旧谣言”与辟谣文章的匹配,还可以作为匹配结果的解释或补充说明展示给用户。
附图说明
图1为以单层Transformer网络为例的文字相似度指标精调过程示意图;
图2为基于关键句子筛选的“谣言-辟谣文章”匹配方法流程图;
图3为辟谣模式向量移动方向的确定过程图。
具体实施方式
发明人经过对辟谣文章的观察,总结出了辟谣文章中关键句子(对匹配有明显帮助的句子)的两个特点:(1)关键句子经常引述原谣言,如“热柠檬水能杀死癌细胞的流言已经传播多年”,其中的“热柠檬水能杀死癌细胞”与原谣言在文字层面上高度匹配;(2)关键句子往往包含某种辟谣模式,如“……流传多年”、“……没有任何事实依据”和“相关部门已经针对……澄清多次”。以上特点虽然可以通过人工总结并进行“硬匹配”的方法建模,但其存在费时费力、误差累积的缺点。发明人提出,可以通过引导模型行为,使之更加关注辟谣文章中带有“引述”和“辟谣模式”成分的句子,实现考虑到辟谣文章特点的“谣言-辟谣文章”匹配程度评分。具体地,本发明通过使用文字相似度指标精调神经网络模型增强引述句的发现能力,通过引入模式向量增强辟谣模式句的发现能力,从而使模型关注到含有引述成分和辟谣模式的关键句子,过滤掉辟谣文章中大部分无关句子,最终实现高效准确的“谣言-辟谣文章”匹配。
本发明包含以下关键技术点:
关键点1:通过文本相似度指标指导的语义表示模型精调增强引述句发现能力。首先获取在大规模语料上训练好的语义表示模型,之后用文本相似度指标构建目标函数,来精调表示模型,使它在语义相似度之外考虑融入文本相似度。在精调之前,我们利用数据集中的“谣言-辟谣文章”对构建文本相似度训练数据,并预先计算了文本相似度指标。精调过程中,我们使用了代表参数变化幅度的约束项,来引导模型同时保留对语义和文本两个层面相似度的度量能力,从而更好地发现辟谣文章中的引述句。
关键点2:向量化辟谣模式句表示初始化和更新策略。利用语义相似度模型找出数据集中相似度较高的“谣言-辟谣句”对,之后对筛选出的谣言和辟谣句分别进行了向量化表示,二者的向量之差作为候选辟谣模式句表示向量。针对候选向量,我们使用聚类算法得到了若干聚类中心向量,这些中心向量即构成了辟谣模式句的初始表示向量库。在匹配模型训练的过程中,每个时期(epoch)结束后,我们依据训练集中“谣言-辟谣句”对对“谣言-辟谣文章”匹配的贡献程度更新各个模式句表示向量。通过这样的初始化和更新策略,我们隐式地实现了辟谣模式的自动挖掘和校正。
关键点3:基于关键句子筛选的“谣言-辟谣文章”匹配方法。首先利用将待测消息和辟谣文章的各个句子组成“谣言-辟谣句”并获取它们的嵌入(embeddings)。将嵌入输入精调过的表示模型(关键点1)得到待测消息与辟谣文章中句子的相似度得分(包含文字和语义两个层面),同时根据与辟谣模式句向量库中最相近向量的距离得到待测消息的模式得分,两种得分加权求和得分输入辟谣句的重要性得分,我们仅保留了每篇辟谣文章中的得分最高的若干句子,并输入精细匹配的神经网络模型,通过模式向量和重要性得分引导聚合各个重要句子中匹配的信息,最终通过一个全连接神经网络输出待测消息与输入辟谣文章的匹配度。通过上述步骤,我们实现了考虑辟谣文章特点的“谣言-辟谣文章”匹配。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明首先需要针对辟谣文章的特点,先进行基于文字相似度指标的模型精调以增强通用匹配模型的引述句发现能力(第一部分),和初始化辟谣模式句表示形成辟谣模式向量库(第二部分),之后再结合第一部分精调的模型和该辟谣模式向量库,对辟谣文章进行逐句打分,最后筛选出高分句与待测消息输入后续的精细匹配流程(第三部分)。在训练过程中,整个匹配模型会在按样本批(batch)进行优化(第三部分),而辟谣模式向量库会在每个周期(epoch)结束时进行更新(第二部分)。
一、基于文字相似度指标精调的引述句发现能力增强
首先获取一个拥有语义表示能力的神经网络模型,例如使用BERT(Bi-directional Encoder Representation from Transformers)预训练模型参数初始化的单层的Transformer(变换器)模块;之后利用文字相似度指标作为监督信号,对该Transformer进行权重参数微调,直到损失函数收敛。其中该文字相似度指标为是待测的谣言q和其对应的辟谣文章中的句子s间的相似度。
如图1所示,对于一条谣言,和其对应辟谣文章中的一个句子s,将它们与分类保留字[CLS]和分隔保留字[SEP]拼接成“[CLS]q[SEP]s”的形式,输入嵌入表示层(EmbeddingLayer),将得到的嵌入表示输入单层Transformer模块(已用预训练参数初始化),得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
其中分类保留字的含义是对输入的q和s的拼接序列进行分类任务时,会直接取[CLS]位置的输出特征(而不是整句话所有单词的特征)进行后续的分类操作,所以此处称为分类保留字。
分隔保留字的含义是分隔保留字用于输入序列是多句拼接的情况,用于分开两句话(此处分开了q和s),一般没有实际含义。
上述两个保留字遵循了Transformer类模型的习惯,其中[CLS]对应的输出特征用于文本相似度估计向量的产生,由于使用了文字相似度指标来精调Transformer模型,所以该模型跟容易发现字面上的相似关系(q和s中文字重合度高的部分),从而找到引述句s。
提取zq,s中[CLS]对应的向量zq,s([CLS]),并输入一个简单的全连接神经网络(记为Dense1),得到文本相似度估计向量
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是为了使该输出向量的每一维尽可能接近对应的文字相似度指标得分,第二项是为了使模型参数的变化量保持在可控的范围内,即在学习文字相似度度量能力同时保留语义相似度度量能力,Δθ代表Transformer模块的参数变化量,其可通过训练获得,λR是代表约束程度的常数,可人工指定,例如0.01。评价指标的选择不受限制,常见的有例如余弦相似度、ROUGE(Recall-OrientedUnderstudyforGistingEvaluation,召回导向的摘要评估)、BLEU(Bilingual evaluationunderstudy,双语评估替代)等。
二、向量化辟谣模式句表示初始化策略
首先使用词项嵌入表示的平均(该操作记为AvgToken)作为谣言(如q)和其对应的辟谣文章中各个句子(如s)的嵌入表示。对每一对q和s,计算两者的残差嵌入表示(Residual embedding)
rs,q=AvgToken(s)-AvgToken(q)
为避免噪声影响,只保留其二范数在一定范围区间内的残差嵌入表示,即满足
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类(例如,使用K-means聚类算法),聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,将上述向量保存到辟谣模式向量库中,完成初始化过程。
三、基于关键句子筛选的“谣言-辟谣文章”匹配方法
如图2所示,对每条待测消息与候选辟谣文章形成“待测消息-辟谣文章”对,候选辟谣文章可以通过比较简单的检索模型得到,也可以通过其它人工规则得到。对每个“待测消息-辟谣文章”对,将待测消息q和辟谣文章d中的l个句子S={S1,S2,…,Sl}组成“待测消息-辟谣句”对(如q和s),并得到残差嵌入表示rs,q。分别计算“待测消息-辟谣句”匹配得分scrQ(q,s)和“模式-辟谣句”匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s)代表句子s是关键句的可能性:
scrQ(q,s)=Scale(||rs,q||2)
scrP(q,s)=Scale(||mu-rs,q||2)
scr(q,s)=λQscrQ(q,s)+λPscrP(q,s)
其中,(max和min分别是q与辟谣文章所有句子S嵌入表示的欧式距离中的最大值和最小值),/>即mu是按照欧氏距离计算与rs,q最近的辟谣模式向量,λQ和λP是预设的权重常数,λQP=1。
对q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句,滤除辟谣文章中的其它句子,进行精细匹配,关键句集合表示为图2中,k=2,关键句集合为{si,sl}。
将每一个“待测消息-关键句”对(如q和skey)分别输入第一部分描述的精调后神经网络中,得到联合表示之后采用复杂神经网络模型(以多层Transformer为例)获取q和skey的精细表示向量q'和skey′
AvgToken是词项表示的平均操作,与第一部分不同的是,这里使用了多层Transformer的输出作平均。
假定与距离最近的辟谣模式向量是mu,将它们拼接得到的向量
v=[q′,skey ,mu]
在图2中,与距离最近的辟谣模式向量是m2,与/>距离最近的辟谣模式向量是mK-1
对所有关键句对应的拼接向量/>进行加权求和(即图2中的“聚合”操作)并输入一个全连接神经网络(记为Dense2),每个拼接向量的权重为归一化之后的重要性得分,计算结果即待测消息q和辟谣文章d的匹配度得分/>
最终的匹配决策可根据实现划定的阈值thr(一般为0.5)确定:如果 则认为待测消息q和辟谣文章d是对应的,否则认为不对应。
训练过程:首先按照第一部分描述精调简单神经网络模型(以Transformer为例),损失函数为之后按照第二部分描述初始化辟谣模式向量库。在每个训练样本批(batch)中使用反向传播优化模型参数,损失函数为交叉熵损失函数(Cross Entropy)
其中yq,d∈0,1是训练集提供的真实标签,1代表q与d相关(d是针对q的辟谣文章),0代表q与d不相关(d不是针对q的辟谣文章)。
在训练周期(epoch)内,辟谣模式向量库不进行更新。在每个训练周期(epoch)结束后,对每个模式向量进行更新,以向量m为例,更新步骤如下:
1.对训练集中所有正例(即输入辟谣文章与输入谣言之间有对应关系)构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与m在向量空间中的欧氏距离小于与其它模式向量的距离,则将该残差嵌入表示记录下来。
2.将记录下来的残差嵌入表示分为两个集合,如果模型能正确预测该残差嵌入表示对应的“谣言-辟谣文章”对的匹配度(即),那么将这个残差嵌入表示放入正确集合/>(nc是集合中的残差嵌入表示数),反之则放入错误集合/>(nw是集合中的残差嵌入表示数)。
3.分别聚合C和W中的残差嵌入表示
其中aci和awi分别是权重系数,假设正确集合第i个残差嵌入表示对应q和s(s属于辟谣文章d),则计算方式为
错误集合中的权重计算方式相同。
4.如图3所示,为了使向量m与正确集合的聚合向量靠近,与错误集合的聚合向量疏远,我们通过下式计算最终的方向向量
u=pc(uc-m)+pr(m-uw)
其中pc和pr是权重系数
pr=1-pc
5.记更新后的辟谣模式向量为mnew,更新前的为mold,最终的向量更新计算如下:
λm是控制移动幅度的常数,可通过实验得到,例如λ_m=1。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中包括:
模块1,用于将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q
模块2,用于分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
模块3,用于对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句/>将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示/>之后采用第二变换器模块获取的精细表示向量q′和skey′
模块4,用于选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q′、skey′和mu,得到拼接向量vi
模块5,用于对所有关键句对应的拼接向量/>进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分/>根据该匹配度得分/>判定该辟谣文章d是否匹配该待测消息q。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的嵌入rs,q表示输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
提取zq,s中[CLS]对应的向量zq,s([CLS]),并输入全连接神经网络Dense1,得到文本相似度估计向量
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,第一项是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中该模块1包括:
对每一对q和s,计算两者的残差嵌入表示rs,q
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数。
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配系统中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其中对该辟谣模式向量库中向量m进行更新的模块包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合/>其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uc-m)+pi(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
/>

Claims (6)

1.一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,包括:
步骤1、将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q
步骤2、分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
步骤3、对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句/>将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示/>之后采用第二变换器模块获取的精细表示向量q'和skey′
步骤4、选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q'、skey′和mu,得到拼接向量vi
步骤5、对所有关键句对应的拼接向量/>进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分/>根据该匹配度得分/>判定该辟谣文章d是否匹配该待测消息q;
该步骤1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的残差嵌入表示rs,q输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
提取zq,s中[CLS]对应的向量zq,s([CLS]),并输入全连接神经网络Dense1,得到文本相似度估计向量
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整;
对每一对q和s,计算两者的残差嵌入表示rs,q
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足条件:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数;
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
2.如权利要求1所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配方法中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
3.如权利要求2所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法,其特征在于,对该辟谣模式向量库中向量m进行更新的步骤包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合/>其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uC-m)+pr(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
其中λm是控制移动幅度的常数。
4.一种引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其特征在于,包括:
模块1,用于将待测消息q和其对应辟谣文章d中的l个句子S={s1,s2,…,sl}分别组成包含待测消息q和辟谣句si的l个待测对,并将该l个待测对拼接后输入至嵌入表示层,得到残差嵌入表示rs,q
模块2,用于分别计算待测对的匹配得分scrQ(q,s)和模式-辟谣句的匹配得分scrP(q,s),并得出s对q的重要性得分scr(q,s);
模块3,用于对待测消息q和辟谣文章中所有句子S的重要性得分进行排序,选取得分最高的前k句作为关键句/>将待测消息q和关键句构成的信息对分别输入第一变换器模块,得到联合表示/>之后采用第二变换器模块获取的精细表示向量q'和skey′
模块4,用于选择辟谣模式向量库中与q和skey残差嵌入表示距离最近的辟谣模式向量mu,拼接q'、skey′和mu,得到拼接向量vi
模块5,用于对所有关键句对应的拼接向量/>进行加权求和后输入全连接神经网络,其中每个拼接向量的权重为归一化之后的重要性得分,全连接神经网络输出结果作为待测消息q和辟谣文章d的匹配度得分/>根据该匹配度得分/>判定该辟谣文章d是否匹配该待测消息q;
该模块1包括:
将该l个待测对与分类保留字[CLS]和分隔保留字[SEP]拼接后,输入嵌入表示层,将得到的残差嵌入表示rs,q输入第一变换器模块,得到q和s的联合表示:
zq,s=Transformer([CLS]q[SEP]s)
提取zq,s中[CLS]对应的向量zq,s([CLS]),并输入全连接神经网络Dense1,得到文本相似度估计向量
对该估计向量,使用文本相似度指标R(q,s)作为监督信号,计算如下损失函数:
其中,是文本相似度指标得分,Δθ代表Transformer模块的参数变化量,λR是代表约束程度的常数;
根据该损失函数对该第一变换器模块的权重参数进行调整;
对每一对q和s,计算两者的残差嵌入表示rs,q
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken为词项嵌入表示的平均值,并只保留二范数在一定范围区间内的残差嵌入表示,即满足条件:
tlow<||rs,q||2<thigh
其中tlow和thigh是常数;
对符合上述条件的残差嵌入表示进行向量聚类,聚类得到的K个聚类中心向量即初始辟谣模式向量,记为m1,m2,…,mK,并将上述向量保存到该辟谣模式向量库中。
5.如权利要求4所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其特征在于,在每个训练样本批中使用反向传播优化该“谣言-辟谣文章”匹配系统中的神经网络参数,损失函数为交叉熵损失函数:
其中yq,d∈0,1是训练集提供的真实标签,在每个训练周期结束后,对辟谣模式向量库中每个模式向量进行更新。
6.如权利要求5所述的引述句和辟谣模式句引导的“谣言-辟谣文章”匹配系统,其特征在于,对该辟谣模式向量库中向量m进行更新的模块包括:
对训练集中所有正例构成的“谣言-辟谣句”对进行统计,如果其残差嵌入表示与向量m在向量空间中的欧氏距离小于与该辟谣模式向量库中其它模式向量的距离,则将其残差嵌入表示记录下来,并具体根据匹配结果是否正确,将其残差嵌入表示放入正确集合或放入错误集合/>其中nw是集合中的残差嵌入表示数;
分别聚合集合C和集合W中的残差嵌入表示:
其中aci和awi分别是权重系数;
并通过下式计算方向向量u:
u=pc(uC-m)+pr(m-uw)
其中pc和pr是权重系数
pr=1-pc
记更新后的辟谣模式向量为mnew,更新前的为mold,则最终的向量更新计算如下:
其中λm是控制移动幅度的常数。
CN202110761419.9A 2021-07-06 2021-07-06 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 Active CN113536760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110761419.9A CN113536760B (zh) 2021-07-06 2021-07-06 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110761419.9A CN113536760B (zh) 2021-07-06 2021-07-06 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统

Publications (2)

Publication Number Publication Date
CN113536760A CN113536760A (zh) 2021-10-22
CN113536760B true CN113536760B (zh) 2023-09-26

Family

ID=78097809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110761419.9A Active CN113536760B (zh) 2021-07-06 2021-07-06 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统

Country Status (1)

Country Link
CN (1) CN113536760B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817505A (zh) * 2022-05-10 2022-07-29 国网江苏省电力有限公司南通供电分公司 一种基于历史工单匹配系统的供电工单快速回复方法
CN116738962B (zh) * 2023-02-10 2024-04-26 北京邮电大学 一种面向社交媒体的事实核查方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644029A (zh) * 2016-07-20 2018-01-30 平安科技(深圳)有限公司 信息查询方法及信息查询装置
CN110781411A (zh) * 2019-11-05 2020-02-11 重庆邮电大学 一种基于辟谣消息的谣言传播控制方法
CN111414552A (zh) * 2020-02-25 2020-07-14 杭州师范大学 一种在线社交网络谣言传播范围的估计方法
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置
AU2020103810A4 (en) * 2020-12-01 2021-02-11 Basant Agarwal A method for detecting fake news using grammatic transformation on neural network computer readable medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644029A (zh) * 2016-07-20 2018-01-30 平安科技(深圳)有限公司 信息查询方法及信息查询装置
CN110781411A (zh) * 2019-11-05 2020-02-11 重庆邮电大学 一种基于辟谣消息的谣言传播控制方法
CN111414552A (zh) * 2020-02-25 2020-07-14 杭州师范大学 一种在线社交网络谣言传播范围的估计方法
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置
AU2020103810A4 (en) * 2020-12-01 2021-02-11 Basant Agarwal A method for detecting fake news using grammatic transformation on neural network computer readable medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义共现匹配的在线食品安全谣言相关文档识别方法研究;陈燕方;周晓英;张璐;;情报理论与实践(第06期);全文 *

Also Published As

Publication number Publication date
CN113536760A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
Sebastian et al. Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts.
US7362892B2 (en) Self-optimizing classifier
CN113536760B (zh) 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统
JP7052866B2 (ja) 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム
CN110717332B (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN108648747A (zh) 语种识别系统
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN108510977A (zh) 语种识别方法及计算机设备
Altınçay et al. An information theoretic framework for weight estimation in the combination of probabilistic classifiers for speaker identification
CN111128128A (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN113506179A (zh) 数字货币交易中异常实体的检测方法、存储介质
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
Zhang et al. Deep Template Matching for Small-Footprint and Configurable Keyword Spotting.
Chung et al. Unsupervised iterative Deep Learning of speech features and acoustic tokens with applications to spoken term detection
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
Cont et al. Training Ircam's score follower [audio to musical score alignment system]
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
Kang et al. SVLDL: Improved speaker age estimation using selective variance label distribution learning
CN115391523A (zh) 风电场多源异构数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant