CN112541081B - 一种基于领域自适应的可迁移谣言检测方法 - Google Patents

一种基于领域自适应的可迁移谣言检测方法 Download PDF

Info

Publication number
CN112541081B
CN112541081B CN202011518241.7A CN202011518241A CN112541081B CN 112541081 B CN112541081 B CN 112541081B CN 202011518241 A CN202011518241 A CN 202011518241A CN 112541081 B CN112541081 B CN 112541081B
Authority
CN
China
Prior art keywords
rumor
domain
classification
loss
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011518241.7A
Other languages
English (en)
Other versions
CN112541081A (zh
Inventor
曹建军
皮德常
翁年凤
吴致远
江春
陈俊夫
丁鲲
瞿雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011518241.7A priority Critical patent/CN112541081B/zh
Publication of CN112541081A publication Critical patent/CN112541081A/zh
Application granted granted Critical
Publication of CN112541081B publication Critical patent/CN112541081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于领域自适应的可迁移谣言检测方法,属于深度学习领域。包括:构建谣言检测模型;训练谣言分类模型,训练过程包括:在特征提取模块后连接域分类模块,引入域分类损失函数,并构建谣言分类损失与域分类损失的总体损失,利用总体损失对谣言分类模型进行训练;通过在特征提取模块与域分类模块之间添加梯度反转层,构建细粒度的梯度更新控制机制,对模型中需要更新的参数进行更新;获取谣言数据,并输入到训练好的谣言分类模型中进行分类,完成谣言检测。本发明的方法在实现谣言准确检测的同时,使得谣言检测方法具有较高的迁移性。

Description

一种基于领域自适应的可迁移谣言检测方法
技术领域
本发明属于深度学习领域,具体涉及一种基于领域自适应的可迁移谣言检测方法。
背景技术
网络谣言由于真伪难辨、蛊惑性强,容易带来严重的社会问题,甚至引发社会动荡和政局失稳。在现实中,谣言检测存在诸多挑战:社交网络上每时每刻都在产生新的新闻和资讯,并且内容涉及各个领域,依靠人工检测和群众举报的谣言检测方式无法处理海量的数据信息;一些谣言是被精心设计的,不仅普通用户甚至专业人士也难以分辨其真假。因谣言对于社会安全的危害性以及谣言检测的挑战性,近年来学术界和工业界的研究者对谣言检测问题越来越重视。随着人工智能技术的发展,机器学习算法获得了研究者们的青睐。如何在不需要过多人工干预的前提下,利用机器学习算法自动地对谣言进行检测,已经成为当下具有重要意义且极具挑战性的热点研究问题。然而,现有的谣言检测方法都将重点放在提高分类准确率上,忽视了谣言检测方法的可迁移性,将方法迁移到其它领域后,分类效果会不尽如人意。
例如申请号为201810198553.0的中国专利中公开了一种谣言检测方法及设备,通过谣言判别决策模块计算得到能判断和不能判断谣言的概率,若向所述GRU单元继续输入某一个消息矩阵后,对应计算得到的所述能判断谣言的概率大于预设阈值,则结束向所述GRU单元继续输入下一个消息矩阵,将最后一次更新的GRU单元状态发送给判别模块处理,该发明通过提高时效性来提高了谣言的检测准确率。但是,该方法确忽略了检测方法的可迁移性,当从一个领域迁移到另一个领域时,谣言检测的效果就会降低。
发明内容
技术问题:本发明针对现有的谣言检测方法迁移性较差的问题,提供了一种基于领域自适应的可迁移谣言检测方法,该方法通过加入域分类模块,引入域分类损失,利用谣言分类损失与域分类损失总体对谣言检测模型进行训练,有效地提高了谣言检测方法的可迁移性,使得该谣言检测方法能够迁移到其他领域。
技术方案:本发明的基于领域自适应的可迁移谣言检测方法,包括:
构建谣言检测模型,所述谣言检测模型包括词嵌入模块、特征提取模块、谣言分类模块;
训练谣言分类模型,训练过程包括:在特征提取模块后连接域分类模块,引入域分类损失函数,并构建谣言分类损失与域分类损失的总体损失,利用总体损失对谣言分类模型进行训练;通过在特征提取模块与域分类模块之间添加梯度反转层,构建细粒度的梯度更新控制机制,对模型中需要更新的参数进行更新;
获取谣言数据,利用训练后的词嵌入模块获得谣言数据的向量表示,并按照时间顺序排列,得到谣言数据的时间序列,将谣言数据的向量表示输入谣言分类模块进行时序特征提取,并将所提取的时序特征送入谣言分类模块进行分类。
进一步地,特征提取模块为基于门控循环单元的双向循环神经网络,包括前向门控循环单元和后向门控循环单元。
进一步地,基于门控循环单元的双向循环神经网络的模型公式如下:
zt=σ(Wzmt+Uzht-1)
rt=σ(Wr t+Urht-1)
Figure BDA0002848685530000021
Figure BDA0002848685530000022
其中,zt为更新门,mt为门控循环单元在第t个时间步的输入,rt为重置门,ht为当前时间步的状态,ht-1为t-1时间步的状态,
Figure BDA0002848685530000024
是当前时间步的候选状态,Wz和Uz为更新门的权重矩阵,
Figure BDA0002848685530000025
Figure BDA0002848685530000026
为候选状态的权重矩阵σ(·)为sigmoid函数,⊙为哈达马积。
进一步地,利用基于门控循环单元的双向循环神经网络提取谣言的时序特征的过程包括:
(1)对于时间序列ci,前向门控循环单元从
Figure BDA0002848685530000027
Figure BDA0002848685530000028
遍历ci,得到t时刻的前向隐状态表示
Figure BDA0002848685530000029
计算公式为:
Figure BDA0002848685530000023
其中,
Figure BDA00028486855300000210
为时间序列ci中的元素,GRU(·)表示基于门控机制的循环神经网络;
(2)后向门控循环单元从
Figure BDA00028486855300000211
Figure BDA00028486855300000212
遍历ci,得到t时刻的后向隐状态表示
Figure BDA00028486855300000213
计算公式为:
Figure BDA0002848685530000031
(3)通过聚合
Figure BDA0002848685530000035
Figure BDA0002848685530000036
得到t时刻的隐状态表示
Figure BDA0002848685530000037
计算公式为:
Figure BDA0002848685530000032
其中,T表示转置符号,[·,·]表示聚合操作;
(4)对不同时刻的隐状态表示进行加权平均,得到时间序列ci的隐状态表示hi,计算公式为:
Figure BDA0002848685530000033
其中,hi是对时间序列ci的表示,αt表示权重系数;
(5)用Ff(·;θf)函数表示对时序数据的特征提取模块,函数Ff(·;θf)以时序数据c作为输入,输出关于ci的隐状态表示hi,计算公式为:
hi=Ff(ci;θf)
其中,θf表示特征提取模块的可训练参数。
进一步地,谣言分类损失的计算方法为:
首先以隐状态表示hi作为输入,输出谣言的分类结果
Figure BDA0002848685530000038
计算公式为:
Figure BDA0002848685530000039
其中,Fy(·;θy)表示谣言分类模块,θy表示谣言分类模块的可训练参数;
然后计算谣言分类损失Ly,计算公式为:
Figure BDA0002848685530000034
其中,
Figure BDA00028486855300000310
表示分类损失函数,
Figure BDA00028486855300000311
为预测的谣言类别标签,
Figure BDA00028486855300000312
表示源域的预测的谣言类别标签,
Figure BDA00028486855300000313
表示目标域的预测的谣言类别标签,y为真实的谣言类别标签,
Figure BDA00028486855300000314
表示源域的预测的谣言类别标签,
Figure BDA00028486855300000315
表示目标域的预测的谣言类别标签;DS表示源域,
Figure BDA0002848685530000044
表示目标域中有标签的数据,NL表示目标域中有标签数据的数量。
进一步地,域分类损失的计算方法为:
首先,以隐状态表示hi作为输入,输出关于hi的域分类结果
Figure BDA0002848685530000045
计算公式为:
Figure BDA0002848685530000041
其中,Fd(·;θd)表示域分类模块,θd表示域分类模块的可训练参数;
然后计算域分类损失Ld,计算公式为:
Figure BDA0002848685530000042
其中,
Figure BDA0002848685530000046
表示分类损失函数,
Figure BDA0002848685530000049
为域分类的预测值,
Figure BDA0002848685530000047
表示源域的域分类预测值,
Figure BDA0002848685530000048
表示目标域的域分类预测值,di为域分类的真实值,若di来自源域,则di=0,若di来自目标域,则di=1;NS表示源域中有标签数据的数量,DT为目标域,NU表示目标域中无标签数据的数量,NL表示目标域中有标签数据的数量。
进一步地,总体损失的构建方法为:
L=Ly-λ·Ld
其中,L表示总体分类损失,Ly表示谣言分类损失,Ld表示域分类损失,λ表示平衡参数。
进一步地,所述细粒度的梯度更新机制包括:
(1)前向传播过程中,梯度反转层R(·)以特征提取模块提取的隐状态表示hi作为输入,输出值同样为hi,计算公式为:
R(hi)=hi
(2)后向传播过程中,梯度反转层将域分类模块参数的梯度乘以-β,传递给前层的特征提取模块,计算公式为:
Figure BDA0002848685530000043
其中,
Figure BDA0002848685530000055
表示偏微分,I为单位矩阵,β为缩放因子;
(3)特征提取模块的可训练参数θf采用如下公式进行更新:
Figure BDA0002848685530000051
谣言分类模块的可训练参数θy采用如下公式进行更新:
Figure BDA0002848685530000052
域分类模块的可训练参数θd采用如下公式进行更新:
Figure BDA0002848685530000053
其中,μ表示学习率。
进一步地,利用细粒度更新控制机制更新参数后,总体损失的计算方法为:
Figure BDA0002848685530000054
其中,
Figure BDA0002848685530000056
表示来源于源域的时间序列,
Figure BDA0002848685530000057
表示来源于目标域的时间序列。
进一步地,谣言分类模块和域分类模块均为一个全连接层。
有益效果:本发明与现有技术相比,本发明首先构建了谣言检测模型,利用词嵌入技术得到谣言数据的向量表示,利用基于门控循环单元的双向循环神经网络提取谣言的时序特征,然后对谣言进行分类,利用该模型能够对谣言进行有效的检测,并利用细粒度梯度更新机制对参数进行更新,从而能够及时有效地检测网络谣言。
同时,本发明的方法,在谣言检测模型的特征提取模块后连接域分类模块,进而引入了域分类损失函数,通过谣言分类损失与域分类损失组合对谣言分类模型进行训练,从而能够利用领域自适应方法,使得特征提取模块能够提取领域无关的特征,减小从源域中提取的特征和从目标域中提取的特征的差异,有效地缓解了因源域数据和目标域数据分布不一致导致的分类性能下降问题,提高了谣言检测方法的可迁移性。
此外,本发明通过在特征提取模块与域分类模块之间加了一个梯度反转层,构建了细粒度梯度更新机制,从而在模型训练时对模型的训练参数进行更新,在实现谣言准确检测的同时,又提高了谣言检测方法的可迁移性。
附图说明
图1为本发明的谣言检测方法的流程图;
图2为本发明的谣言检测方法的模型框架图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
定义(1)源帖子:一个用户原创的帖子,它不是对任何其它帖子的回复、评论或是转发,在本发明的实施例中,使用Ri表示第i个源帖子。
定义(2)响应帖子:是在原帖发布后,对其进行回复、评论或是转发的帖子,在本发明的实施例中,使用
Figure BDA0002848685530000061
表示原帖Ri在t时刻的响应帖。
定义(3)帖子集合:每一个帖子集合由一条源帖和该帖的响应帖构成,记做
Figure BDA0002848685530000062
其中Ri表示源帖,
Figure BDA0002848685530000063
为按时间排列的响应帖,为了统一符号,也可以将源帖Ri记做
Figure BDA0002848685530000064
定义(4)源域和目标域:源域包含大量有标签的数据,记作
Figure BDA0002848685530000065
目标域包含少量有标签的数据(可能没有)和大量无标签的数据,记作
Figure BDA0002848685530000066
Figure BDA0002848685530000067
其中
Figure BDA0002848685530000068
Figure BDA0002848685530000069
为数据实例,
Figure BDA00028486855300000610
Figure BDA00028486855300000611
为相应的类别标签,NS表示源域中有标签数据的数量,NL表示目标域中有标签数据的数量,NU表示目标域中无标签数据的数量。X为特征空间,Y为标签空间,并且
Figure BDA00028486855300000612
结合图1给出的本方法的流程,本发明的实施例中,构建了用于进行谣言检测的模型,该模型的框架如图2所示,具体包括词嵌入模块、特征提取模块、谣言分类模块,并且为了对谣言检测模型进行训练,在特征提取模块之后连接域分类模块,并且,为了对模型中的参数进行更新,在特征提取模块与域分类模块之间添加一个梯度反转层(gradientreversal layer,GRL)。图2中的黑色实线箭头表示前向传播过程,黑色虚线箭头表示后向传播过程。
对于互联网上发布的帖子,将原始的文本内容表示为低维向量,常用的做法是将文本的每一个单词表示为词向量,然后取均值作为文本的表示。根据收集的语料库将单词表示为词向量的技术,称为词嵌入技术。本发明的实施例中,使用Glove方法将离散的文本内容表示为连续的向量,即在本发明的实施例中,词嵌入模块采用的是Glove方法。
在利用Glove方法时,首先,需要根据语料库建立全局共现矩阵X,共现矩阵X中的每一个元素Xi,j表示单词Vi和单词Vj共同出现的次数。对于每一个单词Vi,通过将公式(1)中的损失函数J最小化,即可得到每一个单词Vi的向量表示vi,构成词向量表E。
Figure BDA0002848685530000071
Figure BDA0002848685530000072
其中,w(x)为权重函数,w(x)定义如式(2)所示,xmax为指定的阈值,vi为第i个单词Vi的向量表示,bi为第i个单词Vi的偏置,bi是一个标量。同样的,vj为第j个单词Vj的向量表示,bj为第j个单词Vj的偏置,bj也是一个标量。N表示语料库中所有单词的数量。
对于帖子M中出现的单词,通过查找训练好的词向量表E(构成图2中的词嵌入层),即可得到该单词的向量表示,未能查找到的单词,使用零向量填充。最后,通过取均值的方式即可得到帖子M的向量表示m。
原帖发布后,用户可以通过对原帖进行回复以及对他人的评论进行回复,来表达自己的观点。将用户的回复按时间排列即可构成响应帖,响应帖的文本内容包含了大量的语义信息,通过衡量响应帖的动态时序特性,可以判断原帖内容的真假。对于每一个帖子集合
Figure BDA0002848685530000073
使用词嵌入方法,可以得到Ci中每一条响应帖
Figure BDA0002848685530000074
的文本内容的向量表示
Figure BDA0002848685530000075
将文本表示按时间排列,可以得到时间序列
Figure BDA0002848685530000076
为了捕获谣言和非谣言的传播特性,本发明的实施例中,特征提取模块采用的是循环神经网络,从而能够提取时序数据的动态变化。在时间步t,时间序列ci中的元素
Figure BDA0002848685530000077
作为循环神经网络的输入。
具体地,本发明的实施例中,使用基于门控循环单元(gated recurrent unit,GRU)的双向循环神经网络来对时间序列进行建模,基于门控循环单元包括两个GRU,分别为前向GRU和后向GRU,对于基于GRU的循环神经网络,其模型公式如式(3)~(6)所示。
zt=σ(Wzmt+Uzht-1) (3)
rt=σ(Wr t+Urht-1) (4)
Figure BDA0002848685530000081
Figure BDA0002848685530000082
其中,zt为更新门,可以看作是一个平衡参数;mt作为GRU在第t个时间步的输入,它是当前帖子集合中第t个响应帖的向量表示;σ(·)为sigmoid函数;
Figure BDA0002848685530000083
Figure BDA0002848685530000084
为更新门的权重矩阵;ht为当前时间步的状态,ht-1为t-1时间步的状态,
Figure BDA0002848685530000085
为当前时间步的候选状态;
Figure BDA0002848685530000086
Figure BDA0002848685530000087
为候选状态的权重矩阵;⊙为哈达马积;rt为重置门,控制t-1时间步的状态ht-1有多少信息能被写入到当前时间步的候选状态
Figure BDA0002848685530000088
上,重置门的数值越小,前一时间步的状态信息被写入的越少;从公式(5)可以看出,候选状态
Figure BDA0002848685530000089
的取值与重置门rt、t-1时间步的状态ht-1以及当前时间步的输入mt有关。使用更新门,可以有选择地遗忘t-1时刻的信息ht-1,同时有选择地增加候选状态
Figure BDA00028486855300000810
中的信息,从而得到当前时间步的状态表示ht
本发明的实施例中采用双向形式的GRU,是为了更好地捕获时序数据的上下文信息。在提取谣言的时序特征时,对于时间序列ci,前向门控循环单元从
Figure BDA00028486855300000811
Figure BDA00028486855300000812
遍历ci,得到t时刻的前向隐状态表示
Figure BDA00028486855300000813
计算公式为:
Figure BDA00028486855300000814
后向门控循环单元从
Figure BDA00028486855300000815
Figure BDA00028486855300000816
遍历ci,得到t时刻的后向隐状态表示
Figure BDA00028486855300000817
计算公式为:
Figure BDA00028486855300000818
然后,通过聚合
Figure BDA00028486855300000819
Figure BDA00028486855300000820
得到t时刻的隐状态表示
Figure BDA00028486855300000821
计算公式为:
Figure BDA0002848685530000091
其中,T表示转置符号,[·,·]表示聚合操作。
Figure BDA0002848685530000092
聚合了前向GRU得到的
Figure BDA0002848685530000093
以及后向GRU得到的
Figure BDA0002848685530000094
因此,
Figure BDA0002848685530000095
能够更好的捕获响应帖
Figure BDA0002848685530000096
的上下文信息。
最后,对不同时刻的隐状态表示进行加权平均,得到时间序列ci的隐状态表示hi,计算公式为:
Figure BDA0002848685530000097
其中,hi是对时间序列ci的表示,αt表示权重系数,通过调整系数αt的大小,可以控制t时刻的状态表示
Figure BDA0002848685530000098
对hi的影响。
在本发明的实施例中,用Ff(·;θf)函数表示对时序数据的特征提取模块,具体地,特征提取模块为一个全连接层,函数Ff(·;θf)以时序数据ci作为输入,输出关于ci的隐状态表示hi,计算公式如(11)所示:
hi=Ff(ci;θf) (11)
使用特征提取模块得到时间序列ci的表示hi后,将hi输入全连接网络即可得到关于帖子集合ci的分类结果,计算公式如(12)所示:
Figure BDA0002848685530000099
然后计算谣言分类损失,计算公式如(13)所示:
Figure BDA00028486855300000910
其中,
Figure BDA00028486855300000911
表示分类损失函数,
Figure BDA00028486855300000912
为预测的谣言类别标签,则用
Figure BDA00028486855300000913
表示源域的预测的谣言类别标签,
Figure BDA00028486855300000914
表示目标域的预测的谣言类别标签,y为真实的谣言类别标签,
Figure BDA00028486855300000915
表示源域的预测的谣言类别标签,
Figure BDA00028486855300000916
表示目标域的预测的谣言类别标签;DS表示源域,
Figure BDA00028486855300000917
表示目标域中有标签的数据,NL表示目标域中有标签数据的数量。在本发明的实施例中,分类损失函数
Figure BDA0002848685530000101
可选择交叉熵损失函数。谣言分类损失Ly包含两部分:(1)源域中有标签数据的分类损失;(2)目标域中有标签数据的分类损失。
在训练谣言检测模型时,如果只通过最小化谣言损失的方法来进行训练,使模型的参数达到最优,此时由于源域和目标域数据之间存在分布的差异,而源域的数据远多于目标域的有标签数据,因此,训练得到的模型在应用于目标域的无标签数据时,会导致分类效果严重下降。
领域自适应研究表明,当给定的算法无法区别数据表示是来自于源域还是目标域时,该算法能够将源域的知识迁移到目标域。本发明的实施例中,使用领域自适应方法,使得特征提取函数Ff(·;θf)能提取领域无关的特征,从而在对目标域的谣言进行分类时,能够将源域的知识迁移到目标域。
类似于生成对抗网络(GAN,Generative Adversarial Networks),领域自适应可以被看作是最小最大化博弈,在训练模型时,领域判别器(domain critic)Fd(·;θd)不断被优化,用来更好地区分得到的特征表示是来自于源域还是目标域;另一方面,通过优化特征提取函数Ff(·;θf)的参数,能够减小模型对谣言的分类损失,同时增大领域判别器的分类损失,即特征提取函数Ff(·;θf)在被优化时,希望能够提高模型对于谣言的分类准确率,同时降低领域判别器的分类准确率。领域判别器和特征提取函数经过上述过程的反复博弈,使模型的参数达到最优。最终,特征提取函数Ff(·;θf)能够学习到领域无关的特征表示。
在本发明的实施例中,利用全连接神经网络作为领域判别器Fd(·;θd),具体地,域分类模块为一个全连接层,为了计算域分类损失,首先以隐状态表示hi作为输入,输出关于hi的域分类结果
Figure BDA0002848685530000102
计算公式如公式(14)所示:
Figure BDA0002848685530000103
输出的域分类结果
Figure BDA0002848685530000104
Figure BDA0002848685530000105
越接近0,表示hi越可能来自源域,
Figure BDA0002848685530000106
越接近1,表示hi越可能来自于目标域;θy表示域分类模块的可训练参数,即在本发明的实施例中,为全连接层网络的可训练参数。然后计算域分类损失,计算公式如公式(15)所示:
Figure BDA0002848685530000111
其中,
Figure BDA0002848685530000112
表示分类损失函数,
Figure BDA0002848685530000113
为域分类的预测值,
Figure BDA0002848685530000114
表示源域的域分类预测值,
Figure BDA0002848685530000115
表示目标域的域分类预测值,
Figure BDA0002848685530000116
Figure BDA0002848685530000117
均可以通过公式(14)计算获得;di为域分类的真实值,若di来自源域,则di=0,若di来自目标域,则di=1;NS表示源域中有标签数据的数量,DT为目标域,NU表示目标域中无标签数据的数量,NL表示目标域中有标签数据的数量。在本发明的实施例中,
Figure BDA0002848685530000118
可以选择交叉熵损失函数。最终的域分类损失Ld包含两部分:(1)源域中所有数据的域分类损失;(2)目标域中所有数据的域分类损失。
根据谣言分类损失以及域分类损失,即可构建总体损失,总体损失L由两部分组成:(1)谣言分类损失Ly;(2)域分类损失Ld,具体的计算公式如公式(16)所示:
L=Ly-λ·Ld (16)
其中,λ表示平衡参数。
在训练阶段,一方面,模型需要优化参数θf和θy,使总体损失L减小,如式(17)所示;另一方面,模型需要优化参数θd,使总体损失L增大,如式(18)所示。
Figure BDA0002848685530000119
Figure BDA00028486855300001110
其中,
Figure BDA00028486855300001111
Figure BDA00028486855300001112
分别表示相应参数的预测值,由式(17)和(18)可知,在优化参数θf和θy时,需固定参数θd;而在优化参数θd时,需固定参数θf和θy
为了对模型的参数更好的训练,本发明的实施例中,构建了一种细粒度的梯度更新控制机制,通过在特征提取模块和域分类模块之间增加了一个梯度反转层R(·),在前向传播过程中,R(·)以特征提取模块提取的隐状态表示hi作为输入,输出值同样为hi,如式(19)所示;在后向传播过程中,梯度反转层将后层网络(域分类模块)参数的梯度乘以-β,传递给前层的网络(特征提取模块),如式(20)所示。
R(hi)=hi (19)
Figure BDA0002848685530000121
其中,
Figure BDA0002848685530000123
表示偏微分,I为单位矩阵,β为缩放因子,可以用来调节域分类模块的梯度经过梯度反转层后的大小。
当增加了梯度反转层后,参数θf、θy和θd的更新方式如式(21)~(23)所示。
Figure BDA0002848685530000124
Figure BDA0002848685530000125
Figure BDA0002848685530000126
其中,μ表示学习率,λ用来平衡参数θy和θd的学习速度。
根据所提出的细粒度梯度更新控制机制用来更新模型的参数后,式(16)中的总体损失L可写为:
Figure BDA0002848685530000122
其中,
Figure BDA0002848685530000127
表示来源于源域的时间序列,
Figure BDA0002848685530000128
表示来源于目标域的时间序列。
为了使模型达到最优,需要不断地重复遍历一个时期内的所有样本,直到损失函数L收敛或是满足停止的条件。例如,损失函数的值小于一定的阈值,或者是达到规定的最大时期数。在整个训练过程中,所有的参数通过反向传播进行更新。
本发明通过在特征提取模块后连接域分类模块,从而引入了域分类损失函数,将领域自适应方法引入到训练过程,利用谣言损失与域分类损失构成的总体损失对谣言检测模型进行训练,并利用所构建的细粒度梯度控制机制进行参数更新,使得谣言检测模型在能够对谣言进行准确检测的同时,具有更好的迁移性,从而能够适用不同领域的谣言检测。
利用训练好的谣言检测模型,可以有效地对谣言进行检测,首先获取互联网中的谣言数据,然后输入词嵌入模块,获得谣言的向量表示,并按照时间顺序排列,得到谣言数据的时间序列,将谣言数据的向量表示输入谣言分类模块进行时序特征提取,并将所提取的时序特征送入谣言分类模块进行分类。
综上方法,本发明的方法不仅能够对谣言进行有效的检测,同时,具有较好的迁移性,能够用于不同领域的谣言检测。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (10)

1.一种基于领域自适应的可迁移谣言检测方法,其特征在于,包括:
构建谣言检测模型,所述谣言检测模型包括词嵌入模块、特征提取模块、谣言分类模块;
训练谣言分类模型,训练过程包括:在特征提取模块后连接域分类模块,引入域分类损失函数,并构建谣言分类损失与域分类损失的总体损失,利用总体损失对谣言分类模型进行训练;通过在特征提取模块与域分类模块之间添加梯度反转层,构建细粒度的梯度更新控制机制,对模型中需要更新的参数进行更新;
获取谣言数据,利用训练后的词嵌入模块获得谣言数据的向量表示,并按照时间顺序排列,得到谣言数据的时间序列,将谣言数据的向量表示输入谣言分类模块进行时序特征提取,并将所提取的时序特征送入谣言分类模块进行分类。
2.根据权利要求1所述的基于领域自适应的可迁移谣言检测方法,其特征在于,特征提取模块为基于门控循环单元的双向循环神经网络,包括前向门控循环单元和后向门控循环单元。
3.根据权利要求2所述的基于领域自适应的可迁移谣言检测方法,其特征在于,基于门控循环单元的双向循环神经网络的模型公式如下:
zt=σ(Wzmt+Uzht-1)
rt=σ(Wr t+Urht-1)
Figure FDA0003799565250000011
ht=(1-zt)⊙ht-1+zt⊙h~t
其中,zt为更新门,mt为门控循环单元在第t个时间步的输入,rt为重置门,ht为当前时间步的状态,ht-1为t-1时间步的状态,h~t是当前时间步的候选状态,Wz和Uz为更新门的权重矩阵,Wr t和Ur为重置门的权重矩阵,
Figure FDA0003799565250000012
Figure FDA0003799565250000013
为候选状态的权重矩阵,σ(.)为sigmoid函数,⊙为哈达马积。
4.根据权利要求3所述的基于领域自适应的可迁移谣言检测方法,其特征在于,利用基于门控循环单元的双向循环神经网络提取谣言的时序特征的过程包括:
(1)对于时间序列ci,前向门控循环单元从
Figure FDA0003799565250000014
Figure FDA0003799565250000015
遍历ci,得到t时刻的前向隐状态表示
Figure FDA0003799565250000016
计算公式为:
Figure FDA0003799565250000021
其中,
Figure FDA0003799565250000031
为时间序列ci中的元素,GRU(.)表示基于门控机制的循环神经网络;
(2)后向门控循环单元从
Figure FDA0003799565250000032
Figure FDA0003799565250000033
遍历ci,得到t时刻的后向隐状态表示
Figure FDA0003799565250000034
计算公式为:
Figure FDA0003799565250000035
(3)通过聚合
Figure FDA0003799565250000036
Figure FDA0003799565250000037
得到t时刻的隐状态表示hi t,计算公式为:
Figure FDA0003799565250000038
其中,T表示转置符号,[.,.]表示聚合操作;
(4)对不同时刻的隐状态表示进行加权平均,得到时间序列ci的隐状态表示hi,计算公式为:
Figure FDA0003799565250000039
其中,hi是对时间序列ci的表示,αt表示权重系数;
(5)为了简洁,将上述步骤(1)-(4)的时序数据的特征提取过程用Ff函数表示,函数Ff以时序数据ci
作为输入,最终输出关于ci的隐状态表示hi,计算公式为:
hi=Ff(ci;θf)
其中,θf表示特征提取模块的可训练参数。
5.根据权利要求4所述的基于领域自适应的可迁移谣言检测方法,其特征在于,谣言分类损失的计算方法为:
首先以隐状态表示hi作为输入,输出谣言的分类结果
Figure FDA00037995652500000310
计算公式为:
Figure FDA00037995652500000311
其中,Fy(.;θy)表示谣言分类模块,θy表示谣言分类模块的可训练参数;
然后计算谣言分类损失Ly,计算公式为:
Figure FDA0003799565250000041
其中,Ly(y^,y)表示分类损失函数,
Figure FDA0003799565250000042
为预测的谣言类别标签,
Figure FDA0003799565250000043
表示源域的预测的谣言类别标签,
Figure FDA0003799565250000044
表示目标域的预测的谣言类别标签,y为真实的谣言类别标签,
Figure FDA0003799565250000045
表示源域的预测的谣言类别标签,
Figure FDA0003799565250000046
表示目标域的预测的谣言类别标签;
Figure FDA0003799565250000047
表示目标域中有标签的数据,NL表示目标域中有标签数据的数量,NS表示源域中有标签数据的数量,DS为源域样本数量,DT为目标域有标签样本数量。
6.根据权利要求5所述的基于领域自适应的可迁移谣言检测方法,其特征在于,域分类损失的计算方法为:
首先,以隐状态表示hi作为输入,输出关于hi的域分类结果
Figure FDA0003799565250000048
计算公式为:
Figure FDA0003799565250000049
其中,Fd(.;9d)表示域分类模块,9d表示域分类模块的可训练参数;
然后计算域分类损失Ld,计算公式为:
Figure FDA00037995652500000410
其中,
Figure FDA00037995652500000411
表示分类损失函数,
Figure FDA00037995652500000412
为域分类的预测值,
Figure FDA00037995652500000413
表示源域的域分类预测值,
Figure FDA00037995652500000414
表示目标域的域分类预测值,di为域分类的真实值,若di来自源域,则di=0,若di来自目标域,则di=1;NS表示源域中有标签数据的数量,DT为目标域,NU表示目标域中无标签数据的数量,NL表示目标域中有标签数据的数量,DS为源域样本数量,DT为目标域有标签样本数量。
7.根据权利要求6所述的基于领域自适应的可迁移谣言检测方法,其特征在于,总体损失的构建方法为:
L=Ly一入.Ld
其中,L表示总体分类损失,Ly表示谣言分类损失,Ld表示域分类损失,入表示平衡参数。
8.根据权利要求7所述的基于领域自适应的可迁移谣言检测方法,其特征在于,所述细粒度的梯度更新机制包括:
(1)前向传播过程中,梯度反转层R(.)以特征提取模块提取的隐状态表示hi作为输入,输出值同样为hi,计算公式为:
R(hi)=hi
(2)后向传播过程中,梯度反转层将域分类模块参数的梯度乘以-β,传递给前层的特征提取模块,计算公式为:
Figure FDA0003799565250000061
其中,a表示偏微分,I为单位矩阵,β为缩放因子;
(3)特征提取模块的可训练参数9f采用如下公式进行更新:
Figure FDA0003799565250000062
谣言分类模块的可训练参数9y采用如下公式进行更新:
Figure FDA0003799565250000063
域分类模块的可训练参数9d采用如下公式进行更新:
Figure FDA0003799565250000064
其中,μ表示学习率。
9.根据权利要求8所述的基于领域自适应的可迁移谣言检测方法,其特征在于,利用细粒度更新控制机制更新参数后,总体损失的计算方法为:
Figure FDA0003799565250000065
其中,
Figure FDA0003799565250000066
表示来源于源域的时间序列,
Figure FDA0003799565250000067
表示来源于目标域的时间序列。
10.根据权利要求1-9任一项所述的基于领域自适应的可迁移谣言检测方法,其特征在于,谣言分类模块和域分类模块均为一个全连接层。
CN202011518241.7A 2020-12-21 2020-12-21 一种基于领域自适应的可迁移谣言检测方法 Active CN112541081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011518241.7A CN112541081B (zh) 2020-12-21 2020-12-21 一种基于领域自适应的可迁移谣言检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011518241.7A CN112541081B (zh) 2020-12-21 2020-12-21 一种基于领域自适应的可迁移谣言检测方法

Publications (2)

Publication Number Publication Date
CN112541081A CN112541081A (zh) 2021-03-23
CN112541081B true CN112541081B (zh) 2022-09-16

Family

ID=75019298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011518241.7A Active CN112541081B (zh) 2020-12-21 2020-12-21 一种基于领域自适应的可迁移谣言检测方法

Country Status (1)

Country Link
CN (1) CN112541081B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312479B (zh) * 2021-05-13 2023-05-30 杭州中科睿鉴科技有限公司 跨领域虚假新闻检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180077A (zh) * 2017-04-18 2017-09-19 北京交通大学 一种基于深度学习的社交网络谣言检测方法
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN110186680A (zh) * 2019-05-30 2019-08-30 盐城工学院 一种对抗判别域适应一维卷积神经网络智能故障诊断方法
WO2020082748A1 (zh) * 2018-10-25 2020-04-30 腾讯科技(深圳)有限公司 一种检测模型的训练方法、装置及终端设备
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法
CN111145174A (zh) * 2020-01-02 2020-05-12 南京邮电大学 基于图像语义特征进行点云筛选的3d目标检测方法
CN111460144A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于时序切分与融合的谣言早期检测算法
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置
CN111858928A (zh) * 2020-06-17 2020-10-30 北京邮电大学 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN112015896A (zh) * 2020-08-27 2020-12-01 腾讯科技(深圳)有限公司 基于人工智能的情感分类方法、以及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492099B (zh) * 2018-10-28 2022-03-15 北京工业大学 一种基于领域对抗自适应的跨领域文本情感分类方法
US10983971B2 (en) * 2018-11-28 2021-04-20 Intuit Inc. Detecting duplicated questions using reverse gradient adversarial domain adaptation
CN110188822B (zh) * 2019-05-30 2023-07-25 盐城工学院 一种域对抗自适应一维卷积神经网络智能故障诊断方法
CN111444952B (zh) * 2020-03-24 2024-02-20 腾讯科技(深圳)有限公司 样本识别模型的生成方法、装置、计算机设备和存储介质
CN117010446A (zh) * 2020-08-21 2023-11-07 三峡大学 采用自注意力生成器和BiLSTM判别器的谣言检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180077A (zh) * 2017-04-18 2017-09-19 北京交通大学 一种基于深度学习的社交网络谣言检测方法
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN111431742A (zh) * 2018-05-31 2020-07-17 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
WO2020082748A1 (zh) * 2018-10-25 2020-04-30 腾讯科技(深圳)有限公司 一种检测模型的训练方法、装置及终端设备
CN110186680A (zh) * 2019-05-30 2019-08-30 盐城工学院 一种对抗判别域适应一维卷积神经网络智能故障诊断方法
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法
CN111145174A (zh) * 2020-01-02 2020-05-12 南京邮电大学 基于图像语义特征进行点云筛选的3d目标检测方法
CN111460144A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于时序切分与融合的谣言早期检测算法
CN111506794A (zh) * 2020-04-17 2020-08-07 腾讯科技(武汉)有限公司 一种基于机器学习的谣言管理方法和装置
CN111858928A (zh) * 2020-06-17 2020-10-30 北京邮电大学 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN112015896A (zh) * 2020-08-27 2020-12-01 腾讯科技(深圳)有限公司 基于人工智能的情感分类方法、以及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MULTIMODAL DISENTANGLED DOMAIN ADAPTION FOR SOCIAL MEDIA EVENT RUMOR DETECTOIN;HUAIWEN ZHANG ET AL.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20201207;第4441-4454页 *
基于迁移学习的谣言检测机制研究;郭孟杰;《万方数据》;20200115;全文 *
网络多媒体数据中舆情关联主题的挖掘方法;刘润奇 等;《深圳大学学报(理工版)》;20200131;第37卷(第1期);第72-78页 *

Also Published As

Publication number Publication date
CN112541081A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与系统
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN110083836A (zh) 一种文本预测结果的关键证据抽取方法
CN114972839B (zh) 一种基于在线对比蒸馏网络的广义持续分类方法
CN111753918A (zh) 一种基于对抗学习的去性别偏见的图像识别模型及应用
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
Das et al. A deep sign language recognition system for Indian sign language
CN112199504A (zh) 一种融合外部知识与交互注意力机制的视角级文本情感分类方法及系统
CN111611375B (zh) 一种基于深度学习和转折关系的文本情感分类方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
Yu et al. Fair face recognition using data balancing, enhancement and fusion
Shehu et al. Lateralized approach for robustness against attacks in emotion categorization from images
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
CN112541081B (zh) 一种基于领域自适应的可迁移谣言检测方法
Liu et al. Food image recognition algorithm base on improved VGG16
Wang et al. Emotion analysis of microblog based on emotion dictionary and Bi-GRU
Vidhyalakshmi et al. Indian Sign Language Recognition using transfer learning with Efficient Net
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN113609294B (zh) 一种基于情感分析的生鲜冷链监管方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant