CN114330337B - 一种用于社交媒体上的谣言检测方法 - Google Patents

一种用于社交媒体上的谣言检测方法 Download PDF

Info

Publication number
CN114330337B
CN114330337B CN202111635127.7A CN202111635127A CN114330337B CN 114330337 B CN114330337 B CN 114330337B CN 202111635127 A CN202111635127 A CN 202111635127A CN 114330337 B CN114330337 B CN 114330337B
Authority
CN
China
Prior art keywords
node
topic
sub
representation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111635127.7A
Other languages
English (en)
Other versions
CN114330337A (zh
Inventor
杨阳
李骏
宾燚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111635127.7A priority Critical patent/CN114330337B/zh
Publication of CN114330337A publication Critical patent/CN114330337A/zh
Application granted granted Critical
Publication of CN114330337B publication Critical patent/CN114330337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于社交媒体上的谣言检测方法,先构建待验证话题及相关评论的传播树,然后根据传播树的一阶子节点划分为多个子树,视为整个话题下的多个子话题,通过动态图神经网络先以动态演变的方式更新子话题下的各个节点表示,然后利用多分支注意力层自底向上地递归式提取子话题的表示向量,最后再整合这些表示向量作为谣言检测的判断依据,完成社交媒体上的谣言检测。

Description

一种用于社交媒体上的谣言检测方法
技术领域
本发明属于社交媒体上的谣言检测技术领域,更为具体地讲,涉及一种用于社交媒体上的谣言检测方法。
背景技术
谣言检测(RumorDetection)的主要任务是根据社交媒体上发布的消息,以及这些消息下的大量转发或回复形成的传播,进行判断其原始消息是否为谣言。因此消息的传播结构,时间轴,以及文本内容对于判断至关重要。现有的方法要么只采用时间轴,而忽略传播结构;要么只采用传播结构,而忽略时间轴;将二者融合的方法中,也只是将传播结构和时间轴以嵌入的方式叠加入文本特征中,而忽视了传播结构的动态性。
社交媒体上的谣言检测(RumorDetection),其主要目标是根据社交媒体上发布的消息,以及这些消息下的大量转发或回复形成的传播,进行判断其原始消息是否为谣言。经典的方法分为三类:1)将原始消息与回复/转发按发布的时间先后排序,然后排序后的序列分成多段,用词频-逆文本频率指数值(tf-idf)表示每个时间段,最后用循环神经网络(RNN)得到整个序列的表示,以此作为该原始消息传播的表示,进行分类;2)将消息在社交媒体上的传播过程绘制成传播树结构,每个节点表示用户针对原始消息发布的评论,通过递归地提取整个传播树的表示以进行分类;3)对用户发布消息的时间以及其在传播树上的相对位置进行编号,采用嵌入(embedding)的方式,得到用户评论的时间表示以及结构表示,再将其叠加入模型的计算中去,以做到时间信息,文本信息以及结构信息相融合。
然而,现有方法总是将传播树作为一个整体,希望通过提取传播树的表示找到谣言与非谣言的判断依据,却忽视在社交媒体中直接基于原始消息回复的一阶子节点所引领的讨论是相互独立的,而这独立的讨论中,可能就包含了针对原始消息判断的重要线索。
其次,针对时间信息和结构信息的融合,现有的方法是直接将其以嵌套(embedding)的方式静态进行融合,而忽视了其传播的结构是随着时间不断变化的,不同的变化顺序将带来不同的结果。
另外,现有方法主要采用时间段进行时间编码,例如以十分钟为一个时间段,在这十分钟内的发布的评论都视为同一编码,忽视了评论间的真实时间间隔对于控制消息间的影响力有着重要作用。两条评论时间相隔越远,其相互间的影响越小,因为后来者可能在这较长的时间内获得了其他先验的知识,反之亦然。
发明内容
本发明的目的在于克服现有技术的不足,提供一种用于社交媒体上的谣言检测方法,通过动态图神经网络与多分支注意力模块相结合的方式提取子话题的表示向量,最后再整合这些表示向量作为谣言检测的判断依据,完成社交媒体上的谣言检测。
为实现上述发明目的,本发明为一种用于社交媒体上的谣言检测方法,其特征在于,包括以下步骤:
(1)、利用待验证的话题构建传播树;
将待验证的话题作为传播树的根节点,对话题的直接评论作为一阶子节点,对话题的评论的评论作为二阶子节点,然后以此类推,从而构建出传播树;
(2)、分话题;
将传播树按其一阶子节点拆分为多个子话题,每个子话题也是一个传播树,然后将待验证话题添加到每一个传播树中,作为每一个传播树的根节点,从而构建出多个子话题传播树;
(3)、利用动态图神经网络以节点流的方式更新各个子话题传播树;
(3.1)、将每一个子话题中的节点视为一个文字序列,记为si={w1,w2,…,wl,…,wL},wl表示第i个节点中第l个单词,L表示单词总数量;
(3.2)、利用动态图神经网络中的初始化单元将文字序列si初始化为文本特征矩阵,记为Si,Si的维度大小为L×d,d为单词对应的词向量维度;
(3.3)、利用动态图神经网络中的Transformer单元将文本特征矩阵Si映射为特征向量;
利用Transformer的n头注意力层将文本特征矩阵Si先映射为查询矩阵
Figure BDA0003441781270000031
键矩阵
Figure BDA0003441781270000032
和值矩阵Vi j
Figure BDA0003441781270000033
其中,j∈[1,n]表示第j个注意力头,
Figure BDA0003441781270000034
为第j个注意力头的权值矩阵,其维度大小均为
Figure BDA0003441781270000035
然后通过注意力机制提取各个注意力头的交互信息
Figure BDA0003441781270000036
Figure BDA0003441781270000037
其中,
Figure BDA0003441781270000038
表示第j个注意力头的维度,上标T表示转置;
最后将各个注意力头间的交互信息
Figure BDA0003441781270000039
连接起来
Figure BDA00034417812700000310
再通过前向反馈网络得到第i个节点的特征矩阵
Figure BDA00034417812700000311
然后通过最大池化层从
Figure BDA00034417812700000312
中提取显著信息,从而获得第i个节点的特征向量
Figure BDA00034417812700000313
其维度大小为1×d;
(3.4)、利用动态图神经网络中的更新单元更新特征向量
Figure BDA00034417812700000314
(3.4.1)、设置元数据包含四个部分:父节点部分、子节点部分、节点表示和更新时间;
(3.4.2)、将特征向量
Figure BDA00034417812700000315
更新为元数据
Figure BDA00034417812700000316
其中,
Figure BDA00034417812700000317
表示节点i作为父节点时的特征信息;
Figure BDA00034417812700000318
为映射矩阵,用于将特征向量
Figure BDA00034417812700000319
映射到父节点空间;
Figure BDA00034417812700000320
表示节点i作为子节点时的特征信息;
Figure BDA00034417812700000321
为映射矩阵,用于将特征向量
Figure BDA00034417812700000322
映射到子节点空间;
Figure BDA00034417812700000323
表示节点i的节点表示;
Figure BDA00034417812700000324
为权值矩阵;ti为更新时间,初始化为节点i出现的时间,即节点i所代表的评论信息发布的时间;
(3.4.3)、根据评论关系在子传播树中搜索节点i的父节点,记为postp,并得到父节点的元数据
Figure BDA00034417812700000325
(3.4.4)、将节点i与其父节点postp的节点表示进行融合,得到此时的上下文表示:
Figure BDA00034417812700000326
其中,ReLU(·)为非线性激活函数,up是父节点postp的当前节点表示,ui是子节点i的当前节点表示,
Figure BDA0003441781270000041
Figure BDA0003441781270000042
分别代表父节点和子节点的权重;
(3.4.5)、利用对时间敏感的长短期记忆网络Time-ware LSTM将此时的上下文表示e更新入节点i及其父节点postp的节点表示中;
Figure BDA0003441781270000043
e以及时间间隔Δt=ti-tp输入至Time-ware LSTM,更新节点i的父节点postp的元数据:
Figure BDA0003441781270000044
Figure BDA0003441781270000045
其中,
Figure BDA0003441781270000046
表示父节点postp更新后的元数据中其作为父节点的特征信息,
Figure BDA0003441781270000047
为权值矩阵,up(new)表示更新后的父节点postp的节点表示;
Figure BDA0003441781270000048
e以及时间间隔Δt=0输入至Time-ware LSTM,更新节点i的元数据:
Figure BDA0003441781270000049
Figure BDA00034417812700000410
其中,
Figure BDA00034417812700000411
表示节点i更新后的元数据中其作为子节点的特征信息,
Figure BDA00034417812700000412
表示权值矩阵,ui(new)表示更新后的节点i的节点表示;
更新完成后,节点i的元数据表示为:
Figure BDA00034417812700000413
父节点postp的元数据表示为:
Figure BDA00034417812700000414
(3.4.6)、以同样的更新方式更新postp的父节点的元数据,以及postp的子节点中评论时间早于节点i的节点元数据;
(3.4.7)、按节点出现的先后顺序以同样的更新方式更新完子话题中所有节点,得到更新后的子话题传播树;
(4)、利用多分支注意力层自底向上地递归式提取子话题的表示向量;
(4.1)、设步骤(2)中共计拆分出N个子话题,第κ个子话题传播树的叶子节点为{κ12,…,κλ},其中,子节点
Figure BDA00034417812700000415
拥有共同的父节点postp,其节点表示分别为
Figure BDA00034417812700000416
p1~pλ∈[1,λ],父节点postp的节点表示为up,则得到包含父节点和对应子节点的子传播树用矩阵表示为
Figure BDA00034417812700000417
(4.2)、利用n分支注意力层将矩阵Up先映射为查询矩阵
Figure BDA00034417812700000418
键矩阵
Figure BDA00034417812700000419
和值矩阵
Figure BDA00034417812700000420
Figure BDA0003441781270000051
其中,j∈[1,n]表示注意力层的第j个分支,
Figure BDA0003441781270000052
为第j个分支的权值矩阵;
(4.3)、通过注意力机制提取各节点间的交互信息
Figure BDA0003441781270000053
Figure BDA0003441781270000054
(4.4)、为各节点间的交互信息
Figure BDA0003441781270000055
增加权重;
Figure BDA0003441781270000056
其中,αj为第j个分支的权重值,
Figure BDA0003441781270000057
为第j个分支的交互信息的权重矩阵;
(4.5)、对每个分支注意力层的交互信息
Figure BDA0003441781270000058
通过两个卷积层得到其高维表示:
Figure BDA0003441781270000059
其中,Conv(·)表示卷积层,ReLU(·)为激活函数;
(4.6)、对每个分支的高维表示Pj按权重进行叠加,再通过最大池化层得到父节点postp的节点表示
Figure BDA00034417812700000510
Figure BDA00034417812700000511
Figure BDA00034417812700000512
其中,max-pooling表示最大池化层;λj为第j个分支的高维表示的权重值;Wu表示从分支注意力层到节点表示的映射矩阵;
(4.7)、以此类推,通过叶子节点得到其父节点的节点表示,再通过父节点得到祖先节点的节点表示,递归式地自底向上,最终用根节点的节点表示作为第κ个子话题的表示向量,记为vκ
(4.8)、同理,按照步骤(4.1)-(4.7)所述方法依次获取到N个子话题的表示向量,记为v1,v2,…,vκ,…vN
(5)、谣言检测;
(5.1)、将待验证的话题表示为vr,对应的时间记为t0;待验证的话题拆分成N个子话题后,每个子话题的开始时间为一阶子节点出现的时间并按出现时间从小到大进行排序,记为t1,t2,…,tκ,…,tN
(5.2)、按时序信息融合待验证话题和所有子话题的特征表示,以获取整个传播树的最终表示;
Figure BDA0003441781270000061
其中Wh,Wc为维度映射矩阵,hr,cr为待验证话题在Time-ware LSTM的隐层表示和单元表示,hκ,cκ为融合了待验证话题及前κ个子话题特征的隐层表示和单元表示;
(5.3)、将融合了待验证话题和N个子话题特征的隐层表示hN作为整棵传播树的最终表示,根据hN计算分类概率:
Figure BDA0003441781270000062
其中,Wt为权重矩阵,bt为偏置向量;
Figure BDA0003441781270000063
是一个1x3的向量,向量的第一列表示待验证话题为未定义谣言的概率,向量的第二列表示待验证话题为真谣言的概率,向量的第三列表示待验证话题为假谣言的概率,且这三种概率相加为1;
(5.4)、在分类概率
Figure BDA0003441781270000064
中,取三种概率值中最大的一个所对应的类别,作为待验证话题的类别。
本发明的发明目的是这样实现的:
本发明一种用于社交媒体上的谣言检测方法,先构建待验证话题及相关评论的传播树,然后根据传播树的一阶子节点划分为多个子树,视为整个话题下的多个子话题,通过动态图神经网络先以动态演变的方式更新子话题下的各个节点表示,然后利用多分支注意力层自底向上地递归式提取子话题的表示向量,最后再整合这些表示向量作为谣言检测的判断依据,完成社交媒体上的谣言检测。
同时,本发明一种用于社交媒体上的谣言检测方法还具有以下有益效果:
(1)、本发明将针对原始消息的传播树视为一个正在讨论的话题,每一个一阶子节点所引领的讨论视为一个子话题,通过先提取每个子话题的表示,从中寻找有价值的线索,然后再将各个线索融合起来,将提取整个传播结构的问题简化为提取各个子树的问题,这样克服了直接提取整个传播结构中有区分性的特征难度过大的问题;
(2)、本发明采用动态图神经网络对子话题的传播结构进行更新,以节点流地形式,动态地更新各个节点的表示,将结构的演化信息也融入到节点的表示中;
(3)、本发明采用对时间敏感的长短期记忆网络(Time-ware LSTM),在传播过程中,通过相邻节点间的时间间隔,对节点间的表示更新进行控制。
附图说明
图1是本发明一种用于社交媒体上的谣言检测方法流程图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种用于社交媒体上的谣言检测方法流程图。
在本实施例中,如图1所示,本发明是一种用于社交媒体上的谣言检测方法,包括以下步骤:
S1、利用待验证的话题构建传播树;
如图1所示,将待验证的话题作为传播树的根节点,记为r,对话题的直接评论作为一阶子节点,记为s1,s2,对话题的评论的评论作为二阶子节点,以s1为例,其二阶子节点为s11,s12,然后以此类推,从而构建出传播树。
S2、分话题;
将传播树按其一阶子节点拆分为多个子话题,每个子话题也是一个传播树,为了保证传播的完整性,将待验证话题添加到每一个传播树中,作为每一个传播树的根节点,从而构建出多个子话题传播树;在本实施例中,共计拆除出两个子话题。
在本实施例中,设计动态图神经网络和分支注意力模块对子话题处理,具体先通过动态图神经网络以节点流的方式更新各个节点的特征表示,使节点的特征表示既融入文本信息,结构信息,以及时间信息,又融入了传播结构的演化信息。再通过分支注意力模块从底向上递归式地提取更新后的传播结构的特征。具体处理流程如步骤S3和S4.
S3、利用动态图神经网络以节点流的方式更新各个子话题传播树;
动态图神经网络包含两个处理单元,分别为初始化单元和更新单元。通过初始化单元,以用户发布的文本信息初始化节点表示,再根据节点出现的时间顺序,更新单元通过节点间的结构关系更新子话题下各个节点的表示;
S3.1、将每一个子话题中的节点视为一个文字序列,记为si={w1,w2,…,wl,…,wL},wl表示第i个节点中第l个单词,L表示单词总数量;
在本实施例中,如图1所示,以子话题2为例,将子话题传播树中的三个节点均视为一个文字序列;
S3.2、利用动态图神经网络中的初始化单元将文字序列si初始化为文本特征矩阵,记为Si,Si的维度大小为L×d,d为单词对应的词向量维度;
S3.3、利用动态图神经网络中的Transformer单元将文本特征矩阵Si映射为特征向量;
通过观察发现社交媒体上的文本不同于自然语言,其更注重情感表示,而忽视语法结构,所以本专利采用Transformer来提取用户发布的文本特征信息,具体为:
首先,利用Transformer的n头注意力层将文本特征矩阵Si先映射为查询矩阵
Figure BDA0003441781270000081
键矩阵
Figure BDA0003441781270000082
和值矩阵Vi j
Figure BDA0003441781270000083
其中,j∈[1,n]表示第j个注意力头,
Figure BDA0003441781270000084
为第j个注意力头的权值矩阵,其维度大小均为
Figure BDA0003441781270000085
然后通过注意力机制提取各个注意力头的交互信息
Figure BDA0003441781270000086
Figure BDA0003441781270000091
其中,
Figure BDA0003441781270000092
表示第j个注意力头的维度,
Figure BDA0003441781270000093
的作用是为了防止矩阵运算后
Figure BDA0003441781270000094
过大;上标T表示转置;
最后将各个注意力头间的交互信息
Figure BDA0003441781270000095
连接起来
Figure BDA0003441781270000096
再通过前向反馈网络得到第i个节点的特征矩阵
Figure BDA0003441781270000097
然后通过最大池化层从
Figure BDA0003441781270000098
中提取显著信息,从而获得第i个节点的特征向量
Figure BDA0003441781270000099
其维度大小为1×d,即分别得到子话题2中所有节点的特征向量
Figure BDA00034417812700000910
S3.4、利用动态图神经网络中的更新单元更新所有节点的特征向量;
初始化单元得到每个节点的初始化表示,为了将传播结构的随时间的变化过程融入节点的表示中,本发明以节点流的方式,借助改进后的长短期记忆网络更新子话题下各个节点的表示特征;
S3.4.1、由于传播树是一种特殊的有向图,所以每个节点既有可能是父节点,又有可能是子节点,所以针对每一个节点,设计了一种特殊的元数据,该元数据包含四个部分:父节点部分、子节点部分、节点表示和更新时间;
S3.4.2、以s21为例,将特征向量
Figure BDA00034417812700000911
更新为元数据
Figure BDA00034417812700000924
其中,
Figure BDA00034417812700000912
表示s21作为父节点时的特征信息;
Figure BDA00034417812700000913
为映射矩阵,用于将特征向量
Figure BDA00034417812700000914
映射到父节点空间;
Figure BDA00034417812700000915
表示s21作为子节点时的特征信息;
Figure BDA00034417812700000916
为映射矩阵,用于将特征向量
Figure BDA00034417812700000917
映射到子节点空间;
Figure BDA00034417812700000918
表示s21的节点表示;
Figure BDA00034417812700000919
为权值矩阵;t21为更新时间,初始化为s21出现的时间;
S3.4.3、根据评论关系在子传播树中搜索s21的父节点为s2,并得到父节点的元数据
Figure BDA00034417812700000920
S3.4.4、将s21与其父节点s2的节点表示进行融合,得到此时的上下文表示:
Figure BDA00034417812700000921
其中,ReLU(·)为非线性激活函数,u2是父节点s2的当前节点表示,u21是子节点s21的当前节点表示,
Figure BDA00034417812700000922
Figure BDA00034417812700000923
分别代表父节点和子节点的权重;
S3.4.5、利用对时间敏感的长短期记忆网络Time-ware LSTM将此时的上下文表示e更新入s21及其父节点s2的节点表示中;
Figure BDA0003441781270000101
e以及时间间隔Δt=t21-t2输入至Time-ware LSTM,更新节点s21的父节点s2的元数据:
Figure BDA0003441781270000102
Figure BDA0003441781270000103
其中,
Figure BDA0003441781270000104
表示父节点s2更新后的元数据中其作为父节点的特征信息,
Figure BDA0003441781270000105
为权值矩阵,u2(new)表示更新后的父节点s2的节点表示;
Figure BDA0003441781270000106
e以及时间间隔Δt=0输入至Time-ware LSTM,更新节点i的元数据:
Figure BDA0003441781270000107
Figure BDA0003441781270000108
其中,
Figure BDA0003441781270000109
表示节点s21更新后的元数据中其作为子节点的特征信息,
Figure BDA00034417812700001010
表示权值矩阵,u21(new)表示更新后的节点s21的节点表示;
更新完成后,节点s21的元数据表示为:
Figure BDA00034417812700001011
父节点s2的元数据表示为:
Figure BDA00034417812700001012
S3.4.6、以同样的更新方式更新s2的父节点r的元数据,以及s2的子节点中评论时间早于s21的节点元数据,在子话题2中由于s2的子节点只包含s21,所有只用更新s2的父节点r的元数据;
S3.4.7、按节点出现的先后顺序以同样的更新方式更新完子话题中所有节点,得到更新后的子话题传播树;
S4、利用多分支注意力层自底向上地递归式提取子话题的表示向量;
针对动态图神经网络得到的子话题传播结构,本模块通过分支注意力模块自底向上地递归式提取子话题中包含的特征线索。多分支注意力模块是多头注意力模块的变形,提取查询矩阵、键矩阵、值矩阵的方式与多头注意力模块一致,其最大的区别在于为每个分支所得到的表示矩阵分配一个权重值。下面我们对具体过程进行描述,步骤如下:
S4.1、设步骤S2中共计拆分出2个子话题,第1个子话题传播树的叶子节点为{s11,s12},其中,{s11,s12}拥有共同的父节点s1,其节点表示分别为{u11,u12},节点s1的节点表示为u1,则得到包含父节点和对应子节点的子传播树用矩阵表示为
Figure BDA0003441781270000111
S4.2、利用n分支注意力层将矩阵U1先映射为查询矩阵
Figure BDA0003441781270000112
键矩阵
Figure BDA0003441781270000113
和值矩阵V1 j
Figure BDA0003441781270000114
其中,j∈[1,n]表示注意力层的第j个分支,
Figure BDA0003441781270000115
为第j个分支的权值矩阵;
S4.3、通过注意力机制提取各节点间的交互信息
Figure BDA0003441781270000116
Figure BDA0003441781270000117
S4.4、为各节点间的交互信息
Figure BDA0003441781270000118
增加权重;
Figure BDA0003441781270000119
其中,αj为第j个分支的权重值,
Figure BDA00034417812700001110
为第j个分支的交互信息的权重矩阵;
S4.5、对每个分支注意力层的交互信息
Figure BDA00034417812700001111
通过两个卷积层得到其高维表示:
Figure BDA00034417812700001112
其中,Conv(·)表示卷积层,ReLU(·)为激活函数;
S4.6、对每个分支的高维表示Pj按权重进行叠加,再通过最大池化层得到父节点s1的节点表示
Figure BDA00034417812700001113
Figure BDA00034417812700001114
Figure BDA00034417812700001115
其中,max-pooling表示最大池化层;λj为第j个分支的高维表示的权重值;Wu表示从分支注意力层到节点表示的映射矩阵;
S4.7、在子话题1中,由于所有的叶子节点是s1的子节点,所以此处直接通过S4.1-S4.6的方法得到父节点s1的节点表示,再通过父节点s1进一步得到祖先节点r的节点表示,子话题1传播树中r的节点表示作为子话题1的表示向量,记为v1
S4.8、同理,按照步骤S4.1-S4.7所述方法依次获取到子话题2的表示向量,记为v2
S5、谣言检测;
S5.1、将待验证的话题r表示为vr,对应的时间记为t0;待验证的话题拆分成2个子话题后,每个子话题的开始时间为一阶子节点出现的时间并按出现时间从小到大进行排序,记为t1,t2
S5.2、按时序信息融合待验证话题和所有子话题的特征表示,以获取整个传播树的最终表示;
hr,cr=Wh·vr,Wc·vr
h1,c1=Time-wareLSTM(hr,cr,v1,t1-t0)
h2,c2=Time-wareLSTM(h1,c1,v2,t2-t1)
其中,Wh,Wc为维度映射矩阵,hr,cr为待验证话题在Time-ware LSTM的隐层表示和单元表示,h1,c1为融合了待验证话题及子话题1特征的隐层表示和单元表示;h2,c2为融合了待验证话题,子话题1,子话题2特征的隐层表示和单元表示。
S5.3、将融合了待验证话题和2个子话题特征的隐层表示h2作为整棵传播树的最终表示,根据h2计算分类概率::
Figure BDA0003441781270000121
其中,Wt为权重矩阵,bt为偏置向量;
Figure BDA0003441781270000122
是一个1x3的向量,向量的第一列表示待验证话题为未定义谣言的概率,向量的第二列表示待验证话题为真谣言的概率,向量的第三列表示待验证话题为假谣言的概率,且这三种概率相加为1;
S5.4、在分类概率
Figure BDA0003441781270000123
中,取三种概率值中最大的一个所对应的类别,作为待验证话题的类别。
最后,我们在两个基准数据集PHEME5和SemEval-2017测试该方法的效果,从实验的效果可以可知,本专利提出的方法所获得的性能优于的基线方法。其中BOW-T表示用词袋模型提取特征进行分类;CNN-T表示用卷积神经网络提取特征进行分类;GRU-T表示用标准的递归神经网络提取时序信息进行分类;BU-TRANS和TD-TRANS分别采用自底向上和自顶向下两种方式并使用Transformer提取文本特征和融合节点间的特征,但并未考虑时序信息;StA-HiTPLAN+Time Delay默认节点间的层级关系不明确,所以使用Transformer直接融合所有节点的特征表示。PHEME5包含5个事件CH,FG,GC,OS,SS,其中CH-Fold表示以事件CH作为测试集,FG-Fold以事件FG作为测试集,GC-Fold以事件GC作为测试集,OS-Fold以事件OS作为测试集,SS-Fold以事件SS作为测试集。此外,我们采用ACC(正确率)和F1(F-Score)作为评价指标。
表1在数据集PHEME5上与基线方法的比较
Figure BDA0003441781270000131
从表1中可以得出,本专利提出的模型将所有事件的F1值的平均值提升到0.4,并且ACC也提升到0.554,超过所有基线方法。
表2在数据集SemEval-2017上与基线方法的比较
Figure BDA0003441781270000132
从表2中可以得出,本专利提出的模型将F1值上提升至0.666,ACC提升至0.679,超过所有基线方法。
从表1,表2中可以看出,本专利提出的方法在两个数据集上都取得了超过所有基线方法的表现,说明该方法的有效性。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种用于社交媒体上的谣言检测方法,其特征在于,包括以下步骤:
(1)、利用待验证的话题构建传播树;
将待验证的话题作为传播树的根节点,对话题的直接评论作为一阶子节点,对话题的评论的评论作为二阶子节点,然后以此类推,从而构建出传播树;
(2)、分话题;
将传播树按其一阶子节点拆分为多个子话题,每个子话题也是一个传播树,然后将待验证话题添加到每一个传播树中,作为每一个传播树的根节点,从而构建出多个子话题传播树;
(3)、利用动态图神经网络以节点流的方式更新各个子话题传播树;
(3.1)、将每一个子话题中的节点视为一个文字序列,记为si={w1,w2,…,wl,…,wL},wl表示第i个节点中第l个单词,L表示单词总数量;
(3.2)、利用动态图神经网络中的初始化单元将文字序列si初始化为文本特征矩阵,记为Si,Si的维度大小为L×d,d为单词对应的词向量维度;
(3.3)、利用动态图神经网络中的Transformer单元将文本特征矩阵Si映射为特征向量;
利用Transformer的n头注意力层将文本特征矩阵Si先映射为查询矩阵键矩阵和值矩阵Vi j
其中,j∈[1,n]表示第j个注意力头,为第j个注意力头的权值矩阵,其维度大小均为
然后通过注意力机制提取各个注意力头的交互信息
其中,表示第j个注意力头的维度,上标T表示转置;
最后将各个注意力头间的交互信息连接起来再通过前向反馈网络得到第i个节点的特征矩阵然后通过最大池化层从中提取显著信息,从而获得第i个节点的特征向量其维度大小为1×d;
(3.4)、利用动态图神经网络中的更新单元更新特征向量
(3.4.1)、设置元数据包含四个部分:父节点部分、子节点部分、节点表示和更新时间;
(3.4.2)、将特征向量更新为元数据其中,表示节点i作为父节点时的特征信息;为映射矩阵,用于将特征向量映射到父节点空间;表示节点i作为子节点时的特征信息;为映射矩阵,用于将特征向量映射到子节点空间;表示节点i的节点表示;为权值矩阵;ti为更新时间,初始化为节点i出现的时间,即节点i所代表的评论信息发布的时间;
(3.4.3)、根据评论关系在子传播树中搜索节点i的父节点,记为postp,并得到父节点的元数据
(3.4.4)、将节点i与其父节点postp的节点表示进行融合,得到此时的上下文表示:
其中,ReLU(·)为非线性激活函数,up是父节点postp的当前节点表示,ui是子节点i的当前节点表示,分别代表父节点和子节点的权重;
(3.4.5)、利用对时间敏感的长短期记忆网络Time-ware LSTM将此时的上下文表示e更新入节点i及其父节点postp的节点表示中;
e以及时间间隔Δt=ti-tp输入至Time-ware LSTM,更新节点i的父节点postp的元数据:
其中,表示父节点postp更新后的元数据中其作为父节点的特征信息,为权值矩阵,up(new)表示更新后的父节点postp的节点表示;
e以及时间间隔Δt=0输入至Time-ware LSTM,更新节点i的元数据:
其中,表示节点i更新后的元数据中其作为子节点的特征信息,表示权值矩阵,ui(new)表示更新后的节点i的节点表示;
更新完成后,节点i的元数据表示为:父节点postp的元数据表示为:
(3.4.6)、以同样的更新方式更新postp的父节点的元数据,以及postp的子节点中评论时间早于节点i的节点元数据;
(3.4.7)、按节点出现的先后顺序以同样的更新方式更新完子话题中所有节点,得到更新后的子话题传播树;
(4)、利用多分支注意力层自底向上地递归式提取子话题的表示向量;
(4.1)、设步骤(2)中共计拆分出N个子话题,第κ个子话题传播树的叶子节点为{κ12,…,κλ},其中,子节点拥有共同的父节点postp,其节点表示分别为p1~pλ∈[1,λ],父节点postp的节点表示为up,则得到包含父节点和对应子节点的子传播树用矩阵表示为
(4.2)、利用n分支注意力层将矩阵Up先映射为查询矩阵键矩阵和值矩阵
其中,j∈[1,n]表示注意力层的第j个分支,为第j个分支的权值矩阵;
(4.3)、通过注意力机制提取各节点间的交互信息
(4.4)、为各节点间的交互信息增加权重;
其中,αj为第j个分支的权重值,为第j个分支的交互信息的权重矩阵;
(4.5)、对每个分支注意力层的交互信息通过两个卷积层得到其高维表示:
其中,Conv(·)表示卷积层,ReLU(·)为激活函数;
(4.6)、对每个分支的高维表示Pj按权重进行叠加,再通过最大池化层得到父节点postp的节点表示
其中,max-pooling表示最大池化层;λj为第j个分支的高维表示的权重值;Wu表示从分支注意力层到节点表示的映射矩阵;
(4.7)、以此类推,通过叶子节点得到其父节点的节点表示,再通过父节点得到祖先节点的节点表示,递归式地自底向上,最终用根节点的节点表示作为第κ个子话题的表示向量,记为vκ
(4.8)、同理,按照步骤(4.1)-(4.7)所述方法依次获取到N个子话题的表示向量,记为v1,v2,…,vκ,…vN
(5)、谣言检测;
(5.1)、将待验证的话题表示为vr,对应的时间记为t0;待验证的话题拆分成N个子话题后,每个子话题的开始时间为一阶子节点出现的时间并按出现时间从小到大进行排序,记为t1,t2,…,tκ,…,tN
(5.2)、按时序信息融合待验证话题和所有子话题的特征表示,以获取整个传播树的最终表示;
其中Wh,Wc为维度映射矩阵,hr,cr为待验证话题在Time-ware LSTM的隐层表示和单元表示,hκ,cκ为融合了待验证话题及前κ个子话题特征的隐层表示和单元表示;
(5.3)、将融合了待验证话题和N个子话题特征的隐层表示hN作为整棵传播树的最终表示,根据hN计算分类概率:
其中,Wt为权重矩阵,bt为偏置向量;是一个1x3的向量,向量的第一列表示待验证话题为未定义谣言的概率,向量的第二列表示待验证话题为真谣言的概率,向量的第三列表示待验证话题为假谣言的概率,且这三种概率相加为1;
(5.4)、在分类概率中,取三种概率值中最大的一个所对应的类别,作为待验证话题的类别。
CN202111635127.7A 2021-12-29 2021-12-29 一种用于社交媒体上的谣言检测方法 Active CN114330337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111635127.7A CN114330337B (zh) 2021-12-29 2021-12-29 一种用于社交媒体上的谣言检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111635127.7A CN114330337B (zh) 2021-12-29 2021-12-29 一种用于社交媒体上的谣言检测方法

Publications (2)

Publication Number Publication Date
CN114330337A CN114330337A (zh) 2022-04-12
CN114330337B true CN114330337B (zh) 2023-04-07

Family

ID=81016157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111635127.7A Active CN114330337B (zh) 2021-12-29 2021-12-29 一种用于社交媒体上的谣言检测方法

Country Status (1)

Country Link
CN (1) CN114330337B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182387A (zh) * 2020-09-29 2021-01-05 中国人民大学 一种时间信息增强的个性化搜索算法
CN112256981A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于线性和非线性传播的谣言检测方法
CN112270174A (zh) * 2020-11-10 2021-01-26 清华大学深圳国际研究生院 一种谣言检测方法及计算机可读存储介质
CN112732906A (zh) * 2020-12-21 2021-04-30 中国人民解放军国防科技大学 一种基于传播图神经网络的互联网谣言检测方法
CN113268675A (zh) * 2021-05-19 2021-08-17 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN113515634A (zh) * 2021-07-09 2021-10-19 福州大学 基于分层异质图神经网络的社交媒体谣言检测方法及系统
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494446B2 (en) * 2019-09-23 2022-11-08 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182387A (zh) * 2020-09-29 2021-01-05 中国人民大学 一种时间信息增强的个性化搜索算法
CN112270174A (zh) * 2020-11-10 2021-01-26 清华大学深圳国际研究生院 一种谣言检测方法及计算机可读存储介质
CN112256981A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于线性和非线性传播的谣言检测方法
CN112732906A (zh) * 2020-12-21 2021-04-30 中国人民解放军国防科技大学 一种基于传播图神经网络的互联网谣言检测方法
CN113268675A (zh) * 2021-05-19 2021-08-17 湖南大学 一种基于图注意力网络的社交媒体谣言检测方法和系统
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113515634A (zh) * 2021-07-09 2021-10-19 福州大学 基于分层异质图神经网络的社交媒体谣言检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jing Ma 等.Improving Rumor Detection by Promoting Information Campaigns with Transformer-Based Generative Adversarial Learning.《IEEE Transactions On Knowledge and Data Engineering》.2021,第35卷(第35期),第2657-2670页. *
ZHIRUI LUO 等.Deep Feature Fusion for Rumor Detection on Twitter.《IEEE Access》.2021,第1-10页. *
李奥 ; 但志平 ; 董方敏 ; 刘龙文 ; 冯阳 ; .基于改进生成对抗网络的谣言检测方法.中文信息学报.2020,(第09期),第78-88页. *
胡斗 等.一种基于多关系传播树的谣言检测方法.《计算机研究与发展》.2021,第78-88页. *

Also Published As

Publication number Publication date
CN114330337A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
Bansal et al. Structured learning for taxonomy induction with belief propagation
CN104834679B (zh) 一种行为轨迹的表示、查询方法及装置
CN106663117A (zh) 构造支持提供探索性建议的图
CN109726274A (zh) 问题生成方法、装置及存储介质
CN104699767B (zh) 一种面向中文语言的大规模本体映射方法
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
CN112417100A (zh) 辽代历史文化领域知识图谱及其智能问答系统的构建方法
CN114462384B (zh) 一种面向数字对象建模的元数据自动生成装置
CN111797222A (zh) 课程知识图谱构建方法、装置、终端及存储介质
CN112214661B (zh) 一种面向视频常规评论的情感不稳定用户检测方法
CN113434684B (zh) 自监督学习的谣言检测方法、系统、设备及存储介质
CN111460145A (zh) 一种学习资源推荐方法、设备及存储介质
CN110110218B (zh) 一种身份关联方法及终端
CN115640462A (zh) 一种基于知识库增强的跨域新闻推荐方法
Lin et al. NL2API: A framework for bootstrapping service recommendation using natural language queries
Calegari et al. Object‐fuzzy concept network: An enrichment of ontologies in semantic information retrieval
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
CN114330337B (zh) 一种用于社交媒体上的谣言检测方法
CN114708114A (zh) 一种基于特征评价及改进算法的社交机器人账号检测方法
CN110765108A (zh) 一种基于群智数据融合的假消息早期检测方法
CN101452462A (zh) 用于自动建立网络上信息对象之间层次结构的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant