CN112256945A

CN112256945A - 一种基于深度神经网络的社交网络粤语谣言检测方法

Info

Publication number: CN112256945A
Application number: CN202011233016.9A
Authority: CN
Inventors: 王海舟; 陈欣雨; 柯亮; 苏涵键; 卢志鹏
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-01-22
Anticipated expiration: 2040-11-06
Also published as: CN112256945B

Abstract

本发明公开了一种基于深度神经网络的社交网络粤语谣言检测方法，首先有针对性地采集了目标社交网络平台上的粤语微博文数据，并严格地进行了人工标注，从而构建了一个较为完善的粤语谣言数据集；接着针对微博文提取了27个统计特征；最后，本发明提出了一个粤语谣言检测模型BLA，该模型结合了BERT、Bi‑LSTM和注意力机制，并融合提取的统计特征实现了对粤语谣言的分类检测。实验评估结果表明本发明在粤语谣言检测问题上的表现优于其他的检测方法，同时本发明为将来的粤语谣言检测提供了方法和思路。

Description

一种基于深度神经网络的社交网络粤语谣言检测方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于深度神经网络的社交网络粤语谣言检测方法的设计。

背景技术

信息技术和移动互联网的发展催生了社交网络行业的繁荣。社交网络的出现使得大众成为了独立的信息源，由信息的消费者变为了信息的生产者。人们热衷于在网上发表言论，对现实生活中发生的热点事件作出评论，表达自己的立场和观点。

然而，高速的信息传播是一把双刃剑，谣言同样可以借助网络的便利快速传播开来，造成比以往更严重的影响，甚至在现实中引发动乱。网络谣言在现实和网络中都具有巨大的影响力，若不加以监管和控制，很有可能造成人员财产损失和社会秩序混乱，甚至威胁国家安全。因此，现在亟需一个新的方法来更加智能、快速地识别出社交网络中的谣言，增强人们对网络谣言的掌控能力。

粤语作为汉语的分支，其不仅在中国境内的广东、香港、澳门等地区盛行，也在海外的华人区中广泛分布。目前已经有很多面向社交网络平台的谣言检测工作，然而很少有人研究社交网络中的粤语谣言检测问题，并且针对粤语的自然语言处理技术也不够成熟，这也为粤语谣言的检测带来了挑战。

发明内容

本发明的目的是为了解决现有技术中缺少对社交网络中粤语谣言检测的研究的问题，提出了一种基于深度神经网络的社交网络粤语谣言检测方法。

本发明的技术方案为：一种基于深度神经网络的社交网络粤语谣言检测方法，包括以下步骤：

S1、采用基于Scrapy框架的Web爬虫针对性地获取目标社交网络平台上的粤语微博文数据，并对其进行人工标注，构建包括谣言数据和非谣言数据的粤语谣言数据集。

S2、对粤语谣言数据集中的谣言数据和非谣言数据进行分析，提取得到统计特征。

S3、利用BERT、Bi-LSTM和注意力机制构建基于多特征融合的BLA深度学习模型，并将预处理后的微博文文本和提取到的统计特征输入BLA深度学习模型，输出得到目标社交网络平台上的粤语谣言检测结果。

进一步地，步骤S1中的基于Scrapy框架的Web爬虫包括代理池、请求器、处理器和数据库；代理池用于实现高并行的数据爬取；请求器的任务包括对Token的请求和对数据的请求，对Token的请求用于获取请求数据所需的对应数量的凭据，对数据的请求用于根据要求使用Token获取数据；处理器用于将爬取到的原始数据进行预处理和特征提取，并将处理后的数据存入数据库中；数据库包括Token数据库和社交网络数据库，Token数据库用于根据爬虫运行的效率需求存储对应数量的Token，社交网络数据库用于存储经过处理器处理的社交网络数据。

进一步地，步骤S1中通过以下两种方式针对性地获取目标社交网络平台上的粤语微博文数据：

(1)以两个官方媒体的报导内容为事实基础，构建出事件的关键词，并在目标社交网络平台上进行搜索。

(2)获取曾经发布过粤语谣言的用户的历史博文作为数据标注的对象。

进一步地，步骤S2中提取得到的统计特征包括用户特征、内容特征、传播特征和评论特征。

进一步地，用户特征包括粉丝数-关注数比例β_FFR、每日发博数β_TPD、列表数β_LC、用户点赞数β_ULC、发博数β_TC、媒体文件数β_MC、是否被禁用特征β_NFS、综合特征β_CL、账户注册时长β_AG、是否被认证特征β_V、是否包含个人描述特征β_HD、是否包含位置特征β_HL和是否是默认主页特征β_DP。

粉丝数-关注数比例β_FFR表示用户的粉丝数量与关注数量的比例，其计算公式为：

其中α表示用户的粉丝数量，δ表示用户的关注数量，如果β_FFR<1则表示该用户为普通用户，如果β_FFR≥1则表示该用户为一个有影响力的用户，且如果β_FFR>2则表示该用户是一个有高影响力的用户，如果β_FFR>10则表示该用户是知名人物或知名机构。

每日发博数β_TPD表示用户平均每日发布微博文的数量，其计算公式为：

列表数β_LC表示用户参与的公开列表数量。

用户点赞数β_ULC表示自账户注册以来用户点赞的微博文数量。

发博数β_TC表示用户发布或转发的微博文总数。

媒体文件数β_MC表示用户发布的多媒体文件总数。

是否被禁用特征β_NFS表示用户的账户是否被目标社交网络平台禁用，β_NFS＝1表示用户被封禁，反之β_NFS＝0表示用户未被封禁。

综合特征β_CL表示用户的综合特征，其计算公式为：

其中w_i表示第i个用户特征的权重，c_i表示第i个用户特征的值，N表示用户特征的数量。

账户注册时长β_AG表示用户的账户注册时间与现在的时间间隔。

是否被认证特征β_V表示用户是否被目标社交网络平台认证，β_V＝1表示用户已通过目标社交网络平台的认证，β_V＝0表示用户未通过目标社交网络平台的认证。

是否包含个人描述特征β_HD表示用户的个人主页中是否包含个人描述，β_HD＝1表示用户填写了个人描述，β_HD＝0表示用户未填写个人描述。

是否包含位置特征β_HL表示用户的个人主页中是否包含位置信息，β_HL＝1表示用户填写了位置信息，β_HL＝0表示用户未填写位置信息。

是否是默认主页特征β_DP表示用户是否更改过个人主页的默认主题或背景，β_DP＝1表示用户使用的是默认主页，β_DP＝0表示用户更改过个人主页。

进一步地，内容特征包括博文长度γ_TL、情感值γ_S、命名实体数γ_NC、是否包含URL特征γ_HU、“？”和“！”比例γ_QMEMR、是否包含媒体文件特征γ_HM、发博-注册时间γ_TRT、“#”数量γ_HC、是否包含“@”特征γ_HA；

博文长度γ_TL表示微博文包含的字符数量；

情感值γ_S表示微博文的情感值；

命名实体数γ_NC表示微博文中包含的命名实体数量；

是否包含URL特征γ_HU表示微博文中是否包含URL，γ_HU＝1表示微博文中包含URL，γ_HU＝0表示微博文中不包含URL；

“？”和“！”比例γ_QMEMR表示微博文中的“？”和“！”的数量占所有标点符号数量的比例；

是否包含媒体文件特征γ_HM表示微博文中是否包含媒体文件，γ_HM＝1表示微博文中包含媒体文件，γ_HM＝0表示微博文中不包含媒体文件；

发博-注册时间γ_TRT表示微博文的发布时间与账户注册时间之间的间隔；

“#”数量γ_HC表示微博文中包含的标签数量；

是否包含“@”特征γ_HA表示微博文中是否包含“@”，即是否提及了其他用户，γ_HA＝1表示微博文中提及了其他用户，γ_HA＝0表示微博文中未提及其他用户。

进一步地，传播特征包括点赞数δ_FC、转发数δ_RC和评论数δ_CC。

点赞数δ_FC表示微博文获得的点赞数量。

转发数δ_RC表示微博文获得的转发数量。

评论数δ_CC表示微博文获得的评论数量。

进一步地，评论特征包括发博-评论时间φ_TCT和负面评论比例φ_NCR。

发博-评论时间φ_TCT表示微博文发布时间与评论时间之间的间隔，其计算公式为：

其中n表示评论的数量，t_i表示第i条评论的发布时间，t₀表示评论所属博文的发布时间。

负面评论比例φ_NCR表示带有负面情感极性的评论占所有评论的比例，其计算公式为：

其中r_i为第i条评论的情感类别，r_i＝0表示评论的情感为正向，r_i＝1表示评论的情感为负向，s_i表示情感分析结果参数positive_prob的值。

进一步地，步骤S3中构建的基于多特征融合的BLA深度学习模型包括依次连接的输入层、特征提取层、特征拼接层、注意力层和输出层。

输入层输入预处理后的微博文文本和提取到的统计特征，单条预处理后的微博文文本表示为I＝{I₁,I₂,...,I_n}，n为设置的最大博文长度。

特征提取层包括语义特征提取模块和统计特征提取模块。

语义特征提取模块采用BERT模型作为文本词嵌入提取器，将单条预处理后的微博文文本I＝{I₁,I₂,...,I_n}作为输入进行词嵌入提取，得到词嵌入语义特征W＝{W₁,W₂,...,W_n}，词嵌入语义特征W中每个元素W_i均为768维的向量，且词嵌入语义特征W表示为：

W＝BERT(I')

I'＝Tokenize(I)

语义特征提取模块将提取得到的词嵌入语义特征W＝{W₁,W₂,...,W_n}输入Bi-LSTM网络中，通过其记忆功能进一步学习微博文的上下文特征，输出得到一维的语义特征向量H＝{h₁,h₂,...,h_k}，k为Bi-LSTM网络中隐含节点的个数，语义特征向量H中的元素h_i的计算公式为：

其中LSTM(·)表示LSTM网络函数，

表示LSTM网络第i-1个状态产生的后向隐含向量，

表示LSTM网络第i+1个状态产生的前向隐含向量，

和

分别表示LSTM网络第i个状态产生的后向隐含向量和前向隐含向量，

表示向量拼接。

统计特征提取模块将提取到的统计特征进行归一化处理后，经过BP神经网络的全连接层映射成和语义特征向量具有相同维度的统计特征向量S：

S＝f(w_s·f_s'+b_s)

f_s'＝NORMALIZE(f_s)

其中f_u表示用户特征，f_c表示内容特征，f_p表示传播特征，f_r表示评论特征，f_s表示统计特征，NORMALIZE(·)表示归一化函数，f_s'表示归一化后的统计特征，f(·)表示激活函数，w_s表示训练好的检测模型中的权重矩阵，b_s表示训练好的检测模型中的偏置项。

特征拼接层通过Keras拼接技术将语义特征向量H和统计特征向量S拼接得到拼接向量F＝{F₁,F₂,...,F₃₀₀}：

注意力层使用注意力机制为不同重要性的特征F_i赋予不同的权重，其表示为：

u_i＝tanh(w_w·F_i+b_w)

其中F_E表示最终判断博文是否为谣言的向量，α_i为拼接向量F中第i个特征F_i的权重，其由Softmax函数实现，u_i为特征F_i的中间隐藏层向量，u_w为一个随机初始化的向量，w_w和b_w分别表示F_i的中间隐藏层的权重矩阵和偏置项。

输出层通过Sigmoid函数对最终判断博文是否为谣言的向量F_E进行处理，得到目标社交网络平台上的粤语谣言检测结果p_d：

p_d＝sigmoid(F_E)

其中sigmoid(·)表示Sigmoid函数，p_d＝0表示检测结果为非谣言，p_d＝1表示检测结果为谣言。

进一步地，BLA深度学习模型的优化目标为最小化交叉熵损失函数L，其表示为：

其中d表示样本，D表示样本数据集，y_d表示样本的真实值，p_d为样本的预测值，即目标社交网络平台上的粤语谣言检测结果。

本发明的有益效果是：

(1)本发明提取了用户特征、内容特征、传播特征和评论特征这四种类别的统计特征，能够从多个角度提升谣言鉴别及检测的效果。

(2)本发明在BLA深度学习模型中BERT模型作为微博文的词嵌入提取器，其作为上下文相关的词嵌入模型，能够基于词的上下文捕获单词的正确含义，在准确率、精确率、召回率和F1值等指标上都明显优于上下文无关的词嵌入模型(如fastText和Word2vec)；同时，相较于同为上下文相关的词嵌入模型的ELMo，BERT模型中使用了Transformer作为特征抽取器，相较于ELMo使用的LSTM来说，Transformer在语义特征的提取能力上有更为明显的优势。

(3)本发明提出的BLA深度学习模型结合了BERT词嵌入提取、Bi-LSTM网络的使用、注意力机制的引入以及与统计特征向量的融合，其都对最终的谣言检测结果有一定的提升作用，因此本发明在粤语谣言检测问题上的表现优于其他的检测方法，同时本发明为将来的粤语谣言检测提供了方法和思路。

附图说明

图1所示为本发明实施例提供的一种基于深度神经网络的社交网络粤语谣言检测方法流程图。

图2所示为本发明实施例提供的BLA深度学习模型结构示意图。

图3所示为本发明实验例1提供的特征消融结果对比示意图。

图4所示为本发明实验例2提供的不同词嵌入模型的表现对比图。

图5所示为本发明实验例3提供的不同的检测模型和BLA深度学习模型的表现对比图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于深度神经网络的社交网络粤语谣言检测方法，如图1所示，包括以下步骤S1～S3：

本发明实施例中，基于Scrapy框架的Web爬虫包括代理池、请求器、处理器和数据库。

其中，代理池用于实现高并行的数据爬取。社交网络平台对单个IP的访问频率设置了限制，因此为了实现高并行的数据爬取，使用代理池可以提高并发性和爬虫效率。

请求器的任务包括对Token的请求和对数据的请求，对Token的请求用于获取请求数据所需的对应数量的凭据，对数据的请求用于根据要求使用Token获取数据。

处理器用于将爬取到的原始数据进行预处理和特征提取，并将处理后的数据存入数据库中。

数据库包括Token数据库和社交网络数据库，Token数据库用于根据爬虫运行的效率需求存储对应数量的Token，社交网络数据库用于存储经过处理器处理的社交网络数据。

本发明实施例中，数据收集时间为2020年2月24日～2020年4月5日，通过以下两种方式针对性地获取目标社交网络平台上的粤语微博文数据：

(1)以两个官方媒体的报导内容(“香港政府新闻网”和“香港警务处”的“澄清”栏目)为事实基础，构建出事件的关键词，并在目标社交网络平台上进行搜索。这种方式采集到的谣言数量很多，且具有相对应的事实依据，便于标注。

(2)由于曾经发布过粤语谣言的用户发布的博文为谣言的概率比其他用户更大，因此本发明实施例获取曾经发布过粤语谣言的用户的历史博文作为数据标注的对象，有助于扩展谣言数据集的规模。

本发明实施例中，获取的粤语微博文数据包括微博文文本、博文评论及用户信息。

本发明实施例中，在数据标注方面，首先寻求了可靠的标注依据，即以以上提到的两个官方媒体发布的内容为主题对采集到的事件级博文进行筛选。若主题相关，则根据博文表述的立场来标注，若无关，则继续寻求权威性的解答。本发明实施例对缺乏事实基础、无法判别是否为谣言的博文数据进行了过滤。其次，在数据标注过程中，本发明实施例要求两名标注者独立浏览数据集中的所有博文，并消除与以上两个来源的报导内容无关的数据，从而确保数据标注结果的可靠性。最终，本发明实施例通过计算kappa系数来评估标注者之间的一致性。kappa系数K定义为：

其中P(A)表示评估者之间观察的相对一致性，P(E)表示机会一致性的假设概率，使用观察数据来计算每个观察者随机看到每个类别的概率；

A为第一个标注者标注的博文集合，B为第二个标注者标注的博文集合，C为第一个标注者无法确定是否为谣言的博文集合，D为第二个标注者无法确定是否为谣言的博文集合，E为所有采集到的博文集合，|·|表示一个集合的大小。本发明实施例中，kappa系数K＝0.93，表明标注者可以在识别谣言方面达成高度的共识，从而确保了数据标注结果的可靠性。

最终，本发明实施例构建了一个粤语谣言数据集(CanRum)，其描述如表1所示。

表1粤语谣言数据集(CanRum)描述

	微博文数量	用户数量	评论数量
				谣言	14,093	9,071	11,713
非谣言	12,106	8,631	9,836
				总计	26,199	17,702	21,549

本发明实施例中，统计特征包括用户特征、内容特征、传播特征和评论特征。

用户特征是从用户的个人主页数据中提取出来的，这些特征能够基于发布用户的基础信息和行为来判别微博文是否是谣言。本发明实施例中，用户特征包括粉丝数-关注数比例β_FFR、每日发博数β_TPD、列表数β_LC、用户点赞数β_ULC、发博数β_TC、媒体文件数β_MC、是否被禁用特征β_NFS、综合特征β_CL、账户注册时长β_AG、是否被认证特征β_V、是否包含个人描述特征β_HD、是否包含位置特征β_HL和是否是默认主页特征β_DP。

(1)粉丝数-关注数比例β_FFR表示用户的粉丝数量与关注数量的比例。“粉丝”指关注某个特定用户的人，“关注”指某个特定用户关注的人。这一特征可以用来衡量用户在目标社交网络中的影响力大小。研究显示，由于人们更倾向于相信那些在社交网络中具备高影响力的用户的言论，并且会在忽略言论本身真实性的情况下将它传播出去，因此谣言的制造者往往是那些具备很高的“粉丝数-关注数比例”的用户(β_FFR特征值大部分超过10)，他们发布在社交平台的谣言更容易被快速而广泛地传播开来。粉丝数-关注数比例的计算公式为：

(2)每日发博数β_TPD表示用户平均每日发布微博文的数量，这一特征指用户平均每天发布微博文的数量。不同于正常用户倾向于与他们的朋友分享信息，社交网络中的谣言制造者的目的是传播虚假信息，因此他们会尽可能多地发布谣言来达到这一目的。这就导致了粤语谣言制造者的“每日发博数”的特征值会远超于正常用户，其计算公式为：

(3)列表数β_LC表示用户参与的公开列表数量。目标社交网络提供的列表功能能够将用户的粉丝、关注、兴趣、标签等有效地组织起来。这一特征是由目标社交网络提供的，主要用于帮助用户关注其感兴趣的重要内容。不同于正常用户会关注多个领域的信息，粤语谣言制造者的本质目的是散布不实的信息，这导致了他们往往不会对其他领域的内容感兴趣，因此他们参与的公开列表数少于正常用户，由此本发明实施例将“列表数”作为鉴别谣言的特征之一。

(4)用户点赞数β_ULC表示自账户注册以来用户点赞的微博文数量。

(5)发博数β_TC表示用户发布或转发的微博文总数。

(6)媒体文件数β_MC表示用户发布的多媒体文件总数。目标社交网络平台上的多媒体文件包括图片和视频。这一特征是由目标社交网络提供的，且研究显示造谣者往往会倾向于在博文中附上恶意剪辑或断章取义的多媒体文件，试图为其发布的谣言内容进行佐证，从而诱导用户相信其言论。

(7)是否被禁用特征β_NFS表示用户的账户是否被目标社交网络平台禁用，目标社交网络平台账户被封禁的原因多为发送垃圾邮件、安全风险较大以及滥发微博文等。由此可见，账户被封禁的主要原因是其违反了该平台的相关规定，并且研究发现此类用户发布谣言的概率更高。β_NFS＝1表示用户被封禁，反之β_NFS＝0表示用户未被封禁。

(8)综合特征β_CL表示用户的综合特征，研究发现已被封禁的用户发布的谣言概率更大，但相比于正常用户，已被封禁的用户无法获取其相关信息作为特征，用户特征为空(除“是否被禁用”这一项)。因此，为了平衡这一差异，本发明实施例为各项用户特征赋予不同的权重，尤其对“是否被禁用”这一特征加以强调，综合特征的计算公式为：

(9)账户注册时长β_AG表示用户的账户注册时间与现在的时间间隔，这一特征用来判断用户是否是近期才注册的。研究显示，谣言制造者的账户注册时长往往短于正常用户，这是由于谣言制造者倾向于不断注册新的账号，并使用多个不同的账号来发表不实言论，从而既达到了扩散谣言的目的，又解决了账户被禁用的问题。因此，本发明实施例通过计算“账户注册时长”来识别潜在的谣言。

(10)是否被认证特征β_V表示用户是否被目标社交网络平台认证，这一特征用来检查用户是否已通过目标社交网络平台的认证。被认证的账户会在个人主页里展示蓝色的徽章，从而来证明账户是真实的。研究显示，被认证的用户发表的言论真实性高于一般用户。因此，本发明实施例将这一特征作为识别谣言的特征之一。β_V＝1表示用户已通过目标社交网络平台的认证，β_V＝0表示用户未通过目标社交网络平台的认证。

(11)是否包含个人描述特征β_HD表示用户的个人主页中是否包含个人描述，这一特征指用户的个人主页中是否包含个人描述。个人描述用来展示用户的爱好、身份、政治态度等基本信息，因此正常用户往往会认真填写个人描述来吸引有共同特点的用户，从而获得更多自己感兴趣的领域的信息。而谣言制造者的主要目的仅仅是发表并传播谣言，因此他们往往不会填写个人描述。β_HD＝1表示用户填写了个人描述，β_HD＝0表示用户未填写个人描述。

(12)是否包含位置特征β_HL表示用户的个人主页中是否包含位置信息，β_HL＝1表示用户填写了位置信息，β_HL＝0表示用户未填写位置信息。

(13)是否是默认主页特征β_DP表示用户是否更改过个人主页的默认主题或背景，这一特征指用户是否更改了个人主页的默认主题或背景。用户可以自行设置自己的个人主页。正常用户具有结交朋友、构建社交网络的需求，因此他们往往会设置个人主页的主题和背景。而谣言制造者很少会修改平台的默认设置，他们的个人主页信息也更加不完善。β_DP＝1表示用户使用的是默认主页，β_DP＝0表示用户更改过个人主页。

相比于正常言论，谣言往往更具煽动性和蛊惑性。因此，谣言的情感极性往往倾向于负面。具体来说，谣言的语气总是较为强烈，且对标点符号的使用频率也更加频繁，尤其是“！”。此外，谣言制造者也倾向于在微博文中使用更多的“@”、URL、多媒体文件等来提高其言论的可靠性。因此本发明实施例中的统计特征包括了内容特征，内容特征包括博文长度γ_TL、情感值γ_S、命名实体数γ_NC、是否包含URL特征γ_HU、“？”和“！”比例γ_QMEMR、是否包含媒体文件特征γ_HM、发博-注册时间γ_TRT、“#”数量γ_HC、是否包含“@”特征γ_HA。

(1)博文长度γ_TL表示微博文包含的字符数量。

(2)情感值γ_S表示微博文的情感值。情感特征对于谣言检测的结果是非常重要的。谣言制造者的主要目的是使得谣言在社交网络中广泛传播，因此他们在编造谣言时会刻意地夸大甚至颠倒事实，从而吸引用户的眼球，蛊惑人心，并煽动不良情绪，这就导致谣言的情感极性往往倾向于负面。

(3)命名实体数γ_NC表示微博文中包含的命名实体数量。命名实体识别指识别序列中的人名、地名、组织机构名等实体的数量。命名实体的数量是可用于识别谣言的特征之一。本发明实施例中使用Bi-LSTM-CRF(Conditional Random Field，条件随机场)模型进行命名实体识别。

(4)是否包含URL特征γ_HU表示微博文中是否包含URL，在社交网络中，URL与信息的传输关系密切。在微博文中添加URL链接可以为文字内容提供出处或佐证。谣言制造者往往会在谣言博文中添加URL链接，它会将用户重定向至一个包含相关谣言内容的页面，从而使谣言博文看起来更具备真实性，提高它的可信度。因此，本发明实施例通过识别以“http://”或“https://”开头的有效URL字符来判别博文中包含URL。γ_HU＝1表示微博文中包含URL，γ_HU＝0表示微博文中不包含URL。

(5)“？”和“！”比例γ_QMEMR表示微博文中的“？”和“！”的数量占所有标点符号数量的比例。微博文的情感能够代表用户的态度，这对谣言检测结果是很重要的，尤其当情感为疑惑或惊讶时，博文是谣言的概率很高。因此，本发明实施例计算了博文中“？”和“！”在所有标点符号中的占比，并将其作为判别谣言的特征之一。

(6)是否包含媒体文件特征γ_HM表示微博文中是否包含媒体文件，γ_HM＝1表示微博文中包含媒体文件，γ_HM＝0表示微博文中不包含媒体文件。

(7)发博-注册时间γ_TRT表示微博文的发布时间与账户注册时间之间的间隔。

(8)“#”数量γ_HC表示微博文中包含的标签数量。在目标社交网络平台上，用户可以借助新闻标签来分享微博文。新闻标签指的是一个关键词或短语，用来描述特定的主题或事件。标签在博文中会自动变成一个可点击的链接，点击它可以发现与该主题相关的其他博文。在博文中添加标签可以帮助用户迅速从大量的信息中找出特定的话题内容，也十分有助于博文的传播和扩散。因此，谣言制造者往往会在谣言博文中多次使用标签，以此来实现谣言的传播。

(9)是否包含“@”特征γ_HA表示微博文中是否包含“@”，即是否提及了其他用户，γ_HA＝1表示微博文中提及了其他用户，γ_HA＝0表示微博文中未提及其他用户。

微博文的传播特征考虑了与谣言传播有关的属性，例如是否为转发、评论数量、点赞数量等，能够反映言论的热度及传播模式。本发明实施例中，传播特征包括点赞数δ_FC、转发数δ_RC和评论数δ_CC。

点赞数δ_FC表示微博文获得的点赞数量，转发数δ_RC表示微博文获得的转发数量，评论数δ_CC表示微博文获得的评论数量。目标社交网络平台允许用户对博文进行评论和转发，而这两种行为能够反映用户对某条博文的关注度和态度。尽管谣言的真实性和来源都不可靠，但它们往往与热门话题相关，因此能够吸引更多用户的关注。因此，在一般情况下，谣言博文的转发数和评论数都会高于真实言论。

微博文评论的情况能够反映大众对于一条言论的态度及立场，因此评论特征可以用来帮助识别谣言。本发明实施例中，评论特征包括发博-评论时间φ_TCT和负面评论比例φ_NCR。

(1)发博-评论时间φ_TCT表示微博文发布时间与评论时间之间的间隔，经过一系列的研究发现谣言的内容往往与热点话题或事件有关。因此，相比于正常言论，谣言发布后往往会在更短的时间间隔内获得评论。本发明实施例将微博文下的平均评论时间作为判别谣言的重要特征，其计算公式为：

(2)负面评论比例φ_NCR表示带有负面情感极性的评论占所有评论的比例，评论的情感倾向往往能体现人们对某条言论的态度。相比于真实的言论，谣言更易受到质疑，因此谣言博文下的评论的情感极性更倾向于负面。由于一条微博文可能存在多条评论，因此本发明实施例通过计算评论的负向情感比例值来反映人们对某条博文的总体情感倾向，其计算公式为：

其中r_i为第i条评论的情感类别，r_i＝0表示评论的情感为正向，r_i＝1表示评论的情感为负向，本发明实施例调用了百度API对评论进行了情感分析，s_i的值等于结果参数positive_prob的值，即情感属于积极类别的概率。由于本发明实施例中只将评论的情感类别划分为正向和负向，而positive_prob∈[0,1]，因此将s_i∈[0.5,1]的评论的情感类别判定为正向，s_i∈[0,0.5)的评论的情感类别判定为负向。

S3、利用BERT(Bidirectional Encoder Representation from Transformers，基于Transformer的双向编码器表示)、Bi-LSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)和注意力机制构建基于多特征融合的BLA(namely BERT-based Bi-LSTM network with Attention mechanism)深度学习模型，并将预处理后的微博文文本和提取到的统计特征输入BLA深度学习模型，输出得到目标社交网络平台上的粤语谣言检测结果。

如图2所示，基于多特征融合的BLA深度学习模型包括依次连接的输入层、特征提取层、特征拼接层、注意力层和输出层。

(1)如图2所示，输入层输入预处理后的微博文文本和提取到的统计特征，单条预处理后的微博文文本表示为I＝{I₁,I₂,...,I_n}，n为设置的最大博文长度。

本发明实施例中，博文预处理包括去除网页链接、异国文字等措施。预处理后的I包含n个字，n为设置的max_seq_len最大博文长度，超过n字舍去，不足则补0。由于较长的序列意味着较慢的速度和更多的内存溢出机会，因为多头自注意机制(BERT的核心单元)需要在序列中每两个符号之间进行点积和矩阵乘法。本发明实施例结合实验环境和所收集数据集的实际情况，选取128作为max_seq_len的取值，以此覆盖85％的博文长度。

预处理后的微博文文本将会投入到“词嵌入”模块中用来提取上下文相关的词嵌入特征，而第二部分对爬取到的微博文信息进行处理，并提取包括内容特征、用户特征、传播特征、评论特征在内的四类统计特征，这部分输入将会经过BP神经网络学习训练后映射为与语义特征相同的维度。

(2)如图2所示，特征提取层包括语义特征提取模块和统计特征提取模块。

在语义特征提取模块中，使用了调优后的BERT模型作为文本词嵌入提取器。Google BERT预训练模型的提出极大地促进了NLP(Natural Language Processing，自然语言处理)领域的发展，在多项NLP任务中取得了卓越的表现。本发明实施例使用的是Google发布的bert-base-chinese模型，包含12-layer、768-hidden、12-heads。它接受一系列不断向上移动的单词作为输入，每一层都运用了自注意力机制，并将其结果通过前馈网络进行传递，然后将其交给下一个编码器。目前，在基于深度学习的谣言检测算法中，提取文本内容的语义特征通常使用的是Word2Vec等词嵌入模型。与这类的模型相比，BERT提供了一个优势，即生成的词向量是上下文相关的。上下文相关的词嵌入能捕获其他形式的信息，这些信息可以产生更精确的特征表示，从而提高谣言检测模型的性能。

具体而言，语义特征提取模块采用BERT模型作为文本词嵌入提取器，将单条预处理后的微博文文本I＝{I₁,I₂,...,I_n}作为输入进行词嵌入提取，得到词嵌入语义特征W＝{W₁,W₂,...,W_n}，词嵌入语义特征W中每个元素W_i均为768维的向量，且词嵌入语义特征W表示为：

W＝BERT(I')

I'＝Tokenize(I)

其中BERT(·)表示BERT模型，Tokenize(·)表示BERT模型中生成Tokenizer的函数，I'表示微博文文本I经过Tokenize(·)函数生成的Tokenizer。

在BERT提取出的词嵌入中，博文的每个字都被映射成了768维的向量，这样的词嵌入特征将作为输入投入到Bi-LSTM网络中。Bi-LSTM网络具有记忆功能，不仅能利用过去的信息，还能捕捉到后续的信息。比如在词性标注问题中，一个词的词性由上下文的词所决定，那么用Bi-LSTM就可以利用好上下文的信息，谣言检测问题也是同理。模型中采用Bi-LSTM对微博文文本进行进一步的特征提取，一是为了避免在长博文中存在的梯度消失问题，二是为了提取上下文信息，并综合得到特征，从而提升谣言检测的效果。经过Bi-LSTM网络进一步提取特征后，每条博文将会变为150维向量的形式。

具体而言，语义特征提取模块将提取得到的词嵌入语义特征W＝{W₁,W₂,...,W_n}输入Bi-LSTM网络中，通过其记忆功能进一步学习微博文的上下文特征，输出得到一维的语义特征向量H＝{h₁,h₂,...,h_k}，k为Bi-LSTM网络中隐含节点的个数，语义特征向量H中的元素h_i的计算公式为：

其中LSTM(·)表示LSTM网络函数，

表示LSTM网络第i-1个状态产生的后向隐含向量，

表示LSTM网络第i+1个状态产生的前向隐含向量，

和

分别表示LSTM网络第i个状态产生的后向隐含向量和前向隐含向量，⊕表示向量拼接。

在统计特征提取模块中，将提取出的内容特征、用户特征、传播特征和评论特征拼接起来作为博文的统计特征，经过正则化、归一化等操作后放入BP神经网络中进行学习。BP神经网络除了能学习到特征间的隐含关系和重要性，从而更好地进行谣言分类外，还能将统计特征映射为与语义特征相同的150维向量，使得统计特征与语义特征提供等量的信息。

S＝f(w_s·f_s'+b_s)

f_s'＝NORMALIZE(f_s)

(3)如图2所示，特征拼接层通过Keras拼接技术将语义特征向量H和统计特征向量S拼接得到拼接向量F＝{F₁,F₂,...,F₃₀₀}：

统计特征作为谣言检测中的全局属性，其能够从全局的角度区分谣言与非谣言。但是统计特征仅仅对属性进行了统计，无法获得文本的语义，只能通过特殊符号或格式确定文本内容。因此，本发明实施例将统计特征与语义特征相结合，能够扩充谣言检测中特征空间，也能在更大程度上描述数据在特征空间中的分布，从而达到提高网络的分类性能的目的。

(4)将博文的语义特征与统计特征拼接后，本发明实施例将其投入到注意力机制中。由于不同的词对谣言检测的贡献是不同的，因此本发明实施例使用注意力机制来自动发现那些对于谣言分类起到关键作用的词和特征，并从每个句子中捕获最重要的语义信息。没有引入注意力机制的谣言检测模型在输入的句子比较短的时候并不存在问题，但是如果输入的句子比较长，此时如果所有的语义完全通过一个中间语义向量来表示，那么单词自身的信息就会消失，导致很多细节信息的丢失，这也是引入注意力模型的重要原因。本发明实施例采集的博文长度平均可达到150字左右，因此引入注意力机制是十分必要的，且注意力机制对于特定的谣言词汇(比如“據講”、“聽講”)会赋予更高权重，从而能够提升谣言检测的效果。

如图2所示，注意力层使用注意力机制为不同重要性的特征F_i赋予不同的权重，其表示为：

u_i＝tanh(w_w·F_i+b_w)

(5)输出层通过Sigmoid函数对最终判断博文是否为谣言的向量F_E进行处理，得到目标社交网络平台上的粤语谣言检测结果p_d：

p_d＝sigmoid(F_E)

本发明实施例中，BLA深度学习模型的优化目标为最小化交叉熵损失函数L，其表示为：

本发明实施例中，对BLA深度学习模型的训练方法具体为：结合采集到的粤语微博文和“香港粤语语料库”、“香港二十世纪中期粤语语料库”构建了一个多领域的粤语语料库，并使用其对改进的BERT预训练模型进行了进一步预训练，使其学习到粤语的语法和语义特征，从而得到一个粤语BERT预训练模型。本发明实施例使用的是Google发布的bert-base-chinese模型。接着将其在本发明实施例构建的粤语谣言数据集上进行调优，调优时的学习率设置为3e-5(即3*10^-5)，训练10个epoch，每个epoch都会保存模型，并将得到的准确率最高的模型作为词嵌入特征提取器。词嵌入特征提取器的输入为标记化后的博文，输出为博文中的字被映射成的768维向量，即词嵌入矩阵的形状为[batch_size,768]。将构建博文的词嵌入向量作为BLA模型的词嵌入层，以此来充分提取文本的语义特征。最后将本发明实施例构建的27个统计特征(用户特征、传播特征、内容特征、评论特征)经过BP神经网络的全连接层映射成和语义特征具有相同维度的向量，与语义特征拼接融合后经过注意力机制分配不同的权重，并放入Sigmoid层得到分类检测结果。

下面通过三个具体实验例对本发明的粤语谣言检测效果作详细说明。所有实验例在搭配两个Tesla-V100 32G GPU的服务器环境下进行，数据集为本项目收集的CanRum数据集，共包含14093条谣言博文和12106非谣言博文。实验例中划分谣言数据集的80％作为训练集，10％作为验证集，10％作为测试集，每次实验均重复10次取平均值作为最终结果。

实验例1：评估统计特征的有效性。

为了评估本发明提出的四种类别的统计特征(用户特征、内容特征、传播特征和评论特征)在提出的BLA谣言检测模型中的贡献，本实验例进行了特征消融实验，在全特征集与四个特征子集上进行了实验，特征集合如表2所示。

表2特征集描述

特征集	包含的特征类别
		F	用户，内容，传播，评论
F\User	内容，传播，评论
		F\Content	用户，传播，评论
F\Propagation	用户，内容，评论
		F\Comment	用户，内容，传播

实验结果如图3和表3所示。可以看到，统计特征的全特征集表现最佳，说明本发明提取的四种类型的统计特征能够从多个角度提升谣言鉴别的效果。除此以外，BLA模型在使用F\User特征子集时表现最差，说明用户特征对谣言检测具有重要的意义，这也与目标社交网络的真实情境相符，首先，本发明提取的用户特征数量在四种特征中是最多的，其次，用户特征也是人工标注谣言时的重要判断依据。同时，使用F\Comment特征子集和使用特征全集F的效果差距最小，表明评论特征对模型检测谣言的贡献度最小。分析可能的原因是在目标平台上收集到的粤语微博文中附带有评论信息的比例很小(仅30％左右的博文有评论，且评论数量不多)，这使得评论特征在谣言检测中没有发挥出最佳的效果。

表3特征消融结果对比

特征集	准确率	精确率	召回率	F1值
					F	0.9312	0.9319	0.9273	0.9293
F\User	0.9110	0.9111	0.9066	0.9085
					F\Content	0.9159	0.9155	0.9125	0.9138
F\Propagation	0.9139	0.9137	0.9101	0.9117
					F\Comment	0.9280	0.9200	0.9103	0.9151

实验例2：评估词嵌入的效果。

BLA模型的语义特征提取模块使用了BERT模型作为博文的词嵌入提取器。为了评估BERT词嵌入的效果，本实验例设计实验对比了NLP领域常见的两种预训练词向量方法，上下文相关的嵌入(包括BERT、ELMo(Embeddings from Language Models，来自语言模型的嵌入)等)和上下文无关的嵌入(包括Word2vec、fastText等)。实验过程中分别使用BERT、ELMo、Word2vec、fastText四种预训练词向量作为BLA模型的词嵌入模块部分，其余部分的结构保持不变。

(1)上下文相关的嵌入：上下文相关的词嵌入涉及预训练模型，此模型可以根据词的上下文来计算词嵌入。本实验例中对比了以下两种上下文相关的词嵌入模型：

BERT：BERT模型使用Google在Chinese Wikipedia语料上训练的bert-base-chinese模型，提取出的字向量维度为768。

ELMo：ELMo模型使用Oslo大学在ChineseT CoNLL17 corpus上训练的ELMo模型，提取出的字向量维度为1024。

(2)上下文无关的嵌入：与上下文相关的嵌入相反，上下文无关的嵌入会将词汇表中的每一个词都表示为相同的向量，而不考虑其上下文。本实验例中对比了以下两种上下文无关的词嵌入模型：

fastText：fastText使用Facebook在Wikipedia语料上训练的词向量，提取出的字向量维度为300。

Word2vec：Word2vec使用Oslo大学在ChineseT CoNLL17 corpus上训练的Word2vec词向量，提取出的字向量维度为100。

四种词嵌入模型的描述如表4所示。

表4不同词嵌入模型的描述

词嵌入模型	维度	语料库	来源
				BERT	768	Chinese wikipedia	Google
ELMo	1024	ChineseT CoNLL17 corpus	NLPL
				fastText	300	wikipeida	Facebook
Word2vec	100	ChineseT CoNLL17 corpus	NLPL

由于在本发明的词嵌入层的实际实现中，对中文BERT预训练模型进行了进一步预训练和调优，以达到更好的谣言检测效果。为了体现实验的公平性，本实验例中使用的BERT字嵌入模型为原始的BERT模型。实验结果如图4和表5所示。总体来说，在谣言检测方面，一般情况下上下文相关的词嵌入模型表现优于上下文无关的模型，这是由于上下文相关的词嵌入模型能够基于词的上下文捕获单词的正确含义，而上下文无关的模型对单词的所有含义都使用相同的表示形式。此外，BLA模型使用BERT字嵌入模型取得了较ELMo字嵌入模型而言更好的效果，这是由于BERT模型中使用Transformer作为特征抽取器，相较于ELMo使用的LSTM来说，Transformer在语义特征的提取能力上有更为明显的优势。

表5不同词嵌入模型的表现

词嵌入模型	准确率	精确率	召回率	F1值
					BERT	0.9211	0.9233	0.9154	0.9186
ELMo	0.9109	0.9127	0.9051	0.9082
					fastText	0.9008	0.9021	0.8947	0.8978
Word2vec	0.9028	0.9039	0.8971	0.8999

实验例3：评估提出的BLA检测模型的效果。

为了证明本发明提出的BLA模型在粤语谣言检测中有明显的优势，本实验例挑选了包括传统机器学习和深度学习在内的常用的谣言检测模型进行了实验，包括SVM(Support Vector Machine，支持向量机)、TextCNN(Text Convolutional NeuralNetwork，卷积神经网络)、Bi-LSTM、Att-BiLSTM以及BERT模型，并且分别在准确率、精确率、召回率、F1值等指标上进行了对比。

实验结果如图5和表6所示。可以看到，本发明提出的BLA检测模型在构建的CanRum数据集上取得了0.93的F1值，且在所有指标上均为最优。此外，基于深度学习的模型的检测结果优于传统的机器学习模型，这是由于深度学习能自主学习到数据中的有效特征，而传统的机器学习需要人工进行特征提取，并且提取出所有的特征是很困难的。并且，本发明的BLA模型比基于CNN网络的TextCNN模型以及基于RNN(Recurrent Neural Network，循环神经网络)网络的Bi-LSTM模型效果更好，这是因为BLA模型结合了BERT字嵌入模块，而BERT模型使用的Transformer特征提取器的效果是优于CNN和RNN网络的。同时，对比Bi-LSTM和Att-BiLSTM模型的检测效果可以发现，结合注意力机制可以更为有效地鉴别谣言，这是因为注意力机制可以选取重要性更高的词和特征。最后，对比在NLP领域取得多项SOTA(state-of-the-art)结果的BERT模型与本发明提出的BLA模型，可以发现BLA模型比BERT模型更适用于粤语谣言检测问题，这是因为本发明的BERT字嵌入提取模块在粤语语料库中进行了再训练和调优，使得BLA模型学习到了更多的粤语语法和谣言语义。并且，BLA模型中融入的统计特征也对谣言检测结果具有一定的贡献。

表6不同的检测模型和BLA模型的表现

模型	准确率	精确率	召回率	F1值
					SVM	0.8717	0.8750	0.8636	0.8676
TextCNN	0.9018	0.9044	0.8956	0.8990
					Bi-LSTM	0.8907	0.8924	0.8848	0.8878
Att-BiLSTM	0.9048	0.9077	0.8985	0.9021
					BERT	0.9170	0.9183	0.9118	0.9145
BLA	0.9312	0.9319	0.9273	0.9293

综上所述，本发明提出的BLA模型在BERT词嵌入提取、Bi-LSTM网络的使用、注意力机制的引入，以及与统计特征向量的融合方面，都对最终的谣言检测结果有一定的提升作用。因此，本发明的BLA谣言检测模型在粤语谣言检测问题上取得了优秀的成果。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于深度神经网络的社交网络粤语谣言检测方法，其特征在于，包括以下步骤：

S1、采用基于Scrapy框架的Web爬虫针对性地获取目标社交网络平台上的粤语微博文数据，并对其进行人工标注，构建包括谣言数据和非谣言数据的粤语谣言数据集；

S2、对粤语谣言数据集中的谣言数据和非谣言数据进行分析，提取得到统计特征；

2.根据权利要求1所述的社交网络粤语谣言检测方法，其特征在于，所述步骤S1中的基于Scrapy框架的Web爬虫包括代理池、请求器、处理器和数据库；

所述代理池用于实现高并行的数据爬取；

所述请求器的任务包括对Token的请求和对数据的请求，所述对Token的请求用于获取请求数据所需的对应数量的凭据，所述对数据的请求用于根据要求使用Token获取数据；

所述处理器用于将爬取到的原始数据进行预处理和特征提取，并将处理后的数据存入数据库中；

所述数据库包括Token数据库和社交网络数据库，所述Token数据库用于根据爬虫运行的效率需求存储对应数量的Token，所述社交网络数据库用于存储经过处理器处理的社交网络数据。

3.根据权利要求1所述的社交网络粤语谣言检测方法，其特征在于，所述步骤S1中通过以下两种方式针对性地获取目标社交网络平台上的粤语微博文数据：

(1)以两个官方媒体的报导内容为事实基础，构建出事件的关键词，并在目标社交网络平台上进行搜索；

4.根据权利要求1所述的社交网络粤语谣言检测方法，其特征在于，所述步骤S2中提取得到的统计特征包括用户特征、内容特征、传播特征和评论特征。

5.根据权利要求4所述的社交网络粤语谣言检测方法，其特征在于，所述用户特征包括粉丝数-关注数比例β_FFR、每日发博数β_TPD、列表数β_LC、用户点赞数β_ULC、发博数β_TC、媒体文件数β_MC、是否被禁用特征β_NFS、综合特征β_CL、账户注册时长β_AG、是否被认证特征β_V、是否包含个人描述特征β_HD、是否包含位置特征β_HL和是否是默认主页特征β_DP；

所述粉丝数-关注数比例β_FFR表示用户的粉丝数量与关注数量的比例，其计算公式为：

其中α表示用户的粉丝数量，δ表示用户的关注数量，如果β_FFR<1则表示该用户为普通用户，如果β_FFR≥1则表示该用户为一个有影响力的用户，且如果β_FFR>2则表示该用户是一个有高影响力的用户，如果β_FFR>10则表示该用户是知名人物或知名机构；

所述每日发博数β_TPD表示用户平均每日发布微博文的数量，其计算公式为：

所述列表数β_LC表示用户参与的公开列表数量；

所述用户点赞数β_ULC表示自账户注册以来用户点赞的微博文数量；

所述发博数β_TC表示用户发布或转发的微博文总数；

所述媒体文件数β_MC表示用户发布的多媒体文件总数；

所述是否被禁用特征β_NFS表示用户的账户是否被目标社交网络平台禁用，β_NFS＝1表示用户被封禁，反之β_NFS＝0表示用户未被封禁；

所述综合特征β_CL表示用户的综合特征，其计算公式为：

其中w_i表示第i个用户特征的权重，c_i表示第i个用户特征的值，N表示用户特征的数量；

所述账户注册时长β_AG表示用户的账户注册时间与现在的时间间隔；

所述是否被认证特征β_V表示用户是否被目标社交网络平台认证，β_V＝1表示用户已通过目标社交网络平台的认证，β_V＝0表示用户未通过目标社交网络平台的认证；

所述是否包含个人描述特征β_HD表示用户的个人主页中是否包含个人描述，β_HD＝1表示用户填写了个人描述，β_HD＝0表示用户未填写个人描述；

所述是否包含位置特征β_HL表示用户的个人主页中是否包含位置信息，β_HL＝1表示用户填写了位置信息，β_HL＝0表示用户未填写位置信息；

所述是否是默认主页特征β_DP表示用户是否更改过个人主页的默认主题或背景，β_DP＝1表示用户使用的是默认主页，β_DP＝0表示用户更改过个人主页。

6.根据权利要求4所述的社交网络粤语谣言检测方法，其特征在于，所述内容特征包括博文长度γ_TL、情感值γ_S、命名实体数γ_NC、是否包含URL特征γ_HU、“？”和“！”比例γ_QMEMR、是否包含媒体文件特征γ_HM、发博-注册时间γ_TRT、“#”数量γ_HC、是否包含“@”特征γ_HA；

所述博文长度γ_TL表示微博文包含的字符数量；

所述情感值γ_S表示微博文的情感值；

所述命名实体数γ_NC表示微博文中包含的命名实体数量；

所述是否包含URL特征γ_HU表示微博文中是否包含URL，γ_HU＝1表示微博文中包含URL，γ_HU＝0表示微博文中不包含URL；

所述“？”和“！”比例γ_QMEMR表示微博文中的“？”和“！”的数量占所有标点符号数量的比例；

所述是否包含媒体文件特征γ_HM表示微博文中是否包含媒体文件，γ_HM＝1表示微博文中包含媒体文件，γ_HM＝0表示微博文中不包含媒体文件；

所述发博-注册时间γ_TRT表示微博文的发布时间与账户注册时间之间的间隔；

所述“#”数量γ_HC表示微博文中包含的标签数量；

所述是否包含“@”特征γ_HA表示微博文中是否包含“@”，即是否提及了其他用户，γ_HA＝1表示微博文中提及了其他用户，γ_HA＝0表示微博文中未提及其他用户。

7.根据权利要求4所述的社交网络粤语谣言检测方法，其特征在于，所述传播特征包括点赞数δ_FC、转发数δ_RC和评论数δ_CC；

所述点赞数δ_FC表示微博文获得的点赞数量；

所述转发数δ_RC表示微博文获得的转发数量；

所述评论数δ_CC表示微博文获得的评论数量。

8.根据权利要求4所述的社交网络粤语谣言检测方法，其特征在于，所述评论特征包括发博-评论时间φ_TCT和负面评论比例φ_NCR；

所述发博-评论时间φ_TCT表示微博文发布时间与评论时间之间的间隔，其计算公式为：

其中n表示评论的数量，t_i表示第i条评论的发布时间，t₀表示评论所属博文的发布时间；

所述负面评论比例φ_NCR表示带有负面情感极性的评论占所有评论的比例，其计算公式为：

9.根据权利要求4所述的社交网络粤语谣言检测方法，其特征在于，所述步骤S3中构建的基于多特征融合的BLA深度学习模型包括依次连接的输入层、特征提取层、特征拼接层、注意力层和输出层；

所述输入层输入预处理后的微博文文本和提取到的统计特征，单条所述预处理后的微博文文本表示为I＝{I₁,I₂,...,I_n}，n为设置的最大博文长度；

所述特征提取层包括语义特征提取模块和统计特征提取模块；

所述语义特征提取模块采用BERT模型作为文本词嵌入提取器，将单条预处理后的微博文文本I＝{I₁,I₂,...,I_n}作为输入进行词嵌入提取，得到词嵌入语义特征W＝{W₁,W₂,...,W_n}，所述词嵌入语义特征W中每个元素W_i均为768维的向量，且词嵌入语义特征W表示为：

W＝BERT(I')

I'＝Tokenize(I)

其中BERT(·)表示BERT模型，Tokenize(·)表示BERT模型中生成Tokenizer的函数，I'表示微博文文本I经过Tokenize(·)函数生成的Tokenizer；

所述语义特征提取模块将提取得到的词嵌入语义特征W＝{W₁,W₂,...,W_n}输入Bi-LSTM网络中，通过其记忆功能进一步学习微博文的上下文特征，输出得到一维的语义特征向量H＝{h₁,h₂,...,h_k}，k为Bi-LSTM网络中隐含节点的个数，语义特征向量H中的元素h_i的计算公式为：

其中LSTM(·)表示LSTM网络函数，

表示LSTM网络第i-1个状态产生的后向隐含向量，

表示LSTM网络第i+1个状态产生的前向隐含向量，

和

表示向量拼接；

所述统计特征提取模块将提取到的统计特征进行归一化处理后，经过BP神经网络的全连接层映射成和语义特征向量具有相同维度的统计特征向量S：

S＝f(w_s·f_s'+b_s)

f_s'＝NORMALIZE(f_s)

其中f_u表示用户特征，f_c表示内容特征，f_p表示传播特征，f_r表示评论特征，f_s表示统计特征，NORMALIZE(·)表示归一化函数，f_s'表示归一化后的统计特征，f(·)表示激活函数，w_s表示训练好的检测模型中的权重矩阵，b_s表示训练好的检测模型中的偏置项；

所述特征拼接层通过Keras拼接技术将语义特征向量H和统计特征向量S拼接得到拼接向量F＝{F₁,F₂,...,F₃₀₀}：

所述注意力层使用注意力机制为不同重要性的特征F_i赋予不同的权重，其表示为：

u_i＝tanh(w_w·F_i+b_w)

其中F_E表示最终判断博文是否为谣言的向量，α_i为拼接向量F中第i个特征F_i的权重，其由Softmax函数实现，u_i为特征F_i的中间隐藏层向量，u_w为一个随机初始化的向量，w_w和b_w分别表示F_i的中间隐藏层的权重矩阵和偏置项；

所述输出层通过Sigmoid函数对最终判断博文是否为谣言的向量F_E进行处理，得到目标社交网络平台上的粤语谣言检测结果p_d：

p_d＝sigmoid(F_E)

10.根据权利要求9所述的社交网络粤语谣言检测方法，其特征在于，所述BLA深度学习模型的优化目标为最小化交叉熵损失函数L，其表示为：