CN113377959B

CN113377959B - 基于元学习及深度学习的少样本社交媒体谣言检测方法

Info

Publication number: CN113377959B
Application number: CN202110770088.5A
Authority: CN
Inventors: 陆恒杨; 范晨悠; 杨舜; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2022-12-09
Anticipated expiration: 2041-07-07
Also published as: CN113377959A

Abstract

本发明公开了一种基于元学习及深度学习的少样本社交媒体谣言检测方法，包括：通过大样本事件的文本数据和双向GRU模型得到通用预测模型，获取少样本事件的文本数据并将少样本事件的谣言检测任务建模为二分类机器学习任务，将少样本事件的文本数据分为有标注少样本和无标注少样本，使用有标注少样本更新通用预测模型的参数得到少样本谣言预测模型，将无标注少样本输入少样本谣言预测模型得到预测结果。本发明通过元学习方法构造少样本谣言预测模型和二分类机器学习任务，对突发事件相关文本进行有效的谣言预测，从而在早期及时遏制谣言的传播。

Description

基于元学习及深度学习的少样本社交媒体谣言检测方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于元学习及深度学习的少样本社交媒体谣言检测方法。

背景技术

现有的使用机器学习进行谣言检测的方法大都将谣言检测建模为二分类问题，将谣言检测建模为二分类问题通过预测文本样例的真实性来鉴定是否是谣言，相关研究经历了从早期的手工构建文本特征^[1,2]到近期的基于深度学习的自动特征表示方法^[3,4]；出现了结合社交媒体的传播特性，基于社交账号间的互动、转发评论等传播信息开展谣言检测的研究^[5]。

但是，这种方法并不适用于初期样本很少的情况，现有的谣言检测任务通常需要各类已知事件有充足的有标注数据用于建模和训练，并且在测试阶段需要检测的谣言也与训练所用的事件有关。就像新型冠状病毒肺炎(Corona Virus Disease 2019，COVID-19，简称“新冠肺炎”)这一类的突发新事件，在社交媒体诞生至今从未出现过，在初期可供训练的数据也极其稀少，就不能很好地进行检测。对现有谣言检测模型带来了巨大的挑战。

参考文献：

[1]Qazvinian V,Rosengren E,Radev D,et al.Rumor has it:Identifyingmisinformation in microblogs[C].Proceedings of the 2011Conference onEmpirical Methods in Natural Language Processing.2011:1589-1599.

[2]Popat K.Assessing the credibility of claims on the web[C].Proceedings of the 26th International Conference on World Wide WebCompanion.2017:735-739.

[3]Ma J,Gao W,Mitra P,et al.Detecting rumors from microblogs withrecurrent neural networks[C].25th International Joint Conference onArtificial Intelligence,IJCAI 2016.International Joint Conferences onArtificial Intelligence,2016:3818-3824.

[4]Yu F,Liu Q,Wu S,et al.A convolutional approach for misinformationidentification[C].Proceedings of the 26th International Joint Conference onArtificial Intelligence.2017:3901-3907.

[5]Shu K,Wang S,Liu H.Understanding user profiles on social media forfake news detection[C].2018 IEEE Conference on Multimedia InformationProcessing and Retrieval(MIPR).IEEE,2018:430-435.

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提出一种基于元学习及深度学习的少样本社交媒体谣言检测方法，可以对突发事件相关的微博等社交媒体文本进行有效的谣言预测，从而在早期及时遏制谣言的传播。

为解决上述技术问题，本发明提供了一种基于元学习及深度学习的少样本社交媒体谣言检测方法，包括以下步骤：

S1：获取大样本事件的文本数据，将大样本事件的谣言检测任务建模为二分类机器学习任务，对大样本事件文本数据进行文本特征编码得到大样本事件文本数据的文本字符级特征向量，将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练，得到通用预测模型；

S2：获取少样本事件的文本数据，将少样本事件的谣言检测任务建模为二分类机器学习任务，将已被官方关注的话题下被标注为谣言和未被标注为谣言的少样本事件的文本数据作为有标注少样本，将未被官方关注的话题的少样本事件的文本数据作为无标注少样本；

S3：对有标注少样本进行文本特征编码得到有标注少样本的文本字符级特征向量，将有标注少样本的文本字符级特征向量输入通用预测模型中进行任务适应，更新通用预测模型的参数得到少样本谣言预测模型；

S4：对无标注少样本进行文本特征编码得到无标注少样本的文本字符级特征向量，将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中进行预测，得到预测结果。

进一步地，所述文本特征编码的过程为：

按字符粒度对输入文本进行分割和嵌入，通过预训练BERT模型获取输入文本的文本字符级特征向量。

进一步地，所述文本字符级特征向量中还加入了随机遮挡层，用于避免过拟合现象。

进一步地，所述随机遮挡层随机选中遮挡概率为r的字符，并置选中字符的编码向量所有维度为0。

进一步地，所述获取大样本事件的文本数据和获取少样本事件的文本数据的方法，具体为：

通过事件关键词爬取官方判定为不实信息的言论数据，根据事件关键词爬取未被标注为不实信息的相关言论数据，对爬取到的所有言论数据进行预处理得到输入文本。

进一步地，所述对爬取到的所有言论数据进行预处理得到输入文本，预处理的方法为：按照分词、停用词、数据清理的步骤进行数据预处理，所述数据清理为使用汉明距离过滤重复性文本，用于避免重复的言论数据造成过拟合。

进一步地，所述将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练时，使用双向GRU模型提取大样本事件文本数据的文本字符级特征向量的上下文特征得到隐状态，所述上下文特征包括正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态，所述隐状态为正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态的平均值，隐状态用于后续的谣言分类。

进一步地，所述S2中将少样本事件的谣言检测任务建模为二分类机器学习任务，具体为：

将少样本事件的谣言检测任务记为N-task、K-shot、Q-query；其中N-task表示训练和测试过程中的任务数，K-shot表示训练样本数，Q-query表示查询样例数，N代表少样本学习的任务数、K代表每一个任务抽样的支持样例数、Q代表每一个任务抽样的查询样例数；

每次从N/2个事件中分别采样K条有标注的谣言和非谣言数据用于训练，其中标注用于标记数据是否已知是谣言，在各个事件中随机采样Q条未用于训练的无标注谣言和非谣言数据用于测试，则每个检测某事件的谣言任务均由K+Q条数据构成；每一个任务包括了多个不同的事件，每一个事件分别抽样选取多个谣言和非谣言文本用来训练模型，记为少样本支持数据集用于适应事件。

进一步地，所述S3中更新通用预测模型的参数时，使用梯度下降法SGD学习新的谣言热点事件中的语义信息，在少样本支持数据集上更新元学习模型的参数。

进一步地，所述S4中将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中进行预测时，在预测谣言概率时直接使用一层全连接层和Sigmoid函数将隐状态转化输出为谣言的概率。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于元学习及深度学习的少样本社交媒体谣言检测方，通过元学习方法构造具备学习能力的少样本谣言预测模型和学习少量具有标注的二分类机器学习任务，对突发事件相关文本进行有效的谣言预测，从而在早期及时遏制谣言的传播。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明的流程图。

图2是图1中文本特征编码的流程图。

图3是本发明实施例中在使用新冠谣言数据集的情况下，分别使用本发明方法、DT-EMB、SEQ-CNN和SEQ-RNN的谣言检测准确率的结果图。

图4是本发明实施例中在使用PHEME公共数据集的情况下，分别使用本发明方法、DT-EMB、SEQ-CNN和SEQ-RNN的谣言检测准确率的结果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在本发明的描述中，需要理解的是，术语“包括”意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备，没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明针对少样本谣言检测问题，基于新浪微博上与某些热点事件相关的文本，采用少样本学习策略使用历史数据训练谣言检测模型，从而能够在突发事件出现时，得到具备学习能力的、在新事件上具备较好预测能力的新模型。

少样本学习是一种基于极少量有标注数据进行模型训练的机器学习方法，被广泛应用于解决未在训练数据中出现过的新任务(详见文献“Finn C,Abbeel P,LevineS.Model-agnostic meta-learning for fast adaptation of deep networks[C].Proceedings of the 34th International Conference on Machine Learning-Volume70.2017:1126-1135.”和文献“[1]Gidaris S,Komodakis N.Dynamic few-shot visuallearning without forgetting[C].Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018:4367-4375.”)。利用极少量的有标注数据，少样本模型就可以对该任务的无标注数据进行有效预测，为谣言检测任务提供了新的研究范式。少样本学习的基本思路可类比人类的认知过程，通过对少量或者单个样例的学习实现对这一类物体或者概念的识别。少样本学习中的元学习(meta-learning)是一种主流方法，元学习旨在学习一种可以提取已有训练任务中可迁移知识的模型，使得该知识可用于学习新的任务。元学习的基本机理是通过从少量有标注数据提取可迁移的知识，模型能够快速适应全新的任务，从而正确预测标注。因此，本发明中使用元学习来进行谣言的检测。

参照图1总体框架图所示，本发明一种基于元学习及深度学习的少样本社交媒体谣言检测方法的实施例，包括以下步骤：

S1：获取大样本事件的文本数据，将大样本事件的谣言检测任务建模为二分类机器学习任务，对大样本事件文本数据进行文本特征编码得到大样本事件文本数据的文本字符级特征向量，将大样本事件文本数据的文本字符级特征向量输入双向GRU模型(详见文献“Cho K,van Merrienboer B,Bahdanau D,et al.On the properties of neural machinetranslation:Encoder-decoder approaches[C].Eighth Workshop on Syntax,Semanticsand Structure in Statistical Translation,2014.”)进行训练，得到通用预测模型；本实施例中大样本事件可以为含有“高考”等常发生的、具有大量样本数据的事件。将大样本事件的谣言检测任务建模为二分类机器学习任务为现有技术，此处不在赘述。

文本特征编码的过程为：按字符粒度对输入文本进行分割和嵌入，通过预训练BERT模型(详见文献“Jacob Devlin,Ming-Wei Chang,Kenton Lee,and KristinaToutanova.BERT:pre-training of deep bidirectional transformers for languageunderstanding.[C]In NAACL-HLT,2019.”)获取输入文本的文本字符级特征向量。

所述文本字符级特征向量中还加入了随机遮挡层，用于避免过拟合现象。随机遮挡层可以有三种不同的遮挡策略，记随机遮挡概率为r，该层共支持三种策略：策略1：随机选中遮挡概率为r的字符，并置选中字符的编码向量所有维度为0。策略2：随机选中遮挡概率为r的字符编码向量维度，并置所有字符编码向量内选中的维度为0。策略3：随机选中遮挡概率为r的字符和编码向量维度，并将选中字符及其被选中的向量维度置为0。本实施例中所述随机遮挡层随机选中遮挡概率为r的字符，并置选中字符的编码向量所有维度为0。在新冠谣言数据集上使用不同随机遮挡策略准确率对比显示，无遮挡策略在三个实验数据子集中的准确率是最低的，遮挡策略1得到的效果最佳，因此本实施例中优选的随机遮挡层使用策略1，随机遮挡概率设置为30％。

所述将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练时，使用双向GRU模型提取大样本事件文本数据的文本字符级特征向量的上下文特征得到隐状态，所述提取的上下文特征包括正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态，所述隐状态为正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态的平均值，隐状态用于后续的谣言分类。本发明叠加了双层双向GRU模型进行文本的上下文特征编码根据，用于性能和计算速度的平衡。

S2：获取少样本事件的文本数据，将少样本事件的谣言检测任务建模为二分类机器学习任务，将已被官方关注的话题下被标注为谣言和未被标注为谣言的少样本事件的文本数据作为有标注少样本，将未被官方关注的话题的少样本事件的文本数据作为无标注少样本。

所述获取大样本事件的文本数据和获取少样本事件的文本数据的方法，具体为：通过事件关键词爬取官方判定为不实信息的言论数据，本实施例中将从“微博社区管理中心”获取的由官方判定的不实信息作为谣言言论数据的来源；根据事件关键词爬取未被标注为不实信息的相关言论数据，对爬取到的所有言论数据进行预处理得到输入文本，本实施例中爬取到的言论数据为微博数据。通过关键词爬取指定事件的谣言和非谣言微博，去重后获得数据集，用于训练模型。

所述对爬取到的所有言论数据进行预处理得到输入文本，预处理的方法为：按照分词、停用词、数据清理的步骤进行数据预处理，所述数据清理为使用汉明距离过滤重复性文本，用于避免重复的言论数据造成过拟合。本实施例中设置汉明距离阈值为6，以过滤重复微博。

所述将少样本事件的谣言检测任务建模为二分类机器学习任务，具体为：

将少样本事件的谣言检测任务记为N-task、K-shot、Q-query；其中N-task表示训练和测试过程中的任务数，K-shot表示训练样本数，Q-query表示查询样例数，N代表少样本学习的任务数(将检测某个事件中的微博为谣言、为非谣言记为两个任务)、K代表每一个任务抽样的支持样例(即训练数据)数、Q代表每一个任务抽样的查询样例(即测试数据)数；

每次从N/2个事件中分别采样K条有标注的谣言和非谣言数据用于训练，其中标注用于标记该条数据是否已知是谣言，在各个事件中随机采样Q条未用于训练的无标注谣言和非谣言数据用于测试，则每个检测某事件的谣言任务均由K+Q条数据构成；比如新冠谣言数据集上的新冠谣言检测任务建模为6-task 5-shot 9-query，即每次从3个有关新冠的事件中分别采样5条有标注的谣言和非谣言数据用于训练，各个事件随机采样9条未用于训练的无标注谣言和非谣言数据用于测试，每个任务均由14条数据构成。每一个任务包括了多个不同的事件，每一个事件分别抽样选取多个谣言和非谣言文本用来训练模型，记为少样本支持数据集用于适应事件。

S3：使用与S1中相同的文本特征编码的方法，对有标注少样本进行文本特征编码得到有标注少样本的文本字符级特征向量，将有标注少样本的文本字符级特征向量输入通用预测模型中进行任务适应，更新通用预测模型的参数得到少样本谣言预测模型。

更新通用预测模型的参数时，使用梯度下降法SGD学习新的谣言热点事件中的语义信息，在少样本支持数据集上更新元学习模型的参数，使得模型适应新的热点事件。可以衡量事件适应模型在新事件上的表现，在新事件相关的有标注文本的训练阶段，可以查询数据集中该事件是否是谣言的标注。

S4：使用与S1中相同的文本特征编码的方法，对无标注少样本进行文本特征编码得到无标注少样本的文本字符级特征向量，将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中得到并输出预测结果。

所述将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中进行预测时，在预测谣言概率时直接使用一层全连接层和Sigmoid函数σ将隐状态转化输出为谣言的概率，使用事件适应模型判别该事件中查询文本是谣言的概率值。

为了进一步说明本发明的有益效果，本实施例中使用本发明以新浪微博上抓取后去重的微博文本，谣言检测任务中常用的新冠谣言数据集和PHEME谣言公共数据集这三个数据集开展实验。

将未用于训练的无标注谣言和非谣言数据(数据集分为训练集，测试集和验证集，此处的数据来自测试集)作为测试集，使用本发明方法(以下简称FRUDE)统计谣言分类的准确率，和DT-EMB(决策树)(详见文献“Zhao Z,Resnick P,Mei Q.Enquiring minds:Earlydetection of rumors in social media from enquiry posts[C].Proceedings of the24th international conference on world wide web.2015:1395-1405.”)、SEQ-CNN(详见文献“Yu F,Liu Q,Wu S,et al.A convolutional approach for misinformationidentification[C].Proceedings of the 26th International Joint Conference onArtificial Intelligence.2017:3901-3907.”)、SEQ-RNN(详见文献“Ma J,Gao W,MitraP,et al.Detecting rumors from microblogs with recurrent neural networks[C].25th International Joint Conference on Artificial Intelligence,IJCAI2016.International Joint Conferences on Artificial Intelligence,2016:3818-3824.”)三种基线模型开展对比实验。

在使用新冠谣言数据集的情况下，分别使用本发明方法、DT-EMB、SEQ-CNN和SEQ-RNN的谣言检测准确率的结果图如图3所示，其中新冠谣言数据集共有3840条中文谣言和非谣言构成，11个与新冠无关的事件被随机划分为三个数据子集，每个子集分为训练集和验证集，分别命名为split 0，split 1和split 2。在使用PHEME公共数据集的情况下，分别使用本发明方法、DT-EMB、SEQ-CNN和SEQ-RNN的谣言检测准确率的结果如图4所示，其中PHEME谣言数据集共有2305条英文谣言和非谣言构成，用于训练的数据同样划分为三个数据子集，分别为split 0，split 1和split 2。

观察图3、图4的实验结果可知：仅采用传统机器学习方法(如DT-EMB)，在少样本场景下谣言检测的性能非常差，对于二分类问题的准确率在56％左右，仅比随机猜测时50％的正确率略好；使用深度神经网络的方法(SEQ-CNN和SEQ-RNN)由于采用微调的策略，可以在历史数据训练好的模型上，通过使用少量有标注的新样例数据进行模型微调，从而得到对于新事件有一定适用性的预测模型，这说明通过传统的预训练+微调的方法可以一定程度提高模型性能；本发明的FRUDE模型，采用了基于元学习的少样本学习方法，能够通过梯度下降的方式将历史事件学习到的信息迁移到新事件的预测模型中，在谣言检测的准确率上，FRUDE模型高出预训练+微调方法3～6％，这说明本文提出的基于元学习的方法，在训练数据仅存在极少量有标注样例的场景下，具有更加显著的优势。

本发明的上述技术方案相比现有技术具有以下优点：本发明所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，将谣言检测建模为二分类问题，通过将将少样本事件的谣言检测任务建模为二分类机器学习任务判断每条微博是否为谣言，在双向GRU模型的基础上构建能够良好适应突发事件的少样本谣言预测模型。不仅解决了突发事件可训练数据稀少的问题，也提供了开展谣言检测新的研究范式，扩展了该研究任务可适用的场景。通过元学习方法构造具备学习能力的少样本谣言预测模型和学习少量具有标注的二分类机器学习任务，对突发事件相关文本进行有效的谣言预测，从而在早期及时遏制谣言的传播，在分析和跟踪舆情方面具有可观的应用前景。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述文本特征编码的过程为：

3.根据权利要求2所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述文本字符级特征向量中还加入了随机遮挡层，用于避免过拟合现象。

4.根据权利要求3所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述随机遮挡层随机选中遮挡概率为r的字符，并置选中字符的编码向量所有维度为0。

5.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述获取大样本事件的文本数据和获取少样本事件的文本数据的方法，具体为：

6.根据权利要求5所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述对爬取到的所有言论数据进行预处理得到输入文本，预处理的方法为：按照分词、停用词、数据清理的步骤进行数据预处理，所述数据清理为使用汉明距离过滤重复性文本，用于避免重复的言论数据造成过拟合。

7.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练时，使用双向GRU模型提取大样本事件文本数据的文本字符级特征向量的上下文特征得到隐状态，所述上下文特征包括正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态，所述隐状态为正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态的平均值，隐状态用于后续的谣言分类。

8.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述S2中将少样本事件的谣言检测任务建模为二分类机器学习任务，具体为：

9.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述S3中更新通用预测模型的参数时，使用梯度下降法SGD学习新的谣言热点事件中的语义信息，在少样本支持数据集上更新元学习模型的参数。

10.根据权利要求1-9任一项所述的基于元学习及深度学习的少样本社交媒体谣言检测方法，其特征在于：所述S4中将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中进行预测时，在预测谣言概率时直接使用一层全连接层和Sigmoid函数将隐状态转化输出为谣言的概率。