CN113609292A

CN113609292A - 基于图结构的已知虚假新闻智能检测方法

Info

Publication number: CN113609292A
Application number: CN202110906574.5A
Authority: CN
Inventors: 郭捷; 沈琪; 徐扬; 邱卫东; 黄征
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-05
Anticipated expiration: 2041-08-09
Also published as: CN113609292B

Abstract

一种基于图结构的已知虚假新闻智能检测方法，通过获取训练用的新闻图像文本数据集后对文本与相应图片进行图文一对一数据对处理；用自然语言处理工具对每个数据对中的文本数据进行预处理，将文本切割为分词的组合；利用现有的中文新闻语料库计算各个分词的IDF值，再在每个文本内计算各自分词的TF值，从而计算每个分词在各自文本中的TF‑IDF值以表征图像与分词间的关联强度；利用Word2vec模型得到数据对中，文本数据中的每个分词的向量表示，每个分词向量都独立作为分词节点的初始特征向量；利用VGG模型得到数据对中，图像数据中的图片向量表示，作为图像节点的初始特征向量；根据得到的每个分词和图像之间的TF‑IDF值作为边，从而形成图得到图结构数据；利用所得数据对CARMN网络进行训练，并对网络融合图片与文本向量后产生的最终向量进行二分类，达到检测虚假新闻的目的。本发明利用图结构得到更有效的图片与文字向量，提高虚假新闻检测的准确率。

Description

基于图结构的已知虚假新闻智能检测方法

技术领域

本发明涉及的是一种神经网络应用领域的技术，具体是一种基于图结构的已知虚假新闻智能检测方法。

背景技术

现有的神经网络对已知虚假新闻的语义提取方面的特点为：仅使用词向量模型对文本语义进行提取，其缺陷在于已有算法的检测准确率不够高，有较高的误判率，因此提高算法的准确率是一个重大挑战。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于图结构的已知虚假新闻智能检测方法。

本发明是通过以下技术方案实现的：

本发明包括以下步骤：

步骤1)获取训练用的新闻图像文本数据集，其中包含已标注的虚假新闻和非虚假新闻。

步骤2)对文本与相应图片进行图文一对一数据对处理。

步骤3)用自然语言处理工具对每个数据对中的文本数据进行预处理，将文本切割为分词的组合。

步骤4)利用现有的中文新闻语料库计算各个分词的IDF值，再在每个文本内计算各自分词的TF值，从而计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度。

步骤5)利用Word2vec模型得到数据对中，文本数据中的每个分词的向量表示，每个分词向量都独立作为分词节点的初始特征向量。

步骤6)利用VGG模型得到数据对中，图像数据中的图片向量表示，作为图像节点的初始特征向量。

步骤7)因为数据对中只有单个文本以及对应的单张图像，每个分词在各自文本中的TF-IDF值可以等价于每个分词在各自文本对应的图像中的TF-IDF值。根据得到的每个分词和图像之间的TF-IDF值作为边，从而形成图得到图结构数据。

步骤8)利用所得数据对CARMN网络进行训练，并对网络融合图片与文本向量后产生的最终向量进行二分类，达到检测虚假新闻的目的。

本发明涉及一种实现上述方法的系统，包括：图文预处理单元、文本处理单元、图像处理单元以及CARMN单元，其中：图文预处理单元实现文本与相应图片的一对一处理；文本处理单元依照图文预处理单元的结果，使用自然语言处理工具对文本数据计算分词向量，并与CARMN单元相连并传输文本向量信息，图像处理单元将图片用向量的形式表示，并与CARMN相连并传输图像向量信息；CARMN单元接收文本处理单元和图像处理单元的数据，并送入CARMN网络进行训练，得到二分类结果。

附图说明

图1为本发明的流程图；

图2为本发明中文本和图片一对一处理过程示意图；

图3为本发明中图结构数据示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于图结构的已知虚假新闻智能检测系统，包括预处理单元文本处理单元、图像处理单元与CARMN单元，其中：预处理单元获取训练用的新闻图像文本数据集并对文本与相应图片进行预处理，获得图文一对一的数据对；文本处理单元采用python的jieba库处理工具对每个数据对中的文本数据进行去除非中文字符、去除停用词和分词切割处理，将文本切割为分词的组合并计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度后利用Word2vec模型得到分词的向量表示，作为分词节点的初始特征向量；图像处理单元利用VGG模型得到一对一图文数据对中每张图片的向量表示，作为图像节点的初始特征向量；CARMN单元根据得到的每个分词和图像之间的TF-IDF值作为边成图得到图结构数据并利用CARMN网络对图结构数据中的图像张量和与其相连的分词张量一同进行训练，并对网络融合图片与文本向量后产生的最终向量进行二分类，达到检测虚假新闻的目的。

所述的新闻图像文本数据集包括：经标签的真、假新闻的文本与对应图片，其中：真、假新闻的数量各占一半；文本对应一张、多张或没有附图。

所述的图文一对一数据对是指：将一张图片与一篇文本的组合认为是一个单位数据，具体为：当文本只有一张附图，则自然为一对一数据对；当文本有多张附图，则重复文本，每张图片与原文本都组成一对图文一对一数据，共生成与图片数目相等的数据对，每个数据对的文本都相同，即原文本；当文本没有附图，则在之后的训练中生成一个特定的张量表示空图片，原文本与空图片构成数据对。

所述的去除非中文字符是指：文本只保留中文，去除标点、数字等其余字符。

所述的去除停用词是指：去除中文文本中常见于每篇文本的无特殊语义词语。

所述的分词切割是指：将中文文本按照语法分割为一系列词语，本实施例所使用的是jieba库cut_for_search函数。

所述的计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度，具体为：对当前文本中的每一个分词利用TF-IDF算法，从而得到TF-IDF＝TF×IDF，其中：词频

逆文本频率指数

m为当前文本中分词i的出现次数，n为当前文本所有分词的数目。P为语料库中文本总数，q为语料库中包含分词i的文本数量。

所述的语料库为清华NLP组提供的THUCNews新闻文本分类数据集，是根据新浪新闻2005～2011年间的历史数据筛选过滤生成，包含74万篇新闻文档，均为UTF-8纯文本格式。

所述的Word2vec模型能够将分词转换成相应的词向量。本实施例所使用的词向量模型是预训练好的词向量模型。此模型能将分词转换为维度为1*300的词向量。

所述的预训练好的模型使用的是论文Li,S.,et al."Analogical Reasoning onChinese Morphological and Semantic Relations."Meeting ofthe Association forComputational Linguistics 2018中基于微博预训练的模型。

所述的VGG模型是一种用于提取图像特征的卷积网络，本实施例使用的是VGG19网络。

所述的VGG19网络输入224*224大小的RGB图像，通过3*3的卷积核和步骤为2的2*2maxpool对图像进行特征融合，最终通过三个全连接层提取图像的特征得到维度为1*1000的特征向量。

所述的图像节点的初始特征向量就是利用VGG19网络提取到的图像向量。本实施例使用VGG19预训练模型已经训练好的参数进行特征提取。

本实施例基于pytorch，在pytorch中直接调用VGG19模型，包括预训练的和未训练的。使用VGG19预训练模型，只需调用时使用命令：torchvision.models.vgg19(pretrained＝True)即可。

本实施例中的VGG网络内嵌在整个网络中，但是参数是被锁死的，对于VGG部分的参数不进行进一步训练。

所述的图包括：图像节点、分词节点和边，其中：图像节点为图像的维度为1*1000的特征向量；分词节点为维度为1*300的词向量；边为求出的分词与对应图像的大于0的关联强度数值。

所述的图像张量，即图像节点本身的特征向量。

所述的文本张量，即图像所连的分词节点构成的张量，具体为：每个相连分词节点使用其初始词向量乘上与图像相连的边所表示的TF-IDF值得到加权分词词向量，再将图像相连的所有分词节点的所有加权分词词向量进行拼接得到最终的文本张量。

所述的拼接为按行拼接，本实施例中设定最多为80个加权分词词向量，具体规则包括：

i)当图像节点所连分词节点数目小于80，则用0向量补充。

ii)当图像节点数目大于80，则选择先在文本中出现的80个分词的加权分词词向量。

iii)最终产生的文本张量的维度为80*300。

所述的CARMN网络是一个多模态网络，输入图像向量与文本向量，通过自注意力残差网络和CARN模块融合图像与文本的特征，再通过特征提取得到最终的向量，并进行二分类，其中：自注意力残差网络通过使用多个矩阵融合图片与文本的信息得到信息之间的相关性；目标模态可以利用CARN模块有选择地从另一个模态中提取信息后，通过剩余连接将信息添加到目标模态。

所述的CARN模块包括：表示文本模态有选择的提取图像模态信息并融合的单元和表示图像模态有选择的提取文本模态信息并融合的单元。

本实施例使用CARMN网络基于Pytorch，选取了Adam优化器，学习率设定为0.0001，训练轮数epoch设定为150，损失函数选取的是交叉熵函数。

所述的Adam优化器为torch.optim.Adam()。

所述的交叉熵函数为torch.nn.CrossEntropyLoss()。

在WeiboA(论文Jin,Z.,Cao,J.,Guo,H.,Zhang,Y.,&Luo,J.Multimodal fusionwith recurrentneural networks forrumor detection on microblogs.Proceedingsofthe 25th acm international conference on multimedia[J]2017:795-816中提出)和WeiboB(论文Cao,J.,Guo,J.,Li,X.,Jin,Z.,Guo,H.,&Li,J.Automatic rumor detectionon microblogs:a survey[J].

2018:125-134中提出)两个公开数据集上进行测试，测试结果如下：

WeiboA数据集测试结果：

WeiboB数据集测试结果：

因为WeiboA数据集小，训练效果不佳。但在WeiboB数据集上，本发明对准确率有显著的提升效果。

本发明利用图结构得到更有效的图片与文字向量，提高虚假新闻检测的准确率。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于图结构的已知虚假新闻智能检测方法，其特征在于，包括以下步骤：

步骤1)获取训练用的新闻图像文本数据集，其中包含已标注的虚假新闻和非虚假新闻；

步骤2)对文本与相应图片进行图文一对一数据对处理；

步骤3)用自然语言处理工具对每个数据对中的文本数据进行预处理，将文本切割为分词的组合；

步骤4)利用现有的中文新闻语料库计算各个分词的IDF值，再在每个文本内计算各自分词的TF值，从而计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度；

步骤5)利用Word2vec模型得到数据对中，文本数据中的每个分词的向量表示，每个分词向量都独立作为分词节点的初始特征向量；

步骤6)利用VGG模型得到数据对中，图像数据中的图片向量表示，作为图像节点的初始特征向量；

步骤7)因为数据对中只有单个文本以及对应的单张图像，每个分词在各自文本中的TF-IDF值可以等价于每个分词在各自文本对应的图像中的TF-IDF值；根据得到的每个分词和图像之间的TF-IDF值作为边，从而形成图得到图结构数据；

2.一种实现权利要求1所述的方法的基于图结构的已知虚假新闻智能检测系统，其特征在于，包括：预处理单元文本处理单元、图像处理单元与CARMN单元，其中：预处理单元获取训练用的新闻图像文本数据集并对文本与相应图片进行预处理，获得图文一对一的数据对；文本处理单元采用python的jieba库处理工具对每个数据对中的文本数据进行去除非中文字符、去除停用词和分词切割处理，将文本切割为分词的组合并计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度后利用Word2vec模型得到分词的向量表示，作为分词节点的初始特征向量；图像处理单元利用VGG模型得到一对一图文数据对中每张图片的向量表示，作为图像节点的初始特征向量；CARMN单元根据得到的每个分词和图像之间的TF-IDF值作为边成图得到图结构数据并利用CARMN网络对图结构数据中的图像张量和与其相连的分词张量一同进行训练，并对网络融合图片与文本向量后产生的最终向量进行二分类，达到检测虚假新闻的目的；

所述的新闻图像文本数据集包括：经标签的真、假新闻的文本与对应图片，其中：真、假新闻的数量各占一半；文本对应一张、多张或没有附图；

所述的图文一对一数据对是指：将一张图片与一篇文本的组合认为是一个单位数据，具体为：当文本只有一张附图，则自然为一对一数据对；当文本有多张附图，则重复文本，每张图片与原文本都组成一对图文一对一数据，共生成与图片数目相等的数据对，每个数据对的文本都相同，即原文本；当文本没有附图，则在之后的训练中生成一个特定的张量表示空图片，原文本与空图片构成数据对；

所述的去除非中文字符是指：文本只保留中文，去除标点、数字等其余字符；

所述的去除停用词是指：去除中文文本中常见于每篇文本的无特殊语义词语；

3.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统，其特征是，所述的计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度，具体为：对当前文本中的每一个分词利用TF-IDF算法，从而得到TF-IDF＝TF×IDF，其中：词频

逆文本频率指数

m为当前文本中分词i的出现次数，n为当前文本所有分词的数目，P为语料库中文本总数，q为语料库中包含分词i的文本数量。

4.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统，其特征是，所述的VGG19网络输入224*224大小的RGB图像，通过3*3的卷积核和步骤为2的2*2maxpool对图像进行特征融合，最终通过三个全连接层提取图像的特征得到维度为1*1000的特征向量。

5.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统，其特征是，所述的图像节点的初始特征向量就是利用VGG19网络提取到的图像向量，本实施例使用VGG19预训练模型已经训练好的参数进行特征提取。

6.根据权利要求5所述的基于图结构的已知虚假新闻智能检测系统，其特征是，VGG网络内嵌在整个网络中，但是参数是被锁死的，对于VGG部分的参数不进行进一步训练。

7.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统，其特征是，所述的图包括：图像节点、分词节点和边，其中：图像节点为图像的维度为1*1000的特征向量；分词节点为维度为1*300的词向量；边为求出的分词与对应图像的大于0的关联强度数值。

8.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统，其特征是，所述的图像张量，即图像节点本身的特征向量；所述的文本张量，即图像所连的分词节点构成的张量，具体为：每个相连分词节点使用其初始词向量乘上与图像相连的边所表示的TF-IDF值得到加权分词词向量，再将图像相连的所有分词节点的所有加权分词词向量进行拼接得到最终的文本张量。

9.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统，其特征是，所述的拼接为按行拼接，本实施例中设定最多为80个加权分词词向量，具体规则包括：

i)当图像节点所连分词节点数目小于80，则用0向量补充；

ii)当图像节点数目大于80，则选择先在文本中出现的80个分词的加权分词词向量；

iii)最终产生的文本张量的维度为80*300。

10.根据权利要求2所述的基于图结构的已知虚假新闻智能检测系统，其特征是，所述的CARMN网络是一个多模态网络，输入图像向量与文本向量，通过自注意力残差网络和CARN模块融合图像与文本的特征，再通过特征提取得到最终的向量，并进行二分类，其中：自注意力残差网络通过使用多个矩阵融合图片与文本的信息得到信息之间的相关性；目标模态可以利用CARN模块有选择地从另一个模态中提取信息后，通过剩余连接将信息添加到目标模态；