CN117112814A

CN117112814A - 虚假媒体内容挖掘及识别系统及其识别方法

Info

Publication number: CN117112814A
Application number: CN202310982347.XA
Authority: CN
Inventors: 黄旭东
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-11-24

Abstract

本发明公开了一种虚假媒体内容挖掘及识别系统及其识别方法，包括：S1、通过网络抓取多种类型媒体内容；S2、构建媒体内容特征提取模块，从S1中抓取的媒体内容中提取多维特征向量；S3、建立虚假媒体内容识别模型，利用虚假媒体内容识别模型进行学习和捕获虚假内容；S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型，通过监督学习进行虚假媒体内容的分类判定；S5、根据S4中的分类判定结果，对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。本发明实现对虚假媒体内容高效准确的内容分类判定，同时对虚假媒体内容的识别与反制，通过添加标记、提醒提高用户和删除虚假内容，提高了用户对媒体内容的辨识度和信任度。

Description

虚假媒体内容挖掘及识别系统及其识别方法

技术领域

本发明虚假信息检测技术领域，尤其涉及一种虚假媒体内容挖掘及识别系统及其识别方法。

背景技术

随着网络的快速发展，信息的高速流动带来了生后的便捷，却也带来了越来越多的虚假内容，不法分子炮制虚假信息的门槛非常低，越来越成为社会问题。因此，如何提供一种虚假媒体内容挖掘及识别系统及其识别方法是本领域技术人员亟需解决的问题。

发明内容

本发明的一个目的在于提出一种虚假媒体内容挖掘及识别系统及其识别方法，本发明采用深度学习算法，结合深度神经网络和循环神经网络等架构，用于构建和训练媒体内容识别模型，实现对虚假媒体内容高效准确的内容分类判定，同时对虚假媒体内容的识别与反制，通过添加标记、提醒提高用户和删除虚假内容，提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程，有效减少了人工处理负担，提高了效率和准确性。

根据本发明实施例的一种虚假媒体内容挖掘及识别方法，包括：

S1、通过网络抓取多种类型媒体内容；

S2、构建媒体内容特征提取模块，使用自然语言处理技术、图像处理技术和视频分析技术，从S1中抓取的媒体内容中提取多维特征向量；

S3、建立虚假媒体内容识别模型，利用虚假媒体内容识别模型进行学习和捕获虚假内容；

S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型，通过监督学习进行虚假媒体内容的分类判定；

S5、根据S4中的分类判定结果，对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。

可选的，所述虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络，所述基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。

可选的，所述媒体内容包括文本、图像和视频，所述文本内容包括新闻文章、社交媒体帖子、网页和论坛，所述虚假媒体内容包括虚假新闻、图像篡改和视频伪造。

可选的，所述S1具体包括：

网络媒体内容的抓取，利用网络爬虫程序通过访问互联网上的网站、社交媒体平台、新闻网站，排除媒体内容，按照预设的关键词、时间范围进行搜索和抓取；

网络文本的挖掘抓取：利用自然语言处理技术，分析互联网上的文本内容，提取相关媒体信息；

图像和视频抓取：针对图像和视频内容，使用图像搜索引擎和视频平台的搜索API，抽取图像和视频数据。

可选的，所述网络媒体内容的抓取具体包括：

S11、定义一个集合C，表示待提取的URL集合，定义一个集合V，表示已访问过的URL集合；

S12、从集合C中选择一个URL u，表示当访问URL u，获取网页内容，从网页内容中提取需要的信息，将URL添加到集合V中，表示已访问过；

S13、根据网页内容重复步骤S12，直到集合C为空或达到抓取的限制条件。

可选的，所述S2具体包括：

S21、对于文本内容提取，利用自然语言处理技术，对文本进行分词、词性标签、句法分析处理，基于分词结果，构建词频支撑、TF-IDF支撑或词嵌入支撑表示；

S22、对于图像内容提取，利用图像处理技术，对图像进行尺寸调整、灰度化、归一化调整，颜色提取直方纹理特征、边缘特征，基于模型神经网络模型，使用预模型从图像中提取高级特征；

S23、对于视频内容提取，利用视频分析技术，对视频进行帧差分析、光流分析捕获帧间误差和运动信息，提取时空特征，将使用3D CNN方法一系列帧组合成相互的数据，根据人脸识别、物体检测技术提取视频中的人物和物体信息。

可选的，所述S3具体包括：

S31、对虚假媒体内容进行确定标记，形成虚假媒体内容识别模型，包括虚假媒体形象和虚假媒体内容，生成相应的虚假媒体标签，虚假媒体内容识别模型涵盖文本、图像和视频多种类型的媒体内容；

S32、利用自然语言处理技术对文本进行分词、词性标注、消除失效词损失操作，将处理后的文本序列输入循环神经网络进行处理，以捕获文本中的上下文信息；

S33、利用图像处理技术对图像进行尺寸调整、归一化，将重建后的图像输入神经网络中进行特征提取；

S34、对视频内容进行帧级处理，使用复杂神经网络对视频帧进行特征提取；

S35、将帧级特征序列输入循环神经网络中，以捕获视频中的同步信息；

S36、将处理过程中的文本特征、图像特征和视频特征进行融合，通过连接、加权平均等方式将不同类型的特征组合成一个统一的特征处理；

S37、设计深度学习模型的架构，采用多层的深度神经网络和循环神经网络的组合，以及全连接层结构；

S38、利用虚假媒体内容识别模型，将训练融合后的特征向量输入到模型中进行训练，采用适当的损失函数和优化算法进行；

S39、在虚假媒体内容识别模型训练中引入生成对抗网络技术利用验证集对模型进行评估，调整参数和模型结构，完成虚假媒体内容识别模型的建立；

S310、训练好的虚假媒体内容识别模型可以获取抽取的媒体内容的特征进行输入，输出分类决策结果，用于识别媒体内容。

可选的，所述S4具体包括：

S41、从S2中构建的虚假媒体内容识别模型中获取多维特征支持；

S42、对标记的虚假媒体内容识别模型进行准备，其中，包括真实媒体内容和意象媒体内容，每个样本都对应一个标签，用于指示内容的真实性；

S43、建立视觉虚假媒体内容识别模型，模型的架构应包括输入层、隐藏层和输出层；

S44、使用准备好的特征处理和标签数据，将其作为训练集输入至虚假媒体内容识别模型，采用监督学习的方法，使用适当的损失函数来计算模型预测值与实际标签之间的托盘；

S45、应用逆向传播算法，在训练数据上进行多次迭代，通过不断调整模型中的权重和偏差参数，使得模型的预测结果逐渐接近实际标签；

S46、利用训练数据对模型进行训练后，利用验证集对模型进行评估，新建模型的性能，利用准确率、准确率、记忆率等来评估模型的性能分类能力；

S47、训练好的云端内容识别模型应用于S5中，通过S2中提取的特征提供输入至模型，进行虚假媒体内容的识别。

可选的，所述S5具体包括：

S51、媒体内容被判定为虚假内容，系统通过在虚假内容上添加标记、标签或其他可视化元素来标记其性质；

S52、对于被判定为虚假内容的媒体内容，系统向用户发出预警，提醒他们可能存在预警信息，预警包括弹窗、标识、警告信息形式呈现；

S53、对于被严重危害被标记为虚假的媒体内容，系统选择将其从平台中删除；

S54、系统具备用户反馈模块，用户提供关于虚假媒体内容判定准确性的反馈，反馈用于优化系统的识别性能和准确度，提高虚假媒体内容内容的挖掘及识别效果。

一种虚假媒体内容挖掘及识别系统，其特征在于，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行实现所述的方法。

本发明的有益效果是：

本发明涵盖了文本、图像和视频等多媒体内容的挖掘，通过多维特征提取，实现对多种类型虚假媒体内容进行全面分析和识别，采用深度学习算法，结合深度神经网络和循环神经网络等架构，用于构建和训练媒体内容识别模型，实现对虚假媒体内容高效准确的内容分类判定，同时对虚假媒体内容的识别与反制，通过添加标记、提醒提高用户和删除虚假内容，提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程，有效减少了人工处理负担，提高了效率和准确性。包括用户反馈模块，用户可以提供预知媒体内容判断反馈的准确性，这有助于不断优化和完善。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种虚假媒体内容挖掘及识别系统及其识别方法的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种虚假媒体内容挖掘及识别方法，包括：

S1、通过网络抓取多种类型媒体内容；

本实施方式中，S1具体包括：

本实施方式中，网络媒体内容的抓取具体包括：

集合V表示已经访问过的URL集合，是为了保证爬虫不会重复访问同一个URL，从而避免进入死循环或无限循环的情况。实际上，这个集合通常是在Smashing中通过数据结构来实现的，比如哈希表或集合。

可以表示为：

V＝{u1,u2,u3,...}

其中，u1,u2,u3等表示已访问过的URL，这个集合中的URL会随着爬虫的运行而不断增加。

在Smashing中，实现需要以下几个关键步骤：

定义一个数据结构(如存储表或集合)，用于存储已访问过的URL。

在爬虫代码中，每次访问一个URL，先检查该URL是否在已访问集合中。

如果该URL已经在已访问集合中，就跳过该URL，不进行重复访问。

如果该URL不在已访问集合中，则将其添加到已访问集合中，并继续进行抓取操作。

这样，通过实时更新避免已访问集合，爬虫可以重复访问同一个URL，从而更有效地抓取信息。

本实施方式中，虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络，基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。

本实施方式中，媒体内容包括文本、图像和视频，文本内容包括新闻文章、社交媒体帖子、网页和论坛，虚假媒体内容包括虚假新闻、图像篡改和视频伪造。

本实施方式中，S2具体包括：

本实施方式中，S3具体包括：

本实施方式中，S4具体包括：

本实施方式中，S5具体包括：

一种虚假媒体内容挖掘及识别系统，其特征在于，系统包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行实现的方法。

本实施方式中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

本实施方式中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

本实施方式中涵盖了文本、图像和视频等多媒体内容的挖掘，通过多维特征提取，实现对多种类型虚假媒体内容进行全面分析和识别，采用深度学习算法，结合深度神经网络和循环神经网络等架构，用于构建和训练媒体内容识别模型，实现对虚假媒体内容高效准确的内容分类判定，同时对虚假媒体内容的识别与反制，通过添加标记、提醒提高用户和删除虚假内容，提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程，有效减少了人工处理负担，提高了效率和准确性。包括用户反馈模块，用户可以提供预知媒体内容判断反馈的准确性，这有助于不断优化和完善。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种虚假媒体内容挖掘及识别方法，其特征在于，包括：

S1、通过网络抓取多种类型媒体内容；

2.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络，所述基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。

3.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述媒体内容包括文本、图像和视频，所述文本内容包括新闻文章、社交媒体帖子、网页和论坛，所述虚假媒体内容包括虚假新闻、图像篡改和视频伪造。

4.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述S1具体包括：

5.根据权利要求4所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述网络媒体内容的抓取具体包括：

S12、从集合C中选择一个URLu，表示当访问URLu，获取网页内容，从网页内容中提取需要的信息，将URL添加到集合V中，表示已访问过；

6.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述S2具体包括：

7.根据权利要求2所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述S3具体包括：

8.根据权利要求2所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述S4具体包括：

9.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法，其特征在于，所述S5具体包括：

10.一种虚假媒体内容挖掘及识别系统，其特征在于，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行实现权利要求1-9任一项所述的方法。