CN117112814A - 虚假媒体内容挖掘及识别系统及其识别方法 - Google Patents

虚假媒体内容挖掘及识别系统及其识别方法 Download PDF

Info

Publication number
CN117112814A
CN117112814A CN202310982347.XA CN202310982347A CN117112814A CN 117112814 A CN117112814 A CN 117112814A CN 202310982347 A CN202310982347 A CN 202310982347A CN 117112814 A CN117112814 A CN 117112814A
Authority
CN
China
Prior art keywords
media content
false
model
content
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310982347.XA
Other languages
English (en)
Inventor
黄旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202310982347.XA priority Critical patent/CN117112814A/zh
Publication of CN117112814A publication Critical patent/CN117112814A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种虚假媒体内容挖掘及识别系统及其识别方法,包括:S1、通过网络抓取多种类型媒体内容;S2、构建媒体内容特征提取模块,从S1中抓取的媒体内容中提取多维特征向量;S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。本发明实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。

Description

虚假媒体内容挖掘及识别系统及其识别方法
技术领域
本发明虚假信息检测技术领域,尤其涉及一种虚假媒体内容挖掘及识别系统及其识别方法。
背景技术
随着网络的快速发展,信息的高速流动带来了生后的便捷,却也带来了越来越多的虚假内容,不法分子炮制虚假信息的门槛非常低,越来越成为社会问题。因此,如何提供一种虚假媒体内容挖掘及识别系统及其识别方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种虚假媒体内容挖掘及识别系统及其识别方法,本发明采用深度学习算法,结合深度神经网络和循环神经网络等架构,用于构建和训练媒体内容识别模型,实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程,有效减少了人工处理负担,提高了效率和准确性。
根据本发明实施例的一种虚假媒体内容挖掘及识别方法,包括:
S1、通过网络抓取多种类型媒体内容;
S2、构建媒体内容特征提取模块,使用自然语言处理技术、图像处理技术和视频分析技术,从S1中抓取的媒体内容中提取多维特征向量;
S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;
S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;
S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。
可选的,所述虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络,所述基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。
可选的,所述媒体内容包括文本、图像和视频,所述文本内容包括新闻文章、社交媒体帖子、网页和论坛,所述虚假媒体内容包括虚假新闻、图像篡改和视频伪造。
可选的,所述S1具体包括:
网络媒体内容的抓取,利用网络爬虫程序通过访问互联网上的网站、社交媒体平台、新闻网站,排除媒体内容,按照预设的关键词、时间范围进行搜索和抓取;
网络文本的挖掘抓取:利用自然语言处理技术,分析互联网上的文本内容,提取相关媒体信息;
图像和视频抓取:针对图像和视频内容,使用图像搜索引擎和视频平台的搜索API,抽取图像和视频数据。
可选的,所述网络媒体内容的抓取具体包括:
S11、定义一个集合C,表示待提取的URL集合,定义一个集合V,表示已访问过的URL集合;
S12、从集合C中选择一个URL u,表示当访问URL u,获取网页内容,从网页内容中提取需要的信息,将URL添加到集合V中,表示已访问过;
S13、根据网页内容重复步骤S12,直到集合C为空或达到抓取的限制条件。
可选的,所述S2具体包括:
S21、对于文本内容提取,利用自然语言处理技术,对文本进行分词、词性标签、句法分析处理,基于分词结果,构建词频支撑、TF-IDF支撑或词嵌入支撑表示;
S22、对于图像内容提取,利用图像处理技术,对图像进行尺寸调整、灰度化、归一化调整,颜色提取直方纹理特征、边缘特征,基于模型神经网络模型,使用预模型从图像中提取高级特征;
S23、对于视频内容提取,利用视频分析技术,对视频进行帧差分析、光流分析捕获帧间误差和运动信息,提取时空特征,将使用3D CNN方法一系列帧组合成相互的数据,根据人脸识别、物体检测技术提取视频中的人物和物体信息。
可选的,所述S3具体包括:
S31、对虚假媒体内容进行确定标记,形成虚假媒体内容识别模型,包括虚假媒体形象和虚假媒体内容,生成相应的虚假媒体标签,虚假媒体内容识别模型涵盖文本、图像和视频多种类型的媒体内容;
S32、利用自然语言处理技术对文本进行分词、词性标注、消除失效词损失操作,将处理后的文本序列输入循环神经网络进行处理,以捕获文本中的上下文信息;
S33、利用图像处理技术对图像进行尺寸调整、归一化,将重建后的图像输入神经网络中进行特征提取;
S34、对视频内容进行帧级处理,使用复杂神经网络对视频帧进行特征提取;
S35、将帧级特征序列输入循环神经网络中,以捕获视频中的同步信息;
S36、将处理过程中的文本特征、图像特征和视频特征进行融合,通过连接、加权平均等方式将不同类型的特征组合成一个统一的特征处理;
S37、设计深度学习模型的架构,采用多层的深度神经网络和循环神经网络的组合,以及全连接层结构;
S38、利用虚假媒体内容识别模型,将训练融合后的特征向量输入到模型中进行训练,采用适当的损失函数和优化算法进行;
S39、在虚假媒体内容识别模型训练中引入生成对抗网络技术利用验证集对模型进行评估,调整参数和模型结构,完成虚假媒体内容识别模型的建立;
S310、训练好的虚假媒体内容识别模型可以获取抽取的媒体内容的特征进行输入,输出分类决策结果,用于识别媒体内容。
可选的,所述S4具体包括:
S41、从S2中构建的虚假媒体内容识别模型中获取多维特征支持;
S42、对标记的虚假媒体内容识别模型进行准备,其中,包括真实媒体内容和意象媒体内容,每个样本都对应一个标签,用于指示内容的真实性;
S43、建立视觉虚假媒体内容识别模型,模型的架构应包括输入层、隐藏层和输出层;
S44、使用准备好的特征处理和标签数据,将其作为训练集输入至虚假媒体内容识别模型,采用监督学习的方法,使用适当的损失函数来计算模型预测值与实际标签之间的托盘;
S45、应用逆向传播算法,在训练数据上进行多次迭代,通过不断调整模型中的权重和偏差参数,使得模型的预测结果逐渐接近实际标签;
S46、利用训练数据对模型进行训练后,利用验证集对模型进行评估,新建模型的性能,利用准确率、准确率、记忆率等来评估模型的性能分类能力;
S47、训练好的云端内容识别模型应用于S5中,通过S2中提取的特征提供输入至模型,进行虚假媒体内容的识别。
可选的,所述S5具体包括:
S51、媒体内容被判定为虚假内容,系统通过在虚假内容上添加标记、标签或其他可视化元素来标记其性质;
S52、对于被判定为虚假内容的媒体内容,系统向用户发出预警,提醒他们可能存在预警信息,预警包括弹窗、标识、警告信息形式呈现;
S53、对于被严重危害被标记为虚假的媒体内容,系统选择将其从平台中删除;
S54、系统具备用户反馈模块,用户提供关于虚假媒体内容判定准确性的反馈,反馈用于优化系统的识别性能和准确度,提高虚假媒体内容内容的挖掘及识别效果。
一种虚假媒体内容挖掘及识别系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行实现所述的方法。
本发明的有益效果是:
本发明涵盖了文本、图像和视频等多媒体内容的挖掘,通过多维特征提取,实现对多种类型虚假媒体内容进行全面分析和识别,采用深度学习算法,结合深度神经网络和循环神经网络等架构,用于构建和训练媒体内容识别模型,实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程,有效减少了人工处理负担,提高了效率和准确性。包括用户反馈模块,用户可以提供预知媒体内容判断反馈的准确性,这有助于不断优化和完善。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种虚假媒体内容挖掘及识别系统及其识别方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种虚假媒体内容挖掘及识别方法,包括:
S1、通过网络抓取多种类型媒体内容;
本实施方式中,S1具体包括:
网络媒体内容的抓取,利用网络爬虫程序通过访问互联网上的网站、社交媒体平台、新闻网站,排除媒体内容,按照预设的关键词、时间范围进行搜索和抓取;
网络文本的挖掘抓取:利用自然语言处理技术,分析互联网上的文本内容,提取相关媒体信息;
图像和视频抓取:针对图像和视频内容,使用图像搜索引擎和视频平台的搜索API,抽取图像和视频数据。
本实施方式中,网络媒体内容的抓取具体包括:
S11、定义一个集合C,表示待提取的URL集合,定义一个集合V,表示已访问过的URL集合;
集合V表示已经访问过的URL集合,是为了保证爬虫不会重复访问同一个URL,从而避免进入死循环或无限循环的情况。实际上,这个集合通常是在Smashing中通过数据结构来实现的,比如哈希表或集合。
可以表示为:
V={u1,u2,u3,...}
其中,u1,u2,u3等表示已访问过的URL,这个集合中的URL会随着爬虫的运行而不断增加。
在Smashing中,实现需要以下几个关键步骤:
定义一个数据结构(如存储表或集合),用于存储已访问过的URL。
在爬虫代码中,每次访问一个URL,先检查该URL是否在已访问集合中。
如果该URL已经在已访问集合中,就跳过该URL,不进行重复访问。
如果该URL不在已访问集合中,则将其添加到已访问集合中,并继续进行抓取操作。
这样,通过实时更新避免已访问集合,爬虫可以重复访问同一个URL,从而更有效地抓取信息。
S12、从集合C中选择一个URL u,表示当访问URL u,获取网页内容,从网页内容中提取需要的信息,将URL添加到集合V中,表示已访问过;
S13、根据网页内容重复步骤S12,直到集合C为空或达到抓取的限制条件。
S2、构建媒体内容特征提取模块,使用自然语言处理技术、图像处理技术和视频分析技术,从S1中抓取的媒体内容中提取多维特征向量;
本实施方式中,虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络,基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。
本实施方式中,媒体内容包括文本、图像和视频,文本内容包括新闻文章、社交媒体帖子、网页和论坛,虚假媒体内容包括虚假新闻、图像篡改和视频伪造。
本实施方式中,S2具体包括:
S21、对于文本内容提取,利用自然语言处理技术,对文本进行分词、词性标签、句法分析处理,基于分词结果,构建词频支撑、TF-IDF支撑或词嵌入支撑表示;
S22、对于图像内容提取,利用图像处理技术,对图像进行尺寸调整、灰度化、归一化调整,颜色提取直方纹理特征、边缘特征,基于模型神经网络模型,使用预模型从图像中提取高级特征;
S23、对于视频内容提取,利用视频分析技术,对视频进行帧差分析、光流分析捕获帧间误差和运动信息,提取时空特征,将使用3D CNN方法一系列帧组合成相互的数据,根据人脸识别、物体检测技术提取视频中的人物和物体信息。
S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;
本实施方式中,S3具体包括:
S31、对虚假媒体内容进行确定标记,形成虚假媒体内容识别模型,包括虚假媒体形象和虚假媒体内容,生成相应的虚假媒体标签,虚假媒体内容识别模型涵盖文本、图像和视频多种类型的媒体内容;
S32、利用自然语言处理技术对文本进行分词、词性标注、消除失效词损失操作,将处理后的文本序列输入循环神经网络进行处理,以捕获文本中的上下文信息;
S33、利用图像处理技术对图像进行尺寸调整、归一化,将重建后的图像输入神经网络中进行特征提取;
S34、对视频内容进行帧级处理,使用复杂神经网络对视频帧进行特征提取;
S35、将帧级特征序列输入循环神经网络中,以捕获视频中的同步信息;
S36、将处理过程中的文本特征、图像特征和视频特征进行融合,通过连接、加权平均等方式将不同类型的特征组合成一个统一的特征处理;
S37、设计深度学习模型的架构,采用多层的深度神经网络和循环神经网络的组合,以及全连接层结构;
S38、利用虚假媒体内容识别模型,将训练融合后的特征向量输入到模型中进行训练,采用适当的损失函数和优化算法进行;
S39、在虚假媒体内容识别模型训练中引入生成对抗网络技术利用验证集对模型进行评估,调整参数和模型结构,完成虚假媒体内容识别模型的建立;
S310、训练好的虚假媒体内容识别模型可以获取抽取的媒体内容的特征进行输入,输出分类决策结果,用于识别媒体内容。
S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;
本实施方式中,S4具体包括:
S41、从S2中构建的虚假媒体内容识别模型中获取多维特征支持;
S42、对标记的虚假媒体内容识别模型进行准备,其中,包括真实媒体内容和意象媒体内容,每个样本都对应一个标签,用于指示内容的真实性;
S43、建立视觉虚假媒体内容识别模型,模型的架构应包括输入层、隐藏层和输出层;
S44、使用准备好的特征处理和标签数据,将其作为训练集输入至虚假媒体内容识别模型,采用监督学习的方法,使用适当的损失函数来计算模型预测值与实际标签之间的托盘;
S45、应用逆向传播算法,在训练数据上进行多次迭代,通过不断调整模型中的权重和偏差参数,使得模型的预测结果逐渐接近实际标签;
S46、利用训练数据对模型进行训练后,利用验证集对模型进行评估,新建模型的性能,利用准确率、准确率、记忆率等来评估模型的性能分类能力;
S47、训练好的云端内容识别模型应用于S5中,通过S2中提取的特征提供输入至模型,进行虚假媒体内容的识别。
S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。
本实施方式中,S5具体包括:
S51、媒体内容被判定为虚假内容,系统通过在虚假内容上添加标记、标签或其他可视化元素来标记其性质;
S52、对于被判定为虚假内容的媒体内容,系统向用户发出预警,提醒他们可能存在预警信息,预警包括弹窗、标识、警告信息形式呈现;
S53、对于被严重危害被标记为虚假的媒体内容,系统选择将其从平台中删除;
S54、系统具备用户反馈模块,用户提供关于虚假媒体内容判定准确性的反馈,反馈用于优化系统的识别性能和准确度,提高虚假媒体内容内容的挖掘及识别效果。
一种虚假媒体内容挖掘及识别系统,其特征在于,系统包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行实现的方法。
本实施方式中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
本实施方式中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
本实施方式中涵盖了文本、图像和视频等多媒体内容的挖掘,通过多维特征提取,实现对多种类型虚假媒体内容进行全面分析和识别,采用深度学习算法,结合深度神经网络和循环神经网络等架构,用于构建和训练媒体内容识别模型,实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程,有效减少了人工处理负担,提高了效率和准确性。包括用户反馈模块,用户可以提供预知媒体内容判断反馈的准确性,这有助于不断优化和完善。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种虚假媒体内容挖掘及识别方法,其特征在于,包括:
S1、通过网络抓取多种类型媒体内容;
S2、构建媒体内容特征提取模块,使用自然语言处理技术、图像处理技术和视频分析技术,从S1中抓取的媒体内容中提取多维特征向量;
S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;
S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;
S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。
2.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络,所述基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。
3.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述媒体内容包括文本、图像和视频,所述文本内容包括新闻文章、社交媒体帖子、网页和论坛,所述虚假媒体内容包括虚假新闻、图像篡改和视频伪造。
4.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S1具体包括:
网络媒体内容的抓取,利用网络爬虫程序通过访问互联网上的网站、社交媒体平台、新闻网站,排除媒体内容,按照预设的关键词、时间范围进行搜索和抓取;
网络文本的挖掘抓取:利用自然语言处理技术,分析互联网上的文本内容,提取相关媒体信息;
图像和视频抓取:针对图像和视频内容,使用图像搜索引擎和视频平台的搜索API,抽取图像和视频数据。
5.根据权利要求4所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述网络媒体内容的抓取具体包括:
S11、定义一个集合C,表示待提取的URL集合,定义一个集合V,表示已访问过的URL集合;
S12、从集合C中选择一个URLu,表示当访问URLu,获取网页内容,从网页内容中提取需要的信息,将URL添加到集合V中,表示已访问过;
S13、根据网页内容重复步骤S12,直到集合C为空或达到抓取的限制条件。
6.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S2具体包括:
S21、对于文本内容提取,利用自然语言处理技术,对文本进行分词、词性标签、句法分析处理,基于分词结果,构建词频支撑、TF-IDF支撑或词嵌入支撑表示;
S22、对于图像内容提取,利用图像处理技术,对图像进行尺寸调整、灰度化、归一化调整,颜色提取直方纹理特征、边缘特征,基于模型神经网络模型,使用预模型从图像中提取高级特征;
S23、对于视频内容提取,利用视频分析技术,对视频进行帧差分析、光流分析捕获帧间误差和运动信息,提取时空特征,将使用3D CNN方法一系列帧组合成相互的数据,根据人脸识别、物体检测技术提取视频中的人物和物体信息。
7.根据权利要求2所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S3具体包括:
S31、对虚假媒体内容进行确定标记,形成虚假媒体内容识别模型,包括虚假媒体形象和虚假媒体内容,生成相应的虚假媒体标签,虚假媒体内容识别模型涵盖文本、图像和视频多种类型的媒体内容;
S32、利用自然语言处理技术对文本进行分词、词性标注、消除失效词损失操作,将处理后的文本序列输入循环神经网络进行处理,以捕获文本中的上下文信息;
S33、利用图像处理技术对图像进行尺寸调整、归一化,将重建后的图像输入神经网络中进行特征提取;
S34、对视频内容进行帧级处理,使用复杂神经网络对视频帧进行特征提取;
S35、将帧级特征序列输入循环神经网络中,以捕获视频中的同步信息;
S36、将处理过程中的文本特征、图像特征和视频特征进行融合,通过连接、加权平均等方式将不同类型的特征组合成一个统一的特征处理;
S37、设计深度学习模型的架构,采用多层的深度神经网络和循环神经网络的组合,以及全连接层结构;
S38、利用虚假媒体内容识别模型,将训练融合后的特征向量输入到模型中进行训练,采用适当的损失函数和优化算法进行;
S39、在虚假媒体内容识别模型训练中引入生成对抗网络技术利用验证集对模型进行评估,调整参数和模型结构,完成虚假媒体内容识别模型的建立;
S310、训练好的虚假媒体内容识别模型可以获取抽取的媒体内容的特征进行输入,输出分类决策结果,用于识别媒体内容。
8.根据权利要求2所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S4具体包括:
S41、从S2中构建的虚假媒体内容识别模型中获取多维特征支持;
S42、对标记的虚假媒体内容识别模型进行准备,其中,包括真实媒体内容和意象媒体内容,每个样本都对应一个标签,用于指示内容的真实性;
S43、建立视觉虚假媒体内容识别模型,模型的架构应包括输入层、隐藏层和输出层;
S44、使用准备好的特征处理和标签数据,将其作为训练集输入至虚假媒体内容识别模型,采用监督学习的方法,使用适当的损失函数来计算模型预测值与实际标签之间的托盘;
S45、应用逆向传播算法,在训练数据上进行多次迭代,通过不断调整模型中的权重和偏差参数,使得模型的预测结果逐渐接近实际标签;
S46、利用训练数据对模型进行训练后,利用验证集对模型进行评估,新建模型的性能,利用准确率、准确率、记忆率等来评估模型的性能分类能力;
S47、训练好的云端内容识别模型应用于S5中,通过S2中提取的特征提供输入至模型,进行虚假媒体内容的识别。
9.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S5具体包括:
S51、媒体内容被判定为虚假内容,系统通过在虚假内容上添加标记、标签或其他可视化元素来标记其性质;
S52、对于被判定为虚假内容的媒体内容,系统向用户发出预警,提醒他们可能存在预警信息,预警包括弹窗、标识、警告信息形式呈现;
S53、对于被严重危害被标记为虚假的媒体内容,系统选择将其从平台中删除;
S54、系统具备用户反馈模块,用户提供关于虚假媒体内容判定准确性的反馈,反馈用于优化系统的识别性能和准确度,提高虚假媒体内容内容的挖掘及识别效果。
10.一种虚假媒体内容挖掘及识别系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行实现权利要求1-9任一项所述的方法。
CN202310982347.XA 2023-08-07 2023-08-07 虚假媒体内容挖掘及识别系统及其识别方法 Pending CN117112814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310982347.XA CN117112814A (zh) 2023-08-07 2023-08-07 虚假媒体内容挖掘及识别系统及其识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310982347.XA CN117112814A (zh) 2023-08-07 2023-08-07 虚假媒体内容挖掘及识别系统及其识别方法

Publications (1)

Publication Number Publication Date
CN117112814A true CN117112814A (zh) 2023-11-24

Family

ID=88811945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310982347.XA Pending CN117112814A (zh) 2023-08-07 2023-08-07 虚假媒体内容挖掘及识别系统及其识别方法

Country Status (1)

Country Link
CN (1) CN117112814A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540038A (zh) * 2024-01-10 2024-02-09 中国信息通信研究院 智能检测虚假数据合成方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540038A (zh) * 2024-01-10 2024-02-09 中国信息通信研究院 智能检测虚假数据合成方法和系统
CN117540038B (zh) * 2024-01-10 2024-03-22 中国信息通信研究院 智能检测虚假数据合成方法和系统

Similar Documents

Publication Publication Date Title
CN108763445B (zh) 专利知识库的构建方法、装置、计算机设备和存储介质
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
CN106354861B (zh) 电影标签自动标引方法及自动标引系统
CN107220386A (zh) 信息推送方法和装置
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
US20100211533A1 (en) Extracting structured data from web forums
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN112818212B (zh) 语料数据采集方法、装置、计算机设备和存储介质
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110110218B (zh) 一种身份关联方法及终端
Tian et al. Multi-scale hierarchical residual network for dense captioning
CN117112814A (zh) 虚假媒体内容挖掘及识别系统及其识别方法
CN115188067A (zh) 一种视频行为识别方法、装置、电子设备及存储介质
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
CN109918648A (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN115080756A (zh) 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
JP6498674B2 (ja) マルチメディア資産の中のオブジェクトを注釈付けするための方法
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN113297525A (zh) 网页分类方法、装置、电子设备、及存储介质
CN117131923A (zh) 一种针对跨模态学习的后门攻击方法及相关装置
CN118013518A (zh) 网站类别的识别方法及装置、设备、存储介质
US11669583B2 (en) Generating interactive screenshot based on a static screenshot
CN116258600A (zh) 一种多模态特征融合的社交媒体内容传播预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination