CN117112814A - 虚假媒体内容挖掘及识别系统及其识别方法 - Google Patents
虚假媒体内容挖掘及识别系统及其识别方法 Download PDFInfo
- Publication number
- CN117112814A CN117112814A CN202310982347.XA CN202310982347A CN117112814A CN 117112814 A CN117112814 A CN 117112814A CN 202310982347 A CN202310982347 A CN 202310982347A CN 117112814 A CN117112814 A CN 117112814A
- Authority
- CN
- China
- Prior art keywords
- media content
- false
- model
- content
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005065 mining Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 34
- 238000005516 engineering process Methods 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 11
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000005206 flow analysis Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种虚假媒体内容挖掘及识别系统及其识别方法,包括:S1、通过网络抓取多种类型媒体内容;S2、构建媒体内容特征提取模块,从S1中抓取的媒体内容中提取多维特征向量;S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。本发明实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。
Description
技术领域
本发明虚假信息检测技术领域,尤其涉及一种虚假媒体内容挖掘及识别系统及其识别方法。
背景技术
随着网络的快速发展,信息的高速流动带来了生后的便捷,却也带来了越来越多的虚假内容,不法分子炮制虚假信息的门槛非常低,越来越成为社会问题。因此,如何提供一种虚假媒体内容挖掘及识别系统及其识别方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种虚假媒体内容挖掘及识别系统及其识别方法,本发明采用深度学习算法,结合深度神经网络和循环神经网络等架构,用于构建和训练媒体内容识别模型,实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程,有效减少了人工处理负担,提高了效率和准确性。
根据本发明实施例的一种虚假媒体内容挖掘及识别方法,包括:
S1、通过网络抓取多种类型媒体内容;
S2、构建媒体内容特征提取模块,使用自然语言处理技术、图像处理技术和视频分析技术,从S1中抓取的媒体内容中提取多维特征向量;
S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;
S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;
S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。
可选的,所述虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络,所述基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。
可选的,所述媒体内容包括文本、图像和视频,所述文本内容包括新闻文章、社交媒体帖子、网页和论坛,所述虚假媒体内容包括虚假新闻、图像篡改和视频伪造。
可选的,所述S1具体包括:
网络媒体内容的抓取,利用网络爬虫程序通过访问互联网上的网站、社交媒体平台、新闻网站,排除媒体内容,按照预设的关键词、时间范围进行搜索和抓取;
网络文本的挖掘抓取:利用自然语言处理技术,分析互联网上的文本内容,提取相关媒体信息;
图像和视频抓取:针对图像和视频内容,使用图像搜索引擎和视频平台的搜索API,抽取图像和视频数据。
可选的,所述网络媒体内容的抓取具体包括:
S11、定义一个集合C,表示待提取的URL集合,定义一个集合V,表示已访问过的URL集合;
S12、从集合C中选择一个URL u,表示当访问URL u,获取网页内容,从网页内容中提取需要的信息,将URL添加到集合V中,表示已访问过;
S13、根据网页内容重复步骤S12,直到集合C为空或达到抓取的限制条件。
可选的,所述S2具体包括:
S21、对于文本内容提取,利用自然语言处理技术,对文本进行分词、词性标签、句法分析处理,基于分词结果,构建词频支撑、TF-IDF支撑或词嵌入支撑表示;
S22、对于图像内容提取,利用图像处理技术,对图像进行尺寸调整、灰度化、归一化调整,颜色提取直方纹理特征、边缘特征,基于模型神经网络模型,使用预模型从图像中提取高级特征;
S23、对于视频内容提取,利用视频分析技术,对视频进行帧差分析、光流分析捕获帧间误差和运动信息,提取时空特征,将使用3D CNN方法一系列帧组合成相互的数据,根据人脸识别、物体检测技术提取视频中的人物和物体信息。
可选的,所述S3具体包括:
S31、对虚假媒体内容进行确定标记,形成虚假媒体内容识别模型,包括虚假媒体形象和虚假媒体内容,生成相应的虚假媒体标签,虚假媒体内容识别模型涵盖文本、图像和视频多种类型的媒体内容;
S32、利用自然语言处理技术对文本进行分词、词性标注、消除失效词损失操作,将处理后的文本序列输入循环神经网络进行处理,以捕获文本中的上下文信息;
S33、利用图像处理技术对图像进行尺寸调整、归一化,将重建后的图像输入神经网络中进行特征提取;
S34、对视频内容进行帧级处理,使用复杂神经网络对视频帧进行特征提取;
S35、将帧级特征序列输入循环神经网络中,以捕获视频中的同步信息;
S36、将处理过程中的文本特征、图像特征和视频特征进行融合,通过连接、加权平均等方式将不同类型的特征组合成一个统一的特征处理;
S37、设计深度学习模型的架构,采用多层的深度神经网络和循环神经网络的组合,以及全连接层结构;
S38、利用虚假媒体内容识别模型,将训练融合后的特征向量输入到模型中进行训练,采用适当的损失函数和优化算法进行;
S39、在虚假媒体内容识别模型训练中引入生成对抗网络技术利用验证集对模型进行评估,调整参数和模型结构,完成虚假媒体内容识别模型的建立;
S310、训练好的虚假媒体内容识别模型可以获取抽取的媒体内容的特征进行输入,输出分类决策结果,用于识别媒体内容。
可选的,所述S4具体包括:
S41、从S2中构建的虚假媒体内容识别模型中获取多维特征支持;
S42、对标记的虚假媒体内容识别模型进行准备,其中,包括真实媒体内容和意象媒体内容,每个样本都对应一个标签,用于指示内容的真实性;
S43、建立视觉虚假媒体内容识别模型,模型的架构应包括输入层、隐藏层和输出层;
S44、使用准备好的特征处理和标签数据,将其作为训练集输入至虚假媒体内容识别模型,采用监督学习的方法,使用适当的损失函数来计算模型预测值与实际标签之间的托盘;
S45、应用逆向传播算法,在训练数据上进行多次迭代,通过不断调整模型中的权重和偏差参数,使得模型的预测结果逐渐接近实际标签;
S46、利用训练数据对模型进行训练后,利用验证集对模型进行评估,新建模型的性能,利用准确率、准确率、记忆率等来评估模型的性能分类能力;
S47、训练好的云端内容识别模型应用于S5中,通过S2中提取的特征提供输入至模型,进行虚假媒体内容的识别。
可选的,所述S5具体包括:
S51、媒体内容被判定为虚假内容,系统通过在虚假内容上添加标记、标签或其他可视化元素来标记其性质;
S52、对于被判定为虚假内容的媒体内容,系统向用户发出预警,提醒他们可能存在预警信息,预警包括弹窗、标识、警告信息形式呈现;
S53、对于被严重危害被标记为虚假的媒体内容,系统选择将其从平台中删除;
S54、系统具备用户反馈模块,用户提供关于虚假媒体内容判定准确性的反馈,反馈用于优化系统的识别性能和准确度,提高虚假媒体内容内容的挖掘及识别效果。
一种虚假媒体内容挖掘及识别系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行实现所述的方法。
本发明的有益效果是:
本发明涵盖了文本、图像和视频等多媒体内容的挖掘,通过多维特征提取,实现对多种类型虚假媒体内容进行全面分析和识别,采用深度学习算法,结合深度神经网络和循环神经网络等架构,用于构建和训练媒体内容识别模型,实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程,有效减少了人工处理负担,提高了效率和准确性。包括用户反馈模块,用户可以提供预知媒体内容判断反馈的准确性,这有助于不断优化和完善。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种虚假媒体内容挖掘及识别系统及其识别方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种虚假媒体内容挖掘及识别方法,包括:
S1、通过网络抓取多种类型媒体内容;
本实施方式中,S1具体包括:
网络媒体内容的抓取,利用网络爬虫程序通过访问互联网上的网站、社交媒体平台、新闻网站,排除媒体内容,按照预设的关键词、时间范围进行搜索和抓取;
网络文本的挖掘抓取:利用自然语言处理技术,分析互联网上的文本内容,提取相关媒体信息;
图像和视频抓取:针对图像和视频内容,使用图像搜索引擎和视频平台的搜索API,抽取图像和视频数据。
本实施方式中,网络媒体内容的抓取具体包括:
S11、定义一个集合C,表示待提取的URL集合,定义一个集合V,表示已访问过的URL集合;
集合V表示已经访问过的URL集合,是为了保证爬虫不会重复访问同一个URL,从而避免进入死循环或无限循环的情况。实际上,这个集合通常是在Smashing中通过数据结构来实现的,比如哈希表或集合。
可以表示为:
V={u1,u2,u3,...}
其中,u1,u2,u3等表示已访问过的URL,这个集合中的URL会随着爬虫的运行而不断增加。
在Smashing中,实现需要以下几个关键步骤:
定义一个数据结构(如存储表或集合),用于存储已访问过的URL。
在爬虫代码中,每次访问一个URL,先检查该URL是否在已访问集合中。
如果该URL已经在已访问集合中,就跳过该URL,不进行重复访问。
如果该URL不在已访问集合中,则将其添加到已访问集合中,并继续进行抓取操作。
这样,通过实时更新避免已访问集合,爬虫可以重复访问同一个URL,从而更有效地抓取信息。
S12、从集合C中选择一个URL u,表示当访问URL u,获取网页内容,从网页内容中提取需要的信息,将URL添加到集合V中,表示已访问过;
S13、根据网页内容重复步骤S12,直到集合C为空或达到抓取的限制条件。
S2、构建媒体内容特征提取模块,使用自然语言处理技术、图像处理技术和视频分析技术,从S1中抓取的媒体内容中提取多维特征向量;
本实施方式中,虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络,基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。
本实施方式中,媒体内容包括文本、图像和视频,文本内容包括新闻文章、社交媒体帖子、网页和论坛,虚假媒体内容包括虚假新闻、图像篡改和视频伪造。
本实施方式中,S2具体包括:
S21、对于文本内容提取,利用自然语言处理技术,对文本进行分词、词性标签、句法分析处理,基于分词结果,构建词频支撑、TF-IDF支撑或词嵌入支撑表示;
S22、对于图像内容提取,利用图像处理技术,对图像进行尺寸调整、灰度化、归一化调整,颜色提取直方纹理特征、边缘特征,基于模型神经网络模型,使用预模型从图像中提取高级特征;
S23、对于视频内容提取,利用视频分析技术,对视频进行帧差分析、光流分析捕获帧间误差和运动信息,提取时空特征,将使用3D CNN方法一系列帧组合成相互的数据,根据人脸识别、物体检测技术提取视频中的人物和物体信息。
S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;
本实施方式中,S3具体包括:
S31、对虚假媒体内容进行确定标记,形成虚假媒体内容识别模型,包括虚假媒体形象和虚假媒体内容,生成相应的虚假媒体标签,虚假媒体内容识别模型涵盖文本、图像和视频多种类型的媒体内容;
S32、利用自然语言处理技术对文本进行分词、词性标注、消除失效词损失操作,将处理后的文本序列输入循环神经网络进行处理,以捕获文本中的上下文信息;
S33、利用图像处理技术对图像进行尺寸调整、归一化,将重建后的图像输入神经网络中进行特征提取;
S34、对视频内容进行帧级处理,使用复杂神经网络对视频帧进行特征提取;
S35、将帧级特征序列输入循环神经网络中,以捕获视频中的同步信息;
S36、将处理过程中的文本特征、图像特征和视频特征进行融合,通过连接、加权平均等方式将不同类型的特征组合成一个统一的特征处理;
S37、设计深度学习模型的架构,采用多层的深度神经网络和循环神经网络的组合,以及全连接层结构;
S38、利用虚假媒体内容识别模型,将训练融合后的特征向量输入到模型中进行训练,采用适当的损失函数和优化算法进行;
S39、在虚假媒体内容识别模型训练中引入生成对抗网络技术利用验证集对模型进行评估,调整参数和模型结构,完成虚假媒体内容识别模型的建立;
S310、训练好的虚假媒体内容识别模型可以获取抽取的媒体内容的特征进行输入,输出分类决策结果,用于识别媒体内容。
S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;
本实施方式中,S4具体包括:
S41、从S2中构建的虚假媒体内容识别模型中获取多维特征支持;
S42、对标记的虚假媒体内容识别模型进行准备,其中,包括真实媒体内容和意象媒体内容,每个样本都对应一个标签,用于指示内容的真实性;
S43、建立视觉虚假媒体内容识别模型,模型的架构应包括输入层、隐藏层和输出层;
S44、使用准备好的特征处理和标签数据,将其作为训练集输入至虚假媒体内容识别模型,采用监督学习的方法,使用适当的损失函数来计算模型预测值与实际标签之间的托盘;
S45、应用逆向传播算法,在训练数据上进行多次迭代,通过不断调整模型中的权重和偏差参数,使得模型的预测结果逐渐接近实际标签;
S46、利用训练数据对模型进行训练后,利用验证集对模型进行评估,新建模型的性能,利用准确率、准确率、记忆率等来评估模型的性能分类能力;
S47、训练好的云端内容识别模型应用于S5中,通过S2中提取的特征提供输入至模型,进行虚假媒体内容的识别。
S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。
本实施方式中,S5具体包括:
S51、媒体内容被判定为虚假内容,系统通过在虚假内容上添加标记、标签或其他可视化元素来标记其性质;
S52、对于被判定为虚假内容的媒体内容,系统向用户发出预警,提醒他们可能存在预警信息,预警包括弹窗、标识、警告信息形式呈现;
S53、对于被严重危害被标记为虚假的媒体内容,系统选择将其从平台中删除;
S54、系统具备用户反馈模块,用户提供关于虚假媒体内容判定准确性的反馈,反馈用于优化系统的识别性能和准确度,提高虚假媒体内容内容的挖掘及识别效果。
一种虚假媒体内容挖掘及识别系统,其特征在于,系统包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行实现的方法。
本实施方式中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
本实施方式中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
本实施方式中涵盖了文本、图像和视频等多媒体内容的挖掘,通过多维特征提取,实现对多种类型虚假媒体内容进行全面分析和识别,采用深度学习算法,结合深度神经网络和循环神经网络等架构,用于构建和训练媒体内容识别模型,实现对虚假媒体内容高效准确的内容分类判定,同时对虚假媒体内容的识别与反制,通过添加标记、提醒提高用户和删除虚假内容,提高了用户对媒体内容的辨识度和信任度。增加了从媒体内容提取到提取再到分类决策的自动化流程,有效减少了人工处理负担,提高了效率和准确性。包括用户反馈模块,用户可以提供预知媒体内容判断反馈的准确性,这有助于不断优化和完善。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种虚假媒体内容挖掘及识别方法,其特征在于,包括:
S1、通过网络抓取多种类型媒体内容;
S2、构建媒体内容特征提取模块,使用自然语言处理技术、图像处理技术和视频分析技术,从S1中抓取的媒体内容中提取多维特征向量;
S3、建立虚假媒体内容识别模型,利用虚假媒体内容识别模型进行学习和捕获虚假内容;
S4、将S2中提取的特征向量输入至S3中的虚假媒体内容识别模型,通过监督学习进行虚假媒体内容的分类判定;
S5、根据S4中的分类判定结果,对被判定为虚假媒体内容的媒体内容进行标记、警示或删除。
2.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述虚假媒体内容识别模型基于深度学习算法、结合卷积神经网络或循环神经网络,所述基于深度学习算法的虚假媒体内容识别模型包括生成与真实虚假媒体内容相似的样本。
3.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述媒体内容包括文本、图像和视频,所述文本内容包括新闻文章、社交媒体帖子、网页和论坛,所述虚假媒体内容包括虚假新闻、图像篡改和视频伪造。
4.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S1具体包括:
网络媒体内容的抓取,利用网络爬虫程序通过访问互联网上的网站、社交媒体平台、新闻网站,排除媒体内容,按照预设的关键词、时间范围进行搜索和抓取;
网络文本的挖掘抓取:利用自然语言处理技术,分析互联网上的文本内容,提取相关媒体信息;
图像和视频抓取:针对图像和视频内容,使用图像搜索引擎和视频平台的搜索API,抽取图像和视频数据。
5.根据权利要求4所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述网络媒体内容的抓取具体包括:
S11、定义一个集合C,表示待提取的URL集合,定义一个集合V,表示已访问过的URL集合;
S12、从集合C中选择一个URLu,表示当访问URLu,获取网页内容,从网页内容中提取需要的信息,将URL添加到集合V中,表示已访问过;
S13、根据网页内容重复步骤S12,直到集合C为空或达到抓取的限制条件。
6.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S2具体包括:
S21、对于文本内容提取,利用自然语言处理技术,对文本进行分词、词性标签、句法分析处理,基于分词结果,构建词频支撑、TF-IDF支撑或词嵌入支撑表示;
S22、对于图像内容提取,利用图像处理技术,对图像进行尺寸调整、灰度化、归一化调整,颜色提取直方纹理特征、边缘特征,基于模型神经网络模型,使用预模型从图像中提取高级特征;
S23、对于视频内容提取,利用视频分析技术,对视频进行帧差分析、光流分析捕获帧间误差和运动信息,提取时空特征,将使用3D CNN方法一系列帧组合成相互的数据,根据人脸识别、物体检测技术提取视频中的人物和物体信息。
7.根据权利要求2所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S3具体包括:
S31、对虚假媒体内容进行确定标记,形成虚假媒体内容识别模型,包括虚假媒体形象和虚假媒体内容,生成相应的虚假媒体标签,虚假媒体内容识别模型涵盖文本、图像和视频多种类型的媒体内容;
S32、利用自然语言处理技术对文本进行分词、词性标注、消除失效词损失操作,将处理后的文本序列输入循环神经网络进行处理,以捕获文本中的上下文信息;
S33、利用图像处理技术对图像进行尺寸调整、归一化,将重建后的图像输入神经网络中进行特征提取;
S34、对视频内容进行帧级处理,使用复杂神经网络对视频帧进行特征提取;
S35、将帧级特征序列输入循环神经网络中,以捕获视频中的同步信息;
S36、将处理过程中的文本特征、图像特征和视频特征进行融合,通过连接、加权平均等方式将不同类型的特征组合成一个统一的特征处理;
S37、设计深度学习模型的架构,采用多层的深度神经网络和循环神经网络的组合,以及全连接层结构;
S38、利用虚假媒体内容识别模型,将训练融合后的特征向量输入到模型中进行训练,采用适当的损失函数和优化算法进行;
S39、在虚假媒体内容识别模型训练中引入生成对抗网络技术利用验证集对模型进行评估,调整参数和模型结构,完成虚假媒体内容识别模型的建立;
S310、训练好的虚假媒体内容识别模型可以获取抽取的媒体内容的特征进行输入,输出分类决策结果,用于识别媒体内容。
8.根据权利要求2所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S4具体包括:
S41、从S2中构建的虚假媒体内容识别模型中获取多维特征支持;
S42、对标记的虚假媒体内容识别模型进行准备,其中,包括真实媒体内容和意象媒体内容,每个样本都对应一个标签,用于指示内容的真实性;
S43、建立视觉虚假媒体内容识别模型,模型的架构应包括输入层、隐藏层和输出层;
S44、使用准备好的特征处理和标签数据,将其作为训练集输入至虚假媒体内容识别模型,采用监督学习的方法,使用适当的损失函数来计算模型预测值与实际标签之间的托盘;
S45、应用逆向传播算法,在训练数据上进行多次迭代,通过不断调整模型中的权重和偏差参数,使得模型的预测结果逐渐接近实际标签;
S46、利用训练数据对模型进行训练后,利用验证集对模型进行评估,新建模型的性能,利用准确率、准确率、记忆率等来评估模型的性能分类能力;
S47、训练好的云端内容识别模型应用于S5中,通过S2中提取的特征提供输入至模型,进行虚假媒体内容的识别。
9.根据权利要求1所述的一种虚假媒体内容挖掘及识别方法,其特征在于,所述S5具体包括:
S51、媒体内容被判定为虚假内容,系统通过在虚假内容上添加标记、标签或其他可视化元素来标记其性质;
S52、对于被判定为虚假内容的媒体内容,系统向用户发出预警,提醒他们可能存在预警信息,预警包括弹窗、标识、警告信息形式呈现;
S53、对于被严重危害被标记为虚假的媒体内容,系统选择将其从平台中删除;
S54、系统具备用户反馈模块,用户提供关于虚假媒体内容判定准确性的反馈,反馈用于优化系统的识别性能和准确度,提高虚假媒体内容内容的挖掘及识别效果。
10.一种虚假媒体内容挖掘及识别系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行实现权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982347.XA CN117112814A (zh) | 2023-08-07 | 2023-08-07 | 虚假媒体内容挖掘及识别系统及其识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982347.XA CN117112814A (zh) | 2023-08-07 | 2023-08-07 | 虚假媒体内容挖掘及识别系统及其识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117112814A true CN117112814A (zh) | 2023-11-24 |
Family
ID=88811945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310982347.XA Pending CN117112814A (zh) | 2023-08-07 | 2023-08-07 | 虚假媒体内容挖掘及识别系统及其识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112814A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540038A (zh) * | 2024-01-10 | 2024-02-09 | 中国信息通信研究院 | 智能检测虚假数据合成方法和系统 |
-
2023
- 2023-08-07 CN CN202310982347.XA patent/CN117112814A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540038A (zh) * | 2024-01-10 | 2024-02-09 | 中国信息通信研究院 | 智能检测虚假数据合成方法和系统 |
CN117540038B (zh) * | 2024-01-10 | 2024-03-22 | 中国信息通信研究院 | 智能检测虚假数据合成方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763445B (zh) | 专利知识库的构建方法、装置、计算机设备和存储介质 | |
CN112749608B (zh) | 视频审核方法、装置、计算机设备和存储介质 | |
CN106354861B (zh) | 电影标签自动标引方法及自动标引系统 | |
CN107220386A (zh) | 信息推送方法和装置 | |
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
US20100211533A1 (en) | Extracting structured data from web forums | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN113076483A (zh) | 基于案件要素异构图的舆情新闻抽取式摘要方法 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN112818212B (zh) | 语料数据采集方法、装置、计算机设备和存储介质 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN110110218B (zh) | 一种身份关联方法及终端 | |
Tian et al. | Multi-scale hierarchical residual network for dense captioning | |
CN117112814A (zh) | 虚假媒体内容挖掘及识别系统及其识别方法 | |
CN115188067A (zh) | 一种视频行为识别方法、装置、电子设备及存储介质 | |
CN115757991A (zh) | 一种网页识别方法、装置、电子设备和存储介质 | |
CN109918648A (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN115080756A (zh) | 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 | |
JP6498674B2 (ja) | マルチメディア資産の中のオブジェクトを注釈付けするための方法 | |
CN108595466B (zh) | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 | |
CN113297525A (zh) | 网页分类方法、装置、电子设备、及存储介质 | |
CN117131923A (zh) | 一种针对跨模态学习的后门攻击方法及相关装置 | |
CN118013518A (zh) | 网站类别的识别方法及装置、设备、存储介质 | |
US11669583B2 (en) | Generating interactive screenshot based on a static screenshot | |
CN116258600A (zh) | 一种多模态特征融合的社交媒体内容传播预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |