CN115392861A - 多媒体数据审核系统、审核方法、终端及计算机存储介质 - Google Patents
多媒体数据审核系统、审核方法、终端及计算机存储介质 Download PDFInfo
- Publication number
- CN115392861A CN115392861A CN202211017238.6A CN202211017238A CN115392861A CN 115392861 A CN115392861 A CN 115392861A CN 202211017238 A CN202211017238 A CN 202211017238A CN 115392861 A CN115392861 A CN 115392861A
- Authority
- CN
- China
- Prior art keywords
- auditing
- multimedia data
- multimedia
- features
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种多媒体数据审核系统、审核方法、终端及计算机存储介质,多媒体数据审核系统包括流量采集模块、流量还原模块、特征提取模块以及智能审核模块;流量采集模块用于收集被审核平台中与多媒体内容相关的网络流量,获得采集的流量;流量还原模块用于对采集的流量进行分析,找出网络流量中所传输的实际多媒体内容,并且按照格式将多媒体数据保存下来,得到捕获的多媒体数据;特征提取模块用于从捕获的多媒体数据中提取特征;智能审核模块用于对多媒体内容进行审核判断是否存在违规内容。该技术从如何获取多媒体数据和如何提高审核效率两个方面实现突破,能够有效支撑各主体对多媒体业务的高效审核,保证发布内容的规范性和安全性。
Description
技术领域
本发明涉及多媒体审核技术领域,具体涉及一种多媒体数据审核系统、审核方法、终端及计算机存储介质。
背景技术
随着互联网的飞速发展,多媒体已成为政府、媒体、高校等机构的宣传窗口,也是民众获取信息的重要来源,特别是近几年信息量迎来爆发式增长。如果由于信息审核不严,亦或是网页被黑客攻击篡改,从而导致发布的内容出现涉及不良信息,常常会引发较大的影响。因此,内容审核的必要性和紧迫性日益凸显,如何使信息网络系统内容安全并及时发现隐患,已成为各主体(如政府、媒体等机构)信息化健康发展所要考虑的重要事情之一。
当前,鉴于多媒体内容包含信息的复杂性,为保证审核结果的准确,多媒体内容审核主要依赖于人工完成,但随着多媒体规模的增大,人工审核的效率很低,并且在长时间工作后容易产生疏漏。虽然已经出现了部分自动化审核平台,但是这些平台依旧不能够很好应对多样化的多媒体审核需求。一方面,这些审核平台都高度依赖于业务平台的实现方式,需要针对不同的业务平台进行针对性的设计和部署,并且需要随着业务平台的变化而变更;另一方面,现有审核平台主要按照多媒体的不同类型分别实施审核,对融合多种形式的媒体内容审核准确度不高。
因此,设计一种适应性强且审核效率高的多媒体数据审核技术具有重要意义。
发明内容
本发明提供一种多媒体数据审核系统、审核方法、终端及计算机存储介质,该技术从如何获取多媒体数据和如何提高审核效率两个方面实现突破,能够有效支撑各类企事业单位及政府部门对特定多媒体业务的高效审核,保证发布内容的规范性和安全性,本发明的技术方案如下:
一种多媒体数据审核系统,包括流量采集模块、流量还原模块、特征提取模块以及智能审核模块;
流量采集模块用于收集被审核平台中与多媒体内容相关的网络流量,获得采集的流量;
流量还原模块用于对采集的流量进行分析,找出网络流量中所传输的实际多媒体内容,并且按照格式将多媒体数据保存下来,得到捕获的多媒体数据;
特征提取模块用于从捕获的多媒体数据中提取特征;
智能审核模块用于对多媒体内容进行审核判断是否存在违规内容。
考虑到现有多媒体平台的复杂性,保证审核平台与业务平台的松耦合,本发明采用了分布式的流量采集方式,流量采集模块通过部署在业务平台各处的数据采集探针完成,然后将采集到的流量汇聚到一起,经过简单处理后保存;流量还原模块主要负责对采集的流量进行分析,找出网络流量中所传输的实际多媒体内容,并且按照对应的格式将多媒体数据保存下来,通过流量采集模块和流量还原模块的配合,能够在不调整或者微调之后即可与已有业务平台适配,多媒体内容的获取不再严重依赖于具体的业务,从而解决当前多媒体审核平台可扩展性差的额问题;本发明的特征提取采用了多模态特征融合的方式,将不同模态的特征融合在一起用于智能审核模型的训练和检测,从而提高内容审核的准确性;本发明智能审核模块基于机器学习算法先利用特征提取模块提取出来的各项特征训练构造用于多媒体内容审核的模型,然后用该模型对新的多媒体内容进行审核,对其是否存在违规内容做出判断,极大的提高内容审核的效率和准确率。
优选的,所述流量采集模块包括部署在业务平台的多个流量采集探针;捕获的多媒体数据包括文字、图片、音频及视频中的至少一种。
一种多媒体数据的审核方法,包括以下步骤:
步骤S1、多媒体流量采集;
步骤S2、还原多媒体数据;
步骤S3、提取多媒体数据特征,具体是:从多媒体数据中提取文本特征、音频特征及视频特征获得用于内容审核的多媒体数据;
提取文本特征具体操作是:基于常用的文本语义模型对文本内容进行编码,生成用于表达文本主题的向量表示;基于卷积神经网络从文本的向量表示中提取文本特征;
提取音频特征具体操作是:对音频文件进行编码处理,得到音频的向量表示;利用神经网络提取音频的特征,得到具有语义信息的特征向量;
提取视频特征具体操作是:对视频内容进行镜头分割,得到由多个镜头组成的镜头序列;利用3D卷积神经网络对镜头序列进行特征提取,得到视频语义特征,该特征为用于表示视频内容的特征向量;
步骤S4、训练智能审核模型,具体是:根据用于内容审核的多媒体数据获取多媒体数据片段;对多媒体数据片段进行标注得到标注样本;获取每个标注样本关于文本特征、音频特征和视频特征的三个模态的语义特征;利用加权的方式将多个模态语义特征加权融合,得到每个多媒体数据片段的全局性语义特征;基于深度神经网络训练用于多媒体内容审核的多媒体内容安全审核模型;
步骤S5、审核多媒体内容,具体是:将待审核多媒体数据划分成片段,将划分好的片段输入到多媒体内容安全审核模型中,得到该多媒体片段的分类结果。
优选的,步骤S2包括:
步骤S2.1、判断多媒体数据传输采用的应用层协议类型,如果是http协议则转入步骤S2.3,如果是https协议则执行步骤S2.2;
步骤S2.2、获取当前网络流的TLS协议会话密钥,对网络数据中的加密内容进行解密;
步骤S2.3、对网络数据包头部消息域进行分析,判断当前数据包是否存在消息体,如果存在则转入步骤S2.4,如果不存在则转入步骤S2.1开始新的数据包的分析;
步骤S2.4、对消息体中的内容按照会话进行重组,把属于同一会话的消息内容按照一定的顺序放在一起,然后依据消息传输编码对内容进行解析,并按照对应的多媒体格式进行存储。
优选的,步骤S3包括:
步骤S3.1、文本特征的提取,具体是:从多媒体数据中提取文本信息,这里的文本信息包括字幕和弹幕内容,保存为非结构化文本;基于常用的文本语义模型GoogleNews对文本内容进行编码,生成用于表达文本主题的向量表示,每个句子的用一个二维向量表示,其中:d为每个单词的向量维度,n为每个句子中的单词个数;基于卷积神经网络从文本的向量表示中提取特征,该特征为向量形式;
步骤S3.2、音频特征的提取,具体是:从多媒体数据中提取音频信息,并保存为特定音频格式文件,例如wav格式;对音频文件进行编码处理,得到音频的向量表示;利用神经网络提取音频的特征,得到具有语义信息的特征向量;
步骤S3.3、视频特征的提取,具体是:从多媒体文件中提取视频信息,并保存为特定的视频格式文件;对视频内容进行镜头分割,得到由多个镜头组成的镜头序列;利用3D卷积神经网络对镜头序列进行特征提取,得到视频语义特征,该特征为用于表示视频内容的特征向量。
优选的,步骤S3.2中对音频文件进行编码处理具体包括以下步骤:①、进行声音信号预加重处理,消除噪音对高频声音信号的影响;②、将音频信号按时间划分为固定长度的帧;③、通过加窗处理消除信号帧两端的不连续性;④、进行快速傅里叶变化得到声音信号的功率谱;⑤、基于人耳听觉特性,用一组三角带通滤波器对信号进行滤波得到各个频率区间的频谱能量;⑥、利用离散余弦变换将上述特征转化为线性特征。
优选的,步骤S4包括以下步骤:
步骤S4.1、获取用于内容审核的多媒体数据,按照固定长度对多媒体数据进行分割,得到多媒体数据片段;
步骤S4.2、利用人工审核的方式为多媒体数据片段进行标注相应的标签,得到标注样本;标签包括合规、涉黄、涉恐、涉政、涉军五类;
步骤S4.3、获取每个标注样本的三个模态的语义特征,即文本特征、音频特征和视频特征,每一种特征用相应的特征向量来表示;
步骤S4.4、利用加权的方式将多个模态语义特征加权融合,得到每个多媒体数据片段的全局性语义特征V,即V=w1*v1+w2*v2+(1-w1-w2)*v3,其中: v1、v2、v3分别是三个模态的特征向量,w1,w2为相应的权重值;
步骤S4.5、基于深度神经网络训练用于多媒体内容审核的模型;
步骤S4.6、按照固定的步长调整多模态融合的权重参数w1和w2;重复步骤S4.5的训练过程,得到新的多媒体内容安全审核模型;
步骤S4.7、以准确率、召回率和F1值作为评测指标,比较步骤S4.5和步骤S4.6中两个审核模型的性能,保留性能较高的审核模型;
步骤S4.8、重复步骤S4.5至步骤S4.7,使得多模态融合的权重参数w1和w2遍历其取值区间内的值,得到最终的多媒体内容安全审核模型,以及对应的多模态融合的参数 w1和w2。
优选的,所述深度神经网络包括输入层、隐藏层和输出层,具体的训练过程包括:
步骤①、将标注样本输入到初始的审核模型,经过神经网络各层的计算后得到分类的结果,即该标注样本对应的多媒体数据片段所对应的标签;
步骤②、接着利用均方误差作为损失函数,确定此次训练的误差损失,然后基于此误差损失对初始的审核模型中的参数进行调整;
步骤③、将下一个标注样本输入到经过参数调整的审核模型中,再次计算得到分类结果以及对应的误差损失,之后再次对审核模型中的参数进行调整,判定误差损失的值是否小于设定的阈值,若是则进入下一步,否则返回步骤①;
步骤④将此时经过参数调整后模型作为最终多媒体内容安全审核模型。
一种多媒体数据审核终端,包括:
储存器,用于储存计算机程序;
处理器,用于运行所述计算机程序,以执行如上述的多媒体数据的审核方法。
一种计算机存储介质,存储有计算机程序,所述计算机程序用于运行时实现如上述的多媒体数据的审核方法。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中多媒体数据审核系统示意图;
图2是本发明实施例审核方法的流程图;
图3是图2中特征提取模块进行多媒体数据特征提取及审核模型的框架示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。
实施例:
一种多媒体数据审核系统,详见图1,包括流量采集模块、流量还原模块、特征提取模块以及智能审核模块,其中:流量采集模块用于收集被审核平台中与多媒体内容相关的网络流量,获得采集的流量;流量还原模块用于对采集的流量进行分析,找出网络流量中所传输的实际多媒体内容,并且按照格式将多媒体数据保存下来,得到捕获的多媒体数据;特征提取模块用于从捕获的多媒体数据中提取特征;智能审核模块用于对多媒体内容进行审核判断是否存在违规内容。
本实施例中有优选的,所述流量采集模块包括部署在业务平台的多个流量采集探针;捕获的多媒体数据包括文字、图片、音频及视频中的至少一种。
应用本实施例的多媒体数据审核系统进行多媒体数据的审核方法,详见图2,包括以下步骤:
步骤S1、多媒体流量采集,具体是:在多媒体内容审核开始时,流量采集模块利用已经部署在被审核平台各个业务出口的流量采集探针实时捕获网络流量,并汇聚到审核平台,经过预处理后存储。该步骤具体如下:
步骤S1.1、流量采集模块启动部署在被审核平台各个业务出口的流量采集探针,设定相关参数(可参照现有技术,按需设定),开始抓取流经特定网络设备的网络流量包;
步骤S1.2、流量采集探针将抓到的数据传到指定位置形成流量数据包;
步骤S1.3、分析采集到的流量数据包,对传输过程中进行分配的数据包进行重组,将属于同一个多媒体数据的网络数据包存储在一起获得采集的流量。
步骤S2、还原多媒体数据,具体是:分析捕获的网络流量,从中提取还原网络数据包中传输的多媒体内容,并按照对应的格式保存。具体如下:
步骤S2.1、判断多媒体数据传输采用的应用层协议类型,如果是http协议则转入步骤S2.3,如果是https协议则执行步骤S2.2;
步骤S2.2、获取当前网络流的TLS协议会话密钥,对网络数据中的加密内容进行解密;
步骤S2.3、对网络数据包头部消息域进行分析(这里主要是根据HTTP协议的报文格式对HTTP头部的各个字段进行分析,如:首先,需要判断是否接收到完整的头部消息,如果以"/r/n"结束,则表明头部接收完整;然后,根据HTTP报文头部的格式对URL、 Content-type等字段逐一判定解析,此格式标明了各个字段的大小以及顺序),判断当前数据包是否存在消息体,如果存在则转入步骤S2.4,如果不存在则转入步骤S2.1开始新的数据包的分析;
步骤S2.4、对消息体中的内容按照会话进行重组,把属于同一会话的消息内容按照一定的顺序放在一起,然后依据消息传输编码对内容进行解析,并按照对应的多媒体格式进行存储。
步骤S3、提取多媒体数据特征,详见图3,具体是:从多媒体数据中提取文本特征、音频特征及视频特征获得用于内容审核的多媒体数据;
提取文本特征具体操作是:基于常用的文本语义模型对文本内容进行编码,生成用于表达文本主题的向量表示;基于卷积神经网络从文本的向量表示中提取文本特征;
提取音频特征具体操作是:对音频文件进行编码处理,得到音频的向量表示;利用神经网络提取音频的特征,得到具有语义信息的特征向量;
提取视频特征具体操作是:对视频内容进行镜头分割,得到由多个镜头组成的镜头序列;利用3D卷积神经网络对镜头序列进行特征提取,得到视频语义特征,该特征为用于表示视频内容的特征向量。
本实施例中进一步优选的包含如下步骤:
步骤S3.1、文本特征的提取,具体是:从多媒体数据中提取文本信息,这里的文本信息包括字幕和弹幕内容,保存为非结构化文本;基于常用的文本语义模型GoogleNews对文本内容进行编码,生成用于表达文本主题的向量表示,每个句子的用一个二维向量表示,其中:d为每个单词的向量维度,n为每个句子中的单词个数;基于卷积神经网络从文本的向量表示中提取特征,该特征为向量形式。
步骤S3.2、音频特征的提取,具体是:从多媒体数据中提取音频信息,并保存为特定音频格式文件,例如wav格式;对音频文件进行编码处理,得到音频的向量表示;利用神经网络提取音频的特征,得到具有语义信息的特征向量。此处对音频文件进行编码处理具体包括以下步骤:①、进行声音信号预加重处理,消除噪音对高频声音信号的影响;②、将音频信号按时间划分为固定长度的帧;③、通过加窗处理消除信号帧两端的不连续性;④、进行快速傅里叶变化得到声音信号的功率谱;⑤、基于人耳听觉特性,用一组三角带通滤波器对信号进行滤波得到各个频率区间的频谱能量;⑥、利用离散余弦变换将上述特征转化为线性特征。进一步优选采用梅尔倒谱系数(简称MFCC)方法进行音频编码处理。
步骤S3.3、视频特征的提取,具体是:从多媒体文件中提取视频信息,并保存为特定的视频格式文件;对视频内容进行镜头分割,得到由多个镜头组成的镜头序列;利用3D卷积神经网络对镜头序列进行特征提取,得到视频语义特征,该特征为用于表示视频内容的特征向量。
本实施例中进一步优选的,对各个模态的特征数据进行标准化处理,使其数据分布转换为正态分布,从而减少特征间的相关性。
步骤S4、训练智能审核模型,具体是:根据用于内容审核的多媒体数据获取多媒体数据片段;对多媒体数据片段进行标注得到标注样本;获取每个标注样本关于文本特征、音频特征和视频特征的三个模态的语义特征;利用加权的方式将多个模态语义特征加权融合,得到每个多媒体数据片段的全局性语义特征;基于深度神经网络训练用于多媒体内容审核的多媒体内容安全审核模型。本实施例优选具体步骤如下:
步骤S4.1、获取用于内容审核的多媒体数据,按照固定长度对多媒体数据进行分割,得到多媒体数据片段;
步骤S4.2、利用人工审核的方式为多媒体数据片段进行标注相应的标签,得到标注样本;标签包括合规、涉黄、涉恐、涉政、涉军五类;
步骤S4.3、获取每个标注样本的三个模态的语义特征,即文本特征、音频特征和视频特征,每一种特征用相应的特征向量来表示;
步骤S4.4、利用加权的方式将多个模态语义特征加权融合,得到每个多媒体数据片段的全局性语义特征V,即V=w1*v1+w2*v2+(1-w1-w2)*v3,其中: v1、v2、v3分别是三个模态的特征向量,w1、w2为相应的权重值;
步骤S4.5、基于深度神经网络训练用于多媒体内容审核的模型;
步骤S4.6、按照固定的步长调整多模态融合的权重参数w1和w2;重复步骤S4.5的训练过程,得到新的多媒体内容安全审核模型;
步骤S4.7、以准确率、召回率和F1值作为评测指标,比较步骤S4.5和步骤S4.6中两个审核模型的性能,保留性能较高的审核模型;
步骤S4.8、重复步骤S4.5至步骤S4.7,使得多模态融合的权重参数w1和w2遍历其取值区间内的值,最终得到性能最高的多媒体内容安全审核模型,以及对应的多模态融合的参数w1和w2。
进一步优选的,所述深度神经网络包括输入层、隐藏层和输出层,训练过程包括:
步骤①、将标注样本输入到初始的审核模型,经过神经网络各层的计算后得到分类的结果,即该标注样本对应的多媒体数据片段所对应的标签;
步骤②、接着利用均方误差作为损失函数,确定此次训练的误差损失,然后基于此误差损失对初始的审核模型中的参数进行调整;
步骤③、将下一个标注样本输入到经过参数调整的审核模型中,再次计算得到分类结果以及对应的误差损失,之后再次对审核模型中的参数进行调整,判定误差损失的值是否小于设定的阈值,若是则进入下一步,否则返回步骤①;
步骤④将此时经过参数调整后模型作为最终多媒体内容安全审核模型。
步骤S5、审核多媒体内容,具体是:将待审核多媒体数据划分成片段,将划分好的片段输入到多媒体内容安全审核模型中,得到该多媒体片段的分类结果。优选以下步骤:
步骤S5.1、获取待审核多媒体数据,具体来说就是通过前述流量采集和流量还原的方法,从被检测目标网络流量中得到多媒体数据;
步骤S5.2、将待审核多媒体数据进行预处理,按照指定的长度划分成片段;
步骤S5.3、将划分好的片段输入到多媒体内容安全审核模型中,得到该多媒体片段的分类结果,其中,多媒体片段的特征提取和审核模型训练过程的特征提取相同,此处不在赘述。
步骤S5.4、对待审核多媒体数据的所有片段的分类结果进行统计,将相同类型标签的数目求和,如果求和的值大于预设的阈值,则将该标签作为待审核多媒体数据的审核结果。
针对当前互联网新媒体爆炸式增长的问题,将本发明所述多媒体内容审核系统及审核方法部署应用于某融媒体中心,实现对报社稿件内容的在线审核与全程跟踪管理,确保涉政敏感内容正确,及时预防拦截内容,准确率高。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多媒体数据审核系统,其特征在于,包括流量采集模块、流量还原模块、特征提取模块以及智能审核模块;
流量采集模块用于收集被审核平台中与多媒体内容相关的网络流量,获得采集的流量;
流量还原模块用于对采集的流量进行分析,找出网络流量中所传输的实际多媒体内容,并且按照格式将多媒体数据保存下来,得到捕获的多媒体数据;
特征提取模块用于从捕获的多媒体数据中提取特征;
智能审核模块用于对多媒体内容进行审核判断是否存在违规内容。
2.根据权利要求1所述的多媒体数据审核系统,其特征在于,所述流量采集模块包括部署在业务平台的多个流量采集探针;捕获的多媒体数据包括文字、图片、音频及视频中的至少一种。
3.一种多媒体数据的审核方法,其特征在于,包括以下步骤:
步骤S1、多媒体流量采集;
步骤S2、还原多媒体数据;
步骤S3、提取多媒体数据特征,具体是:从多媒体数据中提取文本特征、音频特征及视频特征获得用于内容审核的多媒体数据;
提取文本特征具体操作是:基于常用的文本语义模型对文本内容进行编码,生成用于表达文本主题的向量表示;基于卷积神经网络从文本的向量表示中提取文本特征;
提取音频特征具体操作是:对音频文件进行编码处理,得到音频的向量表示;利用神经网络提取音频的特征,得到具有语义信息的特征向量;
提取视频特征具体操作是:对视频内容进行镜头分割,得到由多个镜头组成的镜头序列;利用3D卷积神经网络对镜头序列进行特征提取,得到视频语义特征,该特征为用于表示视频内容的特征向量;
步骤S4、训练智能审核模型,具体是:根据用于内容审核的多媒体数据获取多媒体数据片段;对多媒体数据片段进行标注得到标注样本;获取每个标注样本关于文本特征、音频特征和视频特征的三个模态的语义特征;利用加权的方式将多个模态语义特征加权融合,得到每个多媒体数据片段的全局性语义特征;基于深度神经网络训练用于多媒体内容审核的多媒体内容安全审核模型;
步骤S5、审核多媒体内容,具体是:将待审核多媒体数据划分成片段,将划分好的片段输入到多媒体内容安全审核模型中,得到该多媒体片段的分类结果。
4.根据权利要求3所述的审核方法,其特征在于,步骤S2包括:
步骤S2.1、判断多媒体数据传输采用的应用层协议类型,如果是http协议则转入步骤S2.3,如果是https协议则执行步骤S2.2;
步骤S2.2、获取当前网络流的TLS协议会话密钥,对网络数据中的加密内容进行解密;
步骤S2.3、对网络数据包头部消息域进行分析,判断当前数据包是否存在消息体,如果存在则转入步骤S2.4,如果不存在则转入步骤S2.1开始新的数据包的分析;
步骤S2.4、对消息体中的内容按照会话进行重组,把属于同一会话的消息内容按照一定的顺序放在一起,然后依据消息传输编码对内容进行解析,并按照对应的多媒体格式进行存储。
5.根据权利要求4所述的审核方法,其特征在于,步骤S3包括:
步骤S3.1、文本特征的提取,具体是:从多媒体数据中提取文本信息,这里的文本信息包括字幕和弹幕内容,保存为非结构化文本;基于常用的文本语义模型GoogleNews对文本内容进行编码,生成用于表达文本主题的向量表示,每个句子的用一个二维向量表示,其中:d为每个单词的向量维度,n为每个句子中的单词个数;基于卷积神经网络从文本的向量表示中提取特征,该特征为向量形式;
步骤S3.2、音频特征的提取,具体是:从多媒体数据中提取音频信息,并保存为特定音频格式文件,例如wav格式;对音频文件进行编码处理,得到音频的向量表示;利用神经网络提取音频的特征,得到具有语义信息的特征向量;
步骤S3.3、视频特征的提取,具体是:从多媒体文件中提取视频信息,并保存为特定的视频格式文件;对视频内容进行镜头分割,得到由多个镜头组成的镜头序列;利用3D卷积神经网络对镜头序列进行特征提取,得到视频语义特征,该特征为用于表示视频内容的特征向量。
6.根据权利要求5所述的审核方法,其特征在于,步骤S3.2中对音频文件进行编码处理具体包括以下步骤:①、进行声音信号预加重处理,消除噪音对高频声音信号的影响;②、将音频信号按时间划分为固定长度的帧;③、通过加窗处理消除信号帧两端的不连续性;④、进行快速傅里叶变化得到声音信号的功率谱;⑤、基于人耳听觉特性,用一组三角带通滤波器对信号进行滤波得到各个频率区间的频谱能量;⑥、利用离散余弦变换将上述特征转化为线性特征。
7.根据权利要求6所述的审核方法,其特征在于,步骤S4包括以下步骤:
步骤S4.1、获取用于内容审核的多媒体数据,按照固定长度对多媒体数据进行分割,得到多媒体数据片段;
步骤S4.2、利用人工审核的方式为多媒体数据片段进行标注相应的标签,得到标注样本;标签包括合规、涉黄、涉恐、涉政、涉军五类;
步骤S4.3、获取每个标注样本的三个模态的语义特征,即文本特征、音频特征和视频特征,每一种特征用相应的特征向量来表示;
步骤S4.4、利用加权的方式将多个模态语义特征加权融合,得到每个多媒体数据片段的全局性语义特征V,即V=w1*v1+w2*v2+(1-w1-w2)*v3,其中:v1、v2、v3分别是三个模态的特征向量,w1、w2为相应的权重值;
步骤S4.5、基于深度神经网络训练用于多媒体内容审核的模型;
步骤S4.6、按照固定的步长调整多模态融合的权重参数w1和w2;重复步骤S4.5的训练过程,得到新的多媒体内容安全审核模型;
步骤S4.7、以准确率、召回率和F1值作为评测指标,比较步骤S4.5和步骤S4.6中两个审核模型的性能,保留性能较高的审核模型;
步骤S4.8、重复步骤S4.5至步骤S4.7,使得多模态融合的权重参数w1和w2遍历其取值区间内的值,得到最终的多媒体内容安全审核模型。
8.根据权利要求7所述的审核方法,其特征在于,所述深度神经网络包括输入层、隐藏层和输出层,具体的训练过程包括:
步骤①、将标注样本输入到初始的审核模型,经过神经网络各层的计算后得到分类的结果,即该标注样本对应的多媒体数据片段所对应的标签;
步骤②、接着利用均方误差作为损失函数,确定此次训练的误差损失,然后基于此误差损失对初始的审核模型中的参数进行调整;
步骤③、将下一个标注样本输入到经过参数调整的审核模型中,再次计算得到分类结果以及对应的误差损失,之后再次对审核模型中的参数进行调整,判定误差损失的值是否小于设定的阈值,若是则进入下一步,否则返回步骤①;
步骤④将此时经过参数调整后模型作为最终的多媒体内容安全审核模型。
9.一种多媒体数据审核终端,其特征在于,包括:
储存器,用于储存计算机程序;
处理器,用于运行所述计算机程序,以执行如权利要求3-8任意一项所述的多媒体数据的审核方法。
10.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序用于运行时实现如权利要求3-8任意一项所述的多媒体数据的审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017238.6A CN115392861A (zh) | 2022-08-23 | 2022-08-23 | 多媒体数据审核系统、审核方法、终端及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017238.6A CN115392861A (zh) | 2022-08-23 | 2022-08-23 | 多媒体数据审核系统、审核方法、终端及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392861A true CN115392861A (zh) | 2022-11-25 |
Family
ID=84121302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211017238.6A Pending CN115392861A (zh) | 2022-08-23 | 2022-08-23 | 多媒体数据审核系统、审核方法、终端及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392861A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834935A (zh) * | 2022-12-21 | 2023-03-21 | 阿里云计算有限公司 | 多媒体信息审核方法、广告审核方法、设备及存储介质 |
CN116366327A (zh) * | 2023-03-27 | 2023-06-30 | 中国华能集团有限公司北京招标分公司 | 一种网络流量还原和监控方法 |
CN116415017A (zh) * | 2023-03-17 | 2023-07-11 | 湖北巨字传媒有限公司 | 基于人工智能的广告敏感内容审核方法及系统 |
CN117132218A (zh) * | 2023-07-17 | 2023-11-28 | 杭州逍邦网络科技有限公司 | 工作流管理系统 |
-
2022
- 2022-08-23 CN CN202211017238.6A patent/CN115392861A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834935A (zh) * | 2022-12-21 | 2023-03-21 | 阿里云计算有限公司 | 多媒体信息审核方法、广告审核方法、设备及存储介质 |
CN116415017A (zh) * | 2023-03-17 | 2023-07-11 | 湖北巨字传媒有限公司 | 基于人工智能的广告敏感内容审核方法及系统 |
CN116415017B (zh) * | 2023-03-17 | 2024-03-29 | 湖北巨字传媒有限公司 | 基于人工智能的广告敏感内容审核方法及系统 |
CN116366327A (zh) * | 2023-03-27 | 2023-06-30 | 中国华能集团有限公司北京招标分公司 | 一种网络流量还原和监控方法 |
CN117132218A (zh) * | 2023-07-17 | 2023-11-28 | 杭州逍邦网络科技有限公司 | 工作流管理系统 |
CN117132218B (zh) * | 2023-07-17 | 2024-03-19 | 杭州逍邦网络科技有限公司 | 工作流管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115392861A (zh) | 多媒体数据审核系统、审核方法、终端及计算机存储介质 | |
Nguyen et al. | Automatic image filtering on social networks using deep learning and perceptual hashing during crises | |
Iuliani et al. | A video forensic framework for the unsupervised analysis of MP4-like file container | |
Sawhney et al. | Situational awareness from environmental sounds | |
CN109275045B (zh) | 基于dfi的移动端加密视频广告流量识别方法 | |
CN113407886A (zh) | 网络犯罪平台识别方法、系统、设备和计算机存储介质 | |
CN113327621A (zh) | 模型训练方法、用户识别方法、系统、设备及介质 | |
CN113806609A (zh) | 一种基于mit和fsm的多模态情感分析方法 | |
CN110991246A (zh) | 一种视频检测方法及系统 | |
Abbasi et al. | A large-scale benchmark dataset for anomaly detection and rare event classification for audio forensics | |
Zhang et al. | Detecting sound events in basketball video archive | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN111464510A (zh) | 一种基于快速梯度提升树模型的网络实时入侵检测方法 | |
CN110347900A (zh) | 一种关键词的重要度计算方法、装置、服务器及介质 | |
CN106710588A (zh) | 语音数据句类识别方法和装置及系统 | |
WO2021248707A1 (zh) | 一种操作的验证方法和装置 | |
CN114022923A (zh) | 智能采编系统 | |
CN112579744A (zh) | 一种在线心理咨询中风险控制的方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
CN110414594B (zh) | 一种基于双阶段判定的加密流量分类方法 | |
CN109194622B (zh) | 一种基于特征效率的加密流量分析特征选择方法 | |
CN116232644A (zh) | 基于ai的网络诈骗行为分析方法和系统 | |
CN116189706A (zh) | 数据传输方法、装置、电子设备和计算机可读存储介质 | |
CN114205151A (zh) | 基于多特征融合学习的http/2页面访问流量识别方法 | |
Said et al. | Attention-based CNN-BiLSTM deep learning approach for network intrusion detection system in software defined networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |