CN110991246A

CN110991246A - 一种视频检测方法及系统

Info

Publication number: CN110991246A
Application number: CN201911063182.6A
Authority: CN
Inventors: 夏光升; 孙涛
Original assignee: Tianjin Guorui Digital Safety System Co ltd
Current assignee: Tianjin Guorui Digital Safety System Co ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-04-10

Abstract

本发明涉及一种视频检测方法，包括以下步骤：提取视频的关键帧，并将所述关键帧进行汇总；利用神经网络对所述关键帧进行逐帧识别，得出每个所述关键帧的识别结果；对所述关键帧的识别结果进行权重分析，筛选出违规的视频。通过训练好的神经网络对视频的关键帧进行逐帧识别，根据识别结果进行权重分析，从而准确高效的筛查出包含有违规信息的视频文件；系统采用了人脸检测及人脸识别技术以满足在海量视频中对特定人物进行检索的需求；对于一些违规视频其中包含了特定自然人的音频特征，其中经常出现于一些暴恐类视频当中，系统将采用GMM‑UBM模型实现特定自然人的声纹识别，从而对特定自然人的身份进行确认。

Description

一种视频检测方法及系统

技术领域

本发明属于信息技术领域，特别涉及一种视频检测方法及系统。

背景技术

近年来随着计算机技术、网络技术和多媒体技术的飞速发展，媒体获取、传输和发布方式发生了巨大的变革，云计算、多媒体都得到了广泛的应用。越来越多用户已经可以方便地实现网络视频通信、订阅和播放网络上的多媒体数据，这些应用使得对网络多媒体的安全监控成为必然，多媒体安全涵盖了政治、经济、技术、文化、人身等多个层面，但多媒体网络节点分散、强动态变化等特性使得其不易管理和安全性较差，因此，开展违规视频检测与分析将具有重要的意义。

违规视频检测主要针对互联网资源管辖范围内视频信息进行监测分析，基于大数据深度学习和注意力模型的深度视频摘要方法，发现和识别有害媒体信息，并采取相应的处置管控措施，从而如何加强互联网管理，营造绿色、健康、有序的多媒体传播环境越来越成为亟待解决的问题。

因此，需要一种检测互联网中有害信息的方法和系统。

发明内容

针对上述问题，本发明涉及一种视频检测方法，包括以下步骤：

提取视频的关键帧，并将所述关键帧进行汇总；

利用神经网络对所述关键帧进行逐帧识别，得出每个所述关键帧的识别结果；

对所述关键帧的识别结果进行权重分析，筛选出违规的视频。

优选的，所述方法还包括基于神经网络，生成分类模型，具体包括，

收集违规样本图片，并对违规样本图片进行预处理；

利用神经网路，对预处理的所述违规样本图片进行识别。

优选的，所述方法还包括基于多任务卷积神经网络与人脸分析神经网络对视频中的特定目标人物进行检测，包括以下步骤：

基于多任务卷积神经网络检测所述视频中的目标人脸，并输出人脸的边界框及相对应的人脸特征；

对所述检测出的目标人脸进行跟踪和对齐；

基于人脸分析神经网络提取所述检测出的目标人脸的特征编码，并保存到目标人脸特征库；

将未知人脸的特征编码与目标人脸特征库中的目标人脸特征编码进行对照；

计算未知人脸与目标人脸之间的欧氏距离，根据欧式距离判断未知人脸是否为目标人脸。

优选的，所述方法还包括建立所述目标人脸特征库，具体包括以下步骤：

针对特定目标人物搜集多张面部图片；

通过多任务卷积神经网络对所述搜集的多张面部图片进行检测；

再利用人脸分析神经网络提取所述多张面部图片的人脸特征编码，建立目标人脸特征库。

优选的，将非特定目标人物的语音特征根据GMM高斯混合模型训练，建立通用背景模型；

将一个或多个特定目标人物的语音特征与通用背景模型绑定，建立一个或多个与特定目标人物相对应的自适应模型；

基于通用背景模型和一个或多个自适应模型，建立目标模型库。

优选的，所述方法还包括通过声纹识别对所述视频中的说话人是否为特定目标人物进行识别，具体包括：

提取所述视频中说话人的音频特征；

将说话人的语音特征分别在所述特定目标人物的自适应模型和通用背景模型下进行评分；

利用对数似然比算法判断所述说话人是否为所述特定目标人物：

若在所述特定目标人物自适应模型下的评分高于在通用背景模型下的评分，则说话人为特定目标人物；

若在所述特定目标人物自适应模型下的评分低于在通用背景模型下的评分，则说话人不是特定目标人物。

优选的，所述方法还包括视频中出现多个说话人时，通过声纹识别对所述视频中的多个说话人进行识别，具体包括：

提取多个说话人的语音特征，将多个说话人中每一个说话人语音特征分别在目标模型库中的所有自适应模型下进行评分；

提取每个说话人最高分值对应的自适应模型；

判断说话人是否为所述提取出的自适应模型对应的特定目标人物，其中：

若最高分值＞阈值，则检测到说话人是特定目标人物；

若最高分值≤阈值，则检测到说话人不是特定目标人物。

优选的，所述提取视频的关键帧之前还包括获取互联网访问日志、域名解析日志中的视频和/或第三方系统推送的视频。

一种视频检测系统，包括提取模块、检测模块和筛选模块，其中，

所述提取模块，用于提取视频的关键帧，并将所述关键帧进行汇总；

所述检测模块，用于利用神经网络对所述关键帧进行逐帧识别，得出每个所述关键帧的识别结果；

所述筛选模块，用于对所述关键帧的识别结果进行权重分析，筛选出违规的视频。

优选的，还包括人脸识别模块；

所述人脸识别模块，用于执行以下步骤：

对所述检测出的目标人脸进行跟踪和对齐；

优选的，还包括语音识别模块；

所述语音识别模块包括单人识别单元和多人识别单元；

所述单人识别单元，用于执行以下步骤：

提取所述视频中说话人的音频特征；

将说话人的语音特征分别在特定目标人物的自适应模型和通用背景模型下进行评分；

若在所述特定目标人物自适应模型下的评分低于在通用背景模型下的评分，则说话人不是特定目标人物；

所述多人识别单元，用于执行以下步骤：

提取每个说话人最高分值对应的自适应模型，

并判断说话人是否为所述提取出的自适应模型对应的特定目标人物，其中：

若最高分值＞阈值，则检测到说话人是特定目标人物；

若最高分值≤阈值，则检测到说话人不是特定目标人物。

本发明的有益效果：通过训练好的神经网络对视频的关键帧进行逐帧识别，根据识别结果进行权重分析，从而准确高效的筛查出包含有违规信息的视频文件；系统采用了人脸检测及人脸识别技术以满足在海量视频中对特定人物(政治人物、敏感人物)进行检索的需求；对于一些违规视频其中包含了特定自然人的音频特征，其中经常出现于一些暴恐类视频当中，系统将采用GMM-UBM模型实现特定自然人的声纹识别，从而对特定自然人的身份进行确认。若确定视频为违规视频，系统将视频的关键帧推送给第三方系统，第三方对违规视频进行封阻。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的视频违规检测流程示意图；

图2示出了本发明实施例的说话人自适应模型建立流程图；

图3示出了本发明实施例的多个说话人识别时声纹识别流程图；

图4示出了本发明实施例的多个特定目标人物声纹识别流程示意图；

图5示出了本发明实施例中的违规视频的结果推送流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明以视频检测的检测方式为例进行示例性说明，并不限于视频检测这一种检测方式。

提取视频的关键帧，并将所述关键帧进行汇总；

对视频进行检测时，需要对视频进行分解提取，将视频分解成关键帧。1秒的视频通常在24帧以上，即FPS(每秒传输帧数)，帧数越高，视频的流畅度越高。通过ffmpeg视频截帧软件，按规定时间间隔(5-10s)提取视频关键帧，将提取的多个关键帧组合成图片数据组。

通过神经网络对图片数据组中的每一个帧数进行检测，在神经网络中输入关键帧，输出分别为违规和不违规的概率，如果单张图片违规的概率值大于规定阈值(0.7)，认为此图片违规。

对所述关键帧的识别结果进行权重分析，筛选出违规的视频；

权重分析能够增加识别结果中的分析效果，是对识别结果中的重要部分进行分析。如果整个视频中违规的关键帧占总截取关键帧的比值超过阈值(5％)或该视频违规的关键帧数量超过10，则认为该视频为违规视频，从而准确高效的筛查出包含违规信息的视频。

示例性的，神经网络对视频进行识别时，视频的格式主要包括：MP4、AVI、RMVB、MPEG、WMV及FLV等文件格式，其中视频格式并不限于表述的类型。

示例性的，对视频进行逐帧识别时，可以通过GPU(图形处理器)加速识别算法，实现每秒处理700+帧，每分钟处理500+视频的违规信息识别效率，视频识别准确率达到98％，为净化互联网环境提供有效的技术支撑。其中，GPU仅作为识别帧信息的举例说明，并不仅限于GPU这一种识别方式，例如CPU(中央处理器)。

需要检测的视频通过以下方式对视频进行下载；

可以通过分布式爬虫引擎实现对海量IDC的访问日志及DNS解析日志中的包含视频的URL进行抓取，获取视频。其中，获取视频的方式主要是基于网络日志下的视频抓取。对包含视频的链接进行爬取后，通过数据清洗、任务分发、视频下载和数据持久化的步骤，对链接中的视频进行处理，最终将视频存入分布式服务器，具体的：

数据清洗：通过数据库集群服务器对IDC的访问日志及DNS解析日志中的视频URL进行存储，然后通过数据清洗工具对URL进行过滤和清洗，主要将URL中不合规则的数据进行清洗以及对URL中的数据进行去重等操作。然后将清洗和去重后的URL存储到分布式数据服务器中，通过分布式爬虫引擎抓取分布式数据服务器内部的视频。

其中，URL中的视频存在错误或乱码时，需要对错误或乱码的部分进行全面清除，减少检测时所需的时间，同时也能避免错误或乱码的部分对违规检测系统的干扰。

任务分发：分布式爬虫引擎对URL进行分布式抓取时，对待抓取的URL信息进行并发操作。抓取时，综合判断抓取部分的运转程度，监测各个抓取部分的任务执行情况及资源使用情况，自动将闲置的资源分配给当前急需的抓取部分，实现全部抓取部分的负载均衡。

示例性的，本系统可以采用Kafka+Storm框架对任务进行分发，并不限于Kafka+Storm框架对任务户进行分发这一种方式。使用开源流处理平台(Kafka)，将接收的生产者视频URL分发到集群各个节点，同时，使用Storm分布式实时大数据处理系统，处理大量的流式数据。

Storm对Kafka的数据进行消费，将接收到的URL信息进行多线程并行视频下载，从而提高每个节点中任务的并行度，实现(实时)高速的流式分布式操作。

视频下载：URL数据抓取后，可以通过模拟浏览器对静态页面的样本图片采集以及动态页面的视频下载。在页面抓取过程中，对于无法打开及返回错误信息的网页进行自动重爬，直至超过重爬阈值。同时，会将超过重爬阈值URL进行归档，用于后面进行迭代抓取。示例性的，若重爬阈值设置为3，则页面抓取时，一次抓取失败，二次抓取失败，三次抓取失败，此时超过重爬阈值时，将此次抓取的URL进行归档，用于后面进行迭代抓取。

数据持久化：违规检测系统得到完整的网页内容之后，将网页内容以MP4、AVI、RMVB等的格式进行保存。系统将下载的视频存入分布式存储系统中，以便用于海量视频的违规检测。

同时，系统可以根据需求将视频的相关关联信息存入到关系型数据库(MySQL)，用于前台查询展示，展示的方式为涉黄图片展示、涉黄视频展示、暴恐视频展示、涉政人物识别以及自然人声纹建模。

视频检测方法还包括基于神经网络，生成分类模型，具体包括，

收集违规样本图片，并对违规样本图片进行预处理；

对样本图片进行预处理：为了剔除无效图片，把gif类型的图片按等间隔截成5张图片(识别结果为5张图片的违规概率的平均值)，把图片按最短边等比例缩放到256，从而样本图片为256*256的截取图片。

利用神经网路，对预处理的所述违规样本图片进行识别；

将截取图片输入到神经网络中，神经网络对截取图片进行判断，检测出样本图片中有涉黄、暴恐等方面的内容后，从而神经网络检测到违规的样本图片。

所述视频检测方法还包括基于多任务卷积神经网络与人脸分析神经网络对视频中的特定目标人物进行检测，包括以下步骤：

首先系统通过MTCNN(多任务卷积神经网络)对人脸检测。MTCNN可以同时输出一幅图中多个人脸的集合和人脸位置。

违规检测系统通过图像指纹技术来提升暴恐视频的识别准确率。其中，图像指纹技术为图片的感知哈希编码算法检测。

通过图像指纹技术对视频进行识别的同时，违规检测系统也通过人脸识别技术以满足视频中特定人物的检索。其中特定人物包括政治人物、敏感人物和军事人物，对特定人物进行检索，从而检索出视频中有抹黑、嘲讽以及其他攻击特定人物的方式。

系统采用MTCNN+MobileFaceNets神经网络实现对视频中特定目标人物(涉政人物、敏感人物)的检测。

对所述检测出的目标人脸进行跟踪和对齐；

在检测到特定目标人物的人脸之后，进行人脸跟踪、人脸对齐等操作，对于需要识别的特定目标人物，针对每个人搜集5张面部图片，通过MTCNN对这些人脸进行检测后，通过MobileFaceNets神经网络获取人脸128D特征编码，保存为目标人脸特征库。

将未知人脸图像信息输入MobileFaceNets神经网络，MobileFaceNets通过神经网络最后一个1x1卷积层提取未知人脸图像的128D人脸特征，通过计算未知人脸与目标人脸之间的欧式距离，判断两张人脸是否属于同一个人。

其中，人脸的编码为256D的特征向量，对人脸特征进行L2归一化，欧式距离比较方法：

设emb1为归一化后未知人脸，emb2为归一化后的已知人脸，欧式距离如下：

如果dist＜1.38认为是同一个人，如果dist≥1.38认为是不同人。

所述方法还包括声纹识别的方法，具体包括以下步骤：

将非特定目标人物的语音特征根据GMM高斯混合模型训练，建立通用背景模型；

声纹识别时，违规检测系统采用GMM-UBM(高斯混合模型+通用背景模型)模型对特定目标人物进行声纹识别。其中，高斯混合模型(GMM)是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。通用背景模型(UBM)相当于一个大的高斯混合模型，为了解决说话人训练数据太少的问题，将非特定目标人物的语音特征根据GMM高斯混合模型训练，建立通用背景模型。其中，UBM是与特定目标人物无关的GMM，使用大量非特定目标人物的语音特征训练得到，用来表示与特定目标人物无关的通用的概率分布。

图2示出了本发明实施例的单个说话人训练时声纹识别流程图。如图2所示，需要建立自适应模型，将一个或多个特定目标人物的MFCC通过adaption的方式存储到通用背景模型中，在通用背景模型中输入新的MFCC特征，使用高斯混合模型(GMM)中的E-step和M-step对自适应的GMM进行迭代更新，从而让模型参数更趋向于新的MFCC特征分布，从而建立一个或多个与特定目标人物相对应的自适应模型，基于通用背景模型和一个或多个自适应模型，建立目标模型库。

图3示出了本发明实施例的单个说话人声纹识别流程图。如图3所示，

所述方法还包括通过声纹识别对所述视频中的说话人是否为特定目标人物进行识别，具体包括：

对说话人进行语言识别时，将说话人MFCC分别在特定目标人物的自适应模型和通用背景模型下进行评分。利用对数似然比算法判断所述说话人是否为特定目标人物。若在特定目标人物自适应数据库模型下的评分高于在通用背景数据库模型下的评分，则说话人为特定目标人物；反之，则说话人不是特定目标人物。其中，对特定目标人物进行评判时，只对与特定目标人物相关的说话人进行评判，从而确认说话人是否为特定目标人物。若特定目标人物为恐怖分子，将说话人MFCC在分别在恐怖分子的自适应模型和通用背景模型下进行评分，若在恐怖分子的自适应模型的评判分数大于在通用背景模型的评分时，说话人就是恐怖分子。

示例性的，对数似然比为一种在贝叶斯准则条件下最优评分的近似方法，增加了不同说话人之间的可区分性；削弱了输出评分分布的动态范围，减小了声纹确认系统对阈值的可依赖性；此外，依靠两个模型差值的方式能在一定程度上减少被噪声污染的输入语音的影响。

图4示出了本发明实施例的多个特定目标人物声纹识别流程示意图。如图4所示，所述方法还包括视频中出现多个说话人时，通过声纹识别对所述视频中的多个说话人进行识别，具体包括：

提取多个说话人的语音特征，将多个说话人中每一个说话人语音特征分别在目标模型库中的所有自适应模型下进行评分。然后自适应模型的多个目标模型对提取多个说话人的声音信息进行打分，例如，目标模型1对提取多个说话人的声音信息分别进行打分，目标模型2对提取多个说话人的声音信息分别进行打分，直到目标模型N对提取多个说话人的声音信息分别进行打分。

提取每个说话人最高分值对应的自适应模型，并判断说话人是否为所述提取出的自适应模型对应的特定目标人物，其中；

将每个目标模型打分的最高分值S进行提取，将最高分值S与阈值大小进行比较，若S＞阈值，则检测到说话人i，若S≤阈值，则没有检测到说话人i。其中，阈值一般为系统设置的数据。

图5示出了本发明实施例中的信息识别的结果推送流程图。如图5所示，所述提取视频的关键帧之前还包括获取互联网访问日志、域名解析日志中的视频和/或第三方系统推送的视频。

违规检测系统将提供SFTP(安全文件传送协议)文件传输及WebService(相互交换数据的应用程序)接口，用于接收IDC/DNS等系统推送的视频URL地址信息。第三方系统主要包括公安、扫黄打非办以及网信办等。

对URL中的视频进行检测后，违规检测系统向第三方系统推送违规视频研判结果：

若视频违规，第三方系统对违规的视频URL进行查处，可以通过调用IDC/DNS信息安全管理系统的信息过滤接口进行实时访问阻断，从而实现对域名、URL、服务器IP等接口规划，根据不同场景，通过灵活配置，可定制化过滤规则的实时管控。

若视频不违规，违规检测系统继续对视频URL进行检测，直到检测到违规视频，然后按照违规视频的方式进行处理。

本发明还包括一种视频检测系统，包括提取模块、检测模块和筛选模块，其中，

视频检测系统还包括人脸识别模块；

所述人脸识别模块，用于执行以下步骤：

对所述检测出的目标人脸进行跟踪和对齐；

视频检测系统还包括语音识别模块；

所述语音识别模块包括单人识别单元和多人识别单元；

所述单人识别单元，用于执行以下步骤：

提取所述视频中说话人的音频特征；

所述多人识别单元，用于执行以下步骤：

若最高分值＞阈值，则检测到说话人是特定目标人物；

若最高分值≤阈值，则检测到说话人不是特定目标人物。

若视频违规，违规检测系统对所述视频进行封阻，并将违规的视频推送给第三方系统；若视频或样本图片不违规，违规检测系统继续检索视频的关键帧和声纹，直至检测出违规视频。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频检测方法，其特征在于，包括以下步骤：

提取视频的关键帧，并将所述关键帧进行汇总；

2.根据权利要求1所述的视频检测方法，其特征在于，所述方法还包括基于神经网络，生成分类模型，具体包括，

收集违规样本图片，并对违规样本图片进行预处理；

利用神经网路，对预处理的所述违规样本图片进行识别。

3.根据权利要求1-2任意一项所述的视频检测方法，其特征在于，

所述方法还包括基于多任务卷积神经网络与人脸分析神经网络对视频中的特定目标人物进行检测，包括以下步骤：

对所述检测出的目标人脸进行跟踪和对齐；

4.根据权利要求3所述的视频检测方法，其特征在于，所述方法还包括建立所述目标人脸特征库，具体包括以下步骤：

针对特定目标人物搜集多张面部图片；

5.根据权利要求3所述的视频检测方法，其特征在于，

6.根据权利要求5所述的视频检测方法，其特征在于，

提取所述视频中说话人的音频特征；

7.根据权利要求5所述的视频检测方法，其特征在于，

所述方法还包括视频中出现多个说话人时，通过声纹识别对所述视频中的多个说话人进行识别，具体包括：

提取每个说话人最高分值对应的自适应模型；

若最高分值＞阈值，则检测到说话人是特定目标人物；

若最高分值≤阈值，则检测到说话人不是特定目标人物。

8.根据权利要求1所述的视频检测方法，其特征在于，所述提取视频的关键帧之前还包括获取互联网访问日志、域名解析日志中的视频和/或第三方系统推送的视频。

9.一种视频检测系统，其特征在于，

包括提取模块、检测模块和筛选模块，其中，

10.根据权利要求9所述的视频检测系统，其特征在于，还包括人脸识别模块；

所述人脸识别模块，用于执行以下步骤：

对所述检测出的目标人脸进行跟踪和对齐；

11.根据权利要求9所述的视频检测系统，其特征在于，还包括语音识别模块；

所述语音识别模块包括单人识别单元和多人识别单元；

所述单人识别单元，用于执行以下步骤：

提取所述视频中说话人的音频特征；

所述多人识别单元，用于执行以下步骤：

提取每个说话人最高分值对应的自适应模型，

若最高分值＞阈值，则检测到说话人是特定目标人物；

若最高分值≤阈值，则检测到说话人不是特定目标人物。