CN102014295B

CN102014295B - 一种网络敏感视频检测方法

Info

Publication number: CN102014295B
Application number: CN2010105557193A
Authority: CN
Inventors: 朱蓉; 李永刚; 殷海明; 魏远旺; 叶利华; 龚迅炜; 许小东; 许杰; 张丽华; 郭步; 洪波
Original assignee: Jiaxing University
Current assignee: Jiaxing University
Priority date: 2010-11-19
Filing date: 2010-11-19
Publication date: 2012-11-28
Anticipated expiration: 2030-11-19
Also published as: CN102014295A

Abstract

本发明公开了一种网络敏感视频检测方法。首先从网络中获取视频URL，以流媒体的形式下载视频，并运用自适应自反馈抽样策略抽取视频关键帧，生成抽样视频序列；然后针对抽样视频序列，采用快速分类模型、视频标签模型、帧识别引擎等手段对其帧静态内容和视频动态性进行检测，得到视频内容敏感度，结合从视频中分离出来的音频文件的敏感度检测结果，得到网络视频的最终检测结果。本发明可以用来对网络视频进行内容的敏感性检测，单机检测能力达到20MB/秒以上，敏感性检测的准确率达到90％以上，为网络用户不受敏感视频的毒害提供了有力的保障。

Description

一种网络敏感视频检测方法

技术领域

本发明涉及视频检测技术，尤其是涉及在网络环境下的一种网络敏感视频检测方法。

背景技术

据中国互联网络信息中心2010年1月发布的《第25次中国互联网络发展状况统计报告》显示，截止到2009年12月，我国网络用户已达3.84亿，大幅超过美国跃居世界第一位。网络的存在与发展带给人类社会的影响是巨大的，可以说没有一种事物的发展速度可以与网络技术的发展相媲美，它带给人们思维方式、价值观念乃至生活方式等方面的深刻影响更是其它事物所不能及的。然而，网络是一把“双刃剑”，它所具有的开放性、连接性和共享性的特点，在提供给人类社会有用资讯的同时，也为网络敏感信息的传播提供了捷径。越来越多的网络敏感信息，特别是含有淫秽色情内容的网络敏感视频，在互联网上大肆传播，不但极大危害了社会的稳定，而且严重影响了人们的日常生活，给人们心理和健康带来了极其严重的影响。因此，如何制止网络敏感视频的蔓延，如何保护广大网络用户尤其是青少年不受到淫秽色情信息的毒害，是社会各界普遍关注的问题，同时也是一个世界性的难题。

针对这一现象，自2009年以来，工信部、公安部、中宣部、中央外宣部等部门在全国范围内联合开展打击整治网络淫秽色情专项行动和手机网站集中清理整顿专项行动，并出台了《关于建立整治互联网低俗之风长效机制的建议》等规定。与此同时，中央电视台、各大报纸、企事业民众积极参与到打击网络、手机淫秽色情内容的行动中，在社会上营造出良好的舆论氛围。由此可见，严厉打击传播网络敏感信息的违法行为，建立网络敏感信息监管的长效机制迫在眉睫。

目前，在网络敏感信息控制方面，常用的技术监管是采用分级方法和过滤方法。

分级方法要求提供网络信息服务的各类网站经营者或信息发布者，以自愿方式就其网站内容或发布信息作自我分级，将分级结果写入该网站或网页的计算机程序中，并将分级标识显示在相应页面上。当装有该分级程序的电脑在调阅网络信息时会根据分类标识来选定调阅的内容，对于违禁信息电脑会拒绝显示。但是分级方法也有很大的局限性。一方面，要将全世界范围内所有网络站点的相关资料都进行分级是难以实现的。另一方面，网络敏感信息的发布者和传播者可以通过其它表面信息掩饰背后真实的敏感内容，从而绕过分级的限制，这也使得分级操作非常困难。

过滤方法又可分为两类：一类是采用路由器过滤，另一类是采用软件过滤。

路由器过滤方法将敏感信息源的IP地址及节点列表，编制成黑名单，在网络出口加上过滤功能，屏蔽敏感信息的IP地址。该技术的运用存在两个难点：一是敏感信息源IP地址的确定问题，不少网络敏感信息传播者盗取其它健康网站的IP地址，或经常改换IP地址，这对于编制过滤IP地址黑名单十分困难。二是如果互联网上采取了过严的控制，有时会使一些信息资源丰富的节点变得无法或很难访问，这实际上是阻止了网络用户对合法网站的访问。

另一类是软件过滤法，实质上也是基于内容的过滤技术。基于内容的过滤技术属于内容安全管理的范畴，该类过滤技术需要从多媒体信息中提取对敏感信息识别有用的数据，例如：文档资料中的关键字词、图像的颜色特征、视频序列中对象连续性等，具有检测与过滤准确率高的特点。也就是说，只有真正通过针对网络信息内容本身的分析与理解，才能从根本上解决网络信息安全技术对敏感信息的监管能力不足的问题。

如何有效过滤网络敏感视频完全取决于采用的视频检测技术。视频检测技术是当前多媒体数据库发展的一个重要研究，但由于视频数据的复杂程度高目前尚在实验室研究阶段。网络视频通常数据量大，抽象程度低，为了能够有效检测和过滤网络敏感视频，必须首先将视频数据的特征提取出来。传统的视频检测技术借助于基于文本数据库的方法，即利用与视频相关的文本信息或是预先给视频加上的标识。这种方法虽然简单，但存在的检测率准确低的问题极大地影响了其有效使用。

基于内容的视频检测技术是指直接对视频数据中的各种特征，包括颜色、纹理、形状、运动矢量等进行分析，提取语义特征形成特征向量，从而能够自动或半自动实现视频的检测。基于内容的视频检测技术实质上是建立在视频序列中每一帧的识别之上，也即充分利用了图像识别与分析技术。视频检测需要首先将非结构化的视频数据进行结构化的分析与处理，也即采用视频分割技术将连续的视频序列划分为具有特定语义的视频片段(例如镜头或场景)，并作为基本单元进行后续的关键帧的抽取。

Zhang等人依据视频序列的各个帧之间的显著变化来选择多个关键帧，但是所选取的帧不一定具有代表性，而且当视频对象有运动时，容易选取过多的关键帧[H.J.Zhang，J.H.Wu，D.Zhang，“An Integrated System for Content-Based VideoRetrieval and Browsing”，Pattern Recognition，1997.]。目前在关键帧抽取的最新进展是使用聚类，压缩域[Shiwei Zhao，Li Zhuo，Suyu Wang and Lansun Shen，“Research on key thechnologies of pornographic image/video recognition incompressed domain”.Journal of Electronics(China)，Volume 26，2009(5).]等。这些方法都将视频序列的每一帧看成是高维特征空间中的一个点，因而抽取关键帧问题就转换为在这些点中选取一个子集。这些方法同样存在实时性较差的缺点。

由于视频数据的特点在于其时变性和动态性，因而如何更好地描述视频对象的运动还值得研究。其次，基于内容的视频检测不应只局限于镜头或场景这些基于帧的概念，应从分析和理解视频对象的角度来研究。与此同时，在视频检测中引入一些智能化的技术和方法也不失为一个能够有效提高检测准确率和过滤执行效率的方向。

发明内容

本发明的目的是提供一种网络敏感视频检测方法，克服现有敏感视频检测方法的不足，以提高对网络敏感视频检测的速度和准确率。采用自适应自反馈抽样策略抽取视频关键帧，生成抽样视频序列。针对抽样视频序列，采用融合基于视频关键帧静态内容特征与视频动态特征的敏感视频识别方法。根据视频序列敏感度及识别为敏感视频关键帧的密度分布情况，并辅助视频声音文件检测结果，获得视频的最终检测结果，从而达到较高的敏感视频检测准确率。

本发明采用的技术方案的步骤如下：

步骤1)从网络中获取视频URL，对视频URL作去重处理后，以流媒体的形式下载视频；

步骤2)采用自适应自反馈抽样策略从视频中抽取视频关键帧，生成抽样视频序列；

步骤3)从视频中分离出音频文件，提取音频特征，并与敏感音频特征库进行匹配，得到音频敏感度Rs；

步骤4)利用快速分类模型对抽样视频序列进行匹配，若匹配成功，则视频直接判定为敏感视频，视频检测结束；否则，转入步骤5)；

步骤5)利用视频标签模型对抽样视频序列进行匹配，若匹配成功，则视频直接判定为敏感视频，视频检测结束；否则，转入步骤6)；

步骤6)采用帧识别引擎对抽样视频序列的帧静态内容与视频动态性进行检测，并计算抽样视频序列的内容敏感度R_v；

步骤7)将内容敏感度R_v和音频敏感度R_s相结合，得到视频的敏感度检测的最终结果。

所述的从网络中获取视频URL的过程中，先从网络上行数据流中获取含有视频请求信息的数据包，再从含有视频请求信息的数据包中获取视频URL；对于视频请求信息分布在多个数据包中的情况，需先进行数据重组，再提取视频URL；对于视频请求信息隐藏而cookie中包含视频类型的情况，需先从cookie中获取视频类型，再验证数据包中的URL是否为视频URL；对于视频请求信息设置防盗的情况，需通过请求信息复制及嫁接技术，模拟客户请求，进而绕过防盗链的设置。

所述的从视频中抽取视频关键帧，生成抽样视频序列的过程中，采用自适应自反馈抽样策略抽取视频关键帧，即根据视频的长度和类型的不同，自动调整抽样策略，假设有任意一个视频k，从视频k中抽取视频关键帧的策略表示为：

其中：n表示视频k分成的总段数；m表示视频k的第i段视频的总帧数，记为m＝f(t(k))，其中t(k)表示视频k的时间长度，即m的值由函数f(t(k))决定；i表示视频k中的第i段视频，j表示第i段视频中的第j个帧；α_i为稀疏系数，用于表示在视频k的第i段视频中抽取关键帧的稀疏程度，当取值为0时，表示抽取所有帧，当取值为1时，表示连续抽取所有的关键帧，当其值为n(n＞1)的整数时，表示隔n-1抽取关键帧；Γ_i表示视频k的第i段视频的起始位置，记为：Γ_i＝Γ_i’+βP_i，其中Γ_i’表示第i段视频中的帧在反馈定位前的初始位置，P_i表示反馈频次，β为放大系数；ψ_i，j(t(k)，Γ_i)表示在视频k的第i段视频中抽取的关键帧的集合。

所述的从音频文件中提取音频特征的过程中，提取的音频特征为12维的梅尔频率倒谱参数特征，并将音频特征与敏感音频特征库进行匹配，得到音频敏感度Rs。

所述的快速分类模型匹配的过程中，所建的快速分类模型包括：裸聊子类视频模型、舞台子类视频模型和高光背景子类视频模型；裸聊子类视频模型描述为：令F＝{F_i|i＝1，2，...，N}为抽取到的视频帧集，(x，y)处像素的亮度为g(x，y)，视频帧的宽为W，高为H。若帧的平均亮度avg_gray＞Th_LL1，两帧间的变化率chan_ratio＜Th_LL2，内容中检测到人脸的帧的数目小于抽取的总帧数的5％，则认为是裸聊视频；其中Th_LL1为帧的平均亮度阈值，Th_LL2为两帧间的变化率阈值，两帧间的变化率为舞台子类视频模型和高光背景子类视频模型描述为：假设帧F_i为平均亮度值Gray_i，Lab表示帧间变化剧烈度，令

若Lab＞Th_WT2，则认为该视频为舞台类视频，否则认为非舞台类视频；其中Th_WT1为帧的亮度差阈值，Th_WT2为帧间的变化剧烈度阈值。

所述的采用视频标签模型匹配的过程中，视频标签是指视频内容的自定义标识，用于描述视频的类别；视频标签模型描述为：令F_t为t时刻的关键帧，计算F_t的灰度图的水平梯度，以确定F_t是否含有候选标签，计算得到各帧的候选标签区域后，计算视频标签的基准边界；获得视频标签的基准边界后，在T个关键帧中挑选边界与基准边界最相近的K个帧，并提取相应的视频标签；然后将这些视频标签与标签库中的标准标签匹配，若K个标签中有超过一半的标签与标签库中的某个标准标签相匹配，则确定视频中含有与标准标签相同的视频标签。

所述的肤色检测采用基于YC_bC_r和RGB颜色空间的自适应选择方法，假设帧的3个颜色分量R、G、B的均值分别为avgR、avgG、avgB；avgGray为平均灰度值；maxCom为最大颜色分量；minCom为最小颜色分量；avgGap为帧的灰度差；对于满足条件avgGap＜th_gray的帧，采用灰度世界假设原理进行色彩均衡，对于满足条件avgGap≥th_grayGap的帧，在RGB颜色空间中获取帧中的肤色点，其中：th_gray为灰度调整阈值，th_grayGap为灰度差最大阈值；其余情况下，将RGB颜色空间转换到YC_bC_r颜色空间后，在YC_bC_r颜色空间中获取帧中的肤色点的集合Φ。

所述的纹理检测模型，首先检测肤色掩码区域的像素点颜色分布的均匀程度，将初始帧均匀地分成M*N的区块；然后以区块为单位进行纹理过滤，通过计算区块内肤色点的变化剧烈程度确定该区块是否为纹理块。

所述的皮肤规则度检测如下：令肤色掩码图上区域的个数为Num，这些区域的标注分别用R_i表示，其中i＝1，2，...，Num，标识为R_i的区域中包含的像素点的数目为C_i，肤色掩码图的皮肤规则度的计算公式为：

其中：

MC＝max(C_i)；MI＝{i|C_i＝MC}；α和β表示权重因子；max()为取最大值函数；E_i为标识为R_i的区域中的边缘点的数目；E_MI为包含像素点数最多的区域的边缘点数目。

所述的人脸检测策略描述如下：设原始图像人脸检测结果为FD，人脸检测对原始帧图像、顺时针45°旋转图像和逆时针45°旋转图像分别检测，即人脸最终检测结果FDL取FD∪Rotate(FD，45°)∪Rotate(FD，-45°)的值。人脸检测实现肖像帧检测和多人脸检测。

所述的肢体检测模型描述如下：设人脸宽为WF，高为HF，人脸下边缘中心点为(F_x，F_y)，则人体疑似区域为人脸下方的矩形区域，矩形区域宽WR为4WF，高HR为5HF；设人体疑似区域内肤色点个数为num，肤色重心为(B_x，B_y)，肤色像素的坐标为(SP_xi，SP_yi)，其中则人体中心线为(F_x，F_y)和(B_x，B_y)的连线y＝kx-kC_x+C_y，其夹角斜率k＝(F_y-C_y)/(F_x-C_x)；设人体宽度为WB，直线y分别向左和向右平移，平移直线分别记为y1和y2，平移距离为则由y1、y2和人体疑似区域围成的区域为初步定位的人体区域，人体区域内的肤色像素区域判定为人体。

所述的运动检测中利用视频帧差法和直方图帧差法提取场景中的运动目标，直方图帧差法用来确认镜头切换或场景变化的剧烈程度，镜头切换或场景变化剧烈时不提取运动目标；同一镜头中的帧集中采用视频帧差法提取运动目标，视频帧差的计算公式为FD＝|V(i+1)，V(i)|，V(i)表示第i帧，||表示取两个视频帧的差；当FD＞th_FD时，标记为运动目标区域，在运动目标区域中提取运动人体，其中th_FD为视频帧差阈值。

所述的敏感帧连续性检测描述如下：假设抽样视频序列被分S段，V_i为其中的第i段，i＝1，2，...，S，V_i段的总帧数为FM；敏感帧连续段定义为在V_i中连续出现的多个敏感帧，令f_k(V_i)为V_i中出现的第k个敏感帧连续段的连续帧数，当f_k(V_i)＞n时，d_k＝1，否则，d_k＝0，其中n为最小连续帧阈值，若V_i中共有L_i个敏感帧连续段，则f_M(V_i)＝max(f_k(V_i))，k＝1，2，...，L_i；令敏感帧连续段帧数

V_i的敏感帧连续性定义为：

其中α和β表示权重因子，在应用中α＝0.35，β＝0.65，则视频的敏感帧连续性定义为：Q＝max(Q_i)。

所述的计算视频的内容敏感度R_v的方法如下：令label为视频标签，AVG_MG为视频敏感帧比例，mgR为视频分段平均敏感度，则视频的内容敏感度R_v定义为：若label＝1或AVG_MG＞th_Rv1或mgR＞th_mgR，则R_v＝1，即认为视频是敏感的；若label＝0且AVG_MG＞th_Rv2且AVG_MG≤th_Rv1且mgR≤th_mgR，则R_v＝0.5，即认为视频是疑似敏感的；其它情况下，则R_v＝0，即认为视频是正常的，其中：视频分段平均敏感度是抽取的各段视频敏感度的平均值，即

R_i表示第i段视频的敏感度，th_Rv1为视频敏感帧比例阈值上限，th_Rv2为视频敏感帧比例阈值下限，th_mgR为视频分段平均敏感度阈值。

所述的将视频的内容敏感度R_v和音频敏感度R_S相融合，得到视频的最终检测结果的过程中，若视频中不能提取出音频文件，则视频的最终检测结果以视频内容的检测结果为准；若视频中能提取出音频文件，则融合器定义为：

其中符号

表示条件融合关系，也就是R_s可提高R_v的等级，但不降低R_v的等级。

本发明具有的有益效果是：

目前国内还缺乏网络敏感视频的监管产品，特别是具有视频内容分析功能的网络敏感信息的检测与过滤软件。本发明以网络敏感视频为净化对象，实时监控高速网络，有效地检测网络敏感视频，及时发现敏感视频的发布和传播。

本发明充分利用了人类的视觉感知，挖掘出视频内容特征和视频动态特征，并引入人工智能和机器学习等智能化手段，克服了传统分级方法实现困难、硬件过滤方法又容易因为信息资源丰富的节点变化而导致无法或很难访问等不利影响，实现了从内容上检测网络视频，从根本上解决了现有网络信息安全技术对敏感信息的监管能力不足的问题。

附图说明

图1是本发明的流程图。

图2是抽帧模型和音频片段抽取模型图。

图3是分类模型匹配流程图。

图4是帧识别引擎检测流程图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细描述。

如图1所示，本发明的一种网络敏感视频检测方法主要包括以下步骤：

1、视频URL获取：

从网络上行数据流中获取含有视频请求信息的数据包，从含有请求信息的数据包中获取视频URL，并对视频URL作去重处理。对于视频请求信息分布在多个数据包中的情况，需先进行数据重组，再提取视频URL；对于视频请求信息隐藏而cookie中包含视频类型的情况，需先从cookie中获取视频类型，再验证数据包中的URL是否为视频URL；对于视频请求信息设置防盗的情况，需通过请求信息复制及嫁接技术，模拟客户请求，进而绕过防盗链的设置。

2、视频抽样：

所述的自反馈自适应抽样策略，根据输入视频长度和类型的不同自动调整视频抽样策略，具体公式如下：

\{\begin{matrix} V (k) = Σ_{i = 0}^{n} Σ_{j = 0}^{n} α_{i} Ψ_{i, j} (t (k), Γ_{i}) i, j = 1,2,3 \cdot \cdot \cdot n, 0 \leq α \leq 1 \\ m = f (t (k)) \\ Γ_{i} = Γ_{i}^{'} + β P_{i} \end{matrix} . - - - (1)

对于任意视频k，v(k)表示抽取的视频帧集。i表示视频k中的第i段视频，j表示第i段视频中的一个视频帧；t(k)表示视频k的时间长度，在第i段视频抽取的帧数m取决于视频的时间长度t(k)。α_i为稀疏系数，用来表示在视频k的第i段视频中抽取视频帧的稀疏程度，当其值为0时，表示抽取所有视频帧，当其值为1时，表示连续抽取所有的关键帧，当其值为n(n＞1)的整数时，表示隔n-1抽取关键帧；Γ_i表示视频k的第i段视频的起始位置，Γ_i’表示第i段待抽取视频帧反馈定位前初始位置，P_i表示反馈频次，β为放大系数；ψ_i，j(t(k)，Γ_i)表示在视频k的第i段视频中抽取的所有视频帧集合。

3、分类模型快速匹配：

所述的快速分类模型匹配检测的过程中，所建的快速分类模型包括：裸聊子类视频模型、舞台子类视频模型和高光背景子类视频模型。

由于裸聊时的特殊场景，视频中人体肤色分布呈假分布。针对裸聊视频亮度特别大，场景切换特别少的特点，建立检测模型。裸聊子类视频模型描述如下：若视频帧的平均亮度avg_gray＞Th_LL1，视频帧间的变化率chan_ratio＜Th_LL2，视频帧检测到人脸的视频帧数目小于总视频帧的5％，则认为是裸聊视频。其中Th_LL1为帧平均亮度阈值，Th_LL2为视频帧间变化率阈值，视频帧间的变化率为

舞台类视频由于灯光效应以及地板、道具等的影响，视频光线变化强烈，场景切换特别频繁，建立检测模型如下：设计算视频帧F_i像素的平均亮度值Gray_i，令

若Lab＞Th_WT2，则认为该视频为舞台类视频，否则认为非舞台类视频。其中Th_WT1为视频帧亮度差阈值，Thr_WT2为视频帧变化剧烈度阈值。

4、视频检测标签：

假设视频帧的长宽分别为M和N，令F_t为t时刻的视频帧，以下给出了计算F_t的右下角候选标签区域的算法步骤：

1)计算F_t灰度图的水平梯度，记G(x，y)为(x，y)处像素点的梯度值，x＝1，2，...M，y＝1，2，...N，设

(sx, sy) = {(x, y) | \max_{(x, y)} (Σ_{x = i}^{i + W} Σ_{y = j}^{j + H} G (i, j) | i = \frac{M}{2}, . . ., M - W, j = \frac{2 N}{3}, . . ., N - H)}; - - - (2)

2)确定F_t是否含有候选标签，令

GM = Σ_{x = sx}^{sx + W} Σ_{y = sy}^{sy + H} G (x, y), - - - (3)

L_{t} = \{\begin{matrix} 1, GM > Th_GM \\ 0, otherwise \end{matrix}, - - - (4)

当L_t＝1时，说明F_t含有候选标签；

3)若L_t＝1，求梯度的二值化掩码图，令

MASK (i, j) = \{\begin{matrix} 1, G (i, j) > Th_GRAD \\ 0, otherwise \end{matrix}; - - - (5)

4)搜索候选标签区域的上下左右四个边界，记为矢量F_t(t，b，l，r)；

5)在计算得到各帧的候选标签区域后，可以计算视频标签的基准边界。一个视频如果含有标签，则检测到的候选标签区域为标签的概率均超过50％，故采用中值滤波求视频标签的基准边界矢量(L，R，T，B)，如下公式：

其中：|F_t(t，b，l，r)-F_i(t，b，l，r)|为矢量F_t(t，b，l，r)与F_i(t，b，l，r)之间的欧氏距离；

6)在获得视频标签边界后，在这T个视频帧中挑选边界与基准边界(L，R，T，B)最相近的K帧，提取其视频标签，应用中K取1，2，3之间的一个数；

7)将从这K个视频帧中提取到的视频标签与标签库中的标准标签进行比对，假设从某视频帧中提取到的标签为LABEL，label为库中的一个标签，如果K个LABEL标签中超过一半的标签与label匹配，则认为当前的视频含有与label相同的视频标签。

5、视频关键帧静态内容特征检测：

1)肤色检测

建立肤色检测模型，模型采用YCbCr和RGB颜色空间自适应选择方法建立，描述如下：

设图像的3个颜色分量R、G、B的均值分别为avgR、avgG、avgB，则有

\{\begin{matrix} avgGray = (avgR + avgG + avgB) / 3 \\ \max Com = \max (avgR, avgG, avgB) \\ \min Com = \min (avgR, avgG, avgB) \\ avgGap = \max Com - \min Com \end{matrix}, - - - (7)

其中：avgGray为图像的平均灰度值，maxCom为最大颜色分量，minCom为最小颜色分量，avgGap为图像的灰度差。th_gray为图像灰度调整阈值，对于满足条件avgGap＜th_gray的图像采用“灰度世界假设”进行色彩均衡。

令th_grayGap表示图像灰度差最大阈值，满足条件avgGap≥th_grayGap采用RGB颜色空间获取图像的肤色点集合Φ(s)：

Φ(s)＝{s∈(R，G，B)，(R＞B∩G＞B∩R＞80∩G＞40∩B＞30∩R-G＞20∩R-G＜95)，(8)

∪(R＞220∩G＞210∩B＞120∩R＞G∩R＞B∩R-G＜10)}

否则，先将RGB颜色空间转换到YCbCr颜色空间，然后再采用YCbCr颜色空间获取图像的肤色点集合Φ(s)：

Φ(s)＝{s∈(Cb，Cr)，(Cb＜th_cb1∩Cb＞th_cb2)∪(Cr＜th_cr1∩Cr＞th_cr2)}，(9)

其中：th_cn1和th_cb2分别表示分量Cb的上下阈值，th_cr1、th_cr2分别表示分量Cr的上下阈值。

2)肤色规则度检测

建立肤色规则度的算法，描述如下：

假设肤色掩码图上的区域个数为Num，这些区域的标注分别用R_i表示，其中i＝1，2，...，Num，R_i中包含的像素点个数为C_i，肤色掩码图的规则度计算公式为：

\{\begin{matrix} REG = α \times \frac{AVGE}{AVGR} + β \times \frac{E_{MI}}{MC} \\ AVGE = \frac{1}{Num} Σ_{i = 1}^{Num} E_{i} \\ AVGR = \frac{1}{Num} Σ_{i = 1}^{Num} C_{i} \end{matrix}, - - - (10)

其中：MC＝max(C_i)，MI＝{i|C_i＝MC}，α和β表示权重因子，max为取最大值函数，E_i为R_i的边缘像素点的个数，E_MI为包含像素点数最多的区域的边缘点数目。

3)纹理检测

纹理检测模型首先检测肤色掩码区域的像素的颜色分布均匀程度，将原始彩色图像均匀的分成M*N的区块，以区块为单位进行纹理过滤，计算区块内肤色像素点变化剧烈程度，确定该区块内是否是纹理块。

令肤色掩码图为

其中x＝1，2，...wid，y＝1，2，...hei；V(x，y)为原始图像点P(x，y)的颜色矢量，

为肤色像素点颜色矢量均值，C为肤色像素点个数，D为肤色像素点变化剧烈程度，则有：

\{\begin{matrix} D = \sqrt{\frac{1}{C - 1} Σ_{x = 1}^{M} Σ_{y = 1}^{N} {| V (x, y) - \overset{&OverBar;}{V} |}^{2}} \cdot Mask (x, y) \\ \overset{&OverBar;}{V} = \frac{1}{C} Σ_{x = 1}^{M} Σ_{y = 1}^{N} V (x, y) \cdot Mask (x, y) \\ C = Σ_{x = 1}^{M} Σ_{y = 1}^{N} Mask (x, y) \end{matrix}, - - - (11)

其中

为矢量V(x，y)与

之间的欧式距离。如果D大于肤色变化阈值th_D，则认为该像素为纹理像素。如果区块内纹理像素数大于阈值th_NumOfTexture，则认为检测到区块的肤色区域为纹理块，否则认为该区块是人体肤色区域。

4)人脸检测

人脸检测实现肖像帧检测和多人脸检测功能。肖像帧定义为人脸占据帧画面较大比例的帧。多人脸帧是指人脸数超过3个的帧。假设视频帧的长宽分别为M和N，该视频帧中共检测到Num个人脸，第i个人脸面积为S_i，人脸检测结果为FD，人脸检测策略描述如下：

FD = \{\begin{matrix} 1, Num > 3 \cup (Σ_{i = 1}^{num 1} S_{i} / (M \times N) > th_face 1) \cup (Σ_{i = 1}^{num 2} S_{i} / (M \times N) > th_face 2) \\ 0, otherwise \end{matrix}, - - - (12)

th_face1为单人脸时的面积阈值，num取值为1；th_face2为双人脸时的面积阈值，num取2。人脸检测对原始帧图像、顺时针45°旋转图像和逆时针45°旋转图像分别检测，即人脸最终检测结果FDL取FD∪Rotate(FD，45°)∪Rotate(FD，-45°)的值。

5)肢体检测

图像中人体通常在人脸下方，如果图像中有人存在，人体是倾斜或平躺状态，图像经旋转后，人体依然在人脸下方。结合人脸检测和人体初步定位，人体模型就可以初步定位。设人脸宽为WF，高为HF，人脸下边缘中心点为(F_x，F_y)，人体疑似区域为人脸下方的矩形区域，矩形区域宽WR为4WF，高HR为5HF。设人体疑似区域内肤色点个数为num，肤色重心为(B_x，B_y)，肤色像素的坐标为(SP_xi，SP_yi)，其中

人体中心线为(F_x，F_y)和(B_x，B_y)的连线y＝kx-kC_x+C_y，其夹角斜率k＝(F_y-C_y)/(F_x-C_x)。设人体宽度WB，直线y分别向左和向右平移，平移直线分别记为y1和y2，平移距离由y1、y2和人体疑似区域围成的区域为初步定位的人体区域，人体区域内的肤色像素区域判定为人体。

6、视频动态特性检测

1)运动检测

运动检测模型采用视频帧差法和直方图帧差法相结合的策略，提取场景中的运动目标，直方图帧差法模型如下：

HD = Σ_{j = 1}^{num} sqrt ((H_{j}^{2} (i + 1) - H_{j}^{2} (i)) / \max {(H_{j} (i + 1), H_{j} (i))}^{2}) - - - (13)

其中num是亮度直方图级数，H_j(i+1)和H_j(i)分别是第i+1帧和第i帧的第j级亮度直方图。直方图帧差法模型可以确认镜头切换或场景变化剧烈程度。对于镜头切换帧，不提取目标物体；同一镜头帧采用视频帧差法提取运动目标对象。视频帧差的计算公式为FD＝|V(i+1)，V(i)|，V(i)表示第i帧，||表示取两个视频帧的差。当FD＞th_FD时，标记为运动目标区域，在运动目标区域中提取运动人体，其中th_FD为视频帧差阈值。

2)敏感帧连续性检测

假设视频关键帧序列分为S段，V_i为其中的第i段，i＝1，2，...，S，V_i段的总帧数为FM。敏感帧连续段定义为在V_i中多个连续出现的敏感帧，令f_k(V_i)为V_i中出现的第k个敏感帧连续段的连续帧数，当f_k(V_i)＞n时，d_k＝1，否则，d_x＝0，其中n为最小连续帧阈值，若V_i中共有L_i个敏感帧连续段，则f_M(V_i)＝max(f_k(V_i))，k＝1，2，...，L_i；令敏感帧连续段帧数

V_i的敏感帧连续性定义为：

(α和β表示权重因子，在应用中：α＝0.35，β＝0.65)，则视频的敏感帧连续性定义为：Q＝max(Q_i)。

7、视频内容敏感度计算

假设label为视频标签，AVG_MG为视频敏感帧比例，mgR为视频分段平均敏感度，视频内容敏感度R_v定义为：

其中：th_Rv1为视频敏感帧比例阈值上限，th_Rv2为视频敏感帧比例阈值下限，th_mgR为视频分段平均敏感度阈值。

8、建立声音模型

建立隐马尔可夫基本声音模型，具体步骤包括：

1)采集典型敏感声音样本，建立敏感声音训练库；

2)对待检测声音样本提取12维梅尔频率倒谱参数(MFCC)特征，提取MFCC特征的过程如下：

(a)将每帧音频信号进行傅里叶变换得到其频谱；

(b)用Me1滤波器组在频域进行带通滤波，并对每个频带的能量叠加得到频谱能量x(k)；

(c)将滤波器组的输出能量取对数，然后做离散余弦变换，即得到MFCC

特征，其中：M为Me1滤波器个数，j为MFCC维数，j取12。具体公式参考[魏宇虹，韩纪庆，张磊.一种基于HMM模型的音频场景分析技术.计算机工程与应用，2003(20)]。

3)音频特征与敏感音频特征库匹配，得到音频敏感度Rs。

9、视频音频融合器

根据以上步骤，将视频内容检测结果融合音频检测结果，对网络视频的敏感性作出最终判定。在获得视频检测结果的过程中，若视频中不能提取出音频文件，则视频检测结果以视频内容检测结果为准；若视频中能提取出音频文件，则融合器定义为：

其中：符号

实施案例：

如图1所示，检测流程首先从网络上行数据流中获取含有视频请求信息的数据包，从含有请求信息的数据包中获取视频URL，并对视频URL作去重处理，采用动态负载均衡控制策略批量下载视频。

如图2所示，从视频中提取音频文件，并提取音频特征，然后与音频特征库匹配，得到音频检测结果Rs。

如图2所示，视频抽样采用自适应自反馈抽样策略。为保留视频主要特征，关键帧抽取应覆盖视频全部或大部分区域。对于视频中关键帧较少或时间较短的视频，抽取视频中所有的关键帧；对于视频时间长、视频关键帧多的视频，为提高检测速度，采用分段抽取方法，以便覆盖视频大部分区域。为保留视频的连续运动特征，部分段连续抽取关键帧。每段的起始帧定位由按时间确定的初始帧和初始帧检测反馈结果确定。

如图3所示，对视频序列采用分类模型快速匹配检测，若匹配成功，则视频检测结束，否则，进入视频标签检测模块；若检测到视频标签，则视频检测结束，否则，采用帧识别引擎检测视频关键帧序列。

如图4所示，帧识别引擎检测流程包括以下步骤：(1)从视频关键帧序列中取一个关键帧；(2)对该关键帧作尺度归一化处理；(3)采用颜色空间自适应选择肤色模型检测帧中的肤色区域S1，并生成肤色掩码图；(4)若S1小于肤色区域敏感阈值th_skin1，则该帧直接判定为正常帧，帧识别引擎跳过剩余检测模块，从视频关键帧序列中取下一帧；(5)否则，若S1大于肤色区域纹理阈值th_tex，检测肤色区域纹理T1，若T1大于设定的阈值，则该帧判定为正常帧；(6)否则，检测肤色区域的规则度Rg，若Rg大于肤色区域规则度阈值th_rg，则该帧判定为正常帧；(7)否则，采用快速人脸检测算法检测该帧是否为肖像帧或多人脸帧，若是，则该帧判定为正常帧；(8)否则，检测是否为多人脸帧，若是多人脸帧，该帧则判定为正常帧；(9)若关键帧中没有检测到人脸，转到步骤(10)；否则，检测人脸下方人体区域肤色面积S2，若S2小于人脸下方人体区域肤色阈值th_skin2，则该帧判定为正常帧；(10)在肤色掩码图上去除人脸区域后得到最大肤色块，若最大面积S3小于最大肤色块阈值th_skin3，则该帧判定为正常帧；(11)去除人脸后肤色面积S4后，若大于去人脸敏感阈值th_skin4，该帧判定为敏感帧；否则，若S4大于去人脸疑似敏感阈值th_skin5，该帧判定为疑似敏感帧；否则，该帧判定为正常帧。帧识别引擎检测流程结束。

如图1所示，视频关键帧序列采用帧识别引擎检测后，视频动态性检测引擎检测视频关键帧之间的关联关系，包括视频运动检测和连续敏感帧检测，来体现视频呢的动态播放特点。基于帧识别引擎和视频动态性检测引擎检测结果，计算视频内容敏感度Rv。融合视频敏感度Rv和音频敏感度Rs，得到网络视频的最终检测结果。

本发明提出的视频检测算法对2919部视频样本进行检测，其中包括421部敏感视频样本，2498部正常视频样本。检测服务器配置如下：DELL R710机架服务器；双CPU，单CPU四核(

5500处理器系列)；4G内存、300G*4SAS硬盘；Windows操作系统。视频检测结果如表1所示。

表1

本发明提出的视频检测算法，充分挖掘视频帧内容特征和视频动态特征，并借助人工智能和机器学习等智能化技术和手段，实现了从内容上检测网络视频信息。该方法检测速度快，准确率高，从根本上解决了目前网络信息安全技术对敏感信息的监管能力不足的问题。

Claims

1.一种网络敏感视频检测方法，包括以下步骤：

所述的从网络中获取视频URL的过程中，先从网络上行数据流中获取含有视频请求信息的数据包，再从含有视频请求信息的数据包中获取视频URL；对于视频请求信息分布在多个数据包中的情况，需先进行数据重组，再提取视频URL；对于视频请求信息隐藏而cookie中包含视频类型的情况，需先从cookie中获取视频类型，再验证数据包中的URL是否为视频URL；对于视频请求信息设置防盗的情况，需通过请求信息复制及嫁接技术，模拟客户请求，进而绕过防盗链的设置；

其中：n表示视频k分成的总段数；m表示视频k的第i段视频的总帧数，记为m＝f(t(k))，其中t(k)表示视频k的时间长度，即m的值由函数f(t(k))决定；i表示视频k中的第i段视频，j表示第i段视频中的第j个帧；α_i为稀疏系数，用于表示在视频k的第i段视频中抽取关键帧的稀疏程度，当取值为0时，表示抽取所有帧，当取值为1时，表示连续抽取所有的关键帧，当其值为n(n＞1)的整数时，表示隔n-1抽取关键帧；Γ_i表示视频k的第i段视频的起始位置，记为：Γ_i＝Γ_i’+βP_i，其中Γ_i’表示第i段视频中的帧在反馈定位前的初始位置，P_i表示反馈频次，β为放大系数；ψ_i，j(t(k)，Γ_i)表示在视频k的第i段视频中抽取的关键帧的集合；

所述的从音频文件中提取音频特征的过程中，提取的音频特征为12维的梅尔频率倒谱参数特征，并将音频特征与敏感音频特征库进行匹配，得到音频敏感度Rs；

步骤4)采用帧识别引擎对抽样视频序列的帧静态内容与视频动态性进行检测，并计算抽样视频序列的内容敏感度R_v；

所述的采用帧识别引擎对抽样视频序列的帧静态内容与视频动态性进行检测的过程中，帧静态内容检测包括：肤色检测、纹理检测、皮肤规则度检测、人脸检测和肢体检测；视频动态性检测包括：运动检测和敏感帧连续性检测；

步骤5)将内容敏感度R_v和音频敏感度R_s相融合，得到视频的敏感度检测的最终结果；

其中符号

表示条件融合关系，也就是R_s可提高R_v的等级，但不降低R_v的等级；

在上述步骤3)与步骤4)间加入以下步骤：

步骤a)利用快速分类模型对抽样视频序列进行匹配，若匹配成功，则视频直接判定为敏感视频，视频检测结束；否则，转入步骤b)；

步骤b)利用视频标签模型对抽样视频序列进行匹配，若匹配成功，则视频直接判定为敏感视频，视频检测结束；否则，转入步骤4)；

其特征在于：步骤a)所述的快速分类模型匹配的过程中，所建的快速分类模型包括：裸聊子类视频模型、舞台子类视频模型和高光背景子类视频模型；裸聊子类视频模型描述为：令F＝{F_i|i＝1，2，...，N}为抽取到的视频帧集，(x，y)处像素的亮度为g(x，y)，视频帧的宽为W，高为H，若帧的平均亮度avg_gray＞Th_LL1，两帧间的变化率chan_ratio＜Th_LL2，内容中检测到人脸的帧的数目小于抽取的总帧数的5％，则认为是裸聊视频；其中Th_LL1为帧的平均亮度阈值，Th_LL2为两帧间的变化率阈值，两帧间的变化率为

舞台子类和高光背景子类视频模型描述为：假设帧F_i为平均亮度值Gray_i，Lab表示帧间变化剧烈度，令

2.根据权利要求1所述的一种网络敏感视频检测方法，其特征在于：步骤b)所述的采用视频标签模型匹配的过程中，视频标签是指视频内容的自定义标识，用于描述视频的类别；视频标签模型描述为：令F_t为t时刻的关键帧，计算F_t的灰度图的水平梯度，以确定F_t是否含有候选标签，计算得到各帧的候选标签区域后，计算视频标签的基准边界；获得视频标签的基准边界后，在T个关键帧中挑选边界与基准边界最相近的K个帧，并提取相应的视频标签；然后将这些视频标签与标签库中的标准标签匹配，若此K个标签中有超过一半的标签与标签库中的某个标准标签相匹配，则确定视频中含有与标准标签相同的视频标签。

3.根据权利要求1所述的一种网络敏感视频检测方法，其特征在于：步骤4)所述的肤色检测采用基于YC_bC_r和RGB颜色空间的自适应选择方法，假设帧的3个颜色分量R、G、B的均值分别为avgR、avgG、avgB；avgGray为平均灰度值，maxCom为最大颜色分量，minCom为最小颜色分量，avgGap为帧的灰度差，对于满足条件avgGap＜th_gray的帧，采用灰度世界假设原理进行色彩均衡，对于满足条件avgGap≥th_grayGap的帧，在RGB颜色空间中获取帧中的肤色点，其中：th_gray为灰度调整阈值，th_grayGap为灰度差最大阈值，其余情况下，将RGB颜色空间转换到YC_bC_r颜色空间后，在YC_bC_r颜色空间中获取帧中的肤色点的集合Φ；

所述的在纹理检测的过程中首先检测肤色掩码区域的像素点颜色分布的均匀程度，将初始帧均匀地分成M*N的区块，然后以区块为单位进行纹理过滤，通过计算区块内肤色点的变化剧烈程度确定该区块是否为纹理块；

所述的皮肤规则度检测如下：令肤色掩码图上区域的个数为Num，这些区域的标注分别用R_i表示，其中i＝1，2，...，Num，标识为R_i的区域中包含的像素点的数目为C_i，肤色掩码图的皮肤规则度的计算公式为

其中

MC＝max(C_i)，MI＝{i|C_i＝MC}，α和β表示权重因子，max为取最大值函数，E_i为标识为R_i的区域中的边缘点的数目，E_MI为包含像素点数最多的区域的边缘点数目；

所述的人脸检测是指：首先对初始帧的进行人脸检测，得到检测结果FD，然后分别对经顺时针45°旋转后的帧和经逆时针45°旋转后的帧进行人脸检测，最终结果为FDL，其值来自FD∪Rotate(FD，45°)∪Rotate(FD，-45°)，人脸检测包括肖像帧检测和多人脸检测；

所述的肢体检测过程依赖人脸检测结果，设人脸宽为WF，高为HF，人脸下边缘中心点为(F_x，F_y)，则人体疑似区域为人脸下方的矩形区域，矩形区域宽WR为4WF，高HR为5HF，设人体疑似区域内肤色点个数为num，肤色重心为(B_x，B_y)，肤色像素的坐标为(SP_xi，SP_yi)，其中

则人体中心线为(F_x，F_y)和(B_x，B_y)的连线y＝kx-kC_x+C_y，其夹角斜率k＝(F_y-C_y)/(F_x-C_x)，设人体宽度为WB，直线y分别向左和向右平移，平移直线分别记为y1和y2，平移距离为

则由y1、y2和人体疑似区域围成的区域为初步定位的人体区域，人体区域内的肤色像素区域判定为人体；

所述的运动检测中利用视频帧差法和直方图帧差法提取场景中的运动目标，直方图帧差法用来确认镜头切换或场景变化的剧烈程度，镜头切换或场景变化剧烈时不提取运动目标，同一镜头中的帧集中采用视频帧差法提取运动目标，视频帧差的计算公式为FD＝|V(i+1)，V(i)|，V(i)表示第i帧，||表示取两个视频帧的差，当FD＞th_FD时，标记为运动目标区域，在运动目标区域中提取运动人体，其中th_FD为视频帧差阈值；

所述的敏感帧连续性检测描述如下：假设抽样视频序列被分S段，V_i为其中的第i段，i＝1，2，...，S，V_i段的总帧数为FM，敏感帧连续段定义为在V_i中连续出现的多个敏感帧，令f_k(V_i)为V_i中出现的第k个敏感帧连续段的连续帧数，当f_k(V_i)＞n时，d_k＝1，否则，d_k＝0，其中n为最小连续帧阈值，若V_i中共有L_i个敏感帧连续段，则f_M(V_i)＝max(f_k(V_i))，k＝1，2，...，L_i，令敏感帧连续段帧数V_i

的敏感帧连续性定义为

其中α和β表示权重因子，在应用中α＝0.35，β＝0.65，则视频的敏感帧连续性定义为Q＝max(Q_i)。

4.根据权利要求1所述的一种网络敏感视频检测方法，其特征在于：步骤4)所述的计算视频的内容敏感度R_v的方法如下：令label为视频标签，AVG_MG为视频敏感帧比例，mgR为视频分段平均敏感度，则视频的内容敏感度R_v定义为，若label＝1或AVG_MG＞th_Rv1或mgR＞th_mgR，则R_v＝1，即认为视频是敏感的；若label＝0且AVG_MG＞th_Rv2且AVG_MG≤th_Rv1且mgR≤th_mgR，则R_v＝0.5，即认为视频是疑似敏感的；其它情况下，则R_v＝0，即认为视频是正常的，其中：视频分段平均敏感度是抽取的各段视频敏感度的平均值，即