CN103838835A

CN103838835A - 一种网络敏感视频检测方法

Info

Publication number: CN103838835A
Application number: CN201410064902.1A
Authority: CN
Inventors: 胡卫明; 周锋; 吴偶; 祝守宇; 陶志忻; 潘永存
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-02-25
Filing date: 2014-02-25
Publication date: 2014-06-04
Anticipated expiration: 2034-02-25
Also published as: CN103838835B

Abstract

本发明公开了一种新的网络敏感视频检测方法，该方法包括：收集网络视频并提取其周边的文本，然后提取出网络视频中的视频特征和文本特征，视频特征包含音频特征和视觉特征，视频特征以及文本特征构成网络视频的特征集合；依次人工标定视频是敏感的还是不敏感的；通过考虑视音频特征的质量因子并利用提取的特征集计算出词汇之间的内容丰富相似度，加上之前提取的文本特征一起构建分类器核，利用上面得到的分类器核，通过改进的支持向量机算法来训练网络敏感视频分类器，最后分类的时候仅提取测试样本的文本特征作为预测输入数据。本发明可以应用在互联网中的有害视频过滤中，可以有效的维护计算机网络的内容健康和安全。

Description

一种网络敏感视频检测方法

技术领域

本发明属于模式识别技术领域，尤其是一种新的网络敏感视频的检测方法。

背景技术

随着时代的发展，信息也随之爆炸。现在网络的出现为人们获取信息提供了极其便利的条件，但是任何事情都具有两面性，网络时代为我们提供方便的同时也带来了很多负面的影响，比如说网络上充斥着大量的色情、恐怖以及暴力等敏感视频，色情和恐怖视频大家都知道对于人们的健康有着恶劣的影响，现在已有很多方法对其进行检测和制止；但是人们忽略了暴力视频对于人们尤其是孩子心理健康的危害，现有的方法很少对暴力视频进行检测，即使存在也由于诸多原因并没有用于实际中间。

早在上个世纪就有人对于暴力对人们尤其是孩子的健康的影响做过研究。随着现在的视频分享网站的崛起，这个研究日趋重要起来。2006年国外最大的视频网站“YouTube”被Google以16.5亿美元收购，这一年被称为网络视频元年。此外，国内也出现了大量的诸如优酷土豆等等视频分享网站。这些视频分享网站允许用户将自己的视频上传分享给他人，于是有越来越多的用户热衷于将视频分享到网上，致使网络视频以井喷式增长，由于用户的素质良莠不齐势必会导致大多数色情暴力等不利于人们健康的视频也会被分享，而且数目之大令人无法想象。因此，需要对这些视频进行有效的识别，并根据识别的结果对视频进行监管。

对于网络敏感视频的检测，现有的技术可以大致分为三类：(1)基于文本的识别方法。这种方法就是提取网络视频周边文本的特征，根据这些文本特征来构造分类器。例如在暴力视频识别上，常提取的文本特征有视频的标题标签以及用户的评价等等。(2)基于视觉特征的识别方法。这种方法通过提取网络视频的视觉特征来构造分类器。一般提取的视觉特征分为视频特征和音频特征；在暴力视频的识别上，一般提取的视频特征有视频运动的矢量、颜色、纹理、血色等等；一般提取的音频特征有过零率、短时能量、梅尔倒谱系数等等。(3)基于信息融合的识别方法，这类方法将网络视频中的文本特征和视觉特征融合起来构造分类器。大量实验数据表明基于文本的分类器效率高速度快，然而网络视频中的文本特征具有稀疏性并不能很好的表示视频的内容；基于视觉内容的分类器能够很好地进行视频的分类，然而它的缺点在于很耗时，效率不是很高；在信息融合的领域大家有个共识就是多模态的分类结果通常来说会比单模态的识别效果好，实验数据也证明了这个观点，就是基于文本和视觉信息融合的分类器比之前的基于文本的和基于视觉的分类效果都好。众所周知，提取一个网络视频的文本特征效率很高，耗时很少，无论最后对于分类的效果贡献多少，实际上对于最终的分类效率并没有太大的影响，然而提取视频的视觉信息需要花费的时间相对来说却是非常之大的，实际之中视频分享网站中的视频质量良莠不齐，不能够保证任何一个视频中视频特征和音频特征的质量都非常的好，人们希望提取到的任何视觉特征对于最后的分类都是有帮助的，因此就有必要对于网络视频的视觉特征进行评估，评估它的质量如何，从而就有必要引入质量因子，来保证分类结果的可靠性，以实现更加合理的识别功能。

发明内容

本发明的主要目的是提供一种新的网络敏感视频检测方法，其主要的核心思想是在训练的时候考虑训练样本的视频特征和文本特征，通过计算出词对之间的内容丰富相似度构成一个语义分类核，使得最后在测试样本的时候并不需要耗费大量的时间去抽取样本的视频特征。该方法融合了网络视频中的文本特征和视频特征，通过考虑视频特征的质量来达到较好的分类效果。

为达到上述目的，本发明提出的一种网络敏感视频检测方法包括以下步骤：

步骤101：收集网络视频以及每个网络视频周围的文本以构成网络视频样本集；

步骤102：提取所述网络视频样本集中每个视频样本对应的文本特征，以及视频样本中的视频特征，也就是视觉特征和音频特征，所有视频样本的特征构成了网络视频的特征集；

步骤103：利用人工对所述网络视频样本集中的每一个网络视频样本进行识别和分类，即人为地标定每一个网络视频样本是敏感的还是不敏感的；

步骤104：通过计算所述网络视频样本集中每一个网络视频样本的视频比特率和音频比特率来提取得到视觉质量因子与音频的质量因子，并利用基于相似度的聚类方法对所述网络视频样本集进行聚类，得到C个聚类团以及视频聚类关系矩阵VS；

步骤105：利用所述视频聚类关系矩阵VS计算出C个聚类团中所有词对的内容丰富语义相似度矩阵，通过所述内容丰富语义相似度矩阵计算得到每个聚类团的内容丰富语义相似度分类器；

步骤106：将测试样本文本特征输入到所述步骤105得到的分类器中，每一个分类器将会返回一个数值来预测该测试样本可能所属的类别，最后通过计算哪一个分类器所返回的数值最高，来确定该测试样本的类型。

从上述技术方案可以看出，本发明具有以下有益效果：

1、本发明提供了一种新的网络敏感视频检测方法，能够根据网络视频样本本身的特点来分析所提取特征的质量，并且在训练的时候考虑到网络视频的视频特征提取的耗时性，于是在训练的时候通过计算词之间的内容丰富的相似度并加入网络视频的文本特征构造出一个内容丰富的语义核，这样可以在测试样本的时候仅需要提取样本视频的文本特征就可以进行分类，这样大大减少了分类所需要的时间。引入质量因子的原因是因为现在网络视频的质量良莠不齐，有的网络视频的视频很清晰可是音频质量很差，而有的网络视频的音频质量很好可是视频质量很差，这样在引入质量因子之后就可以根据实际情况，确定视频和音频对于最后分类所做的贡献比例，而且还可以为构建内容丰富的语义核做出贡献。目前所有的基于多模特征的融合均没有考虑网络视频的特征的质量因子，也没有考虑到在实际分类中所耗费的时间这一问题。然而在实际应用中，耗时性和准确性却是不能不考虑的因素，尤其是针对网络视频处理这种对时效性要求比较高的场合。而本发明通过考虑视觉特征中视频特征和音频特征的质量因子以及训练时候构造了文本之间的内容丰富相似度的语义核，由此构造出来的分类器比现有方法所构造出的分类器，更加符合网络视频的特点。

2、本发明提出的改进的支持向量机的算法能够很好的将网络视频的三类特征各自的优点充分利用起来，从而克服了内容特征提取的耗时性，并通过支持向量机算法在内容丰富的核空间里进行聚类，使得训练出来的分类器能够在识别网络视频样本时，更加准确以及更加省时，更具有合理性。

附图说明

图1是本发明提供的网络敏感视频检测方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的执行环境采用一台具有3.4G赫兹中央处理器和4G字节内存的酷睿双核计算机，实现了本发明一种考虑特征质量因子的网络敏感视频检测方法，当然还可以采用其他的执行环境，在此不再赘述。

图1为本发明提供的一种网络敏感视频检测方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101：利用计算机等设备收集网络视频以及每个网络视频周围的文本以构成网络视频样本集；

该步骤中，具体选取的特征根据敏感视频的具体类型来选取，在此以暴力视频来简单的介绍应该提取的视音频特征。

在本发明一实施例中，对于视觉特征，主要提取的是与暴力相关的视觉特征，例如枪火、血腥等颜色，强烈的镜头变换、快速晃动等运动矢量等等；

对于音频特征，主要提取的是与暴力相关的音频特征，例如短时能量，过零率，梅尔倒谱系数等；

对于文本特征，主要提取的是常规的文本特征，如文档频率，信息增益以及互信息等。

其中，视频聚类关系矩阵VS的计算方法如下，如果视频i在聚类团Cj中，则VS_ij=1，反之VS_ij=0。

对所述网络视频样本集中的每个网络视频样本的视觉质量因子的计算具体包括以下步骤：

步骤1041，计算所述网络视频样本集中每一个网络视频样本的视频比特率，得到具有最大视频比特率的网络视频样本；

步骤1042，将其他所有的网络视频样本的视频比特率除以所述最大视频比特率，得到与网络视频样本相应的视觉质量因子，所述质量因子的值介于0和1之间。

对所述网络视频样本集中的每个网络视频样本的音频质量因子的计算具体包括以下步骤：

步骤1043，计算所述网络视频样本集中每一个网络视频样本的音频比特率，得到具有最大音频比特率的网络视频样本；

步骤1044，将其他所有的网络视频样本的音频比特率除以所述最大音频比特率，得到与网络视频样本相应的音频质量因子，所述音频质量因子的值介于0和1之间。

在本发明一实施例中，所述步骤104采用如下所述的聚类方法：

（1）假设现在一共收集的网络视频样本的总个数为D，也就是说现在有D个聚类团，每个聚类团中仅含有一个网络视频样本；

（2）用sim(X_i,X_j)表示任意两个聚类团之间的相似度，其中，X_i,X_j表示D个聚类团中的任意两个聚类团，i,j<D，由此得到一个对角矩阵，称这个对角矩阵为相似矩阵S⁽⁰⁾：

S⁽⁰⁾=(sim⁽⁰⁾(X_i,X_j))_（D×D），

其中，上标0表示表示第一次聚类。

（3）合并相似度最大的两个聚类团为一个新聚类团，这样得到的聚类团记为第D+1个聚类团，因此现在得到D-1个聚类团；

（4）计算新聚类团与剩下各聚类团之间的相似度，得到降一阶的新的相似度矩阵S⁽¹⁾：

S⁽¹⁾=(sim⁽¹⁾(X_i,X_j))_{（D-1）×（D-1）}，

（5）这样循环下去最终得到C个聚类团，至此网络视频样本集的聚类结束。

其中，在聚类的过程中，根据待聚类对象的不同特点来计算它们之间的相似度，具体为：

（1）待聚类对象为两个样本；

用向量X_ip=(aq_ip,a_ip,vq_ip,v_ip)，X_jk=(aq_jk,a_jk,vq_jk,v_jk)表示两个网络视频样本的质量因子、视觉特征和音频特征，其中，aq_ip表示网络视频样本X_ip的音频质量因子，aq_jk表示网络视频样本X_jk的音频质量因子，vq_ip表示网络视频样本X_ip的视频质量因子，vq_jk表示网络视频样本X_jk的视频质量因子，a_ip表示网络视频样本X_ip的音频特征，a_jk表示网络视频样本X_jk的音频特征，v_ip表示网络视频样本X_ip的视觉特征，v_jk表示网络视频样本X_jk的视觉特征，则X_ip与X_jk之间的相似度定义为：

sim (X_{ip}, X_{jk}) = ex p^{- [\frac{{aq}_{ip} \times {aq}_{jk}}{{aq}_{ip} \times {aq}_{jk} + {vq}_{ip} + {vq}_{jk}} {| | a_{ip} - a_{jk} | |}_{2} + \frac{{vq}_{ip} \times {vq}_{jk}}{{aq}_{ip} \times {aq}_{jk} + {vq}_{ip} + {vq}_{jk}} {| | v_{ip} - v_{jk} | |}_{2}]};

（2）如果待聚类对象为样本与聚类团；

用X=(aq,a,vq,v)和cluster(j)=(X_j1,X_j2,…,X_jm)分别表示某聚类团中的一个网络视频样本以及包含m个网络视频样本的聚类团，则X与cluster(j)的相似度定义为：

sim(X,cluster(j))=Max(sim(X,X_jk))(k=1,2,…,m)；

（3）如果待聚类对象为两个聚类团；

用cluster(i)=(X_i1,X_i2,…,X_in)和cluster(j)=(X_j1,X_j2,…,X_jm)分别表示具有n个和m个网络视频样本的两个聚类团，则这两个聚类团之间的相似度为：

sim(cluster(i),cluster(j))=Max(sim(X_ip,X_jk))(p=1,2,…,n,k=1,2,…,m)；

对两个词之间的语义相似度及其相应的语义相似度核的计算如下：利用词网或者同现的方法计算出两个词之间的语义相似度，语义相似度的核即K=X×P×P^T×X^T，其中，X是词与视频文本的关系矩阵，P是由词与词之间的相似度所组成的相似度矩阵。

网络词汇之间的内容丰富语义相似度的计算如下：

首先可以列出一个向量，这个向量的内容是每个词汇在一个视频中出现的频率：W=<tf_w,1,tf_w,2,...,tf_w,|D|>，其中tf_w,1表示词w在第i个文本中出现的概率，|D|表示文本个数；

根据上述的内容就可以得到词在聚类团中出现的频率Wc，Wc=W×VS，其中Wc=<tf_wc,1,tf_wc,2,...,tf_wc,k>，tf_wc,k表示词w在聚类团中出现的频率。

可以利用VS矩阵来计算所有词对之间的内容丰富的语义相似度，详细的过程是这样的：给定一个词在文本中出现频率的矩阵X和视频聚类关系矩阵VS，通过Y=X^T×VS可以得到词出现在聚类团中的矩阵Y。把矩阵Y的每一行的向量y规格化后得到

这样就得到了向量

也就得到了内容丰富相似度矩阵

内容丰富语义相似度分类器核的构造方法如下：

K=X×CES×X^T，

其中，X为一个词在文本中出现频率的矩阵，X_ij表示词i在文本j中出现的频率。这样每个聚类团的分类器的语义核就构造出来了。

对于每一个聚类团，通过一对多的支持向量机方法并利用内容丰富的语义核来构建得到分类器，至此每个聚类团的分类器就构造出来了。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络敏感视频检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤102中提取的特征取决于敏感视频的类型。

3.根据权利要求1所述的方法，其特征在于，所述步骤104中，所述视频聚类关系矩阵VS的计算方法如下：如果视频i在聚类团Cj中，则VS_ij=1，反之VS_ij=0。

4.根据权利要求1所述的方法，其特征在于，所述步骤104中，对所述网络视频样本集中的每个网络视频样本的视觉质量因子的计算包括以下步骤：

5.根据权利要求1所述的方法，其特征在于，所述步骤104中，对所述网络视频样本集中的每个网络视频样本的音频质量因子的计算包括以下步骤：

6.根据权利要求1所述的方法，其特征在于，所述步骤104采用的聚类方法为：

（1）假设现在一共收集的网络视频样本的总个数为D，也就是说有D个聚类团，每个聚类团中仅含有一个网络视频样本；

（2）用sim(X_i,X_j)表示任意两个聚类团之间的相似度，其中，X_i,X_j表示D个聚类团中的任意两个聚类团，i,j<D，由此得到一个对角矩阵，称之为相似矩阵S⁽⁰⁾：

S⁽⁰⁾=(sim⁽⁰⁾(X_i,X_j))_（D×D），

其中，上标0表示表示第一次聚类；

（3）合并相似度最大的两个聚类团为一个新聚类团，这样得到的聚类团记为第D+1个聚类团，现在得到D-1个聚类团；

S⁽¹⁾=(sim⁽¹⁾(X_i,X_j))_{（D-1）×（D-1）}，

（5）循环下去最终得到C个聚类团，至此网络视频样本集的聚类结束。

7.根据权利要求1所述的方法，其特征在于，在所述步骤104利用基于相似度的聚类方法得到C个聚类团的过程中，根据待聚类对象的不同特点来计算它们之间的相似度，具体为：

（1）如果待聚类对象为两个样本，则使用下式来计算它们之间的相似度：

sim (X_{ip}, X_{jk}) = ex p^{- [\frac{{aq}_{ip} \times {aq}_{jk}}{{aq}_{ip} \times {aq}_{jk} + {vq}_{ip} + {vq}_{jk}} {| | a_{ip} - a_{jk} | |}_{2} + \frac{{vq}_{ip} \times {vq}_{jk}}{{aq}_{ip} \times {aq}_{jk} + {vq}_{ip} + {vq}_{jk}} {| | v_{ip} - v_{jk} | |}_{2}]},

其中，向量X_ip=(aq_ip,a_ip,vq_ip,v_ip)，X_jk=(aq_jk,a_jk,vq_jk,v_jk)表示两个网络视频样本的质量因子、视觉特征和音频特征，aq_ip表示网络视频样本X_ip的音频质量因子，aq_jk表示网络视频样本X_jk的音频质量因子，vq_ip表示网络视频样本X_ip的视频质量因子，vq_jk表示网络视频样本X_jk的视频质量因子，a_ip表示网络视频样本X_ip的音频特征，a_jk表示网络视频样本X_jk的音频特征，v_ip表示网络视频样本X_ip的视觉特征，v_jk表示网络视频样本X_jk的视觉特征；

（2）如果待聚类对象为样本与聚类团，则使用下式来计算它们之间的相似度：

sim(X,cluster(j))=Max(sim(X,X_jk))(k=1,2,…,m)，

其中，X=(aq,a,vq,v)和cluster(j)=(X_j1,X_j2,…,X_jm)分别表示某聚类团中的一个网络视频样本以及包含m个网络视频样本的聚类团；

（3）如果待聚类对象为两个聚类团，则使用下式来计算它们之间的相似度：

sim(cluster(i),cluster(j))=Max(sim(X_ip,X_jk))(p=1,2,…,n,k=1,2,…,m)其中，cluster(i)=(X_i1,X_i2,…,X_in)和cluster(j)=(X_j1,X_j2,…,X_jm)分别表示具有n个和m个网络视频样本的两个聚类团。

8.根据权利要求1所述的方法，其特征在于，所述步骤105中，利用VS矩阵来计算所有词对之间的内容丰富的语义相似度：给定一个词在文本中出现频率的矩阵X和视频聚类关系矩阵VS，通过Y=X^T×VS得到词出现在聚类团中的矩阵Y，把矩阵Y的每一行的向量y规格化后得到

这样就得到了向量

和内容丰富相似度矩阵

9.根据权利要求1所述的方法，其特征在于，所述步骤105中，内容丰富语义相似度分类器核利用下式计算：

K=X×CES×X^T，

其中，X为一个词在文本中出现频率的矩阵，CES为内容丰富相似度矩阵。