CN102930553B

CN102930553B - 不良视频内容识别方法及装置

Info

Publication number: CN102930553B
Application number: CN201110228113.3A
Authority: CN
Inventors: 王斌; 周晨艳; 贝悦; 李辉; 朱剑
Original assignee: China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Group Shanghai Co Ltd
Priority date: 2011-08-10
Filing date: 2011-08-10
Publication date: 2016-03-30
Anticipated expiration: 2031-08-10
Also published as: CN102930553A

Abstract

本发明公开了一种不良视频内容识别方法，包括：在待检测视频中提取视频关键帧；对提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；并针对分割得到的每个视频镜头分别执行：提取该视频镜头的运动特征信息，并根据提取的运动特征信息判断该视频镜头是否为不良视频镜头；根据判断出的不良视频镜头的数目，确定所述待检测视频是否为不良视频内容。使用本发明提出的不良视频内容识别方法，能够提高对不良视频内容的识别准确度。

Description

不良视频内容识别方法及装置

技术领域

本发明涉及数据业务技术领域，尤其是涉及一种不良视频内容识别方法及装置。

背景技术

随着移动通信技术的快速发展，移动多媒体信息业务正日益广泛的深入到人们的日常生活中，众多基于现代移动多媒体信息的业务如短信、彩信、手机报纸、移动票证、手机电视和流媒体等被开发和运用于人们的日常生活中，这些业务在带给人们方便的同时，也带来一些潜在的危险。如色情暴力、邪教传播、敌对宣传、盗版内容等各种类型的不良视频信息已经在手机等移动终端上有所出现，如何对这些基于移动多媒体业务的不良视频进行有效管控，并保障移动多媒体信息的内容安全，已经成为不良信息检索、监控和研究的主要内容之一。

目前，常用的检测不良视频的视频内容识别方法，往往是通过对视频进行关键帧抽取，然后再对抽取的关键帧采用图像内容识别的方法进行检测。这类方法主要是基于不良图片的检测方法，如现有技术中提出的人体皮肤检测，针对抽取的每个关键帧对应的图像信息，使用组合的颜色和纹理属性标记出类似皮肤的像素，利用皮肤区域组成的轮廓，判断该图像信息是否为不良图片，如果为不良图片则确定对应的关键帧为不良关键帧；在抽取的关键帧中，如果检测到的不良关键帧的概率高于预定的阈值，则可以判断待检测的视频内容为不良视频内容。

基于提取视频的关键帧来进行整个视频的研判方法，停留在使用关键帧的静态图像特征进行检测，容易造成对不良视频的误判，同时在不良视频中存在的不良关键帧数量不多、相对较集中的情况下，很容易造成对不良视频的漏判。

发明内容

本发明实施例提供一种不良视频内容识别方法及装置，用以提高对不良视频内容的识别准确度。

相应的，本发明实施例还提供一种视频关键帧的提取方法及其装置。

相应的，本发明实施例还提供一种视频镜头的分割方法及其装置。

相应的，本发明实施例还提供一种视频场景的分割方法及其装置。

本发明实施例技术方案如下：

一种不良视频内容识别方法，包括：在待检测视频中提取视频关键帧；对提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；并针对分割得到的每个视频镜头分别执行：提取该视频镜头的运动特征信息，并根据提取的运动特征信息判断该视频镜头是否为不良视频镜头；根据判断出的不良视频镜头的数目，确定所述待检测视频是否为不良视频内容。

一种不良视频内容识别方法，包括：在待检测视频中提取视频关键帧；对提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；并基于分割得到的各个视频镜头信息，对待检测视频进行视频场景分割，得到不同的视频场景；针对分割得到的每个视频场景分别执行：判断该视频场景是否为不良视频场景；根据判断出的不良视频场景的数目，确定所述待检测视频是否为不良视频内容。

一种视频关键帧的提取方法，包括：对视频进行等时间间隔提取N个视频帧，抽取出的N个视频帧分别代表N个聚类的聚类中心帧；对于视频中除聚类中心帧之外的每个视频帧，分别执行下述操作，形成N个聚类：分别确定该视频帧与N个聚类中心帧之间的相似度，将该视频帧归类到与该视频帧具有最高相似度的聚类中心帧所在的聚类中；判断形成的N个聚类中的每个聚类中包含的视频帧中任意两个视频帧之间的相似度是否均大于第一阈值，且任意两个聚类中包含的视频帧之间的相似度均小于第二阈值；如果判断结果均为是，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为视频关键帧，提取视频关键帧过程结束；否则对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为新的聚类中心帧；重新选择出的N个新的聚类中心帧分别归属N个不同的聚类后，返回继续执行对于视频中除聚类中心帧之外的每个视频帧的操作。

一种视频镜头的分割方法，包括：在视频中提取多个视频关键帧；对提取的多个视频关键帧分别进行分析，得到提取的多个视频关键帧之间的相关特征；根据分析得到的多个视频关键帧之间的相关特征，对多个视频关键帧进行分组，每一个分组中包含的视频关键帧构成一个对视频进行分割得到的视频镜头。

一种视频场景的分割方法，包括：对视频进行镜头分割处理，得到多个视频镜头；计算分割的各个视频镜头之间的相关性；根据计算出的各个视频镜头之间的相关性，将分割出的各个视频镜头进行分组，每组视频镜头构成一个视频场景。

一种不良视频内容识别装置，包括：视频关键帧提取单元，用于在待检测视频中提取视频关键帧；视频镜头分割单元，用于对视频关键帧提取单元提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；视频镜头判断单元，用于针对视频镜头分割单元分割得到的每个视频镜头分别执行：提取该视频镜头的运动特征信息，并根据提取的运动特征信息判断该视频镜头是否为不良视频镜头；视频内容判断单元，用于根据视频镜头判断单元判断出的不良视频镜头的数目，确定待检测视频是否为不良视频内容。

一种不良视频内容识别装置，包括：视频关键帧提取单元，用于在待检测视频中提取视频关键帧；视频镜头分割单元，用于对视频关键帧提取单元提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；视频场景分割单元，用于基于视频镜头分割单元分割得到的各个视频镜头信息，对待检测视频进行视频场景分割，得到不同的视频场景；视频场景判断单元，用于判断视频场景分割单元分割得到的每个视频场景是否为不良视频场景；视频内容判断单元，用于根据视频场景判断单元判断出的不良视频场景的数目，确定所述待检测视频是否为不良视频内容。

一种视频关键帧的提取装置，包括：聚类中心帧提取单元，用于对视频进行等时间间隔提取N个视频帧，抽取出的N个视频帧分别代表N个聚类的聚类中心帧；视频帧聚类形成单元，用于对于视频中除聚类中心帧提取单元提取的聚类中心帧之外的每个视频帧，分别执行下述操作，形成N个聚类：分别确定该视频帧与N个聚类中心帧之间的相似度，将该视频帧归类到与该视频帧具有最高相似度的聚类中心帧所在的聚类中；判断单元，用于判断视频帧聚类形成单元形成的N个聚类中的每个聚类中包含的视频帧中任意两个视频帧之间的相似度是否均大于第一阈值，且任意两个聚类中包含的视频帧之间的相似度均小于第二阈值；第一执行单元，用于当判断单元的判断结果均为是时，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为视频关键帧，第二执行单元，用于当判断单元的判断结果为否时，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为新的聚类中心帧，并触发视频帧聚类形成单元继续执行后续操作。

一种视频镜头的分割装置，包括：视频关键帧提取单元，用于在视频中提取多个视频关键帧；视频关键帧分析单元，用于对视频关键帧提取单元提取的多个视频关键帧分别进行分析，得到提取的多个视频关键帧之间的相关特征；视频镜头分割单元，用于根据视频关键帧分析单元分析得到的多个视频关键帧之间的相关特征，对多个视频关键帧进行分组，每一个分组中包含的视频关键帧构成一个对视频进行分割得到的视频镜头。

一种视频场景的分割装置，包括：视频镜头分割单元，用于对视频进行镜头分割处理，得到多个视频镜头；相关性计算单元，用于计算视频镜头分割单元分割的各个视频镜头之间的相关性；视频场景分割单元，用于根据相关性计算单元计算出的各个视频镜头之间的相关性，将分割出的各个视频镜头进行分组，每组视频镜头构成一个视频场景。

本发明实施例技术方案中，通过结合场景风格、图像特征和运动信息充分考虑视频各关键帧之间的序列关系，综合考虑视频的静态和动态特征，利用运动特征提高检测的准确度和识别率；在降低漏检率方面，采用场景分割待检测视频，使每个片段都具有视频内容意义，以场景为单位进行不良关键帧和不良镜头的综合研判，避免发生在特定场景中的不良关键帧比例被平均化和弱化；同时，以场景为单位，逐一进行不良关键帧和不良镜头识别，出现不良场景后判定视频为不良视频，可以降低计算量，提高研判效率。

附图说明

图1为使用本发明实施例提出的基于运动特征的视频镜头识别方法判断不良视频的流程图；

图2为本发明实施例提出的不同视频镜头之间的区分边界示意图；

图3为使用本发明实施例提出的基于视频关键帧的图像特征和视频镜头的运动特征综合判断不良视频的方法流程图；

图4为使用本发明实施例提出的以视频场景为单位进行不良视频内容识别的方法流程图；

图5所示为提取GIST特征的处理流程图；

图6所示为本发明实施例中利用GIST方式对待检测视频进行场景分割的处理流程图；

图7为由多个频繁镜头集合构成整部视频的示意图；

图8为本发明实施例提出的第一种不良视频内容识别装置主要组成结构框图；

图9为本发明实施例提出的第二种不良视频内容识别装置主要组成结构框图；

图10为本发明实施例提出的视频关键帧的提取装置主要组成结构框图；

图11为本发明实施例提出的视频镜头的分割装置主要组成结构框图；

图12为本发明实施例提出的视频场景的分割装置主要组成结构框图。

具体实施方式

现有技术中基于提取视频的关键帧来对整个视频进行识别不良视频内容的识别方法，仅仅停留在对抽取的关键帧的静态图像特征进行检测，所以很容易造成对不良视频内容的误判，同时对于不良视频中存在不良关键帧数量不多、且相对较集中的情况，很容易造成对不良视频的漏判。基于此，本发明提出一种快速有效、保证一定准确度的不良视频内容识别方案，通过结合场景风格、图像特征和运动信息充分考虑视频各关键帧之间的序列关系，综合考虑视频的静态和动态特征，利用运动特征提高检测的准确度和识别率；在降低漏检率方面，采用场景分割待检测视频，使每个片段都具有视频内容意义，以场景为单位进行不良关键帧和不良镜头的综合研判，避免发生在特定场景中的不良关键帧比例被平均化和弱化；同时，以场景为单位，逐一进行不良关键帧和不良镜头识别，出现不良场景后判定视频为不良视频，可以降低计算量，提高研判效率。

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

实施例一

如图1所示，为使用本发明实施例提出的基于运动特征的视频镜头识别方法判断不良视频的流程图，具体实现过程如下：

步骤11，对于输入的一个待检测的视频文件或者一段视频流，进行视频关键帧的提取；

1)采用k-means聚类的方式对待检测视频进行视频关键帧的提取，具体为：首先将待检测视频按照等时间间隔分成N段，分别在分成后的N个时间间隔内随机抽取一个视频帧，抽取出的N个视频帧分别代表N个聚类的聚类中心帧；

2)然后对于待检测视频中除聚类中心帧之外的每个视频帧，分别执行：分别计算该视频帧与N个聚类中心帧之间的相似度，根据计算得到的该视频帧与每个聚类中心帧之间的相似度，将该视频帧归类到与该视频帧具有最高相似度的聚类中心帧所在的聚类中。

3)对于经过上述处理后形成的N个聚类，判断每个聚类中包含的视频帧中任意两个视频帧之间的相似度是否均大于第一阈值，且任意两个聚类中包含的视频帧之间的相似度均小于第二阈值，如果两个判断结果均为是时，对每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为视频关键帧。这样从N个聚类中就可以选择出N个视频关键帧，从而实现从待检测视频中提取出多个视频关键帧的目的。

4)如果两个判断结果中存在至少一个判断结果为否时，对每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为新的聚类中心帧。这样从N个聚类中就可以重新选择出N个聚类中心帧，分别归属N个不同的聚类，然后返回继续执行2)及其之后的处理，直至上述两个判断结果均为是时，选择出N个视频关键帧，从而实现从待检测视频中提取出多个视频关键帧的目的。

上述基于k-means聚类的方式对待检测视频进行视频关键帧的提取，可以避免现有技术中仅采用等时间间隔提取视频关键帧，对于不良视频中存在不良关键帧数量不多、且相对较集中的情况，很容易造成对不良视频的漏判，避免了不良关键帧比例被平均化和弱化的问题，可以较好的为后续不良视频的判断提供了良好基础。

由于视频关键帧的提取直接关系到后续步骤的分析操作，也直接决定了对视频内容分析结果的可靠性，因此是比较重要的一个环节。

此外，本发明实施例这里提出的该视频关键帧的提取方法也可以单独实施，不限于仅在本发明这里提出的不良视频检测方案中使用，即单独实施本发明实施例这里提出的视频关键帧提取方案，也在本发明权利要求书的保护范围之内。

步骤12，对步骤11中提取的多个视频关键帧分别进行分析，得到提取的多个视频关键帧之间的相关特征，如人体皮肤特征、人脸个数特征等；根据分析得到的多个视频关键帧之间的相关特征，对多个视频关键帧进行分组处理，将分组后的每一组视频关键帧作为一个待检测的视频镜头，即每一个待检测的视频镜头中包含多个特征相关的视频关键帧。

视频镜头是本发明实施例中对待检测视频进行分析的重要单位，其中一个视频镜头表示一个摄像机连续拍摄的帧序列，从一段连续的视频当中找出每次镜头切换的具体位置，把整段的视频以镜头为单元分割成片段。

为了尽可能准确地对提取的视频关键帧进行分组处理以得到不同的待检测视频镜头，本发明实施例中采用不同视频关键帧之间的边缘变化和颜色变化相结合的考量标准作为两个不同视频镜头之间的区分标准，利用下述公式对所有的视频关键帧进行计算：

W＝W₁*AECR+W₂*HCR

其中，W为两个相邻视频关键帧之间的切变数值，W的取值范围为[0，1]，W₁为当前视频关键帧边缘变化率衡量标准的权值，AECR为当前视频关键帧相对相邻视频关键帧的边缘变化率；W₂为当前视频关键帧颜色变化率衡量标准的权值，HCR为前视频关键帧相对相邻两个视频关键帧的颜色变化率。

这样利用上述公式，就可以对每个视频关键帧分别求取到对应的W值，当计算出来的相邻两个视频关键帧之间的W值大于预先设定的阈值M1时，所述两个相邻视频关键帧就作为划分不同镜头之间的边界。具体请参考图2所示的不同视频镜头之间的区分边界。以一个视频中的任一9个连续的视频关键帧为例，分别计算9个连续的视频关键帧之间任意两个相邻的视频关键帧之间的W值，分别用W12，W23，W34......等表示，将计算出来的W12，W23，W34......等数值与预先设定的阈值M1比较，对于比较结果大于M1的W值对应的两个相邻视频关键帧，这两个视频关键帧就是两个镜头的边界，如图2所述，如果W34＞M1，则视频关键帧3和视频关键帧4就成为镜头1和镜头2之间分割的边界，镜头1中包括视频关键帧1～3，依次类推，将整个视频划分为不同的视频镜头。

其中，当前视频关键帧相对相邻视频关键帧的边缘变化率(AECR)可以按照下述公式确定：

AECR = \max (\frac{X_{m}^{in}}{X_{m}}, \frac{X_{m - 1}^{out}}{X_{m - 1}})

其中，X_m表示当前视频关键帧m中的边缘点的个数，X_m-1表示当前视频关键帧的前一视频关键帧m-1中的边缘点的个数；表示进入当前视频关键帧m的边缘点的个数，表示离开当前视频关键帧的前一视频关键帧m-1的边缘点的个数；

当前视频关键帧相对相邻两个视频关键帧的颜色变化率(HCR)可以按照下述公式确定：

d (H_{1}, H_{2}) = Σi \frac{H_{1}^{'} (i) * H_{2}^{'}}{\sqrt{(Σj H_{1}^{'} {(j)}^{2}) * (Σj H_{2}^{'} {(j)}^{2})}}

其中H₁，H₂分别表示当前视频关键帧的相邻两个视频关键帧图像的颜色直方图，其中H′_K(i)按照如下公式确定，k＝1或2：

H_{K}^{'} (i) = H_{K} (i) - \frac{1}{N} Σj H_{K} (j)

其中，H′_K(i)表示直方图K在第i个柱状图bin上的柱状图的高度和整个直方图K上所有柱状图bin的平均高度差，H_K(i)表示直方图k在第i个柱状图bin上的高度，N表示直方图H所划分的所有bin的数量，H_K(j)表示直方图k在第j个柱状图bin上的高度。

由上述处理可见，分割得到的每一个视频镜头中可以包含多个特征相关的视频关键帧，因此能够更好的考虑到待检测视频中包含的不同视频关键帧之间的多种不同的特征信息。对于相邻的视频镜头之间的镜头切变，它的颜色信息和边缘信息可能只有一方面会有突变，所以利用上述的镜头分割方式得到不同的视频镜头能够平衡两方面特征的突变比例，使分割结果更逼近真实结果。

此外，本发明实施例这里提出的该视频镜头的分割方法也可以单独实施，不限于仅在本发明这里提出的不良视频检测方案中使用，即单独实施本发明实施例这里提出的视频镜头分割方案，也在本发明权利要求书的保护范围之内。

步骤13，分别对步骤12中分割好的每个视频镜头进行运动特征的提取；

运动特征是指从视频镜头中提取的、每个视频镜头的从帧到帧的运动矢量信息，该运动矢量信息主要包括物体运动的强度和方向两类信息，其中强度代表的是物体运动的空间范围，方向代表的是物体的运动趋势。本发明实施例这里采用将每个视频镜头内包含的各个视频关键帧分别进行不均匀分块处理，然后统计每个分块上的运动特征信息。

具体地，对于每个视频镜头，可以先采用基于MPEG-4运动矢量的运动分析方法，提取该视频镜头的运动矢量信息。其中每个视频镜头中包含的每一视频关键帧可以用如下运动特征表示：

V_t＝{(X_it，V_it)|i＝1，...，n}

其中，V_t表示视频关键帧的运动特征信息，V_it代表着一个二维运动向量(x方向和y方向)，X_it代表对视频关键帧进行分块处理后每个块在视频关键帧中的位置，t代表视频关键帧在视频镜头中的时间信息。

这样就可以确定每一个视频镜头中包含的每个视频关键帧的运动特征信息，综合一个视频镜头中包含的各个视频关键帧的运动特征信息来确定该视频镜头的运动特征信息。

进而从确定的该视频镜头的运动特征信息中，可以获得该视频镜头的两类运动特征：一类是运动矢量的方向，代表着该视频镜头中物体运动的趋势，另一类则是运动矢量的强度，代表着该视频镜头中物体运动的强度。

步骤14，根据步骤13中获得的每个视频镜头的运动特征信息，对每个视频镜头进行不良镜头的研判；

通过研究发现不良视频相较正常视频来说，往往表现在有较大的物体运动强度，且物体运动方向上具有反复性。物体的运动趋势在方向直方图上，体现为每隔几帧，主方向就会改变一次，且改变为相反方向。基于不良视频具有的周期性运动的特点，对于上述得到的每个视频镜头的运动特征信息，根据对一个视频镜头内包含的各个视频关键帧进行分块处理得到的每个分块上的运动特征的统计结果，对于遵循重复运动模式的分块，给其一个较高的分类分值，最后综合考虑该视频镜头中包含的各分块的打分结果，来确定该视频镜头是否为不良视频镜头。

具体地，综合考虑一个视频镜头中包含的各个视频关键帧被分块处理后得到的各个块的打分结果，确定该视频镜头的运动特征，这里使用MotionFeatureA表示；并确定该视频镜头中包含的每个视频关键帧的运动矢量强度值，然后将包含的各个视频关键帧的运动矢量强度值的平均值作为该视频镜头的运动矢量强度，这里使用MotionFeatureB表示，其中每个视频关键帧的运动矢量强度值根据该视频关键帧中包含的各个块的运动矢量强度值确定。

根据获得的每个视频镜头的运动特征MotionFeatureA和运动矢量强度MotionFeatureB，设定一个阈值，判断是否满足如下公式：

MotionFeatrueA*weightA+MotionFeatureB*weightB＞BadShotThreshold

当一个视频镜头的MotionFeatureA和MotionFeatureB满足该公式时，则判定该视频镜头是一个不良视频镜头，反之，则判定该视频镜头是正常视频镜头。

其中，weightA表示视频镜头的运动特征MotionFeatrueA的权重值，weightB表示视频镜头的运动矢量强度MotionFeatureB的权重值，通常weightA+weightB＝1。

步骤15，基于步骤14针对分割得到的每一个视频镜头进行研判的结果，确定该待检测视频是否为不良视频；

具体可以但不限于通过下述两种方式进行确定：

第一种：确定在该待检测视频中包含的所有不良视频镜头的数目，并根据预先设定的一个阈值J，在确定的所有不良视频镜头的数目大于此阈值J时，则判断该待检测视频为不良视频内容，反之，判断该待检测视频为正常视频内容；

第二种：确定在该待检测视频中包含的所有不良视频镜头的数目，并确定所有不良视频镜头的数目与针对该待检测视频分割得到的视频镜头总数目的比值，并根据预先设定的一个阈值G，在确定的比值大于此阈值G时，则判断该待检测视频为不良视频内容，反之，判断该待检测视频为正常视频内容。

其中上述预先设定的阈值J或G，可以按照不同的场合和应用对象，由运营商自己把握。例如，当移动多媒体业务针对儿童或青少年时，可以将阈值J设定的小一些，即在对该待检测视频进行分割得到的多个视频镜头中，只要出现较少的不良视频镜头，则就可以判断该待检测视频是不良视频内容。

对于待检测视频来说，视频的运动特征信息往往反映着视频中的内容情节的发展。视频的运动特征信息比静态图像特征所包含的信息更加丰富，视频所反映的特有内容往往包含在视频所体现的运动特征信息中。因此实施例一采用对待检测视频进行视频镜头分割，针对分割后的每个视频镜头所具有的运动特征信息去综合判断待检测视频是否为不良视频内容的方法，综合考虑到视频作为图像序列的特征，利用视频关键帧之间存在的运动特征，对于不良视频中存在不良视频关键帧数量不多，且相对较集中的情况，不会对不良视频内容造成漏判，从而提高了视频内容检测的准确度和识别率。

实施例二

在实施例一中详细论述了基于待检测视频的运动信息判断该待检测视频内容是否是不良视频内容的方法，进一步的，如图3所示，为使用本发明实施例提出的基于视频关键帧的图像特征和视频镜头的运动特征综合判断不良视频的方法流程图，具体实现过程如下：

步骤31，对于输入的一个待检测的视频文件或者一段视频流，进行视频关键帧的提取；

视频关键帧的提取过程具体请参见上述实施例一中的步骤11中的详细论述，这里不再赘述。

步骤32、分别对提取出的每个视频关键帧进行分析，得到提取的多个视频关键帧之间的相关特征；

步骤33，根据步骤32分析得到的多个视频关键帧之间的相关特征，分别判断每个视频关键帧是否为不良视频关键帧；

例如针对提取出的一个视频关键帧，提取该视频关键帧的部分颜色、形状和纹理特征，通过降维、聚类等操作，形成具有代表性的特征表示方式，从而产生视频关键帧识别模型。其中具有代表性的特征表示方式指将获得的视频关键帧的简单特征，变成能够代表该视频关键帧是否是不良的视频关键帧的特殊特征，如皮肤、人脸等特征，对不同特征的识别结果赋予不同的置信度，相加后即得到不良视频关键帧识别的最终结果，判断每个视频关键帧是否为不良视频关键帧的具体实现过程已经是现有技术方案，这里不再详细赘述。

步骤34，基于步骤32得到的多个视频关键帧之间的相关特征，将不同视频关键帧分割为不同视频镜头，具体如何对不同视频关键帧进行视频镜头分割，具体请参见上述实施例一中步骤12中的详细论述，这里不再赘述。

步骤35，分别对分割好的每一个视频镜头进行运动特征的提取，并基于提取的每个视频镜头的运动特征判断该视频镜头是否为不良视频镜头；针对每一个视频镜头，如何基于针对该视频镜头提取出的运动特征去判断该视频镜头是否为不良视频镜头，具体请参见上述实施例一中步骤13～步骤14的详细论述，这里不再赘述。

步骤36，基于上述步骤33中判断出的每个视频关键帧是否为不良关键帧，以及上述步骤35中判断出的每个视频镜头是否为不良视频镜头，综合判断该待检测视频是否为不良视频内容；

具体地，可以先确定步骤33中判断得出的不良视频关键帧的数目与提取的所有视频关键帧的总数目的比值A，再确定步骤35中判断得出的不良视频镜头的数目与分割得到的所有视频镜头的总数目的比值B，进而对确定的A和B进行加权运算A*W₁+B*W₂＝Q，其中，W₁代表预先为不良视频关键帧设置的第一权重系数，W₂代表预先为不良视频镜头设置的第二权重系数。将加权运算结果Q和预先设定的阈值M比较，当Q＞M时，则可以判断该待检测视频为不良视频内容，反之判断该待检测视频为正常视频内容。

对于阈值M的设定，可以按照不同的场合和应用对象，由运营商自己把握。例如，当移动多媒体业务针对成年人时，可以将阈值M设定的大一些。

对一段待检测视频，提取该待检测视频的视频关键帧，对提取的视频关键帧进行不良视频关键帧的判别，并在提取的视频关键帧基础之上对该视频进行视频镜头分割，根据对分割的每个视频镜头的运动特征的提取，对分割的视频镜头进行不良视频镜头的判别，结合对不良关键帧的识别结果和对不良视频镜头的识别结果，综合研判待检测视频是否为不良视频内容，可以充分利用该待检测视频所具有的静态特征和动态特征，将待检测视频中不良视频关键帧之间存在的运动特征有效利用，相对于上述实施例一进一步提高了不良视频内容的检测准确度和不良视频内容的识别率。

实施例三

视频结构化分析的基本研究方法是将视频数据做结构化假设，进而将视频数据进行由视频帧、视频镜头、视频场景到视频故事等逻辑概念的由低层次语义到高层次语义的递进分析。其中视频镜头是由一次摄录期间的连续视频帧组成的物理单元，视频场景被认为是时间上连续的在同一地点发生或描述某一组连贯行为的最小语义单元。在语义层次上，视频场景具有更好的描述能力，也更易于被人们所理解和接受。因此，视频场景可以成为不良视频内容检测中具有描述能力的单元。

在综合考虑待检测视频的静态和动态特征的基础上，本实施例进一步采用视频场景作为判别单位，一旦在待检测视频中发现不良关键帧和不良镜头的分值超过某一阈值的场景，即判断该待检测视频为不良视频内容。如图4所示，为使用本发明实施例提出的以视频场景为单位进行不良视频内容识别的方法流程图，具体实现过程如下：

步骤41，对于输入的一个待检测的视频文件或者一段视频流，进行视频关键帧的提取和视频镜头的分割；

对待检测视频进行视频关键帧的提取和视频镜头的分割，参见上述实施例一中步骤11～步骤13的详细论述，这里不再赘述。

步骤42，基于提取的视频关键帧和视频镜头信息，对待检测视频进行视频场景分割，得到不同的视频场景；

对待检测视频进行视频场景分割，使用的是图像全局特征(GIST，GlobeImagestatics)方法，并综合考虑了视频镜头间视觉的相似性、视频镜头间时序距离和视频镜头内部平均亮度变化等因素，以求更好的刻画视频镜头间的相互关系，借此在视频镜头序列中寻找局部频繁出现的相关性高的视频镜头集合，定位视频场景边界，得到最后的场景分割结果。

GIST是一种针对自然场景分类的场景形状刻画方法。GIST能够将具有不同自然度、开放度、粗糙度、延展度或倾斜度的不同场景特性的图片区分开，在整体层面上有很强的刻画能力。考虑到视频场景定义(在同一地点发生)的特点，同一视频场景的视频镜头应具有相似的场景特性，从而拥有相似的GIST特征向量。提取GIST特征可以使用MATLAB程序提取，如图5所示，为提取GIST特征的处理流程图，具体步骤为：

步骤51，将在待检测视频中提取出的待分析视频关键帧分别在全局图和加窗局部图上做离散傅立叶变换(DFT，DiscreteFourierTransform)，得到视频关键帧的频域特征表示。

步骤52，对步骤51得到的视频关键帧的频域特征表示进行降维处理；具体地可以将步骤41中经DFT处理后输出的960维频域特征表示，基于主成份分析(PCA，PrincipalComponentAnalysis)方式降维成64维频域特征表示。

步骤53，根据降维后的频域特征表示计算该待检侧视频的视频关键帧的能量方程，并结合全局和加窗的能量特征生成最后的视频场景特征，根据生成的视频场景特征对待检测视频进行场景分割处理。

如图6所示，为利用GIST方式对待检测视频进行场景分割的处理流程图，具体步骤为：

步骤421，对步骤41中已经分割出的视频镜头进行相关性计算；针对步骤31中已经提取的视频关键帧和分割好的视频镜头，将视频场景的相似性与视频镜头内部的平均亮度变化差异一同考虑，分别计算已经分割的各个视频镜头中的视频关键帧之间的相关性，具体计算方法如下：

Sim (i, j) = \sqrt{\underset{h &Element; bins}{Σ} {(F_{GIST}^{i} (h) - F_{GIST}^{i} (h))}^{2}}

i，j∈K^S

其中，Sim(i，j)表示第i个视频镜头中包含的视频关键帧和第j个视频镜头中包含的视频关键帧之间的相似度；Fⁱ _GIST(h)表示第i个视频镜头中包含的视频关键帧的GIST特征的第h维分量；F^j _GIST(h)表示第j个视频镜头中包含的视频关键帧的GIST特征的第h维分量。

R (i, j) = \frac{\max (ΔL (i), ΔL (j))}{\min (ΔL (i), ΔL (j))} \times Sim (i, j)

i，j∈K^S

其中，R(i，j)表示第i个视频镜头中包含的视频关键帧和第j个视频镜头中包含的视频关键帧之间的相关性，ΔL(i)表示第i个视频镜头内部的平均亮度变化值，ΔL(j)表示第j个视频镜头内部的平均亮度变化值，K^S表示所有提取的视频关键帧的集合。

通过上述计算，就可以分割出的各个视频镜头之间的相关性。

步骤422，基于步骤421中计算出的各个视频镜头中的视频关键帧之间的相关性计算结果，将上述分割出的各个视频镜头进行分组，每组视频镜头构成一个频繁镜头集合，一个频繁镜头集合即为一个视频场景，其中各个视频场景中包含的视频镜头互不重叠；

频繁镜头集合是指为了视频的内容表达，在视频的某一时间段内集中出现一种或几种具有相似视觉特征的视频镜头集，这几种视频镜头间按照某种拍摄方法和故事发展模式组织，共同构成视频的某一频繁镜头集合。例如图7所示，是由多个频繁镜头集合构成整部视频的图例，其中一个视频是由不相交的N个频繁镜头集合组成，频繁镜头集合1由在某一局部时间序列内具有相似视觉特征的镜头集A和B组成，频繁镜头集合2由在某一局部时间序列内具有相似视觉特征的镜头集C、D和E组成，以此类推，这里不再赘述。

本发明实施例中以频繁镜头集合为基础进行视频场景分割，一个频繁镜头集合就代表该视频分割的一个视频场景。其中对所有视频镜头进行分组，得到由每组视频镜头构成的视频场景的具体实现过程如下：

1)在所有分割的视频镜头中选取第一个视频镜头作为基准视频镜头；

2)分别计算基准视频镜头与其他视频镜头之间的相关性，由于每个视频镜头中包含的各个视频关键帧之间的相关性很强，因此就可以在两个视频镜头中分别选择出一个视频关键帧，通过计算选择出的两个视频关键帧之间的相关性来表征这两个视频镜头之间的相关性；具体计算两个视频镜头中的不同视频关键帧之间的相关性可以参照上述图6所示的对待检测视频进行场景分割的处理流程中步骤421中的公式计算过程；

3)按照计算得到的各个相关性从小到大的顺序，对其它各个视频镜头进行排序，并选取排序在前N位的N个视频镜头，然后在选取的N个视频镜头中，再选取距离该基准视频镜头的时间跨度小于预先设定的阈值Z的M个视频镜头；

4)将选取出的M个视频镜头与该基准视频镜头一起构成一个频繁镜头集合；

5)针对选取出的M个视频镜头中的每个视频镜头，分别将该视频镜头重新作为一个新的基准视频镜头，然后返回2)继续执行，直至选择不出视频镜头加入到4)中的频繁镜头集合中为止，最后将4)中得到的频繁镜头集合作为一个对所有视频镜头进行分组得到的一个视频场景。

6)在所有视频镜头中没有被选取到任何一个频繁镜头集合中的视频镜头中，再选取一个视频镜头作为新的基准视频镜头，然后返回2)继续执行。

例如，以五个视频镜头序列为例，对5个视频镜头分割为两个不同的视频场景，其中5个视频镜头之间的相关性计算结果如下述表格记录：

视频镜头	1	2	3	4	5
						1	1	0.9	0.5	，0.55	0.8
2	0.9	1	0.9	0	0
						3	0.5	0.9	1	0.3	0.1
4	0.55	0	0.3	1	0.9
						5	0.8	0	0.1	0.9	1

R(i，j)代表第i个视频镜头和第j个视频镜头之间的相关性，即R(2，3)表示第2行第3列的数值0.9，该数值表示第2个视频镜头与第3个视频镜头之间相关性大小。

这里以第一个视频镜头为基准视频镜头，将其它四个视频镜头分别与第一个视频镜头之间的相关性按照从小到大的顺序排列，分别是：R(1，3)＜R(1，4)＜R(1，5)＜R(1，2)，即依次对应视频镜头序列中第3个视频镜头，第4个视频镜头、第5个视频镜头及第2个视频镜头，然后选取排序在前面3个的视频镜头(即视频镜头3、4和5)，且选取的视频镜头与第1个视频镜头之间的时间跨度要小于预设的30秒，假设排在前三个的视频镜头4和视频镜头5与视频镜头1之间的时间跨度大于30秒，所以这里选取视频镜头3与视频镜头1组成第一个频繁视频镜头集合A{1，3}；

接着以上述频繁视频镜头集合A中新选取出的视频镜头3作为新的基准镜头，按照上述过程再找出与视频镜头3相关性满足条件的视频镜头集合A’，将集合A’加入到视频镜头集合A中，构成新的视频镜头集合A{1，3，5}，继续从新的视频镜头集合A中以视频镜头5作为新的基准镜头，以此类推，直至在5个视频镜头中无法再找出视频镜头可以加入到该视频镜头集合中为止，将最后得到的视频镜头集合，这里以最后得到的视频镜头集合为A{1，3，5}为例，作为一个视频场景。然后在剩余没有被加入视频镜头集合为A{1，3，5}中的视频镜头2和4中再选取一个视频镜头4作为新的基准镜头，重复执行上述过程，直至再选择出另外一个视频镜头集合，例如以视频镜头4作为新的基准镜头选取出的视频镜头集合为B{2，4}。这样就实现了将5个视频镜头分割为两个视频场景的目的。

因此，视频镜头集合A即为一个划分的场景，再继续以视频镜头4作为基准镜头，构造视频频繁镜头集合B{4}，作为划分的第二个视频场景。

步骤43，分别对步骤42中分割出的每个视频场景进行判别，以识别每个视频场景是否为不良视频场景；

针对确定出的每个视频场景，分别对该视频场景中包含的视频关键帧进行不良视频关键帧的判别，和/或对该视频场景中包含的视频镜头进行不良视频镜头的判别，其中对不良视频镜头的识别过程已经在上述实施例一中详细论述过，对不良视频关键帧的判别过程已经在上述实施例二中详细论述过，这里不再赘述。

在每一个视频场景中，根据对不良视频关键帧的判别和/或对不良视频镜头的判别结果对每个视频场景进行判别，具体可以但不限于下述三种方式进行确定：

第一种：根据视频场景中不良视频关键帧的判别结果直接判别该视频场景是否为不良视频场景；

较佳地，确定在一个视频场景中包含的所有视频关键帧中的不良视频关键帧的数目A1，通过预先设定的阈值Q1，判断该视频场景中的不良视频关键帧的数目A1是否超过预先设置的阈值Q1，若A1＞Q1，则直接判断该视频场景为不良视频场景，反之，则判断该视频场景为正常视频场景。

更佳地，确定在每一个视频场景中包含的所有视频关键帧中的不良视频关键帧的数目，并确定所有不良视频关键帧的数目与该视频场景中包含的所有视频关键帧的总数目的比值A2，并根据预先设定的一个阈值Q2，在确定出的比值A2大于此阈值Q2时，则判断该视频场景为不良视频场景，反之，判断该视频场景为正常视频场景。

第二种：根据该视频场景中不良视频镜头的判别结果直接判别该视频场景是否为不良视频场景；

较佳地，确定在每一个视频场景中包含的所有视频镜头中的不良视频镜头的数目A3，通过预先设定的阈值Q3，判断该视频场景中的不良视频镜头的数目A3是否超过预先设置的阈值Q3，若A3＞Q3，则直接判断该视频场景为不良视频场景，反之，则判断该视频场景为正常视频场景。

更佳地，确定在每一个视频场景中包含的所有视频镜头中的不良视频镜头的数目，并确定所有不良视频镜头的数目与该视频场景中包含的所有的视频镜头的总数目比值A4，并根据预先设定的一个阈值Q4，在确定出的比值A4大于此阈值Q4时，则判断该视频场景为不良视频场景，反之，判断该视频场景为正常视频场景。

第三种：可以先确定每个视频场景中的不良视频关键帧的数目与提取的所有视频关键帧的总数目的比值A5，再确定该场景中的不良视频镜头的数目与分割得到的所有视频镜头的总数目的比值A6，进而对确定的A5和A6进行加权运算A5*W₃+A6*W₄＝Q5，其中，W₃代表预先为不良视频关键帧设置的第一权重系数，W₄代表预先为不良视频镜头设置的第二权重系数。将加权得到的运算结果Q5和预先设定的阈值M1比较，当Q＞M1时，则可以判断该视频场景为不良视频场景，反之该视频场景则为正常视频场景。

步骤44，基于步骤43针对分割得到的每一个视频场景进行研判的结果，确定该待检测视频是否为不良视频；具体可以但不限于通过下述两种方式进行确定：

第一种：确定在该待检测视频中包含的所有不良视频场景的数目，并根据预先设定的一个阈值Y，在确定的所有不良视频场景的数目大于此阈值Y时，则判断该待检测视频为不良视频内容，反之，判断该待检测视频为正常视频内容；

第二种：确定在该待检测视频中包含的所有不良视频场景的数目，并确定所有不良视频场景的数目与针对该待检测视频分割得到的视频场景总数目的比值，并根据预先设定的一个阈值H，在确定的比值大于此阈值H时，则判断该待检测视频为不良视频内容，反之，判断该待检测视频为正常视频内容。

其中上述预先设定的阈值Y或H，可以按照不同的场合和应用对象，由运营商自己把握。例如，当移动多媒体业务针对儿童或青少年时，可以将阈值Y设定的小一些，即在对该待检测视频进行分割得到的多个视频场景中，只要出现较少的不良视频场景，则就可以判断该待检测视频是不良视频内容。

对一段待检的视频，以视频场景为单位，结合对不良视频关键帧的识别结果和/或对不良视频镜头的识别结果，综合研判待检测视频是否为不良视频内容，可以充分利用该待检测视频所具有的静态特征和动态特征，将待检测视频中不良视频关键帧之间存在的运动特征有效利用，而且通过对视频场景的综合研判也为不良视频内容的研判提供了有实际视频内容意义的分段，使得按视频场景分段统计不良视频关键帧和/或不良视频镜头的结果具有很强的参考价值，解决不良视频关键帧数量不多但分布集中造成的不良视频漏判问题，相对于上述实施例二进一步提高了不良视频内容的检测准确度和不良视频内容的识别率。

相应的，如图8所示，为本发明实施例提出的第一种不良视频内容识别装置，包括：

视频关键帧提取单元81，用于在待检测视频中提取视频关键帧；视频镜头分割单元82，用于对视频关键帧提取单元81提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；视频镜头判断单元83，用于针对视频镜头分割单元82分割得到的每个视频镜头分别执行：提取该视频镜头的运动特征信息，并根据提取的运动特征信息判断该视频镜头是否为不良视频镜头；视频内容判断单元84，用于根据视频镜头判断单元83判断出的不良视频镜头的数目，确定待检测视频是否为不良视频内容。

具体的，不良视频内容识别装置如何对待检测视频进行不良视频内容判别的工作原理请参见上述方法实施例的具体介绍，这里不再赘述。

相应的，如图9所示，为本发明实施例提出的第二种不良视频内容识别装置，包括：

视频关键帧提取单元91，用于在待检测视频中提取视频关键帧；视频镜头分割单元92，用于对视频关键帧提取单元91提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；视频场景分割单元93，用于基于视频镜头分割单元92分割得到的各个视频镜头信息，对待检测视频进行视频场景分割，得到不同的视频场景；视频场景判断单元94，用于判断视频场景分割单元93分割得到的每个视频场景是否为不良视频场景；视频内容判断单元95，用于根据视频场景判断单元93判断出的不良视频场景的数目，确定所述待检测视频是否为不良视频内容。

相应的，如图10所示，为本发明实施例提出的一种视频关键帧的提取装置，包括：

聚类中心帧提取单元101，用于对视频进行等时间间隔提取N个视频帧，抽取出的N个视频帧分别代表N个聚类的聚类中心帧；视频帧聚类形成单元102，用于对于视频中除聚类中心帧提取单元101提取的聚类中心帧之外的每个视频帧，分别执行下述操作，形成N个聚类：分别确定该视频帧与N个聚类中心帧之间的相似度，将该视频帧归类到与该视频帧具有最高相似度的聚类中心帧所在的聚类中；判断单元103，用于判断视频帧聚类形成单元102形成的N个聚类中的每个聚类中包含的视频帧中任意两个视频帧之间的相似度是否均大于第一阈值，且任意两个聚类中包含的视频帧之间的相似度均小于第二阈值；第一执行单元104，用于当判断单元103的判断结果均为是时，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为视频关键帧，第二执行单元105，用于当判断单元103的判断结果为否时，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为新的聚类中心帧，并触发视频帧聚类形成单元102继续执行后续操作。

具体的，视频关键帧的提取装置如何对视频进行视频关键帧提取的工作原理请参见上述方法实施例的具体介绍，这里不再赘述。

相应的，如图11所示，为本发明实施例提出的一种视频镜头的分割装置，包括：

视频关键帧提取单元111，用于在视频中提取多个视频关键帧；视频关键帧分析单元112，用于对视频关键帧提取单元111提取的多个视频关键帧分别进行分析，得到提取的多个视频关键帧之间的相关特征；视频镜头分割单元113，用于根据视频关键帧分析单元112分析得到的多个视频关键帧之间的相关特征，对多个视频关键帧进行分组，每一个分组中包含的视频关键帧构成一个对视频进行分割得到的视频镜头。

具体的，视频镜头的分割装置如何对视频进行视频镜头分割的工作原理请参见上述方法实施例的具体介绍，这里不再赘述。

相应的，如图12所示，为本发明实施例提出的一种视频场景的分割装置，包括：

视频镜头分割单元121，用于对视频进行镜头分割处理，得到多个视频镜头；相关性计算单元122，用于计算视频镜头分割单元121分割的各个视频镜头之间的相关性；视频场景分割单元123，用于根据相关性计算单元122计算出的各个视频镜头之间的相关性，将分割出的各个视频镜头进行分组，每组视频镜头构成一个视频场景。

具体的，视频场景的分割装置如何对视频进行视频场景分割的工作原理请参见上述方法实施例的具体介绍，这里不再赘述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种不良视频内容识别方法，其特征在于，包括：

在待检测视频中提取视频关键帧；

对提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；并

针对分割得到的每个视频镜头分别执行：提取该视频镜头的运动特征信息，并根据提取的运动特征信息判断该视频镜头是否为不良视频镜头；

根据判断出的不良视频镜头的数目，确定所述待检测视频是否为不良视频内容；

对提取的视频关键帧进行分组，具体包括：

基于下述公式，对提取的多个视频关键帧分别进行分析，得到提取的多个视频关键帧之间的相关特征：

W＝W₁*AECR+W₂*HCR

其中，W为两个相邻视频关键帧之间的切变数值，W₁为当前视频关键帧边缘变化率衡量标准的权值，AECR为当前视频关键帧相对相邻视频关键帧的边缘变化率；W₂为当前视频关键帧颜色变化率衡量标准的权值，HCR为前视频关键帧相对相邻两个视频关键帧的颜色变化率；

根据分析得到的多个视频关键帧之间的相关特征，对多个视频关键帧进行分组，具体包括：

根据计算得到的任意两个相邻视频关键帧之间的切变数值W，将切变数值W大于预先设定的阈值M1的切变数值W对应的两个相邻视频关键帧作为对视频关键帧进行分组的边界；

根据确定的边界，对多个视频关键帧进行分组。

2.如权利要求1所述的不良视频内容识别方法，其特征在于，在待检测视频中提取视频关键帧，具体包括：

对待检测视频进行等时间间隔提取N个视频帧，抽取出的N个视频帧分别代表N个聚类的聚类中心帧；

对于待检测视频中除聚类中心帧之外的每个视频帧，分别执行下述操作，形成N个聚类：分别确定该视频帧与N个聚类中心帧之间的相似度，将该视频帧归类到与该视频帧具有最高相似度的聚类中心帧所在的聚类中；

判断形成的N个聚类中的每个聚类中包含的视频帧中任意两个视频帧之间的相似度是否均大于第一阈值，且任意两个聚类中包含的视频帧之间的相似度均小于第二阈值；

如果判断结果均为是，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为视频关键帧，提取视频关键帧过程结束；否则

对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为新的聚类中心帧；

重新选择出的N个新的聚类中心帧分别归属N个不同的聚类后，返回继续执行对于待检测视频中除聚类中心帧之外的每个视频帧的操作。

3.如权利要求1所述的不良视频内容识别方法，其特征在于，按照下述公式确定当前视频关键帧相对相邻视频关键帧的边缘变化率AECR：

A E C R = m a x (\frac{X_{m}^{i n}}{X_{m}}, \frac{X_{m - 1}^{o u t}}{X_{m - 1}})

其中，X_m表示当前视频关键帧m中的边缘点的个数，X_m-1表示当前视频关键帧的前一视频关键帧m-1中的边缘点的个数；表示进入当前视频关键帧m的边缘点的个数，表示离开当前视频关键帧的前一视频关键帧m-1的边缘点的个数。

4.如权利要求1所述的不良视频内容识别方法，其特征在于，按照下述公式确定当前视频关键帧相对相邻两个视频关键帧的颜色变化率HCR：

d (H_{1}, H_{2}) = Σ i \frac{H_{1}^{'} (i) * H_{2}^{'}}{\sqrt{(Σ {jH}_{1}^{'} {(j)}^{2}) * (Σ {jH}_{2}^{'} {(j)}^{2})}}

其中，H₁,H₂分别表示当前视频关键帧的相邻两个视频关键帧图像的颜色直方图，其中H'_K(i)按照如下公式确定：

\begin{matrix} H_{K}^{'} (i) = H_{K} (i) - \frac{1}{N} Σ & {jH}_{K} (j) \end{matrix}

其中，H'_K(i)表示直方图k在第i个柱状图bin上的柱状图的高度和整个直方图k上所有柱状图bin的平均高度差，H_K(i)表示直方图k在第i个柱状图bin上的高度，N表示直方图H所划分的所有bin的数量，H_K(j)表示直方图k在第j个柱状图bin上的高度。

5.如权利要求1所述的不良视频内容识别方法，其特征在于，提取该视频镜头的运动特征信息，具体包括：

确定该视频镜头中包含的每一视频关键帧的运动特征信息；

综合该视频镜头中包含的各个视频关键帧的运动特征信息，确定该视频镜头的运动特征信息。

6.如权利要求5所述的不良视频内容识别方法，其特征在于，基于下述公式，确定该视频镜头中包含的每一视频关键帧的运动特征信息：

V_t＝{(X_it,V_it)|i＝1,...,n}

其中，V_t表示视频关键帧的运动特征信息，V_it代表着一个二维运动向量，X_it代表对视频关键帧进行分块处理后每个块在视频关键帧中的位置，t代表视频关键帧在视频镜头中的时间信息。

7.如权利要求1所述的不良视频内容识别方法，其特征在于，根据提取的运动特征信息判断该视频镜头是否为不良视频镜头，具体包括：

根据针对该视频镜头提取的运动特征信息，确定对应该视频镜头的运动特征值和运动矢量强度值；

在确定的运动特征值与预设的运动特征的权重值的乘积，与确定的运动矢量强度值与预设的运动矢量的强度值的权重值的乘积的和值，大于预设的阈值BadShotThreshold时，判定该视频镜头为不良视频镜头，否则判定该视频镜头为正常视频镜头。

8.如权利要求1所述的不良视频内容识别方法，其特征在于，根据判断出的不良视频镜头的数目，确定所述待检测视频是否为不良视频内容，包括：

当判断出的不良视频镜头的数目大于预先设定的阈值J时，判断所述待检测视频为不良视频内容，否则判断所述待检测视频为正常视频内容；或

确定判断出的不良视频镜头的数目与针对该待检测视频分割得到的视频镜头总数目的比值，在确定的比值大于阈值G时，判断所述待检测视频为不良视频内容，否则判断所述待检测视频为正常视频内容。

9.如权利要求1所述的不良视频内容识别方法，其特征在于，还包括：

分析提取的视频关键帧之间的相关特征；

根据分析得到的视频关键帧之间的相关特征，分别判断每个视频关键帧是否为不良视频关键帧；

根据判断出的不良视频镜头的数目，确定所述待检测视频是否为不良视频内容，具体包括：

根据判断出的不良视频镜头的数目和不良视频关键帧的数目，综合判断所述待检测视频是否为不良视频内容。

10.如权利要求9所述的不良视频内容识别方法，其特征在于，综合判断所述待检测视频是否为不良视频内容，具体包括：

确定判断出的不良视频关键帧的数目与提取的视频关键帧的总数目的比值与预设的不良视频关键帧权重系数的乘积，与判断出的不良视频镜头的数目与分割得到的视频镜头的总数目的比值与预设的不良视频镜头权重系数的乘积的和值；

在确定的和值大于预设的阈值M时，判定所述待检测视频为不良视频内容，否则判断所述待检测视频为正常视频内容。

11.一种不良视频内容识别装置，其特征在于，包括：

视频关键帧提取单元，用于在待检测视频中提取视频关键帧；

视频镜头分割单元，用于对视频关键帧提取单元提取的视频关键帧进行分组，分组得到的每一组视频关键帧构成对待检测视频进行镜头分割的一个视频镜头；

视频镜头判断单元，用于针对视频镜头分割单元分割得到的每个视频镜头分别执行：提取该视频镜头的运动特征信息，并根据提取的运动特征信息判断该视频镜头是否为不良视频镜头；

视频内容判断单元，用于根据视频镜头判断单元判断出的不良视频镜头的数目，确定待检测视频是否为不良视频内容；

其中，所述视频镜头分割单元具体用于：

W＝W₁*AECR+W₂*HCR

根据确定的边界，对多个视频关键帧进行分组。

12.一种不良视频内容识别方法，其特征在于，包括：

在待检测视频中提取视频关键帧；

基于分割得到的各个视频镜头信息，对待检测视频进行视频场景分割，得到不同的视频场景；

针对分割得到的每个视频场景分别执行：判断该视频场景是否为不良视频场景；

根据判断出的不良视频场景的数目，确定所述待检测视频是否为不良视频内容。

13.如权利要求12所述的不良视频内容识别方法，其特征在于，基于分割得到的各个视频镜头信息，对待检测视频进行视频场景分割，得到不同的视频场景，具体包括：

计算分割的各个视频镜头之间的相关性；

根据计算出的各个视频镜头之间的相关性，将分割出的各个视频镜头进行分组，每组视频镜头构成一个视频场景。

14.如权利要求13所述的不良视频内容识别方法，其特征在于，基于各个视频镜头中的视频关键帧之间的相关性来表征各个视频镜头之间的相关性,包括：

基于下述公式，计算分割的各个视频镜头中的视频关键帧之间的相关性：

\begin{matrix} R (i, j) = \frac{m a x (Δ L (i), Δ L (j))}{m i n (Δ L (i), Δ L (j))} \times S i m (i, j) & i, j &Element; K^{S} \end{matrix}

其中，R(i,j)表示第i个视频镜头中包含的视频关键帧和第j个视频镜头中包含的视频关键帧之间的相关性，ΔL(i)表示第i个视频镜头内部的平均亮度变化值，ΔL(j)表示第j个视频镜头内部的平均亮度变化值，K^S表示所有提取的视频关键帧的集合；Sim(i,j)表示第i个视频镜头中包含的视频关键帧和第j个视频镜头中包含的视频关键帧之间的相似度，按照如下公式确定：

\begin{matrix} S i m (i, j) = \sqrt{\underset{h &Element; b i n s}{Σ} {(F_{G I S T}^{i} (h) - F_{G I S T}^{j} (h))}^{2}} & i, j &Element; K^{S} \end{matrix}

其中，Fⁱ _GIST(h)表示第i个视频镜头中包含的视频关键帧的底层全局GIST特征的第h维分量；F^j _GIST(h)表示第j个视频镜头中包含的视频关键帧的GIST特征的第h维分量。

15.如权利要求13所述的不良视频内容识别方法，其特征在于，根据计算出的各个视频镜头之间的相关性，将分割出的各个视频镜头进行分组，具体包括：

S1、在所有分割的视频镜头中选取一个视频镜头作为基准视频镜头；

S2、按照计算得到的基准视频镜头分别与其他视频镜头之间的相关性从小到大的顺序，对其它各个视频镜头进行排序，并选取排序在前N位的N个视频镜头；

S3、在选取的N个视频镜头中，选取距离该基准视频镜头的时间跨度小于预设的阈值Z的M个视频镜头；

S4、将选取出的M个视频镜头与该基准视频镜头构成一个频繁镜头集合；

S5、针对选取出的M个视频镜头中的每个视频镜头，分别执行：将该视频镜头重新作为一个新的基准视频镜头，继续返回S2，直至选择不出视频镜头加入到S4中得到的频繁镜头集合中为止后，将S4中得到的频繁镜头集合作为一个视频镜头分组；

S6、在所有视频镜头中没有被选取到任何一个频繁镜头集合中的视频镜头中，选取一个视频镜头作为新的基准视频镜头，然后返回S2继续执行。

16.如权利要求12所述的不良视频内容识别方法，其特征在于，判断该视频场景是否为不良视频场景，具体包括：

判断该视频场景中包含的不良视频关键帧的数目是否大于预设的阈值Q1，如果是，判断该视频场景为不良视频场景，否则判断该视频场景为正常视频场景；或者

判断该视频场景中包含的不良视频关键帧的数目与该视频场景中包含的所有视频关键帧的总数目的比值，是否大于预设的阈值Q2，如果是，判断该视频场景为不良视频场景，否则判断该视频场景为正常视频场景；或者

判断该视频场景中包含的不良视频镜头的数目是否大于预设的阈值Q3，如果是，判断该视频场景为不良视频场景，否则判断该视频场景为正常视频场景；或者

判断该视频场景中包含的不良视频镜头的数目与该视频场景中包含的所有视频镜头的总数目的比值，是否大于预设的阈值Q4，如果是，判断该视频场景为不良视频场景，否则判断该视频场景为正常视频场景；或者

确定该视频场景中包含的不良视频关键帧的数目与该视频场景中包含的所有视频关键帧的总数目的比值与预设的不良视频关键帧权重系数的乘积，与该视频场景中包含的不良视频镜头的数目与该视频场景中包含的所有视频镜头的总数目的比值与预设的不良视频镜头权重系数的乘积的和值；在确定的和值大于预设的阈值Q5时，判断该视频场景为不良视频场景，否则判断该视频场景为正常视频场景。

17.如权利要求12所述的不良视频内容识别方法，其特征在于，根据判断出的不良视频场景的数目，确定所述待检测视频是否为不良视频内容，包括：

当判断出的不良视频场景的数目大于预先设定的阈值Y时，判断所述待检测视频为不良视频内容，否则判断所述待检测视频为正常视频内容；或

确定判断出的不良视频场景的数目与针对该待检测视频分割得到的视频场景总数目的比值，在确定的比值大于阈值H时，判断所述待检测视频为不良视频内容，否则判断所述待检测视频为正常视频内容。

18.一种不良视频内容识别装置，其特征在于，包括：

视频场景分割单元，用于基于视频镜头分割单元分割得到的各个视频镜头信息，对待检测视频进行视频场景分割，得到不同的视频场景；

视频场景判断单元，用于判断视频场景分割单元分割得到的每个视频场景是否为不良视频场景；

视频内容判断单元，用于根据视频场景判断单元判断出的不良视频场景的数目，确定所述待检测视频是否为不良视频内容。

19.一种视频关键帧的提取方法，其特征在于，包括：

对视频进行等时间间隔提取N个视频帧，抽取出的N个视频帧分别代表N个聚类的聚类中心帧；

对于视频中除聚类中心帧之外的每个视频帧，分别执行下述操作，形成N个聚类：分别确定该视频帧与N个聚类中心帧之间的相似度，将该视频帧归类到与该视频帧具有最高相似度的聚类中心帧所在的聚类中；

重新选择出的N个新的聚类中心帧分别归属N个不同的聚类后，返回继续执行对于视频中除聚类中心帧之外的每个视频帧的操作。

20.一种视频关键帧的提取装置，其特征在于，包括：

聚类中心帧提取单元，用于对视频进行等时间间隔提取N个视频帧，抽取出的N个视频帧分别代表N个聚类的聚类中心帧；

视频帧聚类形成单元，用于对于视频中除聚类中心帧提取单元提取的聚类中心帧之外的每个视频帧，分别执行下述操作，形成N个聚类：分别确定该视频帧与N个聚类中心帧之间的相似度，将该视频帧归类到与该视频帧具有最高相似度的聚类中心帧所在的聚类中；

判断单元，用于判断视频帧聚类形成单元形成的N个聚类中的每个聚类中包含的视频帧中任意两个视频帧之间的相似度是否均大于第一阈值，且任意两个聚类中包含的视频帧之间的相似度均小于第二阈值；

第一执行单元，用于当判断单元的判断结果均为是时，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为视频关键帧，

第二执行单元，用于当判断单元的判断结果为否时，对形成的每个聚类分别执行：从该聚类中选择一个与该聚类中的聚类中心帧相似度最低的视频帧作为新的聚类中心帧，并触发视频帧聚类形成单元继续执行后续操作。

21.一种视频镜头的分割方法，其特征在于，包括：

在视频中提取多个视频关键帧；

W＝W₁*AECR+W₂*HCR

根据计算得到的任意两个相邻视频关键帧之间的切变数值W，将切变数值W大于预先设定的阈值M1的切变数值W对应的两个相邻视频关键帧作为对视频关键帧进行分组的边界；根据确定的边界，对多个视频关键帧进行分组，每一个分组中包含的视频关键帧构成一个对视频进行分割得到的视频镜头。

22.如权利要求21所述的视频镜头的分割方法，其特征在于，按照下述公式确定当前视频关键帧相对相邻视频关键帧的边缘变化率AECR：

A E C R = m a x (\frac{X_{m}^{i n}}{X_{m}}, \frac{X_{m - 1}^{o u t}}{X_{m - 1}})

23.如权利要求21所述的视频镜头的分割方法，其特征在于，按照下述公式确定当前视频关键帧相对相邻两个视频关键帧的颜色变化率HCR：

d (H_{1}, H_{2}) = Σ i \frac{H_{1}^{'} (i) * H_{2}^{'}}{\sqrt{(Σ {jH}_{1}^{'} {(j)}^{2}) * (Σ {jH}_{2}^{'} {(j)}^{2})}}

\begin{matrix} H_{K}^{'} (i) = H_{K} (i) - \frac{1}{N} Σ & {jH}_{K} (j) \end{matrix}

24.一种视频镜头的分割装置，其特征在于，包括：

视频关键帧提取单元，用于在视频中提取多个视频关键帧；

视频关键帧分析单元，用于基于下述公式，对提取的多个视频关键帧分别进行分析，得到提取的多个视频关键帧之间的相关特征：

W＝W₁*AECR+W₂*HCR

视频镜头分割单元，用于根据计算得到的任意两个相邻视频关键帧之间的切变数值W，将切变数值W大于预先设定的阈值M1的切变数值W对应的两个相邻视频关键帧作为对视频关键帧进行分组的边界；根据确定的边界，对多个视频关键帧进行分组，每一个分组中包含的视频关键帧构成一个对视频进行分割得到的视频镜头。

25.一种视频场景的分割方法，其特征在于，包括：

对视频进行镜头分割处理，得到多个视频镜头；

计算分割的各个视频镜头之间的相关性；

26.如权利要求25所述的视频场景的分割方法，其特征在于，基于各个视频镜头中的视频关键帧之间的相关性来表征各个视频镜头之间的相关性；

\begin{matrix} R (i, j) = \frac{m a x (Δ L (i), Δ L (j))}{m i n (Δ L (i), Δ L (j))} \times S i m (i, j) & i, j &Element; K^{S} \end{matrix}

\begin{matrix} S i m (i, j) = \sqrt{\underset{h &Element; b i n s}{Σ} {(F_{G I S T}^{i} (h) - F_{G I S T}^{j} (h))}^{2}} & i, j &Element; K^{S} \end{matrix}

27.如权利要求25所述的视频场景的分割方法，其特征在于，根据计算出的各个视频镜头之间的相关性，将分割出的各个视频镜头进行分组，具体包括：

28.一种视频场景的分割装置，其特征在于，包括：

视频镜头分割单元，用于对视频进行镜头分割处理，得到多个视频镜头；

相关性计算单元，用于计算视频镜头分割单元分割的各个视频镜头之间的相关性；

视频场景分割单元，用于根据相关性计算单元计算出的各个视频镜头之间的相关性，将分割出的各个视频镜头进行分组，每组视频镜头构成一个视频场景。