CN105654051B

CN105654051B - 一种视频检测方法及系统

Info

Publication number: CN105654051B
Application number: CN201511021250.4A
Authority: CN
Inventors: 朱柏涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2019-02-22
Anticipated expiration: 2035-12-30
Also published as: CN105654051A

Abstract

本发明实施例提供了一种视频检测方法及系统，所述方法包括：获取待检测视频，并从系统待检测视频中提取音频资源；将系统音频资源分割为多个音频段，并构建各个音频段的音频段特征；基于所构建的音频段特征，分别判断系统各个音频段是否属于不良音频；当系统各个音频段中存在属于不良音频的至少一个音频段时，提取系统至少一个音频段所对应的关键帧；判断系统至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，如果是，确定系统待检测视频为不良视频。应用本发明实施例，能够快速地、准确地检测出不良视频，并降低了检测成本。

Description

一种视频检测方法及系统

技术领域

本发明涉及视频检测技术领域，特别是涉及一种视频检测方法及系统。

背景技术

目前，网络已走进千家万户，人们可以通过网络获取各种网络资源，例如文字资源、音频资源以及视频资源，极大的方便了人们获取各种资源。与此同时，也带来了许多隐患，例如：网络上充斥着一些关于暴力和色情的不良视频资源，严重危害青少年的成长以及社会的稳定，其中，不良视频资源的音频资源中存在关于暴力和色情的不良音频，图片帧中存在暴力和色情的不良图片。

但是，目前的不良视频检测方法通常是通过人工检测方式进行检测，即工作人员必须通过完整观看视频，进而判断所观看的视频是否为不良视频，耗时耗力。且视频资源数量之多，增长之快，根本无法仅依靠人工方式进行检测，也就是说，通过人工方式检测不良视频已经不能够满足简单快速地识别不良视频的需求。

因此，如何快速地、准确地识别出视频是否属于不良视频，是一个亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种视频检测方法及系统，以快速地、准确地识别视频是否为不良视频。具体技术方案如下：

第一方面，本发明实施例提供了一种视频检测方法，包括：

获取待检测视频，并从所述待检测视频中提取音频资源；

将所述音频资源分割为多个音频段，并构建各个音频段的音频段特征；

基于所构建的音频段特征，分别判断所述各个音频段是否属于不良音频；

当所述各个音频段中存在属于不良音频的至少一个音频段时，提取所述至少一个音频段所对应的关键帧，其中，每一音频段与所对应的关键帧在所述待检测视频中属于同一时间段；

判断所述至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，如果是，确定所述待检测视频为不良视频，其中，所述肤色点数为：关键帧中颜色值符合预定肤色颜色范围的像素点的数量。

优选地，所述构建各个音频段的音频段特征，包括：

分别从各个音频段中提取多个短时帧音频；

分别构建各个音频段所对应的短时帧音频的短时帧音频特征，其中，所述短时帧音频特征包括短时能量和短时过零率；

分别利用各个音频段自身所包括的所有所述短时帧的短时能量，构建各个音频段的短时能量方差；分别利用各个音频段自身所包括的所有所述短时帧的短时过零率，构建各个音频段的过零率方差；

基于各个音频段的短时能量方差和过零率方差分别构建各个音频段特征。

优选地，所述基于所构建的音频段特征，分别判断所述各个音频段是否属于不良音频，包括：

分别判断各个音频段的短时能量方差是否大于预设短时能量方差，如果判断结果为是，确定该音频段属于对话音，如果判断结果为否，确定该音频段属于音乐音；

当判断该音频段属于对话音时，判断该音频段的过零率方差是否小于预设过零率方差，如果判断结果为是，确定该音频段属于不良音频，如果判断结果为否，确定该音频段属于正常音频；

当判断该音频段属于对音乐音时，判断该音频段属于正常音频。

优选地，所述提取所述至少一个音频段所对应的关键帧，包括：

提取所述至少一个音频段所对应的部分的关键帧。

优选地，所述提取所述至少一个音频段所对应的部分关键帧，包括：

提取所述至少一个音频段所对应的具有相关性的关键帧。

优选地，所述判断所述至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，包括：

确定所述至少一个音频段所对应的关键帧中人体所在矩形区域；

确定所有所述关键帧的所述矩形区域内的像素点总数和所述肤色点数，并判断所述至少一个音频段中，是否存在至少一个对应的关键帧的所述矩形区域内所述肤色点数占相应像素点总数的比例是否超过预设比例的音频段。

优选地，所述确定所述至少一个音频段所对应的关键帧中人体所在矩形区域，包括：

分别检测所述至少一个音频段所对应的关键帧中的人脸区域，确定人脸所在的矩形区域，确定所述人脸所在的矩形区域的最低坐标，并确定人体轮廓区域的重心坐标，其中，所述最低坐标为最接近人体轮廓区域的矩形边的中点的坐标；

根据所述最低坐标和所述重心坐标、关于人脸宽度和人体宽度的比例、所述最低坐标和所述重心坐标之间的线段以及线段占身体长度的比例，分别确定各个关键帧中人体所在矩形区域，

其中，所述人体宽度为确定的人体轮廓区域中最大宽度值，所述身体长度为确定的人体轮廓区域中最大长度值。

优选地，任一音频段所对应的关键帧具有相关性的确定方式包括：

分别将音频段所对应的各个关键帧进行区域分块处理，得到多个区域块；

分别确定各个关键帧中的各个区域块所对应的颜色直方图；

分别判断每两个关键帧中具有位置对应性的区域块所对应的颜色直方图是否均符合第一预设相似条件；

当判断出均符合第一预设相似条件时，确定该两个关键帧的纹理特征，并继续判断该两个关键帧的纹理特征是否符合第二预设相似条件，如果是，确定该两个关键帧具有相关性；

当判断出不均符合第一预设相似条件时，确定该两个关键帧的整体颜色直方图，判断该两个关键帧的整体颜色直方图是否符合第三预设相似条件，如果是，确定该两个关键帧的形状特征和纹理特征，并判断该两个关键帧的形状特征和纹理特征是否均分别相似，如果判断结果为是，确定该两个关键帧具有相关性。

第二方面，本发明实施例提供了一种视频检测系统，包括：

音频资源获取单元，用于获取待检测视频，并从所述待检测视频中提取音频资源；

音频段特征构建单元，用于将所述音频资源分割为多个音频段，并构建各个音频段的音频段特征；

音频段判断单元，用于基于所构建的音频段特征，分别判断所述各个音频段是否属于不良音频；

关键帧提取单元，用于当所述各个音频段中存在属于不良音频的至少一个音频段时，提取所述至少一个音频段所对应的关键帧，其中，每一音频段与所对应的关键帧在所述待检测视频中属于同一时间段；

音频段确定单元，用于判断所述至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，如果是，触发结果确定单元，其中，所述肤色点数为：关键帧中颜色值符合预定肤色颜色范围的像素点的数量；

所述结果确定单元，用于确定所述待检测视频为不良视频。

优选地，所述音频段特征构建单元，包括：

短音频提取子单元，用于分别从各个音频段中提取多个短时帧音频；

短音频特征构建子单元，用于分别构建各个音频段所对应的短时帧音频的短时帧音频特征，其中，所述短时帧音频特征包括短时能量和短时过零率；

短时能量方差构建子单元，用于分别利用各个音频段自身所包括的所有所述短时帧的短时能量，构建各个音频段的短时能量方差；

过零率方差构建子单元，用于分别利用各个音频段自身所包括的所有所述短时帧的短时过零率，构建各个音频段的过零率方差；

音频段特征构建子单元，用于基于各个音频段的短时能量方差和过零率方差分别构建各个音频段特征。

优选地，所述音频段判断单元包括：

第一判断子单元，用于分别判断各个音频段的短时能量方差是否大于预设短时能量方差，如果判断结果为是，确定该音频段属于对话音，如果判断结果为否，确定该音频段属于音乐音；

第二判断子单元，用于当判断该音频段属于对话音时，判断该音频段的过零率方差是否小于预设过零率方差，如果判断结果为是，确定该音频段属于不良音频，如果判断结果为否，确定该音频段属于正常音频；

第三判断子单元，用于当判断该音频段属于对音乐音时，判断该音频段属于正常音频。

优选地，所述关键帧提取单元，包括：部分帧提取子单元，用于提取所述至少一个音频段所对应的部分的关键帧。

优选地，所述部分帧提取子单元具体用于：

提取所述至少一个音频段所对应的具有相关性的关键帧。

优选地，所述音频段确定单元包括：

第一确定子单元，用于确定所述至少一个音频段所对应的关键帧中人体所在矩形区域；

第二确定子单元，用于确定所有所述关键帧的所述矩形区域内的像素点总数和所述肤色点数，并判断所述至少一个音频段中，是否存在至少一个对应的关键帧的所述矩形区域内所述肤色点数占相应像素点总数的比例是否超过预设比例的音频段。

优选地，所述第一确定子单元具体用于：

优选地，所述部分帧提取子单元确定任一音频段所对应的关键帧具有相关性的具体操作为：

分别确定各个关键帧中的各个区域块所对应的颜色直方图；

本发明实施例中，在获取待检测视频后，先提取待检测视频中的音频资源，并对该音频资源进行分割处理，得到该音频资源对应的一个或多个音频段，并且构建各个音频段的音频段特征；然后通过各个音频段特征判断各个音频段是否属于不良音频，当判断存在不良音频段时，再提取该不良音频段在时间上所对应的关键帧，进而判断关键帧是否为不良关键帧；当判断存在至少一个关键帧为不良关键帧时，则可判断该待检测视频为不良视频。与现有技术的人工检测方式相比，通过本方案能够快速地、准确地识别出视频是否属于不良视频。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频检测方法的流程图；

图2为本发明实施例提供的一种视频检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种视频检测方法及系统。

首先，本发明实施例提供了一种视频检测方法，如图1所示，该视频检测方法可以包括如下步骤：

S101：获取待检测视频，并从该待检测视频中提取音频资源；

其中，在获取待检测视频后，可以根据具体的检测精准度要求或检测速度要求从待检测视频中提取部分音频资源或全部音频资源。具体地，当对待检测视频要求较高的检测精准度时，可以从待检测视频中提取该待检测视频的全部音频资源，从而能够对全部音频资源进行检测，以达到提高检测精准度的目的；而当对待检测视频的检测速度有较高的要求时，可以从待检测视频中提取部分音频资源，实现只对部分音频资源进行检测，以提高检测速度。

可以理解的是，待检测视频可以由人工确定，也可以按照预定视频选择规则自动选择，这都是合理的，其中，该预定视频选择规则可以根据实际情况进行设定，例如：可以将在1:00-5:00时间段内在网站上发布的视频作为待检测视频，在此不做赘述。

S102：将该音频资源分割为多个音频段，并构建各个音频段的音频段特征；

其中，将从待检测视频中提取的部分音频资源或者全部音频资源进行分割，将其分割为一个或多个音频段，其中，可采用随机方式对音频资源进行分割，也可按照具体设定时间长度对音频资源进行分割，此为现有技术，在此不做详述。

此外，音频段特征为可判断音频资源所属音频类型和/或能够区分正常对话音和不良对话音的特征，其中，音频类型分为对话音和音乐音。并且，音频段特征可由该音频段的单个特征表示，也可由该音频段的多个特征构成的特征向量表示，进而可以根据上述的单个特征值或特征向量对音频资源进行判断。

S103：基于所构建的音频段特征，分别判断该各个音频段是否属于不良音频。

其中，通过各个音频段特征可直接判断出各个音频段是否为不良对话音或正常对话音；也可以首先通过各个音频段特征判断出各个音频段是属于对话音还是音乐音，进而对属于对话音的音频段进行正常对话音和不良对话音的判断。具体地，若通过各个音频段特征判断出一个或者多个音频段属于对话音时，则再判断该一个或多个音频段是否属于不良对话音，当判断该一个或多个音频段属于不良对话音时，则确定该一个或多个音频段属于不良语音。

S104：当该各个音频段中存在属于不良音频的至少一个音频段时，提取该至少一个音频段所对应的关键帧；

其中，每一音频段与所对应的关键帧在该待检测视频中属于同一时间段，并且，在一种实现方式中，可以提取该至少一个音频段所属时间段内的所有关键帧，当然并不局限于此。其中，将部分或者全部音频资源进行分割后，得到一个或者多个音频段，当判断各个音频段中不存在不良音频时，则可直接判断该待检测视频为正常视频，简化了检测流程，提高了检测速度；当判断在各个音频段中存在至少一个音频段属于不良音频时，仅提取不良音频段所在时间上的对应的图片资源，并获取该图片资源中的关键帧，减少了待检测关键帧的提取数量，进而减少了对关键帧的检测次数，提高了检测速度，降低了检测成本。

可以理解的是，关键帧为视频中角色或者物体运动或变化中的关键动作所在的那一帧，其中，提取该至少一个音频段所对应的关键帧的具体实现方式可以采用现有技术，在此不做赘述。

S105：判断该至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，如果是，确定该待检测视频为不良视频。

其中，所述肤色点数为：关键帧中颜色值符合预定肤色颜色范围的像素点的数量，可以理解的是，可以预先设定出肤色颜色范围，即RGB三原色分别所需对应的范围值；并且，在一种实现方式中，预定区域范围可以为关键帧的整个区域，当然并不局限于此；另外，预设比例可以根据实际情况进行设定，例如：70％、85％、90％、95％，等等。此外，判断不良音频段所对应的关键帧是否为不良关键帧，可通过对该不良音频段所对应的关键帧的预定区域范围内的肤色点数进行统计，并确定该预定区域范围内的肤色点数与该关键帧内的像素点总数的比例，进而判断该比例是否超过预设比例，若超过，判断该关键帧为不良关键帧，否则为正常关键帧；同样，也可以采用：确定该预定区域范围内的肤色点数与该预定区域范围内的像素点总数的比例，进而判断该比例是否超过预设比例，当判断该比例超过预设比例时，判断该关键帧为不良关键帧；并且，当判断出该至少一个音频段中存在具有不良关键帧的音频段时，确定该待检测视频为不良视频；而当判断出该至少一个音频中所有的音频段所对应的关键帧均不属于不良关键帧时，确定该待检测视频为正常视频。

通过结合音频资源和该音频资源对应的图片资源对待检测视频进行检测，保证了检测精准度；并且，通过应用程序自动识别视频是否为不良视频，相对于现有的人工方式，速度得到了较大提升。

本发明实施例中，在获取待检测视频后，先提取待检测视频中的音频资源，并对该音频资源进行分割处理，得到该音频资源对应的一个或多个音频段，并且构建各个音频段的音频段特征；然后通过各个音频段特征判断各个音频段是否属于不良音频，当判断存在不良音频段时，再提取该不良音频段在时间上所对应的关键帧，进而判断关键帧是否为不良关键帧；当判断存在至少一个关键帧为不良关键帧时，则可判断该待检测视频为不良视频。与现有技术的人工检测方式相比，通过本方案能够快速地、准确地识别出视频是否属于不良视频。

更进一步地，在本发明的一个优选实施例中，构建各个音频段的音频段特征，可以包括：分别从各个音频段中提取多个短时帧音频；分别构建各个音频段所对应的短时帧音频的短时帧音频特征，其中，该短时帧音频特征包括短时能量和短时过零率；分别利用各个音频段自身所包括的所有该短时帧的短时能量，构建各个音频段的短时能量方差；分别利用各个音频段自身所包括的所有该短时帧的短时过零率，构建各个音频段的过零率方差；基于各个音频段的短时能量方差和过零率方差分别构建各个音频段特征。

其中，所谓的短时能量具体指：对音频段所对应的时域信号进行采样，得到与该音频段对应的采样点，该音频段的采样点对应的能量值即为短时帧音频所对应的能量值，而所谓的短时过零率具体指：短时帧音频信号的波形穿过零电平的次数。

可以理解的是，在该技术方案中，各个音频段的音频段特征可以通过短时帧特征构建，其中，对于从各个音频段中提取多个短时帧音频的具体提取方式可以由现有技术实现，举例而言，可以利用汉明窗平滑的在各个音频段上滑动，从而获取该各个音频段所对应的短时帧音频，而在获取到短时帧音频后，可以进一步获取该短时帧音频的短时能量和短时过零率等短时帧音频特征，并利用短时能量构建所对应的音频段的短时能量方差，利用短时过零率构建所对应的音频段的过零率方差；进一步的，将该短时能量方差和过零率方差作为音频段特征，音频段特征的具体的表示形式为可以为向量形式，如(x，y)，其中，x表示该音频段的短时能量方差，y表示该音频段的过零率方差。

需要说明的是，利用窗函数获取短时帧为现有技术，在此不作详述，且本发明的技术方案包括但不局限于汉明窗，且短时帧特征包括但不局限于短时能量和短时过零率，音频段特征包括但不局限于短时能量方差和过零率方差。另外，需要强调的是，可以仅仅将短时能量方差作为音频段的音频段特征，也可以仅仅将过零率方差作为音频段的音频段特征，这也是合理的。

更进一步地，基于上述的音频段特征为：短时能量方差和过零率方差，在本发明的一个优选实施例中，基于所构建的音频段特征，分别判断该各个音频段是否属于不良音频，包括：分别判断各个音频段的短时能量方差是否大于预设短时能量方差，如果判断结果为是，确定该音频段属于对话音，如果判断结果为否，确定该音频段属于音乐音；

当判断该音频段属于对话音时，判断该音频段的过零率方差是否小于预设过零率方差，如果判断结果为是，确定该音频段属于不良音频，如果判断结果为否，确定该音频段属于正常音频；当判断该音频段属于对音乐音时，判断该音频段属于正常音频。

其中，预设短时能量方差和预设过零率方差可以根据实际情况进行设定，在此不做赘述。

可以理解的是，在该技术方案中，可以仅对音频段的单个音频段特征对所对应的音频段进行判断，例如：直接对该音频段的过零率方差进行判断，当过零率方差小于预设过零率方差时，则可判断该音频段为不良音频，其中，预设过零率可为正常音频段的最小过零率方差。

具体地，由于音频段的短时能量方差能够反映音频段所对应的短时帧音频的短时能量的波动情况，而音乐音所对应的短时能量的波动小于对话音的短时能量波动，因此可以通过对短时能量方差的大小对音频段的短时能量的波动情况进行判断，即当短时能量波动超过预设阈值(预设短时能量方差)时，则可判断待检测音频属于对话音。

同理，音频段的过零率方差能够反映所对应的短时帧音频的信号波形穿过零电平的次数，且由现有技术可知，正常对话音的信号的波形穿过零电平的次数较不良对话音相应的次数较大，因此当过零率方差超过预设过零率方差时，则进可判断待检测音频属于不良对话音。

更进一步地，在本发明实施例的一种具体实现方式中，提取该至少一个音频段所对应的关键帧，可以包括：提取该至少一个音频段所对应的部分的关键帧。可以理解的是，在该技术方案中部分关键帧可以是从该至少一个音频段中随机选择的关键帧，也可以是从该至少一个音频段中选择的具有相关性的关键帧。

更进一步地，在本发明实施例的另一种具体实现方式中，提取该至少一个音频段所对应的部分关键帧，包括：提取该至少一个音频段所对应的具有相关性的关键帧。可以理解的是，在该技术方案中通过先判断该至少一个音频段中的关键帧的相关性，并从该至少一个音频段中选择的具有相关性的关键帧，从而只对具有相关性的任一帧关键帧进行判断，减少了后续对关键帧的检测时间，并且降低了检测成本。

更进一步地，在本发明的一个优选实施例中，任一音频段所对应的关键帧具有相关性的确定方式可以包括：分别将音频段所对应的各个关键帧进行区域分块处理，得到多个区域块；分别确定各个关键帧中的各个区域块所对应的颜色直方图；分别判断每两个关键帧中具有位置对应性的区域块所对应的颜色直方图是否均符合第一预设相似条件；

可以理解的是，在该技术方案中，当要求较高的检测精准度时，可先获取不良音频段所对应的各个关键帧的各个分块的颜色直方图，然后判断每两个关键帧的对应区域的分块的颜色直方图分布是否均相似，当判断均相似时，再对颜色直方图相似的每两个关键帧的纹理特征进行判断，当判断纹理相似时，则判断两个关键帧具有相关性；需要强调的是当要求较高的检测速度时，可仅对该不良音频段的连续的N个关键帧进行相关性判断，N大于等于2。

当判断该各个关键帧的对应区域的颜色直方图均不相似时，检测每两个关键帧的整体颜色直方图，并判断该每两个关键帧的整体颜色直方图是否相似，如果是，确定该每两个关键帧的形状特征和纹理特征，并判断该两个关键帧的形状特征和纹理特征是否均分别相似，如果为是，则可确定该每两个关键帧具有相关性。通过先对颜色特征进行判断可以提高判断速度，从而提高检测速度，并且避免了对每一个待检测的关键帧进行形状特征提取和检测造成的时间和空间的浪费。

其中，将音频段所对应的各个关键帧进行区域分块处理而得到多个区域块、确定各个关键帧中的各个区域块所对应的颜色直方图、确定该两个关键帧的形状特征和纹理特征可以采用现有技术实现，在此不做赘述；另外，第一预设相似条件可以为：各种相对应的颜色的出现的概率差均小于5％，第二预设相似条件可以为：两个关键帧中形状的外部边缘的7个Hu不变矩特征值均对应相等时，第三预设相似条件可以为：从两个关键帧中提取到的灰度共生矩阵完全一样时。

具体地，可以根据各个关键帧中的各个区域块所对应的颜色直方图中出现的各种颜色及各种颜色出现的概率确定颜色直方图是否相似，例如：判断各个关键帧中的各个区域块所对应的颜色直方图中出现的各种颜色均相同，且各种相对应的颜色的出现的概率差均小于5％时，判断颜色直方图相似，需要说明的是，5％只为一个实施例取值，包括但并不限于5％。

另外，可以确定该两个关键帧中的形状的外部边缘，并以形状的外部边缘作为形状特征，进而计算该两个关键帧的形状的外部边缘的Hu不变矩，比较该两个关键帧对应的Hu不变矩，当判断两个关键帧中形状的外部边缘的7个Hu不变矩特征值均对应相等时，判断该两个关键帧的形状特征相似。需要强调的是，上述只是判断形状特征相似的一个具体实施例，但并不局限于该实施例，并且，判断形状特征相似为现有技术，在此不再赘述。

此外，纹理特征是用于描述图像或其中小块区域的空间颜色分布和光强分布，在此，可以灰度共生矩阵法对纹理特征进行提取，其中，当从该两个关键帧中提取到的灰度共生矩阵完全一样时，则判断该两个关键帧的纹理特征相似。值得强调的是，上述只是判断纹理特征相似的一个具体实施例，但并不局限于该实施例，并且上述利用灰度共生矩阵法提取纹理特征为现有技术，在此不再赘述。

更进一步地，在本发明的一个优选实施例中，判断该至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，包括：确定该至少一个音频段所对应的关键帧中人体所在矩形区域；确定所有该关键帧的该矩形区域内的像素点总数和该肤色点数，并判断该至少一个音频段中，是否存在至少一个对应的关键帧的该矩形区域内该肤色点数占相应像素点总数的比例是否超过预设比例的音频段。

其中，该优选实施例中，预定区域范围为关键帧中人体所在矩形区域。

可以理解的是，在该技术方案中，通过确定人体所在的矩形区域，从而可以只对该矩形区域的肤色点进行检测，避免了对整个关键帧的肤色点进行检测，减少了检测时间，从而加快了检测速度。并且该关键帧中的人体矩形区域外可能存在肤色点，即该肤色点并不是属于人体的肤色点，从而避免了其他区域的肤色点的干扰，提高了检测精度。

更进一步地，在本发明的一个优选实施例中，确定该至少一个音频段所对应的关键帧中人体所在矩形区域，包括：分别检测该至少一个音频段所对应的关键帧中的人脸区域，确定人脸所在的矩形区域，确定该人脸所在的矩形区域的最低坐标，并确定人体轮廓区域的重心坐标，其中，该最低坐标为最接近人体轮廓区域的矩形边的中点的坐标；

根据该最低坐标和该重心坐标、关于人脸宽度和人体宽度的比例、该最低坐标和该重心坐标之间的线段以及线段占身体长度的比例，分别确定各个关键帧中人体所在矩形区域，其中，该人体宽度为确定的人体轮廓区域中最大宽度值，该身体长度为确定的人体轮廓区域中最大长度值。

可以理解的是，在该技术方案中，先确定人脸所在的矩形区域和人体的轮廓区域，并且确定该矩形区域内最接近人体轮廓区域的一条边，确定该边的中心的坐标；再确定人体轮廓区域的重心坐标，人体轮廓区域对应的最大人体宽度，最大身体长度；然后根据该重心坐标、关于人脸宽度和人体宽度的比例、该最低坐标和所述重心坐标之间的线段以及线段占身体长度的比例，分别确定各个关键帧中人体所在矩形区域；也可以根据最低坐标和所述重心坐标之间的线段、该重心坐标、该最大人体宽度和该最大身体长度确定该关键帧中人体所在的矩形区域。即通过先确定出人体所在的矩形区域，可仅判断该区域内的人体裸露比例或者血色比例是否超过预设比例，便可判断该关键帧是否为不良关键帧，避免了对整个关键帧的肤色点和血色点进行检测，提高了检测精准度和检测速度。

相应于上述提供的一种视频检测方法，本发明实施例还提供了一种视频检测系统，如图2所示，该视频检测系统可以包括：

音频资源获取单元201，用于获取待检测视频，并从该待检测视频中提取音频资源；

音频段特征构建单元202，用于将该音频资源分割为多个音频段，并构建各个音频段的音频段特征；

音频段判断单元203，用于基于所构建的音频段特征，分别判断该各个音频段是否属于不良音频；

关键帧提取单元204，用于当该各个音频段中存在属于不良音频的至少一个音频段时，提取该至少一个音频段所对应的关键帧，其中，每一音频段与所对应的关键帧在该待检测视频中属于同一时间段；

音频段确定单元205，用于判断该至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，如果是，触发结果确定单元206，其中，该肤色点数为：关键帧中颜色值符合预定肤色颜色范围的像素点的数量；

所述结果确定单元206，用于确定所述待检测视频为不良视频。

优选地，该音频段特征构建单元202包括：短音频提取子单元、短音频特征构建子单元、短时能量方差构建子单元、过零率方差构建子单元和音频段特征构建子单元；

该短音频提取子单元，用于分别从各个音频段中提取多个短时帧音频；该短音频特征构建子单元，用于分别构建各个音频段所对应的短时帧音频的短时帧音频特征，其中，该短时帧音频特征包括短时能量和短时过零率；

该短时能量方差构建子单元用于分别利用各个音频段自身所包括的所有该短时帧的短时能量，构建各个音频段的短时能量方差；该过零率方差构建子单元用于分别利用各个音频段自身所包括的所有该短时帧的短时过零率，构建各个音频段的过零率方差；该音频段特征构建子单元用于基于各个音频段的短时能量方差和过零率方差分别构建各个音频段特征。

优选地，所述音频段判断单元203包括：第一判断子单元、第二判断子单元和第三判断子单元。

该第一判断子单元，用于分别判断各个音频段的短时能量方差是否大于预设短时能量方差，如果判断结果为是，确定该音频段属于对话音，如果判断结果为否，确定该音频段属于音乐音；

该第二判断子单元，用于当判断该音频段属于对话音时，判断该音频段的过零率方差是否小于预设过零率方差，如果判断结果为是，确定该音频段属于不良音频，如果判断结果为否，确定该音频段属于正常音频；

该第三判断子单元，用于当判断该音频段属于对音乐音时，判断该音频段属于正常音频。

优选地，该关键帧提取单元204包括：部分帧提取子单元，用于提取该至少一个音频段所对应的部分的关键帧。

优选地，所述部分帧提取子单元具体用于：提取该至少一个音频段所对应的具有相关性的关键帧。

优选地，该音频段确定单元205包括：第一确定子单元和第二确定子单元。

该第一确定子单元，用于确定该至少一个音频段所对应的关键帧中人体所在矩形区域；该第二确定子单元，用于确定所有该关键帧的该矩形区域内的像素点总数和该肤色点数，并判断该至少一个音频段中，是否存在至少一个对应的关键帧的该矩形区域内该肤色点数占相应像素点总数的比例是否超过预设比例的音频段。

优选地，该第一确定子单元具体用于：分别检测该至少一个音频段所对应的关键帧中的人脸区域，确定人脸所在的矩形区域，确定该人脸所在的矩形区域的最低坐标，并确定人体轮廓区域的重心坐标，其中，该最低坐标为最接近人体区域的矩形边的中点的坐标；

优选地，该部分帧提取子单元用于确定任一音频段所对应的关键帧具有相关性的具体操作为：分别将音频段所对应的各个关键帧进行区域分块处理，得到多个区域块；分别确定各个关键帧中的各个区域块所对应的颜色直方图；分别判断每两个关键帧中具有位置对应性的区域块所对应的颜色直方图是否均符合第一预设相似条件；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频检测方法，其特征在于，所述方法包括：

获取待检测视频，并从所述待检测视频中提取音频资源；

判断所述至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，如果是，确定所述待检测视频为不良视频，其中，所述肤色点数为：关键帧中颜色值符合预定肤色颜色范围的像素点的数量；

所述判断所述至少一个音频段中，是否存在至少一个关键帧的预定区域范围内的肤色点数与相应关键帧的像素点总数的比例超过预设比例的音频段，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建各个音频段的音频段特征，包括：

分别从各个音频段中提取多个短时帧音频；

3.根据权利要求2所述的方法，其特征在于，所述基于所构建的音频段特征，分别判断所述各个音频段是否属于不良音频，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述至少一个音频段所对应的关键帧，包括：

提取所述至少一个音频段所对应的部分的关键帧。

5.根据权利要求4所述的方法，其特征在于，所述提取所述至少一个音频段所对应的部分关键帧，包括：

提取所述至少一个音频段所对应的具有相关性的关键帧。

6.根据权利要求1所述的方法，其特征在于，所述确定所述至少一个音频段所对应的关键帧中人体所在矩形区域，包括：

7.根据权利要求5所述的方法，其特征在于，任一音频段所对应的关键帧具有相关性的确定方式包括：

分别确定各个关键帧中的各个区域块所对应的颜色直方图；

8.一种视频检测系统，其特征在于，所述系统包括：

所述结果确定单元，用于确定所述待检测视频为不良视频；

所述音频段确定单元包括：

9.根据权利要求8所述的系统，其特征在于，所述音频段特征构建单元，包括：

10.根据权利要求9所述的系统，其特征在于，所述音频段判断单元包括：

11.根据权利要求8所述的系统，其特征在于，所述关键帧提取单元，包括：部分帧提取子单元，用于提取所述至少一个音频段所对应的部分的关键帧。

12.根据权利要求11所述的系统，其特征在于，所述部分帧提取子单元具体用于：

提取所述至少一个音频段所对应的具有相关性的关键帧。

13.根据权利要求8所述的系统，其特征在于，所述第一确定子单元具体用于：

14.根据权利要求12所述的系统，其特征在于，所述部分帧提取子单元确定任一音频段所对应的关键帧具有相关性的具体操作为：

分别确定各个关键帧中的各个区域块所对应的颜色直方图；