CN108537157B

CN108537157B - 一种基于人工智能分类实现的视频场景判断方法与装置

Info

Publication number: CN108537157B
Application number: CN201810288885.8A
Authority: CN
Inventors: 王海华
Original assignee: Terminus Beijing Technology Co Ltd
Current assignee: Terminus Beijing Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2019-02-12
Anticipated expiration: 2038-03-30
Also published as: CN108537157A

Abstract

本发明属于人工智能视频处理技术领域，具体涉及一种基于人工智能分类实现的视频场景判断方法与装置。本发明包括：1)视频内容信息提取；1.1)提取视频静态特征；1.2)构建速度熵和方向熵的运动特征；2)进行视频场景突变检测；3)进行视频场景分类检测。本发明通过分析视频场景数据库中的视频数据以及相关理论，找到相关值的视频与其他视频的区别，从而提取有效特征进行描述，在特征提取阶段，然后基于视频帧提取局部灰度差异性和特征，达到精确判断视频场景分类的技术效果。

Description

一种基于人工智能分类实现的视频场景判断方法与装置

技术领域

本发明属于人工智能视频处理技术领域，具体涉及一种基于人工智能分类实现的视频场景判断方法与装置。

背景技术

随着信息时代的到来，大量社交软件，视频点播网站等应用已融入于人们日常生活的交际娱乐之中，随之而来的便是大量视频数据在网络上涌现，并且呈爆炸式速度增长。同时，随着谷歌眼镜等相关的视觉高科技设备的出现和普及，人们日常需要接触处理的视频数据更是日益增多，尤其是高新科技与大量视频的发展速度十分惊人，仅仅在You Tube上，每分钟的视频数据更新量已超过100小时，想在这巨量的数据中找到自己需要的视频，获取有效的信息，是及其困难的。那么，便需要对现有视频进行分类，提取有用的信息，便于人们检索和使用，早期都是人工去完成这些视频处理，耗费大量人力物力。而且完整的电影视频信息量太大，有各种各样的场景，不同的人物不同的故事类型，用户通常只对其中的某一部分感兴趣，属于他们想获取的有效信息，因此，完整的视频很难满足用户的需求以及视频检索数据库的构建目标。由于计算机采集处理和传输数字视频的能力迅速提高，数字视频的使用也是越发普遍，大大有助于学者们在视频内容分析技术相关领域的研究。如果能将视频分割为不同的片段，得到更有针对性的信息，便于用户根据自己的兴趣爱好检索，获取有用的信息，极大的提高人们的工作生活效率。视频是众多可视化数据载体中信息量最丰富，最难以分析的重要媒介，其中视频场景作为有着相对完整故事情节的视频片段，是视频分析与理解的关键结构，使得视频场景分割成为基于内容的视频分类，视频目标识别的基础中十分关键的研究方向。由于视频场景情节内容的相对完整性，以及背景的固定性，使得其成为一切视频分析的代表，能对视频场景进行准确分割将为视频目标的识别，内容的检测等计算机视觉技术带来巨大的贡献，使计算机的人工智能化向前进跨一大步，也能极大的提高人们的生活质量，带来更多便利。在这样的背景之下，视频的场景分割俨然成为一个重要的研究领域。传统的视频场景分割技术主要通过提取底层图像特征和简单的运动信息对视频场景进行分析，构建视频镜头之间的相似度，进行场景分割，其目的是为了构建视频检索系统，因此传统的视频场景分割技术也是基于以前信息检索的方法，并直接试图解决信息量远远大于以前数百万倍的数据。对于网络视频场景分割主要有以下三大类方法：基于文字、基于人工标记视频、还有基于图像特征的视频场景分割。文字包含的信息量较少，很难分割成一个有效的视频场景；人工标记视频的方法需要人为去做相关操作，工作量大，且随着如今日益呈爆炸式速度增加的视频数据，人工方法并不现实，毕竟，要在实际工作中通过人工浏览大量视频，从而确定某个片段是否属于不同的场景很一件十分枯燥的工作，因此迫切需要一些能寻找到相似视频场景片段的可靠解决方法。

视频场景分类判断的研究方法主要是通过分析视频相似性将视频镜头进行分类，其中，场景是完整影视视频的一个部分，可以定义为背景固定或者在同一个地方发生的一系列连续行为。视频场景分类作为视频检索等研究领域中一个重要的部分，为视频内容理解提供了关键信息，引起了国内外众多学者们的关注，但由于场景的多样性和复杂性，且场景的故事情节以及场景之间的相似性通常与一些高级语义信息相关，人们观看视频时能够辨别某些镜头应该属于或不属于一个场景，是因为人们知道这些镜头中的人物在做些什么事，也知道这些事发生的地点，这就是语义信息，要让计算机识别出这些语义信息是很困难的，另一方面，由于一个视频中镜头的数量庞大，如果将每两个镜头之间的镜头都进行比较的话，计算量十分巨大，这些困难致使现有视频场景判断分类方法的准确率不高。

现有的视频场景判断方法主要分为两个研究领域：1、基于底层特征的视频场景判断方法；2、基于内容语义特征的视频场景判断方法。基于底层特征的视频场景判断方法，主要是通过提取图像的底层特征，如颜色等表示视频帧信息，根据视频帧之间的差异找到镜头的边界，也就是相邻视频帧之间差异很大的位置，从该位置将视频分类，也就是将视频转换成镜头集合，然后通过分析视频镜头之间的相似性，将人物较为一致，视频相似且时间相邻的镜头合成一个镜头簇，也就是视频场景，每个视频场景包含不同的故事内容。基于内容语义特征的视频场景分类方法，主要是通过提取图像的底层特征，根据场景的内容属性构建高层语义特征对视频场景进行描述，由于视频场景分析方法是以视频的结构为依据，即视频是由不同的场景组成，每个场景有着自己的故事情节，而场景是由拍摄角度不同，时间序列相邻，能构成一个相对完整的故事情节的一系列镜头组成，镜头是由拍摄角度一样，人物内容相同或的时间相邻的视频帧组成，因此从最基本的视频帧开始分析，以相邻数帧为单位构建内容语义特征，比较镜头间的相似性，从而对视频中的场景进行分类。

发明内容

本发明的目的在于提供一种分类类目更准确、可靠的基于人工智能分类实现的视频场景判断方法。本发明的目的还在于提供一种基于人工智能分类实现的视频场景判断装置。

本发明的目的是这样实现的：

一种基于人工智能分类实现的视频场景判断方法，包括如下步骤：

1)视频内容信息提取：

从静态和动态两个方面提取相应的特征；

1.1)提取视频静态特征：

采用边缘检测算子来计算视频帧中属于边缘的像素个数，然后与总像素做比值求出边缘比率，作为描述视频帧复杂程度的特征；视频帧的边缘比率为：

其中，E、R分别为视频帧的宽和高；W为边缘的像素个数；Q的取值设定为40-500；其中阈值Q属于40-150属于明显图像轮廓的边缘像素，Q属于350-500属于所有重要轮廓的边缘；

采集灰度一致性特征：

其中，f(i，j)是视频帧中(i，j)像素的处像素的灰度值，是视频帧中以(i，j)像素为中心的3*3邻域像素的灰度均值；

1.2)构建速度熵和方向熵的运动特征；

1.2.1)估计背景运动模型：

将视频帧分别为推拉、旋转、水平移动、垂直移动、水平摇摆、垂直摇摆六种移动方式；其中，(x',y')是当前处理视频帧的某个像素坐标，(x,y)是相邻视频帧相应的像素的坐标，u₁、u₂、u₃、u₄、u₅、u₆是视频帧六种移动方式的六个参数；

其中，u₁是摄像机的推拉参数，u₂是旋转参数，u₃是水平移动参数，u₄是垂直移动参数，u₅是水平摇摆参数，u₆是垂直摇摆参数；

1.2.2)筛选相邻两帧的中采样点得到的特征对：

在视频帧中四个角上选取采样点点作为背景特征点，分别在视频中划分E*R大小的网格块，以步长q选取采样特征点，相邻两帧的中采样点的特征对为：

a′_k、a_k分别为当前处理帧和其相邻帧中第k个采样点的特征对，(i_k，j_k)是当前处理帧第k个点所在位置的坐标，(i₀，j₀)是该帧图像的中心位置的坐标，是相应采样点的运动矢量；

1.2.3)计算所有运动矢量不为零的采样点在横坐标和纵坐标上的运动矢量幅值的平均值：

计算采样点的运动矢量幅值与均值的差异，

G_i表示第i个采样点的运动矢量与均值的差异，分别表示该采样点在横坐标和纵坐标上的运动矢量幅值；

计算所有采样点的运动矢量与平均值差异的均值：

N为视频帧的像素点个数；

2)进行视频场景突变检测：

2.1)计算视频侦中相邻两侦对应像素点的灰度的累加和，并设定一个阈值，如果这个和大于阈值则发生了场景变化，小于阈值则无场景变化发生；

第α和第β帧视频帧I_α、I_β的像素值累计帧间差为：

I_α(i，j)和I_β(i，j)各自表示第α和第β帧视频帧在(i，j)处的像素值；

图像I_K像素灰度值的总和为：

归一化的帧间差为：

即当r(I_α，I_β)的值大于阈值时认定该帧发生了场景突变；小于阈值则判断该帧没有场景突变发生；

2.2)基于类的直方图比较：

先将视频中的场景分成一定数目的类，将视频的每帧离散化，然后运用同直方图比较法计算统计直方图，统计视频中不能够匹配的类的个数，把不匹配的个数与预先设定的阀值比较，根据比较结果来判断场景变化数；

2.2.1)将图像I_K和I_S分成P个类，利用直方图比较法的方法得到I_K和I_S中第λ个类的直方图归一化帧间差r(I_K，I_S)，然后用一个函数h(k)与阈值相比较：用比较结果来反映这两个类的差异状况：

F为阈值，h(k)为0证明两个视频之间场景相同；h(k)为1证明两个视频之间场景不同

2.2.2)统计相邻两视频帧间不能够相匹配的类的个数，定义为其类间差：

3)进行视频场景分类检测：

3.1)进行视频场景波峰检测：绘制视频场景亮度或灰度值变化曲线；对于曲率变化的视频帧设置为场景变换；

3.2)将检测到的曲线变化处的视频帧表示成场景变化视频帧SPZ；

SPZ＝{SPZ₁，SPZ₂，SPZ₃…}；

其中SPZ₁、SPZ₂、SPZ₃表示该视频曲线中的第一个、第二个以及第三个曲率变化处的视频帧，以此类推；

3.3)视频场景分类检测：采集视频帧中的标志场景对比场景数据库，根据场景库辨别场景类别O。

所述的视频场景分类检测包括3D视频场景突变检测：计算当前倾的平均视差矢量，

其中，M为分类总数，所述的平均视差矢量；

将NV与场景数据库中标志场景的平均视差矢量进行对比，在阈值范围T内则为相同场景。

所述的视频场景分类检测包括单视图场景突变检测，计算第k个视频帧的运动矢量幅度值，

视频帧中所有的运动矢量的平均幅度值：

将NS与场景数据库中标志场景的平均视差矢量进行对比，在阈值范围T内则为相同场景。

一种基于人工智能分类实现的视频场景判断装置，包括如下结构：

视频内容信息提取模块：

视频内容信息提取模块从静态和动态两个方面提取相应的特征，具体包括：

提取视频静态特征：采用边缘检测算子来计算视频帧中属于边缘的像素个数，然后与总像素做比值求出边缘比率，作为描述视频帧复杂程度的特征；视频帧的边缘比率为：

采集灰度一致性特征：

其中，f(i，j)是视频帧中(i，j)像素的处像素的灰度值，是视频帧中以(i，j)像素为中心的3*3邻域像素的灰度均值；构建速度熵和方向熵的运动特征；

估计背景运动模型：将视频帧分别为推拉、旋转、水平移动、垂直移动、水平摇摆、垂直摇摆六种移动方式；其中，(x',y')是当前处理视频帧的某个像素坐标，(x,y)是相邻视频帧相应的像素的坐标，u₁、u₂、u₃、u₄、u₅、u₆是视频帧六种移动方式的六个参数；

筛选相邻两帧的中采样点得到的特征对：在视频帧中四个角上选取采样点点作为背景特征点，分别在视频中划分E*R大小的网格块，以步长q选取采样特征点，相邻两帧的中采样点的特征对为：

a’_k、a_k分别为当前处理帧和其相邻帧中第k个采样点的特征对，(i_k，j_k)是当前处理帧第k个点所在位置的坐标，(i₀，j₀)是该帧图像的中心位置的坐标，是相应采样点的运动矢量；

计算所有运动矢量不为零的采样点在横坐标和纵坐标上的运动矢量幅值的平均值：

计算采样点的运动矢量幅值与均值的差异，

计算所有采样点的运动矢量与平均值差异的均值：

N为视频帧的像素点个数；

视频场景突变检测模型：计算视频侦中相邻两侦对应像素点的灰度的累加和，并设定一个阈值，如果这个和大于阈值则发生了场景变化，小于阈值则无场景变化发生；第α和第β帧视频帧I_α、I_β的像素值累计帧间差为：

图像I_K像素灰度值的总和为：

归一化的帧间差为：

基于类的直方图比较：先将视频中的场景分成一定数目的类，将视频的每帧离散化，然后运用同直方图比较法计算统计直方图，统计视频中不能够匹配的类的个数，把不匹配的个数与预先设定的阀值比较，根据比较结果来判断场景变化数；

将图像I_K和I_S分成P个类，利用直方图比较法的方法得到I_K和I_S中第λ个类的直方图归一化帧间差r(I_K，I_S)，然后用一个函数h(k)与阈值相比较：用比较结果来反映这两个类的差异状况：

统计相邻两视频帧间不能够相匹配的类的个数，定义为其类间差：

视频场景分类检测模块：

进行视频场景波峰检测：绘制视频场景亮度或灰度值变化曲线；对于曲率变化的视频帧设置为场景变换；将检测到的曲线变化处的视频帧表示成场景变化视频帧SPZ；

SPZ＝{SPZ₁，SPZ₂，SPZ₃…}；

视频场景分类检测：采集SPZ视频帧中的标志场景对比场景数据库，根据场景库辨别场景类别O。

本发明的有益效果在于：本发明对视频场景的内容进行分析，构建了视频场景的精彩度的测度算法，对视频的每个场景都可以根据其内容生成相应的测度值，本发明通过分析视频场景数据库中的视频数据以及相关理论，找到相关值的视频与其他视频的区别，从而提取有效特征进行描述，在特征提取阶段，本发明提取特征描述，从而表征一个视频镜头场景参数，针对镜头间的变换情况，提取镜头场景特征点，然后基于视频帧提取局部灰度差异性和特征，达到精确判断视频场景分类的技术效果。

附图说明

图1为本发明方法示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

如图1所示，本发明涉及一种基于人工智能分类实现的视频场景判断方法，包括如下步骤：

1)视频内容信息提取：

从静态和动态两个方面提取相应的特征；

1.1)提取视频静态特征：

采集灰度一致性特征：

1.2)构建速度熵和方向熵的运动特征；

1.2.1)估计背景运动模型：

1.2.2)筛选相邻两帧的中采样点得到的特征对：

计算采样点的运动矢量幅值与均值的差异，

计算所有采样点的运动矢量与平均值差异的均值：

N为视频帧的像素点个数；

2)进行视频场景突变检测：

第α和第β帧视频帧I_α、I_β的像素值累计帧间差为：

图像I_K像素灰度值的总和为：

归一化的帧间差为：

2.2)基于类的直方图比较：

3)进行视频场景分类检测：

SPZ＝{SPZ₁，SPZ₂，SPZ₃…}；

其中，M为分类总数，所述的平均视差矢量；

视频帧中所有的运动矢量的平均幅度值：

本发明通过对视频帧中的特征量进行分析，例如视差矢量、运动矢量、2D/3D视频的场景变化进行检测。针对热门的3D视频，利用视差矢量与运动矢量相结合的方法对场景突变进行检测：对广泛研究的2D视频，本发明利用各种算法匹配数量进行场景突变检测；实验结果均证明算法有较好的效果。

进一步的，本发明还包括一种基于人工智能分类实现的视频场景判断装置，包括如下结构：

视频内容信息提取模块：

采集灰度一致性特征：

计算采样点的运动矢量幅值与均值的差异，

计算所有采样点的运动矢量与平均值差异的均值：

N为视频帧的像素点个数；

图像I_K像素灰度值的总和为：

归一化的帧间差为：

视频场景分类检测模块：

SPZ＝{SPZ₁，SPZ₂，SPZ₃…}；

该装置能够保证本发明的方法具有良好的使用环境。本发明实现了视频的场景分类检测。本算法可以在视频帧进行图像匹配的过程中对场景的变化情况进行判断，同时提取可以满足实时性的要求，因此该算法不仅实时性好，还可以保证场景突变检测的精度，仿真结果中视频场景突变检测平均査全率为97％，平均査准率为94％，表明了该算法在视频场景分类检测中的有效性。

Claims

1.一种基于人工智能分类实现的视频场景判断方法，其特征在于，包括如下步骤：

1)视频内容信息提取：

从静态和动态两个方面提取相应的特征；

1.1)提取视频静态特征：

采集灰度一致性特征：

1.2)构建速度熵和方向熵的运动特征；

1.2.1)估计背景运动模型：

1.2.2)筛选相邻两帧的中采样点得到的特征对：

在视频帧中四个角上选取采样点作为背景特征点，分别在视频中划分E*R大小的网格块，以步长q选取采样特征点，相邻两帧的中采样点的特征对为：

a′_k、a_k分别为当前处理帧和其相邻帧中第k个采样点的特征对，(i_k，j_k)是当前处理帧第k个点所在位置的坐标，(i₀，j₀)是该帧图像的中心位置的坐标，是相应采样点的运动矢量；x′_k，y′_k分别为当前处理帧的第k个采样点的像素横、纵坐标；x_k、y_k分别为相邻帧的第k个采样点的像素横、纵坐标；

计算采样点的运动矢量幅值与均值的差异，

计算所有采样点的运动矢量与平均值差异的均值：

N为视频帧的像素点个数；

2)进行视频场景突变检测：

第α和第β帧视频帧I_α、I_β的像素值累计帧间差为：

图像I_K像素灰度值的总和为：

归一化的帧间差为：

2.2)基于类的直方图比较：

3)进行视频场景分类检测：

SPZ＝{SPZ₁，SPZ₂，SPZ₃…}；

3.3)视频场景分类检测：采集视频帧中的标志场景对比场景数据库，根据场景库辨别场景类别。

2.根据权利要求1所述的一种基于人工智能分类实现的视频场景判断方法，其特征在于：所述的视频场景分类检测包括3D视频场景突变检测，即计算当前倾的平均视差矢量，

其中，M为分类总数，所述的平均视差矢量；

3.根据权利要求1所述的一种基于人工智能分类实现的视频场景判断方法，其特征在于：所述的视频场景分类检测包括单视图场景突变检测，计算第k个视频帧的运动矢量幅度值，

视频帧中所有的运动矢量的平均幅度值：

4.一种基于人工智能分类实现的视频场景判断装置，其特征在于，包括如下结构：

视频内容信息提取模块：

采集灰度一致性特征：

筛选相邻两帧的中采样点得到的特征对：在视频帧中四个角上选取采样点作为背景特征点，分别在视频中划分E*R大小的网格块，以步长q选取采样特征点，相邻两帧的中采样点的特征对为：

计算采样点的运动矢量幅值与均值的差异，

计算所有采样点的运动矢量与平均值差异的均值：

N为视频帧的像素点个数；

图像I_K像素灰度值的总和为：

归一化的帧间差为：

视频场景分类检测模块：

SPZ＝{SPZ₁，SPZ₂，SPZ₃…}；

视频场景分类检测：采集视频帧中的标志场景对比场景数据库，根据场景库辨别场景类别。

5.根据权利要求4所述的一种基于人工智能分类实现的视频场景判断装置，其特征在于：所述的视频场景分类检测模块进行3D视频场景突变检测，即计算当前倾的平均视差矢量，

其中，M为分类总数，所述的平均视差矢量；

6.根据权利要求4所述的一种基于人工智能分类实现的视频场景判断装置，其特征在于：所述的视频场景分类检测模块进行单视图场景突变检测，计算第k个视频帧的运动矢量幅度值，

视频帧中所有的运动矢量的平均幅度值：