CN109525892A

CN109525892A - 视频关键场景提取方法及装置

Info

Publication number: CN109525892A
Application number: CN201811465838.2A
Authority: CN
Inventors: 危明; 陈棣成; 姜大志; 田泽康; 吴勇
Original assignee: Yi Teng Teng Polytron Technologies Inc
Current assignee: Yi Teng Teng Polytron Technologies Inc
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-03-26
Anticipated expiration: 2038-12-03
Also published as: CN109525892B

Abstract

本发明为了解决视频关键场景提取过程中语义鸿沟、大规模数据和快速处理中的问题，提供了一种视频关键场景提取方法，包括的步骤：获取视频流信息，转化为视频帧集和音频信号；进行聚类形成镜头集；根据镜头集的时间索引对所述音频信号进行时间划分，形成镜头音频段信号；对所述镜头音频段信号提取高级能量特征值；根据所述高级能量特征值和所述高级能量特征值的变化率求出复合高级能量值，并对所述镜头集对应的复合高级能量值进行排序，获取关键镜头集；进行扩展形成关键场景集；根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景；同时提供了相应的装置、设备和介质。能够面对大规模的视频数据进行快速处理，获取关键场景。

Description

视频关键场景提取方法及装置

技术领域

本发明属于视频处理技术领域，具体而言，涉及一种视频关键场景提取方法、提取装置、计算机可读介质及电子设备。

背景技术

近年来随着网络技术和多媒体技术的飞速发展，视频应用网站已经快速融入人们的日常生活中。随之而来的是大量视频数据在网络上涌现。可以说视频数据是互联网上信息量最为丰富，但又是最难以分析的重要媒介。由于视频通常是一种没有固定格式的非结构化数据，通常具有复杂的艺术表现形式与精妙的拍摄编排，因此如何面对大量的视频数据自动地进行组织、存储和检索自然成为视频技术的三个关键问题。

在各种形式的数字视频中，影视视频是人们在日常生活中最容易接触且不可或缺的视频形式。其同其他数字视频一样，影视视频在形式上是一种非结构化数据，但是与一般的视频内容相比(如新闻视频)，影视视频在内容上往往具有很强的情节结构，这给视频检索带来了新的难度。目前大多数的数字视频都需要通过人工方式进行结构的分割和语义分析及标注，从而实现高效的分类存储和检索。但是，随着影视视频等视频内容数量的急速膨胀，手工进行视频结构分割和语义标注的形式，由于人力、物力和时间资源的限制而越来越不现实，难以满足井喷式增长的影视视频的检索需求。

一般而言，影视视频可以分解为场景、镜头和帧共三个要素，如图1所示，一个影视视频由若干个场景组成，而每个场景则由若干个镜头组成，每个镜头由若干个帧组成。视频场景作为有着相对完整故事情节的视频片段，是视频分析与理解的关键结构，使得视频场景分割成为视频检索中十分关键的研究方向。

目前，与经典的视频分析研究相比，视频场景分割方法的研究可以说尚处在起步与初级探索阶段，在国内外相关研究还不是很多。而且视频类型的多样性和视频结构的复杂性，当前并没有一种通用而且切实有效的场景分割方法。主要存在的技术缺点如下：

1、目前视频分析技术，主要集中在摄像头视频内容。摄像头视频结构相对比较简单，而且摄像头视频更多地关注在关键帧提取研究，比较容易实现。而影视视频具有非常高的复杂性，基于影视视频的研究相对较少。

2、目前很多基于更高复杂性的影视视频研究，大都是面向小样本、小数据量影视内容设计相关的方法，但是这些方法在大规模复杂数据上表现出的性能几乎无法满足实际需求(处理速度缓慢，对训练样本要求较为苛刻)。可以说，目前极少有涉及大规模复杂影视数据的研究，更谈不上有成熟方法或者框架的出现。

3、基于关键场景的提取研究，一个重要的突破方向是能“有效的跨越视频底层特征和视频高层语义之间的语义鸿沟”，但是对视频进行语义计算，不仅速度慢而且效率低，目前来看进行商业化应用还不是很现实，更无法满足飞速增长的实际需求。目前需要一种简单、快速的场景提取方法以满足飞速增长的工业化需求。

发明内容

本发明为了解决上述现有技术的缺点，针对大规模、复杂的影视视频内容，面向快速增长的工业级应用，提出了一种兼容的、快速的关键场景提取方法与框架，能够从大规模复杂影视视频中快速有效地从选择感兴趣的视频场景，为后续的视频检索、视频推荐、视频片花生成奠定基础。

具体地，本发明第一方面，提供了一种视频关键场景提取方法，包括如下步骤：

获取视频流信息，将所述视频流信息转化为视频帧集和音频信号；

根据所述视频帧集的图像特征进行聚类形成镜头集；

根据镜头集的时间索引对所述音频信号进行时间划分，形成镜头音频段信号；

对所述镜头音频段信号提取高级能量特征值；

根据所述高级能量特征值和所述高级能量特征值的变化率求出复合高级能量值，并对所述镜头集对应的复合高级能量值进行排序，获取前N个复合高级能量值所对应的镜头集，作为关键镜头集，所述N代表正整数；

对所述关键镜头集进行扩展形成关键场景集；

根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景。

在一些实施例中，所述根据所述视频帧集的图像特征进行聚类形成镜头集的步骤包括如下步骤：

判断当前视频帧与下一视频帧在图像中心区域或者边框区域的平均RGB相似度值小于相似度阈值时，将所述当前视频帧与下一视频帧归属于同一个镜头集。

在一些实施例中，所述对所述镜头音频段信号提取高级能量特征值的步骤包括：

均分所述镜头音频段信号，获取单位镜头音频段信号，对所述单位镜头音频段信号提取短时能量均值、短时能量方差、短时过零率均值、短时过零率方差和平均幅值，形成单位高级能量特征向量，对所述镜头音频段信号所对应的单位高级能量特征向量进行求和处理获取高级能量特征，所述高级能量特征值为所述高级能量特征的模长。

在一些实施例中，所述N为3，即选取复合能量前三的场景作为关键场景集。

在一些实施例中，所述对所述关键镜头集进行扩展形成关键场景集的步骤包括：

获取当前关键镜头集的第一视频帧、中间视频帧、最后视频帧；

获取当前关键镜头集的上一镜头集的第一视频帧、中间视频帧；

获取当前关键镜头集的下一镜头集的中间视频帧、最后视频帧；

根据所述上一镜头集的第一视频帧、中间视频帧和当前关键镜头集的第一视频帧获取第一复合相似度；

根据所述下一镜头集的最后视频帧、中间视频帧和当前关键镜头集的最后视频帧获取第二复合相似度；

迭代执行判断所述第一复合相似度大于所述第二复合相似度时，将所述上一镜头集与所述当前关键镜头集进行合并形成新的当前关键镜头集，否则将所述下一镜头集与当前关键镜头集进行合并形成当前关键镜头集，直至所述当前关键镜头集的高级能量特征值大于等于能量阈值；

迭代执行判断所述第一复合相似度大于所述第二复合相似度时，将所述下一镜头集与当前关键镜头集进行合并形成当前关键镜头集，否则将所述上一镜头集与所述当前关键镜头集进行合并形成新的当前关键镜头集，直至所述当前关键镜头集的高级能量特征值大于等于所述能量阈值一半；

将所述当前关键镜头集作为关键场景集。

在一些实施例中，获取所述第一复合相似度的步骤包括：

根据上一镜头集的第一视频帧、中间视频帧和当前关键镜头集的第一视频帧获取第一HSV空间相似度，根据上一镜头集的第一视频帧、中间视频帧和当前关键镜头集的第一视频帧对应的音频信号获取第一高级能量相似度，根据所述第一HSV空间相似度和所述第一高级能量相似度获取第一复合相似度；

获取所述第二复合相似度的步骤包括：

根据下一镜头集的最后视频帧、中间视频帧和当前关键镜头集的最后视频帧获取第二HSV空间相似度，根据下一镜头集的最后视频帧、中间视频帧和当前关键镜头集的最后视频帧对应的音频信号获取第二高级能量相似度，根据所述第二HSV空间相似度和所述第二高级能量相似度获取第二复合相似度。

在一些实施例中，根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景的步骤包括：

根据所述关键场景集的场景镜头切变率、场景色调效能和场景亮度特征获取所述情感丰富度；

对所述关键场景集中镜头集的高级能量特征值进行求和处理获取所述关键场景集的高级能量特征值；

将关键场景集中的情感丰富度与高级能特征值的组合最大的对应的关键场景作为所述视频关键场景。

获取关键场景集的场景镜头切变率、场景色调效能和场景亮度特征；

根据所述场景镜头切变率、场景色调效能和场景亮度特征，利用场景-情感关系模型获取情感矩阵；

对所述情感矩阵进行PCA分解获取情感权重值，根据所述情感权重值与所述情感矩阵的对角线上元素获取情感丰富度；

对所述关键场景集中镜头集的高级能量特征值进行求和处理获取所述关键场景集高级能量特征值；

在一些实施例中，所述情感矩阵为：

其中，所述m_i11代表第i个关键场景的场景镜头切变率消极分量，m_i12代表第i个关键场景的场景镜头切变率中性分量，m_i13代表第i个关键场景的场景镜头积极分量，m_i21代表第i个关键场景的场景色调效能消极分量，m_i22代表第i个关键场景的场景色调效能中性分量，m_i23代表第i个关键场景的场景色调效能积极分量，m_i31代表第i个关键场景的场景亮度特征消极分量，m_i32代表第i个关键场景的场景亮度特征中性分量，m_i33代表第i个关键场景的场景亮度特征积极分量；

所述利用场景-情感关系模型获取情感矩阵的步骤如下：

根据预设测定关系，根据关键场景的场景镜头切变率的值获取场景镜头切变率消极分量、场景镜头切变率中极分量、场景镜头切变率积极分量；

根据预设测定关系，根据关键场景的场景色调效能的值获取场景色调效能消极分量、场景色调效能中极分量、场景色调效能积极分量；

根据预设测定关系，根据关键场景的场景亮度特征的值获取场景亮度特征消极分量、场景亮度特征中极分量、场景亮度特征积极分量。

在一些实施例中，所述对所述情感矩阵进行PCA分解获取情感权重值的步骤包括：

(1)对情感情感矩阵M_(i，3×3)每一行进行零均值化得到矩阵M'_(i，3×3)；

(2)求出M'_(i，3×3)协方差矩阵

(3)求出协方差矩阵C的特征值对角阵Λ及对应的特征向量矩阵P，满足PCP^T＝Λ；

(4)求出最大特征值所对应的特征向量向量并计算输出向量

(5)场景i在情感空间的情感权重值w_ij定义为：

其中，利用上式求取所述情感权重值；

所述根据所述情感权重值与所述情感矩阵的对角线上元素获取情感丰富度的步骤包括：利用所述情感权重值和所述情感矩阵利用如下公式求取情感丰富度，其中，M_(i，3×3)[j,j]表示情感矩阵对角线上元素。本发明实施例的第二方面，提供了一种视频关键场景提取装置，包括：

接收单元，用于接收视频流信息；

视频流拆分单元，用户将所述视频流信息转化为视频帧集和音频信号；

帧处理单元，用户根据所述视频帧集的图像特征进行聚类形成镜头集；

音频段划分单元，用于根据镜头集的时间索引对所述音频信号进行时间划分，形成镜头音频段信号；

能量特征提取单元，用于对所述镜头音频段信号提取高级能量特征值；

关键镜头集求取单元，用于根据所述高级能量特征值和所述高级能量特征值的变化率求出复合高级能量值，并对所述镜头集对应的复合高级能量值进行排序，获取前N个复合高级能量值所对应的镜头集，作为关键镜头集，所述N代表正整数；

扩展单元，用于对所述关键镜头集进行扩展形成关键场景集；

情感处理单元，用于根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景。

本发明实施例的第三方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的视频关键场景提取方法。

本发明实施例的第四方面提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述的视频关键场景提取方法。

本发明实施例中的视频关键场景提取方法，通过将视频流分解成图像帧集和音频信号，分析图像特征的相似性进行聚类，形成镜头，然后根据音频信号中的能量值，找到能量值最大对应的镜头为关键镜头，然后对关键镜头集进行扩张，形成场景，最终通过情感丰富度和能量值选取情感丰富度多，能量值高的场景作为关键场景。

本发明实施例通过将视频特征和音频特征进行和，融合情感丰富度获取视频的关键场景，能够面对大规模的视频场景中得到运用。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明一些实例中的帧、镜头、场景之间关系示意图；

图2为本发明一些实例中的视频关键场景提取方法、提取装置运行的系统架构示意图；

图3为本发明一些实施例中的视频关键场景提取方法流程图；

图4为本发明一些实施例中的视频关键场景提取装置系统结构图；

图5为本发明一些实施例中的视频关键场景提取方法流程图；

图6本发明一些实施例中进行视频帧聚类时待聚类的视频帧示意图；

图7为本发明一些实施例中的视频帧聚类时中心区域和次边框区域示意图；

图8为本发明一些实施例中视频流转换为视频帧和音频流后的处理流程示意图；

图9为本发明一些实施例中镜头索引下镜头的高级能量特征值曲线示意图；

图10为本发明一些实施例中镜头进行扩展的示意图；

图11为本发明一些实施例中HSV空间示意图；

图12为本发明一些实施例中镜头进行前后扩张的策略示意图；

图13为本发明一些实施例中的场景镜头切变率的值与情感矩阵中对应元素的关系曲线示意图；

图14为本发明一些实施例中亮度特征的值与情感矩阵中对应元素的关系曲线示意图；

图15为本发明一些实施例中色调效能的值与情感矩阵中对应元素的关系曲线示意图；

图16为本发明一些实施例中视频关键场景提取方法或者提取装置运行的计算机系统结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图2示出了可以应用本申请实施例的视频关键场景提取方法或视关键场景提取装置的实施例的示例性系统架构100。

如图2所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如视频)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频播放软件、视频处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持数据传输的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的视频提供支持的后台服务器。后台服务器可以对接收到的视频处理请求等数据进行分析等处理，并将处理结果(例如对视频进行分割后得到的视频片段或其他数据)反馈给与其通信连接的电子设备(例如终端设备)。

需要说明的是，本申请实施例所提供的视频关键场景提取方法可以由服务器105执行，相应地，视频关键场景提取装置可以设置于服务器105中。此外，本申请实施例所提供的视频关键场景提取方法也可以由终端设备101、102、103执行，相应地，视频关键场景提取装置也可以设置于终端设备101、102、103中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图2中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当视频关键场景提取方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括用于分割视频方法运行于其上的电子设备(例如终端设备101、102、103或服务器105)。

影视视频可以被认为是有声的连环画，是一个视听序列的集合，因此所以影视视频数据就是图像集与音频集的结合。一部电影平均时长1.5小时，1400帧/分钟(通过matlab分解电影得到的数据)，一帧约有500×300个像素点(标清的电影帧)。换句话说，一部电影大概有百亿个像素点。这么庞大的数据量确定了本发明实施例不肯能每一帧每一帧地做详细的分析，但研究图像(帧)涉及到的图像处理技术大部分的算法都是建立在少数图片的研究上，如人脸识别，图像切割等。而且在很多提及电影场景研究的论文上，他们的实验测试都是抽取电影的一小片段进行的。种种限制告诉本发明实施例，要在影视视频上实现快速提取关键场景的话，本发明实施例对每一帧进行细致详尽的分析是不切实际的。基于上述分析，本发明实施例设计了一个快速检测关键帧与形成关键场景的方法，

视频场景分割技术主要通过提取底层图像特征和简单的运动信息对视频场景进行分析，构建视频镜头之间的相似度，进行场景分割，其目的是为了构建视频检索系统。对于视频场景分割主要有以下三大类方法：基于文字、基于人工标记视频、还有基于图像、音频特征的视频场景分割。

文字包含的信息量较少，很难分割成一个有效的视频场景；人工标记视频的方法需要人为去做相关操作，工作量大，且随着如今日益呈爆炸式速度增加的视频数据，人工方法并不现实，毕竟，要在实际工作中通过人工浏览大量视频，从而确定某个片段是否属于不同的场景很一件十分枯燥的工作，因此迫切需要一些能寻找到相似视频场景片段的可靠解决方法。相应的，基于底层图像、音频特征的视频场景分割方法应用非常广泛，该方法主要通过提取有效的视觉、音频特征以对图像内容进行分析，提取特征的步骤通常放在预处理阶段，然后用特征构建镜头的相似度函数，根据相似度函数计算阈值，在根据阈值进行分割。

对基于特征的视频场景分割技术进行进一步细分，可以分为三种，分别是合并法、分解法和模型法。合并法是首先根绝镜头的相似性将视频分割成镜头序列，再利用图像运动信息将镜头序列进行聚类，进而将分割出的视频镜头不断合并，最终形成不可再合并的场景集合。分解法可以看做是合并法的一个逆过程，该方法基于高层视听特征进行场景分割，他将场景分割看成自顶向下不断分解的过程，最终得到不可再分解的场景集合。模型法是近几年才出现的一种新方法，一般通过数学建模的方式进行场景分割，例如基于马尔科夫链蒙特卡洛的视频场景分割算法，利用不同的变化形式(分散、重组与分裂)和蒙特卡洛采样来确定场景边界。

如图3所示，本发明实施例提供了一种视频关键场景提取方法，其特征在于，包括如下步骤：

S101获取视频流信息，将所述视频流信息转化为视频帧集和音频信号；将视频流信号的图像和音频分离。

S102根据所述视频帧集的图像特征进行聚类形成镜头集；根据视频帧集中的每帧图像的图像特征进行聚类，例如根据相邻帧的相似性进行判断，如果相似则归成一个集合，直至找到不相似的相邻帧，即找到镜头的边界，形成镜头，最终形成镜头集。

本发明实施例中，为了便于快速判断相邻帧是否相似，设定判断当前视频帧与下一视频帧在图像中心区域或者边框区域的平均RGB相似度值小于相似度阈值时，将所述当前视频帧与下一视频帧归属于同一个镜头集。所述平均RGB相似度的定义为相邻帧平均RGB值的内积。

S103根据镜头集的时间索引对所述音频信号进行时间划分，形成镜头音频段信号；根据镜头的开始帧、结束帧对应的时间对所述音频信号进行划分，形成多段镜头音频段信号。

S104对所述镜头音频段信号提取高级能量特征值；所述高级能量特征值，用于表征一段镜头音频段信号的能量，可以采用短时能量均值、短时能量方差、短时过零率均值、短时过零率方差和平均幅值等参数进行单独表征或者组合表征。具体地，均分所述镜头音频段信号，获取单位镜头音频段信号，对所述单位镜头音频段信号提取短时能量均值、短时能量方差、短时过零率均值、短时过零率方差和平均幅值，形成单位高级能量特征向量，对所述镜头音频段信号所对应的单位高级能量特征向量进行求和处理获取高级能量特征，所述高级能量特征值为所述高级能量特征的模长。

S105根据所述高级能量特征值和所述高级能量的变化率求出复合高级能量值，并对所述镜头集对应的复合高级能量值进行排序，获取前N个复合高级能量值所对应的镜头集，作为关键镜头集，所述N代表正整数；由于情感的分类可以分为消极、积极和中性，为了便于体现多种情感，可以选定N大于等于3，在本发明的实施例中可以选择3，即选复合高级能量特征值排名前三的镜头关键镜头。

S106对所述关键镜头集进行扩展形成关键场景集；扩展的方法主要考虑相邻镜头之间的相似性，具体地，获取当前关键镜头集的第一视频帧、中间视频帧、最后视频帧；

将所述当前关键镜头集作为关键场景集。

其中，关于复合相似度计算步骤如下：

获取所述第二复合相似度的步骤包括：

S107根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景；关键场景中需要情感丰富度高，高级能量特征值高的场景；其中，针对情感丰富度，本发明实施例规定分成消极情感、中性情感和积极情感，根据镜头的切变路、色调效能和场景亮度与这三种情感之间的关系，求取镜头的三种特征，便能获取相应的三种情感分量，从而计算出丰富度，具体地，根据所述关键场景集的场景镜头切变率、场景色调效能和场景亮度特征获取所述情感丰富度；

将关键场景集中的情感丰富度与高级能特征值的组合最大的对应的关键场景作为所述视频关键场景；

或者：

为了统一便于对比和统计，可以对所述场景镜头切变率、场景色调效能和场景亮度特征进行归一化处理。

所述情感矩阵为：

所述利用场景-情感关系模型获取情感矩阵的步骤如下：

所述对所述情感矩阵进行PCA分解获取情感权重值的步骤包括：

(2)求出M'_(i，3×3)协方差矩阵

(4)求出最大特征值所对应的特征向量向量并计算输出向量

(5)场景i在情感空间的情感权重值w_ij定义为：

其中，利用上式求取所述情感权重值；

所述根据所述情感权重值与所述情感矩阵的对角线上元素获取情感丰富度的步骤包括：利用所述情感权重值和所述情感矩阵利用如下公式求取情感丰富度，其中，M_(i，3×3)[j,j]表示情感矩阵对角线上元素。

本发明实施例中视频关键场景提取方法，通过视频帧聚合形成镜头，根据音频特征找到关键镜头，然后进行镜头扩展形成关键场景，最终结合情感丰富度和音频信号能量特征求取出视频关键场景，计算效率高，能够广泛运用。

如图4所示，本发明实施例还提供了一种视频关键场景提取装置700，包括：

接收单元710，用于接收视频流信息；

视频流拆分单元720，用户将所述视频流信息转化为视频帧集和音频信号；

帧处理单元730，用户根据所述视频帧集的图像特征进行聚类形成镜头集；

音频段划分单元740，用于根据镜头集的时间索引对所述音频信号进行时间划分，形成镜头音频段信号；

能量特征提取单元750，用于对所述镜头音频段信号提取高级能量特征值；

关键镜头集求取单元760，用于根据所述高级能量特征值和所述高级能量特征值的变化率求出复合高级能量值，并对所述镜头集对应的复合高级能量值进行排序，获取前N个复合高级能量值所对应的镜头集，作为关键镜头集，所述N代表正整数；

扩展单元770，用于对所述关键镜头集进行扩展形成关键场景集；

情感处理单元780，用于根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景。

上述各个单元中的详细执行步骤可以参照视频关键场景提取方法中的步骤，在此不做赘述。

如图5所示，本发明实施例提供的关键场景提取方法的整个流程主要包括图像集处理部分，音频信号处理部分和寻找关键场景策略三个步骤，分别介绍如下。

图像集处理部分

·图像聚类形成镜头

该模块对电影图像集进行第一层聚类，输出电影的镜头集。通过比较相邻两帧的相似性，找到镜头边界，最后输出镜头边界序列。两帧相似度比较在某种程度上等价于渐变镜头的识别，其主要采用的方法为中心与边框或者次边框区域相似度比较法，如图6所示视频帧，其中心和边框或者次边框区域如图7所示。

一般的电影渐变镜头分为两大类，第一类是镜头里面人物在动，背景不动(镜头无位移)，本发明实施例称为背景不变性渐变。另一种则是是人物相对镜头静止(镜头与人物位移一致)，本发明实施例叫做中心不变性渐变。通过对比帧i，帧i+1的中心区域(以帧图像中心点为中心，长为帧图像长度的1/4，宽为帧图像宽度的1/4)与次边框区域(长为帧图像长度的2/3，宽为帧图像宽度的2/3，在减掉中心区域后剩余的部分)的平均值R,G,B相似度值，来确定它们两是否为这两类渐变镜头，既帧i与帧i+1的相似度定义如下，

设帧i与帧i+1需要比较相似性的区域都各有n个像素，p_i(j,r),p_i(j,g),p_i(j,b)分别表示第i帧对应区域的第j个像素点的R,G,B值，则可得第i帧的平均R,G,B值向量为所以帧i与帧i+1的相似度为即第i帧的平均R,G,B值向量与第i+1帧的平均R,G,B值向量的内积。

特别地，利用次边框而不是边框是为了防止很多电影上下的黑条。只要中心或次边框小于某个阈值(默认值为77)，就判定它们为(中心不变/背景不变性)渐变镜头，继续往后找该镜头的边界；否则，定义帧i+1为边界，重新以帧i+1为目标探测下一个新镜头的边界。中心区域比较是保证找到那些中心不变性的渐变镜头而次边框区域比较是保证找到那些背景不变性的渐变镜头。

·基于镜头的底层特征提取

经过上一步对电影视频转化成的图像集相似度聚类后形成的镜头集进行三个特征提取，沿用视频分析的典型做法，本发明实施例分别提取目标镜头的亮度，切变率，色温三个特征。

具体计算过程如下：

1、切变率：为了简单有效率，镜头的切变率定义为该镜头内的图像总帧数。

2、镜头亮度特征：对于每一个视频帧，将帧内亮像素所占比例和帧内像素两度分量L的中值的乘积定义为视频帧的亮度线索，用符号B来表示。第k帧的亮度线索计算模型为式中L(i,j)表示第(i,j)位置像素的L分量值，β＝70。M_k为此视频帧灰度图的亮度分量中值；X,Y分别为灰度图片的横纵坐标方向上像素点的个数。在此基础上，镜头亮度指标定义如下：

上式中，B_tl(F_key)表示第l个镜头中第t个镜头的关键帧F_key的照明线索指标值；Q表示视频片段内的镜头总数。为了简单起见，假设该镜头含有n个帧，这里将镜头里第的[n/2]个帧视为关键帧，其中[]为取整运算。

3、色调效能特征。在HLS颜色空间中，将0°～105°和315°～360°色调范围内的像素视为暖色像素，将105°～315°色调范围内的像素视为冷色像素。色调效能提取模型如下：其中 h_k(i,j)为第k帧像素点对应的色调值。为实现所有场景的色调效能计算公式在同一区间[0，1]，因此第i范围场景的色调效能计算公式为：

frame(t,n)为n个镜头里的第t个镜头的关键帧。

音频信号处理部分

·高级声音‘能量’特征提取

对于电影转化成的图像集经过聚类形成镜头和对镜头进行特征提取以后，本发明实施例下一步对电影转化的第二个重要信号，音频进行特征提取。在一整段电影音频段中，本发明实施例按照镜头的时间索引对音频进行划分，然后对每个镜头对应的音频段进行高级声音‘能量’特征提取。高级声音‘能量’特征主要表现在对于每个音频段提取短时能量均值、方差，短时过零率均值、方差，平均幅值的综合测量，公式如下：

其中，表示第i个语音段的总的特征表示，w_i为相应特征的自适应权重系数，计算公式为其中l为相应语音段中每帧语音信号第i个特征构成的特征向量。Avg()为计算向量的均值，std()为计算向量的方差。E_i为第i个语音段每帧信号的能量，用Teager能量算子表示为，x_j为第j帧信号的能量。ZCR_i为第i个语音段每帧信号的过零率，x_j为语音段的第j帧语音信号的能量。range_i为第i个语音段每帧信号的幅值，y_j为第j个采样点的震荡幅度。

一个镜头的音频可以转化为一个时长为t的信号S，把S平均分成n份，每一个语音段f_i具有S/n的长度，则镜头t的高级声音‘能量’向量定义为：其中镜头t的高级声音‘能量’的大小该向量的模长，定义如下：

寻找关键场景策略

在该模块中，本发明实施例介绍何如利用上述的图像，音频特征找到本发明实施例想要的关键场景，主要流程如图8所示。首先，本发明实施例把影视作品分解成图片集和音频信号，然后第二步本发明实施例对图片用上述的方法进行一次快速聚类，形成镜头集。第三步，本发明实施例提取每个镜头的三个主要特征，包括色温，切变率，亮度。第四步，本发明实施例对音频信号进行采样，对每个采样点提取上述的高级‘能量’特征并绘制出高级‘能量’曲线，最后找到能量曲线对应的几个峰值(极值)。真实的高级能量特征曲线(横坐标为镜头索引，纵坐标为该镜头对应的高级‘能量’特征值)如图9所示：

明显地，在横坐标(14-75，75-125，125-150，150-180，180-250，250-330)出现了类似的小山丘(峰值/极值)。经过检验，高潮或者精彩的部分，往往都在这些小山丘上。此时，本发明实施例定义这种‘山丘’模式的衡量指标如下：

Hill(t)＝a*Energy(t)+b*diff(Energy(t))，

其中a、b为常数(参考系权重)；Energy(t)为t时间段的能量值；diff()为求导操作；Hill(t)表示时间段t内，曲线形状与山丘形状的相似度，值越高，越相似(这里不需要阈值，因为最后要进行排序，选排名前三的‘山丘’)。因为‘山丘’形状往往是变化率比较大，对应的值也比较大，对这两个特征进行线性组合，能够体现出较好的效果。然后第五步，在山丘中寻找音频关键帧和以及其所代表的音频关键镜头，排序，最终形成候选关键镜头序列。实质上是对每个镜头Hill(t)的值由高到低进行排序。根据Hill(t)值所在的时间轴位置，定位到该值所对应的镜头(镜头已经在“图像集处理部分”由图像聚类得出)，得到每个Hill(t)值所对应的镜头后就可以形成候选镜头序列。最后两步分别是候选镜头扩张成候选场景和在候选场景中选取关键场景。

·镜头扩张形成场景

首先，扩张要考虑到底是往前扩张还是往后扩张。由图10所示，首先选取需要扩张的镜头i，然后找到该镜头的第一，中间，最后一帧作为镜头i的代表，分别用I、II和III表示。然后找到前一个镜头i-1的第一帧和中间帧用first，Mid2表示。最后找到后一个镜头i+1的最后一帧和中间帧用end，Mid1表示。这里定义一个Similar(P1,P2,P3)函数：

Similar(P₁,P₂,P₃)＝c*PictureSim(P₁,P₂,P₃)+d*SoundSim(P_1t,P_2t,P_3t)，

其中d，c是常数。PictureSim(P1,P2,P3)是求P1与P2相似度和P2与P3的相似度，通过比较各自的HSV(色相，饱和度，色调)空间相似度获得，如图11。

其中P(r,g,b)表示图像P的RGB矩阵，P(r,g,b)_h/s/v表示利用图像P的RGB值求出H/S/V分量的值，其变换方法如下:

v＝max

(r,g,b)分别是一个颜色的红、绿和蓝坐标，它们的值是在0到1之间的实数。设max等价于r,g和b中的最大者，min等于这些值中的最小者。通过上述分段函数可计算出在HSV空间中的(h,s,v)分量值，这里的h∈[0,360)是角度的色相角，而s,v∈[0,1]是饱和度和色调。

SoundSim(P_1t,P_2t,P_3t)，其中P_1t,P_2t,P_3t示P1，P2，P3所对应的时间点的能量相似度，计算公式如下：

考虑贪心算法，如果Similar(first,mid₂,I)＞Similar(end,mid₁,III)，说明前面扩张的内容与当前镜头图片集更具有相似性，所以选择往前扩张，把first，重新赋值成I并计算出新的mid2。否则把end重新赋值成III并计算出新的mid1。接续重新比较I，mid2，first和III，mid1，end。最后，本发明实施例还要考虑扩张停时问题，本发明实施例定义，当Energy(t_III-t_I)≥Hungry时，说明能量已累计达到Hungry阈值140，本发明实施例停止扩张。类似地，本发明实施例进行第二轮扩张，这时本发明实施例寻求的是不相似高的方向作为扩张方向，因为一个场景大部分是相似的画面，但还存在一部分不相似的画面。这时如果Similar(first,mid₂,I)＞Similar(end,mid₁,III)，本发明实施例选择往后扩张，直到Energy(t_III-t_I)≥0.5*Hungry为止。整个扩张流程如下图12。

·构建评价场景关键性模型

关于关键场景的定义，本发明实施例的关键场景的必要条件至少有以下两点。第一，关键场景一定是那些感情表达比较丰富的场景；第二，关键场景一定是那些能量表现比较大的场景(特别是在某种特定类型的影片)。基于此，任意给定三个候选场景(选取排名前三的三个‘山丘’并将他们通过上述流程扩张成场景)，本发明实施例有如下对场景的关键程度定义：

Winner(T₁,T₂,T₃)＝Max(F₁,F₂,F₃)，

其中m，n是常数，T₁，T₂，T₃表示场景1，场景2和场景3，T_ifirst，T_iend表示第i个场景的开始帧和结束帧。Emotions(T)表示T场景的情感丰富度。情感判定空间定义为E＝{e₁,e₂,e₃}，该空间把影视视频情感定义为三个类别，分别是消极、中性和积极，情感的指标空间定义为I＝{i₁,i₂,i₃}，其中的参数分别代表消极、中性和积极，分别为场景亮度、场景切变率和场景色温。对于每一个场景T_i，通过求出T_i的镜头切变率，色调效能，亮度特征来建立一个(i,3×3)的情感矩阵，定义如下：

其中，所述m_i11代表第i个关键场景的场景镜头切变率消极分量，m_i12代表第i个关键场景的场景镜头切变率中性分量，m_i13代表第i个关键场景的场景镜头积极分量，m_i21代表第i个关键场景的场景色调效能消极分量，m_i22代表第i个关键场景的场景色调效能中性分量，m_i23代表第i个关键场景的场景色调效能积极分量，m_i31代表第i个关键场景的场景亮度特征消极分量，m_i32代表第i个关键场景的场景亮度特征中性分量，m_i33代表第i个关键场景的场景亮度特征积极分量

其中一个包含n个镜头的场景镜头切变率S₂(T_i)定义为该场景下的所有镜头切变率的归一化后的均值：

一个包含n个镜头的场景镜头切变率亮度特征S₁(T_i)为该场景下的所有镜头亮度特征的均值：

同理一个包含n个镜头的场景镜头色调效能S₃(T_i)为该场景下的所有镜头色调特征的均值：

同时在情感矩阵中，本发明实施例采用模糊数学的方法来实现m值的选取，本案选择了25测试者进行了实验。通过给定一系列的影视视频场景，对测试者进行情感诱发，对测试者的所生成的数据进行统计分析，发现在亮度、切变率和色调效能三个语言变量上的取值及其范围如下表1与图13～15所示：

表1三个镜头特征在情感空间的测度值

根据图13中的曲线和场景切变率获取相应的情感矩阵中消极、中性和积极分量；根据图14中的曲线和场景亮度获取相应的情感矩阵中消极、中性和积极分量；根据图15中的曲线和场景色调获取相应的情感矩阵中消极、中性和积极分量。

通过上述方法获取相应的情感矩阵中的元素的值。

所以，任意给定一个场景i，本发明实施例都可以生成一个情感矩阵M_(i，3×3)。对于M_(i，3×3)，本发明实施例可以进一步对它进行PCA分解得到它的丰富度，具体做法如下：

(1)对M_(i，3×3)每一行进行零均值化得到矩阵M'_(i，3×3)；

(2)求出M'_(i，3×3)协方差矩阵

(4)求出最大特征值所对应的特征向量向量并计算输出向量

(5)该场景i在情感空间的权重定义如下：

(6)最后该场景T_i在情感丰富度为：

最后根据情感丰富度和高级能量特征值获取视频的关键场景。

需要说明的是，上述实施例中的镜头生成方法还可以采用其他类型的图像聚类算法；

音频能量特征提取方法也可采用其他类型的能量提取方法；本发明实施例中音频关键帧的提取方法、镜头扩张的策略，都可以采用其他方法进行替代。

本发明的技术关键点是面向大规模复杂影视视频内容形成的快速关键场景提取方法与模型。虽然目前也有一些关键场景提取方法，但是这些方法大都是理论上成立，但是在实际应用中不可以接受的算法、理论与框架。在图像集处理部分，关键点是面向大规模复杂视频数据的镜头聚类。在音频集处理部分，技术关键点是音频能量特征提取、寻找音频关键帧与关键音频镜头、镜头扩张形成场景和关键场景生成。

本发明实施例克服了再关键场景提取中的语义鸿沟、大规模数据与快速处理三个方面的困难：

在语义鸿沟方面，影视视频的关键场景的提取，关键内容是建立底层特征和高层语义信息之间的关系模型，但是由于语义鸿沟的存在，使得图像底层特征和高层的语义信息之间的关系模型很难准确构建。鉴于影视视频的特殊性，其音频信息表达了强烈的情感语义特征，因此本案首先从音频特征出发来指导关键场景的提取。但是由于电影场景包含着极为丰富的语义信息，场景内容、场景故事情节信息、场景隐喻等等，都是影响场景提取的关键要素，这些是不仅是场景提取的挑战性问题，也是人工智能方向极具挑战性的问题。未来需要进一步对本方案进行优化。

在大规模数据和快速处理方面，通常而言，一部影视视频大概有百亿个像素点，这已经是一个大数据问题，而本发明实施例的系统中每天更新的影视视频大概有几百部，这给数据处理带来了极高的挑战，虽然在关键场景的提取上有一些进展，但是这些进展大都处于实验室中的小规模实验阶段，离商业化应用还太遥远。因此对本案的每一部分进行分析，发现各个处理单元看上去并不是最优的处理方法(相比较其他科学技术论文而言)，但却是在商业化的应用上，在面向海量数据量和处理速度的要求上，较为便捷有效的方案。

下面参考图16，其示出了适于用来实现本申请实施例的控制设备的计算机系统800的结构示意图。图8示出的控制设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图16所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向目标的程序设计语言—诸如Python、Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、分割单元、确定单元和合并单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待分割视频的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取视频流信息，将所述视频流信息转化为视频帧集和音频信号；根据所述视频帧集的图像特征进行聚类形成镜头集；根据镜头集的时间索引对所述音频信号进行时间划分，形成镜头音频段信号；对所述镜头音频段信号提取高级能量特征值；根据所述高级能量特征值和所述高级能量特征值的变化率求出复合高级能量值，并对所述镜头集对应的复合高级能量值进行排序，获取前N个复合高级能量值所对应的镜头集，作为关键镜头集，所述N代表正整数；对所述关键镜头集进行扩展形成关键场景集；根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频关键场景提取方法，其特征在于，包括如下步骤：

根据所述视频帧集的图像特征进行聚类形成镜头集；

对所述镜头音频段信号提取高级能量特征值；

对所述关键镜头集进行扩展形成关键场景集；

2.根据权利要求1所述的视频关键场景提取方法，其特征在于，所述根据所述视频帧集的图像特征进行聚类形成镜头集的步骤包括如下步骤：

3.根据权利要求1所述的视频关键场景提取方法，其特征在于，所述对所述镜头音频段信号提取高级能量特征值的步骤包括：

4.根据权利要求1所述的视频关键场景提取方法，其特征在于，所述N为3。

5.根据权利要求1所述的视频关键场景提取方法，其特征在于，所述对所述关键镜头集进行扩展形成关键场景集的步骤包括：

将所述当前关键镜头集作为关键场景集。

6.根据权利要求5所述的视频关键场景提取方法，其特征在于，获取所述第一复合相似度的步骤包括：

获取所述第二复合相似度的步骤包括：

7.根据权利要求1所述的视频关键场景提取方法，其特征在于，根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景的步骤包括：

8.根据权利要求4所述的视频关键场景提取方法，其特征在于，根据所述关键场景集的情感丰富度和高级能量特征值求出所述视频关键场景的步骤包括：

9.根据权利要求8所述的视频关键场景提取方法，其特征在于，所述情感矩阵为：

所述利用场景-情感关系模型获取情感矩阵的步骤如下：

10.根据权利要求9所述的视频关键场景提取方法，其特征在于，所述对所述情感矩阵进行PCA分解获取情感权重值的步骤包括：

(2)求出M'_(i，3×3)协方差矩阵

(4)求出最大特征值所对应的特征向量向量并计算输出向量

(5)场景i在情感空间的情感权重值w_ij定义为：

其中，利用上式求取所述情感权重值；

11.一种视频关键场景提取装置，其特征在于，包括：

接收单元，用于接收视频流信息；

12.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。