CN109977738B

CN109977738B - 一种视频场景分割判断方法、智能终端及存储介质

Info

Publication number: CN109977738B
Application number: CN201711466018.0A
Authority: CN
Inventors: 陈铭良; 吴佳飞; 赖长明; 徐永泽; 杨福军
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2023-07-25
Anticipated expiration: 2037-12-28
Also published as: CN109977738A

Abstract

本发明公开了一种视频场景分割判断方法、智能终端及存储介质，所述视频场景分割判断包括：采用深度学习网络对两个图像从多个维度进行特征提取；将提取到的所述特征进行级联，拼接形成一个固定长度的深度级联特征向量；判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断。本发明通过有效的视频切换检测算法和级联特征提取模型，采用深度学习网络来对图像从不同维度进行特征提取，最后将这些特征级联起来，形成一个固定长度的深度级联特征向量，衡量此特征向量的相似性来判断是否进行了视频分割，在电视机等产品上使用时，提升电视机的视频播放效果。

Description

一种视频场景分割判断方法、智能终端及存储介质

技术领域

本发明涉及视频图像分析技术领域，尤其涉及一种视频场景分割判断方法、智能终端及存储介质。

背景技术

随着多媒体压缩、通讯、存储技术的飞速发展，以及互联网软硬件技术的不断提高和普及，使得数字视频的应用得到了极大的发展；面对日益增多的海量视频数据，如何实现对其有效的管理与检索，已成为亟待解决的问题；当前解决这个问题最主要的技术就是视频摘要和视频检索，而这两大技术的一个关键性的基础步骤就是视频结构分割。如果把一个完整视频分解为一系列有意义可管理的片段对高层的视频摘要和视频检索相当重要，由于一个视频场景一般都认为是一个有意义的视频段，因此视频场景分割判断是当前研究的热点问题，对于视频摘要与视频检索极其重要。

视频场景变换检测是视频自动分段的基础技术，许多场景相关的视频应用如视频摘要和自动色彩调节都依赖于有效的场景检测算法，许多目前有效的算法利用单个有效的低级特征进行检测，如色彩直方图或者边缘检测算子，这些单一的低级特征虽然速度很快，但是检测结果往往具有很大的局限性，需要人手设定合适阈值进行分类，使得结果引入大量错误的过多分割，或者漏检导致不同场景没有正确分割开来。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术中传统算法提取的单一和低级的特征来判断场景是否切换不准确的问题的技术问题，本发明提供了一种视频场景分割判断方法、智能终端及存储介质，旨在通过有效的视频切换检测算法和级联特征提取模型，克服传统算法提取的单一和低级的特征来判断场景是否切换不准确的问题，借鉴于目前深度学习网络对图像特征提取的有效性，采用深度学习网络来对图像从不同维度进行特征提取，最后将这些特征级联起来，形成一个固定长度的深度级联特征向量，衡量此特征向量的相似性来判断是否进行了视频分割，在电视机等产品上使用时，提升电视机的视频播放效果。

本发明解决技术问题所采用的技术方案如下：

一种视频场景分割判断方法，其中，所述方法包括：

采用深度学习网络对两个图像从多个维度进行特征提取；

将提取到的所述特征进行级联，拼接形成一个固定长度的深度级联特征向量；

判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断。

所述的视频场景分割判断方法，其中，所述采用深度学习网络对两个图像从多个维度进行特征提取具体包括：

对于两个图像中的任意一图像，通过所述图像的灰度图获取灰度统计直方图；

通过边缘检测算子获取所述图像的边缘信息图；

根据原图像、边缘信息图和灰度统计直方图，采用一个卷积神经网络提取深度特征，输出4096维、2048维和1024维的特征向量。

所述的视频场景分割判断方法，其中，所述将提取到的所述特征进行级联，拼接形成一个固定长度的深度级联特征向量具体包括：

将提取到的4096维、2048维和1024维的三组级联的特征向量进行拼接，输出一个7168维的特征向量；

所述7168维的特征向量为一个固定长度的深度级联特征向量。

所述的视频场景分割判断方法，其中，所述判断所述深度级联特征向量的相似性，根据相似性的结果进行视频分割具体包括：

当得到两个图像的7168维的特征向量后，将两个图像的7168维的特征向量进行拼接；

当拼接完成后，全卷积输出最后的2048维的特征向量，通过分类器进行二分类判断两个图像的相似性；

当结果为1时则两个图像为同一个场景，否则结果为0时则判断出现视频场景分割判断。

所述的视频场景分割判断方法，其中，通过卷积神经网络根据原图像、边缘信息图和灰度统计直方图提取特征向量前，预先完成卷积神经网络训练，所述训练包括：

单独训练阶段，将三个卷积神经网络完全拆开独立训练提取特征，第一组训练采用原图用第一训练模型提取特征，第二组训练用边缘信息图和第二训练模型提取特征，第三组训练用灰度统计直方图和第三训练模型提取特征，三种训练提取出来的特征分别通过自连接，和另一图像提取的特征连接，全卷积和分类器进行分类，训练出稳定的第一训练模型、第二训练模型和第三训练模型的参数来对特征进行提取；

两两配对训练阶段，将三个卷积神经网络两两配对训练提取特征，在单独训练阶段得到的参数上进一步调整，控制结合两个训练模型提取的特征互相配合；

完整训练阶段，在默认训练模型的参数稳定的基础上进行，将训练模型的学习率调整到最小值，训练目标为全卷积层的参数，两个图像的三组特征向量拼接后全卷积输出2048维度的向量，以及最后分类器分成两类的参数；

通过三个阶段进行训练，得到稳定的深度级联特征提取模型和基于深度级联特征来判断场景分割的分类器。

一种智能终端，包括处理器，以及与所述处理器连接的存储器，所述存储器存储有视频场景分割判断程序，所述视频场景分割判断程序被所述处理器执行用于实现以下步骤：

采用深度学习网络对两个图像从多个维度进行特征提取；

所述的智能终端，其中，所述视频场景分割判断程序被所述处理器执行还用于实现以下步骤：

通过边缘检测算子获取所述图像的边缘信息图；

所述7168维的特征向量为一个固定长度的深度级联特征向量。

一种存储介质，其中，所述存储介质存储有视频场景分割判断程序，所述视频场景分割判断程序被处理器执行时实现权利要求1-5任一项所述的视频场景分割判断方法。

本发明公开了一种视频场景分割判断方法、智能终端及存储介质，所述视频场景分割判断方法包括：采用深度学习网络对两个图像从多个维度进行特征提取；将提取到的所述特征进行级联，拼接形成一个固定长度的深度级联特征向量；判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断。本发明通过有效的视频切换检测算法和级联特征提取模型，克服传统算法提取的单一和低级的特征来判断场景是否切换不准确的问题，借鉴于目前深度学习网络对图像特征提取的有效性，采用深度学习网络来对图像从不同维度进行特征提取，最后将这些特征级联起来，形成一个固定长度的深度级联特征向量，衡量此特征向量的相似性来判断是否进行了视频分割，在电视机等产品上使用时，提升电视机的视频播放效果。

附图说明

图1是本发明视频场景分割判断方法的较佳实施例的流程图。

图2是本发明视频场景分割判断方法的神经网络结构示意图。

图3是本发明智能终端功能原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

本发明较佳实施例所述的一种视频场景分割判断方法，如图1所示，所述方法包括：

S100，采用深度学习网络对两个图像从多个维度进行特征提取。

在本发明实施例中，所述深度学习网络为卷积神经网络，所述多个维度分别为原图、边缘信息图、灰度统计直方图，对于每帧图像，分别同原图、边缘信息图、灰度统计直方图采用不同的训练模型进行特征提取，并分别得到两个图像的第一特征向量、第二特征向量和第三特征向量。

以所述深度学习网络为卷积神经网络为例，在视频播放的时候，从播放的视频内获取两帧图像，并对图像进行处理后，得到每帧图像的边缘信息图及灰度统计直方图，随后，采用第一训练模型（CNN Model1）对原图进行特征提取，得到第一特征向量，采用第二训练模型（CNN Model2）对边缘信息图进行特征提取，得到第二特征向量，采用第三训练模型（CNN Model3）对灰度统计直方图进行特征提取，得到第三特征向量。依次对两帧图像进行提取后，得到两帧图像的第一特征向量、第二特征向量和第三特征向量。在本发明实施例中，获取图像后，对图像的处理具体可以为：

S101，对于两个图像中的任意一图像，通过所述图像的灰度图获取灰度统计直方图；

S102，通过边缘检测算子获取所述图像的边缘信息图。

所述第一特征向量、第二特征向量及第三特征向量相互级联，在一些具体的实施方式中，所述第一特征向量为4096维的特征向量，所述第二特征向量为2048维的特征向量，所述第三特征向量为1024维的特征向量。

S200，将提取到的所述特征进行级联，拼接形成一个固定长度的深度级联特征向量；

进一步地，分别对两帧图像进行特征提取，得到两帧图像的第一特征向量、第二特征向量和第三特征向量后，分别根据两帧图像的第一特征向量、第二特征向量和第三特征向量得到第一图像特征向量和第二图像特征向量。

在一些具体的实施方式中，所述根据两帧图像的第一特征向量、第二特征向量和第三特征向量得到第一图像特征向量和第二图像特征向量具体包括：

分别将两帧图像的第一特征向量、第二特征向量和第三特征向量进行拼接，得到第一图像特征向量和第二图像特征向量。

所述第一图像特征向量和第二图像特征向量为固定长度的深度级联特征向量，在本发明实施方式中，所述第一图像特征向量和第二图像特征向量均为7168维的特征向量。

S300，判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断。

进一步地，得到其中一个图像的第一图像特征向量和另一图像的第二图像特征向量后，将第一图像特征向量和第二图像特征向量进行相似度比较，根据相似度的比较结果，判断是否出现视频场景分割判断。

在本发明实施例中，所述判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断具体包括：

将第一图像特征向量和第二图像特征向量进行拼接；

拼接完成后，全卷积输出得到判断向量；

根据判断向量判断是否出现视频场景分割判断。

第一图像特征向量和第二图像特征向量拼接后，进行全卷积输出得到一个2048维的判断向量，将所述判断向量进行特定处理后，即可判断是否出现视频场景分割判断。

所述根据判断向量判断是否出现视频场景分割判断具体包括：

将所述判断向量输入到分类器；

根据分类器的输出结果确定是否出现视频场景分割判断。

在本发明实施例中，所述分类器为softmax分类器（Softmax，是logistic回归模型在多分类问题上的推广，可用来解决多分类问题；传统的Softmax层包括输入值以及输出值，这些值的数值类型一般是确定的浮点数，现实生活中存在很多并不能被准确数值描述的数据，同时某些精确数值也不可能被机器精确地表述，因此衍生出来区间算法来处理这类数据，为了使这类数据也能够利用神经网络技术解决问题，本发明提供一种相应技术，来弥补神经网络无法处理区间数据的不足），将判断向量输入到softmax分类器进行而分类，将会得到0或1的输出结果，当输出结果为0时，说明两帧图像不处于同一场景，即出现了视频分割；当输出结果为1时，说明两帧图像处于同一场景，未出现视频分割。

在本发明实施例中，在步骤S100之前，还需要对深度学习网络进行训练，所述训练包括：

单独训练阶段，将三个卷积神经网络完全拆开独立训练提取特征，第一组训练采用原图用第一训练模型（第一训练模型，CNN Model1）提取特征，第二组训练用边缘信息图和第二训练模型（第二训练模型，CNN Model2）提取特征，第三组训练用灰度统计直方图和第三训练模型（第三训练模型，CNN Model3）提取特征，三种训练提取出来的特征分别通过自连接，和另一图像提取的特征连接，全卷积和分类器进行分类，训练出稳定的第一训练模型、第二训练模型和第三训练模型的参数来对特征进行提取；

另外，本发明对神经网络的训练并非采用传统的同时级联训练三个神经网络对三种特征图分别进行特征提取，而是分三个阶段对神经网络提取特征进行训练，客服了传统训练难度大且容易出现过拟合的问题。

这样，通过有效的视频切换检测算法和级联特征提取模型，克服传统算法提取的单一和低级的特征来判断场景是否切换不准确的问题。

当然，将本发明技术方案应用到智能电视等智能终端产品上时，可以针对不同电视场景，自适应调节其颜色显示，提高视频播放效果和观看效果。

在本发明实施例中，采用视频场景切换检测专用芯片进行有效视频切换检测算法，精确提取，降低误差及其他因素影响，提升视频播放效果和观看效果。

为了更好地理解本发明技术方案，用一具体实施例说明上述步骤S100至步骤S300，如图2所示：

图2中，1、2为从视频播放中获取的两帧图像，即原图，3、4为对1、2分别通过边缘检测算子得到的边缘信息图，5、6为对1、2分别经过灰度转化后的灰度图得到的灰度统计直方图，1，3，5为第一组，2，4，6为第二组，以第一组训练为例（第二组采用同样方式），首先将三个卷积神经网络完全拆开独立训练提取三个维度的特征：对1用第一训练模型（第一训练模型，CNN Model1）提取特征，全卷积输出一个4096维的特征向量；对3用第二训练模型（第二训练模型，CNN Model2）提取特征，全卷积输出一个2048维的特征向量；对5用第三训练模型（第三训练模型，CNN Model3）提取特征，全卷积输出一个1024维的特征向量；其次将图像处理后得到的三个特征向量级联拼接，即三个特征向量拼接相加得到一个7168维的特征向量；最后将两帧图像处理分别得到的两个7168维的特征向量进行全卷积，即拼接相加取平均合成一个2048维的特征向量，通过softmax分类器进行二分类来判断是否出现场景分割，当结果为1时则为同一个场景，0时则为出现场景分割。

由上所述，采用多个卷积神经网络从不同维度对一帧图像蕴含的信息进行了特征提取的方式是一种全新的深度级联特征方式，同时通过拼接两个特征向量做分类的方式来度量两帧图像的相似性，这种新的方式能更好的判断视频场景是否存在切换，实现了判断准确、快速分割。

实施例二

本发明还提供一种智能终端，如图3所示，包括处理器10，以及与所述处理器10连接的存储器20，所述存储器20存储有视频场景分割判断程序，所述视频场景分割判断程序被所述处理器10执行用于实现以下步骤：

采用深度学习网络对两个图像从多个维度进行特征提取；

判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断；具体如上所述。

所述的智能终端，其中，所述视频场景分割判断程序被所述处理器10执行还用于实现以下步骤：

通过边缘检测算子获取所述图像的边缘信息图；

根据原图像、边缘信息图和灰度统计直方图，采用一个卷积神经网络提取深度特征，输出4096维、2048维和1024维的特征向量；具体如上所述。

所述7168维的特征向量为一个固定长度的深度级联特征向量；具体如上所述。

当结果为1时则两个图像为同一个场景，否则结果为0时则判断出现视频场景分割判断；具体如上所述。

实施例三

本发明还提供一种存储介质，所述存储介质存储有视频场景分割判断程序，所述视频场景分割判断程序被处理器10执行时用于实现所述的视频场景分割判断方法。

综上所述，本发明提供一种视频场景分割判断方法、智能终端及存储介质，所述视频场景分割判断方法包括：采用深度学习网络对两个图像从多个维度进行特征提取；将提取到的所述特征进行级联，拼接形成一个固定长度的深度级联特征向量；判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断。本发明通过有效的视频切换检测算法和级联特征提取模型，克服传统算法提取的单一和低级的特征来判断场景是否切换不准确的问题，借鉴于目前深度学习网络对图像特征提取的有效性，采用深度学习网络来对图像从不同维度进行特征提取，最后将这些特征级联起来，形成一个固定长度的深度级联特征向量，衡量此特征向量的相似性来判断是否进行了视频分割，在电视机等产品上使用时，提升电视机的视频播放效果。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种视频场景分割判断方法，其特征在于，所述视频场景分割判断方法包括：

采用深度学习网络对两个图像从多个维度进行特征提取；

判断所述深度级联特征向量的相似性，根据相似性的结果判断是否出现视频场景分割判断；

所述采用深度学习网络对两个图像从多个维度进行特征提取具体包括：

通过边缘检测算子获取所述图像的边缘信息图；

根据原图像、边缘信息图和灰度统计直方图，采用三个卷积神经网络提取深度特征，输出4096维、2048维和1024维的特征向量；

通过卷积神经网络根据原图像、边缘信息图和灰度统计直方图提取特征向量前，预先完成卷积神经网络训练，所述训练包括：

两两配对训练阶段，将三个卷积神经网络两两配对训练提取特征，在单独训练阶段得到的参数上进一步调整，控制结合两个训练模型提取的特征互相级联拼接；

2.根据权利要求1所述的视频场景分割判断方法，其特征在于，所述将提取到的所述特征进行级联，拼接形成一个固定长度的深度级联特征向量具体包括：

所述7168维的特征向量为一个固定长度的深度级联特征向量。

3.根据权利要求2所述的视频场景分割判断方法，其特征在于，所述判断所述深度级联特征向量的相似性，根据相似性的结果进行视频分割具体包括：

4.一种智能终端，其特征在于，包括处理器，以及与所述处理器连接的存储器，所述存储器存储有视频场景分割判断程序，所述视频场景分割判断程序被所述处理器执行用于实现以下步骤：

采用深度学习网络对两个图像从多个维度进行特征提取；

通过边缘检测算子获取所述图像的边缘信息图；

通过三个阶段进行训练，得到稳定的深度级联特征提取模型和基于深度级联特征来判断场景分割的分类器，克服传统训练难度大且容易出现过拟合的问题。

5.根据权利要求4所述的智能终端，其特征在于，所述视频场景分割判断程序被所述处理器执行还用于实现以下步骤：

所述7168维的特征向量为一个固定长度的深度级联特征向量。

6.根据权利要求5所述的智能终端，其特征在于，所述视频场景分割判断程序被所述处理器执行还用于实现以下步骤：

7.一种存储介质，其特征在于，所述存储介质存储有视频场景分割判断程序，所述视频场景分割判断程序被处理器执行时实现权利要求1-3任一项所述的视频场景分割判断方法。