CN112487241A

CN112487241A - 一种基于卷积神经网络的视频摘要方法

Info

Publication number: CN112487241A
Application number: CN202011354797.7A
Authority: CN
Inventors: 刘杰; 陈祥迪; 张万松; 印桂生
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-12

Abstract

本发明公开了一种基于卷积神经网络的视频摘要方法，涉及互联网技术领域，具体为一种基于卷积神经网络的视频摘要方法，包括以下步骤：S1、视频镜头分割；S2、深度特征提取、图像记忆强度预测和图像熵计算步骤；S3、基于多特征提取关键帧形成视频摘要。该基于卷积神经网络的视频摘要方法将新兴的视频镜头边界检测模型与关键帧提取结合，视频镜头边界的检测对视频摘要来说是至关重要的一步，运用TransNet网络分割镜头准确性更高，有助于下一步的关键帧提取，以及通过微调Inception‑ResNet‑V2网络架构来获得视频帧的深度特征，Inception‑ResNet‑V2网络在提取深度特征方面有显著的效果。

Description

一种基于卷积神经网络的视频摘要方法

技术领域

本发明涉及互联网技术领域，具体为一种基于卷积神经网络的视频摘要方法。

背景技术

随着社会科技的发展进步，智能电话和摄像工具越来越多样化，这导致了网络上人们拍摄的短片呈爆炸式增长，视频网站每天上传的视频数量巨大。除了在视频网络或软件中上传的视频文件，人们在日常生活和网络聊天中也涉及了大量的视频数据。在互联网高速发展的时代，人们可以检索和查看各种视频，但这也带来了很多问题，一方面，大量视频的堆积导致人们无法快速的找到自己想要的视频，而视频中的重复场景也会浪费人们的时间和精力；另一方面，爆炸式增长的视频数据也为存储带来了巨大的压力，为了解决这些问题，视频摘要应运而生。

在将视频分割成短镜头之后，运用不同的关键帧提取方法也会产生不同效果的视频摘要，利用不同的方法基于数据聚类、曲线规划和机器学习技术进行关键帧的提取技术。

本发明提出的基于卷积神经网络的视频摘要模型主要针对之前提出的预测模型中存在的关键帧提取不完整或不准确的问题而提出的。

发明内容

针对现有技术的不足，本发明提供了一种基于卷积神经网络的视频摘要方法，解决了上述背景技术中提出在互联网高速发展的时代，人们可以检索和查看各种视频，但这也带来了很多问题，一方面，大量视频的堆积导致人们无法快速的找到自己想要的视频，而视频中的重复场景也会浪费人们的时间和精力；另一方面，爆炸式增长的视频数据也为存储带来了巨大的压力的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于卷积神经网络的视频摘要方法，包括以下步骤：

S1、视频镜头分割；

S2、深度特征提取、图像记忆强度预测和图像熵计算步骤；

S3、基于多特征提取关键帧形成视频摘要。

可选的，具体包括以下步骤：

S1、视频镜头分割：通过视频镜头边界检测技术来检测镜头边界，利用镜头边界来分割镜头；

S2、深度特征提取、图像记忆强度预测和图像熵计算步骤：由于深度特征在解决图像以及视频方面的问题时显著的效果，选择视频帧的深度特征作为选择关键帧的特征之一，以及通过图像记忆强度在视频摘要模型上的显著表现，采用图像记忆强度作为提取关键帧的特征之一，其中，深度特征是提取视频帧深层的特征，图像记忆是预测了图像能够被人们记住的程度，但这两个特征并不能描述出视频中那一帧包含的信息最多，为了防止遗漏视频中的重要信息，加入了图像熵的特征；

S3、基于多特征提取关键帧形成视频摘要：将步骤步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中，提取的视频帧特征通过卷积神经网络进行融合得到视频中每一帧的分值，通过视频帧分值选择出每个镜头中的关键帧来组成视频摘要。

可选的，所述步骤S1、视频镜头分割中，主要采用了TransNet网络来预测每个视频帧是镜头边界的可能性，将原始视频输入的TransNet网络得到每一帧的预测分数，通过分数分布来分割镜头。

可选的，所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中，运用Inception-ResNet-V2网络提取了深度特征，运用Memnet网络获得图像记忆分数，运用图像熵公式计算视频帧的图像熵，通过这一模块获得三个视频帧特征。

可选的，所述步骤S1、视频镜头分割中，需要对原始视频进行视频镜头边界检测，并通过检测的边界将原始视频划分为若干个短镜头，本发明采用的方法的是TransNet网络，该网络以原始视频(N个连续的视频帧序列)作为输入，应用了3D卷积对输入的每一个视频帧返回一个预测值，该预测值表示的是每一个视频帧是镜头边界的过渡帧的可能性。通过每个视频的预测分数将视频划分为短镜头。

可选的，所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中，需要预测每一个视频帧的根据深度特征得到的重要性得分、图像记忆强度和图像熵；其中，视频帧的重要性得分是通过微调Inception-Resnet-V2网络得到的，Inception-Resnet-V2网络通过复杂的深层结构提取图像的深度特征，利用这些深度特征更加准确的将图像分为了1000类，以及利用Inception-Resnet-V2网络提取每个视频帧的深度特征，并将它映射为重要性得分，对网络进行了微调，将网络中的softmax层替换为MLP模块(包括全连接层)，将视频帧的深度特征映射为0到1的分数，在数据集上微调网络进行再次训练已达到更好地效果，以及图像记忆强度是通过Memnet网络得到了视频帧的记忆预测分数；图像熵通过公式计算得到的，具体公式如下，

其中，N表示的是所计算视频帧的灰度级(255)，p_ij表示的是所计算视频帧中某点的灰度值和该点附近的像素分布特点，f(i，j)表示的是视频帧中(i，j)位置上的像素在整个视频帧中出现的频率，M表示所计算视频帧的维度。

可选的，所述步骤S3、基于多特征提取关键帧形成视频摘要中，采用了神经网络的方式分配三种特征的权值，通过训练网络结构来分配三个特征的权重，最后，通过每一个视频帧的分值来生成视频摘要。

本发明提供了一种基于卷积神经网络的视频摘要方法，具备以下有益效果：将新兴的视频镜头边界检测模型与关键帧提取结合，视频镜头边界的检测对视频摘要来说是至关重要的一步，运用TransNet网络分割镜头准确性更高，有助于下一步的关键帧提取，以及通过微调Inception-ResNet-V2网络架构来获得视频帧的深度特征，Inception-ResNet-V2网络在提取深度特征方面有显著的效果；本发明中提出的模型中将深度特征、图像记忆力强度和图像熵进行了融合，在以往的视频摘要模型研究中没有融合过深度特征和图片记忆力，多特征的融合能够提高关键帧预测的准确性。

附图说明

图1为本发明TransNet网络视频镜头边界检测网络架构，通过该网路架构得到原始视频的边界预测分数的示意图；

图2为本发明微调之后的Inception-Resnet-V2网络模型架构图，通过该网络得到每一个视频帧的重要性得分的示意图；

图3为本发明MemNet网络架构图，通过该网络架构得到每一个视频帧的图像记忆强度的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1至图3，本发明提供一种技术方案：一种基于卷积神经网络的视频摘要方法，包括以下步骤：

S1、视频镜头分割；

S2、深度特征提取、图像记忆强度预测和图像熵计算步骤；

S3、基于多特征提取关键帧形成视频摘要。

发明中：具体包括以下步骤：

发明中：所述步骤S1、视频镜头分割中，主要采用了TransNet网络来预测每个视频帧是镜头边界的可能性，将原始视频输入的TransNet网络得到每一帧的预测分数，通过分数分布来分割镜头。

发明中：所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中，运用Inception-ResNet-V2网络提取了深度特征，运用Memnet网络获得图像记忆分数，运用图像熵公式计算视频帧的图像熵，通过这一模块获得三个视频帧特征。

发明中：所述步骤S1、视频镜头分割中，需要对原始视频进行视频镜头边界检测，并通过检测的边界将原始视频划分为若干个短镜头，本发明采用的方法的是TransNet网络，该网络以原始视频(N个连续的视频帧序列)作为输入，应用了3D卷积对输入的每一个视频帧返回一个预测值，该预测值表示的是每一个视频帧是镜头边界的过渡帧的可能性。通过每个视频的预测分数将视频划分为短镜头。

发明中：所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中，需要预测每一个视频帧的根据深度特征得到的重要性得分、图像记忆强度和图像熵；其中，视频帧的重要性得分是通过微调Inception-Resnet-V2网络得到的，Inception-Resnet-V2网络通过复杂的深层结构提取图像的深度特征，利用这些深度特征更加准确的将图像分为了1000类，以及利用Inception-Resnet-V2网络提取每个视频帧的深度特征，并将它映射为重要性得分，对网络进行了微调，将网络中的softmax层替换为MLP模块(包括全连接层)，将视频帧的深度特征映射为0到1的分数，在数据集上微调网络进行再次训练已达到更好地效果，以及图像记忆强度是通过Memnet网络得到了视频帧的记忆预测分数；图像熵通过公式计算得到的，具体公式如下，

发明中：所述步骤S3、基于多特征提取关键帧形成视频摘要中，采用了神经网络的方式分配三种特征的权值，通过训练网络结构来分配三个特征的权重，最后，通过每一个视频帧的分值来生成视频摘要。

本发明的完整的算法如下所示：

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的视频摘要方法，其特征在于，包括以下步骤：

S1、视频镜头分割；

S2、深度特征提取、图像记忆强度预测和图像熵计算步骤；

S3、基于多特征提取关键帧形成视频摘要。

2.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法，其特征在于：所述具体包括以下步骤：

3.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法，其特征在于：所述步骤S1、视频镜头分割中，主要采用了TransNet网络来预测每个视频帧是镜头边界的可能性，将原始视频输入的TransNet网络得到每一帧的预测分数，通过分数分布来分割镜头。

4.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法，其特征在于：所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中，运用Inception-ResNet-V2网络提取了深度特征，运用Memnet网络获得图像记忆分数，运用图像熵公式计算视频帧的图像熵，通过这一模块获得三个视频帧特征。

5.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法，其特征在于：所述步骤S1、视频镜头分割中，需要对原始视频进行视频镜头边界检测，并通过检测的边界将原始视频划分为若干个短镜头，本发明采用的方法的是TransNet网络，该网络以原始视频(N个连续的视频帧序列)作为输入，应用了3D卷积对输入的每一个视频帧返回一个预测值，该预测值表示的是每一个视频帧是镜头边界的过渡帧的可能性。通过每个视频的预测分数将视频划分为短镜头。

6.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法，其特征在于：所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中，需要预测每一个视频帧的根据深度特征得到的重要性得分、图像记忆强度和图像熵；其中，视频帧的重要性得分是通过微调Inception-Resnet-V2网络得到的，Inception-Resnet-V2网络通过复杂的深层结构提取图像的深度特征，利用这些深度特征更加准确的将图像分为了1000类，以及利用Inception-Resnet-V2网络提取每个视频帧的深度特征，并将它映射为重要性得分，对网络进行了微调，将网络中的softmax层替换为MLP模块(包括全连接层)，将视频帧的深度特征映射为0到1的分数，在数据集上微调网络进行再次训练已达到更好地效果，以及图像记忆强度是通过Memnet网络得到了视频帧的记忆预测分数；图像熵通过公式计算得到的，具体公式如下，

7.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法，其特征在于：所述步骤S3、基于多特征提取关键帧形成视频摘要中，采用了神经网络的方式分配三种特征的权值，通过训练网络结构来分配三个特征的权重，最后，通过每一个视频帧的分值来生成视频摘要。