CN112487241A - 一种基于卷积神经网络的视频摘要方法 - Google Patents

一种基于卷积神经网络的视频摘要方法 Download PDF

Info

Publication number
CN112487241A
CN112487241A CN202011354797.7A CN202011354797A CN112487241A CN 112487241 A CN112487241 A CN 112487241A CN 202011354797 A CN202011354797 A CN 202011354797A CN 112487241 A CN112487241 A CN 112487241A
Authority
CN
China
Prior art keywords
video
network
features
depth
shot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011354797.7A
Other languages
English (en)
Inventor
刘杰
陈祥迪
张万松
印桂生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202011354797.7A priority Critical patent/CN112487241A/zh
Publication of CN112487241A publication Critical patent/CN112487241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种基于卷积神经网络的视频摘要方法,涉及互联网技术领域,具体为一种基于卷积神经网络的视频摘要方法,包括以下步骤:S1、视频镜头分割;S2、深度特征提取、图像记忆强度预测和图像熵计算步骤;S3、基于多特征提取关键帧形成视频摘要。该基于卷积神经网络的视频摘要方法将新兴的视频镜头边界检测模型与关键帧提取结合,视频镜头边界的检测对视频摘要来说是至关重要的一步,运用TransNet网络分割镜头准确性更高,有助于下一步的关键帧提取,以及通过微调Inception‑ResNet‑V2网络架构来获得视频帧的深度特征,Inception‑ResNet‑V2网络在提取深度特征方面有显著的效果。

Description

一种基于卷积神经网络的视频摘要方法
技术领域
本发明涉及互联网技术领域,具体为一种基于卷积神经网络的视频摘要方法。
背景技术
随着社会科技的发展进步,智能电话和摄像工具越来越多样化,这导致了网络上人们拍摄的短片呈爆炸式增长,视频网站每天上传的视频数量巨大。除了在视频网络或软件中上传的视频文件,人们在日常生活和网络聊天中也涉及了大量的视频数据。在互联网高速发展的时代,人们可以检索和查看各种视频,但这也带来了很多问题,一方面,大量视频的堆积导致人们无法快速的找到自己想要的视频,而视频中的重复场景也会浪费人们的时间和精力;另一方面,爆炸式增长的视频数据也为存储带来了巨大的压力,为了解决这些问题,视频摘要应运而生。
在将视频分割成短镜头之后,运用不同的关键帧提取方法也会产生不同效果的视频摘要,利用不同的方法基于数据聚类、曲线规划和机器学习技术进行关键帧的提取技术。
本发明提出的基于卷积神经网络的视频摘要模型主要针对之前提出的预测模型中存在的关键帧提取不完整或不准确的问题而提出的。
发明内容
针对现有技术的不足,本发明提供了一种基于卷积神经网络的视频摘要方法,解决了上述背景技术中提出在互联网高速发展的时代,人们可以检索和查看各种视频,但这也带来了很多问题,一方面,大量视频的堆积导致人们无法快速的找到自己想要的视频,而视频中的重复场景也会浪费人们的时间和精力;另一方面,爆炸式增长的视频数据也为存储带来了巨大的压力的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于卷积神经网络的视频摘要方法,包括以下步骤:
S1、视频镜头分割;
S2、深度特征提取、图像记忆强度预测和图像熵计算步骤;
S3、基于多特征提取关键帧形成视频摘要。
可选的,具体包括以下步骤:
S1、视频镜头分割:通过视频镜头边界检测技术来检测镜头边界,利用镜头边界来分割镜头;
S2、深度特征提取、图像记忆强度预测和图像熵计算步骤:由于深度特征在解决图像以及视频方面的问题时显著的效果,选择视频帧的深度特征作为选择关键帧的特征之一,以及通过图像记忆强度在视频摘要模型上的显著表现,采用图像记忆强度作为提取关键帧的特征之一,其中,深度特征是提取视频帧深层的特征,图像记忆是预测了图像能够被人们记住的程度,但这两个特征并不能描述出视频中那一帧包含的信息最多,为了防止遗漏视频中的重要信息,加入了图像熵的特征;
S3、基于多特征提取关键帧形成视频摘要:将步骤步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,提取的视频帧特征通过卷积神经网络进行融合得到视频中每一帧的分值,通过视频帧分值选择出每个镜头中的关键帧来组成视频摘要。
可选的,所述步骤S1、视频镜头分割中,主要采用了TransNet网络来预测每个视频帧是镜头边界的可能性,将原始视频输入的TransNet网络得到每一帧的预测分数,通过分数分布来分割镜头。
可选的,所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,运用Inception-ResNet-V2网络提取了深度特征,运用Memnet网络获得图像记忆分数,运用图像熵公式计算视频帧的图像熵,通过这一模块获得三个视频帧特征。
可选的,所述步骤S1、视频镜头分割中,需要对原始视频进行视频镜头边界检测,并通过检测的边界将原始视频划分为若干个短镜头,本发明采用的方法的是TransNet网络,该网络以原始视频(N个连续的视频帧序列)作为输入,应用了3D卷积对输入的每一个视频帧返回一个预测值,该预测值表示的是每一个视频帧是镜头边界的过渡帧的可能性。通过每个视频的预测分数将视频划分为短镜头。
可选的,所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,需要预测每一个视频帧的根据深度特征得到的重要性得分、图像记忆强度和图像熵;其中,视频帧的重要性得分是通过微调Inception-Resnet-V2网络得到的,Inception-Resnet-V2网络通过复杂的深层结构提取图像的深度特征,利用这些深度特征更加准确的将图像分为了1000类,以及利用Inception-Resnet-V2网络提取每个视频帧的深度特征,并将它映射为重要性得分,对网络进行了微调,将网络中的softmax层替换为MLP模块(包括全连接层),将视频帧的深度特征映射为0到1的分数,在数据集上微调网络进行再次训练已达到更好地效果,以及图像记忆强度是通过Memnet网络得到了视频帧的记忆预测分数;图像熵通过公式计算得到的,具体公式如下,
Figure BDA0002802265300000031
Figure BDA0002802265300000032
其中,N表示的是所计算视频帧的灰度级(255),pij表示的是所计算视频帧中某点的灰度值和该点附近的像素分布特点,f(i,j)表示的是视频帧中(i,j)位置上的像素在整个视频帧中出现的频率,M表示所计算视频帧的维度。
可选的,所述步骤S3、基于多特征提取关键帧形成视频摘要中,采用了神经网络的方式分配三种特征的权值,通过训练网络结构来分配三个特征的权重,最后,通过每一个视频帧的分值来生成视频摘要。
本发明提供了一种基于卷积神经网络的视频摘要方法,具备以下有益效果:将新兴的视频镜头边界检测模型与关键帧提取结合,视频镜头边界的检测对视频摘要来说是至关重要的一步,运用TransNet网络分割镜头准确性更高,有助于下一步的关键帧提取,以及通过微调Inception-ResNet-V2网络架构来获得视频帧的深度特征,Inception-ResNet-V2网络在提取深度特征方面有显著的效果;本发明中提出的模型中将深度特征、图像记忆力强度和图像熵进行了融合,在以往的视频摘要模型研究中没有融合过深度特征和图片记忆力,多特征的融合能够提高关键帧预测的准确性。
附图说明
图1为本发明TransNet网络视频镜头边界检测网络架构,通过该网路架构得到原始视频的边界预测分数的示意图;
图2为本发明微调之后的Inception-Resnet-V2网络模型架构图,通过该网络得到每一个视频帧的重要性得分的示意图;
图3为本发明MemNet网络架构图,通过该网络架构得到每一个视频帧的图像记忆强度的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1至图3,本发明提供一种技术方案:一种基于卷积神经网络的视频摘要方法,包括以下步骤:
S1、视频镜头分割;
S2、深度特征提取、图像记忆强度预测和图像熵计算步骤;
S3、基于多特征提取关键帧形成视频摘要。
发明中:具体包括以下步骤:
S1、视频镜头分割:通过视频镜头边界检测技术来检测镜头边界,利用镜头边界来分割镜头;
S2、深度特征提取、图像记忆强度预测和图像熵计算步骤:由于深度特征在解决图像以及视频方面的问题时显著的效果,选择视频帧的深度特征作为选择关键帧的特征之一,以及通过图像记忆强度在视频摘要模型上的显著表现,采用图像记忆强度作为提取关键帧的特征之一,其中,深度特征是提取视频帧深层的特征,图像记忆是预测了图像能够被人们记住的程度,但这两个特征并不能描述出视频中那一帧包含的信息最多,为了防止遗漏视频中的重要信息,加入了图像熵的特征;
S3、基于多特征提取关键帧形成视频摘要:将步骤步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,提取的视频帧特征通过卷积神经网络进行融合得到视频中每一帧的分值,通过视频帧分值选择出每个镜头中的关键帧来组成视频摘要。
发明中:所述步骤S1、视频镜头分割中,主要采用了TransNet网络来预测每个视频帧是镜头边界的可能性,将原始视频输入的TransNet网络得到每一帧的预测分数,通过分数分布来分割镜头。
发明中:所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,运用Inception-ResNet-V2网络提取了深度特征,运用Memnet网络获得图像记忆分数,运用图像熵公式计算视频帧的图像熵,通过这一模块获得三个视频帧特征。
发明中:所述步骤S1、视频镜头分割中,需要对原始视频进行视频镜头边界检测,并通过检测的边界将原始视频划分为若干个短镜头,本发明采用的方法的是TransNet网络,该网络以原始视频(N个连续的视频帧序列)作为输入,应用了3D卷积对输入的每一个视频帧返回一个预测值,该预测值表示的是每一个视频帧是镜头边界的过渡帧的可能性。通过每个视频的预测分数将视频划分为短镜头。
发明中:所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,需要预测每一个视频帧的根据深度特征得到的重要性得分、图像记忆强度和图像熵;其中,视频帧的重要性得分是通过微调Inception-Resnet-V2网络得到的,Inception-Resnet-V2网络通过复杂的深层结构提取图像的深度特征,利用这些深度特征更加准确的将图像分为了1000类,以及利用Inception-Resnet-V2网络提取每个视频帧的深度特征,并将它映射为重要性得分,对网络进行了微调,将网络中的softmax层替换为MLP模块(包括全连接层),将视频帧的深度特征映射为0到1的分数,在数据集上微调网络进行再次训练已达到更好地效果,以及图像记忆强度是通过Memnet网络得到了视频帧的记忆预测分数;图像熵通过公式计算得到的,具体公式如下,
Figure BDA0002802265300000061
Figure BDA0002802265300000062
其中,N表示的是所计算视频帧的灰度级(255),pij表示的是所计算视频帧中某点的灰度值和该点附近的像素分布特点,f(i,j)表示的是视频帧中(i,j)位置上的像素在整个视频帧中出现的频率,M表示所计算视频帧的维度。
发明中:所述步骤S3、基于多特征提取关键帧形成视频摘要中,采用了神经网络的方式分配三种特征的权值,通过训练网络结构来分配三个特征的权重,最后,通过每一个视频帧的分值来生成视频摘要。
本发明的完整的算法如下所示:
Figure BDA0002802265300000071
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于卷积神经网络的视频摘要方法,其特征在于,包括以下步骤:
S1、视频镜头分割;
S2、深度特征提取、图像记忆强度预测和图像熵计算步骤;
S3、基于多特征提取关键帧形成视频摘要。
2.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法,其特征在于:所述具体包括以下步骤:
S1、视频镜头分割:通过视频镜头边界检测技术来检测镜头边界,利用镜头边界来分割镜头;
S2、深度特征提取、图像记忆强度预测和图像熵计算步骤:由于深度特征在解决图像以及视频方面的问题时显著的效果,选择视频帧的深度特征作为选择关键帧的特征之一,以及通过图像记忆强度在视频摘要模型上的显著表现,采用图像记忆强度作为提取关键帧的特征之一,其中,深度特征是提取视频帧深层的特征,图像记忆是预测了图像能够被人们记住的程度,但这两个特征并不能描述出视频中那一帧包含的信息最多,为了防止遗漏视频中的重要信息,加入了图像熵的特征;
S3、基于多特征提取关键帧形成视频摘要:将步骤步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,提取的视频帧特征通过卷积神经网络进行融合得到视频中每一帧的分值,通过视频帧分值选择出每个镜头中的关键帧来组成视频摘要。
3.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法,其特征在于:所述步骤S1、视频镜头分割中,主要采用了TransNet网络来预测每个视频帧是镜头边界的可能性,将原始视频输入的TransNet网络得到每一帧的预测分数,通过分数分布来分割镜头。
4.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法,其特征在于:所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,运用Inception-ResNet-V2网络提取了深度特征,运用Memnet网络获得图像记忆分数,运用图像熵公式计算视频帧的图像熵,通过这一模块获得三个视频帧特征。
5.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法,其特征在于:所述步骤S1、视频镜头分割中,需要对原始视频进行视频镜头边界检测,并通过检测的边界将原始视频划分为若干个短镜头,本发明采用的方法的是TransNet网络,该网络以原始视频(N个连续的视频帧序列)作为输入,应用了3D卷积对输入的每一个视频帧返回一个预测值,该预测值表示的是每一个视频帧是镜头边界的过渡帧的可能性。通过每个视频的预测分数将视频划分为短镜头。
6.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法,其特征在于:所述步骤S2、深度特征提取、图像记忆强度预测和图像熵计算步骤中,需要预测每一个视频帧的根据深度特征得到的重要性得分、图像记忆强度和图像熵;其中,视频帧的重要性得分是通过微调Inception-Resnet-V2网络得到的,Inception-Resnet-V2网络通过复杂的深层结构提取图像的深度特征,利用这些深度特征更加准确的将图像分为了1000类,以及利用Inception-Resnet-V2网络提取每个视频帧的深度特征,并将它映射为重要性得分,对网络进行了微调,将网络中的softmax层替换为MLP模块(包括全连接层),将视频帧的深度特征映射为0到1的分数,在数据集上微调网络进行再次训练已达到更好地效果,以及图像记忆强度是通过Memnet网络得到了视频帧的记忆预测分数;图像熵通过公式计算得到的,具体公式如下,
Figure FDA0002802265290000021
Figure FDA0002802265290000022
其中,N表示的是所计算视频帧的灰度级(255),pij表示的是所计算视频帧中某点的灰度值和该点附近的像素分布特点,f(i,j)表示的是视频帧中(i,j)位置上的像素在整个视频帧中出现的频率,M表示所计算视频帧的维度。
7.根据权利要求1所述的一种基于卷积神经网络的视频摘要方法,其特征在于:所述步骤S3、基于多特征提取关键帧形成视频摘要中,采用了神经网络的方式分配三种特征的权值,通过训练网络结构来分配三个特征的权重,最后,通过每一个视频帧的分值来生成视频摘要。
CN202011354797.7A 2020-11-26 2020-11-26 一种基于卷积神经网络的视频摘要方法 Pending CN112487241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011354797.7A CN112487241A (zh) 2020-11-26 2020-11-26 一种基于卷积神经网络的视频摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011354797.7A CN112487241A (zh) 2020-11-26 2020-11-26 一种基于卷积神经网络的视频摘要方法

Publications (1)

Publication Number Publication Date
CN112487241A true CN112487241A (zh) 2021-03-12

Family

ID=74935875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011354797.7A Pending CN112487241A (zh) 2020-11-26 2020-11-26 一种基于卷积神经网络的视频摘要方法

Country Status (1)

Country Link
CN (1) CN112487241A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361426A (zh) * 2021-06-11 2021-09-07 爱保科技有限公司 车辆定损图像获取方法、介质、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214319A (zh) * 2018-08-23 2019-01-15 中国农业大学 一种水下图像目标检测方法及系统
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214319A (zh) * 2018-08-23 2019-01-15 中国农业大学 一种水下图像目标检测方法及系统
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN SZEGEDY ET AL.: "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning", 《AAAI’17: PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
TOMAS SOUCEK ET AL.: "TransNet: A deep network for fast detection of common shot transitions", 《COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361426A (zh) * 2021-06-11 2021-09-07 爱保科技有限公司 车辆定损图像获取方法、介质、装置和电子设备

Similar Documents

Publication Publication Date Title
Wang et al. Adaptive fusion for RGB-D salient object detection
CN108228915A (zh) 一种基于深度学习的视频检索方法
CN106446015A (zh) 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN103559196B (zh) 一种基于多核典型相关分析的视频检索方法
US11816149B2 (en) Electronic device and control method thereof
CN109874053A (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
KR20220108165A (ko) 타깃 추적 방법, 장치, 전자 기기 및 저장 매체
CN109325440B (zh) 人体动作识别方法及系统
WO2022160772A1 (zh) 一种基于视角引导多重对抗注意力的行人重识别方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN113033454B (zh) 一种城市视频摄像中建筑物变化的检测方法
CN112926654A (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
CN109753884A (zh) 一种基于关键帧提取的视频行为识别方法
US20230297617A1 (en) Video retrieval method and apparatus, device, and storage medium
JP2022082493A (ja) ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN108960186B (zh) 一种基于人脸的广告机用户识别方法
CN108717436B (zh) 一种基于显著性检测的商品目标快速检索方法
CN114549845A (zh) 一种基于特征融合的Logo图像检测方法及系统
CN112487241A (zh) 一种基于卷积神经网络的视频摘要方法
Zong et al. A cascaded refined rgb-d salient object detection network based on the attention mechanism
Qin et al. Application of video scene semantic recognition technology in smart video
Yin et al. Event-based semantic image adaptation for user-centric mobile display devices
CN107273478A (zh) 一种基于Group Lasso的半监督哈希图像搜索方法
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210312