CN115022711A - 一种电影场景内镜头视频排序系统及方法 - Google Patents

一种电影场景内镜头视频排序系统及方法 Download PDF

Info

Publication number
CN115022711A
CN115022711A CN202210460469.8A CN202210460469A CN115022711A CN 115022711 A CN115022711 A CN 115022711A CN 202210460469 A CN202210460469 A CN 202210460469A CN 115022711 A CN115022711 A CN 115022711A
Authority
CN
China
Prior art keywords
video
shot
frame
movie
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210460469.8A
Other languages
English (en)
Other versions
CN115022711B (zh
Inventor
马诗洁
陈萌
毛瑞琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210460469.8A priority Critical patent/CN115022711B/zh
Publication of CN115022711A publication Critical patent/CN115022711A/zh
Application granted granted Critical
Publication of CN115022711B publication Critical patent/CN115022711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)

Abstract

本发明属于视频制作领域,公开了一种电影场景内镜头视频排序系统及方法,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。本发明可实现以每一个分镜的多个镜头作为输入,自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。

Description

一种电影场景内镜头视频排序系统及方法
技术领域
本发明属于视频制作领域,尤其涉及一种电影场景内镜头剪辑合成系统及方法。
背景技术
随着互联网的发展,人民生活水平的不断提高,电影作为一种新型的内容记录和媒体表达的方式,丰富着人们的物质文化生活。
在视频生产领域。传统的视频制作剪辑过程比较繁琐,随着视频剪辑软件的越来越普及、数码设备功能的强大,一个电影通常包含成千上万个镜头,使电影剪辑制作需求也不断提升,缺乏一种对电影场景图镜头视频的剪辑合成方法。
发明内容
本发明目的在于提供一种电影场景内镜头视频排序系统及方法,以解决上述的技术问题。
为解决上述技术问题,本发明的一种电影场景内镜头视频排序系统及方法的具体技术方案如下:
一种电影场景内镜头视频排序系统,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;
所述电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;
所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;
所述镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。
本发明还公开了一种电影场景内镜头视频排序方法,包括如下步骤:
步骤101:通过TransNet模型对输入的电影进行分割:基于TransNet方法对完整的电影视频进行镜头边界帧的识别,并按照镜头边界帧的时间节点,实现对电影视频的切分,得到多个镜头片段;
步骤102:使用TransNet对步骤101中得到的镜头视频片段提取多帧图片:基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧;
步骤103:基于ResNet50对多图像进行特征提取并拼接获得视频片段特征:基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取,并将得到的特征向量进行拼接,作为代表该镜头片段的特征向量;
步骤104:使用Transformer模型对电影片段进行预测分类:随机选出初始镜头片段,基于Transformer方法将代表镜头片段的特征向量作为输入,通过时序分类的方法预测下一个镜头片段,然后根据开端选定的镜头特征和已预测的镜头特征,继续进行预测下一镜头,直至将其串联成一个完整的视频。
进一步地,所述步骤101将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分;电影视频通过TransNet模型中的4个DDCNN单元进行处理,4个DDCNN单元具有相同的卷积核大小和不同的扩张率,将经过4个卷积操作之后分别得到的4个输出进行拼接,再经过1层池化层和2层全连接层,最终输出对电影视频中的每一帧的判别,即该帧是否为边界帧,由此得到边界帧的时间节点;然后根据得到的边界帧时间节点对电影视频进行切分,从而获取每一个镜头的视频。
进一步地,所述步骤101的具体步骤为:
TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧,TransNet共有4个DDCNN单元,其中4个单元的卷积运算均为3×3×3,每个单元的扩张率分别为1、2、4、8,输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果;
训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N×W×H×3,其中W表示图像的宽度,H表示图像的高度,N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N×2维向量,表示对每一帧图像是否为边界帧的判别,TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值,具体loss函数如下:
Figure BDA0003621932530000031
训练:采用Adam优化器,初始学习率为0.001;
预测:对于按照上述步骤训练完成的TransNet,输入任意电影Mtest全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102。
进一步地,所述步骤102对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧;将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列。
进一步地,所述步骤102余弦相似度的计算公式如下:
Figure BDA0003621932530000041
其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度。
进一步地,所述步骤103选定一个镜头作为起始镜头,将开始图像Istrat,中间关键帧图像Imiddle1...n,结尾转场图像Iend送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量Fn embedding,重复以上步骤,提取当前电影视频下所有镜头的特征向量。
进一步地,所述步骤103包括如下具体步骤:为了获得镜头视频片段的特征向量Fn embedding,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征,其中ResNet50的基本结构描述如下:
ResNet50模型由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck;第1个阶段:输入为(N,H,W,C),其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3;该阶段包括4个先后操作:卷积,卷积核大小为7×7;Batch Normalization;ReLU和MaxPooling,输出大小为(N,112,112,64);
第2个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,112,112,64),输出大小为(N,56,56,256);
第3个阶段由4个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,55,55,256),输出大小为(N,28,28,512);
第4个阶段由6个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,28,28,512),输出大小为(N,14,14,1024);
第5个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,14,14,1024),输出大小为(N,7,7,2048);
训练:使用ResNet50预训练模型;
预测:输入为步骤102中得到的每个镜头片段中包含的图像,通过对ResNet50中第5阶段得到的特征向量进行提取,提取之后将每个片段所包含的图像的特征向量进行拼接,拼接之后得到片段的特征向量Fn embedding
进一步地,所述步骤104使用Transformer模型进行视频片段的排序,使用Transformer中的decoder部分来实现,使用多头注意力机制和mask实现下一视频片段的预测,模型的输入为步骤103中得到的视频片段的编码向量Fn embedding,先对编码向量Fn embedding加入positional encoding,将特征Fn embedding的顺序位置信息记作Pnx;在模型训练阶段,输入特征Fn embedding与位置信息Pnx,并使用mask方法来辅助实现训练过程,在训练过程中使用mask掩盖掉后续未知片段;在测试阶段,任意选定一个视频片段的特征作为初始片段P0,从视频资源集合中分别输入视频预测模型中,选择概率最大的作为第二个视频片段,以第一个和第二个视频片段特征作为已知输入,从视频资源中通过模型选择概率最大的第三个视频片段,并以此类推,直到合成一个完整的视频;Transformer模型训练:通过Adam随机梯度反向传播算法降低Transformer训练损失函数值,得到最优解的模型;测试:将选定的作为开端的镜头特征作为输入,通过模型对一镜头的视频片段进行预测,直至完成当前电影场景内镜头视频的排序。
进一步地,模型训练阶段的训练损失函数为交叉熵损失函数:
Figure BDA0003621932530000061
本发明的一种电影场景内镜头视频排序系统及方法具有以下优点:本发明以TransNet、ResNet50以及Transformer为基础建立模型,实现对电影中镜头的剪辑合成。TransNet对电影视频进行镜头边界帧的识别,然后按照镜头边界帧的时间节点实现电影镜头片段的切分,使用ResNet50对电影镜头片段进行表征;Transformer则是对镜头片段顺序进行预测排序,当已知前序序列对其余片段进行预测判断为后续片段的概率,从而找到后续片段。在本发明中主要使用了Transformer中的decoder部分,以此类推直到合成一个完整的视频。本发明可实现以每一个分镜的多个镜头作为输入,自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。
附图说明
图1为本发明系统结构示意图;
图2为本发明方法的流程图;
图3为电影数据预处理模块整体架构图;
图4为多图像时序特征生成模块整体架构图;
图5为Transfomer结构图;
图6为镜头视频排序示例展示图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种电影场景内镜头视频排序系统及方法做进一步详细的描述。
如图1所示,本发明的一种电影场景内镜头视频排序系统,包括:
电影数据预处理模块,包括镜头检测与分割,将输入的整个电影按照镜头进行切分;
镜头特征提取模块,提取单个镜头的多个关键帧图像的内容特征;
镜头排序模块,将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入。选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。
参照图2所示,本发明的一种电影场景内镜头视频排序的方法包括如下几个步骤:
步骤101、通过TransNet模型对输入的电影进行分割。
本发明采用TransNet模型对输入的电影进行镜头边界的检测,得到电影镜头的边界帧,再通过边界帧对电影视频进行切分。如图3所示,TransNet算法的详情如下:
TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧。TransNet主要部分为DDCNN单元,共有4个DDCNN单元,其中4个单元的卷积运算均为3×3×3,每个单元的扩张率分别为1、2、4、8。输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果。
训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N×W×H×3,其中W表示图像的宽度,H表示图像的高度。N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N×2维向量,表示对每一帧图像是否为边界帧的判别。TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值,具体loss函数如下:
Figure BDA0003621932530000081
训练:采用Adam优化器,初始学习率为0.001。
预测:对于按照上述步骤训练完成的TransNet,输入任意电影Mtest全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102。
步骤102、使用TransNet对步骤101中得到的镜头视频片段提取多帧图片。
对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列,以此方式来避免无效帧图片与减少重复帧图片,提高后续步骤的准确度、减少模型的计算量。在此步骤中具体使用的方法为将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧的表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧。余弦相似度的计算公式如下:
Figure BDA0003621932530000082
其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度。
通过该步骤,本发明用每个视频片段第一帧、中间关键帧、结尾转场帧组合得到的序列代表该视频片段。
步骤103、基于ResNet50对多图像进行特征提取并拼接获得视频片段特征。选定一个镜头作为起始镜头,将开始图像Istart,中间关键帧图像Imiddle1...n,结尾转场图像Iend送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量Fnembedding。重复以上步骤,提取当前电影视频下所有镜头的特征向量。具体的:
如图4所示,该步骤输入步骤102中得到的镜头视频片段中的图片序列,输出镜头视频片段的特征。对输入的多图像时序序列中的每一图像使用ResNet50预训练神经网络模型进行编码,获取每张图像的特征向量,将每个片段中的多张图像的特征向量进行拼接从而得到代表视频片段的特征向量Fn embedding
为了获得镜头视频片段的特征向量Fn embedding,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征。其中ResNet50的基本结构描述如下:
ResNet的核心思想是引入一个恒等快捷连接的结构,直接跳过一个或多个层。ResNet50模型主要由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck。下面对ResNet50的5个阶段进行详细的描述:
第1个阶段:输入为(N,H,W,C),其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3。该阶段包括4个先后操作:卷积,卷积核大小为7×7;Batch Normalization;ReLU和MaxPooling。输出大小为(N,112,112,64)。
第2个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,112,112,64),输出大小为(N,56,56,256)。
第3个阶段由4个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,55,55,256),输出大小为(N,28,28,512)。
第4个阶段由6个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,28,28,512),输出大小为(N,14,14,1024)。
第5个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,14,14,1024),输出大小为(N,7,7,2048)。
训练:本发明中使用ResNet50预训练模型。
预测:在本发明中输入为步骤102中得到的每个镜头片段中包含的图像,通过对ResNet50中第5阶段得到的特征向量进行提取,提取之后将每个片段所包含的图像的特征向量进行拼接,拼接之后得到片段的特征向量Fn embedding
步骤104、使用Transformer模型对电影片段进行预测分类。
随机选择某一镜头片段的特征向量作为视频镜头拼接的开端,将剩余镜头片段与其组合,判断剩余镜头片段是当前镜头片段特征向量下一特征向量的概率,概率最大的则为下一镜头场景。如图5所示,本发明使用了Transformer模型。
特征编码解码器Transformer主要分为两个部分:编码器部分与解码器部分。编码器部分有N个相同的layer,每个layer由两个sub-layer组成,分别是multi-head self-attention和feed-forward network。其中每个sub-layer都增加了residual connection和normalization。因此可以将sub-layer的输出表示为:
sub_layer_output=LayerNorm(x+(SubLayer(x)))
传统的attention可由以下形式表示:
attention_output=Attention(Q,K,V)
Multi-head self-attention通过h个不同的线性变换对Q,K,V进行投影,最后将不同的attention结果拼接起来:
MulitHead(Q,K,V)=Concat(head1,…,headh)Wo
Figure BDA0003621932530000111
Self-attention中Q、K、V相同。
Transformer中还采取了scaled dot-product,即:
Figure BDA0003621932530000112
Feed-forward networks层进行非线性变换。
Decoder与encoder结构相类似,同样具有N个layer,不同之处在于Decoder的layer有三个sub-layer,相较于encoder,其多了一层masked multi-head attention。
在本发明中,将Transformer模型应用到图像领域,本发明中只使用Transformer中的encoder。
将步骤103中得到的图像特征向量作为输入,使用Transformer的decoder进行训练。首先对输入的特征向量Fn embedding加上位置信息Pnx。在训练阶段,使用mask,当输入第一个和第二个镜头的图像特征时,对余下的镜头特征向量的位置信息进行mask操作,判断当前镜头是否为正确的镜头序列和同一风格的镜头。当输入为第一个,第二个,第三个镜头的特征时,对余下的镜头特征的位置信息进行mask操作,判断当前的三个镜头是否为正常排序和同一风格。训练损失函数为交叉熵损失函数:
Figure BDA0003621932530000121
训练:优化器采用Adam optimizer,学习率为0.0001。
预测:在步骤103中得到的片段中随机选取一个片段作为初始片段P0,输入到训练完的模型中,然后选取余下的片段作为其后续的片段,选取输出概率最大的一个片段作为其后续片段。如图6所示,继续使用Transformer将选定的初始镜头和已经的预测的镜头作为输入,预测其他镜头特征向量是当前镜头序列的下一镜头特征向量的概率,概率最大的则为下一镜头场景,以此类推进行3、4、5、6…个片段的选择,直到合成一个完整的视频。
本发明以TransNet、ResNet50以及Transformer为基础建立模型,实现对电影中镜头的剪辑合成。TransNet对电影视频进行镜头边界帧的识别,然后按照镜头边界帧的时间节点实现电影镜头片段的切分,在本发明中使用了TransNet模型,但不限制于TransNet模型,可以使用TransNetv2进行同等替换;使用ResNet50对电影镜头片段进行表征;Transformer则是对镜头片段顺序进行预测排序,当已知前序序列对其余片段进行预测判断为后续片段的概率,从而找到后续片段。在本发明中主要使用了Transformer中的decoder部分,以此类推直到合成一个完整的视频。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (10)

1.一种电影场景内镜头视频排序系统,其特征在于,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;
所述电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;
所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;所述镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。
2.一种利用如权利要求1所述的电影场景内镜头视频排序系统进行视频排序的方法,其特征在于,包括如下步骤:
步骤101:通过TransNet模型对输入的电影进行分割:基于TransNet方法对完整的电影视频进行镜头边界帧的识别,并按照镜头边界帧的时间节点,实现对电影视频的切分,得到多个镜头片段;
步骤102:使用TransNet对步骤101中得到的镜头视频片段提取多帧图片:基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧;
步骤103:基于ResNet50对多图像进行特征提取并拼接获得视频片段特征:基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取,并将得到的特征向量进行拼接,作为代表该镜头片段的特征向量;
步骤104:使用Transformer模型对电影片段进行预测分类:随机选出初始镜头片段,基于Transformer方法将代表镜头片段的特征向量作为输入,通过时序分类的方法预测下一个镜头片段,然后根据开端选定的镜头特征和已预测的镜头特征,继续进行预测下一镜头,直至将其串联成一个完整的视频。
3.根据权利要求2所述的电影场景内镜头视频排序方法,其特征在于,所述步骤101将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分;电影视频通过TransNet模型中的4个DDCNN单元进行处理,4个DDCNN单元具有相同的卷积核大小和不同的扩张率,将经过4个卷积操作之后分别得到的4个输出进行拼接,再经过1层池化层和2层全连接层,最终输出对电影视频中的每一帧的判别,即该帧是否为边界帧,由此得到边界帧的时间节点;然后根据得到的边界帧时间节点对电影视频进行切分,从而获取每一个镜头的视频。
4.根据权利要求2所述的电影场景内镜头视频排序方法,其特征在于,所述步骤101的具体步骤为:
TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧,TransNet共有4个DDCNN单元,其中4个单元的卷积运算均为3×3×3,每个单元的扩张率分别为1、2、4、8,输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果;
训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N×W×H×3,其中W表示图像的宽度,H表示图像的高度,N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N×2维向量,表示对每一帧图像是否为边界帧的判别,TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值,具体loss函数如下:
Figure FDA0003621932520000031
训练:采用Adam优化器,初始学习率为0.001;
预测:对于按照上述步骤训练完成的TransNet,输入任意电影Mtest全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102。
5.根据权利要求4所述的电影场景内镜头视频排序方法,其特征在于,所述步骤102对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧;将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列。
6.根据权利要求5所述的电影场景内镜头视频排序方法,其特征在于,所述步骤102余弦相似度的计算公式如下:
Figure FDA0003621932520000032
其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度。
7.根据权利要求5所述的电影场景内镜头视频排序方法,其特征在于,所述步骤103选定一个镜头作为起始镜头,将开始图像Istrat,中间关键帧图像Imiddle1...n,结尾转场图像Iend送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量Fnembedding,重复以上步骤,提取当前电影视频下所有镜头的特征向量。
8.根据权利要求5所述的电影场景内镜头视频排序方法,其特征在于,所述步骤103包括如下具体步骤:为了获得镜头视频片段的特征向量Fnembedding,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征,其中ResNet50的基本结构描述如下:
ResNet50模型由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck;第1个阶段:输入为(N,H,W,C),其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3;该阶段包括4个先后操作:卷积,卷积核大小为7×7;Batch Normalization;ReLU和MaxPooling,输出大小为(N,112,112,64);
第2个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,112,112,64),输出大小为(N,56,56,256);
第3个阶段由4个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,55,55,256),输出大小为(N,28,28,512);
第4个阶段由6个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,28,28,512),输出大小为(N,14,14,1024);
第5个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,14,14,1024),输出大小为(N,7,7,2048);
训练:使用ResNet50预训练模型;
预测:输入为步骤102中得到的每个镜头片段中包含的图像,通过对ResNet50中第5阶段得到的特征向量进行提取,提取之后将每个片段所包含的图像的特征向量进行拼接,拼接之后得到片段的特征向量Fnembedding
9.根据权利要求7所述的电影场景内镜头视频排序方法,其特征在于,所述步骤104使用Transformer模型进行视频片段的排序,使用Transformer中的decoder部分来实现,使用多头注意力机制和mask实现下一视频片段的预测,模型的输入为步骤103中得到的视频片段的编码向量Fnembedding,先对编码向量Fnembedding加入positional encoding,将特征Fnembedding的顺序位置信息记作Pnx;在模型训练阶段,输入特征Fnembedding与位置信息Pnx,并使用mask方法来辅助实现训练过程,在训练过程中使用mask掩盖掉后续未知片段;在测试阶段,任意选定一个视频片段的特征作为初始片段P0,从视频资源集合中分别输入视频预测模型中,选择概率最大的作为第二个视频片段,以第一个和第二个视频片段特征作为已知输入,从视频资源中通过模型选择概率最大的第三个视频片段,并以此类推,直到合成一个完整的视频;Transformer模型训练:通过Adam随机梯度反向传播算法降低Transformer训练损失函数值,得到最优解的模型;测试:将选定的作为开端的镜头特征作为输入,通过模型对一镜头的视频片段进行预测,直至完成当前电影场景内镜头视频的排序。
10.根据权利要求9所述的电影场景内镜头视频排序方法,其特征在于,模型训练阶段的训练损失函数为交叉熵损失函数:
Figure FDA0003621932520000051
CN202210460469.8A 2022-04-28 2022-04-28 一种电影场景内镜头视频排序系统及方法 Active CN115022711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210460469.8A CN115022711B (zh) 2022-04-28 2022-04-28 一种电影场景内镜头视频排序系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210460469.8A CN115022711B (zh) 2022-04-28 2022-04-28 一种电影场景内镜头视频排序系统及方法

Publications (2)

Publication Number Publication Date
CN115022711A true CN115022711A (zh) 2022-09-06
CN115022711B CN115022711B (zh) 2024-05-31

Family

ID=83066998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210460469.8A Active CN115022711B (zh) 2022-04-28 2022-04-28 一种电影场景内镜头视频排序系统及方法

Country Status (1)

Country Link
CN (1) CN115022711B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116600070A (zh) * 2023-04-28 2023-08-15 青岛尘元科技信息有限公司 全息视频的存储方法、装置、设备及存储介质
CN117456431A (zh) * 2023-12-26 2024-01-26 南京邮电大学 一种基于扩张卷积和密集连接的镜头边界检测方法
CN117692676A (zh) * 2023-12-08 2024-03-12 广东创意热店互联网科技有限公司 一种基于人工智能技术的视频快速剪辑方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017112448A (ja) * 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
CN110087097A (zh) * 2019-06-05 2019-08-02 西安邮电大学 一种基于电子内窥镜的自动去除无效视频剪辑方法
CN110121104A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频剪辑方法及装置
CN110798752A (zh) * 2018-08-03 2020-02-14 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
WO2021003825A1 (zh) * 2019-07-11 2021-01-14 平安科技(深圳)有限公司 视频镜头剪切的方法、装置及计算机设备
CN112995757A (zh) * 2021-05-08 2021-06-18 腾讯科技(深圳)有限公司 视频剪裁方法及装置
CN113850829A (zh) * 2021-09-28 2021-12-28 深圳万兴软件有限公司 基于高效深度网络的视频镜头分割方法、装置及相关组件

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017112448A (ja) * 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
CN110121104A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频剪辑方法及装置
CN110798752A (zh) * 2018-08-03 2020-02-14 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN110087097A (zh) * 2019-06-05 2019-08-02 西安邮电大学 一种基于电子内窥镜的自动去除无效视频剪辑方法
WO2021003825A1 (zh) * 2019-07-11 2021-01-14 平安科技(深圳)有限公司 视频镜头剪切的方法、装置及计算机设备
CN112995757A (zh) * 2021-05-08 2021-06-18 腾讯科技(深圳)有限公司 视频剪裁方法及装置
CN113850829A (zh) * 2021-09-28 2021-12-28 深圳万兴软件有限公司 基于高效深度网络的视频镜头分割方法、装置及相关组件

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FEHAID ALSHAMMARI: "Maximum GP Lens and Post-lens Tear Film Thickness Allowed to Avoid Corneal Hypoxia for Two of the Highest GP Lenses Permeability Currently Available in the Market", 2019 8TH INTERNATIONAL CONFERENCE ON MODELING SIMULATION AND APPLIED OPTIMIZATION, 27 February 2019 (2019-02-27) *
周心悦;卢柃岐;钱红艳;李军;: "基于场记板中数字识别的自动顺片技术", 科学技术与工程, no. 13, 8 May 2018 (2018-05-08) *
张树忠;: "剪辑视频 让家用DV作品上荧屏", 电脑迷, no. 05, 1 March 2008 (2008-03-01) *
程萍;冯杰;马汉杰;许永恩;王健;: "基于C3D的足球视频场景分类算法", 计算机系统应用, no. 12, 15 December 2019 (2019-12-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116600070A (zh) * 2023-04-28 2023-08-15 青岛尘元科技信息有限公司 全息视频的存储方法、装置、设备及存储介质
CN117692676A (zh) * 2023-12-08 2024-03-12 广东创意热店互联网科技有限公司 一种基于人工智能技术的视频快速剪辑方法
CN117456431A (zh) * 2023-12-26 2024-01-26 南京邮电大学 一种基于扩张卷积和密集连接的镜头边界检测方法
CN117456431B (zh) * 2023-12-26 2024-03-26 南京邮电大学 一种基于扩张卷积和密集连接的镜头边界检测方法

Also Published As

Publication number Publication date
CN115022711B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
Wang et al. Video modeling with correlation networks
CN115022711A (zh) 一种电影场景内镜头视频排序系统及方法
CN112669325B (zh) 一种基于主动式学习的视频语义分割方法
CN111259782B (zh) 基于混合多尺度时序可分离卷积操作的视频行为识别方法
CN111968150B (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN108509880A (zh) 一种视频人物行为语义识别方法
CN108537119B (zh) 一种小样本视频识别方法
Lin et al. Self-supervised video representation learning with meta-contrastive network
CN110110648B (zh) 基于视觉感知与人工智能的动作提名方法
CN111526434B (zh) 基于转换器的视频摘要方法
CN112183468A (zh) 一种基于多注意力联合多级特征的行人再识别方法
CN111161715A (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN114549574A (zh) 一种基于掩膜传播网络的交互式视频抠图系统
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN112669324B (zh) 基于时序特征聚合和条件卷积的快速视频目标分割方法
CN112804558B (zh) 视频拆分方法、装置及设备
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
CN115346261A (zh) 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法
CN113688871A (zh) 基于Transformer的视频多标签动作识别方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN115546236B (zh) 基于小波变换的图像分割方法及装置
CN113747235B (zh) 一种视频处理方法、装置及设备
He et al. MTRFN: Multiscale temporal receptive field network for compressed video action recognition at edge servers
CN114218434A (zh) 一种自动标注方法、自动标注装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant