CN115022711B - 一种电影场景内镜头视频排序系统及方法 - Google Patents
一种电影场景内镜头视频排序系统及方法 Download PDFInfo
- Publication number
- CN115022711B CN115022711B CN202210460469.8A CN202210460469A CN115022711B CN 115022711 B CN115022711 B CN 115022711B CN 202210460469 A CN202210460469 A CN 202210460469A CN 115022711 B CN115022711 B CN 115022711B
- Authority
- CN
- China
- Prior art keywords
- video
- shot
- segment
- frame
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 40
- 230000007704 transition Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 101100346656 Drosophila melanogaster strat gene Proteins 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Circuits (AREA)
Abstract
本发明属于视频制作领域,公开了一种电影场景内镜头视频排序系统及方法,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。本发明可实现以每一个分镜的多个镜头作为输入,自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。
Description
技术领域
本发明属于视频制作领域,尤其涉及一种电影场景内镜头剪辑合成系统及方法。
背景技术
随着互联网的发展,人民生活水平的不断提高,电影作为一种新型的内容记录和媒体表达的方式,丰富着人们的物质文化生活。
在视频生产领域。传统的视频制作剪辑过程比较繁琐,随着视频剪辑软件的越来越普及、数码设备功能的强大,一个电影通常包含成千上万个镜头,使电影剪辑制作需求也不断提升,缺乏一种对电影场景图镜头视频的剪辑合成方法。
发明内容
本发明目的在于提供一种电影场景内镜头视频排序系统及方法,以解决上述的技术问题。
为解决上述技术问题,本发明的一种电影场景内镜头视频排序系统及方法的具体技术方案如下:
一种电影场景内镜头视频排序系统,包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;
所述电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;
所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;
所述镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。
本发明还公开了一种电影场景内镜头视频排序方法,包括如下步骤:
步骤101:通过TransNet模型对输入的电影进行分割:基于TransNet方法对完整的电影视频进行镜头边界帧的识别,并按照镜头边界帧的时间节点,实现对电影视频的切分,得到多个镜头片段;
步骤102:使用TransNet对步骤101中得到的镜头视频片段提取多帧图片:基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧;
步骤103:基于ResNet50对多图像进行特征提取并拼接获得视频片段特征:基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取,并将得到的特征向量进行拼接,作为代表该镜头片段的特征向量;
步骤104:使用Transformer模型对电影片段进行预测分类:随机选出初始镜头片段,基于Transformer方法将代表镜头片段的特征向量作为输入,通过时序分类的方法预测下一个镜头片段,然后根据开端选定的镜头特征和已预测的镜头特征,继续进行预测下一镜头,直至将其串联成一个完整的视频。
进一步地,所述步骤101将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分;电影视频通过TransNet模型中的4个DDCNN单元进行处理,4个DDCNN单元具有相同的卷积核大小和不同的扩张率,将经过4个卷积操作之后分别得到的4个输出进行拼接,再经过1层池化层和2层全连接层,最终输出对电影视频中的每一帧的判别,即该帧是否为边界帧,由此得到边界帧的时间节点;然后根据得到的边界帧时间节点对电影视频进行切分,从而获取每一个镜头的视频。
进一步地,所述步骤101的具体步骤为:
TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧,TransNet共有4个DDCNN单元,其中4个单元的卷积运算均为3×3×3,每个单元的扩张率分别为1、2、4、8,输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果;
训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N×W×H×3,其中W表示图像的宽度,H表示图像的高度,N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N×2维向量,表示对每一帧图像是否为边界帧的判别,TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值,具体loss函数如下:
训练:采用Adam优化器,初始学习率为0.001;
预测:对于按照上述步骤训练完成的TransNet,输入任意电影Mtest全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102。
进一步地,所述步骤102对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧;将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列。
进一步地,所述步骤102余弦相似度的计算公式如下:
其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度。
进一步地,所述步骤103选定一个镜头作为起始镜头,将开始图像Istrat,中间关键帧图像Imiddle1...n,结尾转场图像Iend送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量Fn embedding,重复以上步骤,提取当前电影视频下所有镜头的特征向量。
进一步地,所述步骤103包括如下具体步骤:为了获得镜头视频片段的特征向量Fn embedding,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征,其中ResNet50的基本结构描述如下:
ResNet50模型由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck;第1个阶段:输入为(N,H,W,C),其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3;该阶段包括4个先后操作:卷积,卷积核大小为7×7;Batch Normalization;ReLU和MaxPooling,输出大小为(N,112,112,64);
第2个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,112,112,64),输出大小为(N,56,56,256);
第3个阶段由4个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,55,55,256),输出大小为(N,28,28,512);
第4个阶段由6个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,28,28,512),输出大小为(N,14,14,1024);
第5个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,14,14,1024),输出大小为(N,7,7,2048);
训练:使用ResNet50预训练模型;
预测:输入为步骤102中得到的每个镜头片段中包含的图像,通过对ResNet50中第5阶段得到的特征向量进行提取,提取之后将每个片段所包含的图像的特征向量进行拼接,拼接之后得到片段的特征向量Fn embedding。
进一步地,所述步骤104使用Transformer模型进行视频片段的排序,使用Transformer中的decoder部分来实现,使用多头注意力机制和mask实现下一视频片段的预测,模型的输入为步骤103中得到的视频片段的编码向量Fn embedding,先对编码向量Fn embedding加入positional encoding,将特征Fn embedding的顺序位置信息记作Pnx;在模型训练阶段,输入特征Fn embedding与位置信息Pnx,并使用mask方法来辅助实现训练过程,在训练过程中使用mask掩盖掉后续未知片段;在测试阶段,任意选定一个视频片段的特征作为初始片段P0,从视频资源集合中分别输入视频预测模型中,选择概率最大的作为第二个视频片段,以第一个和第二个视频片段特征作为已知输入,从视频资源中通过模型选择概率最大的第三个视频片段,并以此类推,直到合成一个完整的视频;Transformer模型训练:通过Adam随机梯度反向传播算法降低Transformer训练损失函数值,得到最优解的模型;测试:将选定的作为开端的镜头特征作为输入,通过模型对一镜头的视频片段进行预测,直至完成当前电影场景内镜头视频的排序。
进一步地,模型训练阶段的训练损失函数为交叉熵损失函数:
本发明的一种电影场景内镜头视频排序系统及方法具有以下优点:本发明以TransNet、ResNet50以及Transformer为基础建立模型,实现对电影中镜头的剪辑合成。TransNet对电影视频进行镜头边界帧的识别,然后按照镜头边界帧的时间节点实现电影镜头片段的切分,使用ResNet50对电影镜头片段进行表征;Transformer则是对镜头片段顺序进行预测排序,当已知前序序列对其余片段进行预测判断为后续片段的概率,从而找到后续片段。在本发明中主要使用了Transformer中的decoder部分,以此类推直到合成一个完整的视频。本发明可实现以每一个分镜的多个镜头作为输入,自动的从中选择一个最符合此视频风格的镜头并将其串联成一个完整的视频。
附图说明
图1为本发明系统结构示意图;
图2为本发明方法的流程图;
图3为电影数据预处理模块整体架构图;
图4为多图像时序特征生成模块整体架构图;
图5为Transfomer结构图;
图6为镜头视频排序示例展示图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种电影场景内镜头视频排序系统及方法做进一步详细的描述。
如图1所示,本发明的一种电影场景内镜头视频排序系统,包括:
电影数据预处理模块,包括镜头检测与分割,将输入的整个电影按照镜头进行切分;
镜头特征提取模块,提取单个镜头的多个关键帧图像的内容特征;
镜头排序模块,将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入。选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序。
参照图2所示,本发明的一种电影场景内镜头视频排序的方法包括如下几个步骤:
步骤101、通过TransNet模型对输入的电影进行分割。
本发明采用TransNet模型对输入的电影进行镜头边界的检测,得到电影镜头的边界帧,再通过边界帧对电影视频进行切分。如图3所示,TransNet算法的详情如下:
TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧。TransNet主要部分为DDCNN单元,共有4个DDCNN单元,其中4个单元的卷积运算均为3×3×3,每个单元的扩张率分别为1、2、4、8。输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果。
训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N×W×H×3,其中W表示图像的宽度,H表示图像的高度。N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N×2维向量,表示对每一帧图像是否为边界帧的判别。TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值,具体loss函数如下:
训练:采用Adam优化器,初始学习率为0.001。
预测:对于按照上述步骤训练完成的TransNet,输入任意电影Mtest全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102。
步骤102、使用TransNet对步骤101中得到的镜头视频片段提取多帧图片。
对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列,以此方式来避免无效帧图片与减少重复帧图片,提高后续步骤的准确度、减少模型的计算量。在此步骤中具体使用的方法为将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧的表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧。余弦相似度的计算公式如下:
其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度。
通过该步骤,本发明用每个视频片段第一帧、中间关键帧、结尾转场帧组合得到的序列代表该视频片段。
步骤103、基于ResNet50对多图像进行特征提取并拼接获得视频片段特征。选定一个镜头作为起始镜头,将开始图像Istart,中间关键帧图像Imiddle1...n,结尾转场图像Iend送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量Fnembedding。重复以上步骤,提取当前电影视频下所有镜头的特征向量。具体的:
如图4所示,该步骤输入步骤102中得到的镜头视频片段中的图片序列,输出镜头视频片段的特征。对输入的多图像时序序列中的每一图像使用ResNet50预训练神经网络模型进行编码,获取每张图像的特征向量,将每个片段中的多张图像的特征向量进行拼接从而得到代表视频片段的特征向量Fn embedding。
为了获得镜头视频片段的特征向量Fn embedding,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征。其中ResNet50的基本结构描述如下:
ResNet的核心思想是引入一个恒等快捷连接的结构,直接跳过一个或多个层。ResNet50模型主要由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck。下面对ResNet50的5个阶段进行详细的描述:
第1个阶段:输入为(N,H,W,C),其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3。该阶段包括4个先后操作:卷积,卷积核大小为7×7;Batch Normalization;ReLU和MaxPooling。输出大小为(N,112,112,64)。
第2个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,112,112,64),输出大小为(N,56,56,256)。
第3个阶段由4个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,55,55,256),输出大小为(N,28,28,512)。
第4个阶段由6个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,28,28,512),输出大小为(N,14,14,1024)。
第5个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1。输入大小为(N,14,14,1024),输出大小为(N,7,7,2048)。
训练:本发明中使用ResNet50预训练模型。
预测:在本发明中输入为步骤102中得到的每个镜头片段中包含的图像,通过对ResNet50中第5阶段得到的特征向量进行提取,提取之后将每个片段所包含的图像的特征向量进行拼接,拼接之后得到片段的特征向量Fn embedding。
步骤104、使用Transformer模型对电影片段进行预测分类。
随机选择某一镜头片段的特征向量作为视频镜头拼接的开端,将剩余镜头片段与其组合,判断剩余镜头片段是当前镜头片段特征向量下一特征向量的概率,概率最大的则为下一镜头场景。如图5所示,本发明使用了Transformer模型。
特征编码解码器Transformer主要分为两个部分:编码器部分与解码器部分。编码器部分有N个相同的layer,每个layer由两个sub-layer组成,分别是multi-head self-attention和feed-forward network。其中每个sub-layer都增加了residual connection和normalization。因此可以将sub-layer的输出表示为:
sub_layer_output=LayerNorm(x+(SubLayer(x)))
传统的attention可由以下形式表示:
attention_output=Attention(Q,K,V)
Multi-head self-attention通过h个不同的线性变换对Q,K,V进行投影,最后将不同的attention结果拼接起来:
MulitHead(Q,K,V)=Concat(head1,…,headh)Wo
Self-attention中Q、K、V相同。
Transformer中还采取了scaled dot-product,即:
Feed-forward networks层进行非线性变换。
Decoder与encoder结构相类似,同样具有N个layer,不同之处在于Decoder的layer有三个sub-layer,相较于encoder,其多了一层masked multi-head attention。
在本发明中,将Transformer模型应用到图像领域,本发明中只使用Transformer中的encoder。
将步骤103中得到的图像特征向量作为输入,使用Transformer的decoder进行训练。首先对输入的特征向量Fn embedding加上位置信息Pnx。在训练阶段,使用mask,当输入第一个和第二个镜头的图像特征时,对余下的镜头特征向量的位置信息进行mask操作,判断当前镜头是否为正确的镜头序列和同一风格的镜头。当输入为第一个,第二个,第三个镜头的特征时,对余下的镜头特征的位置信息进行mask操作,判断当前的三个镜头是否为正常排序和同一风格。训练损失函数为交叉熵损失函数:
训练:优化器采用Adam optimizer,学习率为0.0001。
预测:在步骤103中得到的片段中随机选取一个片段作为初始片段P0,输入到训练完的模型中,然后选取余下的片段作为其后续的片段,选取输出概率最大的一个片段作为其后续片段。如图6所示,继续使用Transformer将选定的初始镜头和已经的预测的镜头作为输入,预测其他镜头特征向量是当前镜头序列的下一镜头特征向量的概率,概率最大的则为下一镜头场景,以此类推进行3、4、5、6…个片段的选择,直到合成一个完整的视频。
本发明以TransNet、ResNet50以及Transformer为基础建立模型,实现对电影中镜头的剪辑合成。TransNet对电影视频进行镜头边界帧的识别,然后按照镜头边界帧的时间节点实现电影镜头片段的切分,在本发明中使用了TransNet模型,但不限制于TransNet模型,可以使用TransNetv2进行同等替换;使用ResNet50对电影镜头片段进行表征;Transformer则是对镜头片段顺序进行预测排序,当已知前序序列对其余片段进行预测判断为后续片段的概率,从而找到后续片段。在本发明中主要使用了Transformer中的decoder部分,以此类推直到合成一个完整的视频。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (3)
1.一种电影场景内镜头视频排序系统的视频排序的方法,所述系统包括电影数据预处理模块、镜头特征提取模块、镜头排序模块;所述电影数据预处理模块包括镜头检测与分割,用于将输入的整个电影按照镜头进行切分;
所述镜头特征提取模块用于提取单个镜头的多个关键帧图像的内容特征;
所述镜头排序模块,用于将一个场景下的图像时序特征进行组合为一组特征图,多个场景的多组特征图进行输入;选定一个视频片段作为初始片段,预测出下一个视频片段是其中的哪一个镜头,直至完成所有视频片段的排序;其特征在于,所述方法包括如下步骤:
步骤101:通过TransNet模型对输入的电影进行分割:基于TransNet方法对完整的电影视频进行镜头边界帧的识别,并按照镜头边界帧的时间节点,实现对电影视频的切分,得到多个镜头片段;
将电影视频输入TransNet模型进行边界帧判别并按照边界帧对电影视频进行切分;电影视频通过TransNet模型中的4个DDCNN单元进行处理,4个DDCNN单元具有相同的卷积核大小和不同的扩张率,将经过4个卷积操作之后分别得到的4个输出进行拼接,再经过1层池化层和2层全连接层,最终输出对电影视频中的每一帧的判别,即该帧是否为边界帧,由此得到边界帧的时间节点;然后根据得到的边界帧时间节点对电影视频进行切分,从而获取每一个镜头的视频;
TransNet的输入为N帧长的电影视频,输出为预测得到的视频边界帧,TransNet共有4个DDCNN单元,其中4个单元的卷积运算均为3×3×3,每个单元的扩张率分别为1、2、4、8,输入的视频先经过4个DDCNN,将4个DDCNN得到的4个输出拼接起来,再经过1层池化层与2层全连接层,输出每一帧的判别结果;
训练时,网络的输入为长度为N的完整电影视频,且被统一调整大小为N×W×H×3,其中W表示图像的宽度,H表示图像的高度,N帧序列视频帧通过4个DDCNN单元,再经过1层池化层和两层全连接层,最后输出N×2维向量,表示对每一帧图像是否为边界帧的判别,TransNet的模型的训练具体为:训练集为N个编码向量图像帧的视频序列,通过随机梯度下降反向传播算法降低cross-entropy损失函数的损失值,具体loss函数如下:
训练:采用Adam优化器,初始学习率为0.001;
预测:对于按照上述步骤训练完成的TransNet,输入任意电影Mtest全部帧,判断每一帧是否是镜头边界,进而得到边界帧,通过边界帧对视频进行划分进而获取每一个镜头的视频,用于步骤102;
步骤102:使用TransNet对步骤101中得到的镜头视频片段提取多帧图片:基于TransNet方法提取每个镜头片段的第一帧、中间关键帧、结尾转场帧;
对校验后的镜头视频片段进行提取多帧图片,需要提取的内容包含第一帧、中间关键帧、结尾转场帧,将步骤101中的得到的每一镜头的边界帧分别作为该镜头片段的第一帧和结尾转场帧,中间关键帧为镜头片段中经过TransNet之后的帧表征向量与其他帧表征向量计算平均余弦相似度,其中余弦相似度最大的作为关键帧;将每个视频片段提取的帧进行拼接,用于表示该片段;以此组合成一个新的时序视频序列;
余弦相似度的计算公式如下:
其中θ表示视频片段特征向量集合,A表示进行平均余弦相似度计算的视频片段特征向量,B表示视频片段集合θ中非A的视频片段的视频片段特征,m为集合θ的大小,n为单个特征向量的维度;
步骤103:基于ResNet50对多图像进行特征提取并拼接获得视频片段特征:基于ResNet50方法对每个镜头片段的第一帧、中间关键帧、结尾转场帧的图像进行特征提取,并将得到的特征向量进行拼接,作为代表该镜头片段的特征向量;
选定一个镜头作为起始镜头,将开始图像Istrat,中间关键帧图像Imiddle1...n,结尾转场图像Iend送入ResNet50预训练模型中,进行图像特征向量提取,然后经过concat操作连接第一帧、中间关键帧、结尾转场帧的特征向量,获得该镜头片段的特征向量Fnembedding,重复以上步骤,提取当前电影视频下所有镜头的特征向量;
为了获得镜头视频片段的特征向量Fnembedding,使用预训练模型ResNet50对图像进行特征提取,再将同一片段的图像特征进行拼接得到片段特征,其中ResNet50的基本结构描述如下:ResNet50模型由5个阶段组成,第1阶段是1个卷积操作,其余4个阶段都由Bottleneck组成,第2至5阶段分别包含3、4、6、3个Bottleneck;
第1个阶段:输入为(N,H,W,C),其中N表示批量样本个数,H表示高度、W表示宽度、C表示通道数,H=224,W=224,C=3;该阶段包括4个先后操作:卷积,卷积核大小为7×7;BatchNormalization;ReLU和MaxPooling,输出大小为(N,112,112,64);第2个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,112,112,64),输出大小为(N,56,56,256);
第3个阶段由4个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,55,55,256),输出大小为(N,28,28,512);
第4个阶段由6个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,28,28,512),输出大小为(N,14,14,1024);
第5个阶段由3个Bottleneck模块组成,每个Bottleneck中经过三个卷积操作,卷积核大小分别为1×1,3×3,1×1,输入大小为(N,14,14,1024),输出大小为(N,7,7,2048);
训练:使用ResNet50预训练模型;
预测:输入为步骤102中得到的每个镜头片段中包含的图像,通过对ResNet50中第5阶段得到的特征向量进行提取,提取之后将每个片段所包含的图像的特征向量进行拼接,拼接之后得到片段的特征向量Fn embedding;
步骤104:使用Transformer模型对电影片段进行预测分类:随机选出初始镜头片段,基于Transformer方法将代表镜头片段的特征向量作为输入,通过时序分类的方法预测下一个镜头片段,然后根据开端选定的镜头特征和已预测的镜头特征,继续进行预测下一镜头,直至将其串联成一个完整的视频。
2.根据权利要求1所述的方法,其特征在于,所述步骤104使用Transformer模型进行视频片段的排序,使用Transformer中的decoder部分来实现,使用多头注意力机制和mask实现下一视频片段的预测,模型的输入为步骤103中得到的视频片段的编码向量Fnembedding,先对编码向量Fnembedding加入positionalencoding,将特征Fnembedding的顺序位置信息记作Pnx;在模型训练阶段,输入特征Fnembedding与位置信息Pnx,并使用mask方法来辅助实现训练过程,在训练过程中使用mask掩盖掉后续未知片段;在测试阶段,任意选定一个视频片段的特征作为初始片段P0,从视频资源集合中分别输入视频预测模型中,选择概率最大的作为第二个视频片段,以第一个和第二个视频片段特征作为已知输入,从视频资源中通过模型选择概率最大的第三个视频片段,并以此类推,直到合成一个完整的视频;Transformer模型训练:通过Adam随机梯度反向传播算法降低Transformer训练损失函数值,得到最优解的模型;测试:将选定的作为开端的镜头特征作为输入,通过模型对一镜头的视频片段进行预测,直至完成当前电影场景内镜头视频的排序。
3.根据权利要求2所述的方法,其特征在于,模型训练阶段的训练损失函数为交叉熵损失函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460469.8A CN115022711B (zh) | 2022-04-28 | 2022-04-28 | 一种电影场景内镜头视频排序系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460469.8A CN115022711B (zh) | 2022-04-28 | 2022-04-28 | 一种电影场景内镜头视频排序系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115022711A CN115022711A (zh) | 2022-09-06 |
CN115022711B true CN115022711B (zh) | 2024-05-31 |
Family
ID=83066998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210460469.8A Active CN115022711B (zh) | 2022-04-28 | 2022-04-28 | 一种电影场景内镜头视频排序系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115022711B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116600070B (zh) * | 2023-04-28 | 2024-07-02 | 青岛尘元科技信息有限公司 | 全息视频的存储方法、装置、设备及存储介质 |
CN117692676A (zh) * | 2023-12-08 | 2024-03-12 | 广东创意热店互联网科技有限公司 | 一种基于人工智能技术的视频快速剪辑方法 |
CN117456431B (zh) * | 2023-12-26 | 2024-03-26 | 南京邮电大学 | 一种基于扩张卷积和密集连接的镜头边界检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017112448A (ja) * | 2015-12-15 | 2017-06-22 | 日本放送協会 | 映像シーン分割装置及び映像シーン分割プログラム |
CN110087097A (zh) * | 2019-06-05 | 2019-08-02 | 西安邮电大学 | 一种基于电子内窥镜的自动去除无效视频剪辑方法 |
CN110121104A (zh) * | 2018-02-06 | 2019-08-13 | 上海全土豆文化传播有限公司 | 视频剪辑方法及装置 |
CN110798752A (zh) * | 2018-08-03 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
WO2021003825A1 (zh) * | 2019-07-11 | 2021-01-14 | 平安科技(深圳)有限公司 | 视频镜头剪切的方法、装置及计算机设备 |
CN112995757A (zh) * | 2021-05-08 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 视频剪裁方法及装置 |
CN113850829A (zh) * | 2021-09-28 | 2021-12-28 | 深圳万兴软件有限公司 | 基于高效深度网络的视频镜头分割方法、装置及相关组件 |
-
2022
- 2022-04-28 CN CN202210460469.8A patent/CN115022711B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017112448A (ja) * | 2015-12-15 | 2017-06-22 | 日本放送協会 | 映像シーン分割装置及び映像シーン分割プログラム |
CN110121104A (zh) * | 2018-02-06 | 2019-08-13 | 上海全土豆文化传播有限公司 | 视频剪辑方法及装置 |
CN110798752A (zh) * | 2018-08-03 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
CN110087097A (zh) * | 2019-06-05 | 2019-08-02 | 西安邮电大学 | 一种基于电子内窥镜的自动去除无效视频剪辑方法 |
WO2021003825A1 (zh) * | 2019-07-11 | 2021-01-14 | 平安科技(深圳)有限公司 | 视频镜头剪切的方法、装置及计算机设备 |
CN112995757A (zh) * | 2021-05-08 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 视频剪裁方法及装置 |
CN113850829A (zh) * | 2021-09-28 | 2021-12-28 | 深圳万兴软件有限公司 | 基于高效深度网络的视频镜头分割方法、装置及相关组件 |
Non-Patent Citations (4)
Title |
---|
Maximum GP Lens and Post-lens Tear Film Thickness Allowed to Avoid Corneal Hypoxia for Two of the Highest GP Lenses Permeability Currently Available in the Market;Fehaid Alshammari;2019 8th International Conference on Modeling Simulation and Applied Optimization;20190227;全文 * |
剪辑视频 让家用DV作品上荧屏;张树忠;;电脑迷;20080301(05);全文 * |
基于C3D的足球视频场景分类算法;程萍;冯杰;马汉杰;许永恩;王健;;计算机系统应用;20191215(12);全文 * |
基于场记板中数字识别的自动顺片技术;周心悦;卢柃岐;钱红艳;李军;;科学技术与工程;20180508(13);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115022711A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115022711B (zh) | 一种电影场景内镜头视频排序系统及方法 | |
CN112669325B (zh) | 一种基于主动式学习的视频语义分割方法 | |
Wang et al. | Video modeling with correlation networks | |
CN110909673B (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN113343707B (zh) | 一种基于鲁棒性表征学习的场景文本识别方法 | |
CN111259782B (zh) | 基于混合多尺度时序可分离卷积操作的视频行为识别方法 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN111968150B (zh) | 一种基于全卷积神经网络的弱监督视频目标分割方法 | |
CN111526434B (zh) | 基于转换器的视频摘要方法 | |
CN108509880A (zh) | 一种视频人物行为语义识别方法 | |
CN111104555B (zh) | 基于注意力机制的视频哈希检索方法 | |
CN109255284B (zh) | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 | |
CN110110648B (zh) | 基于视觉感知与人工智能的动作提名方法 | |
CN112183468A (zh) | 一种基于多注意力联合多级特征的行人再识别方法 | |
CN111626245A (zh) | 一种基于视频关键帧的人体行为识别方法 | |
EP3438883B1 (en) | Method and apparatus for detecting a common section in moving pictures | |
CN112669324B (zh) | 基于时序特征聚合和条件卷积的快速视频目标分割方法 | |
CN108921032B (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
CN114549574A (zh) | 一种基于掩膜传播网络的交互式视频抠图系统 | |
CN108805036B (zh) | 一种非监督视频语义提取方法 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
Bilkhu et al. | Attention is all you need for videos: Self-attention based video summarization using universal transformers | |
CN112163490A (zh) | 一种基于场景图片的目标检测方法 | |
Lin et al. | Joint learning of local and global context for temporal action proposal generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |